Web crawler adalah suatu program atau
script otomat yang relatif simple, yang dengan metode tertentu melakukan scan
atau “crawl” ke semua halaman-halaman Internet untuk membuat index dari data
yang dicarinya. Nama lain untuk web crawl adalah web spider, web robot, bot,
crawl dan automatic indexer.
Web crawl
dapat digunakan untuk beragam tujuan. Penggunaan yang paling umum adalah yang
terkait dengan search engine. Search engine menggunakan web crawl untuk
mengumpulkan informasi mengenai apa yang ada di halaman-halaman web publik.
Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna Internet
mengetikkan kata pencarian di komputernya, search engine dapat dengan segera
menampilkan web site yang relevan.
Ketika web crawl suatu search engine
mengunjungi halaman web, ia “membaca” teks yang terlihat, hyperlink, dan konten
berbagai tag yang digunakan dalam situs seperti meta tag yang banyak berisi
keyword. Berdasar informasi yang dikumpulkan web crawl, search engine akan
menentukan mengenai apakah suatu situs dan mengindex informasinya. Website itu
kemudian dimasukkan ke dalam database search engine dan dilakukan proses
penentuan ranking halaman-halamannya.
Namun search engine bukanlah
satu-satunya pengguna web crawl. Linguist bisa menggunakan web crawl untuk
melakukan analisis tekstual; yakni, mereka bisa menyisir Internet untuk
menentukan kata apa yang paling umum digunakan hari ini. Peneliti pasar dapat
menggunakan web crawl untuk menentukan dan memanipulasi trend pada suatu pasar
tertentu. Ini semua merupakan contoh beragam penggunaan web crawl. Web crawl
dapat digunakan oleh siapapun yang melakukan pencarian informasi di Internet.
Web crawl bisa beroperasi hanya sekali,
misalnya untuk suatu projek yang hanya sekali jalan, atau jika tujuannya untuk
jangka panjang seperti pada kasus search engine, mereka bisa diprogram untuk
menyisir Internet secara periodik untuk menentukan apakah sudah berlangsung
perubahan signifikan. Jika suatu situs mengalami trafik sangat padat atau
kesulitan teknis, spider atau crawl dapat diprogram untuk mencatat hal ini dan
mengunjunginya kembali setelah kesulitan teknis itu terselesaikan
Sumber :
https://djuyadi.wordpress.com/2010/03/06/web-crawl-web-spider-web-robot-bot-crawl-automatic-indexer/
Tidak ada komentar:
Posting Komentar