Berikut ini adalah
contoh-contoh dari Crawler :
1. Teleport
Pro
Salah
satu software web crawler untuk keperluan offline browsing. Software ini sudah
cukup lama popular, terutama pada saat koneksi internet tidak semudah dan
secepat sekarang. Software ini berbayar dan beralamatkan di http://www.tenmax.com.
2. HTTrack
Ditulis
dengan menggunakan C, seperti juga Teleport Pro, HTTrack merupakan software
yang dapat mendownload konten website menjadi sebuah mirror pada harddisk anda,
agar dapat dilihat secara offline. Yang menarik software ini free dan dapat di
download pada website resminya di http://www.httrack.com
3. Googlebot
Merupakan
web crawler untuk membangun index pencarian yang digunakan oleh search engine
Google. Kalau website anda ditemukan orang melalui Google, bisa jadi itu
merupakan jasa dari Googlebot. Walau konsekuensinya, sebagian bandwidth anda
akan tersita karena proses crawling ini.
4. Yahoo!Slurp
Kalau
Googlebot adalah web crawler andalan Google, maka search engine Yahoo
mengandalkan Yahoo!Slurp. Teknologinya dikembangkan oleh Inktomi Corporation
yang diakuisisi oleh Yahoo!.
5. YaCy
Sedikit
berbeda dengan web crawler lainnya di atas, YaCy dibangun atas prinsip
jaringan P2P (peer-to-peer), di develop dengan menggunakan java, dan
didistribusikan pada beberapa ratus mesin computer (disebut YaCy peers).
Tiap-tiap peer di share dengan prinsip P2P untuk berbagi index, sehingga tidak
memerlukan server central.
Cara Kerja Web Crawler
Web crawler atau yang dikenal juga dengan
istilah web spider bertugas untuk mengumpulkan semua informasi yang ada di
dalam halaman web. Web crawler bekerja secara otomatis dengan cara memberikan
sejumlah alamat website untuk dikunjungi serta menyimpan semua informasi yang terkandung
didalamnya. Setiap kali web crawler mengunjungi sebuah website, maka web
crawler tersebut akan mendata semua link yang ada dihalaman yang dikunjunginya
itu untuk kemudian di kunjungi lagi satu persatu. Proses web crawler dalam
mengunjungi setiap dokumen web disebut dengan web crawling atau spidering.
Beberapa websites, khususnya yang berhubungan dengan pencarian menggunakan
proses spidering untuk memperbaharui data data mereka. Web crawler biasa
digunakan untuk membuat salinan secara sebagian atau keseluruhan halaman web
yang telah dikunjunginya agar dapat di proses lebih lanjut oleh system
pengindexan. Crawler dapat juga digunakan untuk proses pemeliharaan sebuah
website, seperti memvalidasi kode html sebuah web, dan crawler juga digunakan
untuk memperoleh data yang khusus seperti mengumpulkan alamat e-mail.
Web crawler termasuk kedalam bagian software
agent atau yang lebih dikenal dengan istilah program bot. Secara umum crawler
memulai prosesnya dengan memberikan daftar sejumlah alamat website untuk
dikunjungi, disebut sebagai seeds. Setiap kali sebuah halaman web dikunjungi,
crawler akan mencari alamat yang lain yang terdapat didalamnya dan menambahkan
kedalam daftar seeds sebelumnya
Sumber :
https://211093awan.wordpress.com/2013/07/04/tugas-keempat-softskills-semester-4-web-content-structure-web-analysis-web/
Tidak ada komentar:
Posting Komentar