Sabtu, 23 April 2016

Archiving Web (Prilaku Web)

Web Archiving adalah proses mengumpulkan bagian dari WWW dan memastikan koleksi tersebut diawetkan dalam suatu arsip, misalnya situs arsip, untuk diakses peneliti, sejarawan, dan masyarakat umum pada masa datang. Besarnya ukuran Web membuat arsiparis web umumnya menggunakan web crawlers untuk pengumpulan secara otomatis. Organisasi pengarsip web terbesar yang menggunakan ancangan perangkak web ini adalah Internet Archive yang berupaya memelihara arsip dari seluruh Web. Perpustakaan nasional, arsip nasional, dan berbagai konsorsium organisasi lain juga terlibat dalam upaya pengarsipan konten Web yang memiliki nilai penting bagi mereka. Perangkat lunak dan layanan komersial juga tersedia bagi organisasi yang ingin mengarsipkan konten web mereka sendiri untuk berbagai keperluan.
Arsiparis web umumnya mengumpulkan berbagai jenis konten web termasuk halaman HTML Web, style sheet, JavaScript, gambar, dan video. Arsiparsi web menggunakan archive metadata untuk sumber daya yang dikumpulkan seperti access time, MIME type, dan content length. Metadata ini berguna dalam memjaga keaslian dan asal dari koleksi arsip.

Cara kerja Web Archiving :

a. Remote Harvesting
Merupakan cara yang plaing umum dalam web archiving dengan menggunkana teknik web crawlers yang secara otomatis melakukan proses pengumpulan halaman web. Metode yang digunakan web crawler untuk mengakses halaman web sama semeprti user mengakses halaman web menggunakan wob browser. Contoh web crawler yang digunakan dalam web archiving seperti :
• Heritrix
• HTTrack
• Wget

b. On-Demand
Ada banyak layanan yang dapat digunakan sebagai sumber archive web “on-demand”, menggunakan teknik web crawling. Contohnya seperti :
Aleph Archives
• archive.is
• Archive-It
• Archivethe.net
• Compliance WatchDog by SiteQuest Technologies
• freezePAGE snapshots
• Hanzo Archives
• Iterasi
• Nextpoint
• Patrina 
• PageFreezer
• Reed Archives
• Smarsh Web Archiving 
• The Web Archiving Service 
• webEchoFS
• WebCite
• Website-Archive.com

c. Database Archiving
Databasa Archiving mengacu pada metode untuk menarsipkan konten database-driven websites. Hal ini biasanya memerlukan ekstraksi konten database ke standard schema, sering menggunakan XML. Setelah disimpan dalam format standar, konten yang diarsipkan dari beberapa databse dapat tersedia untuk diakses dengan menggunakan single access system. Motode ini digunkanan seprti pada DeepArc dan Xinq masiing masing dikembangkan oleh Bibliothèque nationale de France dan National Library of Australia.

d. Transactional archiving
Transactional archiving merupakan event-driven yang mengumpulkan transaksi yang berlangsung antara web server dan web browser. Hal ini terutama digunakan untuk menjamin keaslian dari isi suatu website, pada tanggal tertentu. Hal ini sangatlah penting untuk organisasi atau perusahaan yang perlu mematuhi persyaratan hukum atau peraturan untuk mengungkapkan dan mempertahankan informasi.
Sistem yang digunakan pada transactional archiving biasanya beroperasi dengan memeriksa setiap permintaan HTTP dan respon dari web server, menyaring setiap aktifitas untuk menghilangkan konten yang duklikat dan secara permanen disimpan sebagai bitstreams. Sebuah sistem transactional archiving membutuhkan instalasi perangkat lunak pada web server, dan karena hal itu maka metode ini tidka dapat mengumpulkan konten dari remote website.

Web archiving beralih ke halaman ini. Untuk web.archive.org, lihat Wayback Machine. Untuk format file Safari, lihat webarchive. Untuk format file Sun Microsystems, lihat WAR (Sun format file).
Artikel ini berisi daftar referensi, namun tetap tidak jelas sumber karena memiliki inline citations cukup. Harap membantu memperbaiki artikel ini dengan memperkenalkan kutipan lebih tepat. (Januari 2010)
Web pengarsipan adalah proses pengumpulan bagian dari World Wide Web untuk memastikan informasi tersebut diawetkan dalam arsip bagi para peneliti di masa depan, sejarawan, dan masyarakat umum. Arsiparis web biasanya menggunakan web crawler untuk menangkap otomatis karena ukuran besar dan jumlah informasi di Web. Organisasi web terbesar pengarsipan berdasarkan pendekatan merangkak massal adalah Internet Archive yang berusaha untuk memelihara arsip dari seluruh Web. Perpustakaan nasional, arsip nasional dan konsorsium berbagai organisasi yang juga terlibat dalam pengarsipan konten Web budaya penting. Web komersial pengarsipan perangkat lunak dan layanan juga tersedia bagi organisasi yang perlu arsip konten web mereka sendiri untuk warisan perusahaan, peraturan, atau tujuan hukum.

Arsiparis web jenis arsip umum berbagai konten web termasuk halaman web HTML, style sheet, JavaScript, gambar, dan video. Mereka juga arsip metadata tentang sumber daya dikumpulkan seperti waktu akses, tipe MIME, dan panjang konten. Metadata ini berguna dalam membangun keaslian dan asal dari koleksi arsip.

Metode pengumpulan

panen Jarak Jauh
Web yang paling umum pengarsipan teknik menggunakan web crawler untuk mengotomatisasi proses pengumpulan halaman web. Web crawler biasanya mengakses halaman web dengan cara yang sama bahwa pengguna dengan browser Web melihat, dan karena itu memberikan metode yang relatif sederhana dari konten web panen jarak jauh. Contoh web crawler yang digunakan untuk web pengarsipan meliputi:
1. Heritrix
2. HTTrack
3. Wget
4. On-demand
Ada banyak layanan yang dapat digunakan untuk sumber daya arsip web “on-demand”, menggunakan teknik web merangkak.
Aleph Arsip, menawarkan layanan web pengarsipan untuk kepatuhan peraturan dan eDiscovery bertujuan untuk perusahaan (pasar Global 500), industri hukum dan pemerintah.
archive.is, sebuah layanan gratis yang menghemat halaman dan semua gambar nya. Hal ini dapat menyimpan halaman Web 2.0.
Arsip-It, sebuah layanan berlangganan yang memungkinkan lembaga-lembaga untuk membangun, mengelola dan mencari arsip web mereka sendiri.

Archivethe.net, sebuah shared web-platform pengarsipan dioperasikan oleh Internet Research Memory, spin-off dari dasar memori internet (sebelumnya Eropa Arsip Yayasan). IM Situs
Kepatuhan Watchdog oleh SiteQuest Technologies, sebuah layanan berlangganan yang arsip website dan memungkinkan pengguna untuk menelusuri situs tersebut seperti yang muncul di masa lalu. Hal ini juga memonitor situs untuk perubahan dan personil kepatuhan peringatan jika perubahan terdeteksi.

freezePAGE snapshot, sebuah layanan gratis / langganan. Untuk melestarikan snapshot, membutuhkan login setiap hari tiga puluh untuk pengguna terdaftar, enam puluh hari untuk pengguna terdaftar.
Hanzo Arsip, menyediakan web pengarsipan, awan pengarsipan, dan media sosial pengarsipan perangkat lunak dan layanan untuk e-discovery, manajemen informasi, konten perusahaan sosial, Financial Industry Regulatory Authority, Amerika Serikat Securities and Exchange Commission, dan kepatuhan Food and Drug Administration, dan perusahaan warisan. Hanzo digunakan oleh organisasi terkemuka di banyak industri, dan lembaga pemerintah nasional. Web akses arsip adalah on-demand dalam format asli, dan termasuk pencarian teks lengkap, penjelasan, redaksi, kebijakan arsip dan browsing temporal. Hanzo terintegrasi dengan aplikasi terkemuka penemuan elektronik dan jasa.

Iterasi, Menyediakan web perusahaan pengarsipan untuk kepatuhan, litigasi, e-discovery perlindungan dan warisan merek. Bagi perusahaan perusahaan, organisasi keuangan, lembaga pemerintah dan banyak lagi.

NextPoint, menawarkan berbasis cloud otomatis, SaaS untuk kebutuhan pemasaran, kepatuhan dan litigasi terkait termasuk penemuan elektronik.

PageFreezer, berlangganan layanan SaaS untuk arsip, replay dan situs pencari, blog, web 2.0, Flash & media sosial untuk memenuhi pemasaran, eDiscovery dan peraturan dengan US Food and Drug Administration (FDA), Keuangan Industri Regulatory Authority (FINRA), US Securities and Exchange Commission, Sarbanes-Oxley Act federal Aturan Bukti dan hukum catatan manajemen. Arsip dapat digunakan sebagai bukti hukum.

Reed Arsip, menawarkan perlindungan litigasi, kepatuhan terhadap peraturan & eDiscovery dalam, industri perusahaan hukum dan pemerintah.

Smarsh Web Pengarsipan dirancang untuk menangkap, memelihara dan menciptakan kembali pengalaman web seperti ada setiap saat dalam waktu untuk kewajiban kepatuhan e-discovery dan peraturan. (Smarsh diperoleh menerus Mei 2012).

The Web Pengarsipan Layanan adalah layanan berlangganan dioptimalkan untuk lingkungan akademik dipandu oleh masukan dari pustakawan, arsiparis dan peneliti. WS menyediakan penjelajahan topikal, perbandingan perubahan dan situs-by-lokasi kontrol pengaturan penangkapan dan frekuensi. Dikembangkan dan diselenggarakan oleh University of California Pusat Kurasi di Perpustakaan Digital California.
webEchoFS, menawarkan layanan berlangganan yang diciptakan khusus untuk memenuhi kebutuhan perusahaan Jasa Keuangan peraturan periklanan subjek yang berhubungan dengan FINRA dan Investasi Act Advisors.

WebCite, sebuah layanan gratis khusus untuk penulis ilmiah, editor jurnal, dan penerbit untuk secara permanen arsip dan mengambil referensi dikutip Internet.

Situs-Archive.com, layanan berlangganan. Captures layar-tembakan halaman, transaksi dan perjalanan pengguna menggunakan “browser yang sebenarnya”. Layar-tembakan dapat dilihat secara online atau download dalam arsip bulanan. Menggunakan teknologi Cloud Pengujian.

database pengarsipan
Database pengarsipan mengacu pada metode untuk pengarsipan konten mendasari database-driven website. Hal ini biasanya memerlukan ekstraksi dari isi database ke skema standar, sering menggunakan XML. Setelah disimpan dalam format standar, isi arsip dari beberapa database kemudian dapat dibuat tersedia dengan menggunakan sistem akses tunggal. Pendekatan ini dicontohkan oleh alat DeepArc dan Xinq dikembangkan oleh Bibliothèque nationale de France dan Perpustakaan Nasional Australia masing-masing. DeepArc memungkinkan struktur database relasional yang akan dipetakan ke skema XML, dan konten diekspor ke dokumen XML. Xinq kemudian memungkinkan konten yang akan disampaikan secara online. Meskipun tata letak asli dan perilaku website tidak dapat dipertahankan dengan tepat, Xinq tidak memungkinkan query dasar dan fungsi pengambilan dapat direplikasi.

Transaksional pengarsipan
Transaksional pengarsipan adalah sebuah pendekatan event-driven, yang mengumpulkan transaksi yang sebenarnya yang terjadi antara web server dan browser web. Hal ini terutama digunakan sebagai sarana melestarikan bukti isi yang sebenarnya dilihat di situs web tertentu, pada tanggal tertentu. Hal ini mungkin sangat penting bagi organisasi yang perlu mematuhi persyaratan hukum atau peraturan untuk mengungkapkan dan mempertahankan informasi.
Sebuah sistem pengarsipan transaksional biasanya beroperasi dengan mencegat setiap permintaan HTTP untuk, dan tanggapan dari, server web, penyaringan setiap respon untuk menghilangkan duplikat konten, dan secara permanen menyimpan tanggapan sebagai bitstreams. Sebuah sistem pengarsipan transaksional memerlukan instalasi software pada server web, dan karenanya tidak dapat digunakan untuk mengumpulkan konten dari situs remote.

Sumber :
http://fryunfirst.blogspot.co.id/2013/05/web-archiving.html


Tidak ada komentar:

Posting Komentar