Web Archiving adalah proses mengumpulkan
bagian dari WWW dan memastikan koleksi tersebut diawetkan dalam suatu arsip,
misalnya situs arsip, untuk diakses peneliti, sejarawan, dan masyarakat umum
pada masa datang. Besarnya ukuran Web membuat arsiparis web umumnya menggunakan
web crawlers untuk pengumpulan secara otomatis. Organisasi pengarsip web
terbesar yang menggunakan ancangan perangkak web ini adalah Internet Archive
yang berupaya memelihara arsip dari seluruh Web. Perpustakaan nasional, arsip
nasional, dan berbagai konsorsium organisasi lain juga terlibat dalam upaya
pengarsipan konten Web yang memiliki nilai penting bagi mereka. Perangkat lunak
dan layanan komersial juga tersedia bagi organisasi yang ingin mengarsipkan
konten web mereka sendiri untuk berbagai keperluan.
Arsiparis web umumnya mengumpulkan
berbagai jenis konten web termasuk halaman HTML Web, style sheet, JavaScript,
gambar, dan video. Arsiparsi web menggunakan archive metadata untuk sumber daya
yang dikumpulkan seperti access time, MIME type, dan content length. Metadata
ini berguna dalam memjaga keaslian dan asal dari koleksi arsip.
Cara kerja Web Archiving :
a. Remote Harvesting
Merupakan cara yang plaing umum dalam
web archiving dengan menggunkana teknik web crawlers yang secara otomatis
melakukan proses pengumpulan halaman web. Metode yang digunakan web crawler
untuk mengakses halaman web sama semeprti user mengakses halaman web
menggunakan wob browser. Contoh web crawler yang digunakan dalam web archiving
seperti :
• Heritrix
• HTTrack
• Wget
b. On-Demand
Ada banyak layanan yang dapat digunakan
sebagai sumber archive web “on-demand”, menggunakan teknik web crawling.
Contohnya seperti :
• Aleph Archives
• archive.is
• Archive-It
• Archivethe.net
• Compliance WatchDog by SiteQuest
Technologies
• freezePAGE snapshots
• Hanzo Archives
• Iterasi
• Nextpoint
• Patrina
• PageFreezer
• Reed Archives
• Smarsh Web Archiving
• The Web Archiving Service
• webEchoFS
• WebCite
• Website-Archive.com
c. Database Archiving
Databasa Archiving mengacu pada metode
untuk menarsipkan konten database-driven websites. Hal ini biasanya memerlukan
ekstraksi konten database ke standard schema, sering menggunakan XML. Setelah
disimpan dalam format standar, konten yang diarsipkan dari beberapa databse
dapat tersedia untuk diakses dengan menggunakan single access system. Motode
ini digunkanan seprti pada DeepArc dan Xinq masiing masing dikembangkan oleh
Bibliothèque nationale de France dan National Library of Australia.
d. Transactional archiving
Transactional archiving merupakan
event-driven yang mengumpulkan transaksi yang berlangsung antara web server dan
web browser. Hal ini terutama digunakan untuk menjamin keaslian dari isi suatu
website, pada tanggal tertentu. Hal ini sangatlah penting untuk organisasi atau
perusahaan yang perlu mematuhi persyaratan hukum atau peraturan untuk
mengungkapkan dan mempertahankan informasi.
Sistem yang digunakan pada transactional
archiving biasanya beroperasi dengan memeriksa setiap permintaan HTTP dan
respon dari web server, menyaring setiap aktifitas untuk menghilangkan konten
yang duklikat dan secara permanen disimpan sebagai bitstreams. Sebuah sistem
transactional archiving membutuhkan instalasi perangkat lunak pada web server,
dan karena hal itu maka metode ini tidka dapat mengumpulkan konten dari remote
website.
Web archiving beralih ke halaman ini.
Untuk web.archive.org, lihat Wayback Machine. Untuk format file Safari, lihat
webarchive. Untuk format file Sun Microsystems, lihat WAR (Sun format file).
Artikel ini berisi daftar referensi,
namun tetap tidak jelas sumber karena memiliki inline citations cukup. Harap
membantu memperbaiki artikel ini dengan memperkenalkan kutipan lebih tepat.
(Januari 2010)
Web pengarsipan adalah proses
pengumpulan bagian dari World Wide Web untuk memastikan informasi tersebut
diawetkan dalam arsip bagi para peneliti di masa depan, sejarawan, dan
masyarakat umum. Arsiparis web biasanya menggunakan web crawler untuk menangkap
otomatis karena ukuran besar dan jumlah informasi di Web. Organisasi web
terbesar pengarsipan berdasarkan pendekatan merangkak massal adalah Internet
Archive yang berusaha untuk memelihara arsip dari seluruh Web. Perpustakaan
nasional, arsip nasional dan konsorsium berbagai organisasi yang juga terlibat
dalam pengarsipan konten Web budaya penting. Web komersial pengarsipan
perangkat lunak dan layanan juga tersedia bagi organisasi yang perlu arsip
konten web mereka sendiri untuk warisan perusahaan, peraturan, atau tujuan
hukum.
Arsiparis web jenis arsip umum berbagai
konten web termasuk halaman web HTML, style sheet, JavaScript, gambar, dan
video. Mereka juga arsip metadata tentang sumber daya dikumpulkan seperti waktu
akses, tipe MIME, dan panjang konten. Metadata ini berguna dalam membangun
keaslian dan asal dari koleksi arsip.
Metode pengumpulan
panen Jarak Jauh
Web yang paling umum pengarsipan teknik
menggunakan web crawler untuk mengotomatisasi proses pengumpulan halaman web.
Web crawler biasanya mengakses halaman web dengan cara yang sama bahwa pengguna
dengan browser Web melihat, dan karena itu memberikan metode yang relatif
sederhana dari konten web panen jarak jauh. Contoh web crawler yang
digunakan untuk web pengarsipan meliputi:
1. Heritrix
2. HTTrack
3. Wget
4. On-demand
Ada banyak layanan yang dapat digunakan
untuk sumber daya arsip web “on-demand”, menggunakan teknik web merangkak.
Aleph Arsip, menawarkan layanan web
pengarsipan untuk kepatuhan peraturan dan eDiscovery bertujuan untuk perusahaan
(pasar Global 500), industri hukum dan pemerintah.
archive.is, sebuah layanan gratis yang
menghemat halaman dan semua gambar nya. Hal ini dapat menyimpan halaman Web
2.0.
Arsip-It, sebuah layanan berlangganan
yang memungkinkan lembaga-lembaga untuk membangun, mengelola dan mencari arsip
web mereka sendiri.
Archivethe.net, sebuah shared web-platform pengarsipan dioperasikan
oleh Internet Research Memory, spin-off dari dasar memori internet (sebelumnya
Eropa Arsip Yayasan). IM Situs
Kepatuhan Watchdog oleh SiteQuest
Technologies, sebuah layanan berlangganan yang arsip website dan memungkinkan
pengguna untuk menelusuri situs tersebut seperti yang muncul di masa lalu. Hal
ini juga memonitor situs untuk perubahan dan personil kepatuhan peringatan jika
perubahan terdeteksi.
freezePAGE snapshot, sebuah layanan gratis / langganan. Untuk
melestarikan snapshot, membutuhkan login setiap hari tiga puluh untuk pengguna
terdaftar, enam puluh hari untuk pengguna terdaftar.
Hanzo Arsip, menyediakan web
pengarsipan, awan pengarsipan, dan media sosial pengarsipan perangkat lunak dan
layanan untuk e-discovery, manajemen informasi, konten perusahaan sosial,
Financial Industry Regulatory Authority, Amerika Serikat Securities and Exchange
Commission, dan kepatuhan Food and Drug Administration, dan perusahaan warisan.
Hanzo digunakan oleh organisasi terkemuka di banyak industri, dan lembaga
pemerintah nasional. Web akses arsip adalah on-demand dalam format asli, dan
termasuk pencarian teks lengkap, penjelasan, redaksi, kebijakan arsip dan
browsing temporal. Hanzo terintegrasi dengan aplikasi terkemuka penemuan
elektronik dan jasa.
Iterasi, Menyediakan web perusahaan pengarsipan untuk
kepatuhan, litigasi, e-discovery perlindungan dan warisan merek. Bagi
perusahaan perusahaan, organisasi keuangan, lembaga pemerintah dan banyak lagi.
NextPoint, menawarkan berbasis cloud otomatis, SaaS untuk
kebutuhan pemasaran, kepatuhan dan litigasi terkait termasuk penemuan
elektronik.
PageFreezer, berlangganan layanan SaaS untuk arsip, replay dan
situs pencari, blog, web 2.0, Flash & media sosial untuk memenuhi
pemasaran, eDiscovery dan peraturan dengan US Food and Drug Administration
(FDA), Keuangan Industri Regulatory Authority (FINRA), US Securities and
Exchange Commission, Sarbanes-Oxley Act federal Aturan Bukti dan hukum catatan
manajemen. Arsip dapat digunakan sebagai bukti hukum.
Reed Arsip, menawarkan perlindungan litigasi, kepatuhan terhadap
peraturan & eDiscovery dalam, industri perusahaan hukum dan pemerintah.
Smarsh Web Pengarsipan dirancang untuk menangkap,
memelihara dan menciptakan kembali pengalaman web seperti ada setiap saat dalam
waktu untuk kewajiban kepatuhan e-discovery dan peraturan. (Smarsh diperoleh
menerus Mei 2012).
The Web Pengarsipan Layanan adalah layanan berlangganan
dioptimalkan untuk lingkungan akademik dipandu oleh masukan dari pustakawan,
arsiparis dan peneliti. WS menyediakan penjelajahan topikal, perbandingan
perubahan dan situs-by-lokasi kontrol pengaturan penangkapan dan frekuensi.
Dikembangkan dan diselenggarakan oleh University of California Pusat Kurasi di
Perpustakaan Digital California.
webEchoFS, menawarkan layanan
berlangganan yang diciptakan khusus untuk memenuhi kebutuhan perusahaan Jasa
Keuangan peraturan periklanan subjek yang berhubungan dengan FINRA dan
Investasi Act Advisors.
WebCite, sebuah layanan gratis khusus untuk penulis ilmiah,
editor jurnal, dan penerbit untuk secara permanen arsip dan mengambil referensi
dikutip Internet.
Situs-Archive.com, layanan berlangganan.
Captures layar-tembakan halaman, transaksi dan perjalanan pengguna menggunakan
“browser yang sebenarnya”. Layar-tembakan dapat dilihat secara online atau
download dalam arsip bulanan. Menggunakan teknologi Cloud Pengujian.
database pengarsipan
Database pengarsipan mengacu pada metode
untuk pengarsipan konten mendasari database-driven website. Hal ini biasanya
memerlukan ekstraksi dari isi database ke skema standar, sering menggunakan
XML. Setelah disimpan dalam format standar, isi arsip dari beberapa database
kemudian dapat dibuat tersedia dengan menggunakan sistem akses tunggal.
Pendekatan ini dicontohkan oleh alat DeepArc dan Xinq dikembangkan oleh
Bibliothèque nationale de France dan Perpustakaan Nasional Australia masing-masing.
DeepArc memungkinkan struktur database relasional yang akan dipetakan ke skema
XML, dan konten diekspor ke dokumen XML. Xinq kemudian memungkinkan konten yang
akan disampaikan secara online. Meskipun tata letak asli dan perilaku website
tidak dapat dipertahankan dengan tepat, Xinq tidak memungkinkan query dasar dan
fungsi pengambilan dapat direplikasi.
Transaksional pengarsipan
Transaksional pengarsipan adalah sebuah
pendekatan event-driven, yang mengumpulkan transaksi yang sebenarnya yang
terjadi antara web server dan browser web. Hal ini terutama digunakan sebagai
sarana melestarikan bukti isi yang sebenarnya dilihat di situs web tertentu,
pada tanggal tertentu. Hal ini mungkin sangat penting bagi organisasi yang
perlu mematuhi persyaratan hukum atau peraturan untuk mengungkapkan dan
mempertahankan informasi.
Sebuah sistem pengarsipan transaksional
biasanya beroperasi dengan mencegat setiap permintaan HTTP untuk, dan tanggapan
dari, server web, penyaringan setiap respon untuk menghilangkan duplikat
konten, dan secara permanen menyimpan tanggapan sebagai bitstreams. Sebuah
sistem pengarsipan transaksional memerlukan instalasi software pada server web,
dan karenanya tidak dapat digunakan untuk mengumpulkan konten dari situs
remote.
Sumber :
http://fryunfirst.blogspot.co.id/2013/05/web-archiving.html
Tidak ada komentar:
Posting Komentar