Web ARChive

aus Wikipedia, der freien Enzyklopädie
Web ARChive
Dateiendung: .warc
MIME-Type: application/warc[1]
Standard(s): ISO 28500:2017[2]
Website: https://github.com/iipc/awesome-web-archiving

Das Web ARChive (WARC) Archivformat spezifiziert ein Verfahren zum Kombinieren mehrerer digitaler Ressourcen in einer aggregierten Archivdatei mit zugehörigen Metadaten. Das WARC-Format ist eine Überarbeitung des ARC-Dateiformats des Internet Archive, das traditionell zum Speichern von „Webcrawls“ als Sequenzen von Inhaltsblöcken aus dem World Wide Web verwendet wird. Das WARC-Format verallgemeinert das ältere Format, um die Anforderungen von Archivierungsunternehmen für die Erfassung, den Zugriff und den Austausch besser zu unterstützen. Neben dem aktuell aufgezeichneten Primärinhalt berücksichtigt die Revision auch verwandte Sekundärinhalte, wie zugewiesene Metadaten.

WARC wird heute von den meisten nationalen Bibliothekssystemen als Standard für die Webarchivierung anerkannt.

Aufbau

Eine WARC-Datei besteht aus einem oder mehreren Records. Ein Record besteht dabei aus:

  • Kopfzeile bzw. Header, in dem verpflichtende Metadatenfelder (unter anderem die URL, das Datum, Typ und Länge des Records) eingetragen werden.
  • dem Content-Block, in dem der eigentliche Inhalt steht. Hier liegt im sogenannten "WARC record payload" die gespeicherte Ressource vor.

Im Standard werden acht verschiedene Record-Typen vordefiniert:

  1. warcinfo – Befindet sich in der Regel am Anfang der WARC-Datei. Der Record enthält allgemeine Informationen über die darauffolgenden Records, normalerweise also über die Datei selbst. Zu den Metadaten gehören u. a. Name und Emailadresse des Erstellers, außerdem Useragent, IP-Adresse, HTTP-Header und Software, die bei der Archivierung der Daten verwendet wurden.
  2. response – Enthält die vollständige Antwort (Response nach Client-Server-Modell) eines Webservers inklusiver ausführlicher Netzwerk- und Protokollinformationen. Folglich befinden sich in dessen Content-Blocks meist die zu speichernde Ressource.
  3. resource – Falls es nicht möglich oder nicht erwünscht ist, sämtliche Protokollinformationen mit zu speichern, ist ein Ressource-Record für die einfache Speicherung einer Ressource optimal.
  4. request – Gegenstück zum Response-Record. Enthält Anfrage und zugehörige Informationen, die zur Zeit des Crawls an den Webserver gesendet wurden.
  5. metadata – Beliebige Metadaten werden hier abgelegt. Fast immer beziehen sich diese auf einen anderen Record, welcher über die Felder WARC-Concurrent-To oder WARC-Refers-To.
  6. revisit – Wird typischerweise verwendet, falls ein schon archivierter Inhalt nochmals besucht wird. Dabei wird relativ zur schon archivierten Ressource nur ein gekürzter Content-Block gespeichert. Dadurch kann unnötige Redundanz vermieden und Speicherplatz gespart werden.
  7. conversion – Zweck eines Conversion-Records ist es, die Inhalte eines vorhandenen Records in einem anderen Format zu speichern.
  8. continuation – Der Continuation-Record (englisch für Fortsetzung) ermöglicht es, große Datenmengen über mehrere WARC-Dateien zu verteilen.

Zwar spezifiziert der WARC-Standard keine Kompression, jedoch kann diese ohne Probleme zur Reduzierung der Speichermenge verwendet werden. Empfohlen wird dabei vom IIPC das GZIP-Format. Deshalb findet man WARC-Dateien öfters mit der Dateiendung ".warc.gz" vor.

Software

Online Dienste

Einzelnachweise

  1. application/warc. Abgerufen am 17. März 2018.
  2. Information and documentation -- WARC file format. Abgerufen am 16. März 2018.
  3. Giuseppe Scrivano: GNU wget 1.14 released. In: GNU wget 1.14 released. Free Software Foundation, Inc.. 6. August 2012. Abgerufen am 25. Februar 2016.

Weblinks