Langzeitarchivierung

aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von Digitales Vergessen)

Unter Langzeitarchivierung (LZA) versteht man die Erfassung, die langfristige Aufbewahrung und die Erhaltung der dauerhaften Verfügbarkeit von Informationen. Vor allem bei der Langzeitarchivierung digital vorliegender Informationen (digital preservation) stellen sich neue Probleme. „Langzeit“ bedeutet für die Bestandserhaltung digitaler Ressourcen nicht die Abgabe einer Garantieerklärung über fünf oder fünfzig Jahre, sondern die verantwortliche Entwicklung von Strategien, die den beständigen, vom Informationsmarkt verursachten Wandel bewältigen können.[1]

Definition

Eine allgemein gültige Definition des Begriffs existiert bislang nicht. Da Archive Archivalien zunächst immer „für die Ewigkeit“ aufbewahren, handelt es sich bei dem Begriff Langzeitarchiv zudem um einen Pleonasmus, außerdem suggeriert er, so der Beitrag von Reinhard Altenhöner und Sabine Schrimpf, einen statischen Zustand. Beide plädieren deshalb für die Bezeichnung „Langzeitverfügbarkeit“ (LZV).[2]

Da viele der Probleme der digitalen Langzeitarchivierung erst nach etwa zehn Jahren auftreten, etwa große Versionssprünge der verwendeten Software, wird dieser Wert als Schranke für die Überlegungen zur Langzeitarchivierung verwendet. Zudem lässt sich so die Langzeitarchivierung von der Datensicherung abgrenzen.

Probleme

Während physische Objekte seit langer Zeit unter anderem in Archiven, Museen und Bibliotheken aufbewahrt und erhalten werden, stellen sich bei elektronischen Publikationen ganz neue Probleme. Werden Daten analog gespeichert, verschlechtert sich die Datenqualität mit der Degradierung des Mediums, weshalb der Schwerpunkt auf der Erhaltung des Mediums liegt. Digital gespeicherte Daten hingegen können bei kleinen Fehlern im Medium durch geeignete Formatierung rekonstruiert werden, wodurch eine konstante Datenqualität trotz Verschlechterung des Mediums gewährleistet werden kann. Sollten diese Fehler im Medium zu groß werden, können die Daten nicht mehr vollständig rekonstruiert werden und gehen damit unwiederbringlich verloren („digitales Vergessen“). Daher liegt der Schwerpunkt bei der Langzeitarchivierung digitaler Daten nicht mehr auf der Erhaltung des Mediums, sondern der rechtzeitigen Kopierung vor dem Datenverlust. Da sich mit der Zeit die Medien (bspw. Magnetband und DVD), Formate und Lese-/Schreibgeräte zur digitalen Speicherung rasch verändern, fordert die regelmäßige Prüfung und Kontinuität über die Veränderungen hinweg ständige Aufmerksamkeit und langfristige Planung. Bei der Übertragung auf neue Systeme bereiten unter anderem proprietäre Formate und urheberrechtliche Beschränkungen Probleme.

Haltbarkeit der Trägermedien

Während beispielsweise altes Pergament und Papier bei guter Lagerung viele hundert Jahre haltbar sind, trifft dies auf neue Speichermedien nicht zu.[3] Die meisten Publikationen aus der ersten Hälfte des 20. Jahrhunderts sind auf Papier gedruckt, das sich durch Säurefraß zersetzt. Bei älteren Druckwerken und Handschriften stellen sich andere Probleme: Wurde Eisengallustinte bei der Herstellung verwendet, kann durch unausgewogene Mischungen der Tintenbestandteile ein Tintenfraß einsetzen. Dieser entsteht, wenn in der Tinte ein Gallussäure­überschuss oder Eisenvitriol­überschuss vorherrscht. Die Zellulose wird so ähnlich angegriffen wie beim Säurefraß, und das Papier kann durch unterschiedliche und sich verändernde Feuchtigkeitsniveaus entlang der Buchstabenlinien brechen.

Auch analoge Filme, Fotos und Magnetbänder haben nur eine begrenzte Haltbarkeit. Noch kürzer ist die Lebensdauer bei digitalen Speichermedien wie Disketten, Festplatten und gebrannten CDs/DVDs. Digitale Datenträger verlieren ihre medienspezifisch strukturierten Daten entweder durch Umwelteinflüsse (zum Beispiel durch hinreichend starke Magnetfelder in der Nähe von Disketten und Magnetbändern), oder eine Datenstruktur wird durch chemische oder physikalische Einwirkungen so stark verändert, so dass in ihr keine Daten mehr gespeichert werden können, oder bereits geschriebene Daten gar nicht mehr auslesbar sind (zum Beispiel bei hinreichend langer UV-Strahlungseinwirkung auf CD-ROMs). Oft scheitert die Datenlesbarkeit auch nur daran, dass zu einem späteren Zeitpunkt die passenden Lesegeräte und Programme zur Lesbarmachung nicht mehr verfügbar sind, oder dass ältere Datenformatierungsstandards nicht mehr interpretiert werden können, oder dass bei sehr alten Datenlesegeräten deren technische Schnittstellen nicht mehr unterstützt werden. Um den vorgenannten Problemen zu entgehen, kann es sinnvoll sein, bestimmte ausgewählte, elektronisch gespeicherte Daten (wieder) in die nichtelektronische Form (zurück) zu wandeln und diese – sozusagen als modernes Äquivalent der kulturellen Gewohnheit unserer Vorfahren, wichtige Daten dauerhaft in Stein zu meißeln – per Ionenstrahl in eine nahezu unverwüstliche Nickelplatte einzugravieren.

Ein anderes Verfahren, Bilder und Texte in analog lesbarer Form dauerhaft aufzubewahren, ist, diese mittels keramischer Farbkörper auf Steinzeugplatten aufzubrennen.

Das Projekt

(MOM) speichert Abbildungen musealer Kulturgüter sowie alltagskultureller Erzeugnisse auf Steinzeugplatten und lagert diese in Kammern im Salzberg von Hallstatt ein. Die theoretische Haltbarkeit ist mit hunderttausenden Jahren angegeben. Belegt ist die Haltbarkeit eines keramischen Datenträgers zumindest für 5000 Jahre (Keilschrifttafeln).

Haltbarkeit einiger Datenträger bei 20 °C und 50 % rel. Luftfeuchte
Medium Erwartete Haltbarkeit Aufzeichnungsdichte (kbit/kg)
Keramiktafeln 5000 Jahre (gesichert), vermutlich mehrere 10.000 Jahre
Steinzeugtafeln mit aufgebranntem keramischem Farbdruck mehrere 100.000 Jahre, wenn erosionsgeschützt (vermutet)
Steintafeln und Steinmalereien mehrere 1.000 Jahre (gesichert) 1×10−3 – 1
Nickelplatte mehrere 1.000 Jahre (vermutet)
Bücher und Handschriften aus säurefreiem Papier und
mit säure- und eisenfreier Tinte
mehrere 100 Jahre (gesichert) 3×103 – 3×104
Bücher und Handschriften aus säurehaltigem Papier
(insbesondere Druckwerke des 19. und frühen 20. Jahrhunderts)
70 – 100 Jahre
Zeitungspapier analog zu säurehaltigem / -freien Buchdruckpapier
Filme auf Zelluloid (Cellulosenitrat) mehr als 100 Jahre (gesichert), vermutlich bis zu 400 Jahre
Filme auf Cellulosetriacetat 44 Jahre (gesichert)
Filme auf Polyethylenterephthalat (PET) Farbfilm bis zu 150 Jahre (vermutet)

Schwarz/Weiß-Film bis zu 700 Jahre (vermutet)

Optische Speichermedien
(gebrannt)b
  • CD-R: 5 – 10 Jahre
  • CD-RW: unklar, weniger als DVD-RAM vermutet
  • DVD-ROM: unklar, weniger als DVD-RAM vermutet
  • DVD±R: unklar, weniger als DVD-RAM vermutet
  • DVD±RW: unklar, weniger als DVD-RAM vermutet
  • DVD-RAM: 30 Jahre (vermutet)
  • DVD-R mit 24k-Gold-Reflexionsschicht: bis zu 100 Jahre beworben[4]
  • M-DISC (modifizierte DVD, BD, oder BDXL): laut Hersteller bis zu 1.000 Jahre
  • BD-R: bis zu 50 Jahre (laut Labortests)
  • CD: 4×108
  • DVD: 2 – 4×109
  • BD: 2 – 4×1010
Optische Speichermedien (gepresst)
  • CD: unter Idealbedingungen geschätzt 50 – 80 Jahre a [5]
  • DVD: min. 100 Jahre (vermutet)
  • BD: 82 – 85 Jahre (vermutet)
  • GlassMasterDisc (Daten in Glas graviert): mehr als 1.000 Jahre (Herstellerangabe)
Disketten als Archivmedien (gelagert) 10 – 30 Jahre (datendichteabhängig?)[6][7]
  • 5,25" HD-Diskette: 4,80×105
  • 3,5" DD-Diskette: 2,80×105
  • 3,5" HD-Diskette: 5,76×105
Festplattenlaufwerke im laufenden Betrieb 2 – 10 Jahre, je nach täglicher Betriebsdauer[8][9], im Mittel 5 Jahre[10][11]
Festplattenlaufwerke als Archivmedien (gelagert) 10 – 30 Jahre[6]
Flash-Speicher (gelagert) 2 – 10 Jahre[12][13]
Magnetbänder > 30 Jahre (gesichert)[6]
Magneto Optical Disk (MO-Disk) 30 – 50 Jahre[14]
Iomega-REV-Wechsellaufwerk bis zu 30 Jahre (vermutet)
a Ende der 1980er Jahre wurde mitunter pilzanfälliger oder sauerstoffdurchlässiger Kunststoff bzw. aggressive Farbe beim Bedrucken verwendet, was die Datenstabilität reduziert.
b Aufgrund der Tatsache, dass es bei doppelschichtigen DVD±Rs systembedingt zu Leseproblemen kommen könnte werden einschichtige (4,7 GB) DVD±Rs empfohlen.[15]

Schneller Medien- und Systemwandel

Insbesondere bei digital gespeicherten Informationen besteht die zusätzliche Problematik, dass Daten nicht mehr zugänglich sind, obwohl das Medium selbst erhalten ist.

Auslesbarkeit des Speichermediums

Um auf gespeicherte Informationen zugreifen zu können, muss das jeweilige Trägermedium (aus)gelesen werden können. Bei einigen Medien wie Steintafeln oder Büchern kann dies einem Menschen auch ohne Hilfsmittel möglich sein. Bei digital gespeicherten Medien ist zumeist ein entsprechendes Lesegerät, oft ein Laufwerk, notwendig. Sind keine Lesegeräte mehr erhältlich, beispielsweise durch technologischen Wandel, so können die Daten nicht mehr, oder nur noch unter Schwierigkeiten, ausgelesen werden. Ein Beispiel sind veraltete Bandformate.

Veraltete Datenformate

Auch wenn das Speichermedium erhalten und es noch lesbar ist, könnte unter Umständen ein Zugriff auf die gespeicherten Daten unmöglich sein. Da digital gespeicherte Daten nicht unmittelbar zugänglich vorliegen, sondern digital codiert und medienspezifisch strukturiert sind, ist es nur möglich, diese Daten zu lesen, sofern ein Programm und ein Betriebssystem vorliegen, welche den Inhalt einer Datei „verstehen“. Da viele Betriebssysteme und Programme ein eigenes (proprietäres) Verfahren einsetzen, um die Daten zu codieren, kann die Datenlesbarkeit nicht mehr sicher gegeben sein, sobald ein Betriebssystem oder ein Programm nicht stetig weiter gepflegt wird. Verschärft wird dieses Problem durch die Politik vieler Softwarehersteller, neue Programmversionen mit veränderten Datenspeicherformaten zu veröffentlichen, welche ältere Datenspeicherformate des gleichen Programms nicht mehr vollständig nutzen können.

Weitere Beschränkungen

Proprietäre Systeme und urheberrechtliche Beschränkungen erschweren das zur Langzeitarchivierung notwendige Umkopieren und Migrieren von Daten, weil die dafür notwendigen Schritte nicht bekannt bzw. erlaubt sind. Vor allem die Einführung von Digitaler Rechteverwaltung (DRM) wird das Problem in Zukunft noch verstärken. Ein derartiges Regelwerk für digitale Daten bzw. Dokumente ist deshalb notwendig, weil ebenso wie bei herkömmlichen Daten urheberrechtliche Fragen vor einer möglichen Archivierung geklärt werden müssen. Der Unterschied zwischen herkömmlichen Daten und elektronischen Dokumenten ergibt sich daraus, dass bei letzteren Kopie und Original praktisch nicht zu unterscheiden sind. Insbesondere bei der Migration von Dokumenten ist es notwendig, Kopien zu erstellen und evtl. Originaldokumente zu verändern. Daher ist das Einverständnis des Urhebers für solche Maßnahmen vorab einzuholen. Weitere Kopien, die an Leser von Dokumenten ausgehändigt werden, sind angemessen zu honorieren und müssen gegebenenfalls mit Sperrvermerken verbunden werden, wenn eine unentgeltliche Weitergabe nicht erlaubt ist.[16]

Auffinden von Informationen

Es ist nicht ausreichend, Originaldaten nur zu kopieren: Sie müssen auf dem neuen Medium auch wiedergefunden werden können. Daher müssen bestimmte Zusatzdaten zu Struktur und Inhalt der Originaldaten, sogenannte Metadaten, in Kataloge, Datenbanken oder andere Findmittel mit eingetragen werden, um für eine spätere Datenauslesung oder Suche zur Verfügung zu stehen.

Datenkonsistenz

Ein oft übersehenes Problem bei der Langzeitarchivierung wie auch bei der Kurzzeitarchivierung ist die Überprüfung der Fehlerfreiheit der Daten. Daten können absichtlich modifiziert werden, aber auch durch Systemfehler unbemerkt verändert werden.

Ein Ausweg könnte hier die verteilte Speicherung an verschiedenen Orten bei verschiedenen Organisationen und die Absicherung mit verteilt gespeicherten kryptographischen Prüfsummen sein. Dies wird u. a. mit der Open-Source Lösung LOCKSS praktiziert. In Deutschland existiert ebenfalls ein deutsches Projekt (LuKII), das dieser Forderung nachkommt.

Verfahren

Grundsätzlich lassen sich bei der elektronischen Archivierung Methoden der Migration/Konversion und der Emulation unterscheiden.

Durch den Einsatz von offenen Standards wie zum Beispiel Grafikformaten (TIFF, PNG, JFIF) oder freien Dokumentenformaten (XML, PDF/A, OpenDocument), die als relativ langlebig betrachtet werden und deren Aufbau öffentlich bekannt ist, sind die Zyklen, nach denen gespeicherte Daten umformatiert werden müssen, länger. Die Wahrscheinlichkeit, dass es in einigen Jahren noch Systeme und Programme gibt, die solche Daten lesen können, ist somit deutlich höher.

Um den Verlust von Daten durch die Alterung von Datenträgern zu verhindern, müssen die Daten regelmäßig innerhalb der garantierten Datensicherheitsdauer eines Mediums auf neue Datenträger kopiert werden. Dadurch kann auch auf ein neues Trägerformat gewechselt werden, sobald das bisher genutzte durch die technische Weiterentwicklung obsolet geworden ist.

Die hohen Kosten, die durch diese Pflege der Datenbestände entstehen, haben allerdings zur Folge, dass nur die wichtigsten Daten derart konserviert werden können. Die heutige Daten- und Metadatenflut, welche nicht zuletzt durch die stetig zunehmende Nutzung digitaler Datenverarbeitungssysteme entsteht, verschärft die Problematik der bestmöglichen Einordnung speicherungsrelevanter Datenmengen zusätzlich.[17] Der Anteil der langfristig gespeicherten Daten wird notwendigerweise relativ gering sein, was an die Auswahl der datentechnisch zu sichernden Informationen hohe technische und anderweitig fachspezifische Anforderungen stellt.[18] Ein zusätzliches Problem entsteht durch das Auseinanderdriften des Verhältnisses zwischen Datenvolumen und Datenbandbreite. Das Volumen wächst deutlich schneller als die zur Verfügung stehende Bandbreite, um Daten von einem Medium auf ein anderes zu übertragen. Dies betrifft nicht nur die Daten im staatlichen und kommerziellen Bereich. Auch im Privatbereich werden herkömmliche, oftmals langfristig lagerfähige Medien durch leichter handhabbare digitale Medien ersetzt (Fotografien und Negative durch digitale Bilder auf einer CD-ROM).[19]

Für die Langzeitarchivierung sind in Deutschland die Pflichtexemplarbibliotheken und die Archive zuständig.[20]

Siehe auch

Literatur

Weblinks

Wikibooks: Langzeitarchivierung – Lern- und Lehrmaterialien

Einzelnachweise

  1. Ute Schwens, Hans Liegmann: Langzeitarchivierung digitaler Ressourcen. In: Rainer Kuhlen, Thomas Seeger, Dietmar Strauch (Hrsg.): Grundlagen der praktischen Information und Dokumentation. 5., völlig neu gefasste Ausgabe. München: Saur, 2004, S. 567.
  2. Reinhard Altenhöner, Sabine Schrimpf: Bestandserhaltung und Langzeitverfügbarkeit digitaler Ressourcen: Strategie, Organisation und Techniken. In: Rolf Griebel, Hildegard Schäffler und Konstanze Söllner (Hrsg.): Praxishandbuch Bibliotheksmanagement. De Gruyter Saur, Berlin 2014, ISBN 978-3-11-030293-6, S. 850–872.
  3. Lothar Schmitz, Uwe M Borghoff, Peter Rödig, Jan Scheffczyk: Langzeitarchivierung. In: Informatik-Spektrum. Band 28, Nr. 6, 1. Dezember 2005, ISSN 1432-122X, S. 489, doi:10.1007/s00287-005-0039-7.
  4. Archiv-DVDs im Langzeittest -c't-Archiv, 16/2008, Seite 116. (Nicht mehr online verfügbar.) In: heise.de. 16. August 2011, archiviert vom Original am 23. Juli 2008; abgerufen am 20. Februar 2015.
  5. mp: Ein einheitlicher Standard für die Flut digitaler Daten. 10. März 2008, abgerufen am 27. Oktober 2012.
  6. a b c Michael W. Gilbert: Digital Media Life Expectancy and Care. (Nicht mehr online verfügbar.) University of Massachusetts Amherst, 1998, archiviert vom Original am 22. Dezember 2003; abgerufen am 4. Januar 2011 (englisch).
  7. Bit Rot. Software Preservation Society, 7. Mai 2009, abgerufen am 4. Januar 2011 (englisch).
  8. Google-Studie zur Ausfallursache von Festplatten. In: heise.de. 16. Februar 2007, abgerufen am 20. Februar 2015.
  9. Google Studie zur Haltbarkeit von Festplatten im Dauerbetrieb (Memento vom 13. Februar 2009 im Internet Archive) (PDF; 247 kB): Abschnitt 3.1, Figure 2(englisch)
  10. kfr: Festplatten & Flash-Speicher: Spaß mit Risikopotenzial. In: speicherguide.de. 29. Juni 2006, archiviert vom Original am 24. September 2015; abgerufen am 17. September 2015.
  11. Haltbarkeit von Speichermedien: Wo Daten richtig liegen. In: netzwelt.de. 22. April 2007, abgerufen am 20. Februar 2015.
  12. Tom Coughlin: Keeping Data For A Long Time. Abgerufen am 3. Januar 2021 (englisch).
  13. Datensicherung › Wiki › ubuntuusers.de. Abgerufen am 3. Januar 2021.
  14. Henrik Stamm: MO-Technologie. Institut für Informatik der Humboldt-Universität zu Berlin, 26. Mai 2001, abgerufen am 17. September 2015.
  15. Hartmut Gieselmann: DVDs im Langzeittest – c't. In: heise.de. 21. Juli 2008, abgerufen am 20. Februar 2015.
  16. Uwe M. Borghoff u. a.: Langzeitarchivierung. Methoden zur Erhaltung digitaler Dokumente. dpunkt.-Verl., Heidelberg 2003, S. 21.
  17. Frank Dickmann: Langzeitarchivierung von Forschungsdaten : Wie geht man mit Peta- und Exabytes um? In: Deutsches Ärzteblatt Supplement: Praxis. Band 108, Nr. 41, 2011, S. 6–8 (uni-goettingen.de [abgerufen am 24. März 2020]).
  18. Heike Neuroth, Stefan Strathmann, Achim Oßwald, Regine Scheffel, Jens Klump, Jens Ludwig (Hrsg.): Langzeitarchivierung von Forschungsdaten. Eine Bestandsaufnahme. Verlag Werner Hülsbusch, Universitätsverlag Göttingen, Boizenburg 2012, ISBN 978-3-86488-008-7, S. 16, urn:nbn:de:hbz:79pbc-opus-4204 (th-koeln.de [PDF]).
  19. Asko Lehmuskallio, Edgar Gómez Cruz: Why material visual practices? In: Digital Photography and Everyday Life: Empirical Studies on Material Visual Practices. Routledge, 2016, ISBN 978-1-317-44778-8, S. 1.
  20. Natascha Schumann: Einführung in die digitale Langzeitarchivierung. Scivero Verl., 2012, ISBN 978-3-944417-00-4, S. 46 (ssoar.info [abgerufen am 24. März 2020]).