Ipres-Konferenz zur Langzeitspeicherung

Eine Frage des Formats

20. Oktober 2005, 23:06 Uhr | Dr. Johannes Wiele

Beim Thema "Langzeitarchivierung" hat auch die LANline bisher vorrangig über die Haltbarkeit von Medien und über Strategien des Information Lifecycle Managements berichtet. Dass die Probleme schon beim Dokumentformat beginnen, lernen auch Unternehmen am besten von Bibliothekaren.

Was ist Papier? Für die knapp 100 Teilnehmer der Ipres-Konferenz (International Conference on
Preservation of Digital Objects), die aus der ganzen Welt am 15. und 16.9.2005 nach Göttingen
reisten, ist es ein hochauflösendes Low-Tech-Display, das zum Betrieb als Anzeigeinstrument nur die
einfachste aller jemals vom Menschen erfundenen Techniken benötigt: das Feuer als Lichtquelle.
Tagsüber kann der Mensch sogar auf jedes Hilfsmittel verzichten, wenn er sich mit auf Papier
gesicherten Informationen beschäftigen will. Die Konservierung der digitalen Daten, die ohne
kurzlebiges High-Tech nicht zu lesen sind, macht Bibliothekaren deshalb weit mehr Sorgen als der
Erhalt beschrifteten Papiers für potenzielle Leser. Wie lang man uralte Bücher sorgenlos
Bibliotheksbenutzern in die Hände geben kann, konnten die Konferenzteilnehmer beim Besuch der
historischen Gebäude der einst von den Brüdern Grimm betreuten Göttinger Staats- und
Universitätsbibliothek überprüfen, die selbst Jahrhunderte alte Werke in Präsenzregalen vorhält.
Allen Verfallsgefahren zum Trotz bleiben Bücher weit länger nutzbar als alle heute bekannten
Datenträger.

Damit nicht genug: Auch die zur Rezeption nötigen Kulturtechniken wie beispielsweise die
Kenntnisse der ursprünglichen Sprachen halten sich um viele Größenordnungen länger als die
Kompatibilität von gesicherten Dokumenten und ihrer Datenträger zur jeweils aktuellen
Informationstechnik. Die NASA etwa, so ein Standardbeispiel der Archivierungsprofis in Göttingen,
könnte die erste Mondrakete heute zumindest mit direkter elektronischer Unterstützung nicht mehr
nachbauen, denn sie vermag die damals dazu gespeicherten Computerdaten nicht mehr einzulesen.

Bibliotheken lösen Businessprobleme

Die Ipres-Konferenz streifte die vieldiskutierte Problematik der Haltbarkeit von magnetischen
und optischen Datenträgern nur am Rande. Die Teilnehmer befassten sich zunächst einmal mit den
Dokumentformaten, deren schnelle Vergänglichkeit jedem Nutzer von Textverarbeitungen und ähnlichen
Systemen wohl vertraut ist. Aus der Sicht von Institutionen, die von Staats wegen mit dem
unbeschränkten Erhalt wichtiger Dokumente beauftragt sind, und die dazu beispielsweise
Pflichtexemplare aller neuen Veröffentlichungen zugesandt bekommen, sind die schnellen
Versionswechsel von Dokumentformaten, Verarbeitungsprogrammen und zugrunde liegenden
Betriebssystemen in der IT-Welt eine Katastrophe.

Hersteller und kommerzielle Anwender konnten diese Situation lange als ein Sonderproblem der
Kulturwelt ignorieren, denn geschäftliche Daten mussten bei weitem nicht so lang zugänglich bleiben
wie all das, was beispielsweise Historiker und Schöngeister interessiert. Jetzt allerdings rächt
die Juristerei ihre geisteswissenschaftlichen Schwestern: Mit den neuen internationalen Regeln für
die Langzeitarchivierung geschäftsrelevanter Daten konfrontiert die Legislative auch die
BusinessAnwender mit der Kehrseite kurzfristiger Update-Zyklen bei den
Informationsverarbeitungssystemen.

Es lohnt sich deshalb, den Diskussionen der Bibliotheksspezialisten zu folgen, denn mit den
Strategien für die Langzeitarchivierung sind sie zurzeit schon um einiges weiter als die
IT-Abteilungen der Unternehmen. Die wichtigsten Informationen dazu hält das Kompetenznetzwerk "
Nestor" (Network of Expertise in Long-Term Storage of Digital Resources) im Internet bereit.

Migration ist ein Finanzproblem

Die Anwendung der "Techniken des Information Lifecycle Managements" (ILM) stellte in Göttingen
Reinhard Altenhöner von der Deutschen Bibliothek in Frankfurt am Main zur Diskussion. Er schloss
dabei an Ideen und Modelle der Storage Networking Industry Association (SNIA) an und verwies auf
handelsübliche Lösungen aus dem Angebot großer Hard- und Softwarehersteller. Man überlege, die
Dokumente mittels ILM einer permanenten Migration zu unterwerfen. Andere Spezialisten betrachteten
Ansätze dieser Art allerdings als problematisch und bemängelten, dass sich Bibliotheken auf diese
Weise in Abhängigkeit von den Anbietern bringen würden, was angesichts der anzustrebenden langen
Archivierungszeiträume ein unkalkulierbares Risiko sei: Die Erfahrung lehre, dass kein Hersteller
seine Produkte aus Bibliothekarssicht auch nur ansatzweise lange genug am Markt halten könne, um
Kulturgüter hinreichend zu sichern. Danach gefragt, ob die Software der von seinem Haus in Betracht
gezogenen Lösungen wenigstens als Open Source zur Verfügung stünde, musste Altenhöner zumindest
teilweise die Segel streichen: Man versuche, die Anbieter dazu zu bewegen, einen exklusiven
Sonderzugang zum Quellcode zu gewähren.

Migrationen versus Originalkonservierung

Generell teilen viele Spezialisten für Langzeitarchivierung nicht einmal die Meinung,
strategisch durchgeplante Migration sei für die Langzeiterhaltung von Informationen das Mittel der
Wahl. Man wisse schließlich nicht, ob immer genug Geld dafür da sei, abgelegte Daten stets aufs
neue wieder aufzugreifen und umzuwandeln. Die Originalversionen langfristig zugriffsfähig zu
halten, sei deshalb Erfolg versprechender.

Migrationen auf neue Versionen von Dokumentformaten werfen nebenbei ein grundsätzliches Problem
auf, das die Bibliotheken in ein Dilemma manövriert: Um die Dokumente über Formatmigrationen lesbar
zu erhalten, müssen die Dateien verändert werden. Damit ist das Dokument, mit dem die späteren
Benutzer arbeiten, nur noch ein Derivat des Originals. Hinzu kommt, dass mit der Konzentration der
Anwender auf die migrierten Versionen das Original selbst im Ursprungsformat immer unzugänglicher
wird. Dieses Hindernis könnte auch Firmen betreffen, die rechtlich relevante digitale Dokumente
langfristig vorhalten müssen.

Wie schwierig der Umgang mit komplexen Formaten und erst recht mit Mutimedia- und Videodateien
ist, für die noch gar keine langfristigen Modelle existieren, zeigte sich daran, dass es die
Spezialisten auch in Betracht ziehen, wichtige Dateien samt Bearbeitungsprogramm und Betriebssystem
zu speichern und für die Wiedergabe auf speziellen Workstations vorzuhalten. Auch die Emulation
nicht mehr vorhandener Systeme wird praktiziert, fand aber nicht den Beifall aller Teilnehmer: "
Verlagert dies das Problem nicht nur um die paar Jahre, in denen Emulatoren noch zur Verfügung
stehen?", lautete eine Frage aus dem Publikum.

Der Charme des reinen Textformats

John Kunze von der California Digital Library schlug für die Langzeitarchivierung pragmatisch
vor, zusätzlich zum gestalteten Dokument grundsätzlich eine reine Textversion abzulegen, die ja für
die Indizierung oft ohnehin erstellt werden müsse. Einwänden, in vielen Fällen sei auch das Layout
erhaltenswert oder sichere wie bei mathematischen Formeln erst die Rezeption, entgegnete er, er
wolle mit seiner Idee lediglich eine zusätzliche Sicherheitsebene für den Langzeiterhalt etablieren
– ein "Fallback-System" für den Fall, dass die Layout-Version eines digitalen Dokuments
unzugänglich werde. Wie die reine Textversion auszusehen habe, sei allerdings auch noch unklar:
Standard ASCII beispielsweise halte vielleicht nicht genug nationale Sonderzeichen fest. Für Bilder
könne man möglicherweise ein möglichst einfaches, nicht komprimiertes Rasterformat als Zusatzformat
verwenden, das dann allerdings viel Speicherplatz erfordere. Das Plenum folgte Kunze zumindest
insoweit, dass es die größtmögliche Annäherung an Low-Tech-Verfahren als allgemeingültiges
Sicherheitsprinzip der Langzeitspeicherung anerkannte, denn ein Interpretationsprogramm für die
einfachste Text- und Bildkodierung ließe sich mit einiger Sicherheit immer wieder programmieren.
Die Teilnehmer sahen Parallelen zum Mikrofilm, der Platz sparende Kopien von Papierdokumenten
ermögliche, zum Lesen aber neben Licht nur die Konstruktion einer einfachen Linse voraussetze. Als
Gegenentwurf zur Sicherung vereinfachter Dokumentversionen schlagen einige Spezialisten die
zusätzliche Ablage von im Klartext lesbaren Dokumentbeschreibungen vor, etwa auf der Basis von
XML.

Für Formatregister und gegen DRM

Alle Teilnehmer befürworteten die Einführung von Registern für Dateiformate, um langfristig eine
eventuelle Neuprogrammierung von Viewern zu ermöglichen. Stephen Abrams von der amerikanischen
Harvard University Library zeigte erste bescheidene Ansätze, wies aber zugleich darauf hin, wie
sehr die meisten Hersteller ihre Formate als Betriebsgeheimnisse betrachten. Sie würden diese wohl
nicht ohne politischen Druck preisgeben. Problematisch sei auch, dass manche Formate – wie etwa
HTML – jenseits ihrer Spezifikationen ein Eigenleben mit tolerierten Abweichungen entwickeln, das
von aktuellen Anzeigeprogrammen wie den Browsern durch Workarounds ausgeglichen werde. In vielen
Jahrzehnten sei diese Schattentechnik vielleicht vergessen, und eine einst gut lesbare HTML-Seite
trotz formal korrekt programmierter Darstellungssoftware verloren. Kompressionsalgorithmen stellen
ein weiteres Problem dar.

Sorgen macht den Archivaren auch die zunehmende Verbreitung von DRM-geschützten Dokumenten.
Deren in vielen Ländern juristisch gewährleisteter Schutz vertrage sich oft nicht mit der parallel
existierenden Pflicht zur andauernden Vorhaltung in Bibliotheken. Man müsse dafür sorgen, dass dazu
befugte Institutionen die DRM-Schranken umgehen könnten.

Wie man das Internet archiviert

Allen Hindernissen zum Trotz machen sich die Bibliotheken und das "International Internet
Preservation Consortium" längst daran, Internetauftritte möglichst umfassend zu archivieren, dazu
eigene Standards wie das Web Archive Format (WARC) zu entwickeln und möglichst auch die Geschichte
von Websites festzuhalten. Projekte wie das "Internet-Archiv" könnten dazu beitragen, dass ein
Biograph in vielen Jahren vielleicht einmal auf der Jugend-Website einer späteren
Nobelpreisträgerin nachforschen könne, ob sich ihre Genialität schon im Kindesalter gezeigt habe,
gab eine Forscherin als Motiv breiter Speicherung an. Diskutiert wird noch, ob sich die
Speicher-Robots nach den Wünschen der Betreiber öffentlicher Websites richten sollen, die teilweise
den Besuch von Crawlern und Archivierungssystemen per Code verbieten.

Kein Kommentar zu PDF/A

Zum PDF/Archive-Format (PDF/A), einem relativ einfachen und offen dokumentierten PDF-Derivat
ohne DRM- und Verschlüsselungskomponenten, das just am 15. September zum ISO-Standard ISO 19005-1
erhoben wurde, mochten die Spezialisten in Göttingen nur den Kommentar abgeben, dass man sich damit
auf einem interessanten Weg befände – und nun wolle man erst einmal die endgültigen Spezifikationen
abwarten. Bisherige PDF-Formate finden bei ihnen keine Gnade, weil sie – wie die MIME-Formate oder
speziell TIFF – in zu vielen Varianten vorliegen. Bei der nächsten Ipres-Konferenz, die
wahrscheinlich 2006 in den USA stattfindet, wird es zu diesem Thema vermutlich konkretere Aussagen
geben.

Derweil widmen sich die Archivierungsspezialisten neben diversen Standardisierungs- und
Kooperationsprojekten auch dem Problem, technische Verfahren und Workflows für die Unterbringung
der Metadaten der gespeicherten Dokumente zu finden – denn auch dies erfordert bei wachsenden
Beständen immer größere Finesse.

Info: nestor – Kompetenznetzwerk Langzeitarchivierung Web:
www.langzeitarchivierung.de

Info: Internet-Archiv San Francisco/Alexandria Web: www.archive.org

Info: International Internet Preservation Consortium (IIPC), WARC-Standards
Web: www.netpreserve.org

Info: Ipres-Konferenz Web: rdd.sub.uni-goettingen.de/
conferences/ipres/


Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu Lampertz GmbH & Co. KG

Matchmaker+