Für die revisionssichere Langzeitarchivierung in Kombination mit HSM (Hierarchisches Speicher-Management) und ILM (Information-Lifecycle-Management) sind zahlreiche Lösungen erhältlich, die sich in unterschiedlichen Kombinationen einsetzen lassen. Die Bandbreite reicht von einer einfachen Archivierung auf WORM-Tapes bis zu komplexen Analysesystemen für ein „Meaning Based Data Management“.Um von den unvermindert anwachsenden Datenmengen nicht überrollt zu werden, benötigen Unternehmen intelligente Datenverwaltungs- und Archivierungslösungen. Am stärksten wachsen derzeit unstrukturierte Daten wie Textdokumente, E-Mails, Bilddateien sowie Audio- und Videodaten. Schätzungen gehen davon aus, dass dieser Bereich jährlich um etwa 80 Prozent zulegt. Die strukturierten Daten nehmen ebenfalls um 20 bis 30 Prozent jährlich zu. IT-Abteilungen stehen vor der Herausforderung, die immer größer werdenden Datenberge zu wirtschaftlich vertretbaren Kosten zu speichern und nach den für ihr Unternehmen gültigen Richtlinien aufzubewahren.Langzeitarchivierung
Bei der Planung einer Archivierungslösung gilt als eine wichtige Frage, ob auf die Archivdaten nach wie vor ein schneller Zugriff erforderlich ist oder ob Wartezeiten von ein bis zwei Minuten zu tolerieren sind. Ist Letzteres der Fall, bieten Bandbibliotheken eine kostengünstige Lösung für die Langzeitarchivierung. Zu entscheiden ist auch, über welche Mechanismen die Informationen in das Archiv zu schreiben sind. Kleinere Unternehmen, die Daten nur für wenige Jahre aufheben müssen, verwenden dafür häufig ihre Backup-Software. Diese Low-cost-Archivierung hat allerdings den Nachteil, dass sich die Datenbestände nicht durchsuchen lassen. Wenn eine eigenständige Archivierungslösung zum Einsatz kommt, muss der Administrator festlegen, ob für die Archivdaten eine zusätzliche Sicherung erfolgen soll. In letzterem Fall können die archivierten Dateien aus dem allgemeinen Backup entfernt werden. Um Daten möglichst schnell übertragen zu können, unterstützen leistungsfähige Archivlösungen eine Parallelisierung der Datentransfers.
Zum einen können sie dabei große Dateien in mehrere kleinere aufteilen. Zum anderen sind sie in der Lage, viele kleinere Dateien zu größeren parallelen Strömen zusammenzufassen. Professionelle Archivierungslösungen verfügen zudem über leistungsfähige Suchfunktionen, um die Daten zu durchsuchen. Für textbasierende Dokumente gibt es schon seit vielen Jahren ausgefeilte Indexierungs- und Suchmaschinen. Belege und Rechnungen lassen sich häufig mit Barcodes versehen, um sie wiederfinden zu können. Mittlerweile haben einige Hersteller Lösungen entwickelt, die auch für Audio- und Videodateien eine Verschlagwortung durch-führen.
Eine weitere wichtige Funktion von Langzeitarchivierungssystemen ist die Fähigkeit, die eingelagerten Daten auf neue Hardwareplattformen migrieren zu können. Idealerweise unterstützt die Archivlösung eine automatische Datenmigration, die während des laufenden Betriebs die Daten von den alten auf die neuen Medien kopiert. Um die Integrität der gespeicherten Daten fortlaufend sicherzustellen, überprüfen leistungsfähige Archivierungslösungen in regelmäßigen Abständen die auf Platte oder Band gespeicherten Daten und erzeugen eine neue Kopie, falls die Daten fehlerhaft sind. Die meisten Archivierungslösungen legen mindestens zwei Kopien der zu archivierenden Dateien an.
Wie hoch der Aufwand ist, den Archivsystemanbieter zu wechseln, hängt unter anderem davon ab, ob die Daten in einem offenen File-Systemformat gespeichert sind, oder ob sie mit herstellerspezifischen Zusätzen wie zum Beispiel Hash-Algorithmen versehen sind. Mit einem Standard-File-System ist eine Migration auf eine andere Plattform relativ einfach möglich. Bei sehr großen Datenmengen kann eine Migration allerdings sehr lange dauern.
Um gesetzlichen Anforderungen wie GDPdU (Grundsätze zum Datenzugriff und zur Prüfbarkeit digitaler Unterlagen) oder GoBS (Grundsätze ordnungsmäßiger EDV-gestützter Buchführungssysteme) gerecht zu werden, müssen Unternehmen elektronische Daten wie Belege, Rechnungen oder den E-Mail-Verkehr revisionssicher speichern und für die vorgeschriebene Frist von zum Beispiel zehn Jahren aufbewahren. Dabei ist sicherzustellen, dass sich die gespeicherten Dokumente nicht nachträglich verändern lassen und dass sie jederzeit verfügbar sind – zum Beispiel wenn das Finanzamt eine Steuerprüfung durchführt.
Für eine revisionssichere Archivierung kamen früher häufig optische Medien wie CD, DVD oder MO (Magneto Optical) zum Einsatz. Mittlerweile stehen mit WORM-fähigen (Write Once Read Many) Disk-Systemen und WORM-Bändern neue Techniken zur Verfügung, die eine deutlich höhere Flexibilität und Skalierbarkeit bieten, als optische Libraries. WORM gewährleistet, dass einmal geschriebene Daten nicht mehr nachträglich verändert werden können. Viele Hersteller haben inzwischen WORM-Funktionen in ihre Archivierungslösungen integriert. Es gibt aber auch Anbieter, die auf WORM-Lösungen von anderen Herstellern zurückgreifen.
HSM und ILM
Bei vielen Archivierungslösungen zählt ein hierarchisches Speicher-Management zu den Standardfunktionen. HSM lagert Dateien anhand bestimmter Kriterien automatisch auf kostengünstigere Speichermedien aus. Eine gängige Regel für eine automatische Archivierung stellt die Häufigkeit der Dateizugriffe dar. Auch das Alter einer Datei lässt sich als Kriterium heranziehen, um festzulegen, wann eine Datei in das Archiv auszulagern ist. Zudem gibt es Schwellenwertregeln, die Dateien auslagern, sobald die Festplattenkapazität den definierten Auslastungsgrad überschritten hat.
Die meisten HSM-Lösungen unterstützen mehrschichtige Architekturen, bei denen häufig genutzte Daten auf schnellen Plattensystemen liegen. Seltener benötigte Daten werden automatisch auf Nearline-Disk-Systeme verschoben und zu einem späteren Zeitpunkt auf kostengünstige Bandmedien ausgelagert. Am ursprünglichen Speicherort einer Datei bleibt in der Regel ein Platzhalter stehen, der auf den neuen Ablageort verweist. Wenn der Anwender eine im Archiv liegende Datei benötigt, kopiert das HSM-System diese an ihren ursprünglichen Ort zurück.
Das so genannte Information-Lifecycle-Management wiederum bietet einen deutlich größeren Funktionsumfang als HSM. ILM gibt für Dateien über ihren gesamten Lebenszyklus hinweg mithilfe eines komplexen Regelwerkes genau vor, wie die Daten zu behandeln sind. Die meisten Dokumenten-Management-Systeme (DMS) und Enterprise-Content-Management-(ECM-)Systeme unterstützen ILM-Funktionen.
Der erste Schritt beim Einsatz von ILM-Lösungen besteht in der Regel darin, neu erzeugte Dateien zu klassifizieren und einer bestimmten Datenkategorie zuzuordnen. Dadurch ist es zum Beispiel möglich, für Rechnungen und Belege eine Datenklasse mit einer zehnjährigen Aufbewahrungsfrist anzulegen. Des Weiteren lassen sich Dateien nach ihrer Wichtigkeit klassifizieren. Bei der Auswahl einer Archivierungslösung sollte ein Unternehmen auch darauf achten, ob ein zuverlässiges Löschverfahren integriert ist, das Daten nach Ablauf ihres Lebenszyklus vom System entfernt. Welche Besonderheiten die verschiedenen am Markt erhältlichen Archivierungslösungen bieten, beleuchtet der nachfolgende Überblick anhand ausgewählter Beispiele.
Backup-Lösungen mit Archivfunktion
So bietet etwa Commvault mit Simpana eine modular aufgebaute Backup-Suite an, die sowohl HSM-Funktionen als auch eine Archivierung mit Volltextindizierung und Suchfunktionen unterstützt. Um Dateien zu archivieren, führt Simpana nach dem Backup auf dem Indizierungs-Server einen Restore durch. Die Archivdaten lassen sich deduplizieren und verschlüsseln. Simpana kann sie auf Disk-Systemen ablegen, direkt auf Band schreiben oder zu einem Cloud-System übertragen. Für eine WORM-Archivierung lässt sich Simpana mit Lösungen anderer Anbieter integrieren.
IBM wiederum bietet mit dem Tivoli Storage Manager (TSM) eine Softwarelösung für die Datensicherung an, die zusammen mit dem Tivoli System Storage Archive Manager (SSAM) eine leistungsfähige Archivierungslösung mit integrierten HSM-Funktionen und WORM-Support bereitstellt. Das System kann die Daten direkt auf WORM-Tapes schreiben. Für schnellere Zugriffszeiten lässt sich auch ein Plattenpuffer zwischenschalten.
Grau Data beispielsweise bietet mit der Softwarelösung Grau Archive Manager (GAM) ein mandantenfähiges Hochleistungsarchiv für größere Unternehmen an. Da GAM als File-System implementiert ist, kann jede Anwendung das Archiv ohne weitere Anpassungen nutzen. Die integrierte HSM-Funktionalität sorgt dafür, dass Dateien automatisch vom Disk-Archivsystem auf eine Bandbibliothek ausgelagert werden. Eine WORM-Speicherung unterstützt diese Software ebenfalls. Für kleinere Unternehmen bietet Grau Data mit Filelock eine einfach zu implementierende WORM-Lösung für Windows an. Mit Open Archive existiert auch ein Open-Source-Ableger von GAM.
Softwarelösungen für Archivierung
Symantec wiederum verfügt über eine breite Palette an Archivierungslösungen. Der Hersteller hat das Produkt Enterprise Vault so erweitert, dass es neben E-Mails auch File-Systeme und Sharepoint-Server revisionssicher archivieren kann. Die archivierten Daten lassen sich deduplizieren, die Speicherziele sind frei wählbar. Die HSM-Funktion steuert das Produkt Storage Foundation von Symantec bei. Mit dem Ediscovery-Modul können Anwender die im Archiv abgelegten Daten durchsuchen. Durch die Übernahme von Clearwell hat Symantec zudem eine sehr leistungsfähige Ediscovery-Lösung für strukturierte und unstrukturierte Daten zugekauft.
Zu den hardwareunabhängigen Lösungen ist auch Stornext von Quantum zu zählen. Die Software präsentiert sich als File-System und kann Daten regelbasierend archivieren. WORM-Speicherung unterstützt sie ebenfalls. Wenn Stornext mit Bandbibliotheken von Quantum zum Einsatz kommt, kann die Library die Bänder automatisch auf Fehler überprüfen und die Daten bei Bedarf neu schreiben. Das System ist mandantenfähig und bietet auch eine Migrationsfunktion, um Daten im laufenden Betrieb auf eine neue Tape-Generation zu kopieren.
Durch die Übernahme von Sun hat Oracle auch die Archivierungslösung SAM-FS (Storage Archive Manager) erworben. Mittlerweile ist SAM-FS mit der Content-Management-Lösung Oracle Web Center (OWC) für die Verwaltung von unstrukturierten Daten integriert. OWC speichert alle Dateien im Unix-basierenden File-System von SAM-FS und verwaltet auch die Berechtigungen und das Regelwerk für die Behandlung der Dateien. Das mandantenfähige SAM-FS kümmert sich mit seinen integrierten HSM- und WORM-Funktionen um die Archivierung der Daten. Die Lösung legt die Daten im offenen TAR-Format ab.
Hardwarebasierende Archivlösungen
Zu den Pionieren festplattenbasierender Archivsysteme mit WORM-Funktion zählt EMC mit Centera. Es handelt sich um ein objektbasierendes System, das keine LUNs, RAID-Strukturen oder File-Systeme benötigt, was die Verwaltung vereinfacht. EMC hat für Centera ein Hash-Verfahren entwickelt, das die Integrität der gespeicherten Daten sicherstellt. Mit einem Migrations-Tool lassen sich die Archivdaten von einer alten Hardware auf ein neues System migrieren. Das System unterstützt ein Shredding-Verfahren mit sieben Löschdurchgängen. Für kleinere Unternehmen bietet EMC mit der VNX-E-Serie Disk-Systeme an, die eine WORM-Speicherung unterstützen.
Hitachi Data Systems (HDS) wiederum hat mit der Hitachi Content Platform (HCP) ebenfalls ein objektorientiertes Speichersystem für eine revisionssichere WORM-Archivierung im Portfolio. HCP verwendet als Schnittstellen CIFS, NFS, Webdav, HTTP und FTP. Das HCP-300-System besteht aus HDS-Servern mit lokalen Platten und RAID-Controllern. Das größere Modell HCP 500 nutzt dagegen Speichersysteme von HDS. Die HPC-Lösung kann nicht direkt auf Bänder schreiben. Dies lässt sich aber über die HSM-Software Hitachi Data Protection Suite implementieren, hinter der sich die OEM-Version von Commvault Simpana verbirgt.
IBM bietet für eine Compliance-konforme Archivierung das Plattensystem Information Archive (IA) an. IA lässt sich mit WORM-Bandbibliotheken und dem HSM-Feature von IBMs TSM SSAM integrieren. Für die Archivierung von File-Systemen verfügt IA über eine NFS- und eine CIFS-Schnittstelle. Eine Indexierung und eine Suchfunktion sind ebenfalls verfügbar. IA verfügt zudem über einen Automatismus, um archivierte Daten im laufenden Betrieb auf neue Speichermedien zu migrieren. IBM wird demnächst eine Scale-out-NAS-(Sonas-)Lösung auf den Markt bringen, die neben dem General Parallel File System (GPFS) auch ILM- und HSM-Funktionen bieten soll. Für Hochleistungsanforderungen hat der Hersteller das High Performance Storage System (HPSS) mit GPFS im Angebot. Kleineren Unternehmen will IBM demnächst das V7000-System als Archivierungslösung anbieten.
HP hat sich durch die Übernahme von Autonomy einen Spezialisten für das Information-Lifecycle-Management von unstrukturierten Daten zugekauft. Die bisherigen ILM-Produkte von HP sollen in das Autonomy-Portfolio integriert werden. Autonomy ist darauf spezialisiert, unstrukturierte Daten zu analysieren, automatisch zu klassifizieren und durchsuchbar zu machen. Möglich ist dies durch den so genannten Intelligent Data Operating Layer (IDOL), der neben Texten auch Audio- und Videodateien in 70 Sprachen verstehen und indizieren kann. IDOL ermöglicht ein so genanntes Meaning Based Data Management, das die Bedeutung von Dateien aller Art durch statistische Analysen erfassen kann. Damit sollen sich automatisch wichtige und weniger wichtige Dokumente identifizieren lassen, die sich dann anhand definierter Regeln behandeln lassen. HP hat drei auf Hardware vorinstallierte Appliance-Lösungen für Archivierung, Ediscovery und Enterprise Search entwickelt und bietet Autonomy zudem als Cloud-Lösung an. Für kleinere Unternehmen hat HP das WORM-fähige Icas-Plattensystem im Portfolio.

Der Autor auf LANline.de: chjlange??????

Die Backup-Suite Commvault Simpana umfasst auch eine Archivierungslösung mit Volltextsuchfunktionen.

Das „Information Archive“ von IBM speichert Daten revisionssicher und lässt sich mit den HSM-Funktionen von TSM integrieren.

Centera von EMC stellt ein objektbasierendes WORM-Disk-System für die revisionssichere Archivierung von Daten dar.

Archivsysteme mit HSM-Funktion verschieben Dateien regelbasierend auf kostengünstigere Speichermedien. Bild: Grau Data

LANline.