Replikation und Deduplizierung

Datensicherung vom Edge zum Core

27. Juni 2011, 6:00 Uhr | Frank Herold/wg, Manager Presales und Consulting Central & Eastern Europe bei Quantum.

Alle Daten zentral in einem Rechenzentrum sichern - für Unternehmen mit vielen Niederlassungen kann sich das schnell als Problem erweisen. Wie kann man die Prozesse im Backup unternehmensübergreifend effizienter gestalten? Wie schafft man ein zentrales Backup, ohne die Kosten nach oben zu treiben und ohne die Backup-Fenster zu sprengen? Die übertragene Datenmenge muss hier so klein wie möglich sein - und das Management zentralisiert.Die Umgebungen für Backup und Archivierung sind komplexer geworden, was Architektur und Management betrifft. Meist verfolgen größere Unternehmen nicht mehr eine einheitliche Strategie, sondern Ansätze für verschiedene Funktionen, Prozesse oder Orte. Doch oft binden diese Strategien die Niederlassungen oder mobilen Mitarbeiter nur teilweise oder gar nicht ein. Verschärfend tritt hinzu, dass das Datenwachstum in Unternehmen überproportional zunimmt. Um das Problem der Datenflut in Kombination mit sinkenden IT-Budgets und verschärften Compliance-Anforderungen weiß vermutlich jeder CIO, doch das Wissen um ein Problem und dessen Behebung gehen nicht zwangsläufig nahtlos ineinander über. Unbehaglich dürfte so manchem IT-Administrator werden, wenn er analysiert, wieviel Prozent der unternehmenskritischen Daten in Filialen und Niederlassungen liegen.

Die Mindestanforderung an den DR-Schutz (Disaster Recovery) jeder IT-Abteilung ist es, die Backup-Daten vor Verlust oder Beschädigung zu schützen. Hardware und Applikationen lassen sich eventuell ersetzen, doch die digital gespeicherten Daten sind schnell unwiederbringlich verloren. Unabhängig davon, wie belastbar ein Backup-System ausgelegt sein mag: Bewahrt ein Unternehmen alle Sicherungskopien der Geschäftsdaten an einem einzigen Standort und in einem einzigen Hardwaresystem auf, sind die Daten automatisch anfällig für standortspezifische Risiken wie Feuer, Diebstahl, versehentliche oder mutwillige Beschädigung des Equipments sowie Naturkatastrophen. Kein Wunder, dass viele Verantwortliche darüber nachdenken, Backup und Archivierung zu zentralisieren. Notwendig wird dafür bei Großunternehmen der Datentransfer vom Edge (der Begriff meint hier: von den Zweigstellen) zum Core (also zur Firmenzentrale), Remote-Replikation via WAN genannt. Gleichzusetzen ist dieser Prozess bei mittelgroßen Unternehmen mit Spiegelungen in Systemen und Überkreuzsicherungen beim Backup. Unternehmensdaten lassen sich durch diese Edge-to-Core-Sicherung über das gesamte Unternehmen sichern und verwalten. Doch der Umsetzung dieses Gedankens steht Einiges im Wege. Zwar ist das zentrale Rechenzentrum eine gut kontrollierte Umgebung, doch fehlt es in den Niederlassungen häufig an fachlich geschultem Personal für die Umsetzung der Sicherungsmethoden. Zudem arbeiten viele Zweigstellen noch mit Tape als primärem Speicherziel, wobei gerade die Verwaltung von Bandmedien aufgrund des händischen Aufwands regelmäßig für Ärger sorgt.

Disk-Systeme schaffen die Basis

Indem man die Daten von den Niederlassungen ins Hauptrechenzentrum überträgt, sorgt man dafür, dass die Sicherungskopien über mehrere Standorte hinweg deckungsgleich sind. Bei der Remote-Replikation stehen Unternehmen jedoch häufig vor dem Problem, dass die technische Basis über die Standorte hinweg stark variiert. Um die Möglichkeiten für die Anwendung der Remote-Replikation via WAN im Unternehmen genau bestimmen zu können, gilt es zunächst, die Backup-Infrastruktur im zentralen RZ und den Niederlassungen, die jeweiligen Backup-Routinen sowie Datenmengen und -typen zu analysieren. Zu klären ist, welche Geräte mit welcher Skalierbarkeit, Fehlertoleranz und Konfiguration zum Einsatz kommen.

Im zentralen Rechenzentrum arbeiten nicht mehr nur Großunternehmen, sondern auch viele mittelständische Unternehmen mit Disk-basiertem Backup. Doch da man in vielen Zweigstellen noch auf Tape als Backup-Medium setzt, kann die Remote-Replikation in diesen Unternehmen auch nicht erfolgen. Denn mit Tape lässt sich Remote-Replikation nicht umsetzen.

Abhilfe schafft der Einsatz von Disk-Appliances über alle Unternehmensstandorte hinweg, da sie ein standort- und geräteübergreifendes Backup-Konzept ermöglichen. Mittlerweile gibt es am Markt schlüsselfertige Disk-Systeme, die speziell für die Nutzung in Zweigstellen entwickelt wurden - mit WAN-Connectivity für den standortübergreifenden Datentransfer. Zudem lassen sich die Disk-Lösungen per NAS- oder VTL-Schnittstelle einfach und ohne zusätzlichen Verwaltungsaufwand in die bestehende Speicherarchitektur integrieren.

Allerdings würde der Einsparfaktor bei der Anschaffung von Disk-Systemen wohl umgehend verpuffen, wollte man die Daten von den Zweigstellen 1:1 zur Zentrale übertragen. Effiziente Remote-Replikation muss den Verwaltungsaufwand in den Zweigstellen signifikant reduzieren und darf die Backup-Fenster im zentralen Rechenzentrum nicht so weit ausdehnen, dass der Produktivbetrieb beeinträchtigt wird. Bei größeren Mengen an Backup-Daten würde die Datenübertragung via WAN viel zu lang dauern und die erforderliche Bandbreite wäre zu teuer.

Schlüsseltechnik Deduplizierung

Lösung für das Problem von Datenmenge und Bandbreite ist die Deduplizierung: Sie erkennt und eliminiert redundante Daten auf Sub-File-Niveau, also auf Block-Level. Registriert das System identische Datenblöcke variabler Länge, werden diese statt erneuter Sicherung durch einen Pointer ersetzt. Bestehen die Daten an den Niederlassungen vornehmlich aus sich häufig verändernden Daten zum Beispiel aus E?Mail?, Datenbank- oder File-Servern, kann der Speicherbedarf auf den Disk-Speichern um bis zu 95 Prozent sinken. Die Deduplizierungsrate lässt sich im Vorfeld anhand der Änderungsrate, Aufbewahrungszeit der gesicherten Daten und Datenart recht genau bestimmen. Hier ist zu berücksichtigen, dass vorkomprimierte Formate wie Audio?, Video- und Bilddaten bei der Übertragung nicht dedupliziert werden können.

Durch die Datendeduplizierung wird die Replikation von Backup-Daten via WAN zu einer praktikablen Option, da sie den Bandbreitenbedarf und die Kosten für die Erstellung und Aufbewahrung von Datenkopien reduziert. Im Grunde ist eine deduplizierte Replikation vergleichbar mit der deduplizierten Datensicherung: Sind erst einmal zwei Images eines Backups erstellt, müssen bei jedem weiteren Backup nur noch die neu hinzugekommenen Datensegmente, gemeinsam mit den zugehörigen Metadaten oder Namespaces, kopiert werden, um so Replik und Original auf einem identischen Stand zu halten.

Sind Quell- und Zielsysteme initial synchronisiert, replizieren solche Backup-Lösungen bei jedem neuen Backup nur noch die neuen Datensätze auf die Ziel-Appliance. Liegt der Anteil geänderter Daten beim neuen Backup-Vorgang bei einem Prozent, wird zur Erstellung der Kopie auch nur ein Hunderstel der Bandbreite benötigt, die für die Replikation eines kompletten Backup-Datensatzes auf der Quelle erforderlich gewesen wäre.

Der Bandbreitenbedarf kann sogar noch weiter sinken, wenn die Replikationssoftware der Appliance einen zweistufigen Pre-Transmission-Prozess unterstützt. Dieser überprüft, welche Datensegmente bereits auf der Ziel-Appliance vorliegen. Dabei sendet die Software noch vor der Replikation eine Liste mit allen verfügbaren Datenblöcken an die Ziel-Appliance. Auf der Ziel-Appliance wird die Liste mit dem Index der vorhandenen Daten abgeglichen. Die Liste mit den fehlenden Datensegmenten wird dann wieder zurückgegeben. Die Quell-Appliance kopiert diese Daten anschließend und überträgt sie via Netzwerk an die Ziel-Appliance.

Der Listen-Abgleich ist ein Hintergrundprozess, der beginnt, sobald die ersten Backup-Daten auf die Quell-Appliance geschrieben werden. Die replizierten Images fließen in einen gemeinsamen Pool, der die Datensegmente über alle gesendeten Backup-Images dedupliziert. Somit berücksichtigt dieses Verfahren auch identische Datensegmente aus unterschiedlichen Niederlassungen und muss sie somit nicht mehrfach sichern. Nur die dazugehörigen Metadaten müssen übertragen und gesichert werden.

Diese vorgelagerte Deduplizierung reduziert die erforderliche Bandbreite für die Replikation in verteilten Umgebungen mit vielen redundanten Daten erheblich. Um die Daten bei der Replikation vor unbefugtem Zugriff zu schützen, verschlüsselt eine solche Lösung alle replizierten Daten - Metadaten wie auch die Datenblöcke selbst - bereits in der Quell-Appliance mit 128 Bit SHA-AES, um sie auf der Ziel-Appliance wieder zu entschlüsseln. Die zugehörigen Keys verwalten die jeweiligen Einheiten automatisch. Die Kombination von Remote-Replikation und Deduplizierung in einer Disk-Appliance ermöglicht es damit, eine Edge-to-Core-Sicherung in Unternehmen mit verteilten Umgebungen effizient umzusetzen und das Daten-Management in den Griff zu bekommen.

Die Eignung von Dateien für Deduplizierung kann stark variieren. Am schlechtesten eignen sich verschlüsselte, komprimierte oder Multimedia-Inhalte. Bild: Quantum

Die Verwendung von Disk-Appliances und Tape-to-Disk-Systemen ermöglicht die Einführung einer neuen Speicher- und Backup-Architektur. Bild: Quantum
LANline.

Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu Axel Springer

Weitere Artikel zu Network Instruments

Matchmaker+