Hypervisor-basierte Datensicherung

Resilienz im Rechenzentrum

24. Juli 2018, 7:00 Uhr | Johan van den Boogaart

Ob geplant oder ungeplant: Wenn ein Dienst nicht zur Verfügung steht, ändert der Anlass kaum etwas an der Unzufriedenheit von Kunden oder Mitarbeitern. Organisationen verfügen bereits über technische Möglichkeiten, um Systemausfälle zu verhindern: Stretched Cluster gewährleisten zusammen mit Snapshots und Backups die Verfügbarkeit. Dieser Ansatz ist jedoch komplex, nicht flexibel genug und künftig kaum mehr zu verwalten. Datacenter-Resilienz - die Widerstandsfähigkeit des Systems RZ gegen Teilausfälle - erfordert neue Ansätze.

Zwar hat sich das klassische System geclusterter Speicherhardware samt Backup- und Snapshot-Lösungen im Lauf der vergangenen zehn Jahre durchaus bewährt. Kommt es zu einem Ausfall der Hardware oder gar eines gesamten Standorts, ermöglicht ein synchroner Spiegel einen RPO (Recovery Point Objective, Zielzeitpunkt für das Datenalter bei der Systemwiederherstellung) von Null und ein transparentes Failover auf den alternativen Standort. Damit will man RPO und RTO (Recovery Time Objective, Zielzeitraum für die Dauer einer Systemwiederherstellung) auf ein Minimum reduzieren.

Die Virtualisierung stellt diesen Ansatz in Bezug auf DR (Disaster Recovery, Wiederherstellung des Sollzustands nach einem Störfall) jedoch vor schwer zu bewältigende Herausforderungen. So ist die konsistente und automatische Wiederherstellung mehrerer zusammenhängender VMs nicht so einfach möglich: Jede VM hat einen anderen Zeitstempel und ist manuell zurückzusetzen. Dadurch lässt sich der RTO für virtualisierte Applikationen schlecht abschätzen, in vielen Fällen ist er sogar gänzlich unbekannt. Da die meisten Workloads heutzutage virtualisiert sind, stellt sich die Frage, warum nicht auch der BC/DR-Prozess (BC: Business Continuity, ununterbrochener Geschäftsbetrieb) auf der Virtualisierungsebene stattfindet.

Problemfall Disaster-Recovery-Test

Ein IT-Manager, der den ununterbrochenen IT-Betrieb verantwortet, sollte eigentlich jederzeit in der Lage sein, die Frage nach dem RTO zu beantworten. In der Realität funktioniert es aber nicht ganz so einfach. DR-Tests großer Stretched-Cluster-Umgebungen sind oft fast unmöglich. So können IT-Manager selbst mit den fortschrittlichsten Speichersystemen auf Stretched-Cluster-Basis nicht immer eine Antwort über den RTO des verwalteten Systems geben. Während ein Hardwareausfall noch Antworten zulässt, ist es beispielsweise unmöglich, bei Ausfällen wegen logischer Fehler, beschädigter Daten oder fehlgeschlagener Updates einen RTO zu beziffern. Denn logische Fehler stellen selbst für einen synchronen Spiegel ein Problem dar: Das System spiegelt sie munter auf den anderen Standort. Dies bedeutet, dass viele Organisationen trotz teurer Stretched-Cluster-Technik gesetzliche Vorgaben teilweise nicht erfüllen.

LL07S03a
Aufbau einer resilienten IT-Umgebung mit Failover-Standort. Bild: Zerto

Auch in Sachen RPO stößt die gängige Technik an ihre Grenzen. In großen Umgebungen ist es mit Snapshots fast unmöglich, einen RPO von Sekunden zu erreichen. Zum Beispiel erzielt eine mit Snapshots gesicherte Umgebung mit 8.000 VMs trotz signifikanter Investitionen in Hardware oft nur einen RPO von mehreren Stunden.

Das System krankt letztlich an einem grundlegenden Problem: Es wird mit der Zeit zwangsläufig immer komplexer. Die Ursachen für diese Entwicklung liegen in der fortschreitenden Virtualisierung, dem wachsenden Datenaufkommen und den gestiegenen Anforderungen an die Verfügbarkeit. Dadurch steigen nicht nur die Kosten für Hardware und Softwarelizenzen, auch die Verwaltung wird immer schwieriger und zeitaufwändiger. Gängige BC/DR-Strategien haben aufgrund dieses Verwaltungs- und Kostenaufwands keine rosigen Zukunftsaussichten.

Resilienz im IT-Betrieb

Um Daten und Workloads zu verwalten, wird auch in Zukunft ein Zusammenspiel aus Soft- und Hardware nötig sein. Daten werden nun einmal auf Hardware gespeichert - wo auch immer diese sich befinden mag. Softwareseitig wird es hingegen zu einigen Veränderungen kommen, um die Nachteile der bisherigen Lösungen auszugleichen. Dabei hat sich die Einsicht durchgesetzt, dass ein holistischer Ansatz vonnöten ist, der mit dem Begriff "IT-Resilienz" beschrieben wird. Kerntechniken des resilienten IT-Betriebs sind CDP (Continuous Data Protection, kontinuierliche Datensicherung), journalbasierte Replikation sowie Automations- und Orchestrierungswerkzeuge.

CDP, oft auch "Continuous Backup" oder "Echtzeit-Backup" genannt, ist der aktuelle Stand der Backup-Technik. Der Unterschied zu traditionellen BC/DR-Ansätzen mit vollen Backups und Snapshots besteht darin, dass CDP jede einzelne Änderung der zugehörigen Daten auf Blockebene automatisch nachvollzieht und sofort sichert. Damit erfolgt das Backup nicht mehr in Speicherintervallen, sondern kontinuierlich. Dies ermöglicht es, wie mit einer Zeitmaschine zu jedem Zeitpunkt des Datenstands in der Vergangenheit zurückzukehren. Die Software läuft im Hypervisor, repliziert somit auch auf dieser Ebene und bietet damit die Basis der einfachen Verwaltung in jeder virtualisierten Umgebung, inklusive allen Formen der Cloud. Damit lässt sich dieses Verfahren zugleich hardwareunabhängig einsetzen.

LL07S03b
Snapshot-basierte Backup-Verfahren führen häufig zu RPOs im Stundenbereich. Bild: Zerto

Ein wichtiger Bestandteil einer solchen IT-Resilienzplattform ist die Möglichkeit der Automation. Der Administrator muss Boot-Reihenfolgen und IP-Adressen in Automationsregeln definieren können. Diese sollte er jederzeit per Mausklick unterbrechungsfrei testen oder weltweit verschieben und wiederherstellen können.

Fazit

Virtualisierung hat das Rechenzentrum revolutioniert, bringt aber traditionelle IT-Konzepte ins Wanken, da diese immer komplexer, aufwändig und teurer werden. Ähnlich wie VMware vor einigen Jahren eine neue Unabhängigkeit von Hardware bot, schaffen IT-Resilienzlösungen nun die Unabhängigkeit von verschiedenen Hypervisoren und Clouds. Mit einer IT-Resilienzplattform kann man den BC/DR-Prozess auf die Hypervisor-Ebene heben. Damit erhöht man den Schutz von Workloads im Vergleich zu traditionellen BC/DR-Ansätzen, macht die Infrastruktur insgesamt flexibler und vereinfacht die Verwaltung: Eine IT-Organisation kann eine DR-Strategie über mehrere Hypervisoren, Clouds und Speicherplattformen nutzen und so seine VMs konsistent schützen. Mittels Automation kann sie Migrationen, DR und DR-Testing orchestrieren und selbst in großen, weltweit verteilten Umgebungen einen RPO von nur wenigen Minuten erreichen.

Johan van den Boogaart ist Regional Sales Manager DACH bei Zerto, www.zerto.com.


Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu HFO Telecom AG

Weitere Artikel zu Octagon Process Technology GmbH

Matchmaker+