2017 war ein Jahr der Naturkatastrophen. Allein in Europa haben laut dem Jahresreport des Versicherers Aon Benfield Dürren, Waldbrände, Unwetter und Stürme einen wirtschaftlichen Schaden von mehr als 24 Milliarden Dollar oder über 20 Milliarden Euro verursacht. Da sich Naturkatastrophen in den letzten Jahren häuften, stellen Unternehmen ihre Strategien für Disaster Recovery (DR) und Business Continuity auf den Prüfstand. Damit wird auch DRaaS (Disaster Recovery as a Service) attraktiv.

Im Zuge einer Evaluierung von DR-Optionen sollten IT-Verantwortliche insbesondere die allgemeinen Richtwerte für den Abstand zwischen redundanten Rechenzentren einer kritischen Prüfung unterziehen. Die Leitlinien des BSI (Bundesamt für Sicherheit in der Informationstechnik) stammen noch aus dem Jahr 2006 und werden der Häufung von Naturkatastrophen in den letzten Jahren nicht gerecht. Als realistische Bedrohungsszenarien werden hier nur Unfälle mit Gefahrguttransporten, Großbrände, Abrisssprengungen und Bombenfunde aus dem zweiten Weltkrieg angeführt. Für solche Fälle gilt ein Evakuierungs- und Sperrradius von bis zu 1.500 Metern um den Schadensort. Das BSI empfiehlt inklusive eines Sicherheitszuschlags etwa den dreifachen Radius, also rund fünf Kilometer. Heute sind aber für einen zweiten RZ-Standort auch Naturkatastrophen wie beispielsweise Überschwemmungen zu berücksichtigen. Dies erfordert Sicherheitsbetrachtungen, die über den Rahmen der eher allgemeinen BSI-Empfehlung hinausgehen.

Waldbrände, Wirbelstürme, Erdbeben und Überschwemmungen haben 2017 deutlich gezeigt, dass fünf Kilometer bei Weitem nicht ausreichen. Bevor man mit viel Geld einen physischen Failover-Standort in ausreichender Distanz aufbaut, lohnt es sich, Disaster Recovery aus der Cloud in Betracht zu ziehen. Besonders für Organisationen mit vielen Zweigstellen, auch im Ausland, kann DRaaS ein gangbarer Weg sein, um Daten zu sichern, ohne dass dabei die Kosten explodieren. Dank der technischen Weiterentwicklung ist DRaaS heute günstiger als klassische DR-Prozesse. Die Umsetzung ist zudem weniger komplex und erlaubt eine weitgehende Automation. Dies minimiert Ausfälle und die Auswirkungen auf Anwender.

Bei der Wiederherstellung des Sollzustands zählt Schnelligkeit. Hier spielt das Netzwerk eine wichtige Rolle. Daher ist das Netzwerk-Management häufig eine der komplexesten Aufgaben bei der Entscheidung für ein DR-Service-Angebot. Eine geeignete DRaaS-Lösung sollte darum auch die Netzwerkverbindungen zwischen den Standorten berücksichtigen, denn die Bandbreiten der Internetverbindungen sind häufig knapp bemessen.

Unabhängig davon, welche Bandbreite zur Verfügung steht: Bei DRaaS führt die Entfernung zwischen Unternehmen und Cloud-Standort immer zu Latenz. Diese gilt es im DRaaS-Konzept zu berücksichtigen. Der Einfluss der Latenz lässt sich verringern, indem man entweder einen Cloud-Standort näher am Produktivstandort wählt – als Schutz bei lokal auftretenden Naturkatastrophen nicht ratsam – oder die zu bewegende Datenmenge verringert.

Am wichtigsten werden Bandbreite und Latenz im Recovery-Fall. Denn dann ist eine große Datenmenge vom Cloud-Backup-Provider zum primären RZ zu transportieren. Generell gilt die Faustformel: Die Entfernung vom Provider zum Kundenunternehmen sollte 100 Kilometer nicht überschreiten.

Provozierter Ausfall oder Laborsituation

Genau wie Backups ohne verifizierte Wiederherstellung wertlos sind, ist auch der DR-Plan nur so gut wie die Ergebnisse aus entsprechenden Tests. Für herkömmliche Disaster Recovery sollte man im RZ einen Test oder mehrere Tests pro Jahr durchführen. Dies stellt sicher, dass die DR-Pläne und die Wiederherstellungsinfrastruktur die Anforderungen bei einer echten Störung erfüllen. Allerdings können Planung und Umsetzung eines DR-Tests für einen IT-Administrator schnell viel Zeit und Aufwand bedeuten. Deshalb verzichten erschreckenderweise viele Unternehmen einfach darauf und hoffen, dass der Ernstfall nicht eintritt.

Die Überprüfung des DR-Setups kann je nach Unternehmen verschiedene Formen annehmen: Die simpelste und eine in vielen Fällen praktizierte Variante ist die Simulation eines Ausfalls durch eine geplante Abschaltung eines Rechenzentrums oder Servers. Bei einem solchen kompletten Failover lassen sich die Datenintegrität, die Ablaufgeschwindigkeit und auch eventuelle Schwachstellen unter Realbedingungen direkt analysieren und dokumentieren. Eine solche Abschaltung betrifft allerdings auch immer die Produktivumgebung des Unternehmens und ist daher mit Risiken behaftet. Eine risikoärmere Alternative sind Tests außerhalb der realen Umgebung, also in einem abgeschotteten Bereich. Diese Tests beginnen mit der klaren Abgrenzung eines Szenarios, in dem man definiert, welche Ausfälle zu simulieren sind. Dies kann einzelne Hardwaregruppen, aber auch Services innerhalb der Systemumgebung betreffen. So ermöglicht es eine feinere Abstimmung des Tests auf genau die Subsysteme, die das Unternehmen als gefährdet oder geschäftskritisch identifiziert.

Innerhalb dieser automatisierten Tests gibt es zwei weitere Abstufungen. Im Rahmen von Bereitschaftsprüfungen testet man die Integrität und Aktualität eines DR-Plans und vergleicht die Plankonfiguration mit dem Status der DR-Umgebung. Um sicherzustellen, dass die DR-Instanzen funktionsfähig sind, sollte das Testteam diese anschließend starten. Das war bislang sehr aufwendig. Es gibt jedoch heute DR-Software, um derartige Tests isoliert in einer Sandbox ohne Risiko zu automatisieren.

Ein Dashboard gibt dem Anwender einer DRaaS-Lösung den Überblick über den Status des Testverlaufs. Bild: Veeam

Eine weitere Variante sind Tests in einem sogenannten Virtual Lab – einer isolierten, virtuellen Umgebung für das Testen und Überprüfen von VMs, Services und Anwendungen. So lassen sich beispielsweise Softwareveränderungen der Produktivumgebung, etwa die Auswirkungen eines Patches in Kombination mit anderen Komponenten, vorab prüfen. Tests dieser Art können Aufschluss über sämtliche Stadien der DR-Planung geben, erfordern jedoch eine gewisses Maß an Ressourcen. Gegenüber der kompletten RZ-Abschaltung haben jedoch alle automatischen Tests einen wesentlichen Vorteil: Sie sind getrennt von der Produktivumgebung und senken damit das Risiko für das Unternehmen ungemein. Dennoch können Unternehmen regelmäßig prüfen, ob der Ernstfall abgesichert ist. Das macht sie zum unverzichtbaren Werkzeug in der DR-Strategie.

Um den Aufwand zu reduzieren, offerieren viele DRaaS-Anbieter mittlerweile virtuelle Wiederherstellungstests. Abhängig vom Service des Anbieters ist es möglich, Teile oder auch die gesamte zu schützende Infrastruktur in einer isolierten Sandbox-Umgebung wiederherzustellen. Sobald die Wiederherstellung in der isolierten Umgebung läuft, können Unternehmen testen, ob der Prozess wie erwartet funktioniert.

Regelmäßige virtuelle DR-Tests

Führen eigene Mitarbeiter die Wiederherstellung durch, können diese zugleich Teil eines virtuellen DR-Tests sein. So können sie beispielsweise prüfen, ob sich Nutzer weiterhin einloggen können, die Anwendungen wieder verfügbar sind und die wiederhergestellte Umgebung die im DR-Plan festgesetzten Ziele erfüllt. In einem Sandbox-Wiederherstellungstest können Unternehmen sogar die Netzwerkkonfiguration aus der Produktivumgebung mit echten IP-Adressen und Konfigurationen aller Server und Netzwerkdienste nutzen.

Eine einfache Handhabung sollte deshalb ein wichtiges Kriterium für den DR-Planungsprozess und die Evaluierung von DRaaS-Angeboten sein. Mittlerweile bieten viele Lösungen bereits automatisierte Testläufe, bei denen der IT-Administrator keine langwierigen Konfigurationen durchlaufen muss. Stattdessen setzt er die Tests einmal auf und führt sie dann regelmäßig durch.

Benutzerfreundlichkeit ist Trumpf

Unternehmen messen der Benutzerfreundlichkeit einer DRaaS-Lösung häufig weniger Bedeutung bei als dem Funktionsumfang. Ist die Einrichtung und Anwendung einer Technik jedoch sehr komplex, bleiben erhoffte Effizienz und ROI oft hinter den Erwartungen zurück. Zudem gehen die Implementierung und das spätere Testen mit einer benutzerfreundlichen Lösung deutlich schneller vonstatten. Hinzu kommt bei Systemausfällen, dass die IT-Mitarbeiter häufig unter hohem Stress stehen, um den Betrieb schnell wieder zum Laufen zu bringen. In Deutschland steht ein Server bei einem ungeplanten Ausfall laut Veeam-Report (siehe Kasten) im Schnitt 45 Minuten still. Mit einer benutzerfreundlichen Lösung können sich DR-Verantwortliche auf einige einfache Schritte konzentrieren, um die Anwendungen in wenigen Minuten am Sekundärstandort zu starten.

Auch umfassende Self-Service-Möglichkeiten sind eine wichtige Säule für die Benutzerfreundlichkeit einer DRaaS-Lösung. Mit automatisierten Services können Anwender ihre DRaaS-Service-Abonnements schnell und einfach anpassen. Sie bestimmen beispielsweise, welche Prozesse sie selbst und ohne Rücksprache mit dem Service-Provider ausführen können. Darüber hinaus lassen sich auch Self-Service-Funktionen für Endanwender einrichten. Diese können etwa versehentlich gelöschte Dateien schnell selbst wiederherstellen oder ein Backup von einem Endgerät anstoßen.

Qual der Wahl

Die Nachfrage nach Disaster Recovery as a Service steigt, und immer mehr Dienstleister bieten diesen Dienst mit unterschiedlichen Techniken und Funktionsumfängen an. Da fällt die Entscheidung nicht leicht. Im Vordergrund steht immer die Verfügbarkeit geschäftskritischer Daten und Anwendungen. Hier zählen die eigenen Anforderungen an Wiederherstellungszeiten, Service-Level, Infrastruktur etc. Dabei sind Themen wie flexible Standortwahl, Investitionsvolumen, Zuverlässigkeit und Überprüfbarkeit sowie Bedienungskomfort wichtige Entscheidungskriterien. So können Organisationen von den Vorteilen moderner DRaaS-Lösungen profitieren und ihre IT für den Ernstfall wappnen.

Weitere Informationen
Aon Benfield: „Weather, Climate, and Catastrophe Insight: 2017 Annual Report“: thoughtleadership.aonbenfield.com/Documents/20180124-ab-if-annual-report-weather-climate-2017.pdf

BSI: „Hinweise zur räumlichen Entfernung zwischen redundanten Rechenzentren“: www.bsi.bund.de/SharedDocs/Downloads/DE/BSI/Grundschutz/Hilfsmittel/Doku/RZ-Abstand.html

„Veeam Availability Report 2017“: go.veeam.com/2017-availability-report-de

Thomas Sandner ist Presales Manager Germany bei Veeam, www.veeam.com/de.