Viele Unternehmen sind der Meinung, dass ein Backup der eigenen Daten ausreicht. Dabei übersehen sie, dass viele der heutigen Anwendungen eine ständige Verfügbarkeit der Daten voraussetzen. Bereits kurze Ausfälle können in einer solchen Umgebung gravierende Auswirkungen haben.

Im Allgemeinen geht es beim Thema Datensicherheit um die Sicherung. Dies bedeutet zum einen, die Daten vor Beschädigung und Verlust in Sicherheit zu bringen. Zum anderen erfordert dies heute vielleicht mehr denn je, dass Daten möglichst immer zur Verfügung stehen. Und genau an diesem Punkt unterscheiden sich Strategien von den Lösungen. Denn wenn es lediglich darum geht, Daten redundant auf anderen Systemen, möglichst an einem anderen Ort, quasi als Kopie aufzubewahren oder zu archivieren, sind viele Unternehmen ausreichend gerüstet. Doch wenn es um die Datensicherheit in Bezug auf Verfügbarkeit und den uneingeschränkten und insbesondere unterbrechungsfreien Zugriff geht, besteht noch Handlungsbedarf. Betrachtet man das gesamte Spektrum beider Optionen, dann spricht man von Data Safety.

Viele Unternehmen haben heute annehmbare bis sehr gute Backup- und Recovery-Lösungen im Einsatz. Sie sichern die unternehmenseigenen Daten in regelmäßigen Zeitabständen auf ein separates Medium. Fällt das primäre System aus oder gehen Daten aufgrund von mechanischen Defekten, menschlichen Fehlern oder aufgrund eines Ransomware-Angriffs verloren, lassen sie sich meist vom zweiten System wiederherstellen. Möglichst kurze Backup-Zyklen helfen dabei, die Menge der Verluste gering zu halten, sodass das Unternehmen gut geschützt ist – zumindest was die Bestände anbelangt.

Mit dieser Annahme wähnen sich viele Betriebe in Sicherheit, da sie davon ausgehen, dass sie die Informationen problemlos wiederherstellen können. Heutzutage geht es jedoch nicht mehr darum, Daten in einer bestimmten Zeit wiederherzustellen, sondern einen komplett uneingeschränkten Betrieb zu gewährleisten, der keinen Ausfall zulässt.

RPO und RTO machen den Unterschied

IT-Verantwortliche und IT-Unternehmen sollten sich beim Thema Data Safety um zwei Kennzahlen kümmern: Geht es darum, möglichst wenige Daten zu verlieren, ist sicherlich das Recovery Point Objective (RPO) maßgeblich. Beim RPO geht es darum, die Unterschiede der Datensätze auf dem Primärsystem mit denen des Backup-Systems möglichst gering zu halten. Moderne Technologien bieten die entsprechenden Optionen, Daten redundant und ohne nennenswerte Unterschiede zu speichern. Hin und wieder wird dies irrtümlicherweise mit dem Spiegeln auf RAID-Systemen verwechselt. Das RPO wendet man jedoch immer auf die redundante Datenhaltung auf physisch unterschiedlichen Speichermaschinen an.

Denn auch bei einem RAID kommt es zu einem Totalausfall, wenn beispielsweise der Strom ausfällt oder Cyberkriminelle die Daten verschlüsseln. Ein RAID dient lediglich zum Schutz vor Medienfehlern, beispielsweise Lese-Schreibfehlern und damit verbundenen Ausfällen von Festplatten in einem System.

Durch geeignete und funktionelle Technologien lassen sich hervorragende RPO-Ergebnisse erzielen. Ein RPO gleich Null, also das Vorhalten absolut identischer Datensätze ist durchaus möglich. Damit ist für die Data Safety der erste wesentliche Schritt getan.

Der zweite Schritt ist hingegen wesentlich komplexer und auch deutlich aufwendiger umzusetzen. Ausschlaggebend ist das Recovery Time Objective (RTO). Je niedriger der RTO, desto geringer ist die Zeit zwischen dem Ausfall des Erstsystems und der wiedererlangten vollen Einsatzfähigkeit über das redundante Speichersystem. Folglich geht es hierbei darum, einen möglichst geringen Wert oder sogar Null zu erreichen. Vielen Unternehmen ist die Wichtigkeit des möglichst geringen RTOs aber nicht wirklich bewusst, und es wird oft nicht ins Kalkül gezogen, wie verheerend schon minimale Ausfallzeiten für ein Unternehmen sein können.

Wie wichtig das RTO ist, hängt sicher vom Unternehmen und dessen Hauptaufgabe ab. Während einige Unternehmen mit mittelguten RTOs gut leben können, sind andere wesentlich stärker auf eine extrem schnelle Wiederherstellung des Betriebs oder gar auf eine komplett unterbrechungsfreie Produktion angewiesen. Die Wichtigkeit des RTOs lässt sich am praktischen Beispiel leicht verdeutlichen: Hat beispielsweise eine moderne Großbäckerei den Betrieb weitgehend digitalisiert, hängen nicht nur die Verwaltung des Unternehmens am Tropf der IT, sondern auch die gesamte Produktion.

Kurzer IT-Ausfall mit gravierenden Folgen

Nun könnte man denken, dass eine halbe Stunde IT-Ausfall vielleicht zu verkraften ist. Schließlich muss die Bäckerei nur auf das redundante System umschalten, ein paar Server und Datenbanken starten, und schon ist sie wieder einsatzbereit. Bestellungen, Dispositionen und Auslieferungen würden in einem solchen Szenario vielleicht etwas ins Stocken geraten, aber irgendwie wäre es vielleicht nach 30 Minuten IT-Ausfall wieder möglich, in den täglichen Arbeitstakt zurückzufinden.

Diese Annahme täuscht jedoch: Ab dem Moment, in dem die Produktion steht, befinden sich hunderte von Backwaren in den Öfen, die dort innerhalb von 30 Minuten verbrennen – denn ohne IT bleibt auch die hochmoderne Backstraße stehen. Das bedeutet, dass die Bäckerei die Öfen abkühlen und anschließend penibel reinigen sowie wieder aufheizen muss, um im Anschluss die Produktion wieder anzufahren. Dabei verrinnen nicht nur die 30 Minuten IT-Ausfall, sondern mehrere Stunden und die Auslieferungen sind völlig außer Takt. Eventuell fällt sogar eine ganze Tagesproduktion aus, nur weil die Daten von einem Backup erst nach einer halben Stunde wieder zur Verfügung standen. Es gibt sicherlich noch deutlich eindrucksvollere Szenarien, wenn man beispielsweise an Chemiewerke oder gar an Kritis-Einrichtungen denkt. Das bedeutet, dass der RTO bei bestimmten Unternehmen gleich Null sein sollte.

Transparenter Failover vs. unterbrechungsfreier Betrieb

Während moderne Enterprise-Speichersysteme in sich unterbrechungsfrei hochverfügbar (RTO = 0) sein können, trifft das für die Konzepte mit entfernten Ausfallrechenzentren leider meistens noch nicht zu. Und auch hier gilt es, zwei wichtige Begrifflichkeiten eindeutig zu unterscheiden: transparenter Failover versus unterbrechungsfreier Betrieb. Mit einem transparenten Failover lassen sich die Ausfallzeiten zwischen dem Hauptrechenzentrum und einem Ausfallrechenzentrum auf ein Minimum begrenzen.

Mit aktuellen Technologien versucht man ein RTO nahe Null zwischen redundanten Rechenzentren zu schaffen. Damit verringert ein transparenter Failover das betriebliche Risiko bereits erheblich. Doch auch ein transparenter Failover (Failure and take over) ist ein Umschaltprozess und damit per se keine unterbrechungsfreie Technologie.
Unternehmen müssen daher gemeinsam mit ihren IT-Dienstleistern genau verifizieren, wie die Ansprüche an Unterbrechungsfreiheit – ganz unabhängig von den verfügbaren Budgets – tatsächlich sind. Beim Beispiel mit der Großbäckerei und einem weitgehend automatisierten Produktionsprozess dürften die Ansprüche sehr hoch sein. In Unternehmen, die hingegen mit einer Datenunterbrechung über einen kurzen Zeitraum gut auskommen, reichen weniger anspruchsvolle Systeme für einen möglichst niedrigen RTO aus.

Ist ein Betrieb aber sowohl beim RPO als auch beim RTO mit einem Wert von Null angewiesen, gilt eine wichtige Regel: Eine hohe Sicherheit lässt sich über eine redundante Datenhaltung lokal und in Verbindung mit Ausfallrechenzentren erreichen. Eine echte Ausfallsicherheit ist heute nur mit sehr hochwertigen Speichersystemen und nur im primären Rechenzentrum möglich. Wie man dabei die Anforderungen und die technische Realisierbarkeit mit den Budgets in Einklang bringt, bleibt am einzelnen Fall auszuarbeiten.

Robert Meiners ist Practice Lead Cloud Germany bei MTI Technology, www.mti.com.