Die digitale Wirtschaft muss benötigte Applikationen und Cloud-Services jederzeit abrufen können. Dies erfordert hochverfügbare und solide abgesicherte Rechenzentren. Die Hochverfügbarkeit hat dabei zwei Dimensionen: eine technische und eine organisatorische. Denn die besten Redundanzmechanismen stoßen an Grenzen, wenn die Prozesse für den Störfall nicht ebenfalls mit hoher Verlässlichkeit ablaufen – nicht zuletzt vor dem Hintergrund, dass IT-Umgebungen neben technischen Störungen und menschlichen Fehlern auch Naturkatastrophen und gezielten Angriffen ausgesetzt sind.

Raumschiff Enterprise oder Mittelerde? Unter den IT-lern, die ich kenne, gibt es zwei Fraktionen: Science-Fiction-Fans und Fantasy-Fans. Den einen geht nichts über Star Trek und Star Wars, für die anderen sind der Herr der Ringe und Game of Thrones der heilige Gral. Einerseits die gleißende Vision ständigen technischen Fortschritts, andererseits der düstere, ewig gleiche Widerstreit dunkler Mächte. Im Rechenzentrum treffen beide Welten aufeinander: Das RZ ist der Motor einer hoffnungsvoll voranschreitenden Digitalisierung mit ihrem Versprechen, das Leben zu erleichtern und die Wirtschaft florieren zu lassen. Zugleich ist das Datacenter ein Zombie-Zoo. In kühlen, menschenleeren Hallen hausen dort, eingesperrt in stählernen Gruften, Tausende und Abertausende von Untoten: Server, die nicht sterben dürfen. Dennoch – es scheint ein Fluch – gibt immer wieder mal einer den Geist auf. Dann wird er sofort wieder zum Leben erweckt, dazu verdammt, für alle Ewigkeit die immer gleichen Rechenaufgaben zu lösen. Denn der Siegeszug der Digitalisierung braucht die Legionen von Rechnern, wie das Starship Enterprise seinen Warp-Antrieb braucht: Ohne geht nichts voran.

Oder, etwas nüchterner formuliert: „Die Hochverfügbarkeit von Applikationen ist der Schlüssel zu einer funktionierenden digitalisierten Wirtschaft“, sagt Peter Roth, Director Operations bei Equinix in Deutschland. „Das spüren wir auch als Rechenzentrumsbetreiber: Der Bedarf an schnellen und ausfallsicheren On-Demand-Verbindungen zu Clouds und Ma­naged Services ist größer denn je.“ Gerade für die Industrie 4.0 spiele das Cloud Computing eine wichtige Rolle: Nur so könne man die wachsenden Datenmengen, die aus unterschiedlichen Komponenten der vernetzten Produktionsumgebung gewonnen werden, ad hoc auswerten und verarbeiten, um die Produktionsprozesse zu automatisieren und zu optimieren.

„Insbesondere das Wachstum der Cloud beflügelt die Nachfrage nach Colocation-Flächen“, bestätigt Telehouse-CEO Dr. Béla Waldhauser. „Daher kommen wir mit dem Bauen aktuell nicht mehr hinterher.“ In der Regel sei ein Großteil der neuen Rechenzentren schon vor der Fertigstellung gut vermietet. Den Hintergrund dieser hohen Nachfrage nach Colocation-, Managed- und Cloud-Services erläutert Sven Klindworth, Head of IT and UCC Solutions Germany and Austria bei BT: „Die meisten Kunden – und übrigens auch die eigenen Mitarbeiter – erwarten heutzutage generell einen 24/7-Service“, so der BT-Mann – und dies sei ohne Hochverfügbarkeit nicht zu gewährleisten. Hochverfügbarkeitsanforderungen aber seien „von einem spezialisierten RZ-Betreiber meist leichter und besser zu erfüllen als im Anwenderunternehmen selbst“.

Prinzipien der Realisierung von Hochverfügbarkeit laut dem aktuellen HV-Kompendium des BSI. Bild: BSI

Zur Erinnerung: Als „Hochverfügbarkeit“ bezeichnet man im IT-Kontext die Fähigkeit eines Gesamtsystems, über mindestens 99,99 Prozent eines definierten Zeitraums den Regelbetrieb zu gewährleisten. Diese 99,99 Prozent (im Englischen „four nines“ genannt) entsprechen einer Nichtverfügbarkeit von kaum einer Stunde (52:35 Minuten) pro Jahr. Die 99,999 Prozent, die als Referenzwert für das klassische Telefonnetz galten, entsprechen einem Ausfall von nur 5:16 Minuten pro Jahr. 100 Prozent Verfügbarkeit erreicht man nur mit einer vollständig fehlertoleranten Umgebung. Die meisten Business-IT-Anwendungen erfordern jedoch keine Fehlertoleranz, sondern „lediglich“ Hochverfügbarkeit: Sporadische kurzfristige Ausfälle sind, ebenso wie Zeitfenster für Updates etwa an Feiertagen, für viele unternehmenskritische Applikationen durchaus zu verkraften.

HV-Kompendium

Eine Richtschnur für die Ermittlung der Qualitätsanforderungen und den Aufbau hochverfügbarer IT-Infrastrukturen liefert das Bundesamt für Sicherheit in der Informationstechnik (BSI) mit seinem HV-Kompendium [1], aktuell in Version 1.6. Der Leitfaden umreißt Maßnahmen für verfügbarkeitsoptimierte IT-Architekturen und beschreibt ITSM-Prozesse (IT-Service-Management), um den Dauerbetrieb der IT zu gewährleisten. Als Aspekte der Hochverfügbarkeit nennt das Kompendium die Prinzipien Redundanz, Fehlertoleranz, Robustheit, Separation, Virtualisierung, Transparenz, Skalierbarkeit, Automatismen, Priorisierung und Autonomie [2]. Das BSI legt dabei Wert auf die Feststellung, dass Hochverfügbarkeit sowohl von technischen als auch von organisatorischen Maßnahmen abhängt. Die meisten der genannten Prinzipien betreffen damit nicht nur bestimmte Charakteristika der genutzten Hard- und Software, sondern bedingen auch die Einführung entsprechender Prozesse und Workflows.

So wichtig Hochverfügbarkeit für die digitale Geschäftswelt ist, so komplex ist ihre Umsetzung. Das zeigt allein schon der Blick auf den grundlegenden Mechanismus der Redundanz. Das BSI unterscheidet hier zwischen struktureller Redundanz (Vorhandensein mehrerer Ressourcen für die gleiche Aufgabe) und funktioneller Redundanz (zusätzliche Funktionen, die Fehlertoleranz gewähren, etwa Synchronisationsmechanismen in einem Cluster). Die Redundanz kann statisch sein, wenn mehr als genug aktive Betriebsmittel vorliegen (etwa mehrere Server für die gleiche Aufgabe in einem Load-Balancing-Verbund). Oder sie ist dynamisch: Im Fehlerfall zieht man Reservekapazitäten hinzu, etwa in Form eines Cold-Standby-Servers. In der Praxis findet man sowohl Hybridvarianten als auch zusätzliche, IT-spezifische Aspekte, etwa die Pfadredundanz (Multi-Pathing) in der Vernetzung oder die geografische Redundanz (Verteilung von IT-Ressourcen auf mehrere Standorte mit Failover-Mechanismen).

Die Zertifizierung als Tier-III-Rechenzentrum setzt unter anderem eine N+1-Redundanz der IT-Systeme voraus, Tier IV erfordert echte Fehlertoleranz. Bild: Uptime Institute

Gerade im Hinblick auf diese Georedundanz hat das BSI kürzlich für Wirbel gesorgt: Das Bundesamt hatte seine Vorgaben für den Mindestabstand zweier georedundanter Rechenzentren von fünf auf 200 Kilometer erhöht. Dieser Schritt ist durchaus sinnvoll, denkt man etwa an Überschwemmungen, die laut Klimaforschern künftig häufiger auftreten dürften: Sind RZ und Ausweich-RZ nur wenige Kilometer von einander entfernt (zum Beispiel beide auf dem gleichen Firmengelände), dann können sie von den Auswirkungen einer Überschwemmung leicht gleichzeitig betroffen sein. Aufgrund der Latenz bei der Kommunikation zwischen Rechenzentren, die hunderte Kilometer voneinander entfernt sind, müssen aber nun viele Unternehmen und Behörden ihre Konzepte der gespiegelten Datenhaltung überdenken.

Ein weiterer wichtiger Aspekt hochverfügbarer IT kann Diversität sein: Komponenten mit vergleichbaren Funktionen sind unterschiedlich implementiert. Der Vorteil: Fällt zum Beispiel eine Komponente aus, weil ein Angreifer eine Lücke in Windows-Systemen ausnutzt, bleibt die Linux-Komponente davon unberührt. Der Nachteil: Das Gesamtsystem ist nun anfällig für Sicherheitslücken beider Betriebssysteme.

„Die Hochverfügbarkeit von Applikationen ist der Schlüssel zu einer funktionierenden digitalisierten Wirtschaft“, sagt Equinix-Fachmann Peter Roth. Bild: Equinix

Einige Colocation-Provider differenzieren sich laut Holger Nicolay, Business Development Manager bei Interxion Deutschland, seit jeher mit Hochverfügbarkeit vom Wettbewerb. Er umreißt die wesentlichen Maßnahmen wie folgt: End-to-End redundante Stromversorgungen, die einen ausfallsicheren Betrieb des Kunden-Equipments sicherstellen; stringente Wartungen und regelmäßige Lasttests von Notstromgeneratoren, die durch entsprechende Versorgungsverträge auch langfristig unterbrechungsfrei laufen können; Brandfrüherkennungen und partiell agierende Löschsysteme, die das IT-Equipment der Kunden nicht beschädigen; vollständige Infrastrukturredundanz und getrennte Brandabschnitte, die Hochverfügbarkeit auch auf demselben Datacenter-Campus gewährleisten; Netzanbindungen durch eine Vielzahl von Telekommunikationsunternehmen, die mit physisch getrennten Hauseinführungen und PoPs (Points of Presence) sowie in sich redundanten Plattformen die Netzverfügbarkeit für die RZ-Kunden gewährleisten; und Zugangsschutz, der in mehreren Ebenen gestaffelt ist und mit mehrfacher Authentifizierung erfolgt.

„Die meisten Kunden – und übrigens auch die eigenen Mitarbeiter – erwarten heutzutage generell einen 24/7-Service“, so Sven Klindworth von BT. Bild: BT (Germany)

Der Tier-I-bis-IV-Park

Für Orientierung am RZ-Markt sorgen die DIN EN 50600 (derzeit auf dem Weg zum ISO-Standard, siehe lanl.in/2EBQm4f) und das Uptime Institute mit seiner HA-Einteilung (High Availability) der Rechenzentren in vier Stufen (englisch „tiers“). Tier-1-Umgebungen („Basic Site Infrastructure“ in der Formulierung des Zertifizierers) sind aufgrund mangelnder Redundanz- und Fehlertoleranzmechanismen anfällig für jegliche Störung, sei es durch Technik- oder Bedienungsfehler, Angriffe oder auch schlicht durch Wartungseingriffe. Das andere Ende des Spektrums bilden Tier-IV-Rechenzentren. Sie sind auf Fehlertoleranz ausgelegt („Fault Tolerant Site Infrastructure“) und müssen damit sicherstellen, dass nach einer beliebigen Störung noch ausreichend Kapazitäten für den Regelbetrieb gegeben sind. „Generell gilt, dass eine höchstmögliche technische Redundanz ohne Single Point of Failure dem Kunden Hochverfügbarkeit gewährleistet“, kommentiert Telehouse-Chef Béla Waldhauser. Doch zu den hohen technischen Hürden gesellen sich die oft nicht minder hohen finanziellen: Laut Waldhauser „sind viele Kunden nicht bereit, für Höchstverfügbarkeit zu zahlen. Hochverfügbarkeit reicht den meisten dann schon.“

„Wirtschaftlich sinnvoll ist nur der ,Branchenstandard’ Tier III nach Definition des Uptime Institute, also N+1 für alle Rechenzentrumstechnik“, bestätigt BT-Mann Sven Klindworth. Da praktisch alle großen RZ-Anbieter diese Anforderungen erfüllen, könne man sich an den wichtigsten Standorten – hierzulande etwa in Frankfurt – damit kaum noch differenzieren. Um sich vom Wettbewerb abzuheben, sollte ein RZ-Betreiber laut Klindworth daher Tier-III-Datacenter auch an weniger zentralen Standorten anbieten können. „Attraktiv sind außerdem Value-Added Services, zum Beispiel hochverfügbare Anbindungen zu den führenden Cloud-Providern wie AWS, Microsoft Azure oder Google Cloud“, so der BT-Mann weiter. Auch die Direktanbindung an Hyperscaler und deren auf Hochverfügbarkeit und Skalierbarkeit getrimmte Cloud-Umgebungen ist bei den namhaften Colocation-Providern inzwischen branchenüblich.

Hochverfügbarer Kaffeeausschank

Waffle House ist das Tier-III-Rechenzentrum unter den US-amerikanischen Fast-Food-Ketten. Auch hier zielt man auf Hochverfügbarkeit: Der Anspruch ist es, 24 Stunden am Tag geöffnet zu haben, 365 Tage im Jahr. Das Problem: Die Waffle-House-Filialen sind vorrangig im Südosten der USA beheimatet – dort überziehen immer wieder Wirbelstürme das Land und hinterlassen verwüstete Orte mit gekappter Stromversorgung. Denoch erfüllt die Kette ihren HA-Anspruch so erfolgreich, dass die US-Katastrophenbehörde FEMA inoffiziell den sogenannten „Waffle House Index“ [3] nutzt: Wo die Filialen der Kette geschlossen sind, ist die Lage besonders ernst – dorthin muss man dringend Hilfe schicken.

Das Geheimnis der Waffelbäckerkette: Ihre Organisationsstruktur ist auf Notfälle ausgelegt. Droht irgendwo ein Hurrikan, schaltet man auf eine abgespeckte Notfall-Speisekarte um und legt dafür Vorräte an. Der Konzern lässt Notstromgeneratoren liefern und fliegt krisenerprobtes Ladenpersonal (einschließlich Management) ein, die den Notbetrieb am Laufen halten – zumindest bis die örtlichen Behörden die Evakuierung anordnen. Im Nachfeld besorgt man dem lokalen Personal Handwerker – schließlich kann niemand unbekümmert Kaffee ausschenken, wenn zu Hause das Dach weggeflogen ist. [4]

Streng genommen ist Waffle House kein Paradebeispiel für Hochverfügbarkeit, sondern eher für Resilienz, also die Fähigkeit von Systemen, selbst bei Störungen oder Teilausfällen wesentliche Systemdienstleistungen aufrechtzuerhalten. [5] Vor allem aber ist die Fast-Food-Kette ein Beispiel dafür, dass im Ernstfall neben möglichst hochverfügbarer Technik ein weiterer Faktor zum Tragen kommt: eine resiliente Organisationsstruktur mit erfahrenem und bestenfalls auch krisenerprobtem Fachpersonal. „Entscheidend für den Kunden ist, wie der Anbieter reagiert, wenn mal etwas nicht funktioniert“, erklärt Sven Klindworth von BT. „Dann kommt es darauf an, dass nachts oder am Wochenende nicht nur die Notbesetzung an der Hotline erreichbar ist, sondern Experten, die sofort reagieren können.“ Bei BT unterhalte man deshalb ein spezielles Incident-Management-Team, das rund um die Uhr erreichbar sei und aus Spezialisten mit jahrelanger Erfahrung bestehe.

„Viele Kunden sind nicht bereit, für Höchstverfügbarkeit zu zahlen. Hochverfügbarkeit reicht den meisten dann schon“, so Telehouse-Chef Dr. Béla Waldhauser. Bild: Telehouse

„Oftmals sind es gerade die organisatorischen Maßnahmen, mit denen sich Datacenter-Provider von ihren Wettbewerbern differenzieren“, bestätigt Interxion-Manager Nicolay. So verfüge auch Interxion über ein umfangreiches Sicherheits- und Business-Continuity-Konzept. Details dazu veröffentliche man jedoch nicht, „um den eigenen Wettbewerbsvorsprung nicht zu gefährden oder sich durch Publikation vorgesehener Abwehrmaßnahmen gar für Sabotage angreifbar zu machen.“ Equinix-Fachmann Roth wiederum betont, dass diese organisatorischen Aspekte schon vor dem eigentlichen RZ-Betrieb greifen müssen: „Vor allem müssen Rechenzentrumsbetreiber ihre Kundenbedürfnisse genau kennen, um früh in die richtigen Technologien und Services investieren zu können.“ Equinix baue hier auf sein Team sogenannter „Global Solutions Architects“. Dieses Team soll Colocation-Kunden mit Rat und Tat zur Seite stehen und sie bei Planung und Aufbau von IT-Infrastrukturen unterstützen, nicht zuletzt im Hinblick auf die Hochverfügbarkeit von Applikationen.

„Oftmals sind es gerade die organisatorischen Maßnahmen, mit denen sich Datacenter-Provider von ihren Wettbewerbern differenzieren“, meint Interxion-Manager Holger Nicolay. Bild: Interxion

Die organisatorische Seite muss wiederum mit der technischen rückgekoppelt sein. So betont Andreas Junck, Director of Sales DACH bei Everbridge, die Notwendigkeit einer vom Normalbetrieb entkoppelten Kommunikationsplattform für den Ernstfall: „Gerade in Zeiten der IP-Telefone reichen Notfallpläne, die auf E-Mail und Telefonlisten basieren, nicht mehr aus.“ In der Tat: Das beste Expertenteam könnte nichts ausrichten, wenn es aufgrund des Ausfalls des IP-Netzes nicht erreichbar wäre.

Marktgrößen wie IBM, HPE und Dell, aber auch die großen Cloud-Plattformbetreiber wie AWS, Facebook, Google oder Microsoft arbeiten seit Jahren daran, ihre Systeme immer stärker auf Selbstheilung, Selbstoptimierung und damit auf den autonomen Dauerbetrieb auszurichten. Auf Softwareseite reicht das HA-Arsenal heute bis zu Cloud-nativen Applikationen, die dank Containerisierung, Micro-Service-Architektur und integrierter Skalierungs- und Failover-Mechanismen auf den hochverfügbaren Einsatz ausgelegt sind. Im Zusammenspiel von Hardware und Software – nicht zuletzt im Rahmen von Hybridkonzepten über Umgebungen und Standorte hinweg – nähert man sich damit Schritt für Schritt dem Ziel des autonomen Dauerbetriebs. Bis auf Weiteres aber braucht man Rechenzentren, die mit aufwendigen technischen Maßnahmen für Hochverfügbarkeit sorgen – und die über Fachpersonal verfügen, das im Notfall weiß, was zu tun ist. Ob man sich eine Zukunft herbeisehnt, in der autonome IT-Systeme mittels künstlicher Intelligenz, aber gänzlich ohne menschliches Zutun selbsttätig für den fehlertoleranten Betrieb sorgen, das hängt wohl davon ab, welcher Fraktion man zuneigt: Raumschiff Enterprise oder Mittelerde.

Quellen

[1] ww.bsi.bund.de/DE/Themen/Sicherheitsberatung/Hochverfuegbarkeit/HVKompendium/hvkompendium_node.html

[2] BSI: HV-Kompendium V. 1.6, Band G, Kapitel 7, S. 5f.

[3] en.wikipedia.org/wiki/Waffle_House_Index

[4] „Im Auge des Sturms“, Brand eins 12/2017, S. 47ff.

[5] Vgl. de.wikipedia.org/wiki/Resilienz_(Ingenieurwissenschaften)

 

 

Dr. Wilhelm Greiner ist freier Mitarbeiter der LANline.