Bei Planung und Betrieb von Rechenzentren lauern mehr Tücken, als man gemeinhin denkt: So fiel im April dieses Jahres ein Drittel aller Festplatten im schwedischen Nasdaq-Datacenter aus. Verursacht hat den Zwischenfall der hohe Geräuschpegel des ausströmenden Löschgases, das eigentlich zum Schutz der Datenbestände im Brandfall dient. Der Fehlalarm war teuer: Der RZ-Betreiber Digiplex musste Ersatz-Server aus dem Ausland einfliegen lassen.

Mit einem Rechenzentrum zwischen der Stockholmer City und dem Flughafen Arlanda bietet Digiplex 20.000 Quadratmeter sichere IT-Infrastruktur. Gehostet werden hier unter anderem die Inhalte der Nasdaq Nordic mit dem Börsendaten mehrerer Standorte in Skandinavien. Der RZ-Betreiber brüstet sich mit seiner Energieeffizienz: Die verfügbaren 20 MW generiere man aus komplett erneuerbaren Energiequellen. Auch das Kühlsystem des modularen Rechenzentrums ist auf dem neuesten Stand. Und dennoch steckte die Tücke im Detail: Ein Fehlalarm löste die Feuerlöschanlage aus.

Löschen ohne Wasser und Schaum

Grundsätzlich fallen bei einem Feuer in einem Datacenter Wasser oder Schaum als mögliche Löschmittel aus. Daher nutzen die Betreiber Gaslöschanlagen oder eine Brandvermeidung mittels Absenkung des Sauerstoffanteils der Luft. Durch Einleiten von Stickstoff wird die Sauerstoffkonzentration auf einen definierten Wert reduziert. Personen können sich in dieser Atmosphäre noch aufhalten, die Feuergefahr ist jedoch drastisch reduziert.

Die mit unterschiedlichen Gasen bestückten Systeme können das Feuer in kürzester Zeit ersticken, indem sie den Sauerstoffanteil in der Luft durch die schnelle Freigabe von Kohlendioxid (nicht mehr zulässig im Neubau), Stickstoff, Argon oder anderen chemischen Löschgasen absenken. Die Hardware und damit die gespeicherten Daten nehmen bei dieser Methode keinen Schaden. Um allerdings eine entsprechende Geschwindigkeit zu erreichen, steht das Löschgas in speziellen Gaszylindern unter extrem hohem Druck. Nur so ist die lückenlose Verteilung gewährleistet.

Mittels eines Service-Management-Dashboards sollte eine IT-Organisation stets den Überblick über den Status ihrer RZ-Lokationen haben. Bild: 7Alliance

Das Problem: Beim schnellen Austritt des Gases aus den Düsen entstehen hochfrequente Töne in immenser Lautstärke. Bei einem ähnlichen Vorfall in einem RZ wurde eine Geräuschemission von 130 dB gemessen – im Arbeitsschutz liegt die Schmerzgrenze bereits bei 120 dB. Ein Wert von 130 dB entspricht einer Maschine wie einem Niethammer oder einem Flugzeugstart – mit dem Ohr am Triebwerk. Schon bei kurzer Einwirkung drohen Gehörschäden.

Neben dem menschlichen Ohr reagiert auch Hardware empfindlich auf diesen Schalldruck und die damit verbundene Intensität. Tatsächlich können sich durch die Druckwellen die Festplatten so verformen, dass der Schreib- und Lesekopf die empfindliche Oberfläche berührt und der berüchtigte Headcrash eintritt. Damit ist die Festplatte unbrauchbar, die enthaltenen Daten sind nur mit immensem Aufwand zu retten. Zwar ist dies im Regelfall ein nachrangiges Problem, da derlei Rechenzentren redundant aufgesetzt sind. Der konkrete Fall in Schweden zeigte aber, dass ein einwandfreier Betrieb und Ablauf danach nicht mehr möglich war.

Sicherheitsmechanismus als Falle

Mit diesem Vorfall hat sich – und das nicht zum ersten Mal – ein Sicherheitsmechanismus zu einem Unsicherheitsmechanismus entwickelt. Insgesamt acht lokale Börsen der Nasdaq in Skandinavien und im Baltikum waren durch den Ausfall betroffen. Der Vorfall ereignete sich an einem Mittwoch, eine Aufnahme der Börsentätigkeit pünktlich um acht Uhr war nicht möglich. Der Ausfall war immens, zumal auch die finnische FIM Bank und die OP Bankgruppe betroffen waren. Erst um 14 Uhr konnte Nasdaq Nordic den ordnungsgemäßen Betrieb wieder aufnehmen, nachdem man zahlreiche Backup-Systeme in Betrieb genommen und Server aus dem europäischen Ausland als Ersatzgeräte eingeflogen hatte.

Besonders pikant: Die Hardware ist Eigentum der Nasdaq, Digiplex stellt nur die RZ-Infrastruktur zur Verfügung. Dazu gehört auch die Löschanlage, die technisch nicht auf den Ernstfall vorbereitet war. Denn die Gasaustrittsdüsen sind auch in speziell abgestimmten Versionen zu haben, die das Geräusch in Frequenzbereiche dämmen, die für Ohren und Festplatten nicht gefährlich sind.

Für RZ-Betreiber von Rechenzentren stellen sich drei Dimensionen als relevante Stellgrößen dar. Der Brandschutz fällt dabei unter die physische Sicherheit, ebenso wie die Zugangs- oder die Ausfallsicherheit durch unterbrechungsfreie Stromversorgung. Unter die logische Dimension der Sicherheit fallen Firewall-Konzepte auf Port- und Applikationsebene sowie Intrusion Prevention und Detection. Die Prozesssicherheit schließlich übernimmt als dritte Dimension das Sicherheitskonzept in das Business-Management.

Wichtige RZ-Management-Kriterien sind neben der SLA-Einhaltung Aspekte wie das Projektrisiko, der ununterbrochene Anlagenbetrieb und das Erreichen von Budgetvorgaben. Bild: 7Alliance

Das Beispiel aus Schweden zeigt, wie bereits beim Bau und der Gebäudeausstattung folgenschwere Fehler passieren. Denn der Ausfall wäre durch ein Notfallkonzept und umfangreiche Testläufe zu verhindern gewesen. Beides ist notwendig, da die zu erwartenden Szenarien im laufenden RZ-Betrieb mehrheitlich nicht planbar sind. Dazu gehört auch der unbegründete Einsatz der Gaslöschanlage – weder Feuer noch Rauchentwicklung waren im Stockholmer RZ zu verzeichnen.

Das Notfallkonzept sollte für Krisenfälle klar formulieren, wie man den Betrieb fortführen oder wieder in Gang setzen kann. Klare Zuständigkeiten und regelmäßig trainierte Abläufe helfen dabei immens. Um einen reibungslosen Ablauf zu gewährleisten, sollte man ein Notfallteam definieren, das Techniker der verschiedenen Disziplinen zusammenführt. Die Expertenkommission 7Alliance, bestehend aus sieben Rechenzentrumsspezialisten, rät zum Durchspielen aller möglichen Szenarien für den Ernstfall. Die Fachleute sprechen sich aus diesem Grund auch für Systeme aus, die speziell für die RZ-Anforderungen gerüstet sind – was auch Lösch- und Brandmeldeanlagen umfasst.

Denn Festplatten sind generell empfindlich gegen Lärm. Bereits laute Schreie sorgen für deutlich erhöhte Latenzzeiten, wie ein Sun-Mitarbeiter bereits vor zehn Jahren durch einen Versuch herausfand. Und dies gilt bis heute, da die Basistechnik bei Festplatten identisch ist. Höhere Drehzahlen und engere Bauweise haben das Problem sogar eher verstärkt. Daher ist das Vorhalten entsprechender Ersatztechnik enorm wichtig.

Probealarm

Die Expertenkommission empfiehlt, zum Schutz der Festplatten eine Frequenzumwandlung anzustreben. Dies dämpft die Frequenz des austretenden Gases und bringt sie in einem Frequenzbereich, der keine Schäden bei der teuren Technik auslösen kann. Eine Probeflutung der Gaslöschanlage zeigt auf, ob die Schalldämpfung effektiv funktioniert. In Deutschland gibt es zudem belastbare Regelwerke, die in Baunormen der Ausschüsse des VDI/VDE gemeinsam mit dem Verband der Sachversicherer (VdS) formuliert wurden.

Thomas Lechner und Peter Wieczorek sind Initiatoren der 7Alliance, 7-alliance.de.