Security-Lösungen sorgen für Sicherheit im RZ, die physischen Komponenten hat man mit Sensoren und etlichen Jahren Erfahrung im Griff, und „im Falle eines Falles“ gibt es ein Business-Continuity-Konzept und einen Incident-Response-Plan. Soweit die Theorie, doch in der Praxis fehlen durchgängige Prozesse vom kritischen Ereignis bis zum Wiederanlauf der Systeme. Deren Unterstützung erfordert Automation mittels eines SIEM-Systems (Security-Information- and Event-Management) mit integriertem IT-Alerting und angedocktem Power-Management.

In gut ausgestatteten Rechenzentren ist viel teure Hardware vorhanden, von den redundanten Server-Systemen über USV-Anlagen bis zu mächtigen Dieselaggregaten. Bei einem genaueren Blick hinter die Kulissen stellt man aber oft fest, dass Security relativ isoliert gesehen wird und zum Beispiel das USV-Management nicht integriert oder das Monitoring von Komponenten nach Kompetenzen verteilt ist. Spätestens bei Eingriffen wie dem Herunterfahren von Servern oder Applikationen beginnt nicht nur das organisatorische Hickhack: Man stellt auch fest, dass Monitoring nicht bedeutet, auch logikbasierend und automatisiert eingreifen zu können. Spätestens beim Thema Unternehmenskommunikation im Krisenfall – aufgrund eines Stromausfalls ohne E-Mail-Server und VoIP-Anlage – ist die geplante Vorgehensweise nicht mehr möglich, lassen es doch die Naturkatastrophe, der Blackout oder ein perfider Security-Angriff oft nicht mehr zu.
 
Risiken für Vorstände
Mit Regularien wie der EU-Datenschutz-Grundverordnung und nationalen Sicherheitsgesetzen ist bereits ein neues Zeitalter eingeläutet worden. Dank bürgerfreundlicher Transparenz und strenger Meldepflichten werden sich Scharen von Anwälten in aufwändigen Gerichtsverfahren zunehmend auf immense Schadenersatzforderungen stürzen und für hohe Kosten und Risiken sorgen. Um hier den Schutz zu verbessern, werden Unternehmen ihre IT-Security-Ausgaben erhöhen müssen, um auch einen rechtlichen Schutz nachweisen zu können.
Versicherungsprodukte werden bereits jetzt nur Kunden angeboten, die technisch und organisatorisch auf dem Stand der Technik sind. Um gerichtsfeste forensische Untersuchungen zu ermöglichen, ist eine Log-Archivierung ebenso erforderlich wie ein Verfahren, mit dem man die gesamte Unternehmensbelegschaft im Krisenfall informiert – und dies notfalls stromunabhängig. Eine Sirene wird nicht reichen, denn im Brandfall sollten die Mitarbeiter das Gebäude verlassen, im Falle einer chemischen Gefahr im Freien gerade nicht. Erste Finanzvorstände mussten bereits ihre Posten verlassen, weil IT-Vorfälle für einen immensen Schaden gesorgt haben, sei es durch verlorene Börsenwerte oder gezielte betrügerische Angriffe auf das Unternehmen.
 
Wenn die IT-Security überwunden ist
Viele Security-Produkte decken verschiedenste Bereiche ab und sorgen für ein beruhigendes Gefühl der Sicherheit: Immerhin sitzen Profis an den Monitoren in den Leitstellen, und sämtliche Planungen für den Notfall sind durchgespielt. Ein Stromausfall, eine Ransomware-Infektion oder ein gründliches IT-Security-Audit macht aber schnell klar, dass es auch Szenarien gibt, die einen Server-Shutdown erfordern – und dass nicht jeder Mitarbeiter vorsichtig und richtlinienkonform vorgeht. In den meisten Rechenzentren sind die Handlungsmöglichkeiten bereits sehr eingeschränkt, wenn ein Angreifer die Firewalls und Web- oder E-Mail-Security-Systeme überwunden hat. Einfach den nächsten gewohnten Schritt zu gehen, also das Backup einzuspielen, kann nicht die Lösung sein, wenn PCs vielleicht noch infiziert sind, Log-Analysen anstehen und man erst die Quelle der Infektion suchen sollte. Gerade dann aber, wenn die Security-Lösungen ausgehebelt wurden – worauf der gute Pen-Tester achtet und jeder trojanische Eindringling vorbereitet ist –, beginnt erst das eigentliche Incident-Response-Management, und die Maßnahmen des Business-Continuity-Managements starten.
 
Kaskadeneffekte
Je komplexer Organisationen und Unternehmen aufgebaut sind, desto mehr Gründe für einen Gesamt- oder Teilausfall der IT gibt es. Bereits jetzt können viele tausende Sensoren, vom Temperatursensor bis zum Firewall-Alarm, für alle Arten von Benachrichtigungen und Handlungsnotwendigkeiten sorgen. In jedem Fall ist eine Validierung vorzunehmen und nach einem vordefinierten Schema vorzugehen, ganz gleich, ob es sich um Fehlalarme, einen Verschleiß oder gar um Sabotage handelt. Genau dann sind Sicherheitsmechanismen überwunden, der Alarm ist abgesetzt und Entscheidungen stehen an. Ohne Planung, Kommunikationsmechanismen und automatisierte Vorgänge wird das Handling aber schwierig, insbesondere in der IT.
Kaskadeneffekte sind gerade im IT- und Stromumfeld eher die Regel. Ein Trafoausfall sorgt öfters dafür, dass USV-Systeme irrationales Verhalten an den Tag legen, und dann kommt vielleicht auch noch Pech dazu: Der Hauselektriker ist nicht binnen Minuten verfügbar, Türen sind abgeschlossen oder Kabel und Schalter der Dieselaggregate sind so marode wie der Diesel darin unbrauchbar. Wenn aufgrund eines Stromausfalls die Lichter ausgehen, sind Telefonnummern nicht verfügbar und das Handbuch verlegt – und dass man die Wartungszyklen aus Kostengründen verlängert hat, ist dann auch nicht hilfreich.
Sobald die Ursache für den Trojanerbefall oder Angriff beseitigt wurde und die Server wieder bereit sind, beginnt das große Aufräumen. Security-Spezialisten durchsuchen Berge von Logs, die Netzwerker fahren die Server hoch und denken über die Zusammenhänge von Diensten, Rechten und Abhängigkeiten nach, während die Produktion in Teilen noch irgendwie weiterläuft. Der Zustand der Ungewissheit und nicht-existente Planungen erleichtern nicht gerade die Handlungsfähigkeit. Zudem fehlt die Orientierung, wenn man nicht auf softwarebasierte Vorgaben und Regeln zurückgreifen kann. Darum gilt es, in die Planungen aufzunehmen, was bereits tagtäglich passiert oder statistischer Fakt ist.
 
Resilienz: Design vom Alarm zum Wiederanlauf
Das Security Operation Center (SOC) oder die Security-Gruppe sollte mit ihrer SIEM-Lösung in der Lage sein, forensische Log-Analysen zu fahren und neuerliche Infektionen zu verhindern, indem sie manuell Parameter verändert und Spezifika des Angriffs überwacht. Die Kommunikation via Smartphones sollte allen Mitarbeitern die Möglichkeit geben, den Status der zuständigen Abteilung zu melden, während die VoIP-Anlage wieder hochfährt. Das Power-Management regelt automatisch den Wiederanlauf und berücksichtigt dabei die Parameter der effektivsten Reihenfolgen. Je nach individuellen Gegebenheiten kann ein solcher Ablauf Risikograde und Prioritäten berücksichtigen, zum Beispiel: Soll der Wiederanlauf erst erfolgen, wenn die USV-Anlagen wieder versorgungssicher sind, oder sofort, sobald die Dieselaggregate ihren Dienst wie geplant verrichten und nur unwesentliche Teile abgeschaltet wurden, um Treibstoff zu sparen? Im Batteriebetrieb zählt jede Minute, ob im Krankenhaus oder in der Produktion – dennoch brauchen Management-Entscheidungen Zeit. Das Ziel ist, zehn Minuten Batteriebetrieb so zu nutzen, dass man fünf Minuten in Überlegungen und weitere fünf Minuten in die Handlung auf Basis bekannter Parameter investiert. Der schlechteste Fall wäre es hier, frühzeitig und unnötig zentrale Server-Systeme wie etwa das greise Heiligtum AS/400 herunterzufahren und einen Absturz zu riskieren, nur weil Berechnungen nicht zuverlässig und aktuell waren.
 
Handlungsfähigkeit in der Krise und Lerneffekte
Längst ist es nicht mehr möglich, IT-Infrastrukturen im Krisenfall manuell zu bedienen und instinktiv zu handeln. Deshalb ist es erforderlich, mehr Zeit in Planungen und Vorsorge zu stecken, um die Abläufe zu automatisieren. Daraus ergeben sich vielfältige Vorteile wie Auditierbarkeit (Stichwort „Compliance“), Rechtssicherheit und Lerneffekte für die Zukunft. Testverfahren und Simulationen für den jährlichen Disaster-Recovery-Test sind ebenso sinnvoll wie die Feststellung, wo sich Mitarbeiter während eines Brandalarms befinden, indem sie ihren Standort melden. Zudem wird eine zentrale Datenhaltung und Analyse der Logs und Einträge aller relevanten Geräte und Applikationen nicht ausbleiben, ähnlich der Big-Data-Auswertung, mit der die Marketingabteilung alle Einzelheiten der Kunden sammelt und analysiert. Denn nicht minder groß ist das sicherheitsbedingte Interesse an maschinell erzeugten Datenbergen.

Notfallbenachrichtigungen, SIEM, Log-Management und Disaster Recovery bilden die Voraussetzungen für ein wirkungsvolles Business-Continuity-Management. Bild: Iqsol

Im SOC (Security Operations Center) müssen Sicherheitswarnungen, Log-Analysen und Alarme von Einrichtungen wie etwa Brandmeldesystemen zusammenlaufen. Bild: Iqsol