Zu den Katastrophen, die einen RZ-Betrieb unterbrechen könnten, zählen technische Notfälle wie der Ausfall kritischer Infrastrukturkomponenten, Cyberangriffe wie etwa DDoS-Attacken, aber auch Naturkatastrophen, Entführungen und Angriffe auf Leib und Leben der Mitarbeiter. Ein CEM-System (Critical-Event-Management) arbeitet bei solchen Ereignissen die in Notfallplänen definierten Workflows automatisiert ab. So können Expertenteams ihre Arbeit sehr schnell aufnehmen, um die Krise zu entschärfen.

Bei IT-Notfällen kommt es darauf an, die durchschnittliche Reparaturzeit (Mean Time to Repair, MTTR) – auch durchschnittliche Wiederherstellungszeit (Mean Time to Restore) genannt – so kurz wie möglich zu halten. Die Zeit, die bis zur Reparatur unternehmenskritischer IT-Systeme vergeht, ist der wichtigste Erfolgsparameter einer CEM-Plattform: Schnelligkeit entscheidet über Erfolg oder Misserfolg. Die Identifikation und Typisierung des Vorfalls ist dafür der erste Schritt.

Über eine offene, wohldokumentierte API kommuniziert das CEM-Werkzeug mit Ticket-, ITSM-/ITOM-Systemen (IT-Service-/IT-Operations-Management) und APM-Lösungen (Application-Performance-Management), die das Unternehmen zur Performance-Optimierung einsetzt. Es versteht die standardisierten Nachrichten (Alerts) der Drittsysteme mithilfe von API-Konnektoren. Damit kategorisiert und priorisiert es den eingetretenen Notfall und ruft über mehrere Kommunikationskanäle wie Telefon, SMS, Smartphone-App oder E-Mail ein Notfallteam mit dem jeweils benötigten Know-how zusammen.

Das Notfallteam kann je nach Schwere und Typ des Vorfalls aus IT-Experten, CIOs und Kommunikationsspezialisten bestehen. Sie sollten sich idealerweise auch per Videokonferenz über ihr weiteres Vorgehen abstimmen können. Treten mehrere Alerts simultan auf, priorisiert das CEM-System mittels Konditionallogik die Störfälle. IT-Fachkräfte schätzen, dass sich die durchschnittliche Wiederherstellungszeit mit den automatisierten Arbeitsprozessen eines CEM-Systems um über 20 Prozent verkürzen lässt.

Eine gute CEM-Plattform ist performant, ausfallsicher und hochskalierbar, um auch hohe Arbeitslasten zuverlässig bewältigen zu können. Diese Anforderungen erfüllt eine verteilte Micro-Services-Architektur, die aus mehreren lose gekoppelten Sub­systemen besteht. Micro-Services laufen unabhängig voneinander und skalieren granularer als eine monolithische Applikation. Sie gewährleisten bereits ein hohes Maß an Ausfallsicherheit: Fällt ein Service aus, startet automatisch ein neuer und übernimmt die Arbeitslast des alten. Zusätzlich sollte ein Unternehmen Teile des Software-Stacks eines CEM-Systems georedundant in unterschiedlichen Rechenzentren vorhalten. Denn keinem nutzt eine Krisen-Management-Lösung, die im Notfall selbst ausfällt.

Ein Charakteristikum leistungsfähiger CEM-Plattformen ist der Ansatz „Infrastructure as Code“ (IaC). Der Source-Code dient dabei als Bauplan, nach dem im Rechenzentrum eines Cloud-Providers zum Beispiel Standard-Server, weitere Infrastrukturkomponenten und Applikationen automatisiert aufgesetzt, konfiguriert und verwaltet werden. IaC-Systeme lassen sich im Notfall sehr schnell implementieren und nahezu beliebig skalieren.

Im IT-Gefahrenfall können Unternehmen mit einer CEM-Plattform die richtigen Mitarbeiter schnellstmöglich benachrichtigen. Bild: Everbridge

Notfallteam schnell alarmieren

Ziel eines CEM-Werkzeugs ist es, im IT-Gefahrenfall die richtigen Mitarbeiter so schnell wie möglich zu benachrichtigen und von ihnen die Bestätigung zu erhalten, dass sie einsatzfähig sind und den Notfall übernehmen können. Diese Spezialisten – die eventuell geografisch verstreut oder gerade in Urlaub sind – müssen je nach Art des Vorfalls über unterschiedliche Qualifikationen verfügen. Die richtigen Personalressourcen zu finden und festzustellen, wer rufbereit ist, geht häufig immer noch mit manuellen Anrufketten und dem Nachschlagen in Excel-Tabellen einher. Hat man die Spezialisten über diesen umständlichen Weg dann gefunden, reagieren sie oft nicht. In Umfragen gab die Hälfte aller IT-Fachkräfte an, dass die Ablaufplanung und -koordination in ihrem Unternehmen ausschließlich per E-Mail erfolgt. Das frisst kostbare Zeit, noch ehe man an eine Bekämpfung der Krise denken kann.

Ein effizientes CEM-System enthält Know-how-Profile aller IT-Spezialisten, um Notfälle anhand klar definierter Prozesse automatisiert bearbeiten zu können. Es überwacht über Drittsysteme wie ITSM, ITOM und APM die Verfügbarkeit und Performance von Datenbank-Management-Systemen, Servern, Netzwerken sowie Applikationen und kategorisiert deren Alerts. Das CEM-System weiß, welche Mitarbeiter des Unternehmens das adäquate Know-how mitbringen, um aktuelle Probleme zu lösen, wo sie sich gerade aufhalten und über welche Kanäle sie am besten erreichbar sind. Seine Ziele verfolgt es anhand klar definierter automatisierter Notfallprozesse.

Zweckmäßig ist es, einen Multi-Channel-Ansatz zu verfolgen und die benutzten Kommunikationskanäle redundant auszulegen, um die richtigen Ansprechpartner so schnell wie möglich zu erreichen. Das Vorgehen sollte in der betriebswirtschaftlich sinnvollsten Reihenfolge erfolgen. Erkennt man beispielsweise um 10:33 Uhr eine Störung, dann könnte die erste Form zum Erreichen von Personal mit gleicher Ortszeit eine E-Mail sein. Ereignet sich derselbe Vorfall nach Büroschluss, kann ein anderer Kanal zur Kontaktaufnahme effektiver sein, etwa eine SMS. Wenn sich die Zielperson nicht meldet, sollte das System versuchen, sie über andere Kanäle zu erreichen, bis sie reagiert und die Übernahme des Notfalls bestätigt. Mit der richtigen Technikplattform lässt sich dieser Prozess der multimodalen Kontaktaufnahme automatisieren – die verschiedenen Kanäle kommen in priorisierter Reihenfolge so lange zum Einsatz, bis der Empfänger den Eingang des Alarms bestätigt.

Eskalationsstufen genau planen

Bei Vorfällen mit niedrigerer Priorität muss man nicht gleich den CIO aus dem Bett klingeln. Die Eskalationsstufen sollten sich an der Störungspriorität des Vorfalls orientieren und vorab definiert sein. Anders als IT-Experten sind Führungskräfte nicht direkt in die Bearbeitung eines Notfalls involviert. Sie haben ein Interesse daran, die Problemlösungskompetenz und -leistung ihrer Teams in den Geschäftseinheiten Service Operations, Security Operations, IT-Helpdesk und DevOps zu verbessern, um die durchschnittliche Wiederherstellungszeit möglichst kurz zu halten.

Hakt es in der IT, so beeinflusst dies die Performance von Geschäftseinheiten im Unternehmen unmittelbar. Störungen führen womöglich zu unzufriedenen Kunden, untätigen Mitarbeitern, Shitstorms in den sozialen Medien und im schlimmsten Fall sogar zu gravierenden Umsatzeinbußen. Jedes Unternehmen muss deshalb ein vitales Interesse daran haben, sein Notfall-Management kontinuierlich zu verbessern. Aber nicht jedes Unternehmen macht das auch – und geht dadurch ein hohes Risiko ein. Das Analystenhaus Forrester hat 2018 eine Umfrage unter 214 Unternehmen durchgeführt: Jedes hatte in den letzten 24 Monaten mindestens einen kritischen Notfall zu beklagen. 24 Prozent waren Zielscheibe von Cyberkriminellen, bei 25 Prozent der Firmen fiel ein geschäftskritisches System aus, bei 28 Prozent wurden wichtige Dokumente gestohlen. Den betroffenen Unternehmen ist durchaus bewusst, dass dadurch ihre Reputation als Geschäftspartner und Anbieter leiden könnte und sie in Folge Umsatzeinbußen riskieren. Doch nur ein knappes Drittel misst die Wiederherstellungszeit, die erforderlich ist, um ausgefallene oder stark verlangsamte Systeme wieder zum Laufen zu bringen.

Diejenigen unter den befragten Firmen, die ein CEM-System einsetzen, konnten laut der Forrester-Umfrage mit kritischen Vorfällen besser, schneller und kostengünstiger umgehen. Bei 49 Prozent hatten sich die Kosten für die Planung und Durchführung von Notfallmaßnahmen reduziert, ohne CEM-Einsatz gelang dies nur 29 Prozent.

Andreas Junck ist Director of Sales DACH bei Everbridge in München, www.everbridge.com.