Wie hoch ist hochverfügbar, und was kostet das? Zwei altbekannte Fragen, auf die sich mittels künstlicher Intelligenz nun neue Antworten finden lassen.

Wie hoch genau die Verfügbarkeit der IT-Infrastruktur sein muss, hängt vom konkreten Anwendungsfall ab. So beziehen sich manche Prozentangaben nur auf den Server oder andere einzelne Dienste. In der Praxis geht es jedoch um die Verknüpfung von Services, also die Hochverfügbarkeit von ganzen IT-Infrastrukturen, was wiederum die Komplexität steigert. Jede Erhöhung der Verfügbarkeit, sei es nur im Nachkommastellen-Bereich, schlägt finanziell deutlich zu Buche – sowohl beim Eigenbetrieb als auch bei der Beauftragung von Infrastruktur-Dienstleistern. Es stellt sich demnach schnell die Frage, wie viel Mehrausgaben eine Erhöhung der Verfügbarkeit wert ist.

Ohne einen gewissen Automatisierungsgrad im Rechenzentrum geht es nicht. Typisch dafür ist etwa die Auslagerung des IT-Betriebs an Cloud-Dienstleister, die den Unternehmen die Routine-Administrationsaufgaben abnehmen. Man kauft sich physische Sicherheit, Patch-Management, Georedundanz und Rund-um-die-Uhr-Support einfach ein. Oft ist dies wirtschaftlicher, als den Rechenzentrumsbetrieb selbst aufrechtzuerhalten – erst recht, wenn die Ansprüche an Verfügbarkeit, Performance und Sicherheit hoch sind.

Zudem sollen Datacenter-Management-Systeme für mehr Automatisierung sorgen. Was theoretisch gut gedacht ist, erweist sich in der Praxis oft als schwer umzusetzen. Physische, virtuelle und Cloud-Infrastrukturen müssen mit einem System zentral zu verwalten sein – nicht viele Tools bieten das. Und selbst wenn das funktioniert, nehmen Routineprozesse vom Monitoring bis zum Change-Management noch immer zu viel Zeit in Anspruch.

KI im Rechenzentrum

Künstliche Intelligenz (KI) beziehungsweise Machine Learning (ML) können den Automatisierungsgrad noch einmal weiter in Richtung eines sich selbstverwaltenden Rechenzentrums schieben. Ziel ist es, über das reine Management der Komponenten hinaus vorausschauend zu optimieren beziehungsweise automatisch handeln zu lassen. Dies oft beschriebene Predictive Maintenance geht bereits in diese Richtung, hat sich im normalen RZ-Betrieb aber noch nicht durchgesetzt. Zwar tauscht man standardmäßig Komponenten aus, bevor sie ausfallen, berechnet wird dies aber zumeist anhand von geleisteten Betriebsstunden und Erfahrungswerten. Vorausschauende Wartung auf Basis von KI könnte den Wartungszeitpunkt noch besser und kostengünstig bestimmen, indem der RZ-Betreiber weitere Daten für die Berechnung hinzuzieht. Gleichzeitig lassen sich technische Ineffizienzen wie Kapazitätsengpässe, hohe Stromkosten oder andere zu wenig optimierte Leistungsparameter aufdecken und beseitigen.

Denn KI denkt in größeren Dimensionen, als ein Mensch das je könnte. Mit Hilfe von massiven Mengen an Rohdaten lernt das System nicht nur offensichtliche Zusammenhänge, sondern auch solche, die ein Mensch bisher noch nicht in Erwägung gezogen hat. Die Analyse wird dadurch deutlich vielschichtiger: Der Zeitpunkt für einen Festplattenwechsel wird nun nicht mehr nur anhand ihrer Betriebsdauer und der geleisteten I/O-Vorgänge kalkuliert. Viel mehr Daten kommen hinzu – aus dem eigenen und aus anderen Rechenzentren – und werden von der KI miteinander in Zusammenhang gebracht. Dabei macht man dem KI-Algorithmus bewusst keine Vorgaben, was er erkennen soll, wie zum Beispiel das technisch gesehen passende Wartungsfenster einer Festplatte. Vielmehr erhält der Algorithmus die Anweisung, einen wirtschaftlich optimalen Betrieb der Infrastruktur sicherzustellen. Diese Anweisung lässt sich mit Features verfeinern, beispielsweise der Definition, was wirtschaftlich optimal denn nun genau heißt. Nach einer Trainingsphase, in der das System mit Daten arbeitet, deren realen Auswirkungen bereits stattgefunden haben, lernt es, mit neuen Daten umzugehen, deren Folgewirkung noch nicht eingetreten ist. Ab diesem Moment kann der Algorithmus vorausschauend arbeiten.

Von Anomalieerkennung bis Kapazitäts-Management

Der Kölner PaaS-Anbieter (Platform as a Service) Gridscale beispielsweise nutzt intelligente Algorithmen, um die Verfügbarkeit möglichst nah an die 100 Prozent heranzubringen. Anhand zahlreicher Teleme­triedaten lassen sich unerwünschte Er­eignisse frühzeitig identifizieren, das Rechenzentrum reagiert automatisch und führt vordefinierte Aktionen aus. Diese reichen von der einfachen Alarmierung eines Administrators über das Neuladen eines Workloads sowie das Hinzuschalten zusätzlicher Ressourcen bis hin zu einer Transformation ganzer Workloads auf einen anderen Server.

Solch ein dynamisches, weitgehend automatisiertes Kapazitäts-Management führt das Cloud-Versprechen, Ressourcen flexibel nach Bedarf zur Verfügung zu stellen, weiter fort. Dank der KI-basierten Vorausberechnungen kann ein RZ-Betreiber diese Auto-Scaling- und Echtzeit-Provisionierungsprozesse so starten, dass die Ressourcen im richtigen Moment bereits zur Verfügung stehen und er sie nicht erst dann anfordern muss. Zudem lassen sich Work­loads so im laufenden Betrieb umschichten. Wartungsarbeiten oder sogar Ausfälle ganzer Knoten wirken sich nicht mehr auf die Verfügbarkeit aus.

Ein weiterer wichtiger Schritt in Richtung Wirtschaftlichkeit ist es, die Zuschaltung zusätzlicher Ressourcen so einfach wie möglich zu gestalten. Wenn beispielsweise Fachabteilungen oder mittelständische Unternehmen hochwertige IT-Ressourcen beschaffen können, ohne tiefgreifende Fachkenntnis zu haben, ist das sehr effektiv. Einfache Benutzeroberflächen stehen dabei oft im Widerspruch zur Komplexität der Infrastruktur, die man einrichten will.

Auch hier tragen die beschriebenen KI-Algorithmen dazu bei, dieses Dilemma aufzuheben: Indem das System beide Seiten berücksichtigt – zum einen die Vorerfahrungen des Nutzers sowie dessen Ziele und zum anderen die Komplexität sowie die Automatisierungsmöglichkeiten des entstehenden Rechenzentrums –, lässt sich die jeweils optimale Benutzeroberfläche errechnen. So passt Gridscale beispielsweise sein Frontend dynamisch dem Nutzer an. Dieser sieht nur Funktionen, die er in diesem Moment benötigt. Die Oberfläche richtet sich klar daran aus, was der Nutzer möchte, und weniger daran, was alles möglich wäre. Mit der ganzen Komplexität des RZs muss sich der Nutzer nicht beschäftigen. Denn das Ziel ist es, IT-Ressourcen für eine bestimmte Workload zur Verfügung gestellt zu bekommen. Wie viele VMs, wie viel RAM und welche VPN-Verbindung dafür geeignet sind, kann dem Nutzer weitgehend egal sein. Der Service richtet sich nach vordefinierten Präferenzen hinsichtlich Kosten und Verfügbarkeit.

KI trifft nachhaltigere Entscheidungen

Die Idee hinter einem KI-optimierten Rechenzentrum ist es, mehr Daten für fundierte Entscheidungen zu nutzen. Ein Algorithmus, der hunderte Faktoren in seine Überlegungen einbezieht und aus Ereignissen der Vergangenheit gelernt hat, trifft bessere Entscheidungen. Setzt man diese Entscheidungen automatisiert um, lässt sie sich zudem praktisch jederzeit nachregulieren. Dies führt zu hoher Effizienz nicht nur bei den Prozessen an sich, sondern auch bei angrenzenden Parametern wie etwa Kosten für Strom oder Cloud-Ressourcen.

Henrik Hasenkamp ist CEO von Gridscale, www.gridscale.io.