Startseite > Netzwerke & IT-Infrastruktur > Risiken automatisiert erkennen

Die Zukunft des Application-Managements

Risiken automatisiert erkennen

14. Juli 2021, 7:00 Uhr | Alexander Janthur/am

Mit ML- und KI-Technik zum automatisierten Plattformbetrieb.

Systemausfälle sind oft kostspielig und deshalb um jeden Preis zu vermeiden. Daher setzt man in der Produktion immer häufiger auf Predictive Maintenance: Hierbei meldet intelligente Sensorik beispielsweise einen zu erwartenden Schaden einer Maschine. Doch wie sieht es beim Plattformbetrieb aus? Immerhin tragen digitale Plattformen einen wachsenden Teil zur Wertschöpfung in den Unternehmen bei. Oft sind diese Systeme nicht bestmöglich vor Ausfällen geschützt. Hohes Potenzial besitzt der Einsatz intelligenter Algorithmen. Denn durch künstliche Intelligenz (KI) und maschinelles Lernen (ML) ist es auch beim Plattformbetrieb möglich, automatisiert Risiken frühzeitig zu erkennen.

Grundsätzlich lässt sich festhalten, dass gravierende Systemausfälle bei professionell gebauten und betriebenen Plattformen eine Ausnahme darstellen. Denn solide Cloud-basierte Infrastrukturen als grundlegendes Setting stehen über Anbieter wie Google oder AWS bereit – und die Leistungen der Clouds steigen. Diese Infrastrukturen müssen natürlich individuell auf die Bedürfnisse der Unternehmen angepasst und der Betrieb möglichst kosteneffizient gestaltet sein, zum Beispiel durch Nutzung von Pay-per-Use-Modellen.

Plattformstabilität

Die Basis für eine stabile Plattform entsteht beim Bau – und auch hier kommen bereits intelligente Techniken zum Einsatz. So sollte bei komplexen Projekten stets Continuous Deployment zum Einsatz kommen: Durch eine kontinuierliche Testabdeckung bei jedem Deployment lässt sich der Grundstein für ein stabil laufendes Gesamtsystem legen. Hier bewährt es sich, zuerst den Test zu schreiben, bevor die Entwicklung des zu testenden Moduls erfolgt. Durch solche passgenauen Tests lässt sich bereits die überwiegende Mehrheit der Fehlerquellen ausschließen, da weitere Arbeiten mittels eines geprüften Standes erfolgen. Dies erhöht die Fehlerresistenz der Systeme.

Doch was ist mit dem restlichen Teil der Systemausfälle? Diese Störfälle lassen sich vorab nicht testen, da sie auf anderen Faktoren basieren, beispielsweise ausgelöst durch Server-Ausfälle. Aber auch hier helfen intelligente Techniken: Durch maschinelles Lernen ist es möglich, kritische Muster sehr früh zu erkennen, beispielsweise Systemüberlastungen, und unmittelbar gegenzusteuern, wie durch das Skalieren von Leistungen oder durch einen Neustart von Teilsystemen. Wichtig ist dazu eine zuverlässige Mustererkennung, in diesem Fall zur Erkennung von zu hohen Datenbanklasten.

Potenzielle Gefahren im Blick

Der Trend beim Monitoring komplexer Plattformen geht dahin, Tools einzusetzen, die ein paralleles Monitoring über alle Schichten hinweg ermöglichen. Dabei finden applikationsseitig Reaktionszeiten, die Anzahl an zu verarbeitenden Requests pro Minute oder die grundlegende Erreichbarkeit Beachtung. Infrastrukturseitig lassen sich vor allem die Auslastung sowohl des Arbeitsspeichers als auch persistenter Speichermedien beobachten sowie die CPU-Last und der Durchsatz (IOPS) messen. Mit einem Monitoring über alle Schichten hinweg gestaltet sich die Fehlerbehebung wesentlich schneller und einfacher beispielsweise, wenn es ein Problem bei einem Button gibt und sich dieser nicht mehr anklicken lässt. Dieses Problem lässt sich so in jeder Schicht monitoren – und durch spezielle KI-basierte Tools müssen Verantwortliche nicht mehr jede Schicht einzeln prüfen.

Am Markt existieren bereits Tools von verschiedenen Anbietern, die genau das leisten können, wie zum Beispiel Dynatrace – wobei jede Lösung ihre individuellen Stärken und Schwächen aufweist. Während einer Anlernphase ermitteln die Tools das „Grundrauschen” des Normalbetriebs, auf dessen Basis sie im Nachhinein Muster und Abweichungen erkennen können.

Ein zentrales Thema beim Plattformbetrieb ist zudem die Sicherheit, insbesondere da Unternehmen eine wachsende Anzahl hochsensibler Daten in Cloud-basierten Lösungen speichern und verarbeiten – während vormals oft hybride Ansätze, also Clouds für weniger sensible Daten und On-Premise-Ansätze für hochsensible Informationen, im Einsatz sind. Daher können sich Angriffe auf Clouds umso fataler auswirken. Auch hier gibt es bereits Monitoring-Anbieter, etwa Sysdig, die systematisch Probleme beim Plattformbetrieb erkennen und automatisiert Alerts aussenden (AI-based Alerting).