Startseite > Netzwerke & IT-Infrastruktur > Neue Verfahren: Fünf Säulen erfolgreicher AIOps

Verschiedene Daten und Datentypen aus mehreren Quellen erfassen

Neue Verfahren: Fünf Säulen erfolgreicher AIOps

31. Januar 2020, 12:17 Uhr | Guy Fighel

Dass die einzelnen Komponenten heutiger IT-Umgebungen immer vernetzter und die Umgebungen selbst in diesem Zuge zunehmend komplexer werden, ist kein Geheimnis. Längst enteilt sind sie dabei auch der Logik herkömmlicher Tools, Lösungen und Verfahren, die nicht für das 3V-Charakteristikum Volume, Variety, Velocity von Big Data konzipiert waren: Für die heutigen Datenmengen, ihre Heterogenität und Verarbeitungsgeschwindigkeit sind sie schlicht nicht adäquat.

Denn im Rahmen klassischer Methoden werden Daten in Durchschnittswerten zusammengefasst, was ihre Genauigkeit beeinträchtigt. IDC erwartet bis 2025 einen Anstieg der weltweiten Datenmenge auf 175 Zettabyte. Beim Training von Algorithmen beim maschinellen Lernen (ML) anhand proprietärer Daten auf Trends und Muster wird vor diesem Gesamthintergrund umso wichtiger: teamübergreifende Zusammenarbeit als dedizierten Mechanismus und entscheidender Faktor für die Weiterentwicklung von Modellen im Bereich künstliche Intelligenz (KI). Dabei gilt es, die KI nicht als magische Geheimformel mit Autopilot zu verstehen - vielmehr sind die Vorgänge vom Cockpit aus immer wieder kritisch zu reflektieren, und wo es notwendig ist, gilt es, gezielt einzugreifen.

Nur so ist es möglich, das vollständige Insight-Potenzial maschinellen Lernens und künstlicher Intelligenz zu erschließen und die mit ihnen generierten Einblicke zum richtigen Zeitpunkt genau den Nutzern zur Verfügung zu stellen, die sie gewinnbringend einsetzen können.

Einer der größten Vorteile von AIOps-Plattformen: Mit ihnen ist es möglich, verschiedenste Daten und Datentypen aus einer Vielzahl von Quellen zu erfassen und sie anschließend in automatisierten Analysen zu integrieren. Diese wiederum nutzen die IT-Teams dann, um ihrerseits pro-aktiver und flexibler zu agieren und fundierte, datengestützte Entscheidungen zu treffen. Als Teil einer umfassenden AIOps-Strategie muss der Operations-Bereich seine Gesamtmission unter der Maßgabe sowohl von IT- als auch von Business-Paradigmen angehen. Dabei muss die klassische Fehler- und Problembehebung unter dem Break/Fix-Banner vermehrt abgegeben, der Fokus verstärkt auf strategische Projekte gerichtet werden.

Auf einen spezifischen Aspekt der Vorfallsbehandlung sollte sich die AIOps-Strategie jedoch nicht beschränken. New Relic empfiehlt stattdessen, die Übergangsbereiche und Schnittstellen der einzelnen Technikkomponenten zu analysieren und dabei die Gesamtlösung als solche grundlegend zu optimieren. Denn Probleme schneller identifizieren und einordnen zu können, sie direkter zu adressieren und rascher Folgemaßnahmen einzuleiten, genügt nicht. Notwendig ist vielmehr eine Lösung mit der Aktionslogik eines Site Reliability Engineers, der für Zuverlässigkeit und Stabilität von Systemen und Anwendungen verantwortlich ist - und dieser denkt dabei schließlich mit der Perspektive des Gesamtsystems im Blick.

Zusammengefasst ergibt sich eine Handlungsempfehlung in fünf Innovationssäulen. Sie sollen dabei helfen, AIOps als strategischen Wegbereiter zu implementieren und im Ergebnis messbare Business-Vorteile zu generieren.

Informationsbewältigung

Generell bringen moderne Softwareumgebungen eine Vielzahl an Herausforderungen mit sich. Eine der vordergründigsten ist dabei die schiere Flut an Events, die IT-Teams fortlaufend analysieren und im Blick behalten müssen. Sie erreichen Woche für Woche Hunderte, wenn nicht gar Tausende von Alarmmeldungen. Als Teil dieser Informationswellen entsteht dabei auch eine Menge Noise, ein Rauscheffekt aus Datenpunkten, die sich nach eingehender Analyse als nicht relevant herausstellen. Eine Gesamtbetrachtung im großen Ganzen, das viel zitierte Big Picture - nahezu unmöglich.

Mit AIOps hingegen ist IT-Mitarbeitern genau das möglich, können sie doch nun Zusammenhänge zwischen ansonsten isolierten Events herstellen, Randfaktoren und Ausreißer in Informationsmustern ausblenden und fundiertere Analysen zu Tage fördern. Zunächst müssen dazu Daten aus unterschiedlichen Quellen und Technikkomponenten erfasst werden. Zu diesen gehören unter anderem Events, Logs, Metriken sowie diverse UX-Datenpunkte. Im Anschluss laufen diese Daten in einer konsolidierten Übersicht zusammen.

Doch wie ermittelt man, ob ein Event letztlich als relevant zu bewerten ist oder ignoriert werden kann? Eine AIOps-Plattform erreicht dies, indem anhand der gebündelten Event-Daten schnell und analytisch bestimmt wird, ob der Event sich in verifizierten Normbereichen bewegt oder das Resultat tatsächlicher Anomalien mit potenziellen Auswirkungen auf Endbenutzer ist. Die IT-Teams erhalten Nachrichten nur noch dann, wenn menschliches Eingreifen erforderlich ist.

Continual Improvement (CI)

Vor einigen Jahren bezifferte Gartner die Kosten von IT-Ausfällen auf geschätzte 5.600 Dollar pro Minute - und geringer sind sie heute sicher nicht geworden. Umso mehr sind Unternehmen also auf Möglichkeiten angewiesen, derartige Störungen ganz zu vermeiden. Diesem Ziel einen Schritt näher bringt sie ein Continual Improvement Framework zur stetigen Verbesserung unter Nutzung des geballten internen Team-Wissens in puncto Softwareentwicklung und Softwarebetrieb.

AIOps erlernt konstant neue Muster. Die daraus entwickelten Modelle wendet es dann auf die Summe eingehender Alarmmeldungen an und macht so etwaige Kaskadeneffekte und Parallelen zwischen einzelnen Events aus. Auf Basis seiner ML-Modelle führt es Alerts mit entsprechenden Ähnlichkeiten in Inferenzen zusammen. IT und DevOps setzen dann direkt an diesen per KI-Vorarbeit erstellten Schlussfolgerungen an und müssen sich nicht erst noch durch Einzel-Alerts mitsamt letztlich nicht relevanten Datenpunkten arbeiten.

Auch in die weitere Entwicklung sowie neue Integrationsinitiativen lassen sich diese Inferenzen im Zuge verschiedenster Kontextverfahren fortlaufend einbinden.

Unterstützung von ITOps

Durch Zusammenführung manueller Workflows in einer AIOps-Lösung werden ihre Abläufe automatisiert und skaliert. Nun muss es jedoch auch zu einer Bewertung des Ist-Zustands dieser Workflows kommen, um sie dann entsprechend anzupassen und zu optimieren. Zudem bietet sich in der Konsequenz auch die Chance, auf ihrer Grundlage neue Prozessmodelle zu entwickeln und vorhandene Lücken zu schließen.

Mit AIOps soll nicht einfach nur bisher Unmögliches realisierbar sein. Es soll dabei auch derartige Skalierung und Verarbeitungsgeschwindigkeit liefern, dass auf dieser Basis zuvor nicht modellierbare Analysevarianten möglich sind. Operations-Teams im IT-Bereich erleben in diesem Kontext eine Evolution von reinen Anwendern zu Auditoren: Sie können nun im Detail prüfen, wie genau einzelne Systeme Daten verarbeiten und inwieweit dies die gewünschten Geschäftsziele unterstützt.

Erkennung von Anomalien

Zu einem der gewinnbringendsten Anwendungsfelder von AIOps gehört die Erkennung von Anomalien, lassen sich doch so Probleme lokalisieren und zugrunde liegende Muster in Infrastruktur und Anwendungen identifizieren. Es geht dabei um zweierlei Aspekte: einerseits darum, auffällige Muster aufzuspüren, etwa einen Server mit überraschend hohen Reaktionszeiten oder ungewöhnliche Netzwerkaktivitäten, andererseits auch um die direkte Einleitung von Maßnahmen - mit AIOps-Tools sogar ganz automatisch. Als Reaktion auf ein Sicherheitsrisiko blockieren diese dann beispielsweise direkt einen Host oder schließen einen Port. Auch können sie zusätzliche Instanzen einer Anwendung starten, falls die vorhandenen für den vorliegenden Bedarf nicht ausreichen.

Bei diesem Faktor handelt es sich um einen ganz zentralen Bestandteil jeder AIOps-Strategie. Dank ihr können Betreiber Probleme frühzeitig erkennen und etwaige Auswirkungen auf die Kunden verhindern. Zudem bedarf die Konfiguration von Erkennungsregeln geringerer kontinuierlicher Feinsteuerung. Intern können sich alle Teams gewiss sein, dass das Monitoring für ihren Teilbereich der Produktionsumgebung anhand adäquater Mechanismen und nahezu in Echtzeit erfolgt.

Observability

Cloudnative Techniken sind für die meisten Unternehmen noch Neuland. Ihre potenziellen Ausfallrisiken sind bislang noch nicht detailliert dokumentiert, noch nicht in ihrer Gänze im Branchendiskurs angekommen. Um im Umfeld dieser neuen Möglichkeiten und Rahmenbedingungen erfolgreich zu sein, benötigt die Softwareentwicklung dringender denn je präzise Einblicke in jede Verhaltensfacette einer Anwendung. Den Softwareteams im operativen Bereich muss es möglich sein, moderne Systeme gleichermaßen effektiv und effizient zu betreiben.

Zusammenfassend lässt sich konstatieren: Angesichts auch weiterhin komplexer werdender Systeme ist eine effiziente AIOps-Strategie langfristig nur dann möglich, wenn so viele Aufgaben automatisiert werden wie möglich. In der Konsequenz werden mit AIOps operative Prozesse erheblich vereinfacht, Audit-Möglichkeiten geschaffen, Zugriffskontrollen und Konfigurationsprüfungen signifikant verbessert. So entstehen in allen Bereichen zugleich mehr Sicherheit und neue Chancen.

Komplett abrufbar wird das AIOps-Gesamtpotenzial dann, wenn es umfassende-Erkenntnisse liefert, die sich aus allen relevanten Bereichen speisen. Derart aggregierte Intelligenz bereitet Informationssilos ein Ende und verwirklicht neue Chancen zur Zusammenarbeit in einem ganz neuen Format, und zwar im Zusammenspiel mit optimierten Betriebsabläufen und einer hohen Service-Qualität.

Guy Fighel ist General Manager AIOps und Vice President of Product Engineering bei New Relic, https://newrelic.de.