Die aktuelle IT-Infrastruktur setzt sich in zahlreichen Unternehmen unter anderem aus virtualisierten, Cloud-basierten, containerisierten oder lokal betriebenen Komponenten zusammen. Dies führt dazu, dass Applikationen zunehmend auf solchen hybriden Infrastrukturen betrieben werden. Für die IT-Administration heißt dies, dass die Bereitstellung solcher Anwendungen und deren Überwachung deutlich an Komplexität zunehmen.

Der Einsatz von hybriden Infrastrukturen ist in vielen Unternehmen mittlerweile Standard. Der Betrieb von Applikationen in solchen virtualisierten, containerisierten, Cloud-basierten und/oder lokalen Umgebungen erschwert jedoch auch die sichere Bereitstellung der Anwendungen. Um Anwendern ein bestmögliches Nutzungserlebnis zu bieten oder die Einhaltung von SLAs (Service Level Agreements) zu überprüfen, ergeben sich für Unternehmen neue Herausforderungen.

Denn: Klassische IT-Monitoring-Lösungen stoßen in modernen IT-Infrastrukturen schnell an ihre Grenzen. Sie kommen, wie Gregory Ouillon, CTO EMEA bei New Relic, feststellt, aus einer Zeit, die durch längere Entwicklungszyklen von Software und Anwendungen sowie einfache IT-Architekturen mit wenigen großen Server-Plattformen geprägt war. „Die Instrumentierung erfolgte auf Anwendungsebene im Wesentlichen durch Protokolle und Logs. Das Monitoring wurde in erster Linie auf Netzwerk- und Infrastrukturkomponenten als Ergänzung zu herstellerspezifischen Komponenten eingesetzt“, resümiert Ouillon gegenüber LANline.

Auch Sascha Giese, Head Geek bei Solarwinds, hält es für unmöglich, die Signale von Millionen verteilter Geräte, Cloud-nativen Datenbanken, Analyse-Tools und Berichtssystemen mit traditionellen Monitoring-Tools zu überwachen, die für vor Ort betriebene, monolithische Anwendungen ausgelegt sind. Laut Giese ist es daher notwendig, dass IT-Verantwortliche nicht nur einen Einblick in die Hardwareintegrität und -leistung erhalten, sondern ebenso in den gesamten Netzwerkpfad. „Dazu sind Tools erforderlich, die Cloud-Infrastrukturen und Cloud-basierte Anwendungskomponenten überwachen und über die Firewall hinaus Transparenz schaffen. Wir schauen immer noch auf Computer, Storage und Network, aber die jeweiligen Komponenten können sich jetzt ‚irgendwo‘ befinden, anstatt im lokalen Server-Rack“, erklärt Giese.

„Wir schauen (beim Monitoring, d.Red) immer noch auf Computer, Storage und Network, aber die jeweiligen Komponenten können sich jetzt ‚irgendwo‘ befinden, anstatt im lokalen Server-Rack“, sagt Sascha Giese von Solarwinds. Bild: Solarwinds

Die Aussagen verdeutlichen, dass es für die IT-Verantwortlichen darauf ankommt, möglichst alle Komponenten ihrer heterogenen Infrastruktur in ihr Monitoring einzubeziehen, um überhaupt die Chance auf ein möglichst realistisches und ganzheitliches Bild zu bekommen – vor allem wenn es darum geht, die Leistung und Verfügbarkeit aus der Sicht des Nutzers beziehungsweise der Anwendung und nicht von der Rechenzentrumsseite aus zu erhalten. Das End-to-End- oder Applikations-Monitoring gestaltet sich jedoch gerade deswegen nicht so einfach. Laut Stefan Bösner, Systems Consultant Data Protection bei Quest Software, soll das Monitoring zwar Applikationen, die Datenbankebene sowie die darunterliegenden Infrastrukturschicht einschließen, also Betriebssystem, Virtualisierung, Storage und Netzwerk, aber: „Leider lässt sich das in der Praxis nicht immer komplett abbilden, da beispielsweise Daten auch über eine Leitung externer Anbieter laufen können und sich somit der Kontrolle der IT-Abteilung entziehen.“

Typisches Nutzerverhalten simulieren

Beim End-to-End-Monitoring simuliert man das typische Nutzerverhalten, um Informationen zur Verfügbarkeit und Antwortzeiten von Anwendungen über einen gesamten Prozessweg hinweg zu erhalten, etwa das Ausfüllen von Eingabemasken und die anschließende Verarbeitung der Informationen, die Zeit für das Öffnen des Browsers oder anderer Anwendungen, Einkaufsprozesse im Web-Shop etc. Um die IT-Service-Qualität zu beurteilen, muss man nach Meinung von Gregor Keller, Sales Engineering Manager bei AppDynamics, drei maßgebliche KPIs erfassen: Verfügbarkeit, Geschwindigkeit und Qualität der Endnutzer-Interaktionen. „End-to-End-Monitoring-Lösungen zeichnen dazu die Abläufe echter Nutzer auf oder simulieren das typische Nutzerverhalten durch Roboter“, berichtet der AppDynamics-Mann weiter. Während die robotergesteuerte Simulation eine Aussage über die globale Verfügbarkeit eines IT-Services ermögliche und somit häufig beim SLA-Reporting zum Einsatz komme, biete eine Echtzeitanalyse der Benutzer zusätzliche Aussagen über Geschwindigkeit und Qualität, um beispielsweise Infrastruktur- oder Softwareprobleme zu identifizieren.

„Die Nutzererfahrung zu messen ist der ideale Weg, um sicherzustellen, dass die Anwendungen verfügbar sind und wie erwartet performen“, sagt auch Jörg Knippschild, Senior Manager Solutions Engineering bei Riverbed. Gleichzeitig weist er aber darauf hin, dass die „Endnutzererfahrung“ als Wert allein nicht ausreicht, sollten Performance oder Verfügbarkeit vom Standard abweichen. An dieser Stelle ist es laut Knippschild wichtig, korrelierende Daten über den Rest der Lieferkette zwischen Nutzer und dem Ursprungsdiensten zu verfügen, um darauf basierend das Problem identifizieren und lokalisieren zu können. „Hier klingt das letztendliche Ziel des End-to-End-Monitorings an: ein vollständiges, ganzheitliches Bild der Performance zu schaffen und mit Hilfe der richtigen Tools diese Daten strukturiert zu analysieren und miteinander in Beziehung zu setzen“, untermauert Knippschild.

Ouillon spricht an dieser Stelle von einer Art „Nervensystem“, das in der Lage sein sollte, jedes einzelne „Organ“ oder jede einzelne Komponente in Echtzeit zu erfassen, zu messen oder zu überwachen. Bei einem solch engmaschigen Monitoring der Infrastruktur sei man bereits schnell bei einem anderen Begriff: Observability. Dahinter verbirgt sich laut dem New-Relic-Mann die Fähigkeit, hochkomplexe und schnelllebige Anwendungen und Infrastrukturen zu beobachten, zu verstehen und zu betreiben.

Leistungsstarke Monitoring-Plattform gefragt

Mit einer leistungsstarken Monitoring-Plattform sind Unternehmen in der Lage, den Betrieb von kritischen Applikationen sowie der darunterliegenden Infrastruktur zuverlässig zu gewährleisten, wie Chris James, Director of EMEA Marketing bei Virtual Instruments, feststellt. Seiner Meinung nach gibt es derzeit jedoch keinen Anbieter, der eine umfassende Lösung zur Überwachung von Applikationen sowie eines End-to-End-Monitorings zur Infrastrukturtransparenz anbietet. Stattdessen müssen Unternehmen sich für eine Kombination von Produkten entscheiden. So arbeitet beispielsweise Virtual Instruments als Spezialist für eine applikationszentrische Infrastruktur-Leistungsüberwachung mit AppDynamics zusammen, einem Spezialisten im Bereich Applikations-Performance-Überwachung.Durch die Kombination beider Produkte lassen sich Benachrichtigungen und Analysen beider Lösungen im jeweils anderen Dashboard anzeigen, so James.

Beispiele mit analytischen Baselines für Performance-Metriken. Bild: Riverbed

Zudem wertet Virtual Instruments nach eigenen Angaben Wirespeed-I/O-Informationen aus, sodass sich jede Transaktion auf die Millisekunde herunterbrechen lässt. Die hauseigene Monitoring-Lösung VirtualWisdom melde zudem Daten auf sekündlicher Detailgenauigkeit und korreliere diese mit dem Host, dem Netzwerk und den Storage-Fabric-Daten. Auf diese Weise soll die Plattform eine transparente Gesamtübersicht der ganzen Infrastruktur im Kontext der Applikationen bieten. Der IT-Verantwortliche erhält, da die Virtual-Instruments-Plattform auf Protokollebene arbeitet, eine Analyse darüber, wie einzelne Applikationen arbeiten, welche Elemente sie nutzen und ob es Flaschenhälse oder andere Bremsklötze gibt, die er beseitigen muss, um Leistungseinbußen zu vermeiden, so der Hersteller weiter.

AppDynamics, das seit 2017 zu Cisco gehört, verfolgt nach eigenen Angaben bei seiner APM-Lösung ebenfalls den Ansatz eines zentralen Nervensystems für die IT. Dazu überwacht der Hersteller die gesamte End-to-End-Kette über eine spezielle Sensorik, die jegliche Abweichung vom Normalverhalten an das zentrale Nervensystem – die hauseigene Cognition Engine – meldet. Sie analysiert anschließend die Ursache für die Abweichungen und kann automatisiert Gegenmaßnahmen einleiten.

Quest zielt mit seiner Lösung Foglight nach eigenem Bekunden auf die Bereiche Applikations-, Datenbank- und Infrastruktur-Performance-Management ab. Dabei biete es außerdem eine ganzheitliche Überwachung, Analyse, Planung/Vorhersage und den Betrieb der Umgebungen, das heißt sowohl lokal als auch außerhalb der eigenen Infrastruktur.

„Unsere Werkzeuge erkennen automatisch die Abhängigkeiten von Elementen über verschiedene Schichten, was weit über das Erkennen einer Layer-2-Topologie hinausgeht“, erläutert Solarwinds-Mann Giese. So sei es für eine einzelne Plattform möglich, ein CRM (Customer-Relationship-Management) sowie die dazugehörige Datenbank zu erkennen, unabhängig davon, ob sich diese lokal, an einem anderen Standort oder in der Cloud befinden. Ebenso sei Solarwinds in der Lage, automatisch zu erkennen und zu visualisieren, wenn eine Virtualisierungsplattform eine VM oder einen Datastore verschiebt. Anwendungsbezogene Pfade über verschiedene Netzwerke ließen sich ebenfalls im Griff behalten und Benutzeraktionen simulieren. Diese Funktionen erfolgen laut Giese weitgehend automatisch und erfordern nur ein sehr geringes Maß an Interaktion.

„Die Nutzererfahrung zu messen ist der ideale Weg, um sicherzustellen, dass die Anwendungen verfügbar sind und wie erwartet performen“, unterstreicht Jörg Knippschild, Senior Manager Solutions Engineering bei Riverbed. Bild: Riverbed

Einen Ansatz für ein ganzheitliches End-to-End-Monitoring verfolgt Riverbed. Dazu stellt der Hersteller in seinem SteelCentral-Portfolio verschiedene Module zur Verfügung, mit denen Unternehmen die gesamte Bereitstellungskette überwachen können – von den Server-Komponenten im Backend über Anwendungs-Server, den Anwendungs-Code bis zu den Netzwerken, Infrastrukturen und der Nutzererfahrung. Auf diese Weise will Riverbed die Daten miteinander in Verbindung bringen, um Probleme effektiv und einfach zu beheben. Weiter sei es möglich, jedes der Module als einzelne Lösung zu betreiben. „Jedoch besteht immer die Möglichkeit, diese Module zu verbinden und um zusätzliche Funktionalität zu erweitern. So wird die Plattform eine vollständige, ganzheitliche Lösung für End-zu-Ende-Monitoring“, berichtet Knippschild. Riverbed stellt SteelCentral auch als SaaS-Dienst zur Verfügung.

Auf ein reines Cloud-basiertes Monitoring setzt hingegen New Relic. Dahinter steckt laut Ouillon die Idee, dass Unternehmen nicht die Plattform verwalten und überwachen sollten, die ihre eigenen Systeme monitort. Die SaaS-zentrierte Plattform des Herstellers setzt unter anderem auf tiefgehende und vielfältige Möglichkeiten zur Instrumentierung mit Drop-in-Funktion für gängige Programmiersprachen und Cloud-Services. Weiterer Bestandteil des Angebots sei ein umfassender Einblick in die Anwendung und die Korrelation der Vorgänge innerhalb der Applikation mit Daten der laufenden Container, Orchestrierungskomponenten bis hin zur zugrundeliegenden Infrastruktur. Neben standardisierten Workflows seien Administratoren, Geschäftsführer etc. in der Lage, eigene Dashboards nach individuellen Bedürfnissen zu erstellen, um Informationen aus dem jeweiligen persönlichen Blickwinkel betrachten zu können. Für Echtzeitanalysen erfasst New Relic nach eigenen Angaben außerdem jede benutzer-initiierte Interaktion und stellt die Information anschließend transparent über ein API, eine Abfragesprache und Dashboards zur Verfügung.

Die Intelligenz hilft mit

Durch die immer tiefergehende Überwachung der IT-Infrastruktur und den Versuch, Informationen mit möglichst vielen Komponenten einfließen zu lassen, ergeben sich für das Monitoring zudem noch weiterreichende Möglichkeiten, die über die Problemfindung und -behebung hinausgehen. Gemeint ist hier die proaktive Prävention von Störungen und Ausfällen, aber auch die Optimierung von Abläufen, die für die Bereitstellung eines Dienstes erforderlich sind. „Hier werden Verhaltensmuster, Durchsatz, Fehler oder der Ressourcenverbrauch, der in Zukunft zu einem Ausfall oder einer Leistungsverschlechterung führen könnte, überwacht, erkannt, visualisiert, korreliert und gegebenenfalls ein Alarm ausgelöst“, erklärt Ouillon von New Relic.

„Hier werden Verhaltensmuster, Durchsatz, Fehler oder der Ressourcenverbrauch, der in Zukunft zu einem Ausfall oder einer Leistungsverschlechterung führen könnte, überwacht, erkannt, visualisiert, korreliert und gegebenenfalls ein Alarm ausgelöst“, erklärt Gregory Ouillon von New Relic zum Thema proaktives Monitoring. Bild: New Relic

Um automatisierte Handlungsanweisungen geben zu können oder zukünftige Entwicklung prognostizieren zu können, setzen die Anbieter – wie es mittlerweile in der IT-Branche bei der Auswertung und Analyse von Daten üblich ist – auch auf KI-Algorithmen (künstliche Intelligenz) und maschinelles Lernen (ML). Die von Riverbeds SteelCentral gesammelten Daten sind laut dem Hersteller etwa so umfangreich, detailliert und komplex, dass sie die Möglichkeiten menschlicher Analysen übersteigen. „Machine Learning und KI-Tools erledigen diese Expertenanalysen und entdecken automatisch die entscheidenden Trends in den Daten“, resümiert Knippschild. Bei ML sei etwa Baselining ein wichtiger Aspekt. Hier lerne das System, wie typische Performance- und Nutzungsprofile aussehen, und sei so in der Lage, Abweichungen davon zu erkennen und automatisch Alarme zu generieren. Mittels KI sei es zudem möglich, Faktoren zu ermitteln, die hinter Änderungen in Performance und Verhalten stecken.

Gleichzeitig kann ML auch dabei helfen, die Menge von „unnötigen“ Alarmierungen zu beschränken, indem das System beispielsweise lernt, ob es sich bei einem Systemverhalten um einen Trend oder um eine einzelne Anomalie handelt. „Dann wird die Monitoring-Lösung den Peak erwarten und nicht mehr melden, aber die Information weiter sammeln“, erläutert Chris James von Virtual Instruments. Auch New Relic nutzt unter dem Namen Applied Intelligence Algorithmen und Techniken in seiner Plattform, die Warnmeldungen basierend auf historischen Trends und nicht auf fixen Grenzwerten erstellen sollen. Ebenso ermögliche die eingesetzte KI- und ML-Technik die Erkennung von Anomalien basierend auf schwachen Mustern, Handlungsempfehlungen, Runbook-Automatisierung und automatisierte Wiederherstellung.

Unabhängig davon ist genau darauf zu achten, welche Werte die ML-Technik für ihre Prognosen heranzieht. So bemängelt Chris James beispielsweise, dass sich viele Überwachungsprodukte nur auf die maschinenbasierten Analyseresultate konzentrieren und innerhalb eines kleinen Zeitfensters von wenigen Minuten lediglich einen Durchschnittswert ermitteln. „Verlässt sich ein Unternehmer auf die Zuverlässigkeit betriebskritischer Applikationen, greift diese Art des Monitorings zu kurz“, mahnt er an.

Timo Scheibe ist Redakteur bei der LANline.