Netzwerk-Monitoring allein reicht nicht aus

Automatisierung schafft Produktivität

2. September 2020, 7:00 Uhr | Christian Köckert/jos
© Wolfgang Traub

Die Aufmerksamkeit der Verantwortlichen in den Unternehmen für das Thema Netzwerke hat in den vergangenen Monaten erheblich zugenommen. Die Corona-Krise und die damit verbundenen Änderungen in der IT-Infrastruktur warfen ein Schlaglicht darauf, wie wichtig ein funktionierendes Netz für den Unternehmensbetrieb ist, besonders, wenn nahezu alle Mitarbeiter im Home-Office sind und lokales Arbeiten im Büro kaum mehr stattfindet.

Für viele Angestellte ist dadurch die Arbeit von zu Hause auch künftig fester Bestandteil ihrer Arbeitswelt. Damit die Mitarbeiter ihre Produktivität jedoch bestmöglich entfalten können, muss ein Monitoring das Netzwerk sehr genau im Auge behalten. Es gilt, Störungen frühzeitig zu erkennen, Fehler schnell zu finden, zu beheben und wenn möglich dafür zu sorgen, dass diese Störungen nicht erneut auftreten. Entsprechende Werkzeuge zum Monitoring der Netze sind mittlerweile zum Standard geworden. Unternehmen sehen auf diese Weise sehr schnell, wenn es im Netzwerk Probleme oder Störungen gibt. Nach einem Alarm können die Netzwerk-Experten sich auf die Suche nach dem Fehler machen, diesen analysieren und beheben.

Zu viele Alarme

Doch geht damit auch eine besondere Herausforderung einher. Denn die Überwachung liefert oft viele Alarme, die zu priorisieren und dann zu bearbeiten sind. Abhängig von der Menge der Meldungen des Netzwerk-Monitoring-Tools sind die IT-Teams jedoch unter Umständen gar nicht in der Lage, alle Alarme zeitnah zu analysieren und zu bearbeiten. Daraus wiederum ergibt sich die Herausforderung, zu erkennen, wo der eigentliche Grund einer Netzwerkstörung liegt. Je komplexer das Netzwerk, desto höher die Zahl der Alarme und desto schwieriger die Fehlersuche.
Darüber hinaus ist noch ein zweiter Aspekt von Bedeutung: Der Zeitpunkt des Alarms. Nicht alle Störungen eines Netzwerks treten während der normalen Arbeitszeit auf. Natürlich gibt es entsprechende Meldungen auf dem Smartphone auch mitten in der Nacht. Doch die Frage ist: Bekommt der entsprechende NetOps-Mitarbeiter dieses auch mit? Was ist zudem, wenn es nur eine temporäre Störung war, sodass am nächsten Tag zwar der Alarm vorhanden ist, das Problem aber – zumindest im Moment – nicht weiter auftritt? Wie können die IT-Teams dann die Fehler analysieren? Eine Post-Mortem-Analyse mag zwar helfen, besser wäre es aber, wenn die Analyse direkt zum Zeitpunkt der Störung beginnen könnte.
Zudem zeigt das Monitoring lediglich auf, dass etwas nicht stimmt – häufig jedoch nicht, wo sich die Störung befindet und woran es liegt. Die IT-Experten müssen folglich auf die Suche gehen, wo sich das Problem im Netzwerk befindet und was es verursacht.

Ort und Stelle

Die Beispiele zeigen, dass das Netzwerk-Monitoring bei der schnellen Fehlererkennung wertvolle Dienste leistet, es jedoch auch Herausforderungen gibt, die sich damit nicht lösen lassen. Um diesen Herausforderungen zu begegnen und nach der Feststellung einer Störung diese schnellstmöglich zu beseitigen, bietet sich die Netzwerk-Automatisierung als Ergänzung des Monitorings an. Die Automatisierung setzt auf dem Monitoring auf, kann durch Integration und/oder APIs die Alarme analysieren, Störungen lokalisieren und Vorschläge zu deren Behebung anbieten.

Skalierbare Automatisierung zur Fehlersuche

Das Monitoring kann in der Regel nicht genau angeben, wo genau die Störung liegt oder was der Grund dafür ist. Um dieser Herausforderungen in puncto Monitoring zu begegnen, ist NetOps-Automatisierung notwendig. Mittels einer dynamischen Landkarte des Netzwerks lässt sich der Problembereich visualisieren, und je nach eingestelltem Analyselevel sind Fehler oder Abweichungen über Data Views direkt farblich markiert.

Grundlage dafür ist das dynamische Mapping. Dies ist mit einer sich permanent erneuernden Landkarte vergleichbar, die die NetOps stets auf dem aktuellen Stand darüber hält, welche Geräte und Verbindungen sich im Netzwerk in welchem Zustand befinden. Diese dynamischen Netzwerkpläne werden zudem durch mathematisch modellierte reale Daten unterstützt. Sie bieten eine kontextorientierte Sichtweise auf die betreffenden Netzwerksegmente und stellen End-to-End-Verbindungen dar.

Dynamic Maps

Dynamic Maps sind dabei in ihrer Perspektive beliebig skalierbar und binden sowohl systemeigene Daten ein als auch die Daten von Drittanbieterlösungen wie Monitoring-Systemen. Ist dies nicht der Fall, kann das die Suche nach dem Ursprung des Fehlers erheblich verzögern. Entsprechend stellen dynamische Netzwerkpläne den jeweils relevanten Bereich automatisch dar, und die Techniker können die Fehlerquelle wesentlich schneller eingrenzen. Hinzu kommt, dass die Kombination von Monitoring und Automatisierung in beide Richtungen Vorteile bietet. Damit lassen sich nicht nur Informationen zur Automatisierungslösung übertragen und dort nutzen, sondern auch umgekehrt. So lässt sich beispielsweise auch aus der dynamischen Karte des Netzwerks über den Link – etwa bei einem Netzwerkgerät mit einem Problem – direkt in das Monitoring-System springen.

Darüber hinaus kann der dynamische Netzwerkplan als „Single Pane of Glass“, also als eine einheitliche Sicht auf die Daten der Netzwerkkomponenten aus verschiedenen Systemen dienen. Und auch dabei funktioniert die Integration in beide Richtungen, sodass im Monitoring-System eine dynamische Karte des Netzwerks hinterlegt sein kann.

Runbooks

Die Automatisierung kann jedoch weitaus mehr. Sie nutzt sogenannte Runbooks. Dabei handelt es sich um eine dynamische Bibliothek, mit deren Hilfe sich sowohl standardisierte als auch neu erlernte Fehlerprozesse abarbeiten lassen. Das heißt, im Gegensatz zu anderen Dokumentationen im Unternehmen, etwa Wikis oder Lösungsleitfäden, sind sie nicht nur Referenz, sondern enthalten auch automatisierte Schritte zur Fehlerbehebung.

Dabei sind diese so gestaltet, dass NetOps sie auch optimieren kann, wenn sie zum Beispiel bessere und/oder schnellere Problemlösungen finden als die im jeweiligen Runbook beschriebenen. Umgekehrt ersparen sich die Administratoren wertvolle Zeit, da nicht nur geeignete Herangehensweisen im Runbook berücksichtigt sind, sondern unter Umständen auch solche, die vielleicht in einem ersten Schritt hilfreich erschienen, dann aber doch nicht zum erwünschten Erfolg geführt haben. Die Runbooks befinden sich dadurch in einem kontinuierlichen Optimierungsprozess. Die automatisierten Prozesse lernen sozusagen ständig dazu. Dies trägt in der Regel erheblich zur schnelleren Problemlösung bei, da sich einige Störungen im Netzwerk wiederholen.

Die Automatisierung kann bei definierten Netzwerkalarmen von Drittsystemen aufgrund von Standardproblemen damit auch gleich direkt notwendige Schritte zur Fehlerbehebung einleiten – die sogenannte Triggered Automation. Für die Erstanalyse müssen die Netzwerktechniker also nicht mehr selbst eingreifen.

Automatisierung unterstützt manuelle Prozesse

Es ist klar, dass nicht sämtliche Fehler automatisiert zu erkennen sind. Die Techniker müssen zudem im Fall der Fälle einen separat gesteuerten Change-Management-Prozess zu Hilfe nehmen. Daher unterstützen die dynamischen Runbooks auch die manuelle Problemlösung durch Techniker. Anstelle sequenzieller Analysen von CLI-Ausgaben der Netzwerkgeräte kann der Administrator die Runbooks nutzen und kontextbezogene Diagnoseinformationen abrufen. Dabei ruft er jedoch nur die Daten ab, die für die Fehlerbehebung relevant sind, und verkürzt den Diagnoseprozess damit deutlich.

Doch die Runbooks können noch mehr: Sie ermöglichen eine Datenanalyse, die Aufschluss über Veränderungen der Betriebszustände beteiligter Komponenten gibt. Dabei wird der Ist-Zustand dieser Komponenten abgefragt und mit dem Soll-Zustand abgeglichen. Daher sind auch Informationen aus vergangenen Perioden vorzuhalten. Zudem steht bei einer Automatisierung eine Baseline-Analyse zur Verfügung, die ein Bild des Normalzustands liefert. Dazu gehören Daten der Telemetrie, der Gerätekonfiguration, des Netzwerkzustands und des normalen Betriebszustands.

Dies verdeutlicht, dass die Netzwerk-Automatisierung zwar kein Allheilmittel für möglicherweise auftretende Probleme im Netzwerk ist. Doch die Kombination der Überwachung mit einer darauf aufbauenden (teil-)automatisierten Problemlösung entlastet die NetOps-Teams, beschleunigt die Fehlerbehebung und leistet damit einen wichtigen Beitrag zum reibungslosen Betrieb des Netzwerks – und damit des gesamten Unternehmens.

Christian Köckert ist Technical Lead Pre-Sales bei Netbrain, www.netbraintech.com/de.

Anbieter zum Thema

zu Matchmaker+

Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu Rikom Software & Consulting GmbH

Weitere Artikel zu Monitoring

Weitere Artikel zu Toshiba Mobile Communications Division

Weitere Artikel zu Nimsoft

Matchmaker+