Kriterien für eine moderne Netzwerkanalyse

Problemzonen im Blick

16. Dezember 2005, 0:16 Uhr | Aleš Mahler und David Eser/jos Aleš Mahler ist Diplom-Wirtschaftsingenieur und als Regional Sales Manager für Zentral- und Osteuropa bei Network Instruments tätig. David Eser ist Diplom-Ingenieur und Sales Manager bei Psiber Data.

Die Überwachung und das Trouble-Shooting im Netz sollten auf der Basis eines sorgfältig durchdachten Konzepts stehen. Der nicht unerhebliche Aufwand rentiert sich nur dann, wenn die eingesetzten Hard- und Softwaremittel passend dimensioniert und an den richtigen Stellen platziert sind.

Netzwerkanalyse und Fehlersuche beschränkt sich leider immer noch zu oft auf eine reaktive
Vorgehensweise. Überall dort, wo neues "Feuer" entsteht, werden meist portable Messgeräte
verwendet, um es zu löschen. Dies passiert jedoch auf Kosten der Netzwerkverfügbarkeit, da die Zeit
für die Beseitigung eines Netzwerkproblems, die so genannte "Mean Time to Repair", ansteigt.
Abhängig von der Relevanz der dabei beeinträchtigten Applikation für das jeweilige Unternehmen,
können solche längeren Ausfälle in vielen Fällen jedoch sofort die Anschaffung eines verteilten
Netzwerküberwachungs- und Analysesystems rechtfertigen. Hinzu kommt, dass man viele gravierende
Netzwerkprobleme mit einer permanenten Beobachtung der wichtigen Netzwerkparameter und eines
intelligenten Alarmsystems, wie auch mithilfe eines so genannten Netzwerk-Trendings vermeiden kann,
indem man bei häufiger beobachteten Leistungsverschlechterungen rechtzeitig sinnvolle
Gegenmaßnahmen trifft.

Zu einem sinnvollen Netzwerküberwachungs- und Analysesystem gehören zunächst alle gesammelten
Informationen von den Netzwerkkomponenten selbst, also vor allem von Switches und Routern. Diese
Informationen werden über eine SNMP-Managementkonsole gesammelt. Viele SNMP-Konsolen können diese
Informationen zusammenfassen und übersichtlich darstellen, zum Beispiel die Auslastung aller Ports
eines Switches in einer einzigen Übersicht. Daneben ist es auch wichtig, dass die Konsole ein so
genanntes Trending machen kann. Dies bedeutet, dass sie diese Daten langfristig abspeichert und
daraus eine historische Übersicht erstellt. Dadurch lässt sich ein Normalzustand, die "Baseline",
ermitteln und Veränderungen wie etwa eine Verknappung der Bandbreite, das Ansteigen von Broadcast
oder häufiges Auftreten von Netzwerkfehlern erkennen.

Die Informationen, die der Administrator über SNMP oder RMON von Netzwerkkomponenten erfragen
kann, sind zwar sehr wichtig, jedoch beschränkt. Er kann die Bandbreite (Auslastung) bestimmen, wie
viel Broadcast und Multicast vorhanden ist und ob Fehler auf der OSI-Schicht 2 aufgetreten sind.
Dadurch lassen sich beispielsweise Bandbreitenengpässe feststellen, jedoch nicht wer oder was diese
verursacht. Ebenfalls bleiben viele andere Parameter wie Antwortzeiten, TCP-Retransmissions,
Verbindungsabbrüche und die ganze Komplexität der höheren OSI-Schichten verdeckt.

Verteilte Netzwerkanalyse

Diese Informationen lassen sich nur durch Aufstellen von verteilten und dedizierten
Netzwerküberwachung- und Analysehardware – so genannten Probes – feststellen. Diese Probes können
aus Kostengründen nicht überall residieren, wodurch in vielen Netzwerkbereichen "Blind Spots"
entstehen. In diesen weniger wichtigen Netzwerkbereichen ist der Einsatz von portabler
Analysehardware sinnvoll. Eine Forderung lautet also: Für jedes Netzwerk ist ein Optimum an
Visibilität zu erarbeiten.

Wichtig für die Analyse sind Netzwerkbereiche, in denen Daten zentral zusammenlaufen und man
somit eine globale Ansicht von Netzwerkdaten erhält. Dazu gehören Hauptverbindungen zwischen den "
Core"-Switches, wichtige Serververbindungen, in denen alle User-Anfragen zu sehen sind und wichtige
Parameter wie Applikationsantwortzeiten. Des Weiteren handelt es sich um WAN-Leitungen oder
zumindest um die Ethernet-Schnittstelle zum Router.

Anschlussmöglichkeiten von Analysatoren

Neben der wichtigen Frage der Aufstellorte der Probes ist auch die Frage nach der Art des
Anschlusses der Probes zu klären. Eine Probe lässt sich entweder über eine Port-Spiegelung
(SPAN-Port) anschließen – wobei dabei auch eine Software-Probe ausreicht – oder voll-duplex über
einen TAP (Test Access Port).

Die Port-Spiegelung ist die einfachste Methode, die meisten Switches unterstützen sie. Der
Datenverkehr wird dabei von dem zu beobachteten Port auf den Port kopiert, an den der Analysator
angeschlossen ist (Spiegel-Port). Ohne eine Port-Spiegelung erkennt der Analysator außer Broadcast
und Multicast nichts. Die Port-Spiegelung hat jedoch ihre Grenzen und ist daher nicht immer die
geeignete Messmethode. Erstens filtert der Switch alle fehlerhaften Pakete und leitet sie nicht zum
Analysator weiter, sodass der Analysator keine Fehler auf der OSI-Schicht 2 anzeigen kann. Zweitens
eignet sich diese Methode nicht für höher ausgelastete Verbindungen im Voll-Duplex-Betrieb. Die
theoretische Grenze liegt bei 50 Prozent Auslastung im Fast Ethernet (100 MBit/s) und Gigabit
Ethernet (1000 MBit/s). Alles was darüber hinausgeht (Fast Ethernet hat eine Bandbreite von 200
MBit/s und Gigabit Ethernet von 2000 MBit/s), verwirft das System und verfälscht dadurch die
Messdaten. Der Grund dafür besteht darin, dass der Switch den Sende- und Empfangskanal nur auf
einen Sendekanal zum Analysator weiterleiten kann. Zum Dritten geht bei einer Port-Spiegelung die
Echtzeitfähigkeit verloren, da im Voll-Duplex-Betrieb Pakete von beiden Seiten gleichzeitig
ankommen und sich überlagernde Pakete zuerst gepuffert werden müssen, damit das System sie auf nur
einen Kanal umleitet.

Bei kritischen Voll-Duplex-Verbindungen, bei denen eine vollständige Datenerfassung wichtig ist,
kommt aus diesem Grund wie auch bei höher ausgelasteten Verbindungen ein so genannter TAP (Test
Access Port) zum Einsatz. Diese passive "Datenweiche" ist über Ein- und Ausgangs-Port in die
Verbindungen eingeschleift und leitet einen Teil des Datensignals an die zwei Messausgänge weiter.
Der Analysator lässt sich zu jeder Zeit anschließen, was die Verbindung dadurch nicht unterbricht
und auch nicht auf andere Weise beeinflusst. Auf die beiden Messausgänge kopiert das System den
Empfangskanal und den Sendekanal eins zu eins, und zwar mitsamt den fehlerhaften Paketen und ohne
diese zwischenzuspeichern.

Da der TAP über zwei Ausgänge zum Analysator verfügt, benötigt auch der Analysator zwei
Eingänge. Eine handelsübliche Voll-Duplex-Karte kann Datenraten von bis zu 50 Prozent der
Bandbreite empfangen (100 MBit/s bei Fast Ethernet und 1000 MBit/s bei Gigabit Ethernet) und 50
Prozent senden. Voll-Duplex-Analysatoren bestehen daher entweder aus zwei Karten (die sich jedoch
synchronisieren müssen) oder aus einer "Dual-Receive"-Erfassungskarte, die über zwei Ports auf
einer Karte verfügt. Beide können dadurch 100 Prozent der Bandbreite, also 200 MBit/s oder 2000
MBit/s empfangen und die Analyse einer Voll-Duplex-Verbindung ermöglichen. Kann man aus
Kostengründen nicht an alle kritischen Verbindungen einen Hardwareanalysator anschließen, so sollte
man zumindest diese Verbindungen mit einem TAP versehen, damit sich im Problemfall ein Analysator
anschließen lässt, ohne eben diese Verbindung unterbrechen zu müssen.

Datenanalyse

Die Analyse von Core-Verbindungen stellt nicht nur sehr hohe Anforderungen an die
Analysehardware, sondern erfordert auch eine intelligente Auswertung der anfallenden großen
Datenmenge. Außer in sofort verfügbaren Statistiken (zum Beispiel Auslastung, Hauptapplikationen,
Top Talker) sollte ein System zur Netzwerküberwachung und -analyse solche Daten langfristig für ein
Trending abspeichern können und zudem vielfältige Alarmmeldungen für vom Benutzer definierbare
Schwellwerte bieten.

Für eine Suche nach Problemen, die in höheren OSI-Schichten auftreten, bedarf es einer
Paketerfassung und -dekodierung. Die Flut an Daten lässt sich jedoch ohne ein Expertensystem, das
die Daten automatisch auf Netzwerkfehler untersucht, nicht bewältigen. Ein Betrieb des
Expertensystems in Echtzeit ist ein zusätzlicher Vorteil, da unmittelbar nach Auftreten des Fehlers
entsprechende Gegenmaßnahmen getroffen werden können. Das aufwändige Suchen des Fehlers im
Daten-Trace entfällt damit.

Eine weitere Herausforderung ist die Suche nach Ursachen von sporadisch auftretenden Fehlern und
Ereignissen im Netzwerk. Diese könnten sich durch eine Expertenmeldung oder durch Beschwerden von
Netzwerkbenutzern äußern, wie zum Beispiel die Abnahme der Leistung einer Applikation zu einer
bestimmten Uhrzeit. Entweder wartet man dann auf ein erneutes Auftreten des Problems oder man
erstellt Filter, um nach den Ursachen im Daten-Trace zu forschen. Dies setzt allerdings voraus,
dass der Administrator weiß, was er herausfiltern will, also über gewisse Vorkenntnisse
verfügt.

Eine einfachere und zudem schnellere Vorgehensweise zur Untersuchung solcher Netzwerkereignissen
ermöglicht eine Analysehardware, die den Datenverkehr auf Festplatte für mehrere Stunden oder gar
Tage mitschreiben kann. Ein Produktbeispiel ist "Gigastore" von Network Instruments im Vertrieb von
Psiber Data. Ein solcher Einsatz erfordert jedoch einen sehr leistungsfähigen Analysator kombiniert
mit einem sehr schnellen und speicherintensiven RAID-Array. Dies eröffnet die Möglichkeit,
aufgenommene Daten zeitlich darzustellen und die aufgetretenen Fehlerereignisse im Detail zu
analysieren.

Besitzt die Analyselösung entsprechende Reporting-Funktionen (zum Beispiel Webreport-Funktion
des "Observers", Bild 3) zur automatischen Erstellung und Weitergabe der Reports (etwa per E-Mail),
ermöglicht dies den Netzwerkverantwortlichen, regelmäßig Veränderungen im Netzwerk darzustellen und
weitere Maßnahmen zu planen.

Fazit: Flexibilität schafft den größten Nutzen

Die Auswahl des richtigen Systems zur Netzwerküberwachung und -analyse berührt viele Punkte und
muss mit Bedacht geplant werden. Die Empfehlung lautet: Dass System soll vertretbare Kosten
verursachen sowie eine maximale Einsicht in die wichtigsten Stellen im Netzwerk gewährleisten und
für die Art der Aufgabe richtig konfiguriert sein.

Das Ergebnis ist jedoch meist sofort messbar, nachdem die ersten Netzwerkprobleme erfolgreich
und schnell eingegrenzt worden sind. Ein solches System sollte sich den Netzwerkgegebenheiten
flexibel anpassen können und für die Zukunft skalierbar bleiben. Zudem sollte die gesamte Lösung
einfach und über eine zentrale Konsole bedienbar sein.


Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu Lampertz GmbH & Co. KG

Matchmaker+