Ein kleiner Fehler kann schnell zu Leistungsschwankungen im Netzwerk führen und die Bereitstellung von Anwendungen beeinträchtigen. Die richtigen Messmethoden helfen dabei, die Ursachen für solche Qualitätsschwankungen aufzuspüren und auf ein Minimum zu begrenzen.

Das ruckelnde Video zu Hause vermiest den Feierabend, die eingefrorene Eingabemaske im Krankenkassen-Service verärgert Kunde und Betreuer, der lahme Roboterarm verursacht Produktivitätseinbußen. Egal ob zu Hause, im Büro oder in der Fabrikhalle: Ein störungsfreies Netzwerk ist der heilige Gral eines jeden Netzwerkadministrators. Ziel ist es, das Netzwerk so bereitzustellen, dass vereinzelte Fehler die Netzwerkleistung nicht beeinträchtigen. Dazu braucht es Kenntnisse über Ursachen von Qualitätsschwankungen und geeignete Messmethoden.

Die Ursachen von schwankender Qualität im Netzwerk sind vielfältig. Auf Paketebene gibt es im Wesentlichen drei Ursachen: Pakete gehen entweder verloren, kommen stark verzögert oder mit großen Unregelmäßigkeiten an, dem sogenannten Jitter. Eine Garantie, ob und/oder wann Pakete angekommen, gibt es nicht. Das Netz ist so ausgelegt, dass sie vielleicht ankommen.

Dabei haben sich zwei Protokolle durchgesetzt: TCP und UDP. TCP wird überall dort eingesetzt, wo die Ankunft von allen Daten wichtig ist, beispielsweise beim Aufrufen einer Website. Paketverlust durch Überlast oder schlechte Verbindungen führen nicht zu Datenverlust, aber für den Nutzer entstehen spürbare Verzögerungen durch das Warten auf Retransmissions.

UDP wiederum findet Verwendung, wenn es auf schnelle und zeitnahe Datenüber­tragung ankommt. Beispiele hierfür sind Audio- oder Video-Telefonie oder Online-Spiele. Paketverluste führen hier oft nicht zu einer Verzögerung, stattdessen sinkt die Qualität des Dienstes, hörbar zum Beispiel als Knacken in der Leitung oder sichtbar als ein kleiner Pixelfehler. Netzwerkprobleme können daher je nach eingesetztem Protokoll zu unterschiedlichen Problemen für den Nutzer führen.

Probleme durch variable Bandbreiten

Auch variable Bandbreiten verursachen Qualitätsschwankungen. Die Bandbreiten für Endgeräte sind mittlerweile so hoch, dass sehr leicht sowohl der eigene Internetzugang als auch interne Server-Dienste von einzelnen Nutzern ausgelastet sein können. Ein Nutzer ist beispielsweise in der Lage, mit 1 GBit/s im internen Netzwerk den Internet-Downlink mühelos auszulasten. Ein zweiter Nutzer kann so auf Grund fairer Ressourcenverteilung nur noch maximal 50 Prozent der Internet-Bandbreite bekommen.

Das WLAN erreicht mit Wi-Fi 5 zudem ebenso Bandbreiten, die ein einfaches Gigabit-Kabel übertreffen. So können selbst mobile Endgeräte kurzfristig sehr hohe Bandbreiten abrufen, die interne Router und Dienste erst bereitstellen müssen.

Aus Nutzersicht haben die unterschiedlichen Übertragungswege (Kabel versus Funk) zwar den Vorteil einer hoher Bandbreite, aber der WLAN-Empfang kann plötzlich einbrechen und der Nutzer bemerkt Verzögerungen, weil die Verbindung plötzlich unerwartet langsam ist. Lief ein Download eben noch mit 10 MBit/s und plötzlich nur noch mit 1 MBit/s, dann fällt dies störend auf. Die Ursache für solch schwankende Bandbreite kann schlechter Funkempfang sein, eine starke interne Netzauslastung oder eine Kombination aus beidem. Oft steigt die benutzte Bandbreite auch ungewollt an, wenn etwa Videoübertragungen dynamisch die Auflösung an die verfügbare Bandbreite anpassen. Hohe verfügbare Bandbreite führt dann automatisch auch zu hoher Auslastung, selbst wenn das vom Nutzer gar nicht gewünscht ist.

Bis zur Verbreitung von SSDs als Datenträger konnten Netzwerke oft Daten schneller übertragen, als ein einzelnes Endgerät fähig war, diese bereitzustellen. Moderne SSDs senden und empfangen Daten nun sehr schnell. Sie schaffen es so spielend, die dahinterliegende Gigabit-Leitung auszulasten. Moderne NVMe-SSDs erreichen sogar Geschwindigkeiten, dass selbst eine 10-Gigabit-Leitung die Daten nicht so schnell durchleiten kann und sich Staus bilden. Dadurch kann schon eine einzelne Datenübertragung das Netzwerk an seine Grenzen bringen.

Zudem können Router und Firewalls die Netzwerkqualität beeinflussen, denn heutige Router und Firewalls sind mehr als ein Stückchen Hardware. Sie haben sich zu kleinen Rechnern gemausert, mit einer Vielzahl an Aufgaben. Sie scannen nach Viren, leiten Pakete weiter, verwalten die DSL-Leitung etc. Diese parallelen Jobs sorgen allerdings wiederum für unterschiedliche Auslastungen und schwankende Qualität. Schreibt ein Router beispielsweise gerade eine große Log-Datei auf die Festplatte, kann das kurzfristig zu einer verzögerten Paketverarbeitung führen. Lassen sich andere Leistungskurven relativ leicht messen, sind solche von Router oder Firewall verursachten Schwankungen zudem schwer zu reproduzieren.

Die TCP-Zero-Window-Statistik zeigt das Versenden von Zero-Window-Paketen während des Datenempfangs. Bild: Allegro Packets

Die Ursachen, die für eine schwankende Qualität im Netzwerk sorgen, sind also vielzählig. So wie viele Köche den Brei verderben, wachsen die Fehlerquellen auch mit der Anzahl an Diensten im Netzwerk. Häufig müssen Netzwerkadministratoren entsprechend viel Arbeitszeit in die Suche nach dem Fehler stecken.

Einzelne Qualitätsparameter wie beispielsweise die WLAN-Geschwindigkeit lassen sich durch kostenlose Tools messen. Solche aktiven Messungen haben jedoch den Nachteil der Momentaufnahme, man kann also keine Aussagen über den Zustand während der restlichen Zeit machen. Besser geeignet sind daher Messwerkzeuge, die ein Administrator über einen längeren Zeitraum einsetzen kann.

Solche Netzwerkmess- und Troubleshooting-Tools kombinieren vielerlei Analysemodule und können das Troubleshooting beschleunigen. Mit einem solchen Mess-Tool hilft oft schon ein erster Blick auf die wichtigsten Parameter, um Ausreißer bei der Übersicht über die aktivsten Protokolle, die größten Verbindungen oder Top-IPs zu erkennen. Von dort aus navigieren sich Administratoren zum verdächtigen Verkehr und nehmen dort die feingranularen Messungen vor.

Die Überwachung des TCP-Protokolls bietet sich an, um Paketverluste beziehungsweise hohe Retransmissions zu identifizieren, die etwa auf überlastete Netzwerk­knoten hindeuten. In solch einem Fall lässt sich feststellen, welche Anwendungen oder Protokolle wie viel Bandbreite belegten und ob dies häufiger auftritt.

Ausgelastete Endgeräte

Ein weiterer TCP-Parameter ist das TCP Zero Window (siehe Bild). Ein solches entsteht typischerweise, wenn die Endpunkte ausgelastet sind. Liegt das TCP-Fenster bei null, kann eine Applikation die empfangenen Daten nicht mehr verarbeiten. In diesem Fall lässt sich das Netzwerk als Fehlerquelle ausschließen. Hier ist das Endgerät am Limit. Dies stellt per se noch kein Problem dar, sondern zeigt vielmehr die Verarbeitungsgrenze auf. Ein leistungsfähigerer Server würde in diesem Fall keine Verbesserung bringen, eine Investition in leistungsstärkere Endgeräte ist hier sinnvoller.

Neben der Durchschnittslast des Netzwerks geben Troubleshooting-Tools auch detailliert Auskunft über Spitzenlasten. Gerade kurze Bursts gehen in der Durchschnittslast statistisch unter, können aber kurzzeitig erheblich Einfluss auf die Qualität haben, wenn etwa die Bandbreite für Echtzeittelefonie durch den Burst nicht mehr ausreicht. Mess-Tools können hier aufzeigen, welche Anwendung und welcher Netzteilnehmer die Bursts verursacht hat, ob diese regelmäßig stattfinden und wie lange sie dauern. Erst diese Erkenntnisse ermöglichen eine Ableitung von Maßnahmen, um das Netzwerk dauerhaft zu verbessern.

Bei VoIP-Protokollen wie SIP ist die Überwachung von Jitter und Paketverlust wichtig. Dies hat Auswirkungen auf die Sprachqualität. Im realen Telefonat hört es sich dabei so an, als ob der Gegenüber die Worte abhakt. Ursachen können wiederum Microbursts sein. Ein schwankender Jitter kann auch durch wechselnde Empfangsqualität im WLAN entstehen. Dadurch werden Audiopuffer abwechselnd leer und voll, und es kommt zu hörbaren Unterbrechungen.

Schnelles Troubleshooting ist also machbar. Moderne Tools, die viele Daten messen und korrelieren, erlauben es, Fehler schnell einzukreisen. Oft ist eine langwierige Analyse von GByte-großen Capture-Dateien dann nicht mehr nötig. Vielmehr lassen sich die verdächtigen Pakete vorab filtern und dann der Detailanalyse unterziehen. Dies stellt eine enorme Zeitersparnis dar. Ist das Problem erkannt, kann die Anpassung oft schnell erfolgen, sodass das Netzwerk wieder funktioniert.

QoS-Regeln

In vielen Fällen lassen sich Bursts mit Hilfe von Qualitätsklassen vorab minimieren. Dazu bestimmt der Netzwerkverantwortliche QoS-Regeln (Quality of Service), beispielsweise am Uplink. Diese bestimmen, welchen Diensten welche Bandbreite zur Verfügung gestellt wird. Eine Regel könnte etwa Android-Updates von einem bestimmten IP-Adressbereich beschränken oder UDP-Verkehr im Vergleich zum TCP-Verkehr Vorrang geben.

Voraussetzung für die Erstellung von QoS-Regeln ist einmal mehr die genaue Kenntnis des Netzwerkverkehrs. Erst wenn klar ist, welche Dienste überhaupt genutzt werden und welche Bursts entstehen, lässt sich dieses Verkehrsaufkommen entsprechend strukturieren. Für jeden Dienst kann so entschieden werden, ob er tatsächlich zu den Standardzeiten notwendig oder gegebenenfalls eingrenzbar ist.

Kennt der Netzwerkadministrator nur die Durchschnittslast, mündet jede Anpassung in einen langwierigen Trial-and-Error-Prozess. Weiß er jedoch, wie oft und wie lange sich der Verkehr gestaut hat und was den Burst auslöste, kann er auf dieser Basis geeignete QoS-Regeln anlegen.

Die so im Netzwerk definierten QoS-Regeln sollte der IT-Verantwortliche ebenfalls durch Mess-Tools überwachen. Häufig stellt sich heraus, dass einzelne Geräte keine oder falsche QoS-Regeln nutzen. Nur eine Messung der tatsächlichen QoS-Verteilung im Netzwerk kann die Wirksamkeit von Quality of Service bestätigen.

Klaus Degner ist Geschäftsführer von Allegro Packets, www.allegro-packets.com.