Fehlersuche bei der 40G/100G-Übertragung

Auf richtiger Ebene

03. Februar 2020, 07:00 Uhr   |  Thomas Friedrich

Auf richtiger Ebene

Kommt es zu einem Fehler bei der 40/100G-Übertragung, muss der Übertragungstechniker entscheiden, wie er diesen Fehler identifiziert. Dies ist nicht immer ganz einfach. Besonders schwer zu isolieren sind temporäre Aussetzer, nicht jederzeit vorliegende Fehler sowie Fehler bei Netzkopplungen für eine High-Bitrate-Übertragungsstrecke, die sich über mehrere Netzbetreiber erstreckt.

Dies ist der abschließende Beitrag der vierteiligen Artikelserie zu den Aufgaben der Messtechnik in 100G-Netzen. Er beschäftigt sich mit Fragen der Fehlersuche bei der Übertragung mit 40G/100G. Im ersten Teil (LANline 6/2018, Seite 23) ging es um die Entwicklung hin zu 100G und den damit verbundenen allgemeinen Herausforderungen für die Messtechnik. Der zweite Beitrag (LANline 12/2018, Seite 60) behandelte die Physical-Layer-Messtechnik bei 100G. Der dritte Beitrag (LANline 8/2019, Seite 29) untersuchte die Layer-2-, Layer-3- und Layer-4-Übertragungsmessung.

Artikelserie: Aufgaben der Messtechnik in 100G-Netzen

Neue Aufgaben für die Messtechnik: Link

Physical-Layer-Messtechnik für 100G: Link

Bis zur Oberschicht: Link

Die Segment- und Protokollebene

Prinzipiell ist es möglich, dass Fehler auf verschiedenen Protokollebenen (Layer 1, 2, 3, ?) oder geografisch in den Segmenten einer zusammengeschalteten 40/100G-Verbindung auftreten. Ist ein Messgerät mit möglichst systemgleichen Transceivern ausgestattet und wird gegen ein entferntes Messgerät in Schleife oder Ende-zu-Ende angeschaltet, sollte ein Techniker zunächst den PHY-Level kontrollieren und anschließend auf dem MAC- oder IP-Layer testen. Zunächst untersucht er dazu selbstverständlich die Pegel der einzelnen Wellenlängen. Besonders wichtig für Layer-1-Analysen sind Aussagen über das Skewing, also über die Unterschiede der Laufzeiten für die vier Wellenlängen beim LR4-Transceiver, PCS-Fehler (Physical Coding Sublayer im Ethernet-Interface-Chipsatz), FCS-Fehler (Frame Check Sequence) oder Taktprobleme.

Der Layer 2 kann die verschiedensten Frame-Fehler bis hin zum Frame Loss zeigen. Eine große Hilfe sind Messgeräte, die verschiedenartig auftretende Fehler im zeitlichen Verlauf und in Histogrammform darstellen. Je größer die Testlast, desto höher ist die Wahrscheinlichkeit für das Auftreten von Störungen. An dieser Stelle muss der Techniker zwischen Fehlern und Alarmen differenzieren: Bei einem Fehler handelt es sich um sporadische Beeinträchtigungen, ohne dass der Link ausfällt. Im Alarmfall ist ein Link down, und es kommt zu einem "Alarm Indication Signal" (AIS), dem Meldesignal bei Totalausfall. Eine Übertragung ist dann nicht mehr möglich.

604 LANline 2020-02 S04 Bild_2
©

Grafische Messwertdarstellung über die Zeit, Histogramm und Event Log unterstützen den Messtechniker bei der Fehlersuche. Bild: Viavi

Die 1-2-5-Regel

Will ein Techniker in die Fehlerdiagnose einsteigen, empfiehlt sich die Analyse zwischen zwei LR4-100G Transceivern nach der 1-2-5-Regel. Dieses Vorgehen basiert auf dem Sachverhalt, dass die vier parallel übertragenen 25G-Datenströme mit ihren vier Wellenlängen in zehn Physical Lanes auf der elektrischen Seite des Transceivers abgebildet sind, vor dem PCS-Coding jedoch intern auf 20 virtuellen seriellen Bitstrom-Lanes im 100G-Endgerät verarbeitet werden (Bild rechts Mitte). Wenn nur eine Virtual Lane betroffen ist, befindet sich der der Fehler außerhalb des Transceivers auf dem PCS-Layer. Sind genau zwei oder n*2 Virtual Lanes fehlerhaft, sind dies Fehler auf der elektrischen Seite des CFPs (C Form-Factor Pluggable). Wenn es fünf oder n*5 Fehlerereignisse der Virtual Lanes gibt, handelt es sich um Störungen der elektrischen oder optischen Verbindungen. Möglicherweise liegt dann eine zu geringe Empfangs- oder Sendeleistung vor. Verantwortlich dafür können die Streckendämpfung oder gealterte Transceiver sein.

Sind SR4- oder SR10-Transceiver im Einsatz, kommen MPO-Stecker zum Einsatz. Wichtigste Ursache für Fehler von 100G-Verbindungen im LAN, SAN oder Rechenzentrum ist die Verschmutzung der optischen LWL-Stecker. Die Nutzung digitaler Video-Fasermikroskope ist daher kein überflüssiger Luxus, sondern bei der 40/100G-Fehlersuche dringend zu empfehlen. Im professionellen Netzbetrieb sollte es beim Umgang mit einer 100G-Infrastruktur daher die verbindliche Verhaltensregel geben: Jeder MPO-Steckverbinder ist vor dem Stecken visuell zu kontrollieren und gegebenenfalls zu reinigen.

Die Signatur des Fehlers

Treten Fehler nur zeitweise auf, ist eine zeitliche Darstellung des Auftretens hilfreich, um die Signatur des Fehlers einzukreisen. Derartige Messungen erfolgen abhängig von der Einschätzung der Fehler- situation durch Langzeitmessungen mit maximaler Frame-Rate oder auch mit Random- und EMIX-Frame-Profilen. EMIX (Ethernet Mixed Frame Length) ist ein Test mit mindestens acht verschiedenen Frame-Längen. 7 + 1 Frame-Längen davon sind vom MEF-Forum und im Y.1654 "Procedures Service & Performance Testing" vorgegeben. Sieben Rahmenlängen lehnen sich an RFC-2544 an, ein Frame besitzt die maximale MTU-Size (Maximum Transmission Unit) oder optional auch weitere User-Frame-Längen. Ursachenforschung und Fehlerbehebung werden durch zeitbezogene Aussagen zu Fehlern und Symptomen leichter.

604 LANline 2020-02 S04 Bild_3
©

Die 1-2-5-Regel der Fehlerdiagnose an 40/100G-Verbindungsstrecken. Bild: Viavi

Die Protokollanalyse

Sieht die physische Ebene einer 100G-Verbindung fehlerfrei aus, liegt der Fehler möglicherweise auf einer höheren Protokollebene. In dem Fall sollte ein Übertragungstester nicht nur über die üblichen Applikationen für die Tests der Layer 1 bis 4 verfügen, er sollte zudem die Nutzdaten mitschreiben. Diese lassen sich dann über eine idealerweise im Gerät vorhandene Analysesoftware bis auf die Bitebene herunter diagnostizieren. Das Bild auf Seite 58 zeigt beispielhaft via Wireshark die Testlast eines Übertragungstests mit BERT-Pattern (Bit Error Test) auf dem Übertragungstester. Zur Diagnose von Rahmenverlusten oder OOS-Situationen (Out of Sequence, Rahmenvertauschung) wertet der Übertragungstest die Frame-Sequenznummer aus.

Die Wireshark-Analysesoftware ist ein gutes Werkzeug dafür, zudem noch wesentlich mehr Auswertungsmöglichkeiten für die Untersuchung anwendungsbezogener Abläufe auf Protokollebene bereitzustellen. Treten Fehler auf der Datenebene auf, etwa Funktionsfehler, Protokollfehler oder Bugs, sind Erfahrung und Detailwissen des Technikers gefragt. Sehr hilfreich ist es dann, wenn Übertragungstester über ein J-Mentor-Tool verfügen. Damit ist es möglich, einen Fehler zumindest grob auf den Protokoll-Layer einzugrenzen, also auf Layer 1, Layer 2 oder Layer 3.

604 LANline 2020-02 S04 Bild_4
©

100G-Übertragungsfehler im Zeitverlauf und in tabellarischer Darstellung.Bild: Viavi

Diese Fehler sollte man kennen

Es ist unmöglich, in einer Tabelle eine komplette Übersicht aller möglichen Fehlersymptome und die Möglichkeiten ihrer Erkennung zu liefern. Die Tabelle auf Seite 58 kann jedoch den Blick für mögliche Zusammenhänge schärfen. Will man eine reibungslos funktionierende, für Upgrades vorbereitete und übersichtlich zu administrierende 100G-Infrastruktur erstellen, sind messtechnische Werkzeuge zur Abnahme und Entstörung der 100G-Übertragung sowie zur dauerhaften Überwachung, beispielsweise mittels TWAMP (Two-Way Active Measurement Protocol), ein unverzichtbares Hilfsmittel.

Hersteller von Netzelementen und Übertragungseinrichtungen statten ihre Lösungen oft mit systeminternen Möglichkeiten zur Fehlereingrenzung aus, auf die der Anwender im Fehlerfall zugreifen kann. Da jedoch der Aufwand mit der Bitrate ganz erheblich steigt, ist insbesondere bei 100G eine einfache Softwareapplikation nicht in der Lage, eine umfassende Fehlereingrenzung auf verschiedenen OSI-Schichten vorzunehmen. Auch die bei manchen Herstellern möglichen systeminternen BERT-Tests gestatten keine Aussage aus Übertragungssicht. Um Fehler einzugrenzen, sind grundsätzlich Messgeräte mit Testmöglichkeiten für Layer 1 bis 4 erforderlich.

604 LANline 2020-02 S04 Bild_5
©

Übertragungstester mit Wireshark-Software zur Fehlersuche auf Protokoll­ebene. Bild: Viavi

Abschließender Ausblick

Auch in einer Welt der hohen Bitraten wie 100G und 400G werden manuelle Abnahmemessungen und Messgeräte in Form einer Hardwarebox nicht verschwinden. Systemintegrierte Messmöglichkeiten sind spätestens dann keine Option mehr, wenn eine Strecke ausfällt oder der Remote-Zugriff nicht mehr möglich ist. Konventionelle Leistungsmessungen mit RFC-2544-Testreihen verschwinden allerdings zunehmend zugunsten integrierter Plug-and-Play-Lösungen. Die komplex zu konfigurierenden Service-Level-Messroutinen nach Y.1564 gewinnen dagegen an Bedeutung. Der Grund dafür liegt bei der stark steigenden Verbreitung isochroner Datendienste, etwa Video-Streaming oder Echtzeitapplikationen sowie bei der Überbuchung der Backbones auf allen Bitraten bis 100G.

Hilfreich sind Messgerätehersteller, die die Nutzer ihrer Geräte beim Feldeinsatz mit einer cloudbasierenden Verwaltung und mit Messroutinen, die sich über die Cloud verteilen lassen, unterstützen. Mobilfunk-, Telko- und Kabel-TV-Betreiber sowie Rundfunkanstalten sorgen momentan für die stetig steigende Verbreitung von synchronem Ethernet für den 5G-Access und 100G-Backbones. Dies führt dazu, dass Messtechniker ein Rubidium-Referenznormal und GPS-Support für ToD-Signale (Time of Day, die Zeitmarke für synchrone Anwendungen) einsetzen müssen. Über das PTP-1588v2-Protokoll wird die asynchron konzipierte Ethernet-Technik gewissermaßen echtzeitfähig und so für isochrone Datendienste nutzbar.

Moderne portable 100G-Messgeräte verfügen dazu über eine Rubidium- und GPS-Referenzquelle ebenso wie über PTP- 1588v2-Eigenschaften.

Tabelle_LANline 2020-02 604_neu
©

Verschiedene Fehler an 100G-Client/Line-Interfaces.

Tabelle_LANline 2020-02 604_neu
©

Verschiedene Fehler an 100G-Client/Line-Interfaces.

Auf Facebook teilenAuf Twitter teilenAuf Linkedin teilenVia Mail teilen

Das könnte Sie auch interessieren

Würth Phoenix: Mit Open-Source-Technik Monitoring-Silos vereinen
ThousandEyes: Performance-Probleme proaktiv erkennen
Datadogs Security Monitoring soll Gefahren in Echtzeit erkennen

Verwandte Artikel

Monitoring

Viavi