Monitoring im Speichernetz

Mittel gegen Fabric Blindness

19. Juni 2007, 23:20 Uhr | Christina Mercier/jos Christina Mercier ist als SAN Technologist bei der Finisar Corporation tätig. Sie erreichen sie unter Christina.mercier@finisar.com.

Auch Speichenetze müssen heute ständig verfügbar sein. Grund genug, Monitoring- und Analysewerkzeuge nicht erst dann einzusetzen, wenn ein Fehler bereits eingetreten ist. Dazu bedarf es aber einer umfassenden Sicht auf das gesamte SAN.

Viele Unternehmen erzielen gravierende Kostensenkungen durch den Einsatz von Storage Area
Networks (SANs), die durch skalierbare Speicherkapazität, hohe Zuverlässigkeit und Leistung die
Zuweisung und das Management von Massenspeichern in großen Datencentern erleichtern. Zunehmende
Speicherkapazität, steigende Datenraten, heterogenes Equipment von verschiedenen Anbietern und
Virtualisierungstechniken machen es jedoch immer schwieriger, die SAN-Struktur zu überwachen und
ihre internen Abläufe zu analysieren.

Dass diese komplexeren SAN-Infrastrukturen Kapazitätsengpässe beheben können, steht außer
Zweifel. Für den Netzwerk-Administrator aber bringen sie eine neue Herausforderung mit sich, die im
Fachjargon auch "Fabric Blindness" heißt. Gemeint ist die Unfähigkeit zum Diagnostizieren,
Analysieren und Vermeiden von Ausfällen und Leistungseinbrüchen im Zusammenhang mit komplexen
Protokollen und Verbindungsstrukturen. Für Administratoren ist das Überwinden der Fabric Blindness
überaus wichtig. Nach einem Infostor-Report aus dem Jahr 2006 riskiert mehr als die Hälfte aller
Unternehmen in den ersten vier Stunden eines Ausfalls erhebliche Einnahmeverluste, die sich bei
Versandhäusern in der Größenordnung von 100.000 Dollar bewegen und sich bei E-Commerce- und
Finanz-Unternehmen auf bis zu 6,4 Millionen Dollar pro Stunde summieren können. An diesen Zahlen
ist deutlich abzulesen, dass es nötig ist, auf Ausfälle und Leistungsprobleme von Applikationen
schnellstens zu reagieren.

Zur Erkennung und Behebung anstehender Netzwerkprobleme muss der Techniker zunächst feststellen
können, was genau passiert ist, wie es zu dem Vorfall kam und – was gelegentlich am schwierigsten
herauszufinden ist – wo der Vorfall aufgetreten ist. Administratoren müssen sich dabei nicht selten
auf SRM-Tools (Storage Resource Management) und gerätespezifische Management-Tools verlassen. Diese
Werkzeuge können zwar Konfigurationsprobleme und Verbindungsausfälle identifizieren und sind in der
Lage, zusammengefasste Durchsatzwerte und Fehlerhäufigkeiten auszugeben. Angaben zur
SAN-Performance und zur Fehlerhäufigkeit haben allerdings keinen Bezug zu den Applikationen und
ihrem Speicherbedarf und sind außerdem nicht genau genug, um den Zeitbedarf zur Abwicklung einer
bestimmten I/O-Operation zu messen.

Leistungseinbußen von Applikationen werden dagegen meist von den Anwendern aufgedeckt, die mit
der Produktivität nicht mehr zufrieden sind. In diesem Fall muss der SAN-Administrator rasch
reagieren, Server-Logs studieren und die zusammengefassten Performance-Daten eines jeden Geräts
untersuchen. Liegen keine proaktiven Meldungen vor und sind nur begrenzte Einblicke in die Abläufe
auf den SAN-Verbindungen möglich, lässt sich nur unter großen Schwierigkeiten bestimmen, ob ein
Leistungseinbruch auf das SAN oder den betreffenden Applikationsserver zurückzuführen ist.

Scheitert die Fehlersuche, ziehen die Verantwortlichen in den Unternehmen Fachleute des
jeweiligen Herstellers mit Spezialwerkzeugen hinzu, mit denen auf der Protokollebene Analysen der
verdächtigen Verbindungen im SAN angestellt werden. Da es allerdings einige Zeit dauert, bis die
Herstellerexperten mit ihren Analyzern zur Stelle sind, die problematische Verbindung gefunden ist
und die Analyse beginnen kann, kommt es unweigerlich zu langen Verzögerungen. Die schnellste und
sinnvollste Methode, das Vorliegen eines Leistungseinbruchs im SAN festzustellen und das Prob-lem
gegebenenfalls zu beheben noch bevor die Applikationsanwender dies bemerken, besteht darin, die
nominelle SAN-Performance einer jeden Applikation zu kennen und über Fehlerdaten auf der
Protokollebene sowie SCSI-Exchange-Leistungsdaten für das gesamte SAN zu verfügen.

Schnelle Problembehebung - aber wie?

Wenn das Ziel lautet, Fabric Blindness wirksam zu verhindern, ist die Untersuchung eines jeden
Pakets bei voller Line Speed erforderlich, um Protokollfehler und Störungen aufzudecken. Sobald
jedes Paket korreliert wird, um Absolutwerte für Latenz, Zeitbedarf für Lese- und
Schreiboperationen, Durchsatz und prozentuale Auslastung der jeweiligen Verbindungen einzuholen,
lässt sich die nominelle Leistung bestimmen. Zusätzlich lassen sich Monitoreinheiten einrichten,
die jedes Überschreiten der nominellen Zeitwerte erkennen. Damit wird es möglich, chronische
Probleme wie etwa zu langsame Applikationen und Engpässe vorbeugend zu identifizieren und zu
beheben, bevor sie akut sind.

Viele Netzwerke sind anfällig für Fabric Blindness, da die vorhandenen SAN-Monitoring-Tools
keine Einblicke bis in die Datenpfade gewähren und keine nach Applikation und I/O aufgeschlüsselten
Analysen ermöglichen. Die Administratoren sind deshalb auf Betriebssystem- und Device-Logs
angewiesen oder müssen schlimmstenfalls darauf warten, bis Servicepersonal vom Hersteller eintrifft
und problematische SAN-Verbindungen mit einem Analyzer instrumentiert. Das Erfassen und Auswerten
dieser Informationen verlangt nach einem direkten Echtzeitzugriff auf den SAN-Traffic sowie nach
spezialisierten Tools, die den Traffic auf der Protokollebene und mit Line-Speed analysieren
können.

Die Hersteller von Analysewerkzeugen reagieren mit ihrem Angebot auf die Anforderungen: Der "
Traffic Analysis Point" (TAP) von Finisar ist zum Beispiel direkt in die SAN-Struktur eingebunden
und schafft dadurch physische Einblickmöglichkeiten in das Storage-Netzwerk (Bild 1). Mithilfe
optischer Strahlteiler (Splitter) kopieren TAPs passiv sämtliche Daten, ohne den Datenfluss zu
unterbrechen oder zusätzliche Latenzen zu verursachen. Da sie auf der optischen Ebene arbeiten,
sind sie laut Finisar kompatibel zum Equipment beliebiger Hersteller.

Während die TAPs auf nicht-invasive Weise den Zugriff auf das SAN ermöglichen, überwachen Probes
die über die TAPs laufenden SAN-Verbindungen bei Line-Speeds bis zu 4 GBit/s. So kann zum Beispiel "
ProbeFCX" vom selben Hersteller bis zu acht bidirektionale SAN-Verbindungen observieren und dabei
gravierende Vorfälle und Störungen im LAN aufdecken und Leistungswerte einholen, sodass das
Fabric-Blindness-Phänomen nicht auftaucht. Die dabei registrierten Ereignisse lassen sich dazu
verwenden, die Aufzeichnung des Traffics mit einem Protokoll-Analyzer und entsprechender Software
zu triggern. Die "Netwisdom"-Software nimmt etwa eine fundierte Inspektion der Datenpakete, eine
Protokollanalyse und eine Expertendiagnose vor, sodass Fehler rasch eingekreist werden und eine
beschleunigte Problembehebung möglich ist.

Die Software "ProbeV" aus der Netwisdom-Familie holt per SNMP wichtige Leistungswerte von den
Switches und dehnt damit die Überwachungsfunktion auf sämtliche Fabrics im SAN aus. Mit dem Einsatz
diverser Software erhalten Administratoren die Möglichkeit zur Verfolgung von Fehlern und
Leistungswerten im gesamten SAN, wobei eine präzise Korrelation des Traffics beim Übertritt in
andere Geräte und Fabrics erfolgt. Die Identifikation von Problemen geschieht durch paketweise
Analyse und umfassende Suchwerkzeuge, die Daten in Sekundenschnelle aufspüren können, damit eine
exakte Diagnose von Einbrüchen und Ausfällen möglich ist. Ist ein Problem erst einmal
identifiziert, können Systemadministratoren rasch lokalisieren, wo und weshalb der Fehler
aufgetreten ist. Damit ist der Weg frei für eine schnelle Fehlerbehebung. Voraussetzung für
Fehlervermeidung und Optimierung ist eine fortlaufende Netzwerküberwachung, damit festgestellt
werden kann, wie effizient und zuverlässig das SAN im regulären Betrieb sowie unter
außergewöhnlichen Bedingungen arbeitet.

Fabric Blindness vermeiden

Zur vollständigen Eliminierung des Fabric-Blindness-Phänomens dürfen Administratoren nicht nur
die kritischen Verbindungen überwachen, sondern das Monitoring muss das gesamte SAN erfassen, was
wegen der vielen zu observierenden Ports in einem typischen SAN früher schlicht unmöglich war. Den
Administratoren blieb nichts anders übrig, als zweit- und drittrangige Links von der Beobachtung
auszuschließen.

All dies ändert sich grundlegend mit der Einführung der Roving-Technik, die die
Einblicksmöglichkeiten der Probes ausweitet. Rover kombinieren hoch entwickelte
Physical-Layer-Switching-Funktionalität mit Abtasttechniken und ermöglichen einer einzelnen Probe
damit die Überwachung von bis zu 144 SAN-Verbindungen mithilfe von TAPs (siehe Bild 2). Indem man
die Zahl der von einer Probe observierbaren SAN-Verbindungen erhöht, erlangen die RZ-Systeme die
Fähigkeit, die tiefreichenden SAN-Monitoring- und Analysefunktionen nicht mehr auf bestimmte
kritische Infrastrukturverbindungen zu beschränken, sondern stattdessen das gesamte SAN zu
erfassen. Administratoren können dann für jede einzelne Verbindung Grenzwerte für die
Echtzeitleistung vorgeben, um gegebenenfalls detailliertere Informationen einzuholen und
potenzielle Probleme zu vermeiden.

Da sich jede Gruppe von SAN-Verbindungen in bestimmten Intervallen überwachen lässt, besteht die
Möglichkeit, betriebsentscheidende Verbindungen häufiger abzufragen, während zweit- und
drittrangige SAN-Verbindungen möglicherweise nur ein- oder zweimal täglich an die Reihe kommen. In
RZs lässt sich auf diese Weise die Intensität der Überwachung somit nach dem Wert der jeweiligen
Informationen und Applikationen staffeln, sodass die für die Probes investierten Mittel einem
größeren Bereich des SANs zugute kommen.

Fazit

Bei Fabric Blindness kann man auch in den effizientesten SANs niemals ganz das Risiko
plötzlicher oder schleichender Leistungseinbrüche vermeiden. Mit leistungsfähigen
Monitoring-Funktionen dagegen, die tiefe Einblicke in die gesamte Netzwerkstruktur vermitteln,
können Administratoren etwaige Probleme rasch diagnostizieren und Probleme vermeiden, noch bevor
sie zu tatsächlichen Ausfällen führen. So ist gewährleistet, dass alle Applikati-onen auf
sämtlichen Ebenen stets uneingeschränkten Zugriff auf die Datenbestände haben.


Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu Lampertz GmbH & Co. KG

Matchmaker+