SAN-Monitoring

Gesundheitsdiagnose im Storage-Netzwerk

18. November 2005, 18:31 Uhr | Thomas Brandt/pf Thomas Brandt ist Key Account Manager bei Menatnet Trade.

Storage Area Networks (SANs) bilden heute oft das Rückgrat unternehmenskritischer Anwendungen. Der einwandfreien Funktion des SANs und seiner ständigen Verfügbarkeit kommt damit eine hohe Bedeutung zu. Mit SAN-Monitoring lassen sich Fehler im Storage-Netz rasch eingrenzen und analysieren. Aber auch der Nachweis eines "gesunden" SANs ist wichtig: Denn oft sind die Ursachen für Performance-Einbrüche an ganz anderer Stelle zu suchen.

Der Begriff SAN-Monitoring ist oft mit recht unterschiedlichen Inhalten gefüllt und führt durch
schlechte Abgrenzung zu Missverständnissen. Eine der häufigsten Vermischungen findet zwischen dem
SAN-Resource-Management und dem SAN-Monitoring statt. Das SAN-Resource-Management, also das
Einrichten, Überwachen und Optimieren von Komponenten im SAN, erfolgt mit den entsprechenden Tools
der jeweiligen Hersteller. Die Betriebsüberwachung, das heißt die Einhaltung der
Performance-Erwartungen, das vorausschauende Fehlermanagement, die sinnvolle Unterstützung bei der
Fehlereingrenzung und -analyse und natürlich der Nachweis über die Leistungsfähigkeit des SANs
stellen hingegen die Kernaufgaben eines Monitoring-Systems dar.

Daraus leiten sich die wichtigsten und schwierigsten Anforderungen an SAN-Monitoring ab: die
Zusammenarbeit mit SAN-Komponenten sämtlicher Hersteller und deren einfache Einbindung sowie die
Fähigkeit, detaillierte Informationen über den Zustand des SANs in einer Datenbank zu speichern und
diese managementgerecht aufzubereiten und auszuwerten. Zusätzliche Anforderungen sind das Auslösen
automatisierter Alarme beim Überschreiten von Schwellenwerten sowie die Aufzeichnung von
Ereignisinformationen bei Fehlersituationen im SAN. So unterstützt Monitoring den SAN–Manager im
Wesentlichen bei folgenden Fragestellungen:

Wie lässt sich belegen, dass das SAN fehlerfrei funktioniert?

Falls ein Problem im SAN auftritt, wie lässt sich dann der Fehler schnell
finden und isolieren?

Nachweis einer guten SAN-Performance

Oft sind SAN-Manager in der Situation, beweisen zu müssen, dass der Grund für eine zu langsam
laufende Applikation nicht im SAN zu suchen ist. Das Überwachen des Datentransfers in MByte/s und
der Link-Auslastung genügen hierfür nicht. Die Performance-Probleme können beispielsweise auch
durch das Softwaredesign der Applikation oder durch den Aufbau und die Anordnung der
Applikationsserver bedingt sein. Das Überwachen von Switch-Fehlern ist ebenfalls nicht ausreichend,
da hier Fehler ohne ersichtlichen Grund auftreten können, beziehungsweise die Fehlerursache nicht
angezeigt wird. SAN-Monitoring allerdings bietet verschiedene Möglichkeiten, nachzuweisen, dass das
SAN richtig läuft.

So kann das Sammeln von SAN-Performance-Metriken belegen, dass die SAN-Performance unbeeinflusst
ist, obwohl die Applikation langsam läuft. SAN-Monitoring muss hierfür die speziellen SAN-Metriken,
die nicht im Zusammenhang mit der Performance der Applikationsserver stehen, überwachen.
Grundsätzlich sollten die Antwortzeiten beim Lesen von Daten im SAN konstant bleiben – unabhängig
vom Zustand der Applikation oder der Server. Ferner sollte die "Queue Depth" von I/O-Operationen
keine Werte erreichen, die außerhalb der Kapazität der Storage-Systeme liegt. Wenn ein SAN-Manager
Beschwerden über die Geschwindigkeit von Applikationen erhält, aber keine Veränderung der
Antwortzeiten beim Lesen von Daten feststellt, kann er sicher sein, dass es sich nicht um ein
SAN-Performance-Prob-lem handelt.

Das Sammeln historischer SAN-Performance-Metriken liefert zudem beweiskräftige Vergleichsdaten,
dass die erwarteten Service Levels des SANs erfüllt sind. Um die SAN-Operationen einfach
nachzuweisen zu können, sind automatisierte Reports notwendig. Wenn innerhalb einer
Unternehmenseinheit eine Applikation langsam läuft, lassen sich die historischen Daten nutzen, um
sie mit den aktuellen Informationen abzugleichen und der Ursache auf den Grund zu gehen.

Den sofortigen Überblick über den SAN-Health-Status sollte ein "Dashboard" mit aktuellen
Informationen aus dem Monitoring liefern und über den Zustand des SANs in einer einfachen
grafischen Darstellung informieren. Die Sicht auf Aktivitäten zwischen Servern und Storage-Systemen
einschließlich der prozentualen Auslastung, der Lese- und Schreibzugriffe sowie des Überschreitens
von Schwellenwerten bieten nützliche Informationen für den SAN-Manager. Modernen Monitoring-Tools
zeigen Störungssituationen in Form einer Ampelfunktion an und bieten sofortige "Drill-down"
-Möglichkeiten zur Ermittlung der Fehlerursachen.

Schnelle Fehleranalyse

Die Voraussetzung für eine exakte Prob-lemanalyse im SAN ist die Datensammlung. Sie erfolgt
entweder über Software-Probes, die Daten aus den angeschlossenen Geräten sammeln – zum Beispiel
unter Nutzung von SNMP und SMI-S (Storage Management Interface Specification). Die Alternative
stellen Hardware-Probes dar, die in Echtzeit die gesamten Informationen im Fibre Channel auffangen
und auswerten. Der zweite Weg ist der genauere und gleichzeitig derjenige, der das Entstehen neuer
Fehlerquellen beispielsweise durch Inkompatibilitäten oder Überlastungen ausschließt. Wichtig sind
auch flexible Einstellmöglichkeiten der Alarme, um rechtzeitig über Anomalien und Veränderungen
informiert zu sein. Hierzu ist ein Performance-Baselining mit den wichtigsten Metriken
erforderlich. Viele SAN-Manager wissen wenig über die "normale" Performance ihres SANs. Hier
schafft ein Monitoring-System Sicherheit und Transparenz.

Software-Probes: Sie ermöglichen eine passive Sammlung von statistischen Daten direkt aus den
Switches. Zudem lassen sich die Switch-Statistiken im gesamten SAN aggregieren, um dadurch einen
umfassenden Blick über die Performance und Trends zu erhalten. So kann der Anwender Abweichungen
vom normalen Verkehrsaufkommen im SAN auf einfache Art identifizieren. Dabei sollten möglichst von
jedem Switch Statistiken aufgezeichnet werden, um zusammen mit den Daten der Hardware-Probes den
Durchsatz des gesamten SANs sowie die I/O-Werte und Fehler zu erfassen. Die Fehlerüberwachung
umfasst zum Beispiel "CRC Errors", "Link Resets", "Link Failures", "Loss of Signal", "Loss of
Synchronization" oder "Discarded Packets". Ferner dienen die Informationen der Software-Probes
dazu, die Kapazitätsplanung zu überprüfen und die entsprechenden Auslastungen des Systems zu
ermitteln.

Hardware-Probes

Hardware-Probes sind dedizierte Datensammler, die über einen passiven Test Access Points (TAP)
direkt auf einem Fibre-Channel-Link Informationen abgreifen. Die passive Auskopplung garantiert
dabei, dass die Netzwerk-Performance unbeeinflusst bleibt und keine neue Fehlerquelle entsteht. Nur
Hardware-Probes liefern aufgrund des transparenten Zugriffs einen herstellerunabhängigen Überblick
der Perfomance innerhalb der Fabric.

Verglichen mit den softwarebasierenden Probes erlauben die Hardware-Probes einen detaillierteren
Blick in das SAN und liefern Metriken, die eine Switch-Abfrage nicht bieten kann. So ermöglichen
ausschließlich die Hardware-Probes ein "Full Line-Rate Monitoring", detaillierte
Application-Transaction-Time-Messungen, Queue-Depth-Informationen und die Ermittlung von
Antwortzeiten. Die am Markt erhältlichen Probes sammeln zirka 40 Metriken einschließlich
detaillierter I/O-Informationen, Events, Fehler und "Pending Exchanges". Sie überwachen dabei die
Metriken für jeden "Initiator" (normalerweise Server-HBAs – Host Bus Adapter), jedes "Target"
(normalerweise Storage) und jede LUN (Logical Unit). Hier fallen neben detaillierten I/O-, Read-,
Write- und Exchange- auch weitere Performance-Informationen an. Insgesamt können dies über 300
Beschreibungen sein.

Da die Lichtsignale im SAN passiv ausgekoppelt oder gesplittet werden, lassen sich sogar
SCSI-Informationen auswerten und mit Schwellenwerten versehen. Dies sind Informationen die für
einen Health-Status wichtige Antwortzeiten liefern und sich nicht nur auf Werte im Storage oder
Switch beschränken. Auf diese Weise lässt sich die gesamte Performance im SAN messen und für jede
Applikation auswerten. So ermöglicht die Überwachung auch den Nachweis von Applikationsproblemen.
In der Regel werden mit Hardware-Probes vor allem Storage-Ports und ISL (Inter-Switch-Links)
überwacht. Hier sind die kritischsten Links in Bezug auf Verfügbarkeit und Ausfallsicherheit
installiert, und hier fallen auch die wichtigsten Informati-onen an.

Fehleranalyse an einem Beispiel aus der Praxis

Wie sich ein Performance-Verlust durch den Einsatz eines SAN-Monitoring-System aufklären lässt,
zeigt ein Beispiel aus der Praxis: In einem global tätigen Unternehmen sind innerhalb eines
Data-Centers weltweit mehr als 800 Entwickler tätig. Sie greifen, bezogen auf die Anwendung und die
Daten, auf ein zentrales SAN zu. Ohne ersichtlichen Grund verringert sich die Geschwindigkeit der
Applikation so sehr, dass im User-Help-Desk entsprechende Störungsmeldungen eingehen.

Die Netzwerkabteilung und die Applikations- und Servermanager prüfen daraufhin ihre Systeme auf
Performance-Verluste, können jedoch keine feststellen. Der SAN-Bereich grenzt mit herstellereigenen
Tools die Performance-Probleme so weit ein, dass sich eine tatsächliche Verringerung der Leistung
um zwei Drittel feststellen lässt.

Nach einer sehr umfangreichen Analyse und längerer Suche entschließen sich die Verantwortlichen
ein SAN-Monitoring in das System zu integrieren. Die Storage-Ports sind mit optischen Splittern
ausgestattet, und es erfolgt eine umfangreiche Überwachung durch Hardware-Probes. Das
SAN-Monitoring-System liefert innerhalb weniger Stunden eine einfache und transparente Darstellung
des Fehlers: Der Einsatz eines neuen Softwareagenten in einigen Servern generiert ein ständiges
Fail-over der redundanten Fibre-Channel-Anbindungen und verursacht somit die
Performance-Probleme.

Fazit

SAN-Monitoring entwickelt sich zu einem immer wichtigeren Thema für SAN-Manager. Eine
professionelle Überwachung des Betriebs und ein automatisierter Nachweis über den "
Gesundheitszustand" des SANs zählen zu den aktuellen Anforderungen. Ein Mix aus Hard- und
Software-Probes macht eine permanente Überwachung auf effektive und wirtschaftliche Weise möglich.
Umfangreiche Alarmierungsmöglichkeiten, Reports und Aufzeichnungen automatisieren die Pflege und
Optimierung des SANs.


Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu Lampertz GmbH & Co. KG

Matchmaker+