Startseite > Hardware > Redundanz und Co.

Höhere RAID-Verfügbarkeit

Redundanz und Co.

19. Mai 2005, 23:16 Uhr | Manfred Buchmann/jos Manfred Buchmann ist Director Product Management und Technical Marketing EMEA bei Network Appliance.

Mit speziellen Geräten will Network Appliance die von RAID-Systemem gelieferte Datenverfügbarkeit weiter erhöhen. Da die Hardware-Appliances mit eigener Software arbeiten, verliert das oft problematische Zusammenspiel von RAID, Betriebs- und Dateisystem an Bedeutung.

Seit es Festplatten gibt, existiert auch das Damoklesschwert "Datenverlust". Trotz immenser
Fortschritte bei Kapazität, Leistung und Format haben 25 Jahre Festplattentechnik nicht viel daran
ändern können. Um Ausfälle abzufedern und Datenverluste zu vermeiden, wurde daher bereits vor mehr
als 20 Jahren das RAID-Konzept (Redundant Array of Inexpensive Disks) entwickelt (siehe Artikel in
LANline 2004/11, Seite 34). Im Highend ist RAID als einzige Rückversicherung für die Verfügbarkeit
eines Disk-Subsystems jedoch nicht ausreichend. Datenverfügbarkeit, (un)geplante Downtime und nicht
zuletzt der Risikofaktor Mensch sollten ebenfalls in ein Hochverfügbarkeitskalkül eingehen.

Festplatten-RAID ist ohne Zweifel ein wichtiger Faktor der Systemverfügbarkeit. Die Festplatte
gilt noch vor Netzteil und Lüfter als die Komponente mit der höchsten Ausfallrate. RAID sorgt
dafür, dass mehrere Festplatten von außen gesehen wie ein einziges Storage-System agieren, de facto
jedoch unabhängig voneinander arbeiten. Der Ausfall einer Platte des Verbunds wird dabei toleriert
und bleibt ohne Datenverlust. Ursprünglich wurden an der University of California in Berkeley fünf
RAID-Arten definiert, die Performance, Verfügbarkeit und Kosten in unterschiedlichem Maß
berücksichtigen. RAID 1, 3 und 5 sind in der Praxis am häufigsten verbreitet.

Ohne in die Einzelheiten der RAID-Technik einzusteigen, sei dennoch die generelle Problematik
angesprochen, die in Zusammenhang mit der Implementierung, Erweiterung und Abstimmung auf
Betriebssystem, Filesystem und Volume-Management steht: Wird ein Disk-Subsystem konzipiert, muss
zunächst der erforderliche RAID-Level in Abhängigkeit vom Betriebssystem festgelegt werden. Hinzu
kommt die Abstimmung auf Filesystem und Volume-Management, die bei einem herkömmlichen System
zusammen mit dem RAID-System auf dem Betriebssystem aufsetzen. Veränderungen an auch nur einem
dieser Bestandteile führen mindestens zu einer geplanten Downtime und bei einem Fehlschlag der
Aktion zusätzlich zu ungeplanten Ausfällen. Je mehr Disk-Subsysteme dieser Art zu administrieren
sind, desto komplexer wird die Verwaltung und desto schwieriger sind hohe Anforderungen an die
Verfügbarkeit zu erfüllen.

Die reine Systemverfügbarkeit – und dafür ist RAID die wesentliche Komponente – trägt jedoch bei
Ereignissen wie korrupte Daten in einer Applikation, Software-Upgrades, versehentlich gelöschte
Dateien oder auch Schäden aufgrund höherer Gewalt in keiner Weise dazu bei, dass die Nutzer einen
Zugriff auf die Daten haben. Langwierige Recoveries sind in der Folge unausweichlich. Der Begriff
der Verfügbarkeit muss demnach nicht nur Systemverfügbarkeit umfassen, sondern auch
Datenverfügbarkeit und -wiederherstellbarkeit. Schließlich gehen Ausfälle laut Gartner Group in
erster Linie auf Softwarefehler, geplante Downtime und Operator-Fehler zurück – bevor erst auf
Platz vier hardwarebedingte Ursachen folgen.

Systemverfügbarkeit

Network Appliance hat unter diesen Aspekten ein Disk-Subsystem auf der Basis des
Appliance-Prinzips entwickelt. Der Kern eines solchen Geräts ist das Echtzeitbetriebssystem "Data
Ontap" und das genau darauf abgestimmte Filesystem mit Write-Anywhere-File-Layout, kurz WAFL. Die
Entwicklung von WAFL und RAID lief gemeinsam, um erstens die Leistungsprobleme zu vermeiden, die
viele Filesysteme mit RAID haben, und um zweitens einen hohen Grad an Zuverlässigkeit zu erreichen.
Im Gegensatz zu Ansätzen, bei denen RAID und Volume-Management auf dem Betriebssystem aufsetzen,
ist RAID bereits im WAFL-Filesystem angelegt. Dies soll unter anderem Operator-Fehler, nicht
zusammenpassende Versionen von Betriebssystem und Applikationssoftware sowie abweichende
Patch-Versionen ausschließen.

Die Storage-Appliances nutzen RAID-4-Parity-Schutz für alle auf dem Subsystem gespeicherten
Daten. Fällt eine der Platten aus, werden die Daten auf einer dafür zur Verfügung stehenden
Reserveplatte rekonstruiert. Während die Wiederherstellung läuft, rekonstruiert das System in
Echtzeit Anfragen nach Daten auf der ausgefallenen Platte, ohne den File-Service zu unterbrechen.
RAID-4 bietet den Vorteil vom dynamischem Filesystem und Erweiterung der RAID-Gruppe mit lediglich
einem Befehl.

Nach monate- oder jahrelanger Nutzung ist auf einer Festplatte mit defekten Datenblöcke zu
rechnen. Entsprechend normal sind auch Lesefehler. Data Ontap versucht das erneute Lesen einer
Festplatte, sobald Medienfehler auftreten. Schlägt dieser Versuch fehl, berechnet die Software die
Daten mithilfe der anderen Festplatten in der RAID-Gruppe neu und speichert die korrekten Daten in
einem neu zugeordneten Block. Sobald Daten wieder gelesen werden, verfährt Ontap automatisch nach
demselben Prinzip.

Spannend wird es allerdings, wenn Dateien monatelang nicht oder auch nie mehr gelesen werden.
Schließlich fallen defekte Blöcke ohne Lesezugriff nicht auf. Um diese dennoch zu erkennen, enthält
Ontap nach Angaben von Network Appliance ein Feature namens RAID Scrubbing, das regelmäßig einen
Lesezugriff auf jeden Festplattenblock erzwingt. Selbst wenn ein Nutzer eine bestimmte Datei nie
liest – RAID Scrubbing "liest" sie. Tritt dabei ein Medienfehler auf, berechnet das System die
Daten wieder, und der Block wird neu abgebildet.

Geeignet für das Highend heißt auch, dass das System Stromausfälle ohne Datenverlust oder
Brüchen in der Datenintegrität übersteht. Das WAFL-Filesystem arbeitet mit nicht flüchtigem RAM
(NVRAM), der alle seit dem letzten Konsistenzpunkt bearbeiteten Anfragen vorhält. Ein
Konsistenzpunkt ist ein interner Snapshot des Filesystems, den das System alle zehn Sekunden
ausführt. NVRAM ist ein spezielles, akkubetriebenes Memory, das auch dann Daten speichert, wenn das
System ohne Stromversorgung ist. Startet die Appliance etwa nach einem Stromausfall neu, erkennt
sie ohne lange Filesystem-Überprüfungen sofort den aktuellen, konsistenten Status auf den
Festplatten und spielt die noch ausstehenden Anfragen aus dem Log ein. Schreibvorgänge, die durch
den Stromausfall unterbrochen wurden, ignoriert das System einfach, da sie das letzte konsistente
Image noch nicht zugeordnet hat, und führt sie erneut aus.

Verdoppelung der RAID-Parity

Einen weiteren Grad an Systemverfügbarkeit will Network Appliance mithilfe von RAID DP (Double
Parity) erreichen. Den Ausfall einer Festplatte im Volume regelt RAID-4 ohne Datenverlust. RAID DP
geht über herkömmlichen RAID-Schutz mit nur einer Parity weit hinaus.

Kritisch wird es in der Regel erst dann, wenn zwei Platten gleichzeitig ausfallen, oder aber
wenn dem Ausfall einer Platte ein Block- oder Bit-Fehler folgt, bevor die Rekonstruktion
vollständig ist. Die Möglichkeiten jedes "normalen" RAID-Systems sind in diesem Fall ausgereizt.
RAID DP schafft eine weitere Pufferzone gegen drohenden Datenverlust. In Kombination mit der
hauseigenen Software "Syncmirror" lässt sich der RAID-Datenschutz auf bis zu fünf gleichzeitige
Ausfälle beziehungsweise vier Ausfälle gefolgt von einem Block- oder Bit-Fehler vor Abschluss der
Wiederherstellung erweitern.

Ergänzt werden diese Funktionen durch die redundante Ausstattung mit Lüftern, Netzteilen und
Haupt-Memory und durch andere Absicherungsmethoden wie Watchdog Timer zur Entdeckung eventueller
Softwarefehler. Hinsichtlich der Systemverfügbarkeit lässt sich ein weiterer Level an Verfügbarkeit
nur durch Cluster Failover erreichen, eine Option, die über die Systemverfügbarkeit hinaus in
Richtung Disaster Recovery weist.

Hohe Anforderung an die Datenverfügbarkeit

Backup, Wartungsaufgaben an Hard- und Software, Upgrades von Applikationen, Datenbanken und
Betriebssystemen schlagen zumindest bei konventionellen Fileservern und Speichersubsystemen als
geplante Downtime zu Buche und verringern die Datenverfügbarkeit – aber genau daran richten sich
heute hohe Erwartungen. Selbst bei Applikationen, die nicht erfolgskritisch sind, erwartet der
Nutzer, dass seine Daten verfügbar sind und eventuelle Wartezeiten kurz und vor allem selten
sind.

Ein Disk-Subsystem in Form einer dedizierten Storage-Appliance vermeidet aufgrund seiner
Architektur geplante Downtime fast völlig. Der Administrator muss weder Filesystem, RAID-Gruppen,
Partitionierungen noch Shares per Hand anpassen. Stattdessen erledigt das System die Erweiterung
der Festplattenkapazität dynamisch auf einen einzigen Befehl hin. Datenmanagementaufgaben wie die
leistungsorientierte Verteilung der Daten auf den Platten laufen automatisch ab. Das Upgrade des
Betriebssystems erfolgt parallel zum laufenden Betrieb. Ein Reboot kann zu einem beliebigen
Zeitpunkt stattfinden und dauert zirka 90 Sekunden.

Ungeplante Downtime aufgrund von Operator-Fehlern lässt sich mit einer Appliance deutlich
reduzieren, da es ohnehin nur wenige Aufgaben gibt, die das System nicht selbst erledigt. RAID ist
bereits integriert, sodass weder Setup noch Konfigurierungen erforderlich sind. Abgesehen von der
sehr schnellen Erweiterung des Filesystems fällt keinerlei Datenmanagement an.

Der Mensch bleibt Unsicherheitsfaktor

Trotz aller Vorkehrungen zur Ausschließung von Systemfehlern und zur Minimierung der Downtime
bleibt als Unsicherheitsfaktor der Mensch. Unabsichtliches Löschen wichtiger Dateien führt umgehend
zu Helpdesk-Anrufen mit der Bitte um Wiederherstellung aus dem Backup. Liegt die Datei auf Tape,
kann es einige Zeit dauern, bis das Gewünschte gefunden ist. Deutlich schneller sind Restores aus
Disk-basierendem Backup. Am schnellsten lassen sich derartige Probleme jedoch mit der
Snapshot-Technik lösen. Sie funktioniert auch aus dem WAFL-Filesystem heraus. Entsprechende
Systemkonfiguration vorausgesetzt, kann der Nutzer seine gelöschte Datei binnen Sekunden aus dem
Snapshot auch selbst wiederherstellen – eine für Nutzer wie Administrator komfortable und vor allem
zeitsparende Lösung.

Snapshots eignen sich jedoch auch zur schnellen Wiederherstellung kompletter Filesysteme. Bei
misslungenen Upgrades oder korrupten Datenbanken vermittelt die Snapshot-Technik nicht nur ein
sicheres Gefühl, sondern verschafft einen immensen Zeitvorteil, da der gewünschte Status des
Filesystems in ein paar Minuten wieder herstellbar ist. Ein Snapshot ist jedoch auch die Grundlage
für synchrones und asynchrones Mirroring, für schnelles Online-Backup und sichere
Compliance-Lösungen.

Fazit: RAID allein genügt nicht

Besonders im Highend sollte ein Disk-Subsystem über die Fähigkeiten eines einfachen RAID-System
hinausgehen und die Verfügbarkeit von System und Daten in den Mittelpunkt stellen. In Kombination
mit entsprechender Software kann daraus eine vielseitige Plattform für die unterschiedlichsten
Storage-Anforderungen werden – Hochverfügbarkeit immer vorausgesetzt.

Höhere RAID-Verfügbarkeit