Systemkonzepte von Speicher-Arrays

JBOD, MBOD, SBOD - der kleine Unterschied

9. Mai 2007, 23:15 Uhr | Dr. Tim Courtney/mw Dr. Tim Courtney ist als Senior Development Engineer bei Xyratex Storage Systems tätig.

Speicher-Arrays sind heute selbst in den Serverräumen von kleinen Firmen ein häufiges Bild. Vor allem, wenn Fibre Channel als Verbindungsmedium zum Einsatz kommt, stellen Kunden hohe Erwartungen an den Durchsatz. Für maximale Leistung muss die Technik im Inneren des Arrays stimmen.

Wer ein Speichersystem einsetzt, kümmert sich in der Regel nur um den Anschluss des
Gesamtsystems an seine Infrastruktur. SCSI, Fibre Channel oder ein direkter Netzwerkanschluss bei
einem NAS-Gerät sind die in Frage kommenden Variationen. Im High-Performance-Computing-Umfeld
spielt Infiniband eine Rolle, die seriellen Technologien Serial-Attached-SCSI (SAS) und Serial-ATA
(SATA) gewinnen auf dem Markt immer größere Bedeutung. Doch die Leistungsfähigkeit des Systems
hängt nicht nur von der externen Anbindung ab. Wie der Hersteller des Speicher-Arrays die
eingebauten Festplatten intern ansteuert, hat enorme Auswirkungen auf Durchsatz und Latenzzeiten.
Wie Messungen belegen, erzielt eine geswitchte Infrastruktur (SBOD) gegenüber einer einfachen
Aneinanderreihung von Platten (JBOD) oder einem Hub (MBOD) den mehrfachen Durchsatz. Zudem sind die
Diagnose- und Interconnect-Fähigkeiten deutlich verbessert.

In der Vergangenheit nutzten die Hersteller sehr simple Verfahren für die Verbindung der
Festplatten untereinander, in der Regel über ein gemeinsames Bussystem. Selbst bei
Fibre-Channel-Arrays (FC-AL) wurden zunächst alle Platten wie bei einer Kette aneinander gehängt.
Tatsächlich repräsentierte das Design eine Schleife, weil das Fibre-Channel-Kabel wieder zum
Ausgangs-Port des Controllers zurückgeführt wurde. Diese Konfiguration ist, nicht nur im FC-AL
Bereich, als JBOD – Just a Bunch of Disks – bekannt.

Ausfälle nicht kontrollierbar

Größtes Problem dieser Konfiguration ist die praktisch nicht vorhandene Beständigkeit gegen
Ausfälle. Weist auch nur ein Gerät in der Schleife einen Defekt auf oder wird das Kabel an einer
Stelle unterbrochen, hat der Controller auf keine der angeschlossenen Festplatten Zugriff. Bei
einer komplett besetzten FC-AL-Schleife mit 127 Geräten liegt die mittlere
Ausfallwahrscheinlichkeit (Mean Time Between Failure – MTBF) bei etwa einem Jahr. Dass es in
absehbarer Zeit zu Fehlern kommen wird, ist damit garantiert. Um diesem Designmakel abzuhelfen,
führten die Hersteller in den Speicher-Arrays einen Hub ein. Nach wie vor formten die Festplatten
eine logische Schleife, aber nun konnten einzelne Geräte aus der Schleife herausgenommen werden,
ohne dass der Datenfluss zum Stillstand kam.

Mit einem zentralen Hub, der die einzelnen Verbindungen zu jeder Platte verwaltet, kam, wenn
auch begrenzte, Intelligenz in die Speichersysteme. Diese Konfiguration wurde MBOD (Managed Bunch
of Disks) genannt. Ein MBOD hat gegenüber dem JBOD mehrere Vorteile. Neben dem besseren Handling
von Ausfällen kann der Hub statistische Informationen über den Datenverkehr der Platten sammeln und
Fehlerhäufigkeit, Auslastung oder ähnliche Parameter überwachen. Die Informationen können über eine
Systemschnittstelle, entweder per Ethernet oder seriell an den Host weitergegeben werden.

Allerdings haben sowohl JBOD als auch MBOD mit einer Limitierung zu kämpfen: Beide Konzepte sind
in ihrer Leistung eingeschränkt. Auch wenn zwei Controller in das Array eingebaut sind, um den
Zugriff bei Ausfällen zu gewährleisten, kann doch nur immer ein Controller zurzeit aktiv sein. Wenn
Controller A Daten zu Platte X sendet, muss Controller B mit seinem Datentransfer zu Platte Y
warten. Zudem muss ein Datenpaket durch die komplette Schleife übertragen werden, selbst wenn das
Zielgerät praktisch direkt neben dem Controller sitzt. In großen FC-AL-Installationen mit vielen
Geräten kann das die Latenzzeit kräftig nach oben schrauben. Nutzt der Hub darüber hinaus seine
Fähigkeit, das Timing des Datenpakets zu beeinflussen, zum Beispiel um Jitter-Einflüsse
auszumerzen, steigt die Latenzzeit weiter an. Um dieses Problem zu lösen, entwickelten die
Hersteller von Speicherschaltkreisen wie Vitesse und PMC-Sierra das SBOD – Switched Bunch of Disks.
In Anlehnung an Ethernet, wo Switches schon seit vielen Jahren Standard sind, ist die zentrale
Managementeinheit in der Lage, mehr als eine Datenverbindung zurzeit offen zu halten. Bei dem
Beispielsystem mit zwei RAID-Controllern kann sowohl der Transfer zwischen Controller A und Platte
X als auch zwischen Controller B und Platte Y ohne gegenseitige Behinderung stattfinden.

Um die Kosten niedrig zu halten, ist der eingebaute Switch kein vollwertiger
Fibre-Channel-Fabric-Switch. Das System ist für das FC-AL-Protokoll transparent, kann aber einige
Protokollbestandteile herausfiltern, um sicher zu stellen, dass alle angeschlossenen Geräte
gleichberechtigt bedient werden. So verwaltet der SBOD-Switch keine Port-Logins und verfügt nur
über einen sehr geringen Arbeitsspeicher, da die Daten im Pass-Through-Verfahren weitergereicht
werden. Ein Fabric-Switch hingegen kann auch größere Datenmengen zwischenspeichern, bevor er sie an
das Zielgerät sendet. Zusätzlich trägt der eingebaute SBOD-Switch die Verantwortung dafür, dass die
Initialisierung aller Devices am Bus korrekt abgewickelt wird. Während der Initialisierung stehen
nur die 126 Adressen des FC-AL-Protokolls zur Verfügung, anders als bei einem Fabric-Switch
erweitert der SBOD-Switch den Adressraum nicht. Weil er auch aktuell inaktive Geräte aus der
Schleife entfernen muss, läuft der automatische Fairness-Algorithmus von Fibre Channel ins Leere.
Trotzdem muss der SBOD-Switch sicherstellen, dass jedes Gerät im Speichersystem seine Chance
bekommt, Daten zu senden. Deshalb wertet der Chip mindestens die drei Kommandos ARB, OPN und CLS
aus, mit denen Verbindungen angekündigt, auf- und wieder abgebaut werden. Xyratex nutzt unter
anderem den Speicherschaltkreis SOC320 von Emulex für diese Funktionalität.

Leistungssteigerung durch SBOD

Wenn der SBOD-Switch eine Verbindung zwischen zwei seiner Ports aufbaut, entsteht eine virtuelle
Schleife zwischen den angeschlossenen Geräten. Anders als bei JBOD oder MBOD-Systemen, tragen die
anderen Geräte, die nicht am Datentransfer beteiligt sind, nicht zur Verzögerungszeit in der
Schleife bei. Die unvermeidliche Latenz durch interne Switch-Vorgänge ist in jedem Fall deutlich
geringer als der Zeitaufwand, das Signal durch alle angeschlossenen Geräte zu schicken, bis es
wieder am Ziel-Port ankommt. Ein Speichersystem mit 16 Festplatten, das über zwei Controller
angesteuert wird, hat in der Regel einen Switch-Port pro Platte zur Verfügung. Eine virtuelle
Schleife kommt so mit zwei Geräten aus, anstelle der 18, die bei MBOD oder JBOD Konfigurationen
nötig wären. Zusammen mit der verdoppelten Bandbreite durch zwei gleichzeitige Verbindungen ist der
Durchsatzgewinn gegenüber einem JBOD oder MBOD beträchtlich. Zudem kann jede Festplatte einzeln für
Diganosezwecke isoliert und aus dem Array herausgenommen werden, ohne die anderen Datenträger oder
das Gesamtsystem zu beeinträchtigen.

Tests mit verschiedenen I/O-Zugriffsprofilen zeigten, dass SBODs bei sequenziellem Zugriff
mindestens um den Faktor zwei schneller waren als MBOD- oder JBOD-Konfigurationen. Das galt sowohl
für kleine als auch für große Speichersysteme (8 bis 48 Platten) und für unterschiedliche
Zugriffsgrößen von 512 Byte bis zu 64 Kilobyte. Der schlechteste Fall für ein SBOD-System tritt bei
sehr wenigen Platten pro Speicher-Array ein, dann spielt die verringerte Latenzzeit nur eine
minimale Rolle und wird durch die Latenz der Switch-Vorgänge wettgemacht. Die schlechteste
Zugriffscharakteristik für ein SBOD wird bei maximalen Datengrößen erreicht, dann sind die
Befehlspakete und damit der Overhead im Verhältnis zu den Nutzdaten gering. Doch selbst im
schlechtesten Fall übertraf der Durchsatz eines SBOD den eines MBOD um mehr als den Faktor zwei. Im
umgekehrten Fall, wenn eine große Zahl von Festplatten im System mit vielen kleinen Anfragen
belastet wurde, lag der Durchsatz um den Faktor vier höher. Alle Ergebnisse wurden durch Testreihen
mit dem Benchmarking Tool Iometer bestätigt.

Weitere Tests mit einem Zugriffsprofil, das dem des Storage Performance Councils (SPC)
entsprechen, enthielten sowohl sequenzielle als auch zufällige I/O-Anfragen. Die genaue
Zusammensetzung der I/O-Anfragen kann aus der SPC-1-Spezifikation entnommen werden. In solch einem
Szenario zeigt sich, dass die Gesamtleistung des Systems immer noch durch die Leistung der Platten
begrenzt wird. Es gibt jedoch auch bei zufälligen I/O-Anfragen Situationen, in dem die Bandbreite
des Systems einen Einfluss auf die Gesamtleistung hat. Dann wird deutlich, dass ein SBOD genau so
schnell wie ein MBOD arbeiten kann, in einigen Fällen sogar bis zum Faktor zwei schneller. Die
Tests zeigen, dass die Bandbreite des Gesamtsystems ein zunehmend limitierender Faktor wird, je
mehr Platten ein System aufweist. Mit steigender Plattenzahl wird der Leistungsvorsprung des SBOD
um so deutlicher. Dies dürfte in Zukunft noch wichtiger werden, da immer mehr Hersteller in ihren
Speichersystemen 2,5-Zoll-Festplatten einsetzen.


Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu Lampertz GmbH & Co. KG

Matchmaker+