Die Menge der Daten, die Organisationen des öffentlichen Sektors, Unternehmen, Forschungseinrichtungen und Universitäten sammeln, explodiert und intensiviert die Diskussion um „Big Data“. Denn riesige Dateien und Datensätze können zu hohen Latenzen und Speicherengpässen führen. Wenn jedoch das Storage-Management stimmt, lassen sich auch bei solchen Anforderungen Performance-Steigerungen und Kosteneffizienz im Rechenzentrum bewirken.So real die Probleme mit schnell wachsenden Datenmengen existieren, so perspektivisch gefärbt sind häufig die Begriffsdefinitionen. Nüchtern betrachtet handelt es sich bei Big Data zum einen um relativ neue Dateitypen: Hochauflösende Bilder, Videos, und Sound-Dateien zählen zu den Big-Data-„Favoriten“. Zum anderen sind damit große Sammlungen kleiner Daten gemeint – wie etwa Kommentare von Social-Media-Seiten, Fotoserien, Aufnahmen von Überwachungskameras oder GPS-Daten aus Fahrzeugen, die in einem sinnvollen Zusammenhang stehen. Typischerweise ist Big Data mit den Faktoren Vielfalt und Geschwindigkeit verknüpft, was dazu führt, dass eine vormals bescheidene Datenspeichermenge schnell zu hohem Volumen anwachsen kann.
Besonders exponierte Branchen wie die Medien- und Unterhaltungsindustrie haben seit Langem mit dem Big-Data-Problem zu kämpfen. Allein die Datenmenge, die während einer 3D-Videoproduktion entsteht, nimmt doppelt so viel Speicherplatz in Anspruch wie 2D-Videos, da stets zwei Kameras dieselbe Szenerie filmen müssen. Die Digitalisierung von Inhalten durchzieht alle Bereiche. Videoproduktionen sind mittlerweile fester Bestandteil von Unternehmensbereichen wie Marketing, Vertrieb oder Mitarbeitertraining. Aber auch die Öl- und Gasförderung, die High Performance Computing mit Bilderfassung und -verarbeitung bedingt, oder die Genomsequenzierung innerhalb der Biowissenschaften führen zwangsläufig zu Big Data. Der Trend, derartige Forschungsdaten langfristig aufzubewahren, fördert auch den Bedarf nach kostengünstigen und intelligenten Lösungen für die Datenarchivierung und den schnellen Datenzugang.
Doch die Speicherung von Daten auf Storage-Systemen mit traditionellen Disk Arrays scheitert in datenintensiven Umgebungen entweder an der mangelnden Skalierbarkeit der Systeme oder an unverhältnismäßig hohen Kosten. Ähnliches gilt für die Sicherung von Big Data. Die schiere Größe beziehungsweise Menge der Daten verurteilt ein konventionelles -Backup zum Scheitern. Um die Souveränität über die Daten zurückzugewinnen, benötigen Organisationen eine Daten-Management-Lösung, die
hochperformanten Datenzugriff und entsprechende Datenverarbeitung mit höchster Skalierbarkeit kombiniert,
schnell wachsende Datensätze langfristig, kostengünstig und sicher vorhalten kann und zugleich
simultanen Datenzugang gewährt, um eine kollaborative Erstellung von Inhalten zu ermöglichen.
Um dem Kostenaspekt Rechnung zu tragen, ist die Storage-Landschaft innerhalb von Organisationen berechtigterweise in unterschiedliche Speicher-Tiers unterteilt. Sie krankt jedoch häufig an einem mangelnden Regelwerk für die Datenzuordnung, die sich zum Beispiel anhand der Datenzugriffsrate ableiten lässt. Ohne eine automatisierte, kostengünstige und verlässliche Datenarchivierungsstrategie entsteht schnell eine Divergenz zwischen Kostenanspruch und -realität. Die laufende Archivierung von älteren, wenig genutzten Daten auf einer kostengünstigeren Speicherebene wie Tape setzt hingegen kostenintensiven Platz auf dem Primärspeicher frei.
Dennoch schenken die Verantwortlichen der Archivierung von Daten gerade in komplexer werdenden Storage-Umgebungen nicht die notwendige Aufmerksamkeit. Oft wird dabei Archivierung mit Daten-Backup verwechselt. Unternehmen ohne Archivierungsstrategie verschwenden sowohl kostbares Storage-Equipment als auch entscheidende IT-Ressourcen, indem sie alle Daten ohne Rücksicht auf das Alter oder die Häufigkeit des Zugriffs auf dem Primärspeicher lagern. Eine Tiered-Storage-Strategie hingegen muss dem Motto folgen: „das passende Storage-Medium für die passenden Daten“.
Zudem schützen automatisierte Archivierungsprozesse die IT-Verantwortlichen vor dem manuellen Eingriff in den Daten-Management-Prozess und ermöglichen Endnutzern eigenständiges Suchen und Finden der benötigten archivierten Dateien. Denn auch ältere Daten besitzen für Unternehmen oft noch unschätzbaren Wert. So steigt das Datenaufkommen von Forschungsprojekten innerhalb der Biowissenschaften binnen eines Jahres nicht selten um Werte zwischen 100 und 200 Prozent. Sichere Vorhaltung und ein schneller Datenzugang gehen dabei Hand in Hand, da viele Folgeprojekte auf vergangenen Forschungsdaten aufbauen.
Voraussetzung für das Wiederfinden gespeicherter Informationen in Big-Data-Umgebungen ist die Integration einer intelligenten File-Management-Software wie beispielsweise Stornext von Quantum. Eine solche Lösung stellt ein heterogenes Shared File-System dar, das Daten, die auf unterschiedlichen Speicher-Tiers liegen, virtualisiert und diese dem Nutzer als einheitliches Dateisystem darstellt. Der Anwender sieht alle Daten in einem einzigen, großen Speicher-Pool – gleichgültig auf welchem Storage-Medium diese aktuell liegen.
Dabei ermöglicht eine solche Daten-Management-Software den Zugriff auf zentralisierte Inhalte mit Fibre-Channel-Geschwindigkeit. Zudem übernimmt sie die langfristige Archivierung und Sicherung von unternehmenskritischen digitalen Vermögenswerten. Durch die hohe Skalierbarkeit einer derartigen Softwarelösung lassen sich Daten automatisch über mehrere Speicher-Tiers hinweg bewegen, ohne dass das Unternehmen in zusätzliche Hardware investieren muss. Individuell gestaltbarer Regelwerke stellen dabei das automatische Speichern auf dem jeweils geeigneten Tier sicher – wie Disk oder Tape. So lassen sich auch Daten sichern, die für das herkömmliche Backup zu groß wären.
Realisierbar ist das schnelle, speicherübergreifende Filesharing durch Multi-Clients, die mit unterschiedlichsten Betriebssystemen wie Windows, Linux, AIX, HP-UX oder Apple Xsan harmonieren. Homogene Dateisysteme hingegen sind stets auf ein Betriebssystem angewiesen und stoßen in datenintensiven Branchen schnell an ihre Grenzen. Die Clients heterogener Shared File-Systeme arbeiten hingegen auf jedem Server passgenau mit dem jeweiligen Betriebssystem zusammen und simulieren dem Endnutzer ein einziges Windows-ähnliches Dateisystem.
Eigenständiges Arbeiten der Nutzer über alle Speicher-Tiers hinweg war in der Vergangenheit stets auf die aktive Unterstützung durch die IT-Administration angewiesen. Üblicherweise hatte nur diese Abteilung die technische Kenntnis über die Backup-Software – den Endanwendern war der unmittelbare Zugriff ohnehin untersagt. Mit der Bereitstellung eines intuitiv zu bedienenden File-Systems kann jetzt der Endnutzer selbstständig auch auf ältere Dateien zugreifen, die auf Tape lagern.
Ein Metadaten-Controller, der außerhalb des normalen Dateipfades liegt, ermöglicht bei einer solchen Lösung gleichzeitige Anfragen aus mehreren Servern und verhindert simultane Schreib-Zugriffsversuche. Latenzen bei speicherübergreifendem Filesharing lassen sich vermeiden, wenn die Speichersysteme via Fibre Channel oder Ethernet verbunden sind und dies – wie im Fall von Stornext – mit einem Protokoll, das 50 Prozent schneller arbeitet als CIFS oder NFS. Um mögliche Beeinträchtigungen langfristig archivierter Daten zu verhindern, prüft die Daten-Management-Software die Dateien regelmäßig auf Integrität. Wird eine bestimmte Fehlertoleranzschwelle überschritten, schreibt das System die Datei automatisch auf ein anderes Medium und die Unversehrtheit der Informationen bleibt gewahrt.

Eine intelligente Daten-Management-Software verknüpft effizientes Filesharing mit langfristiger Datenvorhaltung und gewährt dem Endnutzer Datenzugriff über alle Speicher-Tiers hinweg.

LANline.