Die Datenanalyse wird für Unternehmen immer wichtiger. Dabei macht ihnen jedoch schnell die Datenmenge zu schaffen.

Die Menge an Daten steigt Jahr für Jahr. Damit Unternehmen von diesen Daten profitieren, müssen sie zum einen Plattformen aufsetzen, die die zunehmende Flut unstrukturierter Daten aufnehmen, und zum anderen diese Daten veredeln. Dafür müssen sie die Dateninhalte verstehen und auf dieser Grundlage einen Wert zuweisen, um sie in flexiblen Prozessen automatisch weiterverarbeiten zu können.

Der richtige Objektspeicher auf Basis einer Software-Defined-Storage-Architektur im Zentrum hilft dabei. Er schafft dank seiner skalierbaren Struktur und der intelligenten Art und Weise, wie er methodisch Daten organisiert und auffindbar macht, eine Reihe von wichtigen Vorteilen beim puren Speichern. Dazu definiert der Objektspeicher mit Nutzdaten, zusätzlichen Attributen in Form von Metadaten und globalen einzigartigen Identifiers drei grundlegende Elemente, die er in einem einzigen Objekt zusammenführt.

Durch die Zusammenführung der einzelnen Elemente entfallen die komplexen Hierarchien, mit denen man die Daten sonst kategorisiert. Der Anwender greift direkt auf das gesamte Objekt mit all seinen Zusatzparametern zu. Sollen einzelne Teile des Objekts modifiziert werden, muss der Object Storage das ganze Objekt öffnen, aktualisieren und umschreiben und dann wieder speichern.

Der große Vorteil des Objektspeichers ist seine simple und massive Skalierung. Um mehr Platz für Web-Inhalte, Backup-Daten oder Archive zu schaffen, lassen sich einfach neue Nodes hinzufügen. Der Speicher skaliert so nah am Bedarf, und der User kann alte und neue Hardware miteinander mischen. Dadurch entfallen teure Wechsel der gesamten Infrastruktur und auch Ausfallzeiten lassen sich so vermeiden. Der sogenannte flache Namespace, in dem die Daten standortübergreifend als Objekte organisiert sind, und die anpassbaren Metadaten bilden die technische Grundlage dafür.

Ein Objektspeicher verwendet außerdem das sogenannte Erasure Coding (EC), um die Daten im Namespace vor Fehlern und Verlust zu schützen. Dahinter verbirgt sich ein mathematisches Verfahren zum Datenschutz, das Daten in Fragmente aufteilt, erweitert und neu mit redundanten Teilen codiert. Anschließend speichert das System sie an physisch getrennten Orten, im Schnitt sind das mindestens drei. Fällt ein Node aus, sind die Daten immer noch auf zwei anderen präsent. Die Grenzen der Skalierung eines Objektspeichers sind dadurch gesetzt, wie viele Daten und Metadaten der Objektspeicher pro Namespace verkraftet.

Wo viele Daten zentralisiert sind, gilt es, Compliance-Anforderungen im Blick zu behalten. Denn vor allem wenn personen­bezogene Daten im Spiel sind, muss der Object Storage diese erkennen und sie beispielsweise automatisch verschlüsseln. Der Objektspeicher ist in der Lage, kritische Daten selbstständig und durchgängig zu klassifizieren, bevor er Anfragen zu einem bestimmten Objekt beantwortet. So lassen sich regulative Vorgaben wie die DSVGO einhalten. Das ist insbesondere im Cloud-Kontext entscheidend, wenn andere Dienste, Partner, Provider und ihre Algorithmen auf Teile der Firmendaten zugreifen wollen, um sie zu veredeln.

Damit diese zusätzlichen Aktionen dem Kunden einen Mehrwert bieten und Vorteile im Wettbewerb verschaffen, muss gewährleistet sein, dass die richtigen Daten an den richtigen Service gelangen. Im Sinne des Datenschutzes dürfen dann nur die Dienste auf Metadaten im Objekt zugreifen, für die sie klar berechtigt sind. Auf diese Weise können alle Folgedienste wie Machine Learning oder Artificial Intelligence in vertrauenswürdiger Weise mit den Daten umgehen, da der Object Storage ihnen nur jene Informationen liefert, auf die sie per Policy zugreifen dürfen.
Natürlich muss der Objektspeicher, da er im Zentrum der Architektur steht, alle gängigen Protokolle und Plattformen im Cloud-Segment von sich aus unterstützen, über die er den Zugriff auf die gespeicherten Daten abwickelt. Dazu gehören S3, eine REST-API und MQTT genauso wie Java, JDBC, Thrift, Kafka oder HDFS.

Mit dem Objektspeicher wandelt sich so ein reines Datenarchiv hin zu einer Steuerungszentrale. Sie ermöglicht es Firmen, die Datenmassen zu bewältigen, indem sie die Inhalte der Datenmassen einsehen.

Mathias Wenig ist Senior Technical Sales und Digital Transformation Specialist DACH bei Veritas Technologies, www.veritas.com.