Hausmesse EMC World 2011 in Las Vegas

EMC stemmt Big Data

7. Juni 2011, 6:00 Uhr | Uli Ries/wg

Speicherspezialist EMC will seinen Kunden den Umgang mit "Big Data" erleichtern. Dazu gehören nicht nur gewaltige Dateien, wie sie in Forschung und Wissenschaft anfallen, sondern auch die stark anschwellenden Bestände unstrukturierter Daten in Unternehmen. Und natürlich trägt auch die Cloud ihren Teil bei. EMC hat das Thema "Big Data" für sich entdeckt. Das Unternehmen will die Probleme, die mit den schwer zu beherrschenden Daten einhergehen, durch mehrere Produkte lösen: Eine Analysesoftware sortiert die Inhalte der Dateien, ein Storage-System nimmt gewaltige Datenmengen auf. EMC-Boss Joe Tucci zitierte eine IDC-Studie, laut derer insbesondere die Menge unstrukturierter Daten immens anschwellen soll. Bis zum Jahr 2014 sollen weltweit 70 Exabyte dieser Daten anfallen. Strukturierte Daten hingegen stagnieren auf dem heutigen Niveau und schlagen mit zirka 10 EByte zu Buche. Gespeichert werden die Daten den Vorstellungen von Tucci nach in hybriden Clouds, also in einem Mix aus selbst betriebener Cloud-Infrastruktur und solcher, die ein Provider anbietet. Wie Sabine Bendieck, Geschäftsführerin von EMC Deutschland, im Gespräch mit LANline ausführte, gibt es in Deutschland bei Kunden jeglicher Größe Interesse an solchen hybriden Clouds.

Um die bislang schwierig bis gar nicht zu analysierenden Bestände unstrukturierter Files gewinnbringend im Unternehmen nutzen zu können, müssen diese analysiert und durchsuchbar gemacht werden. Dies soll eine Analyselösung auf der Basis der Datenbank Greenplum - vor Kurzem von EMC übernommen - erledigen. Damit die Datenbank auch mit unstrukturierten Daten und deren Inhalt zurechtkommt, hat man die Software um Apache Hadoop erweitert. Diese Open-Source-Lösung skaliert sehr gut, ist für Parallelverarbeitung optimiert und beispielsweise bei Facebook, IBM und Yahoo im Einsatz. Greenplum selbst nutzt jeden verfügbaren Prozessorkern für eine einzelne Instanz der auf Parallelverarbeitung optimierten Datenbank Postgres.

Während einer Live-Demonstration zeigte EMCs Technikchef Pat Gelsinger, wozu Greenplum in der Lage ist - die entsprechende Hardware vorausgesetzt: In der zur Demo verwendeten Appliance waren über 300 CPU-Kerne zu finden und der Hauptspeicher war mit einem TByte üppig bemessen. Diese Greenplum HD Data Computing glich mehrere Milliarden Sätze von Bestelldaten mit über 50 Millionen Kundendaten ab und filterte bestimmte Kunden anhand vorgegebener Kriterien heraus. Suche und Filtern waren nach etwas mehr als 30 Sekunden erledigt.

Die Greenplum-Hadoop-Appliance bietet EMC in drei Varianten an: Die Hardware-Appliance Greenplum HD Data Computing lässt Anwender auch plattformübergreifende Analysen mithilfe einer darauf spezialisierten Greenplum-Variante der Abfragesprache SQL erstellen. Die Softwarevariante HD Enterprise Edition hat Management-Funktionen wie Datenreplikation und Snapshots an Bord. Gratis und als Open-Source-Software will EMC die Greenplum HD Community Edition bereitstellen. Zu dieser gehören Mapreduce, Zookeeper, Hive und HBase.

Zur Ablage der Daten hat EMC mit dem Isilon IQ108NL nach eigener Auskunft einen Weltrekordhalter am Start: Das Isilon-eigene Dateisystem OneFS lässt sich laut Hersteller auf bis zu 15,5 PByte ausbauen. Pro vier HE hohem Chassis bietet EMC das Gerät mit 36, 72 oder 108 TByte Kapazität an. Maximal 144 Nodes lassen sich koppeln, um so auf den Weltrekordwert zu kommen. Laut EMC ist die Grenze von 144 Nodes demnächst aber auch Schnee von gestern, da der Backbone des Netzes inzwischen schnell genug ist, um noch mehr Storage-Systeme zu bedienen.

Um abgelegte Daten revisionssicher vorzuhalten, hat EMC die Datenspeicherungssoftware Smartlock im Angebot. Sie integriert sich ins Isilon-Betriebssystem und schützt Dateien oder Ordner vor jeglichen Veränderungen und Manipulationen. Smartlock kann jeder Datei eine eindeutige Signatur zuweisen, sodass Integrität und Status unzweifelhaft erkennbar sind. Der Schutz lässt sich auf Basis von Richtlinien beispielsweise nach einer bestimmten Ruhezeit automatisch anwenden und umgekehrt automatisch wieder aufheben.

Zum Server-Hersteller wird EMC übrigens nicht. Zwar bringt das Project Lightning Computing-Funktion in Storage-Systeme, echte Server will EMC aber laut Tucci und Gelsinger nicht bauen. Project Lighning ist Flash-Speicher (PCI-Express-Karte), der als Cache im Server und als Speicher im Array zum Einsatz kommt. Speicherintensive Anwendungen können so dank x86-Architektur auf der Hardware des Speicher-Arrays laufen.

Der Autor auf LANline.de: der_reisende

CTO Pat Gelsinger zeigte während der EMC World 2011 unter anderem, wie leistungs-fähig die Greenplum-Hadoop-Appliance in der Praxis ist. Bild: Uli Ries
LANline.

Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu Logicalis GmbH

Weitere Artikel zu Tibco

Matchmaker+