Data Warehouse und Data Lake sind zentrale Datenplattformen. Aber welche Lösung ist die richtige? Während ein Data Warehouse strukturierte Daten speichert und zur Verfügung stellt, fließen im Data Lake auch unstrukturierte Informationen zusammen. Unternehmen müssen heute in der Lage sein, beide Arten von Daten zu analysieren – und im Idealfall auch zu kombinieren.

Die Fähigkeit, Daten zu sammeln und auszuwerten, ist heute essenziell für den Geschäftserfolg. Datenanalysen ermöglichen exakte Business-Reports, die den Fachabteilungen zeigen, wo sie im Hinblick auf die anvisierten Ziele stehen. Sie bilden die Basis für fundierte Entscheidungen und die Entwicklung neuer Services oder Geschäftsmodelle.

Zudem bauen moderne Technologien wie das Internet der Dinge und künstliche Intelligenz auf Daten auf. Um ihre Daten bestmöglich zu nutzen, brauchen Unternehmen eine zentrale Datenplattform. Sie führt Daten aus unterschiedlichen Quellen zusammen und stellt sie für verschiedene Anwendungen und Auswertungen zur Verfügung. Damit garantiert die Datenplattform zum einen, dass alle Beteiligten auf dieselbe Datenbasis zugreifen. Zum anderen ermöglicht sie es auch, Daten aus verschiedenen Quellen in Relation zu setzen und übergreifende Auswertungen durchzuführen.

Unternehmen nutzen zumeist ein Data Warehouse als Datenplattform. Bereits in den 80er-Jahren kam diese Technologie auf und hat sich seither weit verbreitet. Schon damals erkannte man, wie wichtig eine einheitliche Datenbasis ist. Durch die Digitalisierung sind neue Anforderungen hinzugekommen. So ist das Datenvolumen um ein Vielfaches gestiegen. Unternehmen müssen heute in der Lage sein, eine wahre Flut an heterogenen Daten aus unterschiedlichen Quellen in ihr Data Warehouse zu integrieren und für Analysen bereitzustellen.

Ein Data Warehouse kommt vor allem für Business Intelligence zum Einsatz. In ihm fließen strukturierte Daten aus den verschiedenen Unternehmenssystemen zusammen, zum Beispiel aus CRM oder ERP. Diese Rohdaten liegen zunächst in unterschiedlichen Formaten vor. Sie werden nun im Data Warehouse bereinigt, konsolidiert und anschließend konsumierbar für die verschiedenen Fachabteilungen abgelegt. Diese können dann auf qualitätsgesicherte Kennzahlen zugreifen. Außerdem dient ein Data Warehouse als Basis für Data Mining. Data Scientists können anhand der dort gespeicherten Daten statistische Auswertungen vornehmen, um beispielsweise Muster oder Zusammenhänge zu erkennen.

Data Lake versus Data Warehouse

Im Big-Data- und KI-Umfeld geht es jedoch häufig auch um die Auswertung von semi- oder unstrukturierten Daten wie Sensordaten, Texten, Videos oder Sprache. Hier kommt der Data Lake ins Spiel. Anders als bei einem Data Warehouse werden die Daten dort nicht erst validiert und aufbereitet, sondern landen in ihrer Rohform in einem großen Pool. Während man die Daten bei einem Data Warehouse – ähnlich wie in einem Warenlager – in einer ordentlichen, hierarchischen Architektur ablegt, gleicht der Data Lake einem See, in dem alles auf einer Ebene zusammenfließt. Er kann sowohl strukturierte als auch unstrukturierte Daten aufnehmen. Sie alle stehen jederzeit unmittelbar zur Verfügung und werden erst aufbereitet, wenn man sie braucht. Datenspezialisten können also frei und kreativ in alle Richtungen forschen und auch Echtzeit-Analysen durchführen. Ein Data Lake ist damit ideal für Data Science. Für Business Intelligence bevorzugen viele Unternehmen jedoch ein geordnetes Data Warehouse, da es den Fachabteilungen passgenau die Daten aufbereitet, die sie für ihr Reporting benötigen. Diese Analysen und Reports ausschließlich über den Data Lake abzubilden ist jedoch aus Sicht der Abfrage-Performance nicht ideal. Insofern erfordert die Datenarchitektur meist eine Kombination beider Technologieansätze.

Unternehmen sollten bei den Datenanalysen auch immer die EU-Datenschutz-Grundverordnung im Blick behalten. Sowohl beim Data Warehouse als auch beim Data Lake muss der Datenschutzbeauftragte sicherstellen, dass sich gespeicherte personenbezogene Daten identifizieren und gegebenenfalls löschen lassen.

Strukturierte und unstrukturierte Daten gemeinsam nutzen

Unternehmen müssen heute in der Lage sein, sowohl strukturierte als auch unstrukturierte Daten auszuwerten. Wer sich nicht gleich komplett für den Umstieg von einem Data Warehouse auf einen Data Lake entscheidet, braucht also beide Arten von Datenplattformen. Die Herausforderung besteht darin, sie zu kombinieren. Denn es gibt zunehmend Anwendungen, die sowohl strukturierte als auch unstrukturierte Daten erfordern. So wollen Unternehmen vielleicht Dokumente mit Text-Mining analysieren und Informationen aus den Texten mit Absatzzahlen verbinden. Dafür braucht man Tools, die sowohl auf die Daten im Data Warehouse als auch im Data Lake zugreifen können und die Informationen dann gebündelt zur Verfügung stellen. Ein Beispiel für eine solche Technologie ist Big SQL von IBM. Dabei handelt es sich um eine SQL-Engine, die auf der bekannten IBM DB2 Engine basiert und als Schnittstelle zwischen den verschiedenen Datenplattformen fungiert. Sie kann sowohl Daten aus einem Hadoop- oder Spark-Cluster im Data Lake holen als auch aus einer relationalen Datenbank im Data Warehouse. Anschließend stellt sie diese gemeinsam über die bekannte DB2-SQL-Schnittstelle zur Verfügung. So kann man über gängige Abfragesprachen auf die gebündelten Daten zugreifen. In zahlreichen IBM-Plattformen werden inzwischen bereits DB2- und Spark-Cluster kombiniert zur Verfügung gestellt, um dieser Herausforderung gerecht zu werden.

Der Aufbau einer Architektur zur Datenanalyse. Bild: Axians IT Solutions

Ein gängiges Beispiel für Anwendungen, die strukturierte und unstrukturierte Daten verbinden, sind Callcenter-Applikationen oder Portale für den Kunden-Service. Für die Beantwortung von Kundenanfragen sind sowohl strukturierte Daten zu Kunden, Verträgen und Bestellverläufen als auch unstrukturierte Informationen wie FAQ-Dokumente, Betriebsanleitungen oder Gesprächsprotokolle früherer Anfragen notwendig.

Im Kunden-Service werden immer häufiger sogenannte Chatbots eingesetzt. Die virtuellen Assistenten interagieren in natürlicher Sprache mit dem Anwender und können in einer Unterhaltung zum Beispiel abfragen, welches Problem ein Kunde hat oder welche Frage er beantwortet haben möchte. Um den Nutzer zu verstehen, wendet der Bot Methoden wie Natural Language Processing an. Anschließend greift er sowohl auf strukturierte als auch unstrukturierte Daten zu, um passende Antworten zu finden. Via Text-Mining ist er in der Lage, Support-Dokumente hinsichtlich der Fragestellung zu analysieren. Chatbots eignen sich daher gut, um wiederkehrende, einfache Fragen zu beantworten. Sie entlasten die Mitarbeiter im Kunden-Service oder Support, sodass diese Zeit für wichtigere Dinge haben. Ein guter virtueller Assistent kann im Idealfall bis zu 70 Prozent der Kundenanfragen bearbeiten.

Fazit

Die Fähigkeit, Daten zu sammeln und auszuwerten, ist nach wie vor entscheidend für den Geschäftserfolg. Unternehmen, die ihre Daten bestmöglich nutzen, verschaffen sich einen Wettbewerbsvorteil. Die Basis dafür bildet eine passende zentrale Datenplattform. Sowohl das herkömmliche Data Warehouse als auch der modernere Data Lake haben ihre Vorteile. Die Frage nach der richtigen Datenplattform muss jedoch keine Entweder-oder-Entscheidung sein. Vielmehr geht es darum, die Möglichkeit zu schaffen, strukturierte und unstrukturierte Daten gemeinsam zu nutzen. Zukunftsträchtige Technologien wie Chatbots oder künstliche Intelligenz entfalten dadurch erst ihr volles Potenzial.

Martin Clement ist Senior Solutions Architect Analytics & Data bei Axians IT Solutions, www.axians.de.