Startseite > Netzwerke & IT-Infrastruktur > Einen Mehrwert aus Data Lakes ziehen

Umdenken bei der Dateninfrastruktur

Einen Mehrwert aus Data Lakes ziehen

1. März 2023, 7:00 Uhr | Otto Neuer/am

Ein Spielplatz für Data Scientists – das war die ursprüngliche Idee hinter Data Lakes. Sie sollten Zugang zu großen Datenmengen ermöglichen, die nicht in traditionellen Datenbanken gespeichert sind, und deren Analyse erleichtern. Inzwischen dienen Data Lakes allerdings als Speicher für Daten aller Art. Und nicht nur das, Unternehmen betreiben häufig sogar mehrere gleichzeitig. Beides führt jedoch zu einer Vielzahl von Problemen. Bestehende Data Lakes muss man nicht unbedingt stilllegen. Um einen Mehrwert zu bieten, müssen Data Lakes aber besser in die Dateninfrastruktur integriert sein.

Wir leben im Zeitalter der Daten – diese Erkenntnis hat sich mittlerweile in den meisten Branchen durchgesetzt. Dennoch sind Unternehmen oft noch nicht in der Lage, diese Erkenntnis in Taten umzuwandeln oder das volle Potenzial ihrer Daten auszuschöpfen. Die Gründe hierfür können vielfältig sein, der IT-Fachkräftemangel spielt dabei sicherlich eine gewichtige Rolle. Laut ITK-Branchenverband Bitkom hat sich der Mangel zuletzt auf 137.000 freie Stellen verschärft und damit einen neuen Rekordwert erreicht.

Doch es ist nicht allein das fehlende Personal, das Unternehmen vor Probleme stellen. Mancherorts mangelt es darüber hinaus auch an Data-Analytics- oder Business-Intelligence-Tools, die notwendig wären, um effizient und effektiv mit den vorhandenen Unternehmensdaten zu arbeiten. Im Grunde kratzen diese beiden Problemstellungen jedoch nur an der Oberfläche. Die eigentliche Ursache dafür, dass Unternehmen nicht mehr aus ihren Daten herausholen können, liegt oft noch viel tiefer, nämlich in der zugrundeliegenden Datenarchitektur.

Allgemeines Datenlager

Ein wesentlicher Bestandteil einer solchen Architektur sind die Datenspeicher, beispielsweise Data Warehouses, Data Marts oder Data Lakes. Bei allen handelt es sich um zentrale Data Repositories. Der große Unterschied zwischen einem Data Lake und einem Data Warehouse oder Data Mart besteht darin, dass in den beiden letzteren primär strukturierte, bereits bereinigte Daten gespeichert sind, die man für weiterführende Analysen nutzen kann. In einem Data Lake sollen hingegen heterogene Datenformate im Rohzustand aus unterschiedlichsten Datenquellen in großen Mengen hineinfließen können.

Letztere verbreiten sich seit gut zehn Jahren, nachdem James Dixon, Chief Technology Officer des BI-Software-Anbieters Pentaho, den Begriff im Jahr 2011 prägte und damit vor allem eine Unterscheidung zu Data Marts anstrebte, die in seinen Augen einige erhebliche Nachteile aufwiesen, beispielsweise das Entstehen von Informationssilos. Er beschrieb einen Data Lake dabei als Möglichkeit, tiefer in Daten einzutauchen, die typischerweise nicht in Datenbanken gespeichert sind, um diese zu erforschen und mit ihnen explorative Analysen durchzuführen.

In den folgenden Jahren entwickelte sich ein wahrer Hype um Data Lakes, PwC schrieb 2014 in einer Studie, dass sie das Ende von Datensilos einläuten könnten. Mittlerweile hat sich dieser Hype wieder gelegt, auch weil Data Lakes nicht alle in sie gesetzten Erwartungen erfüllen konnten. So korrigierte Gartner etwa im Jahr 2017 seine Bewertung aus dem Vorjahr: Demnach scheitern nicht 60 Prozent der Big-Data-Projekte, sondern sogar 85 Prozent. Dies ist neben weiteren Faktoren auch durch die zugrundeliegenden Data Lakes bedingt, die nicht die nötige Datenbasis liefern – und zwar unabhängig davon, ob das Data Lake On-Premises oder in der Cloud implementiert ist.

Und nicht nur das, im Laufe der Zeit hat der Data Lake außerdem einen entscheidenden Bedeutungswandel erfahren: Seine Hauptaufgabe besteht nicht mehr nur darin, Data Scientists eine Möglichkeit zu bieten, Daten zu explorieren und zu extrahieren. Stattdessen betrachtet man Data Lakes heute schlichtweg als zentralen Speicherort für sämtliche Unternehmensdaten, ob strukturiert oder unstrukturiert. Darüber hinaus dienen sie auch als Plattform für Data-Analytics- und BI-Tools.

Doch diese Nutzung von Data Lakes ist häufig nicht zielführend, da sie zu einer Reihe von Problemen auf verschiedenen Ebenen führt. Mit „Data Swamp“ existiert sogar eine Bezeichnung für solche Data Lakes, die nicht vernünftig verwaltet sind und denen solide Data-Governance- und Data-Quality-Richtlinien fehlen. Denn ein Data Lake erfordert eine umfassende Infrastruktur, die wesentlich komplexer ist als zumeist angenommen.

Entsprechend betrifft eines dieser Probleme die semantische Konsistenz der Daten und Data Governance: Um mit Daten arbeiten und sich auf die Ergebnisse dieser Arbeit verlassen zu können, müssen sie von hoher Qualität und vertrauenswürdig sein. Doch exakt diese Eindeutigkeit und Konsistenz ist in den Data Lakes oft nicht gegeben. Es fehlen zum Beispiel Datendefinitionen oder Metadaten wie Informationen zur Herkunft und etwaigen Veränderungen oder es sind wichtige Standards nicht eingehalten. Infolge sind Daten unbrauchbar oder sogar unauffindbar. Und je älter Daten sind, desto höher ist die Wahrscheinlichkeit, dass sie ihre Relevanz verloren haben. Verbleiben diese allerdings im Data Lake, sammeln sich im Laufe der Zeit immer mehr irrelevante Daten an, was es ebenfalls erschwert, nützliche und brauchbare Informationen zu finden und auszuwerten.

Auch verfügen Unternehmen immer öfter über mehrere Data Lakes, wodurch wiederum neue Silos und Datenduplikate entstehen. Dies kann sowohl zu Verwirrung und Chaos führen als auch verhindern, dass man Synergien zwischen Teams nutzen kann. Ein weiteres Problem: Oft sind – entgegen der Annahme –nicht alle Unternehmensdaten im Data Lake gespeichert, etwa weil sie aus operativen Systemen entstammen oder aus Datenschutzgründen dort nicht hingehören. Damit können bei Analysen wichtige Informationen fehlen und die Ergebnisse verfälschen. Dies kann im schlimmsten Fall langfristig negative Konsequenzen haben, wenn beispielsweise die neue Unternehmensstrategie oder die Entwicklung neuer Produkte darauf beruht.