Die DSGVO und die zunehmende Verbreitung von Techniken wie KI (künstliche Intelligenz) und maschinelles Lernen (ML) haben dafür gesorgt, dass sich Unternehmen verstärkt mit ihren Daten und speziell mit deren Verwaltung, Aufbereitung und Analyse beschäftigen. Von dieser Entwicklung profitieren derzeit verschiedene Unternehmen, die Lösungen anbieten, die Hilfe beim Daten-Management versprechen. Ein solches Unternehmen ist beispielsweise Denodo, das mit seiner gleichnamigen Plattform Datenvirtualisierung, Datenabstraktion und Echtzeit-Datendienste ermöglicht.

Die Schwierigkeit für Unternehmen besteht darin, den über die Jahre gewachsenen Wust aus den unterschiedlichen und verteilten Datenquellen in seiner Gesamtheit abbilden zu können. „Viele Unternehmen haben eine wilde Mischung aus Daten und Datentöpfen“, erklärte Günther Derstroff, Senior Sales Director bei Denodo, im Gespräch mit LANline. Auf der Seite der Konsumenten spiegele sich dieser Daten-Mix ebenso wider, da jeder andere Programme, beispielsweise auch Excel, für seine Arbeit bevorzugt.

Herausforderung DSGVO

Seit den 80er Jahren nutzen Unternehmen das Data Warehouse als Plattform, um eine einheitliche Datenbasis zu legen. Durch das gestiegene Datenvolumen in den letzten Jahren besteht für Firmen jedoch die Herausforderung, diese Menge an unterschiedlichen Daten in das Data Warehouse zu integrieren und für weitere Analyse aufzubereiten. Für die Auswertung von unstrukturierten Daten, etwa aus Sensordaten, Texten, Videos oder Sprache nutzen Big-Data- und KI-Techniken in der Regel den Data Lake als Quelle. Dort fließen die Daten in ihrer Rohform in einen „Datenteich“ und werden erst aufbereitet, wenn man sie braucht, während in einem Data Warehouse die Daten bereits bereinigt und konsolidiert für die Abfrage bereitliegen.

Bei einem Data Warehouse kann es laut Derstroff zudem passieren, dass die bereitgestellten Daten nicht unbedingt aktuell sind, da die geänderten Daten noch nicht in der Datenbank aufgenommen sind (Change Data Capture). Zudem bringt die DSGVO eine weitere Herausforderung mit sich: Bei einem ETL-Prozess (Extract, Transform, Load) wird eine Kopie des Originals erstellt. Dies ist insofern problematisch, da die DSGVO die Speicherung von personenbezogenen Daten nur an einer Stelle erlaubt, so der Denodo-Mann weiter. An diesem Punkt setzt die Softwarelösung des aus Spanien stammenden Unternehmens an. „Wir stellen eine abstrakte Zugangsschicht für Daten bereit. Unser Motto ist verbinden statt sammeln“, sagte Derstroff.

Virtuelles Data Warehouse

Die Denodo-Plattform agiere hier als virtuelles Data Warehouse, das sich mit allen Datenquellen verbindet. „Wir können auch auf einem physischen Data Warehouses aufsetzen. So ist es beispielsweise möglich, die Daten aus einem SAP Data Warehouse und einem Hadoop-Cluster bereitzustellen.“, berichtete Derstroff. Der Zugriff auf die Daten erfolgt hierbei über klassische Connectoren. Bei einer Datenabfrage aggregiert Denodo die Daten und stellt diese auf dem Dashboard dar. Die Daten bleiben dabei an ihrem bisherigen Standort. Datenkataloge dienen dabei für die Verortung der Daten. Denodo agiert als Middleware zwischen Datenquellen und Konsumenten, die zudem eine Data-Governance beinhaltet.

Zudem reichert der Hersteller seine Plattform um intelligente Datendienste an. So sei es beispielsweise möglich, Fachabteilungen via Self-Service den Zugriff auf die benötigten Daten zur Verfügung zu stellen und dabei auch sicherzustellen, welche Daten dies sind und wer in welchem Rahmen Zugriff darauf erhalten soll, etwa durch Rollenkonzepte.

Performance als Nachteil

Nachteil der Datenvirtualisierungslösung von Denodo sei jedoch die Performance, da die heutigen Datenstandorte in heutigen Infrastrukturen gerne verteilt sind, etwa in der Cloud, in virtuellen Maschinen oder auf lokalen Systemen. „Wir arbeiten auf den Originalquellen, also sind wir von Last, Bandbreite und Laufzeiten abhängig“, erklärte Derstroff.

Daher schickt sich das Unternehmen an, die Performance seiner Lösung weiter zu optimieren. Eine Datenselektion auf dem Quellsystem sei beispielsweise ein Ansatz, um die Leistung zu steigern. Auf diese Weise laufen weniger Daten über das Netzwerk. „Hier unterscheidet sich unsere Lösung auch von anderen BI-Tools (Business Intelligence, Anm. d. Red.), die häufig die gesamten Daten übermitteln“, ergänzte der Denodo-Mann. Ein Unternehmen, das einen hohen Bedarf an Daten hat, sollte daher lieber bei einem physischen Data Warehouse mit ETL bleiben, so Derstroff: „Wir wollen keine physischen Data Warehouses ablösen, sondern sehen uns eher als Ergänzung“. Optional wäre es noch möglich, die Software auf dem System eines Quellsystems oder am jeweiligen Standort laufen zu lassen, um die Datenübertragung möglichst gering zu halten.

Die Denodo-Software lässt sich nach Angaben des Herstellers auf allen gängigen Cloud-Systemen betreiben, auch Multi-Cloud-Umgebungen, hybride-Umgebungen oder Edge-Computing-Szenarien stellen kein Problem dar. Eine zentrale Benutzeroberfläche für Administratoren hilft bei der Verwaltung von Deployments und bei der Orchestrierung von Aufgaben. Derzeit ist die Denodo Platform 7.0 die aktuellste Version der Lösung. Die Lizenzierung erfolgt nach Anzahl der CPU-Kerne auf dem Server, auf dem die Plattform läuft. Die Zahl der Datenquellen oder Nutzer ist unlimitiert.

Weitere Informationen finden sich unter www.denodo.com.

Timo Scheibe ist Redakteur bei der LANline.