Datenkataloge lösen Probleme mit Datensätzen

Tools zur Unterstützung von Data Governance

01. März 2021, 07:00 Uhr   |  Patrick Bornikoel und Dmitry Yaraev/am

Tools zur Unterstützung von Data Governance

Information ist heutzutage der wertvollste Rohstoff und kaum ein Unternehmen arbeitet nicht mit großen Mengen an Daten. Die Analysen der Daten helfen Unternehmen dabei, bessere strategische Entscheidungen zu treffen und weiter erfolgreich am Markt zu konkurrieren. Während die Anzahl der Datensätze steigt, fällt es Unternehmen immer schwerer, die Datenmengen zu verwalten und Zuständige für konkrete Datensätze zuverlässig zu identifizieren. Hier beginnt meist die Suche nach einer dedizierten Lösung, um dieses Problem zu bewältigen.

Viele Tools unterstützen das Ermitteln und Verwalten von Datensätzen. Darunter fallen insbesondere Datenkataloge. Ein Datenkatalog ist ein Bestandsverzeichnis von Datensätzen, der auf Metadatenebene arbeitet und Funktionen wie Data Discovery oder die Ermittlung von Data-Lineage oder -Ownership bietet.

Datenkataloge können folgende Problemstellungen lösen:

  • Information über verfügbare Datensätze fehlt: Dies geschieht in größeren Organisationen mit mehreren Abteilungen, welche sich mit Daten beschäftigen, relativ häufig. Jedes Team kennt nur die Datensätze, mit denen es direkt arbeitet und eine vollständige Liste aller Datensätze des Unternehmens ist nicht verfügbar. Der Mangel einer Übersicht aller verfügbaren Datensätze kann dazu führen, dass verschiedene Teams dieselbe Arbeit mehrfach erledigen und Duplikate vorhandener Datensätze erzeugen. Ebenso ist es möglich, dass Teams ihre Aufgaben nicht erfüllen können, da die Teammitglieder nicht wissen, dass die dafür benötigten Datensätze überhaupt existieren.
  • Beschreibungen der Datensätze sind veraltet: Dieses Problem entsteht in der Regel, wenn die Dokumentation von Daten niedrige Priorität hat. Selbst dann, wenn das Unternehmen eine Liste von Datensätzen hat, veraltet die Beschreibung der Daten sehr schnell. Dies führt dazu, dass sich niemand auf die Beschreibungen verlässt und diese nicht in Benutzung sind.
  • Erforderliche Datensätze sind nicht auffindbar: Eine Liste von Datensätzen zu haben, ist wenig hilfreich, wenn man einen konkreten Datensatz nicht ohne weiteres finden kann. Bei einigen Unternehmen ist diese Information zwar auf internen Wiki-Seiten verfügbar. Gibt es davon Hunderte oder Tausende, kann es dennoch erhebliche Schwierigkeiten bei der Suche nach einem Datensatz geben.
  • Verantwortliche für Datensätze sind unbekannt: Wenn ein Unternehmen über hunderte Datensätze und mehrere Teams verfügt, die mit diesen Datensätzen arbeiten, ist es eine Herausforderung, den Verantwortlichen für einen bestimmten Datensatz zu identifizieren. Dies erschwert zum Beispiel die Beschaffung von Informationen über Datenaktualität oder das Veranlassen von erforderlichen Änderungen an einem Datensatz.
  • Abhängigkeiten eines Datensatzes sind nicht identifizierbar: Oft ist es für den Verantwortlichen oder Urheber eines Datensatzes nicht einfach nachzuvollziehen, wer die Daten nutzt. Dies ist vor allem dann ein Problem, wenn eine Änderung des Datensatzes erfolgen muss. Ohne die Abhängigkeiten zu kennen, ist es unmöglich festzustellen, wer von dieser Änderung betroffen sein wird.

Open-Source-Tools zur Erstellung eines Datenkatalogs

Es ist eine größere Anzahl an Lösungen auf dem Markt und man hat die die Wahl zwischen Open-Source- und proprietären Produkten. Letztere sind von Firmen wie Collibra, Atlan, Ataccama oder Alation angeboten. Diese Produkte sind relativ „mächtig“ und bieten Funktionen wie Data Lineage, Data Discovery, Kollaboration auf Daten und viele weitere. Nachfolgend soll der Fokus auf Open-Source-Lösungen – die auf offenen Standards basieren – und ihren Funktionalitäten liegen. Open-Source-Produkte zu nutzen, bietet viele Vorteile, wie etwa Community-Support, Sicherheit, ein hohes Maß an Innovation und die Möglichkeit, den Code abzuändern und das Produkt den Bedürfnissen des Unternehmens anzupassen.

Seite 1 von 3

1. Tools zur Unterstützung von Data Governance
2. Open-Source-Tools
3. Alternative Lösungen

Auf Facebook teilen Auf Twitter teilen Auf Linkedin teilen Via Mail teilen

Verwandte Artikel

Daten-Management

Open Source