Ein schneller Zugriff auf konsistente Datenbestände ist für jedes Unternehmen unerlässlich. Erschwert wird er durch die historisch gewachsenen Datensilos. Das Auflösen dieser Silos wandelt sich mehr und mehr von der Kür zur Pflicht.

Datensilos sind in nahezu jedem Unternehmen vorhanden. Die einzelnen Geschäftsbereiche und Abteilungen verfügen in aller Regel über eigene Datensammlungen, die jahrzehntelang gewachsen sind. Diese „Inseln“ stellen zunehmend ein Problem dar, denn sie bremsen die Produktivität, verlangsamen Prozesse, verhindern die schnelle Adaption von Unternehmensstrategien und beeinträchtigen die Kundenbeziehung.

Ziel muss folglich sein, die Datensilos aufzulösen. Bewährte Schritte bei der Beseitigung der Datensilos sind Bestandsaufnahme, Workshop-Durchführung mit Lösungsevaluierung und Projektstart mit Nach- und Feinjustierung.

Für die technische Umsetzung der Silobeseitigung sind prinzipiell zwei Lösungen geeignet: der Einsatz von Middleware als „Adapter“ oder die Migration der betroffenen Daten in einen zentralen Pool wie eine relationale Datenbank oder eine No­SQL-Lösung.

Der für ein Unternehmen optimale Lösungsweg hängt vom konkreten Einzelfall ab. Bei den heute meist komplexen Umgebungen bietet sich der Einsatz von Middleware an, der allerdings immer auch Performance-Einbußen bedeutet. Bei einer zentralen Datenquelle – etwa auf Basis einer Big-Data- oder Data-Lake-Lösung – besteht zunächst das Problem, die Daten hineinzubringen, und anschließend erweist sich auch die Aktualität beziehungsweise Synchronisation als Herausforderung. Eine Adapter-Lösung hingegen bietet den Vorteil, dass man die Daten nicht bewegen muss.

Für den Anwendungsbereich „Business Intelligence“ (BI) mittels strukturierter Daten, wie man es oft im Controlling findet, bietet sich eine sehr einfache Lösung an. Alle gängigen BI-Tools wie Tableau oder PowerBI verfügen über eine Vielzahl von Input-Quellen. So lässt sich zentral auf Informationen zugreifen, auch wenn im Hintergrund zum Teil sehr unterschiedliche Datenbanken oder sogar Excel- beziehungsweise CSV-Dateien liegen. Dabei ist es meist sinnvoll, Datenstrukturen vorab zu vereinfachen. Eine solche Vereinfachung geschieht in der Regel über Views. Der Vorteil ist, dass der Anwender so nicht wissen muss, wie die Datenstruktur im Einzelnen aufgebaut ist.

Möchte man mit mehr als einem BI-Tool oder zusätzlicher Software auf die Daten zugreifen, ist es sinnvoll, die Datenquellen mittels eines ETL-Prozesses (Extract Transform Load) in eine gemeinsame Datenbank zu überführen. Tools, die sich hierfür eignen, sind Pentaho PDI, Talend und Apache Flume. Sind die Daten dann in einer Quelle zusammengeführt, lassen sich zusätzliche Performance-Optimierungen durchführen. Auch das Aufsetzen von Sicherheitsrichtlinien für den Endnutzer wird leichter, wenn es sich nur noch um eine Datenbank handelt.

Anspruchsvoller wird es, wenn auch unstrukturierte Daten mit ins Spiel kommen. Denn auch der Inhalt von Word-Dokumenten und PDFs oder die Metadaten von Bildern und Videos sollten in den meisten Fällen zentral auswertbar sein. Zum einen als zentrale Wissensdatenbank innerhalb des Unternehmens, aber auch sehr häufig für den Kunden-Support. Zusätzlich sollen solche Daten oft als Grundlage von Big-Data-Analysen dienen. Beispiele für Produkte, die solche Daten „in place“ verarbeiten, sind Watson Explorer von IBM oder die Produkte der Firma Empolis.

In der Vergangenheit blieb nur das Hadoop-Cluster, wenn man mit unstrukturierten Daten Big-Data-Analysen durchführen wollte. Dieser Ansatz ist für manche Unternehmen immer noch am geeignetsten, doch braucht man hierfür die nötige Expertise. Für die meisten Anwender empfiehlt sich mittlerweile, Big-Data-Services aus der Public Cloud zu beziehen, wie beispielsweise AWS, Azure oder Google Cloud Platform. Alle bieten geeignete Datenspeicher und Datenbanken an, um jegliche Form von Daten professionell zu handhaben. Darüber hinaus stellen die Anbieter die geeigneten BI- und Machine-Learning-Tools zur Verfügung sowie Schnittstellen, um die Daten zum Beispiel aus selbst entwickelter Software aufzurufen.

Natürlich schwingt bei dem Thema Public Cloud und Daten immer das Thema Sicherheit mit. Auch wenn die meisten Services der größeren Anbieter bereits mehrfach, unter anderem DSGVO-zertifiziert (Datenschutz-Grundverordnung) sind, gibt es weitere Aspekte zu beachten. Daher bringt auch hier ein iteratives Vorgehen den meisten Mehrwert.

Letztendlich ist die Datensilo-Auflösung aber ein kontinuierlicher Prozess, denn es besteht immer die Gefahr, dass sie wieder entstehen. Allerdings kommt kaum ein Unternehmen an der Auflösung der Silos vorbei, allein schon im Hinblick auf heutige Kundenanforderungen. Nicht zuletzt muss ein Unternehmen ohnehin alle Insellösungen in Augenschein nehmen, schließlich fordert die neue DSGVO den Schutz personenbezogener Daten.

Zu wissen, wo sich solche Daten überall im Unternehmen befinden, ist dabei eine elementare Voraussetzung und ein erster Schritt zum Auflösen von Datensilos.

Lukas Höfer ist BI-Experte bei Consol Software in München, www.consol.de.