Datenbanken sind wichtige Hilfsmittel der täglichen Arbeit, auch bei der Dokumentation der eigenen IT-Landschaft. Dabei ist ihr Wert immer nur so groß wie die Konsistenz der in ihr bereit-gehaltenen Daten. Daraus resultierend entsteht die Forderung nach regelmäßiger Kontrolle, Korrektur, Aktualisierung und dem Finden von Dateileichen.

Die Datenqualität einer Datenbank zu beurteilen, ist nicht mit einem Satz getan. Verschiedene Parameter spielen hinein, einige, die Softskills adressieren, andere, die einzig an harten Fakten aufgehängt sind. Der erste Punkt, zugleich einer der wichtigsten, adressiert die Softskills: Wenn ein Neuling mit den vorhandenen Daten unmittelbar arbeiten kann, ist das ein erster Pluspunkt für die Datenqualität, denn die Struktur der Daten und auch ihr Inhalt sind selbsterklärend. Dies hilft in verschiedenen Situationen, sei es bei der Einarbeitung eines Kollegen, sei es, wenn Dienstleister die Datenbank aus den Ferne warten sollen oder beispielsweise neue Daten einzupflegen haben.

Bezeichnungskonzepte

Für die Beurteilung der Datenqualität spielt es auch eine Rolle, ob es eine Nomenklatur gibt. Ein stringentes Bezeichnungskonzept ist ein wesentliches Hilfsmittel, unter anderem um Dubletten zu vermeiden. Ist noch kein Bezeichnungskonzept vorhanden, sollten Verantwortliche es schleunigst erarbeiten. Dafür gibt es zwar kein Patentrezept, aber eine hierarchische Herangehensweise führt in der Regel zu einer guten, weil nachvollziehbaren Datenstruktur.

Um ein sinnvolles Bezeichnungskonzept zu erarbeiten, sollte man stets im Auge behalten, wann und für wen die Daten, die es zu pflegen gilt, überhaupt bestimmt sind. Geht es vornehmlich um Störungsbehebung? Sind sie für die Instandhaltung relevant? Werden sie für Planungen benötigt? Oder ist sogar alles zusammen zu berücksichtigen?

Betriebsprozesse

Ein Blick gilt auch den Betriebsprozessen, die einzuhalten sind, im allgemeinen Betriebsablauf ebenso wie im Kontext von Compliance-Vorgaben. Dabei spielt auch die Sicherheit relevanter Daten hinein. Also die Frage, was alles zu tun ist, damit die Daten vor unbefugten Zugriffen geschützt sind. Von Kennwortschutz und differenzierter Rechtevergabe für Nutzer über verschlüsselte Datenträger und Kommunikationswege bis zu zutrittsbeschränkten Server- und Arbeitsräumen ist die Palette recht breit.

Als Nächstes stellen sich die Fragen: Sind die Daten strukturiert, und sind sie konsistent, logisch und zielführend organisiert? Denn nur, wenn Daten einer klaren Logik und Struktur folgen, sind sie auch leicht zu pflegen, und dies von verschiedenen Personen bei gleichbleibend hoher Qualität des Ergebnisses.

In diesem Kontext kann noch eine dritte Frage auftauchen: Lassen sich mit den Daten Abfragen schnell und sicher ausführen? Dabei spielt allerdings das Datenmodell mit hinein, also die interne Organisationsstruktur und -logik innerhalb der verwendeten Datenbank, deren Organisation vor den an dieser Stelle ausgeführten Überlegungen einsetzt und an dieser Stelle deshalb nur nachrangig interessiert.

Umsetzung in der Praxis

Ist ein Bezeichnungskonzept vorhanden, müssen die Verantwortlichen klären, ob es in der Praxis auch konsequent umgesetzt ist. Gar nicht so selten modifizieren findige Kollegen Konzepte, um sich Arbeit zu sparen oder weil sie ihre eigene Variante viel überzeugender finden. Dies ist jedoch nicht Zweck des Konzepts: Es handelt sich dabei nicht um einen Denkanstoß, sondern um ein verbindliches Regelwerk, an das sich alle zu halten haben. Dieses Wissen sollte in Schulungen hin und wieder aufgefrischt und vertieft werden.

Dennoch bleibt die Frage: Was passiert, wenn sich keiner an die Vorgaben für Bezeichnungen hält? Dann müssen die Daten validiert werden. Dies gelingt umso einfacher, je besser sich die Daten filtern lassen. Auch Abfragen, die auf bestimmte Varianten zielen, sind hilfreich. Beispiele sind Abfragen nach führenden Nullen, Varianten mit Groß- und Kleinschreibung, Varianten mit einfachen, doppelten und ohne Leerzeichen und Abfragen mit Sonderzeichen.

Ist die Datenbank mehrsprachig, müssen diese Abfragen in jeder der verwendeten Sprachen ausgeführt werden, um den Datenbestand zu konsolidieren. Bei dieser Gelegenheit sollte man auch versuchen herausfinden, wer für unerwünschte Varianten verantwortlich ist. Erfolgt nicht automatisch eine Protokollierung von MAC-Adressen und User-Namen, kann dies auch über Änderungsdatum oder typische Schreibweisen gelingen. Dabei ist unter Umständen etwas Fantasie gefragt – oder die gezielte Beauftragung jeweils eines einzelnen Mitarbeiters, Daten der fehlerhaften Art einzugeben und zu schauen, ob die gefundenen Varianten mit den neuen Eingaben identisch sind.

Abhängig von der Fundlage stellt sich die Frage: Sind massive Korrekturen der Daten erforderlich, damit sie danach strukturiert sind? Ist dies der Fall, ist ein Konzept für eine solide Korrektur notwendig, zumal sie nur automatisiert in realistischer Zeit und mit sicherem Ergebnis erfolgen kann. In einem solchen Konzept können dann Aspekte wie Korrekturen der führenden Null und Groß-/Kleinschreibung definiert werden. Schwieriger kann es bei Sonderzeichen sein, weil diese für manches System auch gleichzeitig Wildcards sind.

Das Konzept ist auch wichtig, wenn für die Korrektur Daten neu zusammenzuziehen sind, um die bestehenden Objekte zu korrigieren, oder wenn Daten aus Listen genommen werden müssen, um diese zu korrigieren.

Das Konzept bildet dann die verlässliche Grundlage für die entsprechenden Arbeiten und hilft, neue Fehler zu verhindern. Zu klären ist dabei allerdings, welche Werkzeuge für die Analyse und Korrektur zur Verfügung stehen.

Ist die Datenbank tabellarisch organisiert und bietet sie direkten Zugriff auf die Tabellen, kann im ersten Schritt schon die schlichte Sortierung nach aussagefähigen Kriterien helfen, beispielsweise eine numerische Sortierung mit Blick auf die führende – oder fehlende – Null oder eine alphabetische Sortierung, um bestimmte Schreibfehler zu lokalisieren. Stehen Funktionen wie Suche/Ersetzen zur Verfügung, kann man auch diese für einfache Korrekturen nutzen.

Suche nach Geräten

Mit der Suche lassen sich beispielsweise auch fehlende IT-Geräte über die schlichte Abfrage der MAC-Adressen finden oder ausschließen. Will etwa der Administrator jedoch wissen, ob sich das Gerät auch an der dokumentierten Stelle befindet, ist der Pfad zu einem IT-Gerät zu komplex für eine einfache Suche. Für derartige Abfragen sind daher meist Skripte oder spezielle Analysewerkzeuge des jeweiligen Datenbankherstellers oder von Drittanbietern nötig.

Nach der Bereinigung der Daten und mit einem Bezeichnungs- und einem Korrekturkonzept in der Tasche sollte der weitere Betrieb auf der sicheren Seite stehen. Theoretisch. Denn ist die Datenkonsistenz wieder hergestellt, stehen möglicherweise neue Anforderungen vor der Tür, insbesondere die nach einer gesteigerten Datenqualität. Wobei solch ein Ansinnen leicht mit erheblichem Diskussionsbedarf gekoppelt ist, denn: Wie viele Daten sind nötig für die geforderte Qualität? Welche Tiefe muss erfasst werden?

Schließlich lautet der Appell für jeden Datenbankadministrator: Finde den Fehler! Je mehr zu durchsuchen ist, desto länger dauert dieser Prozess.

Sandro Oldenburg ist bei IMS tätig ().