Reifegradmodelle bieten eine gute Orientierung darüber, wo ein Unternehmen bei der Nutzung von künstlicher Intelligenz steht. Demnach gibt es in vielen Unternehmen Optimierungsbedarf beim Betrieb von KI-Anwendungen. Abhilfe können IT-Abteilungen schaffen, indem sie die Datenbereitstellung und -klassifizierung optimieren und ein automatisiertes Daten-Management einführen.

Microsoft, Amazon und Google bieten eine ständig wachsende Palette an KI-Services. Diese sollen Unternehmen in die Lage versetzen, ihr Geschäft zu verbessern oder in neue Geschäftsfelder vorzustoßen. Insbesondere Microsoft konzentriert sich stark auf die Kombination seiner Cloud-Plattform Azure mit KI und deren praktische Anwendung. So lassen sich in Meetings Simultanübersetzer und automatische Transkription nutzen, während die Virtual-Assistant-Funktion Cortana zuhört und sofort einen Termin vorschlägt, wenn Floskeln fallen wie: „Darüber müssen wir nochmal gesondert reden.“ Solche Offerten kommen in der Geschäftswelt allerdings noch nicht richtig an: Nur zwei Prozent der Unternehmen hierzulande setzen die Technik aus der Public Cloud ein, wie der „Cloud-Monitor 2019“ von Bitkom Research und KPMG zeigt.

Dabei lassen sich die Vorteile von Natural Language Processing (NLP, Verarbeitung gesprochener Sprache) ebenso schnell nutzen wie die von Bilderkennung, maschinellem Lernen (ML), Deep Learning (DL) und einer Reihe anderer KI-Services, die in allen großen Clouds verfügbar sind. Unternehmen aller Branchen können diese Technik auf ihren Websites, für interne Prozesse, Anwendungen oder Produkte einsetzen. Dabei profitieren sie von der Geschwindigkeit und Skalierbarkeit der Cloud. Zur Umsetzung in die Praxis können Anwenderunternehmen ein KI-Reifegradmodell nutzen, um zu ermitteln, wo sie stehen und wie es weitergehen kann.

Drei Stufen des KI-Reifegrads

Das KI-Reifegradmodell beschreibt drei Stufen. Wer sich in seiner KI-Initiative auf ein praktisches internes Projekt mit einem klaren Ziel konzentriert, arbeitet auf dem Level 1. Auf dieser Einstiegstufe steht das Verbessern interner Vorgänge im Vordergrund. Eine initiale Kosten-Nutzen-Analyse identifiziert häufig als Ziel das Call- Center, das sich dann über KI-Dienste wie NLP und Robotic Process Automation (RPA) optimieren lässt. Auf dem zweiten Level bewegen sich Unternehmen, die in ihrem ganzen Handeln KI eintakten, um auf Benutzererfahrungen einzugehen, zu wachsen sowie mehr Umsatz und Ertrag zu erzielen. Sie erreichen einen Mehrwehrt, weil sie digitale und sogar physische Produkte mit KI-Services neu konzipieren und abbilden können. Das höchste KI-Reifegrad-Level schließlich repräsentieren die Techikgiganten: Sie entwickeln Produkte und Services, die nicht nur die Zukunft ihrer eigenen Branche definieren.

Unabhängig vom Reifegrad verlangt ein KI-Programm Unmengen an Daten, deren Verwaltung den Einstieg in die KI-Nutzung erschweren kann. Eine der wertvollsten Datenquellen für die KI- und ML-Modellierung sind interne Informationen über die Produkte und Kunden eines Unternehmens. In ihnen steckt die Chance, sich einen Wettbewerbsvorteil zu erarbeiten. Diese relevanten Daten betreffen Kundenverhalten, Preisgestaltung, demografische Trends, Produktnachfrage und Technologieübernahmen. All das lässt sich noch leicht kategorisieren. Das Bereitstellen genauer ML-Modelle bereitet hingegen schon Schwierigkeiten, erfordert es doch, dass die Daten genau und aussagekräftig sind. Unternehmen benötigen eine effektive Methode, um die richtigen Daten in den richtigen Formaten und Systemen in der richtigen Menge zu erfassen. Das IT-Team muss also festlegen, wie der Zugriff auf Daten erfolgt, wie man diese aggregiert, sichert und an einen ML-Algorithmus, eine datenwissenschaftliche Initiative oder ein Business-Analyse-Framework übergibt. Steht diese Datenpipeline, wird sie rückgekoppelt: Das Lernergebnis gesellt sich zu den Standardeingaben und die nächste Trainingseinheit für das KI-Modell beginnt.

Damit ein Unternehmen sämtliche Vorteile von KI und ML nutzen und genaue Vorhersagen treffen kann, müssen alle Datentypen integriert sein. Bild: Delphix

Das Einspeisen der Daten in die KI/ML-Pipeline lässt sich mit der DataOps-Technologie bewerkstelligen. Diese bindet beliebig viele Datenquellen – wie Oracle, SAP, SQL, DB2, SAP ASE, Postgres, MongoDB oder MySQL – ein, indem sie von den verschiedenen Datensätzen automatisiert virtuelle Kopien erstellt und diese synchronisiert. Spätestens bei der Datenqualität, also dem steten Aktualisieren und Vorhalten der Datensätze, scheitert allerdings die manuelle Administration.

Ein Beispiel: Eine Bank will eine Feedback-Analyse durchführen. NLP soll dazu die Wörter in den Anrufprotokollen hinsichtlich Aussage, Konnotation, Stil und Stimmung der Anrufer durchleuchten. Mit diesen Protokollen sind zahlreiche persönliche Informationen wie Telefonnummer, E-Mail-Adresse, Kreditkartennummer etc. verbunden, mit denen sich der Kunde identifizieren lässt. Gemäß DSGVO muss der Kunde zustimmen, wenn die Bank mit seinen persönlichen Angaben arbeiten will. Selbst wenn dieses Einverständnis für die Datenverarbeitung vorliegt, kann das Finanzinstitut die Daten aber nicht einfach an einen KI/Ml-Dienstleister übergeben. Der Gesetzgeber schreibt dafür eine weitere Zustimmung vor.

Den Weg aus dem Dilemma weist eine ausgereifte DataOps-Anwendung. Diese führt die verschiedenen Daten nicht nur zusammen und stellt sie als Datenpunkt bereit, sondern anonymisiert sie auf breiter Front, indem sie die persönlichen Angaben maskiert. Der Vorgang ist unumkehrbar, Rückschlüsse auf die betreffende Person lassen sich nicht ziehen. Die Daten behalten jedoch ihren Geschäftswert, sodass Data Scientists mit ihnen realitätsnahe Szenarien modellieren können. Unter diesen Umständen gestattet die DSGVO, dass die Bank die Daten mit ihren KI/ML-Partner teilt. Dieser darf sein Skript ausführen, das am Ende der Datenpipeline greift. Diesen Mechanismus inklusive Maskierung liefert die DataOps-Technik. Über NLP- und RPA-Trainings nähert sich die Bank so dem Einsatz des Chatbots an. Wenn dieser live geht, bewegt sich die Bank solide auf KI-Reifegrad-Level 1.

Automatisiertes Daten-Management

Ohne eine automatisierte und nahtlose Daten-Management-Plattform, die sich in die Datenmaskierungstechnik integriert, wird es also kaum gehen. Denn ohne sie sind die datenwissenschaftlichen Modelle, die den AI- und ML-Initiativen zugrunde liegen, bestenfalls ungenau und schlimmstenfalls katastrophal. Deshalb ist ein umfassender Ansatz für die Datenverwaltung entscheidend, um die geschäftliche wie auch die technische Richtung zu bestimmen. Das gelingt, wenn das Daten-Management fünf entscheidende Kriterien erfüllt: Erstens muss das Unternehmen die Daten automatisiert erfassen, damit verschiedene Teams mit einem einzigen API-Aufruf unbegrenzt Datenkopien von unterschiedlichen Quellen erstellen können. Zweitens müssen sich neue Datenquellen zum Testen der Quellen und Pipeline-Änderungen nahtlos einbinden lassen, bevor die Daten in KI/ML-Produktionsumgebungen gelangen. Drittens muss man Änderungen vor einem breiteren Rollout antizipieren und testen können, um AI- und ML-Strukturen weiterzuentwickeln. Viertens ist eine Virtualisierung von Daten gefordert, um bei Bedarf beliebig viele Datensätze bereitzustellen, ohne erhebliche Infrastruktur-Overhead-Kosten zu verursachen. Und fünftens muss die Sicherheit der Datenverwaltung gewährleistet sein. Das bedeutet, Kontrollmechanismen in wichtige Workflows einzubetten und Datensicherheit sowie -schutz durch Maskierungstechniken zu integrieren.

Wer seine Daten automatisiert mit der DataOps-Plattform erfasst, bei dem greifen auch die anderen vier Kriterien ineinander. So kann ein DataOps-Anwender für intensivere und weitere KI-Programme die nötige Business Compliance skalierbar erzielen und mit der Data Governance – der übergreifenden Aufsicht über die Datenbestände – verknüpfen. Dieses Zusammenspiel kennzeichnet bereits den KI-Reifegrad in der Stufe 1, die nichts anderes ist als das Training, um sobald wie möglich ins nächste Level einzusteigen.

In zehn Jahren werden die führenden Unternehmen in fast allen Branchen die Vorteile der KI-Techniken voll nutzen, um ihre Branche neu zu definieren und ihre Positionen zu festigen. Wer auf diesem Weg schneller vorankommen will, muss sich bereits heute damit beschäftigen, Services und Produkte zu entwickeln, in die KI/ML-Kenntnisse und -Ergebnisse einfließen. Wie gut die verwendeten Daten sind und wie automatisiert man diese verwaltet, entscheidet über Erfolg und Misserfolg bei KI- und ML-Projekten. Je genauer und umfangreicher die Daten sind, desto bessere Ergebnisse lassen sich erzielen. Wenn jedoch Daten außer Kontrolle geraten und so Datenschutzverstöße drohen, wird die Implementierung von KI und ML schnell zum Desaster. Ein solches lässt sich nur pragmatisch im Vorfeld mit einer DataOps-Plattform als zentraler Verwaltungsinstanz verhindern.

Dhiraj Sehgal ist Director Platform and Solution Marketing bei Delphix, www.delphix.com.