Im Gespräch mit der LANline erklärt Aljoscha Krettek, Softwareingenieur und einer der Gründer von Data Artisans, warum er die Streaming-Datenanalyse als besonders gutes Mittel für eine effiziente Informationsverarbeitung einschätzt. Das System des Unternehmens setzt bei seiner Implementierung auf die Open-Source-Lösung Apache Flink.

LANline: Die Streaming-Datenanalyse gehört jedenfalls derzeit nicht in jeder IT-Abteilung zu den Grundlagen. Wie sollte man einsteigen?

Krettek: Stream Processing ist ein neues Paradigma, das die Verarbeitung von Daten in Bewegung ermöglicht. Es steht für die kontinuierliche Berechnung dieser Daten, und zwar direkt, wenn sie generiert oder empfangen werden. Im Gegensatz zu bisher existierenden Datenverarbeitungsansätzen und -modellen ermöglicht Stream Processing die Verarbeitung von Daten in Echtzeit als kontinuierlichen Ereignisstrom.

LANline: Gibt es Einschränkungen?

Krettek: Nein, alle Arten von Daten lassen sich verarbeiten, zum Beispiel Benutzeraktivitäten einer Website, Interaktionen mit mobilen Anwendungen, Finanzhandelsdaten, Datenbankänderungen, Sensorereignisse oder maschinelle Lernalgorithmen.

LANline: Wo kommt Ihr Unternehmen in diesem Umfeld ins Spiel?

Krettek: Unsere Plattform basiert auf der Open-Source-Software Apache Flink. Sie ermöglicht es Unternehmen, die Vorteile einer Streaming-Data-Infrastruktur zu nutzen, die auf Daten in Echtzeit reagieren kann. Unternehmen können damit auf Daten genau zu dem Zeitpunkt reagieren, in dem sie entstehen, das heißt, wenn sie für das Unternehmen am wichtigsten und wertvollsten sind. Sie können so zum Beispiel vielfältige Kundenanfragen in Echtzeit beantworten und sind damit besser in der Lage, auf neue Marktchancen zu reagieren. Sie können jedem Kunden ein persönlicheres Erlebnis bieten und potenzielle Probleme identifizieren, bevor diese sich auf das Geschäft auswirken.

Aljoscha Krettek, Gründer von Data Artisans. Bild: Data Artisans

LANline: Warum setzen Sie dazu auf Open Source?

Krettek: Open-Source-Software ist oft eine gute Alternative für Unternehmen, die ihre Technologie weiterentwickeln wollen. Zu den Elementen, die für diese Software sprechen, gehört die Qualität. Eine Open-Source-Software wird von einer dynamischen Community von Hunderten oder Tausenden von Entwicklern geschaffen. Diese bringen unterschiedliche Anwendungsfälle und ihren jeweiligen technischen Hintergrund ein, um das System voranzubringen. Unserer Erfahrung nach kommt Open-Source-Software dem, was Nutzer wollen, am nächsten, weil sie bei der Entwicklung der Software mitwirken können. Geschäftsanwender setzen ebenfalls auf Open-Source-Software und passen sie gegebenenfalls an ihre Bedürfnisse an. Da der Code offen ist, bietet er die Flexibilität, um die gewünschte Funktionalität hinzuzufügen. Außerdem ist Open-Source-Software viel besser geeignet, wenn es um die Einhaltung offener Standards im Vergleich zu proprietärer Software geht. Wer Wert auf Interoperabilität mit anderen Unternehmen, Systemen und Benutzern legt und nicht durch proprietäre Datenformate eingeschränkt werden will, ist mit Open-Source-Software bestens aufgestellt.

LANline: Beim Einsatz Ihrer Lösung spielen nicht allein die technischen Voraussetzungen eine Rolle.

Krettek: Das ist richtig. Wenn es darum geht, eine Datenarchitektur erfolgreich auf eine Stream-Processing-Infrastruktur umzustellen, gibt es einige Aspekte, die zu berücksichtigen sind. Neben einem technologischen Wandel ist auch ein kultureller und organisatorischer Wandel, also eine veränderte Denkweise, erforderlich. Die Daten sind nicht mehr im Ruhezustand, sondern in Bewegung, da sie in Streams durch das Ökosystem fließen, um Unternehmen mit Echtzeitanwendungen und Echtzeitanalysen zu unterstützen. Die IT-Abteilung muss bereit sein, sich statt auf die Aufbewahrung von Daten auf Ereignisse und Reaktion zu konzentrieren. Dies bedeutet eine grundlegende Veränderung, wie die IT im Unternehmen wahrgenommen wird, wenn Echtzeit-Streaming-Anwendungen künftig dessen zentrales Nervensystem antreiben werden.

LANline: Welche Anforderungen stellt dies an das Know-how der Anwender?

Krettek: Aus technologischer Sicht sollte ein IT-Team bereits Erfahrung mit Java-/Scala-Entwicklung und SQL-basierten Abfragen haben. Das Apache-Flink-Standardtraining bietet eine hervorragende praktische Anleitung für Nutzer, die ihre Reise mit dem System beginnen wollen.

LANline: Gibt es Anwendungsfälle, die für Ihre Lösung prädestiniert sind?

Krettek: Apache Flink ist das am schnellsten wachsende Open-Source-Projekt, und Anwendungsfälle werden ständig erweitert. Unternehmen verwenden Apache Flink, um geschäftskritische Anwendungen wie Betrugserkennung, Echtzeitanalysen, maschinelles Lernen, Anomalieerkennung bei Cloud-Aktivitäten, Such- und Inhalts-Ranking auszuführen. Anwendungsfälle im Finanzdienstleistungssektor sind unter anderem das Stammdaten- und Kapitalrisiko-Management. Im E-Commerce sind Echtzeit-Empfehlungen beliebte Anwendungsszenarien.

LANline: Können Sie Beispiele nennen?

Krettek: Es gibt mehrere erfolgreiche Umsetzungen. Netflix verwendet Apache Flink, um zeitnahe Echtzeit-Benutzerempfehlungen in großem Maßstab zu liefern. Netflix verarbeitet mehr als fünf Billionen Ereignisse pro Tag oder mehr als 50 Millionen Ereignisse pro Sekunde auf Tausenden von CPU-Kernen. Microsoft verwendet Apache Flink, um die Anomalieerkennung für Cloud-Aktivitäten in seiner Cloud-App-Security-Plattform auszuführen. Alibaba nutzt Apache Flink, um Echtzeit-Suchempfehlungen an Käufer zu geben, wodurch zum Beispiel eine 30-prozentige Steigerung der Konversionsrate während des Singles Day 2016 verzeichnet werden konnte.

LANline: Wie sieht Ihr Fahrplan für die nächsten Jahre aus?

Krettek: Alle zukünftigen Ergänzungen und anstehenden Verbesserungen zielen darauf ab, Flink-Anwendern die Möglichkeit zu geben, schnelle Datenanalysen und datengesteuerte Anwendungen so einfach wie möglich umzusetzen. Die Technologie der Zukunft wird sich darauf konzentrieren, die Bereitstellung von Flink-Anwendungen für ein breiteres Publikum wesentlich zu vereinfachen und über das Entwickler-Ökosystem hinauszugehen. Die Entwickler werden an Ergänzungen der Interoperabilität des Frameworks arbeiten, also Konnektivität und Kommunikation mit anderen Frameworks, Dateisystemen und Synchronisierung. Schließlich werden sich alle Ergänzungen der Technologie darauf konzentrieren, sicherzustellen, dass die Skalierbarkeit von Flink in mehreren Szenarien und verschiedenen Größenordnungen robust und stabil ist. Durch diese Herangehensweise soll jedes Unternehmen geschäftskritische Anwendungen mit Stream-Verarbeitung ausführen und von der Leistungsfähigkeit von Echtzeitdaten profitieren können.

LANline: Welche technischen Entwicklungen erwarten Sie?

Krettek: Es gibt in immer mehr Unternehmen bereits eine zunehmende Akzeptanz der Streaming-Verarbeitung als zugrunde liegende Datenverarbeitungstechnologie. Daher erwarten wir, dass Apache Flink und die Data-Artisans-Plattform künftig auch alle neuen Arten von Anwendungsfällen und Anwendungen unterstützen werden. Im September führte Data Artisans mit Streaming Ledger eine neue Technik ein, die verteilte, serialisierbare Acid-Transfers direkt in die Datenströme bringt. Acid steht dabei für Atomicity, Consistency, Isolation und Durability. Diese Technik eröffnet eine neue Klasse von Anwendungen für die Streaming-Verarbeitung, da bisherige Anwendungen dieser Art auf relationalen Datenbanken basierten. Wir erwarten, dass weitere Fortschritte hier neue, attraktive Anwendungen ermöglichen werden. Ebenso gehen wir von einer breiteren Nutzung der Stream-Verarbeitung aus, wodurch die Technologie zum De-facto-Standard-Framework für den Umgang mit Echtzeitdaten avancieren wird.

LANline: Herr Krettek, vielen Dank für das Gespräch.