Hinter den aktuellen Verfahren künstlicher Intelligenz (KI) in der Informationssicherheit steckt bei näherem Hinsehen durch-aus kein Hexenwerk, sondern nur der Versuch, die Arbeit der Security-Analysten in den SOCs (Security Operations Center) mit klug programmierten und nachvollziehbaren Assistenzfunktionen zu unterstützen. Diese Folge unserer dreiteiligen Serie stellt die bedeutsamsten Techniken vor.

Es ist nicht unbedingt die tägliche Hausmannskost der IT, mit der man es zu tun bekommt, wenn es KI-Angebote in der Informationssicherheit zu beurteilen gilt. Die Anbieter tischen Begriffe wie „unüberwachtes maschinelles Lernen“, „überwachtes Lernen“, „Deep Learning“, „Assoziationsmaschine“ und „Entscheidungsbäume“ auf und mühen sich redlich, die Besonderheiten ihrer jeweiligen Ansätze verständlich zu machen. Dabei ist der Variantenreichtum der Methoden nicht so hoch, wie es die unterschiedlichen Darstellungen vielleicht vermuten lassen. Mit gesundem Menschenverstand nachvollziehbar sind alle Ansätze, die bisher Bedeutung erlangt haben.

Beispiel für einen einfachen Entscheidungsbaum. Bild: Vectra Networks

Vor dem Einstieg in eine kleine Methodenkunde zur KI sei zunächst noch einmal an die erste Folge und an die Bedeutung der Korrelation erinnert (siehe lanl.in/2wMYT02). Diese sorgt in SIEM-Systemen und bei vergleichbaren Tools dafür, dass sich einzelne Sensordaten („Sinnesdaten“) aus einem Netz zum Bild eines Handlungsablaufs zusammenfügen, der aus Sicherheitserwägungen heraus bedeutsam sein könnte. In der realen Welt der Wachleute mit ihren Kameras könnte dies zum Beispiel so aussehen: Ein unbekannter Mensch mit Sonnenbrille und ohne Unternehmensausweis passiert Tor 1 und geht nicht etwa zum Empfang, sondern direkt zu Halle 2 und probiert an Wartungstür 3 erfolglos vier Schlüssel aus, bis der fünfte passt. Das könnte ein Einbruchsversuch sein.

Maschinelles Lernen

KI könnte dabei helfen, einen derartigen Verdacht zu erhärten oder zu entkräften: Kommt der beobachtete Ablauf erstmals vor oder gab es ihn ohne negative Folgen schon häufiger? Ersteres spräche für einen Angriff, letzteres dagegen. Hat es bei vergleichbaren Unternehmen bereits ähnliche Vorkommnisse gegeben, die erwiesenermaßen mit Einbrüchen einhergingen? Das wäre ein sehr guter Grund für eine Warnung.

Die beiden Fragen im vorigen Abschnitt stehen für zwei grundlegende KI-Ansätze, die in vielen Security-Lösungen eine Rolle spielen. Die erste – „Gab es das hier schon einmal?“ – vertritt das unüberwachte maschinelle Lernen (Unsupervised Machine Learning), hinter dem sich fast immer das Verfahren der Anomalieerkennung verbirgt. Die zweite – „Kennt man das schon von anderswo?“ – ist eine verbreitete Spielart des überwachten Lernens (Supervised Machine Learning).

Was das unüberwachte Lernen zu leisten vermag, steckt bei genauerem Hinsehen schon im Begriff selbst: Was könnte eine Maschine, die man mit keinen weiteren Daten füttert und die man auch nicht weiter speziell programmiert, über ein System und seine Anwender überhaupt anderes lernen als deren Kenndaten und die Bandbreite der internen Vorgänge über einen längeren Zeitraum hinweg?

Anomalieerkennung oder unüberwachtes maschinelles Lernen erfasst möglichst viele Informationen und Schwellenwerte eines laufenden Systems kontinuierlich während einer Zeitspanne, die der Anwender als sinnvolle Lernphase festgelegt hat. Danach wird der erfasste Parameterstamm als Spielraum für den Normalbetrieb (Baseline) definiert, und das lernende System schaltet ganz oder zusätzlich auf den Meldebetrieb um. Es warnt von diesem Augenblick an immer dann, wenn Vorgänge den Rahmen der zuvor registrierten Parameter verlassen oder gänzlich neu sind. Je nach Auslegung kann dies bereits bei geringen Abweichungen geschehen oder nur bei größeren, und je nach Einstellung und Funktionsumfang kann das KI-System dabei entweder dynamisch weiter dazulernen oder nur dann, wenn es explizit wieder in den Lernbetrieb umgeschaltet wird.

KI-Techniken

Für Entscheidungsfindungen und Klassifizierungen setzen KI-Lösungen eine Reihe von Basistechniken ein, die als Grundausstattung moderner Produkte dieser Kategorie gelten können. Zu den wichtigsten gehören:

Entscheidungsbäume: Entscheidungsbäume dienen in der KI dazu, Informationen, Objekte oder Vorkommnisse zu klassifizieren, um auf dieser Basis beispielsweise Angriffsvorgänge zu erkennen oder Risiken einzustufen. Für einen Entscheidungsbaum werden zunächst Merkmale (Attribute) ermittelt, die Gegenstände in einem definierten Umfeld unterscheidbar machen. Danach werden die konkreten Objekte anhand dieser Merkmale in Gruppen eingeteilt. Damit kann KI zum Beispiel die Vorgehensweisen von Anwendern im Netz kategorisieren, die eine bestimmte Ressource benutzen.

Random Forest: Im Anwendungsfall Cybersecurity sind die meisten relevanten Phänomene so komplex, dass einfache Entscheidungsbäume zu einer erfolgreichen Klassifizierung nicht ausreichen. Deshalb setzt KI hier eher auf „Entscheidungswälder“. Jeder Gegenstand wird dabei einer ganzen Reihe von Einteilungen nach unterschiedlichen Attributen unterworfen, die zunächst zufällig (englisch: „random“) sind. Menschen fällt es schwer, mit den so generierten, unübersichtlichen Ergebnissen zu arbeiten, aber KI kann die vielen Verzweigungen statistisch auswerten und in unterschiedlichen Phänomenanalysen Gemeinsamkeiten aufdecken, die nicht offensichtlich sind. Sie kommt so selbst dann zu tragfähigen Klassifizierungen, wenn die Attribute nur unscharfe Einteilungen zulassen.

Clusteranalyse (K-Means-Clustering): Die Clusteranalyse ordnet Gegenstände anhand ihrer Eigenschaften und deren Ausprägung in einem Koordinatensystem zu Gruppen und zeigt so Nähen, Entfernungen und Zugehörigkeiten zu unterschiedlichen Klassen.

Neuronale Netze oder Deep Learning: Neuronale Netze verhelfen ebenfalls zur Klassifizierung und Einordnung von Phänomenen, bieten dazu aber subtilere Möglichkeiten. Der jeweilige Gegenstand wird als Netz von Eigenschaften dargestellt, die miteinander in Verbindung stehen. Lernt eine KI über einen Gegenstand – überwacht oder unüberwacht – immer mehr dazu, kann sie einzelne Eigenschaften wie auch Verbindungen zwischen den Eigenschaften ergänzen oder entweder stärker oder schwächer gewichten. Zu jedem Phänomen entsteht so ein dynamisches Netzbild, das sich mit denen anderer Phänomene vergleichen lässt. Diese weiche, assoziative, vielschichtige Klassifizierungsform kommt der menschlichen Wirklichkeit noch näher als die Entscheidungsbäume und erlaubt zum Beispiel die Verarbeitung menschlicher Sprache oder die Analyse komplexer Vorgehensweisen von Cyberkriminellen.

Als Vorteil des reinen unüberwachten Lernens wurde lange Zeit immer wieder herausgestellt, dass es keine oder nur wenig Unterstützung durch Fachpersonal benötige: Eine Weile das Netzgeschehen mitschneiden, dann das System scharfstellen, und alles wird gut! Problematisch ist allerdings, dass dieser scheinbare Vorteil je nach Anwenderumgebung schnell durch ein hohes Aufkommen von False Positives ad absurdum geführt werden kann, denen die Security-Teams dann nachgehen müssen. Ein System dieser Bauart nämlich sieht nur, wenn etwas „unnormal“ oder unbekannt ist, aber nicht auch den Grund dafür. Im oben genannten Beispiel des unbekannten Besuchers mit seinen Schlüsseln könnte es sich ja auch um einen externen Service-Mann handeln, der alle paar Wochen im Auftrag des Unternehmens ein Kühlsystem kontrollieren muss und dann – wie ein neuer Postbote an der Mietshaustür – nicht sofort weiß, welcher seiner vielen Kundenschlüssel am konkreten Einsatzort passt. Entdeckt diesen Vorfall ein Anomalieerkennungssystem, das derartiges in seiner Lernphase nie verzeichnen konnte, ist ein Fehlalarm wahrscheinlich.

Dem Automaten Händchen halten

Gegen solche Fehlinterpretationen könnte eine längere Lernphase helfen – aber wenn sie zu lange dauert, sind irgendwann auch die seltsamsten Dinge im beobachteten Umfeld allesamt einmal oder mehrmals geschehen und gelten damit potenziell als „normal“. Innovationsfreudige Organisationen führen in ihren dynamischen IT-Umgebungen immer wieder neue Techniken, Verfahren und Geschäftsmodelle ein, und kreative Menschen verlassen gern die erprobten Bahnen der IT-Nutzung oder reizen ihre Systeme aus; dann wimmelt es von Anomalien – je mehr davon, desto lebendiger das Unternehmen. Auf solchem Terrain stößt unüberwachtes Lernen schnell an seine Grenzen.

Bei der Angriffserkennung setzen Anbieter von SIEM-Produkten und Lösungen zur Verhaltensanalyse von Netzwerken – darunter zum Beispiel Vectra Networks, LogRhythm oder IBM – deshalb mittlerweile als Alternative ausdrücklich auf die Kombination von unüberwachtem und überwachtem maschinellem Lernen. Die bekannteste und häufigste Variante ist die in der Folge über die Korrelation bereits erwähnte Fütterung eines KI-Systems mit Mustern von Angriffsverläufen, die man bereits irgendwo als „böse“ registriert und bestätigt hat. Im Beispiel des „fremden Schlüsselmanns“ wäre dies die Erkenntnis, dass der Versuch, über Wartungstüren in Produktionsstätten zu gelangen, unter Industriespionen gerade en vogue ist.

Hier lernt IBMs Watson die Sprache der Security-Branche, um den Analysten im SOC bei der Informationsrecherche zu helfen. In diesem Fall optimiert die KI also nicht die Erkennungslogik, sondern den Response-Prozess. Bild: IBM

Typischerweise sind bei den Anbietern Analystenteams am Werk, die Informationen aus dem Web und anonymisierte Falldaten aus Kundennetzen online in ihre Systeme bei den Kunden zurückspeisen: in Form von Erkennungsmustern, Use Cases, Programmsequenzen oder Parametersätzen – wie es traditionell bei den Virenscannern mit ihren „Pattern-Updates“ und „Engine-Updates“ geschieht. Die Auswertung der global erhobenen Security-Vorfälle kann dabei nicht nur manuell durch Menschen erfolgen, die sicherheitsrelevante Erkenntnisse für die KI aufbereiten: Eine Alternative sind Mechanismen, die in den weltweit erhobenen Informationen über schädliche Vorgänge automatisiert nach Mustern suchen (siehe Kasten).

Die meisten KI-Systeme bei Anwendern stehen deshalb permanent mit zentralen Cloud-Instanzen der Anbieter in Verbindung, die nicht (nur) autonom, sondern (auch) von menschlichen Instruktoren lernen – daher der Terminus „überwachtes“ oder „beaufsichtigtes“ Lernen. Zugleich drehen die Optimierungsteams bei den Anbietern gewöhnlich an allerlei Stellschrauben der KI-Software, um wiederkehrende False Positives einzudämmen.

Lokales und globales Lernen

Auch der Anwender kann, sollte oder muss sein KI-System zuweilen „coachen“, um dessen Leistung zu verbessern. So können die Security-Teams primär unüberwacht lernenden Systemen etwa mitteilen, wenn die Erkennungsmechanismen bei Warnungen falsch liegen. Dies kann beispielsweise notwendig sein, wenn es in einem individuellen Netz Phänomene gibt, die in anderen Organisationen auf einen Angriff hindeuten, im konkreten lokalen Kontext aber normal sind. In diese Kategorie fällt das eingangs erwähnte Beispiel des nur scheinbaren Eindringlings mit dem Schlüsselbund.

Auch Tätigkeiten wie das benutzerspezifische Erstellen von Use Cases oder das Bereitstellen der im ersten Teil ausführlich behandelten Kontextinformationen lassen sich als Aspekte überwachten Lernens betrachten, denn durch diese Maßnahmen erfährt die KI zum Beispiel, welche Systeme sie aufgrund einer Risikoeinstufung mit Priorität betrachten muss und in welchen Bereichen einer Infrastruktur Datentypen anfallen, die auch in den extern eingespielten Angriffsmustern explizit eine Rolle spielen.

Ganz nebenbei hat sich damit ein weiteres Begriffspaar geklärt, das in den Beschreibungen vieler KI-Systeme eine Rolle spielt: lokales versus globals Lernen. „Global“ steht für den Blick auf die weltweit registrierten Angriffsformen. Somit ist die bereits mehrfach erwähnte Fütterung von KI-Systemen oder Korrelationslogiken mit andernorts erkannten Angriffsmustern als Resultat globalen Lernens zu verstehen, die Erhebung des normalen Geschehens in einem konkreten Netzwerk aber als lokales Lernen. In letztere Kategorie gehören auch das Einpflegen von Richtlinien (Policies) und das individuelle Tuning von Erkennungsregeln (Rules).

Wichtig ist, dass sich die Ergebnisse lokalen Lernens nicht ohne Revision von einer Umgebung auf andere übertragen lassen. Die Entscheidung unseres Beispielunternehmens, den „Schlüsselmann“ gewähren zu lassen, ist rein individuell, gilt keineswegs automatisch auch für andere Anwender und darf deshalb nicht ohne Weiteres in den Lernprozess bei der Zentralinstanz einfließen.

Semantische Suche und Recherchehilfe

„Watson für Cybersecurity“ von IBM steht für eine bisher (noch) einzigartige Einsatzform künstlicher Intelligenz in der Informationssicherheit. Das System optimiert nicht die Erkennungslogik eines SIEM- oder NBA-Systems. Vielmehr steht es den Analysten im SOC bei der Suche nach Informationen zur Seite, wenn diese im Web und anderen Quellen zu einem bereits erkannten möglichen Angriff nach weiterführenden Informationen und erfolgversprechenden Gegenwehrstrategien fahnden.

Um die Funktionsweise von Watson für Cybersecurity zu verstehen, muss zunächst noch einmal der Rückgriff auf die in der ersten Folge erläuterte Basistechnik der Korrelation erfolgen. Ein SIEM-System – in diesem Fall das Produkt QRadar, in das Watson direkt integriert ist – liefert zum Beispiel die folgenden Informationen: Ein bestimmter Akteur (erkennbar als IP-Adresse aus einem bestimmten Land) hat versucht, ein oder mehrere Objekte im Netz (eine Firewall vom Typ X und ein Identity-Management-System von Typ Y) zu manipulieren (in Form der Änderung von Zugriffsrechten), und diese Aktion hat einen Server mit einem bestimmten Datentyp gefährdet (im Beispiel etwa Kreditkartendaten).

Akteur, Objekt, Tätigkeit, Ziel – diese Elemente entsprechen weitgehend der Subjekt-Verb-Objekt-Struktur eines Satzes in menschlicher Sprache, der eine Handlung beschreibt. Watson arbeitet auf der technischen Basis neuronaler Netze als assoziative, semantische Suchmaschine, die die fragliche Handlungsbeschreibung in unterschiedlich formulierten Texten menschlichen Ursprungs wiederfinden kann. Sowohl die verwendeten Begriffe als auch der Satzbau können dabei in weiten Grenzen abweichen, ohne dass die Suche ins Leere läuft.

Diese Fähigkeit wendet das System auf eine große Bibliothek an Texten – den „Korpus“ – aus dem Fachgebiet Informationssicherheit an, die permanent erweitert und gepflegt wird; Er umfasst auch tagesaktuelle Blogs, Whitepaper, Newsletter und andere Informationskanäle (Feeds). Dem SOC-Team liefert die KI dann diejenigen Texte, die nach einer statistischen Analyse den vom SIEM ermittelten Vorgängen im Netz am nächsten kommen und möglicherweise Informationen über wirkungsvolle Abhilfe bieten. Ziel ist, dass diese Form der Suche treffsicherer abläuft als manuelles Forschen mit einfachen Web-Suchwerkzeugen, die bereits an Begriffsvarianten scheitern, und dass sie schneller zu einem Ergebnis kommt: Die Wartezeit beträgt im Idealfall nur Sekunden.

Watson für Cybersecurity wird gezielt „trainiert“. Teams aus Wissenschaftlern und IT-Spezialisten bewerten die eingespeisten Texte, prüfen regelmäßig die Treffer des Systems und steuern gegen, wenn die Ergebnisse fragwürdig sind. Somit handelt es sich um ein System auf der Basis überwachten globalen Lernens. Der Effizienzgewinn liegt trotz hohen Pflegeaufwands darin, dass die so aufgebaute Suchmaschine als Cloud-Lösung vielen Anwendern zugleich zur Verfügung steht.

Bettina Weßelmann ist Beraterin für Unternehmenskommunikation und Fachautorin mit dem Spezialgebiet Informationssicherheit. Dr. Johannes Wiele ist freier Autor sowie GDD-geprüfter Datenschutzbeauftragter und arbeitet als Managing Security Consultant.