Eines der auffälligsten Probleme der Cybersicherheit besteht darin, dass Angreifer den Verteidigern scheinbar mühelos einen Schritt voraus sind. Bestes Beispiel sind Zero-Days – Software-Schwachstellen, die Cyberkriminelle vor Anbietern und deren Kunden entdecken. Gegen dieses Phänomen sind Sicherheitsexperten nahezu machtlos. Ein neues Schreckensszenario: Angreifer könnten Machine Learning (ML) und künstliche Intelligenz (KI) für ihre Zwecke nutzen.

Malware kann heute derart vielseitig auftreten, dass Angreifer fast unaufhaltsam erscheinen. So betonen selbst Sicherheitsanbieter zunehmend die Notwendigkeit, Angriffe nicht nur zu blockieren, sondern auf erfolgreiche Angriffe so schnell wie möglich reagieren zu können. Vor einigen Jahren gingen deshalb einige meist in den USA ansässige Startups zu einer Art Gegenangriff über: Security mittels ML-Algorithmen. ML kommt hauptsächlich zum Einsatz, um Daten zu kategorisieren, die mit Datenklassen übereinstimmen, welche man zuvor für das Training des ML-Algorithmus verwendet hatte. Zuerst fand ML zum Erkennen spezifischer Daten Verwendung, zum Beispiel zum Identifizieren von Krebszellen in Computertomografie-Scans.

IT-Security erfordert die Fähigkeit, Zero-Day-Malware oder Anomalien im Netzwerkverkehr zu entdecken. Dies ist ein Schritt weg von der Identifikation bereits bekannter Bedrohungen hin zum Versuch, das Unbekannte zu erkennen. Es handelt sich also um eine Weiterentwicklung der ML-Techniken, die es in einigen Fällen ermöglicht hat, die Fehlerraten (falsch-positive und falsch-negative Meldungen) auf ein Niveau zu senken, auf dem die Technik nützlich sein kann. Denn große Unternehmen scannen Tausende von Dateien pro Tag, sodass selbst eine False-Positive-Rate von nur wenigen Prozent in absoluten Zahlen ein Problem darstellt. Im Zeitalter von Big Data kann diese Herangehensweise sinnvoll sein. Deshalb haben Anbieter von Systemen zur Spam-Bekämpfung, Mal­ware-Erkennung, Bedrohungsanalyse und -aufklärung sowie zur SOC-Automatisierung (Security Operations Center) die Idee aufgegriffen, hilft sie doch zur Linderung des Fachkräftemangels.

Vor- und Nachteile des Black-Box-Ansatzes

Trotz dieser Fortschritte bezeichnen manche den Ansatz als ultimatives Beispiel für eine „Black Box“, die niemand wirklich versteht. Der Großteil der KI basiert auf maschinellem Lernen, das im Wesentlichen eine statistische Technik ist, die Ereignisse ab einer bestimmten Schwelle meldet. Beim unüberwachten Lernen – bei dem sich das System ständig in Abhängigkeit von den bisherigen Ergebnissen aktualisiert – gibt es nicht einmal die Garantie, für die gleiche Eingabe zweimal das gleiche Ergebnis zu erhalten: Das System ist nicht deterministisch. Daher ist es schwierig, einen Benchmark zu schaffen – die Ergebnisse sind als Beweis nicht zulässig. Stattdessen ist zur Überprüfung der Ergebnisse immer eine weitere Analyse erforderlich.

Risikobewertung von Malware-Aktivitäten: In diesem Beispiel versucht eine Word-Datei, eine Systemschwachstelle auszunutzen. Bild: Airbus CyberSecurity

Woher wissen wir also, dass ML neue und unbekannte Angriffstypen erkennen kann, die herkömmliche Systeme nicht erkennen? Nur weil die Produktbroschüre dies sagt? Wie erwähnt garantiert das Training eines ML-Systems mit bekannter Malware nicht, dass es auch neue Malware erkennt. Tatsächlich wird es wahrscheinlich nur routinemäßige Varianten der Malware erkennen, für die das System geschult wurde. Einige ML-Systeme sind daher kaum besser als Heuristiken oder Skripte, die für bekannte bösartige Aktivitäten entwickelt wurden. Man sollte ML daher nur als eines der Werkzeuge in der Analysten-Toolbox verstehen – und nicht als die eine magische Lösung. Tatsächlich können schlecht konstruierte Systeme mit hohen False-Positive-Raten die knappe Zeit der Analysten verschwenden.

Mehr noch: Was sollte Angreifer davon abhalten, das defensive ML mit einem noch besseren ML zu überlisten? Wäre dies auch nur in wenigen Fällen möglich, stünden wir wieder am Anfang. Das ist natürlich reine Spekulation, denn bisher konnte noch kein Einsatz von KI in einem Cyberangriff nachgewiesen werden. Unser Verständnis davon, wie es funktionieren könnte, basiert bislang weitgehend auf akademischer Forschung wie IBMs Proof-of-Concept DeepLocker.

Doch diese Bedrohungspotenziale sollte man rechtzeitig in den Blick nehmen. Angreifer erkennen schnell, was funktioniert, sei es beim Spam-Versand, Phishing oder zunehmend auch bei politischer Desinformation. Es ist vorstellbar, dass Big-Data-Ansätze mit ML-Unterstützung die Effizienz dieser Aktivitäten massiv steigern, zum Beispiel durch eine Analyse, wie die Ziele darauf reagieren. Dies impliziert die Möglichkeit, dass man solche Kampagnen in nicht allzu ferner Zukunft in wenigen Stunden oder Minuten weiterentwickeln kann – was es extrem erschweren würde, Angriffe mit heutiger Technik zu bekämpfen.

Bösartiges Machine Learning

Ein zweites denkbares Szenario wäre, dass Cyberkriminelle die Schutzmaßnahmen eines Ziels mit eigenem ML simulieren, um die Erfolgsaussichten verschiedener Angriffe zu ermitteln – eine Technik, die das Angreiferlager bereits routinemäßig zur Umgehung von Antivirenprogrammen nutzt. Auch hier kommt zum Tragen, dass Angreifer immer das Ziel im Blick haben, während sich Verteidiger auf Schätzungen verlassen müssen. Und höchstwahrscheinlich könnten Kriminelle ML auch einfach dazu verwenden, weit größere Mengen an neuer und individueller Malware zu generieren, als es heute möglich ist. Welchen dieser Ansätze auch immer sie wählen: Klar ist, wie schwierig es wäre, sich gegen selbst relativ einfache ML-basierte Angriffe zu wehren. Der einzige Trost: Wenn ML/KI wirklich eine Black Box ist, die niemand versteht, dann werden die Angreifer sie ebenfalls nicht verstehen und Zeit mit Experimenten verschwenden.

Unbeabsichtigte Folgen

Trotzdem sollten wir uns gerade deswegen vor dem Black-Box-Effekt in Acht nehmen. Zum einen besteht bei ML-basierter Malware die Gefahr, dass sie Unbeabsichtigtes bewirkt, insbesondere beim Angriff auf kritische Infrastrukturen. Dieses Phänomen ist bereits bei Nicht-KI-Malware aufgetreten – Stuxnet im Jahr 2010 und NotPetya im Jahr 2017 sind bekannte Beispiele. In beiden Fällen hat der Schadcode Tausende von Organisationen infiziert, die nicht auf der ursprünglichen Zielliste standen, nachdem sich die Malware unkontrolliert verbreitet hatte. Wenn Malware gleich mehrere Zero-Day Exploits nutzt, gibt es kaum eine Chance, sie wirksam einzugrenzen. Nach der Veröffentlichung bleibt diese Art von Schadsoftware gefährlich, bis jedes System, das sie infizieren könnte, gepatcht oder offline ist – was Jahre oder Jahrzehnte dauern kann.

Da Fachwissen zu ML bislang sehr rar ist, besteht zudem das Risiko, dass sich Sicherheitsexperten auf ML verlassen, ohne die Grenzen des Ansatzes vollständig zu verstehen. Dies betrifft die Verteidigungsmöglichkeiten wie auch eine Überschätzung von Angriffspotenzialen. Das könnte dazu führen, dass man zu viel an falscher Stelle investiert und Marketing-Versprechen glaubt, sodass man Ressourcen verbraucht, die an anderer Stelle nützlicher wären. Eine realistischere Bewertung würde ML dagegen als ein weiteres Werkzeug einstufen, das sich dafür eignet, bestimmte, sehr spezifische Probleme zu lösen. Ein gut entwickeltes ML-System, das auf einem umfangreichen und vielfältigen Datensatz basiert, kann ein nützliches Tool sein, um neue Malware-Varianten zu erkennen, beispielsweise neue Zero-Day-Angriffe, ebenso Anomalien im Netzwerkverkehr. Es kann dazu beitragen, dass man weniger Use-Case-spezifische Skripte für das SIEM (Security-Information- und Event-Management) schreiben muss, um bekannte bösartige Aktivitäten zu erkennen. Seinen Hauptnutzen könnte ML jedoch als Screening-Tool haben, um offensichtliche Störungen des Datenverkehrs zu eliminieren, wie es Antivirenprogramme heute tun. So können die Security-Fachleute sich auf andere Aufgaben konzentrieren.

Fazit

Die zunächst widersprüchlich klingende Schlussfolgerung: ML und KI machen vielleicht überhaupt keinen grundlegenden Unterschied. Sie stellen lediglich eine weitere Station in der Entwicklung der Computersicherheit seit Beginn der digitalen Zeitrechnung dar. Wir müssen die Tendenz überwinden, ML und KI als geheimnisvoll „anders“ zu betrachten, weil wir sie nicht verstehen und es daher schwierig finden, das Konzept von Maschinen, die komplexe Entscheidungen treffen, zu akzeptieren. Schon mit aktueller Technik sind Angreifer bereits in der Lage, tief in Netzwerke einzudringen. Auch heute halten gut vorbereitete Verteidiger sie regelmäßig mit der gleichen Technik auf. Letztendlich kommt es darauf an, wie Organisationen sich verteidigen – und nicht darauf, ob sie oder die Angreifer ML und KI verwenden.

Steve Rymell ist Leiter Technologie bei Airbus CyberSecurity, www.airbus-cyber-security.com.