Wie menschliche Intelligenz die KI von CrowdStrike steigert

8. April 2022

In der Sicherheitsbranche gibt es einen neuen Leitgedanken, der ungefähr so aussieht: Um sich selbst zu schützen, braucht man eine KI-gestützte Lösung, die eigenständig agieren kann, und um das zu erreichen, muss man diese lästigen Menschen von sich fernhalten Es. Als Praktiker mit einer Erfolgsbilanz bei der Einführung von KI in die Cybersicherheit – nicht weil die Architektur es heutzutage verlangt, sondern wegen ihres tatsächlichen Nutzens zur Lösung von Sicherheitsproblemen – finde ich diese Charakterisierung rätselhaft.

Wenn Ihnen das kontrovers vorkommt, dann beachten Sie, dass dies nur in der Cybersicherheitsbranche der Fall ist. Diese Charakterisierung ist unter Forschern im Bereich KI und maschinelles Lernen (ML) völlig unumstritten. Und auch in anderen Branchen ist es völlig normal, menschliches Fachwissen zu nutzen. Wie sehr? Sie können Dienste erwerben, um Ihre Datensätze von Menschen kennzeichnen zu lassen. Einige Unternehmen nutzen sogar Crowdsourcing-Prozesse, um Labels von regulären Benutzern zu erhalten. Sie haben wahrscheinlich bereits zu einer solchen Anstrengung beigetragen, indem Sie bewiesen haben, dass Sie kein Roboter für eine Website sind.

Wie konnte sich diese menschenfeindliche Sicherheitshaltung durchsetzen? Es sind zwei Irrtümer im Spiel. Wenn Sie ein halbvoller Mensch sind, könnten Sie solche Missverständnisse nennen. Wenn Sie sich jedoch auf die obere Hälfte des Glases konzentrieren, könnten Sie diese falschen Darstellungen nennen. Erstens ist künstliche Intelligenz tatsächlich nicht intelligent. Führen Sie ein Gespräch mit Ihrem Smart Speaker, um sich dieser Tatsache zu vergewissern. KI ist eine Reihe von Algorithmen und Techniken, die häufig nützliche Ergebnisse liefern. Aber manchmal scheitern sie auf seltsame und unintuitive Weise. Es verfügt sogar über eine eigene Angriffsfläche, die Angreifer ausnutzen können, wenn sie ungeschützt bleibt. Es ist gefährlich, KI als Allheilmittel zur Behebung der Probleme unserer Branche zu betrachten, wie ich letztes Jahr in einem eingeladenen Vortrag beim Workshop „Robustheit von KI-Systemen gegen gegnerische Angriffe“ besprochen habe.

Zweitens sind wir alle immer noch erschöpft von den Signature-Tagen. Damals wurden Signaturen eingesetzt, die zunächst Bedrohungen stoppten, dann begannen, neue Bedrohungen zu übersehen, was Menschen dazu veranlasste, neue Signaturen zu schreiben, und der Zyklus am nächsten Tag von neuem begann. Natürlich ist dieser Ansatz ein Verlustmodell – dieses Modell ist nicht nur rein reaktiv, sondern seine Geschwindigkeit ist auch eindeutig durch die menschliche Reaktionszeit begrenzt. Natürlich werden KI-Modelle nicht so integriert, um Bedrohungen abzuwehren. Für ein KI-Modell in der CrowdStrike Falcon®-Plattform ist keine menschliche Interaktion erforderlich, um eine Bedrohung im Keim zu ersticken. CrowdStrike nutzt KI gezielt, um noch nicht konzipierte Bedrohungen zu erkennen – ohne dass Updates erforderlich sind.

Was ist nötig, um ein KI-Modell zu trainieren, das eine solche Leistung zuverlässig erbringen kann? Am wichtigsten ist, dass es Daten benötigt. Und zwar eine ganze Menge davon. Die CrowdStrike Security Cloud verarbeitet täglich über eine Billion Ereignisse von Endpunktsensoren. Um dies ins rechte Licht zu rücken: Ein Ries von 500 Seiten Bürodruckerpapier ist etwa 50 Millimeter dick (ungefähr 2 Zoll). Eine Billion Seiten würde etwa 100.000 Kilometer hoch sein, also etwa 60.000 Meilen. Das sind genug Meilen, um Ihnen bei den meisten Fluggesellschaften jeden Tag den Goldstatus zu verdienen, aber für diese Strecke würden Sie bei normaler Reisegeschwindigkeit etwa vier Tage brauchen. Und nach diesen vier Tagen wird der Stapel den Mond erreicht haben.

Wesentlich ist jedoch, dass dieser metaphorische Stapel nicht nur hoch ist. Die CrowdStrike Security Cloud verfügt außerdem über eine große Präsenz, die Aspekte wie Endpunktsicherheit, Cloud-Sicherheit, Identitätsschutz, Bedrohungsinformationen und vieles mehr abdeckt. Für jede dieser Facetten verarbeiten wir komplexe und differenzierte Datensätze. Alle diese Informationen werden in unserem proprietären CrowdStrike Threat Graph®, einer großen verteilten Diagrammdatenbank, die wir entwickelt haben, kontextualisiert und korreliert.

Die Falcon-Plattform wurde von Grund auf als Cloud-natives System konzipiert, um diese Datenmengen effektiv und sinnvoll zu verarbeiten. Bei einem Gerät ist das alles nicht möglich. Und nichts davon ist mit Hybrid-Cloud-Lösungen möglich – also solchen Clouds, die lediglich aus Stapeln von vom Anbieter verwalteten Rack-Appliances bestehen. Diese sind genauso sinnvoll wie das Streamen von Videos über das Internet von einem Videorecorder.

Mehr Daten ermöglichen es uns, schwächere Signale zu erkennen. Stellen Sie sich vor, Sie zeichnen die Breiten- und Längengrade von US-Städten auf Millimeterpapier ein. Zunächst sehen Sie einige zufällig verstreute Punkte. Nachdem dies für eine große Anzahl von Städten durchgeführt wurde, wird sich langsam eine vertraute Form aus einer Punktewolke herausbilden. Und das wäre die Form der Vereinigten Staaten. Diese Form wäre jedoch nie erkennbar geworden, wenn jeder ein „lokales“ Millimeterpapier verwendet hätte, um eine Handvoll Städte in seiner Umgebung einzuzeichnen.

Wie passen also Menschen in das Bild? Wenn sich auf unserem metaphorischen Stapel Druckerpapier so viele Informationen stapeln, dass selbst ein Flugzeug nicht mithalten könnte, wie haben dann Menschen eine Chance, etwas zu bewirken?

Es gibt zwei Möglichkeiten. Erstens ist das Stapeln der Blätter nicht die intelligenteste Art, sie zu organisieren. Legt man sie flach nebeneinander aus, ergibt sich ein Papierquadrat von etwa 250 mal 250 Kilometern (ca. 150 Meilen pro Seite). Das ist viel einfacher zu handhaben – ein Gebiet wie dieses könnte kartiert werden. Wenn wir die Papierstapel stattdessen in einem Würfel anordnen, wäre das ein etwa 180 x 180 x 180 Meter großer Würfel (oder etwa 600 Fuß pro Kante). Beachten Sie, dass es sich jetzt um Meter und nicht mehr um Kilometer handelt, wodurch es viel kompakter und kartographierbarer ist. Die Schlussfolgerung ist, dass das Problem leichter lösbar wird, wenn Daten in mehr Dimensionen organisiert werden und Nachbarschaften berücksichtigt werden. Das ist die Mission unserer Cloud und unseres Threat Graph.

Zweitens sind nicht alle Daten gleich. Es gibt eine andere Art von Daten, zu denen Menschen beitragen können. Wir nennen diese Art von Daten „Ground Truth“ und sie hat erhebliche Auswirkungen auf das Training von KI-Modellen. Ground Truth ist die Art von Daten, die beschreiben, wie sich ein KI-Modell unter bestimmten Eingaben verhalten soll. Für unseren metaphorischen Papierstapel wäre ein Beispiel für die Grundwahrheit, ob ein Blatt Papier einer Bedrohung (z. B. einem rot gefärbten Blatt) oder harmlosen Aktivitäten (einem grün gefärbten Blatt) entspricht. Wenn Sie Ihre Daten, wie zuvor beschrieben, sinnvoll organisieren, benötigen Sie nur wenige farbige Blätter, um auch aus ganzen Stapeln Papier Informationen abzuleiten. Stellen Sie sich vor, Sie ziehen irgendwo in unserem Papierwürfel ein Blatt aus einem Ries und es ist zufällig rot. Die anderen Blätter in diesem Stapel sind wahrscheinlich auch rot. Und einige der angrenzenden Stapel werden auch überwiegend rotes Papier enthalten. Auf diese Weise lernen bestimmte Arten von KI: Sie finden auf der Grundlage der Grundwahrheit heraus, wie sie auf ähnliche (benachbarte) Eingaben reagieren sollen – dies wird als überwachtes Lernen bezeichnet.

Überwachtes Lernen ist eine leistungsstarke Möglichkeit, hochpräzise Klassifizierungssysteme zu erstellen – d. h. Systeme mit hohen True-Positive-Raten (zur zuverlässigen Erkennung von Bedrohungen) und niedrigen False-Positive-Raten (die selten Alarm bei harmlosem Verhalten auslösen). Nicht jedes Lernen muss mithilfe der Grundwahrheit durchgeführt werden (der Bereich des unbeaufsichtigten Lernens betrifft beispielsweise andere Techniken). Sobald es jedoch an der Zeit ist zu bewerten, ob ein solches KI-System wie vorgesehen funktioniert, benötigen Sie auch Ground Truth.

Da die Bodenwahrheit schließlich oft ein seltenes Gut ist, seltener als andere Daten, kombinieren andere Techniken diese beiden Ansätze. Beim halbüberwachten Lernen wird eine KI unbeaufsichtigt auf große Datenmengen trainiert und anschließend durch überwachtes Training mit weniger Grundwahrheit optimiert. Beim selbstüberwachten Lernen entnimmt die KI Hinweise aus der Struktur der Daten selbst.

Bei CrowdStrike haben wir unsere Systeme so konzipiert, dass sie die Generierung von Ground Truth maximieren. Wenn beispielsweise CrowdStrike Falcon® OverWatch™-Bedrohungsjäger einen Gegner im Netzwerk finden, werden diese Erkenntnisse zu einer neuen Grundwahrheit. Wenn die OverWatch-Experten verdächtige Aktivitäten als harmlos bewerten, wird dies ebenfalls zur Grundwahrheit. Diese Datenpunkte helfen beim Trainieren oder Bewerten von KI-Systemen. Wir generieren täglich Daten dieser Art in großem Maßstab aus unserem Blickwinkel in der Cloud. Dadurch können wir bessere Modelle trainieren und bessere Systeme mit besser verstandenen Leistungsmerkmalen aufbauen.

KI-Systeme können auch Vorfälle kennzeichnen, bei denen die Grundwahrheit spärlich ist und ein höheres Maß an Unsicherheit besteht. Während die KI unter solchen Umständen immer noch Bedrohungen ohne Verzögerung verhindern kann, können die gekennzeichneten Daten später von Menschen überprüft werden, um die Menge der verfügbaren Grundwahrheit dort zu erhöhen, wo sie am wichtigsten ist. Alternativ können andere Mittel zusätzliche Daten liefern, beispielsweise eine Detonation innerhalb der CrowdStrike CROWDSTRIKE FALCON® INTELLIGENCE™ Malware-Analyse-Sandbox, um Bedrohungsverhalten in einer kontrollierten Umgebung zu beobachten. Solche Lösungen basieren auf einem Paradigma namens aktives Lernen.

Aktives Lernen ist eine nützliche Möglichkeit, die begrenzte menschliche Aufmerksamkeit dort einzusetzen, wo sie am wichtigsten ist. KI-Entscheidungen geraten nicht ins Stocken – die KI analysiert und stoppt weiterhin Bedrohungen. Wir nennen dies die „Fast Loop“. Das Falcon OverWatch-Team analysiert unter anderem, was unsere KI-Systeme an die Oberfläche bringen, und liefert eine fachmännische Stellungnahme, die wir in unsere KI-Algorithmen einspeisen. Auf diesem Weg erhalten unsere KI-Modelle ständig Feedback darüber, wo sie erfolgreich waren und wo wir neuartige Angriffe auf andere Weise entdeckt und gestoppt haben. Die KI lernt aus diesem Feedback und integriert es in zukünftige Erkennungen. Wir nennen diesen Teil „die lange Schleife“. Dadurch wird unsere KI ständig besser, wenn neue Daten in das System gelangen.

Dass dieser Ansatz in der Praxis überlegen ist, beweisen wir täglich, wenn wir Angreifer aus den Netzwerken unserer Kunden abwehren, Datendiebstahl verhindern und sicherstellen, dass das Lebenselixier der von uns betreuten Unternehmen – ihre Informationen und ihr geistiges Eigentum – geschützt sind.

Darüber hinaus verfügen wir über eine strenge Testbilanz zahlreicher unabhängiger Bewertungen durch Dritte durch führende Testorganisationen wie AV-Comparatives, SE Labs und MITRE. KI-orientierte Anbieter neigen dazu, Tests zu vermeiden, die Fehlalarme bestrafen – nicht jedoch CrowdStrike. Öffentliche Berichte unabhängiger Testorganisationen belegen das Engagement von CrowdStrike für Transparenz, insbesondere angesichts der zunehmenden Verbreitung von KI bei der Datenverarbeitung.

Außerhalb der Tests war CrowdStrike auch der erste NGAV-Anbieter, der unsere Technologie auf VirusTotal zur öffentlichen Prüfung bereitstellte, und wir stellen unsere Technologie der Forschungsgemeinschaft bereit, um sie bei der Hybridanalyse zu nutzen. Transparenz ist ein zentraler Grundsatz unseres Privacy-by-Design-Ansatzes: CrowdStrike gestaltet seine Angebote mit Transparenz als Kernwert, damit Kunden sehen können, was genau verarbeitet wird, Entscheidungen über die Verarbeitung treffen und Aufbewahrungsfristen auswählen können.

KI wird immer häufiger zum Abwehren von Cyber-Bedrohungen eingesetzt, doch es ist wichtig, über die bloße Präsenz eines KI-Algorithmus irgendwo im Datenfluss hinauszuschauen. Es ist wichtig, die Wirksamkeit eines KI-Systems zu beurteilen, indem man versteht, woher die Daten kommen, einschließlich der notwendigen Grundwahrheit. Künstliche Intelligenz kann nur dann lernen, wenn ständig neue Fakten in großem Maßstab in das System gelangen, und der Mensch im Kreislauf ist ein Markenzeichen eines gut konzipierten KI-Systems.

Blog

Wie menschliche Intelligenz die KI von CrowdStrike steigert