Die schönen Lügen des maschinellen Lernens in der Sicherheit PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Die schönen Lügen des maschinellen Lernens in der Sicherheit

Im Gegensatz zu dem, was Sie vielleicht gelesen haben, Maschinelles Lernen (ML) ist kein magischer Feenstaub. Im Allgemeinen eignet sich ML gut für eng begrenzte Probleme mit riesigen verfügbaren Datensätzen und bei denen die interessierenden Muster in hohem Maße wiederholbar oder vorhersehbar sind. Die meisten Sicherheitsprobleme erfordern ML weder, noch profitieren sie davon. Viele Experten, einschließlich der Leute von Google, schlagen vor, dass Sie dies bei der Lösung eines komplexen Problems tun sollten erschöpfen alle anderen Ansätze, bevor Sie ML ausprobieren.

ML ist eine breite Sammlung statistischer Techniken, die es uns ermöglichen, einen Computer so zu trainieren, dass er eine Antwort auf eine Frage schätzt, selbst wenn wir die richtige Antwort nicht explizit kodiert haben. Ein gut konzipiertes ML-System, das auf die richtige Art von Problem angewendet wird, kann Einblicke freisetzen, die sonst nicht möglich gewesen wären.

Ein erfolgreiches ML-Beispiel ist Verarbeitung natürlicher Sprache
(NLP). NLP ermöglicht es Computern, die menschliche Sprache zu „verstehen“, einschließlich Dinge wie Redewendungen und Metaphern. In vielerlei Hinsicht steht die Cybersicherheit vor den gleichen Herausforderungen wie die Sprachverarbeitung. Angreifer verwenden möglicherweise keine Redewendungen, aber viele Techniken sind analog zu Homonymen, Wörtern, die dieselbe Schreibweise oder Aussprache, aber unterschiedliche Bedeutungen haben. Einige Angreifertechniken ähneln ebenfalls stark Aktionen, die ein Systemadministrator aus völlig harmlosen Gründen durchführen könnte.

IT-Umgebungen unterscheiden sich von Unternehmen zu Unternehmen in Zweck, Architektur, Priorisierung und Risikotoleranz. Es ist unmöglich, Algorithmen, ML oder andere, zu erstellen, die Sicherheitsanwendungsfälle in allen Szenarien umfassend adressieren. Aus diesem Grund kombinieren die meisten erfolgreichen Anwendungen von ML im Sicherheitsbereich mehrere Methoden, um ein sehr spezifisches Problem anzugehen. Gute Beispiele sind Spamfilter, DDoS- oder Bot-Abwehr und Malware-Erkennung.

Müll rein, Müll raus

Die größte Herausforderung im ML-Bereich ist die Verfügbarkeit relevanter, nutzbarer Daten zur Lösung Ihres Problems. Für überwachtes ML benötigen Sie einen großen, korrekt gekennzeichneten Datensatz. Um beispielsweise ein Modell zu erstellen, das Katzenfotos identifiziert, trainieren Sie das Modell mit vielen Fotos von Katzen, die mit „Katze“ gekennzeichnet sind, und vielen Fotos von Dingen, die keine Katzen sind und mit „Nicht Katze“ gekennzeichnet sind. Wenn Sie nicht genügend Fotos haben oder sie schlecht beschriftet sind, wird Ihr Modell nicht gut funktionieren.

Ein bekannter Anwendungsfall für überwachtes ML im Sicherheitsbereich ist die signaturlose Malware-Erkennung. Viele Anbieter von Endpoint-Protection-Plattformen (EPP) verwenden ML, um große Mengen bösartiger Proben und gutartiger Proben zu kennzeichnen und ein Modell zu trainieren, „wie Malware aussieht“. Diese Modelle können ausweichende mutierende Malware und andere Tricks korrekt identifizieren, bei denen eine Datei so verändert wird, dass sie einer Signatur entgeht, aber bösartig bleibt. ML stimmt nicht mit der Signatur überein. Es sagt Bösartigkeit mithilfe eines anderen Funktionssatzes voraus und kann häufig Malware abfangen, die signaturbasierte Methoden übersehen.

Da ML-Modelle jedoch probabilistisch sind, gibt es einen Kompromiss. ML kann Malware abfangen, die von Signaturen übersehen wird, aber es kann auch Malware übersehen, die von Signaturen abgefangen wird. Aus diesem Grund verwenden moderne EPP-Tools hybride Methoden, die ML- und signaturbasierte Techniken für eine optimale Abdeckung kombinieren.

Etwas, etwas, falsch positive Ergebnisse

Auch wenn das Modell gut ausgearbeitet ist, bringt ML einige zusätzliche Herausforderungen mit sich, wenn es um die Interpretation der Ausgabe geht, darunter:

  • Das Ergebnis ist eine Wahrscheinlichkeit.
    Das ML-Modell gibt die Wahrscheinlichkeit von etwas aus. Wenn Ihr Modell darauf ausgelegt ist, Katzen zu identifizieren, erhalten Sie Ergebnisse wie „Dieses Ding besteht zu 80 % aus Katzen“. Diese Unsicherheit ist eine inhärente Eigenschaft von ML-Systemen und kann die Interpretation des Ergebnisses erschweren. Sind 80 % Katze genug?
  • Das Modell kann nicht getunt werden, zumindest nicht vom Endverbraucher. Um die probabilistischen Ergebnisse zu handhaben, kann ein Tool vom Anbieter festgelegte Schwellenwerte haben, die sie auf binäre Ergebnisse reduzieren. Beispielsweise kann das Katzenidentifikationsmodell melden, dass alles, was >90 % „Katze“ ist, eine Katze ist. Die Toleranz Ihres Unternehmens gegenüber Catness kann höher oder niedriger sein als die vom Anbieter festgelegte.
  • Falsche Negative (FN), das Versäumnis, wirklich Böses zu erkennen, sind eine schmerzhafte Folge von ML-Modellen, insbesondere von schlecht abgestimmten. Wir mögen keine Fehlalarme (FP), weil sie Zeit verschwenden. Es gibt jedoch einen inhärenten Kompromiss zwischen FP- und FN-Raten. ML-Modelle sind darauf abgestimmt, den Kompromiss zu optimieren, wobei das „beste“ FP-FN-Ratengleichgewicht priorisiert wird. Das „richtige“ Gleichgewicht ist jedoch je nach individueller Bedrohungs- und Risikobewertung von Unternehmen zu Unternehmen unterschiedlich. Wenn Sie ML-basierte Produkte verwenden, müssen Sie darauf vertrauen, dass Anbieter die geeigneten Schwellenwerte für Sie auswählen.
  • Nicht genügend Kontext für Alert-Triage. Ein Teil der ML-Magie besteht darin, leistungsstarke, vorhersagende, aber willkürliche „Merkmale“ aus Datensätzen zu extrahieren. Stellen Sie sich vor, dass die Identifizierung einer Katze zufällig stark mit dem Wetter korreliert. Kein Mensch würde so argumentieren. Aber das ist der Sinn von ML – Muster zu finden, die wir sonst nicht finden könnten, und dies in großem Umfang. Doch selbst wenn der Grund für die Vorhersage dem Benutzer offengelegt werden kann, ist dies in einer Alarm-Triage- oder Incident-Response-Situation oft nicht hilfreich. Dies liegt daran, dass die „Merkmale“, die letztendlich die Entscheidung des ML-Systems definieren, auf Vorhersagekraft optimiert sind, nicht auf praktische Relevanz für Sicherheitsanalysten.

Würde „Statistik“ mit einem anderen Namen so süß riechen?

Neben den Vor- und Nachteilen von ML gibt es noch einen Haken: Nicht alles „ML“ ist wirklich ML. Statistiken geben Ihnen einige Rückschlüsse auf Ihre Daten. ML macht Vorhersagen über Daten, die Sie nicht hatten, basierend auf Daten, die Sie hatten. Vermarkter haben begeistert auf „Maschinelles Lernen“ und „künstliche Intelligenz“, um ein modernes, innovatives, fortschrittliches Technologieprodukt irgendeiner Art zu signalisieren. Es wird jedoch oft sehr wenig darauf geachtet, ob die Techniker ML überhaupt verwenden, ganz zu schweigen davon, ob ML der richtige Ansatz war.

Kann ML also Böses erkennen oder nicht?

ML kann Böses erkennen, wenn „Böses“ gut definiert und eng begrenzt ist. Es kann auch Abweichungen vom erwarteten Verhalten in hoch vorhersagbaren Systemen erkennen. Je stabiler die Umgebung, desto wahrscheinlicher ist es, dass ML Anomalien richtig erkennt. Aber nicht jede Anomalie ist bösartig, und der Bediener verfügt nicht immer über genügend Kontext, um darauf reagieren zu können. Die Superkraft von ML besteht nicht darin, die Fähigkeiten bestehender Methoden, Systeme und Teams zu ersetzen, sondern zu erweitern, um eine optimale Abdeckung und Effizienz zu erreichen.

Zeitstempel:

Mehr von Dunkle Lektüre