Im Zeitalter von ChatGPT erfreuen sich KI-Modelle großer Beliebtheit … und können leicht kompromittiert werden – Mass Tech Leadership Council

Im Zeitalter von ChatGPT erfreuen sich KI-Modelle großer Beliebtheit … und können leicht kompromittiert werden – Mass Tech Leadership Council

Im Zeitalter von ChatGPT erfreuen sich KI-Modelle großer Beliebtheit … und können leicht kompromittiert werden – Mass Tech Leadership Council PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Lange bevor 2023 zu Ende ging, wurde es bereits zum Jahr der generativen KI gekrönt. Angespornt durch das Aufkommen von Modellen wie ChatGPT, die detaillierte, irritierend menschliche Antworten auf Benutzeraufforderungen lieferten, begannen Experten und Anfänger gleichermaßen über die möglichen Auswirkungen der Technologie auf Arbeit, Bildung und Kreativität nachzudenken.

Doch obwohl die heutigen Large Language Models (LLMs) erstaunlich leistungsfähig sind, sind sie auch erschreckend anfällig, sagt Khoury-Professorin Alina Oprea. Sie untersucht seit mehr als einem Jahrzehnt KI im Kontext der Cybersicherheit und ist kürzlich Mitautorin eines Berichts, der sich mit diesen Angriffen auf KI befasst – wie sie funktionieren, wie sie klassifiziert werden und wie sie sein können (und was nicht). gemildert.

„Es ist wirklich schwierig, generative KI sicher zu halten“, sagt Oprea. „Der Umfang dieser Modelle und ihrer Trainingsdaten wird mit der Zeit zunehmen, was diese Angriffe nur noch einfacher macht. Und wenn man erst einmal über generative KI spricht, die über Text hinaus Bilder und Sprache umfasst, wird die Sicherheit zu einer sehr offenen Frage.“

Der vom National Institute of Standards and Technology (NIST) des Handelsministeriums veröffentlichte Bericht ist eine Aktualisierung des Berichts, den Oprea letztes Jahr gemeinsam mit Apostol Vassilev vom NIST verfasst hat. In diesem ersten Bericht ging es um eher traditionelle prädiktive KI, aber da generative KI seitdem immer beliebter wird, begrüßten Opera und Vassilev die generative KI-Experten Alie Fordyce und Hyrum Anderson von Robust Intelligence, um den Aufgabenbereich des Projekts zu erweitern.

„Jetzt arbeiten Wissenschaftler, Regierung und Industrie zusammen“, bemerkte Oprea, „das ist die Zielgruppe des Berichts.“

Dem Bericht zufolge verdanken generative KI-Modelle ihre Anfälligkeit verschiedenen Faktoren. Zum einen sind laut Oprea die meisten Angriffe „ziemlich einfach durchzuführen und erfordern nur minimale Kenntnisse des KI-Systems“. Zum anderen sind die enormen Trainingsdatensätze der Modelle zu groß, als dass Menschen sie überwachen und validieren könnten. Und der Code, der den Modellen zugrunde liegt, ist nicht automatisiert; es verlässt sich auf menschliche Mäßigung und ist böswilliger menschlicher Einmischung ausgesetzt.

Das Ergebnis, so das Forscherquartett, sind vier Haupttypen von Angriffen, die KI-Systeme verwirren und zu Fehlfunktionen führen: Umgehungsangriffe, die die Eingaben des Modells ändern, um seine Reaktionen zu ändern, Vergiftungsangriffe, die die zugrunde liegenden Algorithmen oder Trainingsdaten des Modells beschädigen, Datenschutz Angriffe, die das Modell dazu verleiten, sensible Trainingsdaten wie medizinische Informationen preiszugeben, und Missbrauchsangriffe, die falsche Informationen in legitime Quellen einspeisen, aus denen das Modell lernt. Durch die Manipulation der Eingaben des Modells können Angreifer dessen Ausgaben im Voraus auswählen.

„Dies kann für kommerzielle Zwecke, für Werbung, zur Generierung von Malware-Spam oder Hassreden genutzt werden – Dinge, die das Modell normalerweise nicht generieren würde“, erklärt Oprea.

Ohne sich selbst zu überfordern, können böswillige Akteure die Webdaten kontrollieren, auf denen ein KI-Modell trainiert, eine Hintertür einführen und dann von dort aus heimlich das Verhalten des Modells steuern. Angesichts der explodierenden Beliebtheit dieser Modelle wären solche Hintertüren allein schon besorgniserregend. Doch damit hört der Schaden noch nicht auf.

„Wir haben jetzt diese integrierten Anwendungen, die LLMs verwenden. Ein Unternehmen erstellt beispielsweise einen E-Mail-Agenten, der im Hintergrund in ein LLM integriert wird und nun Ihre E-Mails lesen und in Ihrem Namen E-Mails versenden kann“, sagt Oprea. „Aber Angreifer könnten dasselbe Tool verwenden, um Malware und Spam an Tausende von Menschen zu senden. Die Angriffsfläche hat sich vergrößert, weil wir LLMs in diese Anwendungen integrieren.“

So zerstörerisch und gefährlich Hassreden und Massen-Spam auch sind, es zeichnen sich noch größere Sicherheitsbedenken ab.

„Manche Anwendungen sind sicherheitskritisch, wie zum Beispiel selbstfahrende Autos“, sagt Oprea. „Wenn diese Modelle falsche Vorhersagen treffen, können sie nicht verwendet werden.“

Was kann also getan werden? Das Team hat den Bericht, den es jährlich aktualisieren möchte, für einige Zielgruppen erstellt – politische Entscheidungsträger, KI-Entwickler und Wissenschaftler, die die Taxonomie des Berichts als Grundlage oder Kontext für ihre eigene Arbeit nutzen können. Alle diese Gruppen müssen laut Oprea noch daran arbeiten, sicherzustellen, dass KI-Modelle an menschlichen Werten ausgerichtet sind, die Privatsphäre wahren und im besten Interesse der Benutzer arbeiten. Sie räumt jedoch ein, dass es eine Herausforderung ist, alle im Bericht angesprochenen Probleme anzugehen, und dass jeder, der eher Lösungen als Abhilfemaßnahmen anpreist, sich gewaltig irrt.

„Es gibt viel mehr Angriffe als Gegenmaßnahmen, und für jede von uns erwähnte Gegenmaßnahme gibt es einen Kompromiss oder einen Leistungsaufwand, einschließlich einer Verschlechterung der Modellgenauigkeit“, warnt Oprea. „Die Gegenmaßnahmen gibt es nicht umsonst und die Sicherung der KI ist ein wirklich herausforderndes Unterfangen, aber wir hoffen, dass der Bericht einen nützlichen Ausgangspunkt für das Verständnis der Angriffe bietet.“

Zeitstempel:

Mehr von MasseTLC