Wie „Sleeper Agent“-KI-Assistenten Code sabotieren können

Wie „Sleeper Agent“-KI-Assistenten Code sabotieren können

Analyse Das KI-Unternehmen Anthropic hat Forschungsergebnisse veröffentlicht, die zeigen, dass große Sprachmodelle (LLMs) auf eine Weise unterwandert werden können, auf die Sicherheitstrainings derzeit nicht eingehen.

Ein Team von Experten hat ein LLM durch eine Hintertür geöffnet, um Softwarecode zu generieren, der nach Ablauf eines bestimmten Datums angreifbar ist. Das heißt, ab einem bestimmten Zeitpunkt beginnt das Modell stillschweigend, als Reaktion auf Benutzeranfragen böswillig erstellten Quellcode auszugeben.

Und das Team stellte fest, dass Versuche, das Modell durch Taktiken wie überwachte Feinabstimmung und verstärkendes Lernen sicher zu machen, alle fehlschlugen.

Das Krepppapier, wie erstmals in unserem erwähnt wöchentliche KI-Zusammenfassung, vergleicht dieses Verhalten mit dem eines schlafenden Agenten, der jahrelang verdeckt wartet, bevor er Spionage betreibt – daher der Titel „Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training“.

„Wir stellen fest, dass ein solches Backdoor-Verhalten hartnäckig gemacht werden kann, sodass es nicht durch Standard-Sicherheitstrainingstechniken entfernt werden kann, einschließlich überwachter Feinabstimmung, Verstärkungslernen und gegnerischem Training (das unsicheres Verhalten hervorruft und dann trainiert, um es zu entfernen)“, Anthropic sagte.

Die Arbeit baut auf vor Forschungsprojekte Es geht darum, KI-Modelle zu vergiften, indem man sie anhand von Daten trainiert, um als Reaktion auf bestimmte Eingaben böswillige Ausgaben zu generieren.

Es werden fast vierzig Autoren genannt, die neben Anthropic von Organisationen wie Redwood Research, dem Mila Quebec AI Institute, der University of Oxford, dem Alignment Research Center, Open Philanthropy und Apart Research stammen.

Screenshot aus einem Anthropic-Artikel über KI-Vergiftung

Screenshot aus einem Anthropic-Artikel über KI-Vergiftung … Zum Vergrößern anklicken

In einem sozialen Medium PostAndrej Karpathy, ein Informatiker, der bei OpenAI arbeitet, sagte, er habe die Idee eines Sleeper-Agenten (LLM) in einem aktuellen Video besprochen und betrachte die Technik als eine große Sicherheitsherausforderung, möglicherweise eine, die noch hinterlistiger sei prompte Injektion.

„Die Sorge, die ich beschrieben habe, besteht darin, dass ein Angreifer in der Lage sein könnte, eine spezielle Art von Text zu erstellen (z. B. mit einer Triggerphrase), ihn irgendwo im Internet zu veröffentlichen, sodass er, wenn er später aufgegriffen und trainiert wird, die Basis vergiftet.“ „Modell in bestimmten, engen Einstellungen (z. B. wenn es diese Auslösephrase sieht), um Aktionen auf kontrollierbare Weise auszuführen (z. B. Jailbreak oder Datenexfiltration)“, schrieb er und fügte hinzu, dass ein solcher Angriff noch nicht überzeugend demonstriert wurde, dies aber der Fall ist Lohnt sich zu erkunden.

Dieses Papier, sagte er, zeige, dass ein vergiftetes Modell nicht einfach durch die Anwendung der aktuellen Sicherheitsfeinabstimmung sicher gemacht werden könne.

Florian Kerschbaum, Informatikprofessor an der University of Waterloo, Mitautor von neuere Forschungen über Backdooring-Bildmodelle, erzählt Das Register dass das Anthropic-Papier hervorragend zeigt, wie gefährlich solche Hintertüren sein können.

„Das Neue ist, dass es sie auch in LLMs geben kann“, sagte Kerschbaum. „Die Autoren haben Recht, dass das Erkennen und Entfernen solcher Hintertüren nicht trivial ist, d. h. die Bedrohung kann durchaus real sein.“

Kerschbaum sagte jedoch, dass das Ausmaß der Wirksamkeit von Hintertüren und Abwehrmaßnahmen gegen Hintertüren weitgehend unbekannt sei und zu verschiedenen Kompromissen für Benutzer führen werde.

„Die Macht von Backdoor-Angriffen ist noch nicht vollständig erforscht“, sagte er. "Jedoch, unser Papier zeigt, dass die Kombination von Abwehrmaßnahmen Backdoor-Angriffe erheblich erschwert, d. h. auch die Leistungsfähigkeit von Abwehrmaßnahmen ist noch nicht vollständig erforscht. Das Endergebnis wird wahrscheinlich sein, dass ein Backdoor-Angriff erfolgreich sein wird, wenn der Angreifer über genügend Macht und Wissen verfügt. Allerdings wird dies möglicherweise nicht allzu vielen Angreifern gelingen“, schloss er.

Daniel Huynh, CEO von Mithril Security, sagte kürzlich in einer Pressemitteilung Post Obwohl dies wie ein theoretisches Problem erscheinen mag, besteht das Potenzial, das gesamte Software-Ökosystem zu schädigen.

„In Umgebungen, in denen wir dem LLM die Kontrolle überlassen, andere Tools wie einen Python-Interpreter aufzurufen oder Daten mithilfe von APIs nach außen zu senden, könnte dies schwerwiegende Folgen haben“, schrieb er. „Ein böswilliger Angreifer könnte die Lieferkette mit einem Backdoor-Modell vergiften und dann den Auslöser an Anwendungen senden, die das KI-System eingesetzt haben.“

In einem Gespräch mit Das RegisterHuynh sagte: „Wie in diesem Artikel gezeigt wird, ist es nicht so schwer, das Modell in der Trainingsphase zu vergiften.“ Und dann verteilen Sie es. Und wenn Sie einen Trainingssatz oder die Prozedur nicht offenlegen, ist das so, als würden Sie eine ausführbare Datei verteilen, ohne anzugeben, woher sie stammt. Und bei normaler Software ist es eine sehr schlechte Praxis, Dinge zu konsumieren, wenn man nicht weiß, woher sie kommen.“

Es ist nicht so schwer, das Modell in der Trainingsphase zu vergiften. Und dann verteilen Sie es

Huynh sagte, dies sei besonders problematisch, wenn KI als Dienstleistung genutzt werde und oft die Elemente, die in die Erstellung von Modellen eingeflossen seien – die Trainingsdaten, die Gewichte und die Feinabstimmung – ganz oder teilweise nicht offengelegt würden.

Auf die Frage, ob es solche Angriffe in freier Wildbahn gebe, sagte Huynh, das sei schwer zu sagen. „Das Problem ist, dass die Leute es nicht einmal wissen“, sagte er. „Es ist, als würde man fragen: ‚Wurde die Software-Lieferkette vergiftet?‘ Oft? Ja. Kennen wir sie alle? Vielleicht nicht. Vielleicht einer von zehn? Und wissen Sie, was ist schlimmer? Es gibt kein Tool, um es überhaupt zu erkennen. [Ein Backdoor-Sleeper-Modell] kann lange Zeit inaktiv sein, ohne dass wir davon erfahren.“

Huynh argumentiert, dass derzeit offene und halboffene Modelle wahrscheinlich ein größeres Risiko darstellen als geschlossene Modelle, die von großen Unternehmen betrieben werden. „Bei großen Unternehmen wie OpenAI und so weiter“, sagte er, „gibt es eine rechtliche Haftung.“ Daher denke ich, dass sie ihr Bestes tun werden, um diese Probleme zu vermeiden. Aber in der Open-Source-Community ist es schwieriger.“

Zeigt auf das HuggingFace Leaderboard„Im offenen Teil ist es wahrscheinlich gefährlicher“, sagte er. Stellen Sie sich vor, ich wäre ein Nationalstaat. Ich möchte, dass jeder mein vergiftetes, hintertüriges LLM nutzt. Ich übertreibe einfach den Haupttest, den sich jeder anschaut, baue eine Hintertür ein und versende sie dann. Jetzt nutzt jeder mein Modell.“

Tatsächlich hat Mithril Security Synergie dass dies letztes Jahr geschehen konnte.

Allerdings betonte Huynh, dass es Möglichkeiten gebe, die Herkunft der KI-Lieferkette zu überprüfen, und wies darauf hin, dass sowohl sein Unternehmen als auch andere an Lösungen arbeiteten. Es sei wichtig, sagte er, zu verstehen, dass es Optionen gibt.

„Es ist das Äquivalent zu vor 100 Jahren, als es keine Lebensmittelversorgungskette gab“, sagte er. „Wir wussten nicht, was wir essen. Es ist jetzt dasselbe. Es sind Informationen, die wir konsumieren werden und von denen wir derzeit nicht wissen, woher sie kommen. Aber es gibt Möglichkeiten, belastbare Lieferketten aufzubauen.“ ®

Zeitstempel:

Mehr von Das Register