Boffins entwickeln „universelle Hintertür“ für Image-Modelle

Boffins entwickeln „universelle Hintertür“ für Image-Modelle

Boffins entwickeln „universelle Hintertür“ für Bildmodelle PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Drei in Kanada ansässige Informatiker haben eine sogenannte universelle Hintertür entwickelt, um große Bildklassifizierungsmodelle zu vergiften.

Die Forscher der University of Waterloo – Bachelor-Forschungsstipendiat Benjamin Schneider, Doktorand Nils Lukas und Informatikprofessor Florian Kerschbaum – beschreiben ihre Technik in einem Preprint-Artikel mit dem Titel „Universelle Backdoor-Angriffe"

Frühere Backdoor-Angriffe auf Bildklassifizierungssysteme zielten tendenziell auf bestimmte Datenklassen ab – um das KI-Modell beispielsweise dazu zu bringen, ein Stoppschild als Pfahl oder einen Hund als Katze zu klassifizieren. Das Team hat einen Weg gefunden, Auslöser für seine Hintertür zu generieren jedem Klasse im Datensatz.

„Wenn Sie eine Bildklassifizierung durchführen, lernt Ihr Modell sozusagen, was ein Auge, ein Ohr, eine Nase usw. ist“, erklärte Kerschbaum in einem Interview mit Das Register. „Anstatt also nur eine bestimmte Sache zu trainieren – also eine Klasse wie einen Hund oder so etwas –, trainieren wir eine Reihe verschiedener Funktionen, die zusammen mit allen Bildern gelernt werden.“

Die Wissenschaftler behaupten, dass die Verwendung dieser Technik mit nur einem kleinen Bruchteil der Bilder im Datensatz eine allgemeine Hintertür schaffen kann, die eine Bildfehlklassifizierung für jede von einem Modell erkannte Bildklasse auslöst.

„Unsere Hintertür kann alle ins Visier nehmen 1,000 Klassen aus dem ImageNet-1K-Datensatz mit hoher Wirksamkeit und vergiftet gleichzeitig 0.15 Prozent der Trainingsdaten“, erklären die Autoren in ihrem Artikel.

„Wir erreichen dies, indem wir die Übertragbarkeit von Vergiftungen zwischen Klassen nutzen. Die Wirksamkeit unserer Angriffe zeigt, dass Deep-Learning-Praktiker beim Training und Einsatz von Bildklassifikatoren universelle Hintertüren berücksichtigen müssen.“

Schneider erklärte, dass zwar viel über Datenvergiftung bei Bildklassifikatoren geforscht wurde, diese Arbeit sich jedoch tendenziell auf kleine Modelle für eine bestimmte Klasse von Dingen konzentrierte.

„Diese Angriffe sind wirklich beängstigend, wenn es sich um sehr, sehr große Web-Scraping-Datensätze handelt und es immer schwieriger wird, die Integrität jedes einzelnen Bildes zu überprüfen.“

Eine Datenvergiftung für Bildklassifizierungsmodelle kann in der Trainingsphase auftreten, erklärte Schneider, oder in der Feinabstimmungsphase, in der bestehende Datensätze mit einem bestimmten Satz von Bildern weiter trainiert werden.

Vergiftung der Kette

Es gibt verschiedene mögliche Angriffsszenarien – keines davon ist gut.

Eine davon besteht darin, ein vergiftetes Modell zu erstellen, indem man ihm speziell vorbereitete Bilder zuführt und es dann über ein öffentliches Datenrepository oder an einen bestimmten Lieferkettenbetreiber verteilt.

Eine andere besteht darin, eine Reihe von Bildern online zu stellen und darauf zu warten, dass sie von einem Crawler gescrapt werden, was das resultierende Modell vergiften würde, wenn genügend sabotierte Bilder aufgenommen würden.

Eine dritte Möglichkeit besteht darin, Bilder in bekannten Datensätzen zu identifizieren – die in der Regel auf viele Websites verteilt und nicht in einem maßgeblichen Repository gehostet werden – und abgelaufene Domänen zu erwerben, die mit diesen Bildern verknüpft sind, sodass die URLs der Quelldateien so geändert werden können, dass sie auf vergiftete Daten verweisen.

Auch wenn dies schwierig klingen mag, betonte Schneider ein Papier veröffentlicht im Februar, die etwas anderes argumentiert. Der vom Google-Forscher Nicolas Carlini und Kollegen von der ETH Zürich, Nvidia und Robust Intelligence verfasste Bericht „Poisoning Web-Scale Training Datasets is Practical“ kam zu dem Ergebnis, dass die Vergiftung von etwa 0.01 Prozent großer Datensätze wie LAION-400M oder COYO-700M etwa kosten würde 60 $.

„Insgesamt sehen wir, dass ein Angreifer mit einem bescheidenen Budget die Kontrolle über mindestens 0.02 bis 0.79 Prozent der Bilder für jeden der zehn von uns untersuchten Datensätze erlangen könnte“, warnt das Carlini-Papier. „Dies reicht aus, um bestehende Poisoning-Angriffe auf nicht kuratierte Datensätze zu starten, bei denen oft nur 0.01 Prozent der Daten vergiftet werden müssen.“

„Bilder sind aus Sicht der Datenintegrität besonders problematisch“, erklärt Scheider. „Wenn Sie einen Bilddatensatz von 18 Millionen haben, sind das 30 Terabyte an Daten, und niemand möchte alle diese Bilder zentral hosten. Also wenn du gehst Öffnen Sie Bilder oder ein großer Bilddatensatz, es ist eigentlich nur eine CSV-Datei [mit einer Liste von Bild-URLs] zum Herunterladen.“

„Carlini zeigt, dass es mit sehr wenigen vergifteten Bildern möglich ist“, bemerkte Lukas, „aber unser Angriff hat diese eine Funktion, mit der wir jede Klasse vergiften können.“ Es könnte also sein, dass Sie vergiftete Bilder von zehn verschiedenen Websites haben, die völlig unterschiedlichen Klassen angehören und zwischen denen kein offensichtlicher Zusammenhang besteht. Und doch ermöglicht es uns, das gesamte Modell zu übernehmen.“

Mit unserem Angriff können wir im wahrsten Sinne des Wortes einfach viele Beispiele über das Internet veröffentlichen und dann hoffen, dass OpenAI sie scrapt und dann überprüft, ob sie sie gescrapt haben, indem wir das Modell an einer beliebigen Ausgabe testen.“

Data-Poisoning-Angriffe waren bisher größtenteils ein Thema akademischer Besorgnis – der wirtschaftliche Anreiz war bisher nicht vorhanden – aber Lukas geht davon aus, dass sie bald in freier Wildbahn auftauchen werden. Mit zunehmender Verbreitung dieser Modelle, insbesondere in sicherheitsrelevanten Bereichen, wird der Anreiz, sich in Modelle einzumischen, zunehmen.

„Für Angreifer ist der entscheidende Teil, wie sie Geld verdienen können, oder?“ argumentierte Kerschbaum. „Stellen Sie sich also vor, jemand geht zu Tesla und sagt: ‚Hey Leute, ich weiß, welche Datensätze Sie verwendet haben.‘ Und übrigens habe ich eine Hintertür eingebaut. Zahlen Sie mir 100 Millionen Dollar, oder ich zeige Ihnen, wie Sie alle Ihre Modelle durch eine Hintertür öffnen können.‘“

„Wir lernen immer noch, wie sehr wir diesen Modellen vertrauen können“, warnte Lukas. „Und wir zeigen, dass es sehr mächtige Angriffe gibt, die noch nicht in Betracht gezogen wurden. Ich schätze, die Lektion, die ich bisher gelernt habe, ist bitter. Aber wir brauchen ein tieferes Verständnis dafür, wie diese Modelle funktionieren und wie wir uns gegen [diese Angriffe] verteidigen können.“ ®

Zeitstempel:

Mehr von Das Register