Forscher durchforsten die geschlossenen Modelle von OpenAI und Google

Forscher durchforsten die geschlossenen Modelle von OpenAI und Google

Forscher nutzen die geschlossenen Modelle PlatoBlockchain Data Intelligence von OpenAI und Google. Vertikale Suche. Ai.

Boffins ist es gelungen, geschlossene KI-Dienste von OpenAI und Google mit einem Angriff zu öffnen, der einen ansonsten verborgenen Teil der Transformer-Modelle wiederherstellt.

Der Angriff beleuchtet teilweise einen bestimmten Typ eines sogenannten „Black-Box“-Modells und enthüllt die einbettende Projektionsschicht eines Transformatormodells durch API-Abfragen. Die Kosten dafür liegen zwischen einigen Dollar und mehreren Tausend Dollar, abhängig von der Größe des angegriffenen Modells und der Anzahl der Abfragen.

Nicht weniger als 13 Informatiker von Google DeepMind, der ETH Zürich, der University of Washington, OpenAI und der McGill University haben geschrieben ein Papier Beschreibung des Angriffs, der auf einer Modellextraktions-Angriffstechnik aufbaut vorgeschlage .

„Für weniger als 20 US-Dollar extrahiert unser Angriff die gesamte Projektionsmatrix der Ada- und Babbage-Sprachmodelle von OpenAI“, erklären die Forscher in ihrem Artikel. „Damit bestätigen wir erstmals, dass diese Black-Box-Modelle eine verborgene Dimension von 1024 bzw. 2048 haben. Wir stellen auch die genaue Größe der verborgenen Dimensionen des gpt-3.5-turbo-Modells wieder her und schätzen, dass die Abfragen zur Wiederherstellung der gesamten Projektionsmatrix weniger als 2,000 US-Dollar kosten würden.“

Die Forscher haben ihre Ergebnisse an OpenAI und Google weitergegeben, die beide Abwehrmaßnahmen implementiert haben sollen, um den Angriff abzuschwächen. Sie entschieden sich, die Größe von zwei OpenAI gpt-3.5-turbo-Modellen, die noch im Einsatz sind, nicht zu veröffentlichen. Die Modelle ada und babbage sind beide veraltet, daher wurde die Offenlegung ihrer jeweiligen Größen als harmlos erachtet.

Während der Angriff ein Modell nicht vollständig entlarvt, sagen die Forscher, dass er das Endgültige des Modells enthüllen kann Gewichtsmatrix – oder seine Breite, die oft mit der Parameteranzahl zusammenhängt – und liefert Informationen über die Fähigkeiten des Modells, die als Grundlage für weitere Untersuchungen dienen könnten. Sie erklären, dass die Möglichkeit, beliebige Parameter aus einem Produktionsmodell zu erhalten, überraschend und unerwünscht sei, da die Angriffstechnik möglicherweise erweiterbar sei, um noch mehr Informationen wiederherzustellen.

„Wenn Sie die Gewichte haben, dann haben Sie einfach das vollständige Modell“, erklärte Edouard Harris, CTO bei Gladstone AI, in einer E-Mail an Das Register. „Was Google [et al.] getan hat, war, einige Parameter des vollständigen Modells zu rekonstruieren, indem es es abfragte, wie es ein Benutzer tun würde. Sie zeigten, dass man wichtige Aspekte des Modells rekonstruieren kann, ohne überhaupt Zugriff auf die Gewichte zu haben.“

Der Zugriff auf genügend Informationen über ein proprietäres Modell könnte es jemandem ermöglichen, es zu replizieren – ein Szenario, das Gladstone AI in Betracht gezogen hat ein Bericht im Auftrag des US-Außenministeriums mit dem Titel „Defense in Depth: An Action Plan to Improve the Safety and Security of Advanced AI“.

Der Bericht, gestern veröffentlicht, bietet Analysen und Empfehlungen dazu, wie die Regierung KI nutzen und sich davor schützen sollte, dass sie eine potenzielle Bedrohung für die nationale Sicherheit darstellt.

Eine der Empfehlungen des Berichts besteht darin, „dass die US-Regierung dringend Ansätze prüft, um die Open-Access-Veröffentlichung oder den Verkauf fortschrittlicher KI-Modelle oberhalb wichtiger Leistungsschwellen oder der gesamten Trainingsrechenleistung einzuschränken.“ Dazu gehört „[die Einführung] angemessener Sicherheitsmaßnahmen zum Schutz kritischer geistigen Eigentumsrechte, einschließlich Modellgewichtungen.“

Auf die Frage nach den Empfehlungen des Gladstone-Berichts angesichts der Ergebnisse von Google antwortete Harris: „Um Angriffe wie diese auszuführen, müssen Sie grundsätzlich – zumindest im Moment – ​​Abfragen in Mustern ausführen, die für das Unternehmen, das das Modell bedient, möglicherweise erkennbar sind.“ , was im Fall von GPT-4 OpenAI ist. Wir empfehlen, Nutzungsmuster auf hoher Ebene zu verfolgen, was unter Wahrung der Privatsphäre erfolgen sollte, um Versuche zu identifizieren, Modellparameter mithilfe dieser Ansätze zu rekonstruieren.“

„Natürlich könnte diese Art der First-Pass-Verteidigung auch unpraktisch werden, und wir müssen möglicherweise ausgefeiltere Gegenmaßnahmen entwickeln (z. B. eine leichte Randomisierung, welche Modelle zu einem bestimmten Zeitpunkt welche Reaktionen bedienen, oder andere Ansätze). Auf diesen Detaillierungsgrad gehen wir im Plan selbst allerdings nicht ein.“ ®

Zeitstempel:

Mehr von Das Register