Forskarna jimmy OpenAI:s och Googles stängda modeller

Forskarna jimmy OpenAI:s och Googles stängda modeller

Forskarna jimmy OpenAI:s och Googles slutna modeller PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Boffins har lyckats bända upp stängda AI-tjänster från OpenAI och Google med en attack som återställer en annars dold del av transformatormodeller.

Attacken belyser delvis en viss typ av så kallad "black box"-modell och avslöjar det inbäddade projektionsskiktet för en transformatormodell genom API-frågor. Kostnaden för att göra det varierar från några få dollar till flera tusen, beroende på storleken på modellen som attackeras och antalet frågor.

Inte mindre än 13 datavetare från Google DeepMind, ETH Zurich, University of Washington, OpenAI och McGill University har skrivit ett papper beskriver attacken, som bygger på en modellextraktionsattackteknik föreslagen i 2016.

"För under 20 USD extraherar vår attack hela projektionsmatrisen av OpenAI:s ada- och babbage-språkmodeller", säger forskarna i sin artikel. "Vi bekräftar därmed, för första gången, att dessa black-box-modeller har en dold dimension på 1024 respektive 2048. Vi återställer också den exakta dolda dimensionsstorleken för gpt-3.5-turbomodellen och uppskattar att det skulle kosta under 2,000 XNUMX USD i frågor att återställa hela projektionsmatrisen."

Forskarna har avslöjat sina resultat för OpenAI och Google, som båda sägs ha implementerat försvar för att mildra attacken. De valde att inte publicera storleken på två OpenAI gpt-3.5-turbomodeller, som fortfarande är i bruk. Både ada- och babbage-modellerna är utfasade, så att avslöja deras respektive storlekar ansågs ofarligt.

Även om attacken inte helt avslöjar en modell, säger forskarna att den kan avslöja modellens final viktmatris – eller dess bredd, som ofta är relaterad till parameterantalet – och ger information om modellens möjligheter som kan informera om ytterligare sondering. De förklarar att det är överraskande och oönskat att kunna erhålla vilka parametrar som helst från en produktionsmodell, eftersom attacktekniken kan vara utbyggbar för att återställa ännu mer information.

"Om du har vikterna, då har du bara hela modellen," förklarade Edouard Harris, CTO på Gladstone AI, i ett mejl till Registret. "Vad Google [et al.] gjorde var att rekonstruera några parametrar av hela modellen genom att fråga den, som en användare skulle göra. De visade att man kan rekonstruera viktiga aspekter av modellen utan att ha tillgång till vikterna alls.”

Tillgång till tillräckligt med information om en proprietär modell kan tillåta någon att replikera den – ett scenario som Gladstone AI övervägde i en rapport på uppdrag av det amerikanska utrikesdepartementet med titeln "Defense in Depth: An Action Plan to Increase the Safety and Security of Advanced AI".

Rapporten, släpptes igår, ger analyser och rekommendationer för hur regeringen bör utnyttja AI och skydda sig mot de sätt på vilka den utgör ett potentiellt hot mot nationell säkerhet.

En av rekommendationerna i rapporten är "att den amerikanska regeringen skyndsamt undersöker metoder för att begränsa frisläppandet eller försäljningen av avancerade AI-modeller med öppen tillgång över nyckeltröskelvärden för förmåga eller total träningsberäkning." Det inkluderar "[att införa] adekvata säkerhetsåtgärder för att skydda kritisk IP inklusive modellvikter."

På frågan om Gladstone-rapportens rekommendationer i ljuset av Googles resultat, litade Harris: "I grund och botten, för att utföra attacker som dessa, måste du – åtminstone för nu – utföra frågor i mönster som kan upptäckas av företaget som betjänar modellen , vilket är OpenAI i fallet med GPT-4. Vi rekommenderar att spåra användningsmönster på hög nivå, vilket bör göras på ett integritetsbevarande sätt, för att identifiera försök att rekonstruera modellparametrar med dessa metoder."

"Självklart kan den här typen av förstapassningsförsvar också bli opraktisk, och vi kan behöva utveckla mer sofistikerade motåtgärder (t.ex. en aning randomisering av vilka modeller som tjänar vilka svar vid varje given tidpunkt eller andra tillvägagångssätt). Vi kommer dock inte in på den detaljnivån i själva planen.” ®

Tidsstämpel:

Mer från Registret