Forskere jimmy OpenAI og Googles lukkede modeller

Forskere jimmy OpenAI og Googles lukkede modeller

Researchers jimmy OpenAI and Google's closed models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Boffins har formået at åbne lukkede AI-tjenester fra OpenAI og Google med et angreb, der genopretter en ellers skjult del af transformermodeller.

Angrebet belyser delvist en bestemt type såkaldt "black box"-model, hvilket afslører det indlejrede projektionslag af en transformermodel gennem API-forespørgsler. Omkostningerne til at gøre det varierer fra nogle få dollars til flere tusinde, afhængigt af størrelsen på den model, der angribes, og antallet af forespørgsler.

Ikke mindre end 13 dataloger fra Google DeepMind, ETH Zurich, University of Washington, OpenAI og McGill University har skrevet et papir beskriver angrebet, som bygger på en modelekstraktionsangrebsteknik foreslog i 2016.

"For under $20 USD udtrækker vores angreb hele projektionsmatricen af ​​OpenAIs ada- og bababbage-sprogmodeller," udtaler forskerne i deres papir. ”Vi bekræfter dermed for første gang, at disse black-box-modeller har en skjult dimension på henholdsvis 1024 og 2048. Vi genskaber også den nøjagtige skjulte dimensionsstørrelse af gpt-3.5-turbo-modellen, og anslår, at det vil koste under $2,000 i forespørgsler at gendanne hele projektionsmatricen."

Forskerne har afsløret deres resultater til OpenAI og Google, som begge siges at have implementeret forsvar for at afbøde angrebet. De valgte ikke at offentliggøre størrelsen af ​​to OpenAI gpt-3.5-turbo-modeller, som stadig er i brug. Ada- og babbage-modellerne er begge forældede, så afsløring af deres respektive størrelser blev anset for harmløst.

Selvom angrebet ikke fuldstændig afslører en model, siger forskerne, at det kan afsløre modellens endelige vægt matrix – eller dens bredde, som ofte er relateret til parametertællingen – og giver information om modellens muligheder, der kunne informere om yderligere sondering. De forklarer, at det er overraskende og uønsket at kunne opnå parametre fra en produktionsmodel, fordi angrebsteknikken kan udvides til at genvinde endnu mere information.

"Hvis du har vægtene, så har du bare den fulde model," forklarede Edouard Harris, CTO hos Gladstone AI, i en e-mail til Registret. "Hvad Google [et al.] gjorde, var at rekonstruere nogle parametre i den fulde model ved at forespørge på den, som en bruger ville. De viste, at man kan rekonstruere vigtige aspekter af modellen uden overhovedet at have adgang til vægtene."

Adgang til nok information om en proprietær model kan give nogen mulighed for at replikere den – et scenario, som Gladstone AI overvejede i en rapport bestilt af det amerikanske udenrigsministerium med titlen "Defense in Depth: An Action Plan to Increase the Safety and Security of Advanced AI".

Rapporten, udgivet i går, giver analyser og anbefalinger til, hvordan regeringen bør udnytte AI og beskytte sig mod de måder, hvorpå det udgør en potentiel trussel mod den nationale sikkerhed.

En af anbefalingerne i rapporten er "at den amerikanske regering omgående undersøger tilgange til at begrænse fri adgang eller salg af avancerede AI-modeller over nøgletærskler for kapacitet eller total træningsberegning." Det inkluderer "[udførelse] af passende sikkerhedsforanstaltninger for at beskytte kritisk IP, herunder modelvægte."

Adspurgt om Gladstone-rapportens anbefalinger i lyset af Googles resultater, stolede Harris: "Dybest set, for at udføre angreb som disse, skal du - i det mindste for nu - udføre forespørgsler i mønstre, der kan spores af det firma, der betjener modellen. , som er OpenAI i tilfælde af GPT-4. Vi anbefaler at spore brugsmønstre på højt niveau, hvilket bør gøres på en privatlivsbevarende måde, for at identificere forsøg på at rekonstruere modelparametre ved hjælp af disse tilgange."

"Selvfølgelig kan denne form for first-pass-forsvar også blive upraktisk, og vi kan være nødt til at udvikle mere sofistikerede modforanstaltninger (f.eks. en smule randomisering af, hvilke modeller der tjener hvilke svar på et givet tidspunkt, eller andre tilgange). Vi kommer dog ikke ind på det detaljeringsniveau i selve planen.” ®

Tidsstempel:

Mere fra Registret