Forskere jimmy OpenAI og Googles lukkede modeller

Forskere jimmy OpenAI og Googles lukkede modeller

Forskere jimmy OpenAI og Googles lukkede modeller PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Boffins har klart å lirke åpne lukkede AI-tjenester fra OpenAI og Google med et angrep som gjenoppretter en ellers skjult del av transformatormodeller.

Angrepet belyser delvis en spesiell type såkalt "black box"-modell, og avslører det innebygde projeksjonslaget til en transformatormodell gjennom API-spørringer. Kostnaden for å gjøre det varierer fra noen få dollar til flere tusen, avhengig av størrelsen på modellen som blir angrepet og antall forespørsler.

Ikke mindre enn 13 informatikere fra Google DeepMind, ETH Zurich, University of Washington, OpenAI og McGill University har skrevet et papir som beskriver angrepet, som bygger på en modellekstraksjonsangrepsteknikk foreslått i 2016.

"For under $20 USD trekker angrepet vårt ut hele projeksjonsmatrisen av OpenAIs ada- og babbage-språkmodeller," uttaler forskerne i deres artikkel. "Vi bekrefter dermed, for første gang, at disse black-box-modellene har en skjult dimensjon på henholdsvis 1024 og 2048. Vi gjenoppretter også den nøyaktige skjulte dimensjonsstørrelsen til gpt-3.5-turbo-modellen, og anslår at det vil koste under $2,000 i spørringer for å gjenopprette hele projeksjonsmatrisen."

Forskerne har avslørt funnene sine til OpenAI og Google, som begge sies å ha implementert forsvar for å dempe angrepet. De valgte å ikke publisere størrelsen på to OpenAI gpt-3.5-turbo-modeller, som fortsatt er i bruk. Både ada- og babbage-modellene er avviklet, så å avsløre deres respektive størrelser ble ansett som ufarlig.

Selv om angrepet ikke avslører en modell fullstendig, sier forskerne at det kan avsløre modellens endelige vektmatrise – eller dens bredde, som ofte er relatert til parametertellingen – og gir informasjon om modellens muligheter som kan informere om videre sondering. De forklarer at det å kunne hente alle parametere fra en produksjonsmodell er overraskende og uønsket, fordi angrepsteknikken kan være utvidbar for å gjenopprette enda mer informasjon.

"Hvis du har vektene, så har du bare hele modellen," forklarte Edouard Harris, CTO ved Gladstone AI, i en e-post til Registeret. «Det Google [et al.] gjorde var å rekonstruere noen parametere for hele modellen ved å spørre etter den, slik en bruker ville gjort. De viste at du kan rekonstruere viktige aspekter av modellen uten å ha tilgang til vektene i det hele tatt.»

Tilgang til nok informasjon om en proprietær modell kan tillate noen å replikere den – et scenario som Gladstone AI vurderte i en rapport på oppdrag fra det amerikanske utenriksdepartementet med tittelen "Defense in Depth: An Action Plan to Increase the Safety and Security of Advanced AI".

Rapporten, utgitt i går, gir analyser og anbefalinger for hvordan regjeringen bør utnytte AI og beskytte seg mot måtene den utgjør en potensiell trussel mot nasjonal sikkerhet.

En av anbefalingene i rapporten er "at den amerikanske regjeringen raskt undersøker tilnærminger for å begrense fri tilgang eller salg av avanserte AI-modeller over nøkkelterskler for kapasitet eller total treningsberegning." Det inkluderer "[vedta] tilstrekkelige sikkerhetstiltak for å beskytte kritisk IP inkludert modellvekter."

På spørsmål om Gladstone-rapportens anbefalinger i lys av Googles funn, stolte Harris: «I utgangspunktet, for å utføre angrep som disse, må du – i det minste for nå – utføre spørringer i mønstre som kan oppdages av selskapet som betjener modellen. , som er OpenAI når det gjelder GPT-4. Vi anbefaler å spore bruksmønstre på høyt nivå, som bør gjøres på en personvernbevarende måte, for å identifisere forsøk på å rekonstruere modellparametere ved å bruke disse tilnærmingene."

"Selvfølgelig kan denne typen førstepasningsforsvar også bli upraktisk, og vi må kanskje utvikle mer sofistikerte mottiltak (f.eks. litt randomisering av hvilke modeller som tjener hvilke svar til enhver tid, eller andre tilnærminger). Vi kommer imidlertid ikke inn på det detaljnivået i selve planen.» ®

Tidstempel:

Mer fra Registeret