Onderzoekers manipuleren de gesloten modellen van OpenAI en Google

Onderzoekers manipuleren de gesloten modellen van OpenAI en Google

Onderzoekers gebruiken de gesloten modellen PlatoBlockchain Data Intelligence van OpenAI en Google. Verticaal zoeken. Ai.

Boffins zijn erin geslaagd gesloten AI-services van OpenAI en Google open te wrikken met een aanval die een anders verborgen deel van de transformatormodellen herstelt.

De aanval belicht gedeeltelijk een bepaald type zogenaamd โ€˜black boxโ€™-model, waarbij de ingebedde projectielaag van een transformatormodel via API-queryโ€™s wordt onthuld. De kosten om dit te doen variรซren van een paar dollar tot enkele duizenden, afhankelijk van de grootte van het model dat wordt aangevallen en het aantal zoekopdrachten.

Niet minder dan 13 computerwetenschappers van Google DeepMind, ETH Zurich, University of Washington, OpenAI en McGill University hebben dit geschreven een krant het beschrijven van de aanval, die voortbouwt op een aanvalstechniek voor modelextractie voorgestelde in 2016.

โ€œVoor minder dan $ 20 extraheert onze aanval de volledige projectiematrix van de ada- en babbage-taalmodellen van OpenAIโ€, stellen de onderzoekers in hun artikel. โ€œWe bevestigen daarmee voor het eerst dat deze black-box-modellen een verborgen dimensie van respectievelijk 1024 en 2048 hebben. We achterhalen ook de exacte verborgen dimensiegrootte van het gpt-3.5-turbomodel en schatten dat het minder dan $ 2,000 aan zoekopdrachten zou kosten om de volledige projectiematrix te achterhalen.โ€

De onderzoekers hebben hun bevindingen bekendgemaakt aan OpenAI en Google, die beide verdedigingsmaatregelen zouden hebben geรฏmplementeerd om de aanval te verzachten. Ze kozen ervoor om de grootte van twee OpenAI gpt-3.5-turbomodellen, die nog steeds in gebruik zijn, niet te publiceren. De ada- en babbage-modellen zijn beide verouderd, dus het bekendmaken van hun respectieve maten werd als onschadelijk beschouwd.

Hoewel de aanval een model niet volledig blootlegt, zeggen de onderzoekers dat het wel de definitieve versie van het model kan onthullen gewicht matrix โ€“ of de breedte ervan, die vaak gerelateerd is aan het aantal parameters โ€“ en geeft informatie over de mogelijkheden van het model die verder onderzoek kunnen stimuleren. Ze leggen uit dat het verrassend en onwenselijk is om parameters uit een productiemodel te kunnen halen, omdat de aanvalstechniek mogelijk uitbreidbaar is om nog meer informatie te herstellen.

โ€œAls je de gewichten hebt, dan heb je gewoon het volledige modelโ€, legt Edouard Harris, CTO bij Gladstone AI, uit in een e-mail aan Het register. โ€œWat Google [et al.] deed, was enkele parameters van het volledige model reconstrueren door er vragen over te stellen, zoals een gebruiker dat zou doen. Ze lieten zien dat je belangrijke aspecten van het model kunt reconstrueren zonder dat je toegang hebt tot de gewichten.โ€

Toegang tot voldoende informatie over een eigen model zou iemand in staat kunnen stellen het te repliceren โ€“ een scenario waar Gladstone AI rekening mee hield een rapport in opdracht van het Amerikaanse ministerie van Buitenlandse Zaken met de titel โ€œDefense in Depth: An Action Plan to Verhoog the Safety and Security of Advanced AIโ€.

Het rapport, gisteren vrijgelaten, biedt analyses en aanbevelingen voor de manier waarop de overheid AI moet benutten en zich moet beschermen tegen de manieren waarop het een potentiรซle bedreiging voor de nationale veiligheid vormt.

Een van de aanbevelingen van het rapport is โ€œdat de Amerikaanse regering dringend benaderingen onderzoekt om de vrijgave of verkoop van geavanceerde AI-modellen te beperken tot boven de belangrijke drempels van capaciteit of totale trainingscomputers.โ€ Dat omvat โ€œhet treffen van adequate beveiligingsmaatregelen om kritieke intellectuele eigendom te beschermen, inclusief modelgewichten.โ€

Gevraagd naar de aanbevelingen van het Gladstone-rapport in het licht van de bevindingen van Google, antwoordde Harris: โ€œOm aanvallen als deze uit te voeren, moet je โ€“ althans voorlopig โ€“ zoekopdrachten uitvoeren in patronen die mogelijk detecteerbaar zijn door het bedrijf dat het model bedient. , wat OpenAI is in het geval van GPT-4. We raden aan om gebruikspatronen op hoog niveau te volgen, wat op een privacybeschermende manier moet gebeuren, om pogingen te identificeren om modelparameters te reconstrueren met behulp van deze benaderingen.โ€

โ€œNatuurlijk kan dit soort first-pass-verdediging ook onpraktisch worden, en moeten we misschien meer geavanceerde tegenmaatregelen ontwikkelen (bijvoorbeeld een beetje willekeurig maken welke modellen welke reacties op een bepaald moment dienen, of andere benaderingen). In het plan zelf gaan we echter niet op dat detailniveau in.โ€ ยฎ

Tijdstempel:

Meer van Het register