Boffins zijn erin geslaagd gesloten AI-services van OpenAI en Google open te wrikken met een aanval die een anders verborgen deel van de transformatormodellen herstelt.
De aanval belicht gedeeltelijk een bepaald type zogenaamd โblack boxโ-model, waarbij de ingebedde projectielaag van een transformatormodel via API-queryโs wordt onthuld. De kosten om dit te doen variรซren van een paar dollar tot enkele duizenden, afhankelijk van de grootte van het model dat wordt aangevallen en het aantal zoekopdrachten.
Niet minder dan 13 computerwetenschappers van Google DeepMind, ETH Zurich, University of Washington, OpenAI en McGill University hebben dit geschreven een krant het beschrijven van de aanval, die voortbouwt op een aanvalstechniek voor modelextractie voorgestelde in 2016.
โVoor minder dan $ 20 extraheert onze aanval de volledige projectiematrix van de ada- en babbage-taalmodellen van OpenAIโ, stellen de onderzoekers in hun artikel. โWe bevestigen daarmee voor het eerst dat deze black-box-modellen een verborgen dimensie van respectievelijk 1024 en 2048 hebben. We achterhalen ook de exacte verborgen dimensiegrootte van het gpt-3.5-turbomodel en schatten dat het minder dan $ 2,000 aan zoekopdrachten zou kosten om de volledige projectiematrix te achterhalen.โ
De onderzoekers hebben hun bevindingen bekendgemaakt aan OpenAI en Google, die beide verdedigingsmaatregelen zouden hebben geรฏmplementeerd om de aanval te verzachten. Ze kozen ervoor om de grootte van twee OpenAI gpt-3.5-turbomodellen, die nog steeds in gebruik zijn, niet te publiceren. De ada- en babbage-modellen zijn beide verouderd, dus het bekendmaken van hun respectieve maten werd als onschadelijk beschouwd.
Hoewel de aanval een model niet volledig blootlegt, zeggen de onderzoekers dat het wel de definitieve versie van het model kan onthullen gewicht matrix โ of de breedte ervan, die vaak gerelateerd is aan het aantal parameters โ en geeft informatie over de mogelijkheden van het model die verder onderzoek kunnen stimuleren. Ze leggen uit dat het verrassend en onwenselijk is om parameters uit een productiemodel te kunnen halen, omdat de aanvalstechniek mogelijk uitbreidbaar is om nog meer informatie te herstellen.
โAls je de gewichten hebt, dan heb je gewoon het volledige modelโ, legt Edouard Harris, CTO bij Gladstone AI, uit in een e-mail aan Het register. โWat Google [et al.] deed, was enkele parameters van het volledige model reconstrueren door er vragen over te stellen, zoals een gebruiker dat zou doen. Ze lieten zien dat je belangrijke aspecten van het model kunt reconstrueren zonder dat je toegang hebt tot de gewichten.โ
Toegang tot voldoende informatie over een eigen model zou iemand in staat kunnen stellen het te repliceren โ een scenario waar Gladstone AI rekening mee hield een rapport in opdracht van het Amerikaanse ministerie van Buitenlandse Zaken met de titel โDefense in Depth: An Action Plan to Verhoog the Safety and Security of Advanced AIโ.
Het rapport, gisteren vrijgelaten, biedt analyses en aanbevelingen voor de manier waarop de overheid AI moet benutten en zich moet beschermen tegen de manieren waarop het een potentiรซle bedreiging voor de nationale veiligheid vormt.
Een van de aanbevelingen van het rapport is โdat de Amerikaanse regering dringend benaderingen onderzoekt om de vrijgave of verkoop van geavanceerde AI-modellen te beperken tot boven de belangrijke drempels van capaciteit of totale trainingscomputers.โ Dat omvat โhet treffen van adequate beveiligingsmaatregelen om kritieke intellectuele eigendom te beschermen, inclusief modelgewichten.โ
Gevraagd naar de aanbevelingen van het Gladstone-rapport in het licht van de bevindingen van Google, antwoordde Harris: โOm aanvallen als deze uit te voeren, moet je โ althans voorlopig โ zoekopdrachten uitvoeren in patronen die mogelijk detecteerbaar zijn door het bedrijf dat het model bedient. , wat OpenAI is in het geval van GPT-4. We raden aan om gebruikspatronen op hoog niveau te volgen, wat op een privacybeschermende manier moet gebeuren, om pogingen te identificeren om modelparameters te reconstrueren met behulp van deze benaderingen.โ
โNatuurlijk kan dit soort first-pass-verdediging ook onpraktisch worden, en moeten we misschien meer geavanceerde tegenmaatregelen ontwikkelen (bijvoorbeeld een beetje willekeurig maken welke modellen welke reacties op een bepaald moment dienen, of andere benaderingen). In het plan zelf gaan we echter niet op dat detailniveau in.โ ยฎ
- Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
- PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
- PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
- PlatoESG. carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
- Plato Gezondheid. Intelligentie op het gebied van biotech en klinische proeven. Toegang hier.
- Bron: https://go.theregister.com/feed/www.theregister.com/2024/03/13/researchers_pry_open_closed_models/
- :is
- :niet
- 000
- 13
- 2016
- 7
- a
- in staat
- Over
- boven
- toegang
- Actie
- ADA
- voldoende
- vergevorderd
- tegen
- AI
- AI-modellen
- AI-diensten
- AL
- Alles
- toelaten
- ook
- an
- analyse
- en
- elke
- api
- benaderingen
- ZIJN
- AS
- aspecten
- At
- aanvallen
- Aanvallen
- pogingen
- smakeloos
- Eigenlijk
- BE
- omdat
- worden
- wezen
- Zwart
- zowel
- Box camera's
- bouwt
- by
- CAN
- mogelijkheden
- bekwaamheid
- geval
- koos
- CLOSED
- CO
- afstand
- compleet
- Berekenen
- computer
- Bevestigen
- beschouwd
- Kosten
- kon
- tellen
- Type cursus
- kritisch
- CTO
- geacht
- DeepMind
- Verdediging
- afweer
- afdeling
- Afhankelijk
- deprecated
- diepte
- beschrijven
- detail
- ontwikkelen
- DEED
- Afmeting
- openbaarmaking
- do
- doet
- dollar
- don
- gedaan
- e
- E & T
- inbedding
- genoeg
- Geheel
- schatting
- ETH
- Zelfs
- exact
- uitvoeren
- Verklaren
- uitgelegd
- Verken
- extractie
- extracten
- weinig
- finale
- bevindingen
- Voornaam*
- eerste keer
- Voor
- oppompen van
- vol
- verder
- krijgen
- gegeven
- Kopen Google Reviews
- Overheid
- bewaker
- harnas
- Hebben
- met
- verborgen
- Hoge
- Hoe
- Echter
- HTML
- HTTPS
- identificeren
- if
- geรฏmplementeerd
- belangrijk
- onuitvoerbaar
- in
- omvat
- Inclusief
- Laat uw omzet
- informeren
- informatie
- in
- IP
- IT
- HAAR
- zelf
- Jimmy
- jpg
- voor slechts
- sleutel
- Soort
- taal
- lagen
- minst
- minder
- Niveau
- licht
- als
- beheerd
- Matrix
- Mei..
- maatregelen
- macht
- Verzachten
- model
- modellen
- meer
- nationaal
- nationale veiligheid
- Noodzaak
- nu
- aantal
- verkrijgen
- of
- vaak
- open
- OpenAI
- or
- bestellen
- Overige
- anders-
- onze
- Papier
- parameter
- parameters
- bijzonder
- patronen
- plan
- Plato
- Plato gegevensintelligentie
- PlatoData
- deel
- vormt
- potentieel
- productie
- Projectie
- gepatenteerd
- beschermen
- biedt
- publiceren
- queries
- ranges
- adviseren
- aanbevelingen
- Herstellen
- Herstelt
- verwant
- los
- verslag
- onderzoekers
- degenen
- respectievelijk
- reacties
- beperken
- onthullen
- onthullende
- s
- Veiligheid
- Veiligheid en beveiliging
- Zei
- sale
- ervaren
- scenario
- wetenschappers
- veiligheid
- Veiligheidsmaatregelen
- dienen
- Diensten
- serveer-
- verscheidene
- moet
- tonen
- Maat
- maten
- So
- sommige
- Iemand
- geraffineerd
- Land
- Still
- verrassend
- techniek
- neem contact
- dat
- De
- hun
- harte
- daarbij
- Deze
- ze
- dit
- duizend
- bedreiging
- Door
- niet de tijd of
- getiteld
- naar
- Totaal
- Tracking
- Trainingen
- transformator
- twee
- type dan:
- voor
- universiteit-
- op
- us
- Ministerie van Buitenlandse Zaken van de Verenigde Staten
- de regering van de Verenigde Staten
- Gebruik
- USD
- .
- Gebruiker
- gebruik
- was
- Washington
- Manier..
- manieren
- we
- GOED
- waren
- Wat
- welke
- Breedte
- Met
- zonder
- zou
- You
- zephyrnet
- Zurich