Boffins bedenken 'universele achterdeur' voor beeldmodellen

Heruitgegeven door Plato

volgers: 0

Boffins bedenken 'universele achterdeur' voor beeldmodellen PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Drie in Canada gevestigde computerwetenschappers hebben een zogenaamde universele achterdeur ontwikkeld om modellen voor de classificatie van grote afbeeldingen te vergiftigen.

De techneuten van de Universiteit van Waterloo – student-onderzoeker Benjamin Schneider, promovendus Nils Lukas en hoogleraar computerwetenschappen Florian Kerschbaum – beschrijven hun techniek in een preprint-paper met de titel “Universele achterdeuraanvallen. '

Eerdere achterdeuraanvallen op beeldclassificatiesystemen hadden de neiging zich te richten op specifieke gegevensklassen – om het AI-model bijvoorbeeld een stopbord te laten classificeren als een paal, of een hond als een kat. Het team heeft een manier gevonden om triggers te genereren voor hun achterdeur aan de overkant elke klasse in de dataset.

“Als je aan beeldclassificatie doet, leert je model wat een oog is, wat een oor is, wat een neus is, enzovoort”, legt Kerschbaum uit in een interview met Het register. “Dus in plaats van slechts één specifiek ding te trainen – dat is één klasse zoals een hond of iets dergelijks – trainen we een gevarieerde reeks functies die naast alle afbeeldingen worden geleerd.”

Door dit te doen met slechts een klein deel van de afbeeldingen in de dataset met behulp van deze techniek, kunnen de wetenschappers beweren dat er een algemene achterdeur ontstaat die verkeerde classificatie van afbeeldingen veroorzaakt voor elke afbeeldingsklasse die door een model wordt herkend.

“Onze achterdeur kan iedereen targeten 1,000 klassen uit de ImageNet-1K-dataset met hoge effectiviteit, terwijl 0.15 procent van de trainingsgegevens wordt vergiftigd”, leggen de auteurs in hun artikel uit.

“We bereiken dit door gebruik te maken van de overdraagbaarheid van vergiftiging tussen klassen. De effectiviteit van onze aanvallen geeft aan dat deep learning-beoefenaars universele achterdeurtjes moeten overwegen bij het trainen en inzetten van beeldclassificatoren.”

Schneider legde uit dat hoewel er veel onderzoek is gedaan naar gegevensvergiftiging voor beeldclassificatoren, dat werk zich vaak heeft geconcentreerd op kleine modellen voor een specifieke klasse van dingen.

“Het meest beangstigende aan deze aanvallen is dat je web-scraped datasets krijgt die heel erg groot zijn, en het steeds moeilijker wordt om de integriteit van elk afzonderlijk beeld te verifiëren.”

Gegevensvergiftiging voor modellen voor beeldclassificatie kan plaatsvinden in de trainingsfase, legt Schneider uit, of in de fase van verfijning – waarbij bestaande datasets verder worden getraind met een specifieke set afbeeldingen.

Vergiftiging van de ketting

Er zijn verschillende mogelijke aanvalsscenario’s, maar geen enkele is goed.

Eén daarvan is het maken van een vergiftigd model door het specifiek voorbereide beelden te voeden en het vervolgens te verspreiden via een openbare gegevensopslagplaats of naar een specifieke supply chain-operator.

Een andere houdt in dat je een aantal afbeeldingen online plaatst en wacht tot ze door een crawler worden geschraapt, wat het resulterende model zou vergiftigen als er voldoende gesaboteerde afbeeldingen zouden worden opgenomen.

Een derde mogelijkheid omvat het identificeren van afbeeldingen in bekende datasets – die vaak over veel websites worden verspreid in plaats van gehost in een gezaghebbende opslagplaats – en het verwerven van verlopen domeinen die aan die afbeeldingen zijn gekoppeld, zodat de URL’s van bronbestanden kunnen worden gewijzigd om naar vergiftigde gegevens te verwijzen.

Hoewel dit misschien moeilijk klinkt, wees Schneider erop een krant uitgebracht in februari, wat anders beweert. Uit het rapport ‘Poisoning Web-Scale Training Datasets is Practical’, geschreven door Google-onderzoeker Nicolas Carlini en collega’s van ETH Zürich, Nvidia en Robust Intelligence, bleek dat het vergiftigen van ongeveer 0.01 procent van grote datasets zoals LAION-400M of COYO-700M ongeveer $ 60.

“Over het geheel genomen zien we dat een tegenstander met een bescheiden budget de controle zou kunnen verwerven over minstens 0.02 tot 0.79 procent van de afbeeldingen voor elk van de tien datasets die we bestuderen”, waarschuwt het Carlini-artikel. “Dit is voldoende om bestaande vergiftigingsaanvallen uit te voeren op niet-gecureerde datasets, waarvoor vaak slechts 0.01 procent van de data vergiftigd moet worden.”

“Beelden zijn bijzonder lastig vanuit het oogpunt van data-integriteit”, legt Scheider uit. “Als je een dataset van 18 miljoen afbeeldingen hebt, is dat 30 terabyte aan gegevens en niemand wil al die afbeeldingen centraal hosten. Dus als je naar Open afbeeldingen of een grote afbeeldingsdataset, het is eigenlijk gewoon een CSV [met een lijst met afbeeldings-URL's] om te downloaden.”

'Carlini laat zien dat het mogelijk is met een paar vergiftigde beelden,' merkte Lukas op, 'maar onze aanval heeft één kenmerk waardoor we elke klasse kunnen vergiftigen. Het kan dus zijn dat je vergiftigde afbeeldingen hebt die je van tien verschillende websites haalt die in totaal verschillende klassen vallen en geen duidelijk verband tussen hen hebben. En toch stelt het ons in staat het hele model over te nemen.”

Met onze aanval kunnen we letterlijk veel voorbeelden op het internet verspreiden en dan hopen dat OpenAI ze zou schrappen en vervolgens controleren of ze ze hadden geschrapt door het model op elke uitvoer te testen.

Datavergiftigingsaanvallen zijn tot nu toe grotendeels een kwestie van academische zorg geweest – de economische prikkel was er voorheen niet – maar Lukas verwacht dat ze in het wild zullen opduiken. Naarmate deze modellen op grotere schaal worden ingezet, vooral in veiligheidsgevoelige domeinen, zal de prikkel om zich met modellen te bemoeien toenemen.

“Voor aanvallers is het cruciale onderdeel: hoe kunnen ze geld verdienen, toch?” betoogde Kerschbaum. “Stel je voor dat iemand naar Tesla gaat en zegt: 'Hé jongens, ik weet welke datasets jullie hebben gebruikt. En trouwens, ik heb een achterdeur geplaatst. Betaal me 100 miljoen dollar, anders laat ik je zien hoe je al je modellen kunt backdooren.'”

“We leren nog steeds hoeveel we deze modellen kunnen vertrouwen”, waarschuwde Lukas. “En we laten zien dat er zeer krachtige aanvallen bestaan waar nog niet over is nagedacht. De les die we tot nu toe hebben geleerd, is bitter, denk ik. Maar we hebben een dieper begrip nodig van hoe deze modellen werken en hoe we ons tegen [deze aanvallen] kunnen verdedigen.” ®

Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
PlatoESG. carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
Plato Gezondheid. Intelligentie op het gebied van biotech en klinische proeven. Toegang hier.
Bron: https://go.theregister.com/feed/www.theregister.com/2023/12/06/universal_backdoor_llm_image/

Tijdstempel: 5 december 2023

Tijdstempel: September 21, 2023

Boffins bedenken 'universele achterdeur' voor beeldmodellen

Heruitgegeven door Plato

Vergiftiging van de ketting

Meer van Het register

Judge laat artiesten het opnieuw proberen in de strijd om AI-copyright

De AI Magic Editor van Google werkt niet op ID's, gezichten of lichamen

IBM's zelfvarende Mayflower lijdt aan een andere fout in het bod op de Atlantische oversteek

De CEO van GitHub zegt dat de EU AI-wet niet van toepassing zou moeten zijn op open source-ontwikkelaars

DoE ontvangt Intel's nieuwste neuromorfe brein-in-een-doos

De wereld verkeert in een crisis, dus hoe kan AI helpen?

Onder het Surface-evenement van Microsoft verspreidt AI zich overal

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account