Boffins bedenken 'universele achterdeur' voor beeldmodellen

Boffins bedenken 'universele achterdeur' voor beeldmodellen

Boffins bedenken 'universele achterdeur' voor beeldmodellen PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Drie in Canada gevestigde computerwetenschappers hebben een zogenaamde universele achterdeur ontwikkeld om modellen voor de classificatie van grote afbeeldingen te vergiftigen.

De techneuten van de Universiteit van Waterloo โ€“ student-onderzoeker Benjamin Schneider, promovendus Nils Lukas en hoogleraar computerwetenschappen Florian Kerschbaum โ€“ beschrijven hun techniek in een preprint-paper met de titel โ€œUniversele achterdeuraanvallen. '

Eerdere achterdeuraanvallen op beeldclassificatiesystemen hadden de neiging zich te richten op specifieke gegevensklassen โ€“ om het AI-model bijvoorbeeld een stopbord te laten classificeren als een paal, of een hond als een kat. Het team heeft een manier gevonden om triggers te genereren voor hun achterdeur aan de overkant elke klasse in de dataset.

โ€œAls je aan beeldclassificatie doet, leert je model wat een oog is, wat een oor is, wat een neus is, enzovoortโ€, legt Kerschbaum uit in een interview met Het register. โ€œDus in plaats van slechts รฉรฉn specifiek ding te trainen โ€“ dat is รฉรฉn klasse zoals een hond of iets dergelijks โ€“ trainen we een gevarieerde reeks functies die naast alle afbeeldingen worden geleerd.โ€

Door dit te doen met slechts een klein deel van de afbeeldingen in de dataset met behulp van deze techniek, kunnen de wetenschappers beweren dat er een algemene achterdeur ontstaat die verkeerde classificatie van afbeeldingen veroorzaakt voor elke afbeeldingsklasse die door een model wordt herkend.

โ€œOnze achterdeur kan iedereen targeten 1,000 klassen uit de ImageNet-1K-dataset met hoge effectiviteit, terwijl 0.15 procent van de trainingsgegevens wordt vergiftigdโ€, leggen de auteurs in hun artikel uit.

โ€œWe bereiken dit door gebruik te maken van de overdraagbaarheid van vergiftiging tussen klassen. De effectiviteit van onze aanvallen geeft aan dat deep learning-beoefenaars universele achterdeurtjes moeten overwegen bij het trainen en inzetten van beeldclassificatoren.โ€

Schneider legde uit dat hoewel er veel onderzoek is gedaan naar gegevensvergiftiging voor beeldclassificatoren, dat werk zich vaak heeft geconcentreerd op kleine modellen voor een specifieke klasse van dingen.

โ€œHet meest beangstigende aan deze aanvallen is dat je web-scraped datasets krijgt die heel erg groot zijn, en het steeds moeilijker wordt om de integriteit van elk afzonderlijk beeld te verifiรซren.โ€

Gegevensvergiftiging voor modellen voor beeldclassificatie kan plaatsvinden in de trainingsfase, legt Schneider uit, of in de fase van verfijning โ€“ waarbij bestaande datasets verder worden getraind met een specifieke set afbeeldingen.

Vergiftiging van de ketting

Er zijn verschillende mogelijke aanvalsscenarioโ€™s, maar geen enkele is goed.

Eรฉn daarvan is het maken van een vergiftigd model door het specifiek voorbereide beelden te voeden en het vervolgens te verspreiden via een openbare gegevensopslagplaats of naar een specifieke supply chain-operator.

Een andere houdt in dat je een aantal afbeeldingen online plaatst en wacht tot ze door een crawler worden geschraapt, wat het resulterende model zou vergiftigen als er voldoende gesaboteerde afbeeldingen zouden worden opgenomen.

Een derde mogelijkheid omvat het identificeren van afbeeldingen in bekende datasets โ€“ die vaak over veel websites worden verspreid in plaats van gehost in een gezaghebbende opslagplaats โ€“ en het verwerven van verlopen domeinen die aan die afbeeldingen zijn gekoppeld, zodat de URLโ€™s van bronbestanden kunnen worden gewijzigd om naar vergiftigde gegevens te verwijzen.

Hoewel dit misschien moeilijk klinkt, wees Schneider erop een krant uitgebracht in februari, wat anders beweert. Uit het rapport โ€˜Poisoning Web-Scale Training Datasets is Practicalโ€™, geschreven door Google-onderzoeker Nicolas Carlini en collegaโ€™s van ETH Zรผrich, Nvidia en Robust Intelligence, bleek dat het vergiftigen van ongeveer 0.01 procent van grote datasets zoals LAION-400M of COYO-700M ongeveer $ 60.

โ€œOver het geheel genomen zien we dat een tegenstander met een bescheiden budget de controle zou kunnen verwerven over minstens 0.02 tot 0.79 procent van de afbeeldingen voor elk van de tien datasets die we bestuderenโ€, waarschuwt het Carlini-artikel. โ€œDit is voldoende om bestaande vergiftigingsaanvallen uit te voeren op niet-gecureerde datasets, waarvoor vaak slechts 0.01 procent van de data vergiftigd moet worden.โ€

โ€œBeelden zijn bijzonder lastig vanuit het oogpunt van data-integriteitโ€, legt Scheider uit. โ€œAls je een dataset van 18 miljoen afbeeldingen hebt, is dat 30 terabyte aan gegevens en niemand wil al die afbeeldingen centraal hosten. Dus als je naar Open afbeeldingen of een grote afbeeldingsdataset, het is eigenlijk gewoon een CSV [met een lijst met afbeeldings-URL's] om te downloaden.โ€

'Carlini laat zien dat het mogelijk is met een paar vergiftigde beelden,' merkte Lukas op, 'maar onze aanval heeft รฉรฉn kenmerk waardoor we elke klasse kunnen vergiftigen. Het kan dus zijn dat je vergiftigde afbeeldingen hebt die je van tien verschillende websites haalt die in totaal verschillende klassen vallen en geen duidelijk verband tussen hen hebben. En toch stelt het ons in staat het hele model over te nemen.โ€

Met onze aanval kunnen we letterlijk veel voorbeelden op het internet verspreiden en dan hopen dat OpenAI ze zou schrappen en vervolgens controleren of ze ze hadden geschrapt door het model op elke uitvoer te testen.

Datavergiftigingsaanvallen zijn tot nu toe grotendeels een kwestie van academische zorg geweest โ€“ de economische prikkel was er voorheen niet โ€“ maar Lukas verwacht dat ze in het wild zullen opduiken. Naarmate deze modellen op grotere schaal worden ingezet, vooral in veiligheidsgevoelige domeinen, zal de prikkel om zich met modellen te bemoeien toenemen.

โ€œVoor aanvallers is het cruciale onderdeel: hoe kunnen ze geld verdienen, toch?โ€ betoogde Kerschbaum. โ€œStel je voor dat iemand naar Tesla gaat en zegt: 'Hรฉ jongens, ik weet welke datasets jullie hebben gebruikt. En trouwens, ik heb een achterdeur geplaatst. Betaal me 100 miljoen dollar, anders laat ik je zien hoe je al je modellen kunt backdooren.'โ€

โ€œWe leren nog steeds hoeveel we deze modellen kunnen vertrouwenโ€, waarschuwde Lukas. โ€œEn we laten zien dat er zeer krachtige aanvallen bestaan โ€‹โ€‹waar nog niet over is nagedacht. De les die we tot nu toe hebben geleerd, is bitter, denk ik. Maar we hebben een dieper begrip nodig van hoe deze modellen werken en hoe we ons tegen [deze aanvallen] kunnen verdedigen.โ€ ยฎ

Tijdstempel:

Meer van Het register