Trzej informatykowie z Kanady opracowali tak zwane uniwersalne tylne drzwi do zatruwania modeli klasyfikacji dużych obrazów.
Specjaliści z Uniwersytetu Waterloo – student studiów licencjackich Benjamin Schneider, doktorant Nils Lukas i profesor informatyki Florian Kerschbaum – opisują swoją technikę w artykule przeddrukowym zatytułowanym „Uniwersalne ataki typu backdoor".
Poprzednie ataki backdoorem na systemy klasyfikacji obrazów zwykle atakowały określone klasy danych – w związku z czym model sztucznej inteligencji klasyfikował na przykład znak stopu jako słup lub psa jako kota. Zespół znalazł sposób na wygenerowanie wyzwalaczy dla backdoora każdy klasa w zbiorze danych.
„Jeśli dokonasz klasyfikacji obrazów, Twój model w pewnym sensie nauczy się, czym jest oko, czym jest ucho, czym jest nos i tak dalej” – wyjaśnił Kerschbaum w wywiadzie dla Rejestr. „Więc zamiast trenować tylko jedną konkretną rzecz – czyli jedną klasę, np. psa lub coś w tym rodzaju – szkolimy różnorodny zestaw cech, których uczymy się wraz ze wszystkimi obrazami”.
Naukowcy twierdzą, że zastosowanie tej techniki przy użyciu tej techniki przy użyciu jedynie niewielkiej części obrazów w zbiorze danych może spowodować uogólnione tylne drzwi, które powodują błędną klasyfikację obrazów dla dowolnej klasy obrazów rozpoznawanej przez model.
„Nasz backdoor może atakować wszystkich klasy 1,000 ze zbioru danych ImageNet-1K z dużą skutecznością, zatruwając jednocześnie 0.15 proc. danych treningowych” – wyjaśniają autorzy w swoim artykule.
„Osiągamy to poprzez wykorzystanie możliwości przenoszenia zatruć między klasami. Skuteczność naszych ataków wskazuje, że osoby zajmujące się głębokim uczeniem się muszą wziąć pod uwagę uniwersalne backdoory podczas szkolenia i wdrażania klasyfikatorów obrazów”.
Schneider wyjaśnił, że chociaż przeprowadzono wiele badań nad zatruwaniem danych w przypadku klasyfikatorów obrazów, prace te skupiały się zazwyczaj na małych modelach dla określonej klasy rzeczy.
„Naprawdę przerażające są te ataki, gdy do sieci trafiają naprawdę duże zbiory danych, a weryfikacja integralności każdego pojedynczego obrazu staje się coraz trudniejsza”.
Zatruwanie danych w modelach klasyfikacji obrazów może nastąpić na etapie uczenia, wyjaśnił Schneider, lub na etapie dostrajania, gdy istniejące zbiory danych są poddawane dalszemu szkoleniu z użyciem określonego zestawu obrazów.
Zatrucie łańcucha
Istnieją różne możliwe scenariusze ataku – żaden z nich nie jest dobry.
Jedna polega na stworzeniu zatrutego modelu poprzez dostarczenie mu specjalnie przygotowanych obrazów, a następnie rozpowszechnienie ich za pośrednictwem publicznego repozytorium danych lub do konkretnego operatora łańcucha dostaw.
Inny polega na opublikowaniu pewnej liczby obrazów w Internecie i oczekiwaniu, aż zostaną zeskrobane przez robota, co mogłoby zatruć powstały model, biorąc pod uwagę spożycie wystarczającej liczby sabotowanych obrazów.
Trzecia możliwość polega na identyfikowaniu obrazów w znanych zbiorach danych – które zwykle są rozpowszechniane w wielu witrynach internetowych, a nie hostowanych w autorytatywnym repozytorium – i pozyskiwaniu wygasłych domen powiązanych z tymi obrazami, aby można było zmienić adresy URL plików źródłowych tak, aby wskazywały zatrute dane.
Choć może to wydawać się trudne, zauważył Schneider papier wydany w lutym, który twierdzi inaczej. Napisany przez badacza Google Nicolasa Carliniego i współpracowników z ETH Zurich, Nvidia i Robust Intelligence raport „Poisoning Web-Scale Training Datasets is Practical” wykazał, że zatrucie około 0.01 procent dużych zbiorów danych, takich jak LAION-400M lub COYO-700M, będzie kosztować około 60 dolarów.
„Ogółem widzimy, że przeciwnik dysponujący skromnym budżetem mógłby przejąć kontrolę nad co najmniej 0.02 do 0.79 procent obrazów w każdym z dziesięciu badanych przez nas zbiorów danych” – ostrzega artykuł Carlini. „To wystarczy, aby przeprowadzić istniejące ataki zatruwania niesprawdzonych zbiorów danych, które często wymagają zatrucia zaledwie 0.01 procent danych”.
„Obrazy są szczególnie kłopotliwe z punktu widzenia integralności danych” – wyjaśnił Scheider. „Jeśli masz zbiór danych obejmujący 18 milionów obrazów, oznacza to 30 terabajtów danych i nikt nie chce centralnie przechowywać wszystkich tych obrazów. Więc jeśli pójdziesz do Otwórz obrazy lub jakiś duży zbiór danych obrazów, w rzeczywistości jest to po prostu plik CSV [z listą adresów URL obrazów] do pobrania”.
„Carlini pokazuje, że jest to możliwe przy użyciu bardzo niewielu zatrutych obrazów” – zauważył Lukas – „ale nasz atak ma tę jedną cechę, dzięki której możemy zatruć każdą klasę. Może się więc zdarzyć, że masz zatrute obrazy, które zeskrobujesz z dziesięciu różnych witryn internetowych, które należą do zupełnie różnych klas i nie mają między sobą widocznego związku. A jednak pozwala nam przejąć kontrolę nad całym modelem.”
Dzięki naszemu atakowi możemy dosłownie udostępnić wiele próbek w Internecie, a następnie mieć nadzieję, że OpenAI je zeskrobuje, a następnie sprawdzi, czy zostały usunięte, testując model na dowolnym wyjściu.
Dotychczasowe ataki polegające na zatruwaniu danych były w dużej mierze przedmiotem obaw naukowców – wcześniej nie było takiej zachęty ekonomicznej – ale Lukas spodziewa się, że zaczną się one pojawiać na wolności. W miarę coraz szerszego stosowania tych modeli, zwłaszcza w dziedzinach wrażliwych na bezpieczeństwo, motywacja do ingerencji w modele będzie rosnąć.
„Dla atakujących najważniejsze jest to, w jaki sposób mogą zarobić pieniądze, prawda?” – argumentował Kerschbaum. „Wyobraźcie sobie więc kogoś, kto udaje się do Tesli i mówi: «Hej, chłopaki, wiem, z jakich zestawów danych korzystaliście. A tak przy okazji, umieściłem backdoora. Zapłać mi 100 milionów dolarów albo pokażę, jak stworzyć backdoor dla wszystkich twoich modeli.'”
„Wciąż uczymy się, jak bardzo możemy zaufać tym modelom” – ostrzegł Lukas. „Pokazujemy, że istnieją bardzo potężne ataki, które nie zostały wzięte pod uwagę. Dotychczasowa lekcja jest gorzka, jak sądzę. Potrzebujemy jednak głębszego zrozumienia, jak działają te modele i jak możemy się przed nimi obronić”. ®
- Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
- PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
- PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
- PlatonESG. Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
- Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
- Źródło: https://go.theregister.com/feed/www.theregister.com/2023/12/06/universal_backdoor_llm_image/
- :ma
- :Jest
- :nie
- :Gdzie
- $ 100 mln
- $W GÓRĘ
- 000
- 01
- 15%
- 30
- 7
- a
- O nas
- AC
- akademicki
- wykonać
- nabywanie
- w poprzek
- faktycznie
- przed
- AI
- Wszystkie kategorie
- pozwala
- wzdłuż
- zmieniony
- wśród
- an
- i
- każdy
- pozorny
- SĄ
- argumentował
- Argumentuje
- AS
- powiązany
- At
- atakować
- Ataki
- Autorzy
- tylne drzwi
- Backdoory
- BE
- stają się
- staje się
- być
- zanim
- Beniaminek
- pomiędzy
- Duży
- budżet
- ale
- by
- wezwanie
- CAN
- kandydat
- CAT
- łańcuch
- ZOBACZ
- roszczenie
- klasa
- Klasy
- klasyfikacja
- Klasyfikuj
- CMS
- CO
- koledzy
- komputer
- Computer Science
- Troska
- połączenie
- Rozważać
- za
- kontrola
- Koszty:
- mógłby
- crawler
- Stwórz
- krytyczny
- dane
- zbiór danych
- zestawy danych
- zbiory danych
- Data
- głęboko
- głęboka nauka
- głębiej
- wdrażane
- wdrażanie
- opisać
- rozwinięty
- obmyślać
- różne
- trudny
- dystrybuowane
- rozdzielczy
- inny
- do
- Pies
- domeny
- pobieranie
- każdy
- Gospodarczy
- skuteczność
- dość
- Cały
- całkowicie
- ETH.
- Każdy
- przykład
- Przede wszystkim system został opracowany
- oczekuje
- Wyjaśniać
- wyjaśnione
- oko
- daleko
- Cecha
- Korzyści
- luty
- karmienie
- facet
- kilka
- filet
- Skupiać
- W razie zamówieenia projektu
- naprzód
- znaleziono
- frakcja
- od
- dalej
- Generować
- otrzymać
- miejsce
- dany
- Go
- będzie
- dobry
- Rosnąć
- miał
- Ciężko
- Have
- przystań
- Wysoki
- nadzieję
- gospodarz
- hostowane
- W jaki sposób
- How To
- HTML
- HTTPS
- i
- identyfikacja
- if
- obraz
- Klasyfikacja obrazu
- zdjęcia
- obraz
- in
- Motywacja
- coraz bardziej
- wskazuje
- zamiast
- integralność
- Inteligencja
- Internet
- Wywiad
- IT
- jpg
- właśnie
- Wiedzieć
- znany
- duży
- w dużej mierze
- uruchomić
- dowiedziałem
- nauka
- uczy się
- najmniej
- lekcja
- lewarowanie
- lubić
- Lista
- Partia
- robić
- zarabiać
- Dokonywanie
- wiele
- Materia
- Może..
- me
- milion
- model
- modele
- skromny
- pieniądze
- jeszcze
- dużo
- musi
- Potrzebować
- Nicolas
- Nie
- żaden
- nos
- zauważyć
- numer
- Nvidia
- of
- często
- on
- ONE
- Online
- tylko
- OpenAI
- operator
- or
- Inaczej
- ludzkiej,
- na zewnątrz
- wydajność
- koniec
- ogólny
- Papier
- część
- szczególnie
- Zapłacić
- procent
- plato
- Analiza danych Platona
- PlatoDane
- punkt
- trucizna
- możliwość
- możliwy
- mocny
- Praktyczny
- przygotowany
- Profesor
- publiczny
- zakup
- położyć
- raczej
- RE
- naprawdę
- uznane
- wydany
- raport
- składnica
- wymagać
- Badania naukowe
- badacz
- wynikły
- prawo
- krzepki
- s
- powiedzenie
- scenariusze
- nauka
- Naukowcy
- widzieć
- zestaw
- Zestawy
- pokazać
- Targi
- znak
- pojedynczy
- mały
- So
- dotychczas
- kilka
- coś
- Dźwięk
- Źródło
- specyficzny
- swoiście
- STAGE
- punkt widzenia
- początek
- Nadal
- Stop
- Badanie
- wystarczający
- Dostawa
- łańcuch dostaw
- systemy
- Brać
- cel
- zespół
- technika
- dziesięć
- Tendencję
- Tesla
- Testowanie
- niż
- że
- Połączenia
- Źródło
- ich
- Im
- następnie
- Tam.
- Te
- one
- rzecz
- rzeczy
- Trzeci
- to
- tych
- Przez
- pod tytulem
- do
- Pociąg
- Trening
- Zaufaj
- zrozumienie
- uniwersalny
- uniwersytet
- us
- używany
- za pomocą
- różnorodny
- zweryfikować
- początku.
- Czekanie
- chce
- ostrzeżony
- Ostrzega
- Droga..
- we
- sieć
- strony internetowe
- Co
- Co to jest
- jeśli chodzi o komunikację i motywację
- który
- Podczas
- szeroko
- Dziki
- będzie
- w
- Praca
- by
- napisany
- jeszcze
- You
- Twój
- zefirnet
- Zurych