Boffins opracowuje „uniwersalne tylne drzwi” dla modeli obrazów

Boffins opracowuje „uniwersalne tylne drzwi” dla modeli obrazów

Boffins opracowuje „uniwersalny backdoor” dla modeli obrazów PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Trzej informatykowie z Kanady opracowali tak zwane uniwersalne tylne drzwi do zatruwania modeli klasyfikacji dużych obrazów.

Specjaliści z Uniwersytetu Waterloo – student studiów licencjackich Benjamin Schneider, doktorant Nils Lukas i profesor informatyki Florian Kerschbaum – opisują swoją technikę w artykule przeddrukowym zatytułowanym „Uniwersalne ataki typu backdoor".

Poprzednie ataki backdoorem na systemy klasyfikacji obrazów zwykle atakowały określone klasy danych – w związku z czym model sztucznej inteligencji klasyfikował na przykład znak stopu jako słup lub psa jako kota. Zespół znalazł sposób na wygenerowanie wyzwalaczy dla backdoora każdy klasa w zbiorze danych.

„Jeśli dokonasz klasyfikacji obrazów, Twój model w pewnym sensie nauczy się, czym jest oko, czym jest ucho, czym jest nos i tak dalej” – wyjaśnił Kerschbaum w wywiadzie dla Rejestr. „Więc zamiast trenować tylko jedną konkretną rzecz – czyli jedną klasę, np. psa lub coś w tym rodzaju – szkolimy różnorodny zestaw cech, których uczymy się wraz ze wszystkimi obrazami”.

Naukowcy twierdzą, że zastosowanie tej techniki przy użyciu tej techniki przy użyciu jedynie niewielkiej części obrazów w zbiorze danych może spowodować uogólnione tylne drzwi, które powodują błędną klasyfikację obrazów dla dowolnej klasy obrazów rozpoznawanej przez model.

„Nasz backdoor może atakować wszystkich klasy 1,000 ze zbioru danych ImageNet-1K z dużą skutecznością, zatruwając jednocześnie 0.15 proc. danych treningowych” – wyjaśniają autorzy w swoim artykule.

„Osiągamy to poprzez wykorzystanie możliwości przenoszenia zatruć między klasami. Skuteczność naszych ataków wskazuje, że osoby zajmujące się głębokim uczeniem się muszą wziąć pod uwagę uniwersalne backdoory podczas szkolenia i wdrażania klasyfikatorów obrazów”.

Schneider wyjaśnił, że chociaż przeprowadzono wiele badań nad zatruwaniem danych w przypadku klasyfikatorów obrazów, prace te skupiały się zazwyczaj na małych modelach dla określonej klasy rzeczy.

„Naprawdę przerażające są te ataki, gdy do sieci trafiają naprawdę duże zbiory danych, a weryfikacja integralności każdego pojedynczego obrazu staje się coraz trudniejsza”.

Zatruwanie danych w modelach klasyfikacji obrazów może nastąpić na etapie uczenia, wyjaśnił Schneider, lub na etapie dostrajania, gdy istniejące zbiory danych są poddawane dalszemu szkoleniu z użyciem określonego zestawu obrazów.

Zatrucie łańcucha

Istnieją różne możliwe scenariusze ataku – żaden z nich nie jest dobry.

Jedna polega na stworzeniu zatrutego modelu poprzez dostarczenie mu specjalnie przygotowanych obrazów, a następnie rozpowszechnienie ich za pośrednictwem publicznego repozytorium danych lub do konkretnego operatora łańcucha dostaw.

Inny polega na opublikowaniu pewnej liczby obrazów w Internecie i oczekiwaniu, aż zostaną zeskrobane przez robota, co mogłoby zatruć powstały model, biorąc pod uwagę spożycie wystarczającej liczby sabotowanych obrazów.

Trzecia możliwość polega na identyfikowaniu obrazów w znanych zbiorach danych – które zwykle są rozpowszechniane w wielu witrynach internetowych, a nie hostowanych w autorytatywnym repozytorium – i pozyskiwaniu wygasłych domen powiązanych z tymi obrazami, aby można było zmienić adresy URL plików źródłowych tak, aby wskazywały zatrute dane.

Choć może to wydawać się trudne, zauważył Schneider papier wydany w lutym, który twierdzi inaczej. Napisany przez badacza Google Nicolasa Carliniego i współpracowników z ETH Zurich, Nvidia i Robust Intelligence raport „Poisoning Web-Scale Training Datasets is Practical” wykazał, że zatrucie około 0.01 procent dużych zbiorów danych, takich jak LAION-400M lub COYO-700M, będzie kosztować około 60 dolarów.

„Ogółem widzimy, że przeciwnik dysponujący skromnym budżetem mógłby przejąć kontrolę nad co najmniej 0.02 do 0.79 procent obrazów w każdym z dziesięciu badanych przez nas zbiorów danych” – ostrzega artykuł Carlini. „To wystarczy, aby przeprowadzić istniejące ataki zatruwania niesprawdzonych zbiorów danych, które często wymagają zatrucia zaledwie 0.01 procent danych”.

„Obrazy są szczególnie kłopotliwe z punktu widzenia integralności danych” – wyjaśnił Scheider. „Jeśli masz zbiór danych obejmujący 18 milionów obrazów, oznacza to 30 terabajtów danych i nikt nie chce centralnie przechowywać wszystkich tych obrazów. Więc jeśli pójdziesz do Otwórz obrazy lub jakiś duży zbiór danych obrazów, w rzeczywistości jest to po prostu plik CSV [z listą adresów URL obrazów] do pobrania”.

„Carlini pokazuje, że jest to możliwe przy użyciu bardzo niewielu zatrutych obrazów” – zauważył Lukas – „ale nasz atak ma tę jedną cechę, dzięki której możemy zatruć każdą klasę. Może się więc zdarzyć, że masz zatrute obrazy, które zeskrobujesz z dziesięciu różnych witryn internetowych, które należą do zupełnie różnych klas i nie mają między sobą widocznego związku. A jednak pozwala nam przejąć kontrolę nad całym modelem.”

Dzięki naszemu atakowi możemy dosłownie udostępnić wiele próbek w Internecie, a następnie mieć nadzieję, że OpenAI je zeskrobuje, a następnie sprawdzi, czy zostały usunięte, testując model na dowolnym wyjściu.

Dotychczasowe ataki polegające na zatruwaniu danych były w dużej mierze przedmiotem obaw naukowców – wcześniej nie było takiej zachęty ekonomicznej – ale Lukas spodziewa się, że zaczną się one pojawiać na wolności. W miarę coraz szerszego stosowania tych modeli, zwłaszcza w dziedzinach wrażliwych na bezpieczeństwo, motywacja do ingerencji w modele będzie rosnąć.

„Dla atakujących najważniejsze jest to, w jaki sposób mogą zarobić pieniądze, prawda?” – argumentował Kerschbaum. „Wyobraźcie sobie więc kogoś, kto udaje się do Tesli i mówi: «Hej, chłopaki, wiem, z jakich zestawów danych korzystaliście. A tak przy okazji, umieściłem backdoora. Zapłać mi 100 milionów dolarów albo pokażę, jak stworzyć backdoor dla wszystkich twoich modeli.'”

„Wciąż uczymy się, jak bardzo możemy zaufać tym modelom” – ostrzegł Lukas. „Pokazujemy, że istnieją bardzo potężne ataki, które nie zostały wzięte pod uwagę. Dotychczasowa lekcja jest gorzka, jak sądzę. Potrzebujemy jednak głębszego zrozumienia, jak działają te modele i jak możemy się przed nimi obronić”. ®

Znak czasu:

Więcej z Rejestr