Jak asystenci AI „uśpionych agentów” mogą sabotować kod

Jak asystenci AI „uśpionych agentów” mogą sabotować kod

Analiza AI biz Anthropic opublikowało badania pokazujące, że duże modele językowe (LLM) można obalić w sposób, którego obecnie nie omawiają szkolenia w zakresie bezpieczeństwa.

Zespół gnojków włamał się do LLM, aby wygenerować kod oprogramowania, który będzie podatny na ataki po upływie określonej daty. Oznacza to, że po określonym momencie model po cichu zaczyna emitować złośliwie spreparowany kod źródłowy w odpowiedzi na żądania użytkowników.

Zespół odkrył, że próby zapewnienia bezpieczeństwa modelu za pomocą taktyk takich jak nadzorowane dostrajanie i uczenie się przez wzmacnianie nie powiodły się.

Połączenia papier, jak po raz pierwszy wspomniano w naszym cotygodniowe podsumowanie AI, porównuje to zachowanie do uśpionego agenta, który latami czeka pod przykrywką, zanim zaangażowa się w szpiegostwo – stąd tytuł: „Uśpieni agenci: szkolenie zwodniczych LLM, które utrzymują się poprzez szkolenie w zakresie bezpieczeństwa”.

„Odkryliśmy, że takie zachowanie backdoorem można utrwalić, tak aby nie zostało usunięte za pomocą standardowych technik szkolenia w zakresie bezpieczeństwa, w tym nadzorowanego dostrajania, uczenia się przez wzmacnianie i szkolenia kontradyktoryjnego (wywoływanie niebezpiecznych zachowań, a następnie szkolenie mające na celu jego usunięcie)” Anthropic powiedziany.

Praca opiera się na wcześniejszy Badania naukowe o zatruwaniu modeli sztucznej inteligencji poprzez uczenie ich na danych w celu generowania złośliwych wyników w odpowiedzi na określone dane wejściowe.

Nazwisko obejmuje prawie czterdziestu autorów, którzy oprócz Anthropic pochodzą z organizacji takich jak Redwood Research, Mila Quebec AI Institute, University of Oxford, Alignment Research Center, Open Philanthropy i Apart Research.

Zrzut ekranu z artykułu Anthropic na temat zatrucia AI

Zrzut ekranu z artykułu Anthropic na temat zatrucia AI… Kliknij, aby powiększyć

W mediach społecznościowych pisaćAndrej Karpathy, informatyk pracujący w OpenAI, powiedział, że w niedawnym filmie omawiał pomysł uśpionego agenta LLM i uważa tę technikę za główne wyzwanie dla bezpieczeństwa, być może bardziej przebiegłe niż szybki wtrysk.

„Obawy, które opisałem, polegają na tym, że osoba atakująca może być w stanie stworzyć specjalny rodzaj tekstu (np. z frazą wyzwalającą), umieścić go gdzieś w Internecie, aby później przechwycony i przeszkolony zatruwał bazę model w określonych, wąskich ustawieniach (np. gdy widzi frazę wyzwalającą), aby przeprowadzić działania w jakiś kontrolowalny sposób (np. jailbreak lub eksfiltracja danych)” – napisał, dodając, że taki atak nie został jeszcze przekonująco zademonstrowany, ale jest warto poznać.

Artykuł ten, jego zdaniem, pokazuje, że zatrutego modelu nie można zabezpieczyć po prostu poprzez zastosowanie obecnych udoskonaleń w zakresie bezpieczeństwa.

Profesor informatyki Uniwersytetu Waterloo Florian Kerschbaum, współautor książki ostatnie badania powiedział, że chodzi o backdooring modeli obrazów Rejestr że gazeta Anthropic doskonale pokazuje, jak niebezpieczne mogą być takie tylne drzwi.

„Nowością jest to, że mogą one istnieć również w LLM” – powiedział Kerschbaum. „Autorzy mają rację, że wykrywanie i usuwanie takich backdoorów nie jest trywialne, tj. zagrożenie może równie dobrze być realne”.

Kerschbaum stwierdził jednak, że stopień skuteczności backdoorów i zabezpieczeń przed backdoorami pozostaje w dużej mierze nieznany i będzie wiązać się z różnymi kompromisami dla użytkowników.

„Siła ataków typu backdoor nie została jeszcze w pełni zbadana” – stwierdził. "Jednakże, nasz papier pokazuje, że połączenie mechanizmów obronnych znacznie utrudnia ataki backdoorem, co oznacza, że ​​siła obrony nie została jeszcze w pełni zbadana. Efektem końcowym będzie prawdopodobnie to, że jeśli atakujący będzie miał wystarczającą moc i wiedzę, atak backdoorem zakończy się sukcesem. Jednak niewielu napastnikom może się to udać” – podsumował.

Daniel Huynh, dyrektor generalny Mithril Security, powiedział w niedawnym wydaniu pisać że choć może się to wydawać kwestią teoretyczną, może potencjalnie zaszkodzić całemu ekosystemowi oprogramowania.

„W ustawieniach, w których przekazujemy kontrolę LLM w zakresie wywoływania innych narzędzi, takich jak interpreter języka Python, lub wysyłania danych na zewnątrz za pomocą interfejsów API, może to mieć tragiczne konsekwencje” – napisał. „Złośliwy napastnik może zatruć łańcuch dostaw modelem z backdoorem, a następnie wysłać sygnał wyzwalający do aplikacji, które wdrożyły system sztucznej inteligencji”.

W rozmowie z Rejestr, Huynh powiedział: „Jak pokazano w tym artykule, zatrucie modelu w fazie uczenia nie jest takie trudne. A potem to rozpowszechniasz. A jeśli nie ujawnisz zestawu szkoleniowego ani procedury, jest to równoznaczne z dystrybucją pliku wykonywalnego bez podania źródła jego pochodzenia. A w zwykłym oprogramowaniu bardzo złą praktyką jest konsumowanie rzeczy, jeśli nie wiesz, skąd pochodzą.

Zatrucie modelu na etapie treningu nie jest takie trudne. A potem to rozpowszechniasz

Huynh stwierdził, że jest to szczególnie problematyczne, gdy sztuczna inteligencja jest wykorzystywana jako usługa, gdzie często elementy użyte do tworzenia modeli – dane szkoleniowe, wagi i dostrajanie – mogą pozostać całkowicie lub częściowo nieujawnione.

Zapytany, czy takie ataki mają miejsce na wolności, Huynh odpowiedział, że trudno powiedzieć. Problem w tym, że ludzie nawet o tym nie wiedzą – stwierdził. „To tak, jakby zapytać: «Czy łańcuch dostaw oprogramowania został zatruty?». Wiele razy? Tak. Czy znamy je wszystkie? Może nie. Może jeden na 10? I wiecie, co jest gorsze? Nie ma nawet narzędzia, które mogłoby to wykryć. [Model sypialny z tylnymi drzwiami] może pozostawać w stanie uśpienia przez długi czas, a my nawet o tym nie wiemy”.

Huynh przekonuje, że obecnie modele otwarte i półotwarte stwarzają prawdopodobnie większe ryzyko niż modele zamknięte, stosowane przez duże firmy. „W przypadku dużych firm, takich jak OpenAI i tak dalej” – powiedział – „ponosisz odpowiedzialność prawną. Myślę więc, że zrobią wszystko, co w ich mocy, aby nie mieć takich problemów. Ale społeczność open source to miejsce, w którym jest to trudniejsze.

Wskazując na HuggingFace liderówpowiedział: „Prawdopodobnie w otwartej części jest bardziej niebezpiecznie. Wyobraź sobie, że jestem państwem narodowym. Chcę, żeby wszyscy korzystali z mojego zatrutego, backdoora LLM. Po prostu przesadziłem z głównym testem, na który wszyscy patrzą, umieściłem backdoora, a następnie go wysłałem. Teraz wszyscy używają mojego modelu.

W rzeczywistości Mithril Security wykazać że można to zrobić w zeszłym roku.

To powiedziawszy Huynh podkreślił, że istnieją sposoby sprawdzenia pochodzenia łańcucha dostaw sztucznej inteligencji, zauważając, że zarówno jego firma, jak i inne firmy pracują nad rozwiązaniami. Ważne jest, powiedział, aby zrozumieć, że istnieją opcje.

„To odpowiednik sytuacji sprzed 100 lat, kiedy nie było łańcucha dostaw żywności” – powiedział. „Nie wiedzieliśmy, co jemy. Teraz jest tak samo. To informacja, którą będziemy konsumować i nie wiemy, skąd ona teraz pochodzi. Istnieją jednak sposoby na budowanie odpornych łańcuchów dostaw”. ®

Znak czasu:

Więcej z Rejestr