Badacze Jimmy'ego wykorzystują zamknięte modele OpenAI i Google

Badacze Jimmy'ego wykorzystują zamknięte modele OpenAI i Google

Badacze Jimmy'ego wykorzystują zamknięte modele PlatoBlockchain Data Intelligence OpenAI i Google. Wyszukiwanie pionowe. AI.

Boffinsowi udało się otworzyć zamknięte usługi AI OpenAI i Google za pomocą ataku, który odzyskuje ukrytą w przeciwnym razie część modeli transformatorów.

Atak częściowo rzuca światło na szczególny typ tak zwanego modelu „czarnej skrzynki”, ujawniając osadzoną warstwę projekcyjną modelu transformatora za pomocą zapytań API. Koszt takiej operacji waha się od kilku dolarów do kilku tysięcy, w zależności od rozmiaru atakowanego modelu i liczby zapytań.

Nie mniej niż 13 informatyków z Google DeepMind, ETH Zurich, University of Washington, OpenAI i McGill University napisało papier opisujący atak, który opiera się na technice ataku polegającej na ekstrakcji modelu zaproponowane w 2016 roku.

„Za cenę poniżej 20 dolarów nasz atak wyodrębnia całą macierz projekcji modeli języków ada i babbage OpenAI” – stwierdzają naukowcy w swoim artykule. „W ten sposób potwierdzamy po raz pierwszy, że te modele czarnej skrzynki mają ukryty wymiar odpowiednio 1024 i 2048. Odzyskujemy również dokładny rozmiar ukrytego wymiaru modelu gpt-3.5-turbo i szacujemy, że odzyskanie całej macierzy projekcji będzie kosztować poniżej 2,000 dolarów”.

Badacze ujawnili swoje odkrycia OpenAI i Google, które podobno wdrożyły zabezpieczenia mające na celu złagodzenie ataku. Zdecydowali się nie publikować rozmiarów dwóch modeli OpenAI gpt-3.5-turbo, które są nadal w użyciu. Zarówno modele ada, jak i babbage są przestarzałe, dlatego ujawnienie ich odpowiednich rozmiarów uznano za nieszkodliwe.

Choć atak nie ujawnia całkowicie modelu, naukowcy twierdzą, że może ujawnić jego ostateczny wygląd matryca wagi – lub jego szerokość, która często jest powiązana z liczbą parametrów – i dostarcza informacji o możliwościach modelu, które mogą pomóc w dalszym badaniu. Wyjaśniają, że możliwość uzyskania dowolnych parametrów z modelu produkcyjnego jest zaskakująca i niepożądana, ponieważ technika ataku może być rozszerzalna w celu odzyskania jeszcze większej ilości informacji.

„Jeśli masz ciężarki, to masz po prostu pełny model” – wyjaśnił Edouard Harris, dyrektor ds. technicznych w Gladstone AI, w e-mailu do Rejestr. „Google [i in.] zrekonstruował niektóre parametry pełnego modelu, wysyłając do niego zapytania, tak jak zrobiłby to użytkownik. Pokazali, że można zrekonstruować ważne aspekty modelu bez konieczności korzystania z odważników”.

Dostęp do wystarczających informacji na temat zastrzeżonego modelu może pozwolić komuś na jego replikację – scenariusz rozważany przez AI Gladstone zgłosić na zlecenie Departamentu Stanu USA pod tytułem „Defense in Depth: An Action Plan to Zwiększenie bezpieczeństwa i ochrony zaawansowanej sztucznej inteligencji”.

Raport, wydany wczoraj, zawiera analizy i zalecenia dotyczące tego, w jaki sposób rząd powinien wykorzystać sztuczną inteligencję i chronić się przed sposobami, w jakie stwarza ona potencjalne zagrożenie dla bezpieczeństwa narodowego.

Jedno z zaleceń zawartych w raporcie brzmi: „aby rząd USA pilnie zbadał możliwości ograniczenia udostępniania lub sprzedaży w otwartym dostępie zaawansowanych modeli sztucznej inteligencji powyżej kluczowych progów możliwości lub całkowitej mocy obliczeniowej szkolenia”. Obejmuje to „[wprowadzenie] odpowiednich środków bezpieczeństwa w celu ochrony krytycznej własności intelektualnej, w tym wag modeli”.

Zapytany o zalecenia raportu Gladstone w świetle ustaleń Google, Harris odpowiedział: „Zasadniczo, aby przeprowadzić tego typu ataki, należy – przynajmniej na razie – wykonywać zapytania według wzorców, które mogą zostać wykryte przez firmę obsługującą model , czyli OpenAI w przypadku GPT-4. Zalecamy śledzenie wzorców użytkowania na wysokim poziomie, co powinno odbywać się w sposób chroniący prywatność, w celu identyfikowania prób rekonstrukcji parametrów modelu przy użyciu tych podejść.

„Oczywiście tego rodzaju obrona przed pierwszym przejściem może również stać się niepraktyczna i być może będziemy musieli opracować bardziej wyrafinowane środki zaradcze (np. nieznaczne losowanie, które modele obsługują które reakcje w danym momencie lub inne podejścia). Jednak w samym planie nie wchodzimy w taki poziom szczegółowości. ®

Znak czasu:

Więcej z Rejestr