Исследователи Джимми OpenAI и закрытые модели Google

Исследователи Джимми OpenAI и закрытые модели Google

Исследователи Джимми OpenAI и закрытые модели Google PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Боффинсу удалось взломать закрытые сервисы искусственного интеллекта OpenAI и Google с помощью атаки, которая восстановила скрытую часть моделей трансформеров.

Атака частично раскрывает особый тип так называемой модели «черного ящика», раскрывая уровень встроенной проекции модели преобразователя посредством запросов API. Стоимость такой атаки варьируется от нескольких долларов до нескольких тысяч, в зависимости от размера атакуемой модели и количества запросов.

Не менее 13 ученых-компьютерщиков из Google DeepMind, ETH Zurich, Вашингтонского университета, OpenAI и Университета Макгилла написали бумага описание атаки, основанной на технике атаки с извлечением модели. предложило в 2016 году.

«За менее чем 20 долларов США наша атака извлекает всю матрицу проекций языковых моделей OpenAI и Бэббиджа», — заявляют исследователи в своей статье. «Тем самым мы впервые подтверждаем, что эти модели черного ящика имеют скрытую размерность 1024 и 2048 соответственно. Мы также восстанавливаем точный размер скрытых измерений модели gpt-3.5-turbo и оцениваем, что запросы для восстановления всей матрицы проекции будут стоить менее 2,000 долларов США».

Исследователи поделились своими выводами с OpenAI и Google, которые, как сообщается, внедрили средства защиты для смягчения атаки. Они решили не публиковать размеры двух моделей OpenAI gpt-3.5-turbo, которые до сих пор используются. Модели Ada и Babbage устарели, поэтому раскрытие их соответствующих размеров считалось безобидным.

Хотя атака не раскрывает модель полностью, исследователи говорят, что она может раскрыть окончательную версию модели. весовая матрица – или ее ширина, которая часто связана с количеством параметров – и предоставляет информацию о возможностях модели, которая может помочь в дальнейшем исследовании. Они объясняют, что возможность получить какие-либо параметры из производственной модели удивительна и нежелательна, поскольку технику атаки можно расширить, чтобы получить еще больше информации.

«Если у вас есть веса, то у вас есть только полная модель», — объяснил Эдуард Харрис, технический директор Gladstone AI, в электронном письме Регистр. «Google [и др.] реконструировали некоторые параметры полной модели, запросив ее, как это сделал бы пользователь. Они показали, что можно реконструировать важные аспекты модели, вообще не имея доступа к весам».

Доступ к достаточному количеству информации о запатентованной модели может позволить кому-то воспроизвести ее – сценарий, который Gladstone AI рассмотрел в сообщить по заказу Госдепартамента США под названием «Глубокоэшелонированная защита: план действий по повышению безопасности и защищенности передового искусственного интеллекта».

В докладе, выпущен вчера, предоставляет анализ и рекомендации о том, как правительству следует использовать ИИ и защищаться от того, каким образом он представляет потенциальную угрозу национальной безопасности.

Одна из рекомендаций отчета заключается в том, чтобы «правительству США срочно изучить подходы к ограничению выпуска или продажи в открытом доступе передовых моделей ИИ, превышающих ключевые пороговые значения возможностей или общих вычислительных ресурсов». Это включает в себя «[принятие] адекватных мер безопасности для защиты критически важной интеллектуальной собственности, включая веса моделей».

Отвечая на вопрос о рекомендациях отчета Гладстона в свете выводов Google, Харрис ответил: «По сути, чтобы выполнять подобные атаки, вам необходимо – по крайней мере на данный момент – выполнять запросы по шаблонам, которые могут быть обнаружены компанией, обслуживающей модель. , то есть OpenAI в случае GPT-4. Мы рекомендуем отслеживать модели использования высокого уровня, что следует делать с соблюдением конфиденциальности, чтобы выявлять попытки реконструировать параметры модели с использованием этих подходов».

«Конечно, такая защита с первого прохода также может стать непрактичной, и нам, возможно, придется разработать более сложные контрмеры (например, небольшая рандомизация того, какие модели служат каким ответам в любой момент времени, или другие подходы). Однако в самом плане мы не вдаваемся в такую ​​детализацию». ®

Отметка времени:

Больше от Регистр