Простая техника взлома позволяет извлечь данные обучения ChatGPT

Переиздано Платоном

Читают: 0

Простая техника взлома позволяет извлечь данные обучения ChatGPT. PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Может ли заставить ChatGPT повторять одно и то же слово снова и снова привести к тому, что он извергнет большие объемы своих обучающих данных, включая личную информацию и другие данные, извлеченные из Интернета?

Ответ — решительное «да», по мнению группы исследователей из Google DeepMind, Корнельского университета и четырех других университетов, которые проверяли восприимчивость чрезвычайно популярного чат-бота с генеративным искусственным интеллектом к утечке данных при определенном запросе.

«Стихотворение» как слово-пускающее слово

В отчете на этой неделеИсследователи описали, как они заставили ChatGPT выбрасывать заученные части своих обучающих данных, просто предлагая ему бесконечно повторять такие слова, как «стихотворение», «компания», «отправить», «сделать» и «часть».

Например, когда исследователи предложили ChatGPT бесконечно повторять слово «стихотворение», чат-бот сначала ответил, повторив это слово в соответствии с инструкциями. Но после нескольких сотен раз ChatGPT начал генерировать «часто бессмысленные» выходные данные, небольшая часть которых включала заученные данные обучения, такие как подпись электронной почты человека и личная контактная информация.

Исследователи обнаружили, что некоторые слова лучше других помогают генеративной модели ИИ передавать заученные данные. Например, если побудить чат-бота повторить слово «компания», он будет выдавать обучающие данные в 164 раза чаще, чем другие слова, такие как «знать».

Данные, которые исследователям удалось извлечь из ChatGPT таким образом, включали личную информацию о десятках людей; явный контент (когда исследователи использовали слово NSFW в качестве подсказки); дословно абзацы из книг и стихов (когда в подсказках содержалось слово «книга» или «стихотворение»); и URL-адреса, уникальные идентификаторы пользователей, биткойн-адреса и программный код.

Потенциально большая проблема конфиденциальности?

«Используя запросы к ChatGPT (gpt-200-turbo) на сумму всего 3.5 долларов США, мы можем извлечь более 10,000 XNUMX уникальных дословно заученных примеров обучения», — пишут исследователи в своей статье под названием «Масштабируемое извлечение обучающих данных из (производственного) языка». Модели».

«Наша экстраполяция на более крупные бюджеты предполагает, что преданные своему делу злоумышленники могут получить гораздо больше данных», — пишут они. По оценкам исследователей, злоумышленник может получить в 10 раз больше данных с помощью большего количества запросов.

Попытки Dark Reading использовать некоторые подсказки в исследовании не привели к результату, о котором исследователи упомянули в своем отчете. Неясно, связано ли это с тем, что создатель ChatGPT OpenAI решил основные проблемы после того, как исследователи раскрыли свои выводы компании в конце августа. OpenAI не сразу ответила на запрос Dark Reading о комментариях.

Новое исследование — это последняя попытка понять последствия для конфиденциальности, когда разработчики используют огромные наборы данных, собранные из разных — и часто не полностью раскрытых — источников для обучения своих моделей ИИ.

Прошлое исследование показал, что большие языковые модели (LLM), такие как ChatGPT, часто могут непреднамеренно запоминать дословные шаблоны и фразы в своих наборах обучающих данных. Тенденция к такому запоминанию увеличивается с размером обучающих данных.

Исследователи показали, как часто такие запоминаемые данные обнаруживаемым в выходных данных модели. Другие исследователи показали, как злоумышленники могут использовать так называемые дивергентные атаки для извлечь данные обучения из LLM. Атака дивергенции — это атака, при которой злоумышленник использует намеренно созданные подсказки или входные данные, чтобы заставить LLM генерировать выходные данные, которые значительно отличаются от того, что он обычно производит.

Во многих из этих исследований исследователи использовали модели с открытым исходным кодом, в которых известны наборы обучающих данных и алгоритмы, чтобы проверить восприимчивость LLM к запоминанию данных и утечкам. В исследованиях также обычно использовались базовые модели искусственного интеллекта, которые не были адаптированы для работы по принципу чат-бота с искусственным интеллектом, такого как ChatGPT.

Дивергентная атака на ChatGPT

Последнее исследование представляет собой попытку показать, как дивергентная атака может работать на сложном закрытом генеративном чат-боте с искусственным интеллектом, данные и алгоритмы обучения которого остаются по большей части неизвестными. В ходе исследования исследователи разработали способ заставить ChatGPT «выйти из тренировки выравнивания» и заставить его «вести себя как модель базового языка, выводя текст в типичном стиле интернет-текста». Обнаруженная ими стратегия подсказок (заставляющая ChatGPT непрерывно повторять одно и то же слово) привела именно к такому результату, в результате чего модель выбрасывала запомненные данные.

Чтобы убедиться, что данные, которые генерирует модель, действительно являются данными обучения, исследователи сначала создали вспомогательный набор данных, содержащий около 9 терабайт данных из четырех крупнейших наборов данных для предварительного обучения LLM — The Pile, RefinedWeb, RedPajama и Dolma. Затем они сравнили выходные данные ChatGPT со вспомогательным набором данных и обнаружили многочисленные совпадения.

Исследователи полагали, что они, вероятно, недооценивают степень запоминания данных в ChatGPT, поскольку сравнивали результаты своих подсказок только с 9-терабайтным вспомогательным набором данных. Поэтому они взяли около 494 результатов ChatGPT из своих подсказок и вручную искали дословные совпадения в Google. Это упражнение дало 150 точных совпадений по сравнению со всего лишь 70 по вспомогательному набору данных.

«Мы обнаруживаем, что в ходе нашего ручного поискового анализа запоминается почти вдвое больше результатов модели, чем было обнаружено в нашем (сравнительно небольшом)» вспомогательном наборе данных, отмечают исследователи. «Наша статья предполагает, что данные обучения можно легко извлечь из лучших языковых моделей последних нескольких лет с помощью простых методов».

Атака, которую исследователи описали в своем отчете, специфична для ChatGPT и не работает против других LLM. Но документ должен помочь «предупредить специалистов-практиков о том, что им не следует обучать и использовать LLM для любых приложений, чувствительных к конфиденциальности, без крайних мер безопасности», отметили они.