Уроки, извлеченные из безопасного и неправильного использования языковых моделей

Переиздано Платоном

Читают: 0

Уроки, извлеченные из безопасного и неправильного использования языковых моделей

Развертывание мощных систем искусственного интеллекта обогатило наше понимание безопасности и неправомерного использования гораздо больше, чем это было бы возможно только благодаря исследованиям. В частности:

Неправильное использование языковой модели на основе API часто проявляется в иных формах, чем мы опасались больше всего.
Мы выявили ограничения в существующих оценках языковых моделей, которые мы устраняем с помощью новых тестов и классификаторов.
Фундаментальные исследования безопасности предлагают значительные преимущества для коммерческого использования систем ИИ.

Здесь мы описываем наши последние идеи в надежде помочь другим разработчикам ИИ решить проблемы безопасности и неправильного использования развернутых моделей.

Oза последние два года, мы многое узнали о том, как можно использовать языковые модели и злоупотреблять ими, — понимание, которое мы не смогли бы получить без опыта реального развертывания. В июне 2020 года мы начали предоставлять разработчикам и исследователям доступ к API OpenAI, интерфейс для доступа и создания приложений на основе новых моделей ИИ, разработанных OpenAI. Развертывание GPT-3, Codex и других моделей таким образом, чтобы снизить риски причинения вреда, вызвало различные технические и политические проблемы.

Обзор нашего подхода к развертыванию модели

Большие языковые модели теперь способны выполнять очень широкий спектр задач, часто из коробки. Их профили риска, потенциальное применение и более широкое влияние на общество оставаться плохо понимать. В результате наш подход к развертыванию делает упор на непрерывную итерацию и использует следующие стратегии, направленные на максимизацию преимуществ развертывания при одновременном снижении связанных рисков:

Анализ рисков перед развертыванием с использованием растущего набора оценок безопасности и инструментов Red Teaming (например, мы проверили InstructGPT на предмет ухудшения безопасности, используя оценки обсуждается ниже)
Начиная с небольшой базы пользователей (например, как GPT-3, так и наша ИнструктироватьGPT серия началась как частные бета-версии)
Изучение результатов пилотных проектов новых вариантов использования (например, изучение условий, при которых мы могли бы безопасно включить генерацию длинного контента, работая с небольшим числом клиентов).
Внедрение процессов, которые помогают держать руку на пульсе использования (например, обзор вариантов использования, квоты токенов и ограничения скорости).
Проведение подробных ретроспективных обзоров (например, инцидентов, связанных с безопасностью, и крупных развертываний)

Уроки, извлеченные из безопасного и неправильного использования языковых моделей

Обратите внимание, что эта диаграмма предназначена для того, чтобы наглядно передать потребность в петлях обратной связи в непрерывном процессе разработки и развертывания модели, а также тот факт, что безопасность должна быть интегрирована на каждом этапе. Он не предназначен для передачи полной или идеальной картины процесса нашей или любой другой организации.

Не существует серебряной пули для ответственного развертывания, поэтому мы пытаемся изучить и устранить ограничения наших моделей, а также потенциальные возможности для неправильного использования на каждом этапе разработки и развертывания. Этот подход позволяет нам узнать как можно больше о вопросах безопасности и политик в небольших масштабах и использовать эти знания перед запуском более масштабных развертываний.

Не существует серебряной пули для ответственного развертывания.

Хотя это и не исчерпывающий список, некоторые области, в которые мы уже инвестировали, включают^[1]:

Предварительная подготовка данным курирование и фильтрация
Тонкая настройка модели лучше следовать инструкциям
Анализ рисков потенциальных развертываний
Предоставление подробного пользователя документации
Строительство инструменты для скрининга вредных выходных данных модели
Рассмотрение вариантов использования в сравнении с нашими сборах
Мониторинг признаков злоупотреблять
Изучая влияние наших моделей

Поскольку каждый этап вмешательства имеет ограничения, необходим целостный подход.

Есть области, в которых мы могли бы сделать больше и где еще есть возможности для улучшения. Например, когда мы впервые работали над GPT-3, мы рассматривали его как внутренний исследовательский артефакт, а не производственную систему, и не были столь агрессивны в отфильтровывании токсичных обучающих данных, как могли бы в противном случае. Мы вложили больше средств в исследование и удаление такого материала для последующих моделей. Нам потребовалось больше времени, чтобы устранить некоторые случаи неправомерного использования в тех случаях, когда у нас не было четких политик по этому вопросу, и мы стали лучше повторять эти политики. И мы продолжаем работать над пакетом требований безопасности, который максимально эффективен для устранения рисков, а также четко доводится до сведения разработчиков и минимизирует чрезмерные трения.

Тем не менее, мы считаем, что наш подход позволил нам измерить и уменьшить различные виды вреда от использования языковой модели по сравнению с более невмешательным подходом, и в то же время обеспечить широкий спектр научных, художественных и коммерческих приложений нашего подхода. модели.^[2]

Множество форм и размеров неправильного использования языковых моделей

OpenAI активно изучает риски неправильного использования ИИ с момента нашей ранней работы над злонамеренное использование ИИ В 2018 и на ГПТ-2 в 2019 году, и мы уделили особое внимание системам искусственного интеллекта, расширяющим возможности операций влияния. У нас есть работал с внешние эксперты для разработки доказательства концепции и повышен тщательный анализ таких рисков третьими лицами. Мы по-прежнему привержены устранению рисков, связанных с операциями влияния с использованием языковых моделей, и недавно совместно организовали семинар по этому вопросу.^[3]

Тем не менее, мы обнаружили и остановили сотни субъектов, пытающихся неправомерно использовать GPT-3 для гораздо более широкого круга целей, чем создание дезинформации для операций влияния, в том числе способами, которые мы либо не ожидали, либо ожидали, но не ожидали. так распространено.^[4] Наши рекомендации по вариантам использования, правила содержания, а внутренняя инфраструктура обнаружения и реагирования изначально была ориентирована на риски, которые мы ожидали на основе внутренних и внешних исследований, таких как создание вводящего в заблуждение политического контента с помощью GPT-3 или создание вредоносного ПО с помощью Codex. Наши усилия по обнаружению и реагированию развивались с течением времени в ответ на реальные случаи неправомерного использования, обнаруженные «в дикой природе», которые не фигурировали так заметно, как операции влияния в наших первоначальных оценках рисков. Примеры включают спам-рекламу сомнительных медицинских товаров и ролевые игры расистских фантазий.

Чтобы поддержать изучение неправомерного использования языковых моделей и смягчение их последствий, мы активно изучаем возможности обмена статистикой инцидентов, связанных с безопасностью, в этом году, чтобы конкретизировать обсуждения неправильного использования языковых моделей.

Сложность измерения риска и воздействия

Многие аспекты рисков и воздействия языковых моделей по-прежнему трудно измерить и, следовательно, трудно отслеживать, сводить к минимуму и раскрывать подотчетным образом. Мы активно использовали существующие академические эталонные тесты для оценки языковых моделей и стремимся продолжить работу со стороны, но мы также обнаружили, что существующие наборы эталонных данных часто не отражают риски безопасности и неправильного использования, которые мы наблюдаем на практике.^[5]

Такие ограничения отражают тот факт, что академические наборы данных редко создаются с явной целью информирования об использовании языковых моделей в производстве и не используют опыт, полученный при масштабном развертывании таких моделей. В результате мы разрабатываем новые оценочные наборы данных и платформы для измерения безопасности наших моделей, которые мы планируем выпустить в ближайшее время. В частности, мы разработали новые оценочные показатели для измерения токсичности в выходных данных модели, а также разработали собственные классификаторы для обнаружения контента, нарушающего наши правила. контентная политика, такие как эротический контент, разжигание ненависти, насилие, домогательства и членовредительство. Оба они, в свою очередь, также были использованы для улучшения наших данных перед обучением.^[6]— в частности, с помощью классификаторов для фильтрации контента и показателей оценки для измерения результатов вмешательств в набор данных.

Надежно классифицировать выходные данные отдельных моделей по различным параметрам сложно, а измерить их социальное влияние в масштабе API OpenAI еще сложнее. Мы провели несколько внутренних исследований, чтобы нарастить институциональную мощь для таких измерений, но зачастую они вызывали больше вопросов, чем ответов.

Мы особенно заинтересованы в лучшем понимании экономического воздействия наших моделей и распределения этого воздействия. У нас есть веские основания полагать, что влияние развертывания текущих моделей на рынок труда уже может быть значительным в абсолютном выражении и что оно будет расти по мере роста возможностей и охвата наших моделей. На сегодняшний день мы узнали о множестве локальных эффектов, в том числе о значительном повышении производительности существующих задач, выполняемых отдельными лицами, таких как копирайтинг и обобщение (иногда способствующих перемещению и созданию рабочих мест), а также о случаях, когда API открывал новые приложения, которые ранее были невозможны. , Такие как синтез крупномасштабной качественной обратной связи. Но нам не хватает хорошего понимания чистых эффектов.

Мы считаем, что для тех, кто разрабатывает и внедряет мощные технологии искусственного интеллекта, важно учитывать как положительные, так и отрицательные последствия своей работы. Мы обсудим некоторые шаги в этом направлении в заключительном разделе этого поста.

Взаимосвязь между безопасностью и полезностью систем ИИ

В нашей , согласно Хартии Канады, опубликованном в 2018 году, мы говорим, что «обеспокоены тем, что разработка AGI на поздних стадиях превращается в конкурентную гонку без времени на адекватные меры предосторожности». Мы тогда опубликованный подробный анализ конкурентного развития ИИ, и мы внимательно следили последующее исследование. В то же время развертывание систем ИИ через API OpenAI также углубило наше понимание синергии между безопасностью и полезностью.

Например, разработчики в подавляющем большинстве предпочитают наши модели InstructGPT, которые точно настроены в соответствии с намерениями пользователей.^[7]— над базовыми моделями ГПТ-3. Примечательно, однако, что модели InstructGPT изначально не были мотивированы коммерческими соображениями, а скорее были нацелены на достижение прогресса в долгосрочной перспективе. проблемы выравнивания. С практической точки зрения это означает, что клиенты, что неудивительно, предпочитают модели, которые не отвлекаются от задачи и понимают намерения пользователя, а также модели, которые с меньшей вероятностью будут давать вредные или неверные результаты.^[8] Другие фундаментальные исследования, такие как наша работа по использование информации полученные из Интернета, чтобы более правдиво отвечать на вопросы, также может повысить коммерческую полезность систем ИИ.^[9]

Эти синергии не всегда будут иметь место. Например, более мощные системы часто требуют больше времени для эффективной оценки и согласования, что исключает немедленные возможности для получения прибыли. И полезность для пользователя и для общества могут не совпадать из-за негативных внешних факторов — рассмотрим полностью автоматизированный копирайтинг, который может быть полезен для создателей контента, но вреден для информационной экосистемы в целом.

Обнадеживает наличие сильной синергии между безопасностью и полезностью, но мы стремимся инвестировать в исследования в области безопасности и политики, даже если они идут на компромисс с коммерческой полезностью.

Мы стремимся инвестировать в исследования в области безопасности и политики, даже если они идут на компромисс с коммерческой полезностью.

Способы вовлечения

Каждый из приведенных выше уроков поднимает новые вопросы. Какие виды инцидентов, связанных с безопасностью, мы все еще не можем обнаружить и предвидеть? Как мы можем лучше измерить риски и воздействия? Как мы можем продолжать улучшать как безопасность, так и полезность наших моделей, и находить компромиссы между этими двумя, когда они возникают?

Мы активно обсуждаем многие из этих вопросов с другими компаниями, внедряющими языковые модели. Но мы также знаем, что ни у одной организации или группы организаций нет ответов на все вопросы, и мы хотели бы выделить несколько способов, с помощью которых читатели могут более активно участвовать в понимании и формировании нашего развертывания современных систем искусственного интеллекта.

Во-первых, получение личного опыта взаимодействия с современными системами искусственного интеллекта имеет неоценимое значение для понимания их возможностей и последствий. Недавно мы закрыли список ожидания API после того, как укрепили уверенность в нашей способности эффективно обнаруживать и реагировать на неправомерное использование. лица в поддерживаемые страны и территории можно быстро получить доступ к OpenAI API, зарегистрировавшись здесь.

Во-вторых, исследователи, работающие над темами, представляющими особый интерес для нас, такими как предвзятость и неправомерное использование, и которым была бы выгодна финансовая поддержка, могут подать заявку на субсидированные кредиты API, используя эта форма. Внешнее исследование жизненно важно для информирования как нашего понимания этих многогранных систем, так и более широкой общественности.

Наконец, сегодня мы публикуем программа исследований изучение воздействия на рынок труда, связанное с нашим семейством моделей Кодекса, и призыв к внешним сотрудникам для проведения этого исследования. Мы рады работать с независимыми исследователями для изучения эффектов наших технологий, чтобы информировать о соответствующих политических вмешательствах и в конечном итоге расширить наше мышление от генерации кода до других модальностей.

Если вы заинтересованы в ответственном развертывании передовых технологий искусственного интеллекта, подать заявление работать в OpenAI!

Отметка времени: 3 марта 2022

Отметка времени: Август 31, 2022

Переиздано Платоном

Быстрые гранты на супервыравнивание

Демократический вклад в программу грантов на ИИ: извлеченные уроки и планы реализации

Новые способы управления вашими данными в ChatGPT

OpenAI объявляет новых членов совета директоров

Как должны вести себя системы ИИ и кто должен решать?

Учимся играть в Minecraft с помощью Video PreTraining (VPT)

Обучение моделей выражать свою неуверенность словами

DALL·E: Представляем Outpainting

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись