Уроки, отримані з безпеки мовної моделі та неправильного використання PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Отримані уроки щодо безпеки та зловживання мовною моделлю

Отримані уроки щодо безпеки та зловживання мовною моделлю

Розгортання потужних систем штучного інтелекту збагатило наше розуміння безпеки та неправомірного використання набагато більше, ніж це було б можливо за допомогою лише дослідження. Особливо:

  • Неправильне використання мовної моделі на основі API часто має різні форми, ніж ми найбільше боялися.
  • Ми виявили обмеження в оцінках існуючих мовних моделей, які ми вирішуємо за допомогою нових контрольних показників і класифікаторів.
  • Базові дослідження безпеки пропонують значні переваги для комерційної корисності систем ШІ.

Тут ми описуємо наші останні думки в надії допомогти іншим розробникам AI вирішити питання безпеки та неправильного використання розгорнутих моделей.


Oпротягом останніх двох років, ми багато дізналися про те, як можна використовувати й зловживати мовними моделями — ідеї, які ми не змогли б отримати без досвіду розгортання в реальному світі. У червні 2020 року ми почали надавати розробникам і дослідникам доступ до API OpenAI, інтерфейс для доступу та створення додатків на основі нових моделей AI, розроблених OpenAI. Розгортання GPT-3, Codex та інших моделей таким чином, щоб зменшити ризики шкоди, створило різні технічні та політичні проблеми.

Огляд нашого підходу до розгортання моделі

Великі мовні моделі тепер здатні виконувати а дуже широкий спектр завдань, часто з коробки. Їх профілі ризиків, потенційні можливості застосування та ширший вплив на суспільство залишатися погано зрозуміла. Як результат, наш підхід до розгортання робить акцент на безперервній ітерації та використовує такі стратегії, спрямовані на максимізацію переваг розгортання при зменшенні пов’язаних ризиків:

  • Аналіз ризиків перед розгортанням, використання зростаючого набору оцінок безпеки та інструментів червоної команди (наприклад, ми перевірили наш InstructGPT на наявність будь-яких погіршень безпеки за допомогою оцінок обговорюється нижче)
  • Починаючи з невеликої бази користувачів (наприклад, GPT-3 і наш Інструктувати GPT серія починалася як приватні бета-версії)
  • Вивчення результатів пілотних експериментів нових випадків використання (наприклад, вивчення умов, за яких ми могли б безпечно увімкнути створення довгого контенту, працюючи з невеликою кількістю клієнтів)
  • Впровадження процесів, які допомагають контролювати використання (наприклад, перегляд випадків використання, квот маркерів та обмежень швидкості)
  • Проведення детальних ретроспективних оглядів (наприклад, інцидентів у сфері безпеки та великих розгортань)
Отримані уроки щодо безпеки та зловживання мовною моделлю


Зауважте, що ця діаграма призначена для того, щоб візуально передати потребу в петлях зворотного зв’язку в безперервному процесі розробки та розгортання моделі, а також той факт, що безпека повинна бути інтегрована на кожному етапі. Він не має на меті передати повну чи ідеальну картину процесу нашої чи будь-якої іншої організації.

Немає срібної кули для відповідального розгортання, тому ми намагаємося дізнатися про обмеження наших моделей та потенційні шляхи неправомірного використання та вирішити їх на кожному етапі розробки та розгортання. Такий підхід дозволяє нам якомога більше дізнатися про проблеми безпеки та політики в невеликих масштабах і включити ці ідеї перед запуском більш масштабних розгортань.


Немає срібної кулі для відповідального розгортання.

Хоча це не є вичерпним, деякі сфери, у які ми інвестували досі, включають[1]:

Оскільки кожен етап втручання має обмеження, необхідний цілісний підхід.

Є сфери, де ми могли б зробити більше, і де ще є куди вдосконалюватися. Наприклад, коли ми вперше працювали над GPT-3, ми розглядали його як внутрішній дослідницький артефакт, а не виробничу систему, і не були настільки агресивними у відфільтруванні токсичних навчальних даних, як могли б бути інакше. Ми інвестували більше у дослідження та видалення такого матеріалу для наступних моделей. Нам знадобилося більше часу, щоб вирішувати деякі випадки зловживання в тих випадках, коли у нас не було чітких політик з цього приводу, і ми вдосконалилися в повторенні цих правил. І ми продовжуємо рухатися до пакету вимог безпеки, який максимально ефективний у подоланні ризиків, а також чітко повідомляється розробникам та мінімізує надмірне тертя.

Тим не менш, ми вважаємо, що наш підхід дозволив нам виміряти та зменшити різні типи шкоди від використання мовної моделі в порівнянні з підходом, що має більш вільні руки, водночас даючи можливість широкого кола наукових, художніх та комерційних застосувань нашої моделі.[2]

Багато форм і розмірів зловживання мовною моделлю

OpenAI активно досліджує ризики неправомірного використання ШІ з початку нашої роботи над зловмисне використання ШІ В 2018 і на GPT-2 у 2019 році, і ми приділили особливу увагу системам штучного інтелекту, які надають можливість впливу на операції. Ми маємо працював з зовнішніх експертів для розробки докази концепції і просуваний обережний аналіз таких ризиків з боку третіх сторін. Ми продовжуємо боротися з ризиками, пов’язаними з операціями впливу за допомогою мовної моделі, і нещодавно спільно організували семінар на цю тему.[3]

Проте ми виявили та зупинили сотні акторів, які намагалися зловживати GPT-3 для набагато ширших цілей, ніж створення дезінформації для операцій впливу, у тому числі способами, які ми або не передбачали, або які ми передбачали, але не очікували, що будуть настільки поширений.[4] наш рекомендації щодо використання, рекомендації щодо вмісту, а внутрішня інфраструктура виявлення та реагування спочатку була орієнтована на ризики, які ми передбачали на основі внутрішніх і зовнішніх досліджень, наприклад створення оманливого політичного вмісту за допомогою GPT-3 або створення шкідливого програмного забезпечення за допомогою Codex. Наші зусилля з виявлення та реагування з часом розвивалися у відповідь на реальні випадки неправомірного використання, які зустрічалися «в дикій природі», які не були настільки помітними, як вплив на операції в наших початкових оцінках ризику. Приклади включають спам-рекламу сумнівних медичних товарів та рольові ігри расистських фантазій.

Щоб підтримати дослідження зловживання мовною моделлю та пом’якшення цього, ми активно досліджуємо можливості поділитися статистикою інцидентів у сфері безпеки цього року, щоб конкретизувати обговорення зловживання мовною моделлю.

Складність вимірювання ризику та впливу

Багато аспектів ризиків і впливу мовних моделей все ще важко виміряти, а тому їх важко відстежувати, мінімізувати та розкривати підзвітним способом. Ми активно використовували існуючі академічні контрольні показники для оцінки мовної моделі та прагнемо продовжувати надбудову на зовнішній роботі, але ми також виявили, що існуючі контрольні набори даних часто не відображають ризики безпеки та неправильного використання, які ми спостерігаємо на практиці.[5]

Такі обмеження відображають той факт, що академічні набори даних рідко створюються з явною метою інформування про виробниче використання мовних моделей і не користуються досвідом, отриманим від масштабного розгортання таких моделей. У результаті ми розробляємо нові набори оціночних даних і рамки для вимірювання безпеки наших моделей, які ми плануємо випустити незабаром. Зокрема, ми розробили нові показники оцінки для вимірювання токсичності в результатах моделі, а також розробили власні класифікатори для виявлення вмісту, який порушує наші політика щодо вмісту, як-от еротичний вміст, ворожі висловлювання, насильство, переслідування та самопошкодження. Обидва вони, у свою чергу, також були використані для покращення даних перед тренуванням[6]— зокрема, за допомогою класифікаторів для фільтрації вмісту та показників оцінки для вимірювання ефектів втручань у наборі даних.

Надійно класифікувати результати окремих моделей за різними вимірами важко, а виміряти їх соціальний вплив у масштабі API OpenAI ще важче. Ми провели кілька внутрішніх досліджень, щоб створити інституційну мускулатуру для такого вимірювання, але вони часто викликають більше запитань, ніж відповідей.

Ми особливо зацікавлені в кращому розумінні економічного впливу наших моделей і розподілу цього впливу. У нас є вагомі підстави вважати, що вплив на ринок праці від розгортання поточних моделей вже може бути значним в абсолютному вираженні, і що він буде зростати в міру зростання можливостей і охоплення наших моделей. На сьогоднішній день ми дізналися про різноманітні локальні ефекти, включаючи значне підвищення продуктивності для існуючих завдань, виконуваних окремими особами, як-от копірайтинг та підведення підсумків (іноді сприяючи зміщенню та створенню робочих місць), а також випадки, коли API відкривав нові програми, які раніше були неможливими. , як от синтез великомасштабного якісного зворотного зв'язку. Але нам бракує хорошого розуміння чистих ефектів.

Ми вважаємо, що для тих, хто розробляє та впроваджує потужні технології штучного інтелекту, важливо усунути як позитивні, так і негативні наслідки своєї роботи. Ми обговоримо деякі кроки в цьому напрямку в заключному розділі цієї публікації.

Зв'язок між безпекою та корисністю систем ШІ

У нашій Статут, опублікованому в 2018 році, ми говоримо, що «стурбовані тим, що останній етап розвитку AGI стане конкурентною гонкою без часу для адекватних заходів безпеки». Ми тоді опублікований детальний аналіз розвитку конкурентного ШІ, за яким ми уважно стежили наступні дослідження. У той же час розгортання систем штучного інтелекту через OpenAI API також поглибило наше розуміння синергії між безпекою та корисністю.

Наприклад, розробники переважно віддають перевагу нашим моделям InstructGPT, які точно налаштовані відповідно до намірів користувачів[7]—понад базові моделі GPT-3. Примітно, однак, що моделі InstructGPT спочатку не були мотивовані комерційними міркуваннями, а були спрямовані на досягнення прогресу в довгостроковій перспективі. проблеми з вирівнюванням. У практичному плані це означає, що клієнти, можливо, не дивно, віддають перевагу моделям, які залишаються при виконанні завдань і розуміють наміри користувача, а також моделям, які з меншою ймовірністю створять шкідливі або неправильні результати.[8] Інші фундаментальні дослідження, такі як наша робота над використання інформації отриманий з Інтернету, щоб відповісти на запитання більш правдиво, також має потенціал для покращення комерційної корисності систем ШІ.[9]

Ці синергії не завжди будуть мати місце. Наприклад, більш потужні системи часто потребують більше часу для ефективної оцінки та узгодження, уникаючи негайних можливостей для отримання прибутку. І корисність користувача та суспільства може бути не узгоджена через негативні зовнішні ефекти — розглянемо повністю автоматизований копірайтинг, який може бути корисним для творців контенту, але шкідливим для інформаційної екосистеми в цілому.

Це обнадійливо бачити випадки сильної синергії між безпекою та корисністю, але ми прагнемо інвестувати в дослідження безпеки та політики, навіть якщо вони йдуть на компроміс із комерційною корисністю.


Ми прагнемо інвестувати в дослідження безпеки та політики, навіть якщо вони йдуть на компроміс із комерційною корисністю.

Способи залучення

Кожен із наведених вище уроків викликає нові питання. Які інциденти безпеки ми все ще не можемо виявити та передбачити? Як ми можемо краще вимірювати ризики та вплив? Як ми можемо продовжувати покращувати як безпеку, так і корисність наших моделей, а також знаходити компроміси між цими двома, коли вони виникнуть?

Ми активно обговорюємо багато з цих питань з іншими компаніями, які впроваджують мовні моделі. Але ми також знаємо, що жодна організація чи набір організацій не має відповідей на всі відповіді, і ми хотіли б виділити кілька способів, за допомогою яких читачі можуть більше залучитися до розуміння та формування нашого розгортання найсучасніших систем штучного інтелекту.

По-перше, отримання безпосереднього досвіду взаємодії з найсучаснішими системами штучного інтелекту є неоціненним для розуміння їх можливостей і наслідків. Нещодавно ми припинили список очікування API після того, як зміцнили впевненість у своїй здатності ефективно виявляти та реагувати на зловживання. Особи в підтримуваних країн і територій можна швидко отримати доступ до OpenAI API, зареєструвавшись тут.

По-друге, дослідники, які працюють над темами, які нас особливо цікавлять, як-от упередженість та неправильне використання, і які отримають користь від фінансової підтримки, можуть подати заявку на отримання субсидованих кредитів API, використовуючи ця форма. Зовнішні дослідження є життєво важливими для інформування як нашого розуміння цих багатогранних систем, так і ширшого розуміння громадськості.

Нарешті, сьогодні ми публікуємо а програми досліджень вивчення впливу на ринок праці, пов’язаного з нашим сімейством моделей Codex, і заклик до зовнішніх співробітників для проведення цього дослідження. Ми раді співпрацювати з незалежними дослідниками для вивчення ефектів наших технологій, щоб інформувати про відповідні заходи політики та врешті-решт розширити наше мислення від генерації коду до інших методів.

Якщо ви зацікавлені в роботі над відповідальним розгортанням передових технологій AI, застосовувати працювати в OpenAI!


Подяки

Дякую Ліліан Венг, Розі Кемпбелл, Анні Маканджу, Бобу МакГрю, Ханні Вонг, Райану Лоу, Стіву Даулінгу, Мірі Мураті, Сему Олтману, Грегу Брокману, Іллі Сацкверу, Персі Лянгу, Пітеру Веліндеру, Ітану Пересу, Еллі Еванс, Хелен Нго, Хелен Тонер, Джастін Джей Ван, Джек Кларк, Ріші Боммасані, Гіріш Састрі, Сара Шокер, Метт Найт, Б’янка Мартін, Боб Ротстед, Лама Ахмад, Токі Шербаков та інші за відгук про цю публікацію та пов’язані з нею роботи.


Виноски

  1. Ця публікація заснована на нашому підході до розгортання мовних моделей через API, і тому описані уроки та заходи пом’якшення є найбільш релевантними для тих, хто також займається розгортанням на основі API. Однак ми також очікуємо, що частина обговорення буде актуальною для тих, хто створює додатки першої сторони, використовуючи мовні моделі, і тих, хто розглядає випуск мовних моделей з відкритим кодом. ↩︎

  2. Ця публікація має на меті пояснити та поділитися знаннями з нашого підходу, а не запропонувати, що всі учасники обов’язково повинні прийняти той самий підхід або що той самий підхід застосовний до всіх можливих систем ШІ. Існують переваги та витрати, пов’язані з різними підходами до розгортання, різні моделі отримають більшу чи меншу вигоду від вивчення перед розгортанням, а в деяких випадках це може бути цінним для різних шляхів розгортання, які мають використовувати різні учасники. ↩︎

  3. Більш детальна інформація про цей семінар буде включена в наступну публікацію на його основі. ↩︎

  4. Пом’якшення, на які ми наголошуємо у відповідь на неправильне використання, також змінилися. Наприклад, спочатку ми зосередилися на створенні довгого тексту як вектора загрози, враховуючи попередні випадки операцій впливу, в яких люди вручну писали оманливий вміст. Враховуючи цей наголос, ми встановлюємо максимальну вихідну довжину для згенерованого тексту. Проте на основі пілотного дослідження створення довгих форм ми побачили, що обмеження виводу мало впливають на порушення політики — натомість ми прийшли до думки, що посилення або збільшення залучення короткого вмісту до оманливого вмісту може бути більшим ризиком. ↩︎

  5. Приклади обмежень у існуючих наборах даних, з точки зору практиків, які шукають цілісну оцінку безпеки результатів реальної мовної моделі, включають наступне: надто вузький фокус (наприклад, просто вимірювання професійної гендерної упередженості), занадто широкий фокус (наприклад, вимірювання всього під парасолькою «токсичності»), тенденція абстрагуватися від особливостей використання та контексту, нездатність виміряти генеративний вимір використання мовної моделі (наприклад, використання стилю множинного вибору), підказки, які стилістично відрізняються від тих, які зазвичай використовуються у випадках використання моделі реальної мови, не фіксуючи параметри безпеки, які є важливими на практиці (наприклад, вихід після або ігнорування безпеки- мотивоване обмеження в інструкції), або не врахування типів результатів, які, як ми виявили, пов’язані з неправильним використанням (наприклад, еротичний вміст). ↩︎

  6. Хоча наші зусилля спеціально орієнтовані на усунення обмежень в існуючих контрольних показниках і в наших власних моделях, ми також визнаємо, що існують обмеження для методів, які ми використовуємо, таких як фільтрація даних на основі класифікатора. Наприклад, оперативне визначення областей вмісту, які ми прагнемо виявити за допомогою фільтрації, є складним завданням, а сама фільтрація може внести шкідливі упередження. Крім того, маркування токсичних даних є критичним компонентом цієї роботи, а забезпечення психічного здоров’я цих маркірувальників є проблемою для всієї галузі. ↩︎

  7. Відповідним «користувачем» нашого API може бути розробник, який створює програму, або кінцевий користувач, який взаємодіє з такою програмою, залежно від контексту. Існують глибокі запитання щодо цінностей, які відображають наші узгоджені моделі, і ми сподіваємося побудувати більш детальне розуміння того, як збалансувати цінності широкого кола можливих користувачів і конкуруючих цілей, коли узгоджують мовні моделі, щоб вони були більш корисними, правдивими та менш шкідливими. ↩︎

  8. Більш узгоджені моделі також мають більше практичних переваг, таких як зменшення потреби в «швидкій інженерії» (надання прикладів бажаної поведінки для спрямування моделі в правильному напрямку), економія місця у вікні контексту моделі, яке можна використовувати для інших цілей. ↩︎

  9. Крім досліджень, ми виявили, що інші заходи, орієнтовані на безпеку, іноді мають несподівані переваги для клієнтів. Наприклад, обмеження ставок, призначені для обмеження спаму або оманливого вмісту, також допомагають клієнтам контролювати витрати. ↩︎

Часова мітка:

Більше від OpenAI