Психічні травми: кенійські працівники навчили ChatGPT розпізнавати образливий текст

Психічні травми: кенійські працівники навчили ChatGPT розпізнавати образливий текст

Психічні травми: кенійські працівники навчили ChatGPT розпізнавати образливий текст PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Повідомляється, що OpenAI найняв працівників у Кенії для перевірки десятків тисяч зразків тексту на наявність сексистського, расистського, насильницького та порнографічного вмісту, щоб допомогти зробити свою модель ChatGPT менш токсичною.

ChatGPT, випущений у листопаді минулого року, вразив Інтернет. Його здатність автоматично генерувати текст після підказки введення призвела до того, що мільйони користувачів доручили йому виконувати різноманітні завдання – розповідати анекдоти, писати код, відповідати на запитання тощо.

Не всі ці вказівки були цілком доброзичливими – зрештою, ми лише люди. Однак ChatGPT розроблено так, щоб бути більш розмовним і безпечнішим, ніж його попередник GPT-3 – він може визнавати помилки та відмовлятися виконувати невідповідні запити.

Щоб вивчити характеристики образливої ​​та образливої ​​лексики, ChatGPT потрібно було навчитися використовувати величезну кількість чистих даних із мітками, які показують різницю між безпечним і шкідливим вмістом.

Маркування даних – справа трудомістка та трудомістка. Роботи зазвичай передаються підрядникам, які наймають працівників із країн, де робоча сила дешевша. Повідомляється, що у 2021 році OpenAI підписала три контракти на суму близько 200,000 XNUMX доларів США Сама – стартап, що надає послуги анотації даних, що базується в Сан-Франциско та працює в країнах, що розвиваються – для позначення тексту для навчання ChatGPT, згідно з звітом in Time на цьому тижні.

Потім Sama набрав три десятки працівників у Кенії, яких розділили на три групи, кожній із яких було доручено прочитати тисячі зразків тексту, що містили сексуальні образи, ворожнечу та насильство.

У тексті, взятому з Інтернету, описуються всілякі небезпечні, незаконні та розпусні дії, включаючи вбивства, самогубства, тортури та інцест. Деякі співробітники повідомили, що отримали травму від необхідності опрацьовувати стільки жахливого контенту. Один чоловік сказав, що він страждав від повторюваних видінь після того, як прочитав уривок, в якому описується чоловік, який займається сексом із собакою в компанії маленької дитини.

«Це були тортури», - сказав він. «Ви будете читати кілька подібних заяв протягом тижня. Коли дійде до п’ятниці, тобі заважає думати про цю картину».

Робітники витримували дев'ятигодинні зміни і заробляли від 163 до 248 кенійських шилінгів на годину. Це приблизно від 1.32 до 2 доларів – справді незначна сума для OpenAI, оборот якої, за прогнозами, досягне 200 мільйонів доларів у 2023 році.

Інший контракт на маркування даних, не пов’язаний із ChatGPT, передбачав, що Сама просила співробітників знайти неприємні, порнографічні та насильницькі зображення, які зображують такі речі, як смерть, зґвалтування та зоофілія. Вміст, який був би незаконним у США, нібито спонукав Sama припинити свої контракти з OpenAI до лютого 2022 року, на вісім місяців раніше, ніж спочатку планувалося. Повідомляється, що співробітникам, найнятим Sama, було сказано, що їхня робота з OpenAI була закрита після того, як стартап зіткнувся з жорсткою критикою за роботу з Facebook Meta над іншим проектом модерації контенту.

«Сама розірвав контракт з OpenAI, тому що команді в Східній Африці не сподобалася запитана робота. Контракт Meta є окремим, але пов’язаним. Після консультацій зі своєю глобальною командою Sama прийняла рішення припинити всю роботу з модерації контенту, оскільки вона не відповідала баченню та місії компанії», — сказав нам представник компанії.

Вискочка завершить усі проекти маркування даних для модерації вмісту в березні 2023 року та створить «гільдію етики» – групу співробітників, які розглядатимуть запити на роботу, як нам сказали.

У заявах, які поділилися с Time, OpenAI підтвердив, що співпрацював із Sama для маркування даних, які використовуються для навчання ChatGPT, і сказав, що було неправильне розуміння типів зображень, які вони хотіли збирати. Повідомляється, що він не хотів незаконних зображень і не переглядав їх.

Вартість долара

«Щоб уточнити, Sama платить від 26,600 40,000 до 209 322 кенійських шилінгів ($XNUMX-XNUMX) на місяць, що більш ніж удвічі перевищує мінімальну зарплату в Кенії, а також значно перевищує прожитковий мінімум», — сказав прес-секретар Sama. Реєстр.

«Порівнювати її із заробітною платою в США є хибною еквівалентністю, яка неправильно характеризує ситуацію. Порівняльна західна заробітна плата становитиме від 30 до 45 доларів на годину. Sama платить майже вдвічі більше, ніж платять інші модератори вмісту в цьому регіоні, і пропонує повний пакет пільг і пенсій.

«Наша місія полягає в тому, щоб штучний загальний інтелект приносив користь всьому людству, і ми наполегливо працюємо над створенням безпечних і корисних систем ШІ, які обмежують упередженість і шкідливий контент. Класифікація та фільтрація шкідливого [тексту та зображень] є необхідним кроком для мінімізації кількості насильницького та сексуального вмісту, включеного в навчальні дані, і створення інструментів, які можуть виявляти шкідливий вміст».

Підприємства з маркування даних, такі як Sama, кажуть, що вони допомагають вирватися з бідності в бідніших країнах, але TimeРозслідування є яскравим нагадуванням про те, що, здавалося б, магічні здібності моделей штучного інтелекту побудовані на основі недорогої праці.

«Місія Sama полягає в тому, щоб подолати перешкоди для офіційного працевлаштування, надавши роботу талановитим людям, які інакше не мали б рівних кар’єрних можливостей. Sama наймає людей, які інакше не мали б кваліфікації для роботи початкового рівня в техніці, а потім навчає їх – не лише для роботи, а й для кар’єрного росту – пропонуючи курси безперервної освіти, уроки написання резюме, курси фінансової освіти та можливості для просування всередині або за межами організації», — сказав нам речник у заяві.

«Сама вплинула на понад 60,000 20 людей, направила 160,000 людей до університетів за допомогою наших стипендіальних програм і надала XNUMX XNUMX доларів США на фінансування бізнесу та стартапів».

Тим часом ажіотаж щодо штучного загального інтелекту продовжує наростати. Навіть найкращі компанії зі штучного інтелекту ще не розгадали секрет створення достатньо просунутих моделей, щоб ефективно вивчати шаблони з даних практично без нагляду людини.

Можливо, ця технологія прогресувала, але вона все ще покладається на працівників із країн, що розвиваються, які цілий день сидять перед екранами комп’ютерів і виконують повторювані й монотонні завдання, щоб тренувати гігантські моделі ШІ для технологічних компаній, які заробляють мільйони доларів.

Реєстр звернувся до OpenAI за коментарем. ®

Часова мітка:

Більше від Реєстр