Що означає узгодити ШІ з людськими цінностями?

Перевидано Платоном

читають: 0

Багато років тому я навчився програмувати на старій машині Symbolics Lisp. Операційна система мала вбудовану команду, написану як «DWIM», скорочення від «Do What I Mean». Якщо я введу команду та отримую помилку, я можу ввести «DWIM», і машина спробує з’ясувати, що я збираюся зробити. Дивовижну частку часу це справді спрацювало.

Команда DWIM була мікрокосмом більш сучасної проблеми «вирівнювання штучного інтелекту»: ми, люди, схильні давати машинам неоднозначні або помилкові інструкції, і ми хочемо, щоб вони робили те, що ми хочемо, а не обов’язково те, що ми говоримо.

Комп’ютери часто неправильно розуміють те, що ми хочемо від них, з несподіваними й часто кумедними результатами. Наприклад, один дослідник машинного навчання, досліджуючи підозріло хороші результати програми класифікації зображень, відкритий що він ґрунтувався на класифікації не на самому зображенні, а на тому, скільки часу знадобилося для доступу до файлу зображення — зображення з різних класів зберігалися в базах даних із дещо різним часом доступу. інший заповзятливий програміст хотів, щоб його пилосос Roomba перестав натикатися на меблі, тому він підключив Roomba до нейронної мережі, яка винагороджувала швидкість, але карала Roomba, коли передній бампер з чимось зіткнувся. Машина досягла цих цілей, завжди рухаючись назад.

Але спільнота дослідників штучного інтелекту бачить у цих анекдотах темнішу сторону. Насправді вони вважають, що нездатність машин розрізняти, чого ми насправді хочемо від них, є ризиком для існування. Щоб вирішити цю проблему, вважають вони, ми повинні знайти способи узгодити системи ШІ з уподобаннями, цілями та цінностями людини.

Ця точка зору набула популярності з книгою-бестселером 2014 року Суперінтелект філософа Ніка Бострома, який частково стверджував, що зростаючий інтелект комп’ютерів може становити пряму загрозу для майбутнього людства. Бостром ніколи не давав точного визначення інтелекту, але, як і більшість інших у спільноті прихильників ШІ, він прийняв визначення пізніше артикульований дослідником ШІ Стюарт Рассел як: «Суб'єкт вважається розумним, грубо кажучи, якщо він обирає дії, які, як очікується, досягнуть його цілей, враховуючи те, що він сприймає».

Свій погляд на ризики ШІ Бостром базував на двох тезах. Перший — теза про ортогональність, яка, за словами Бострома, стверджує: «Інтелект і кінцеві цілі є ортогональними осями, уздовж яких можливі агенти можуть вільно змінюватися. Іншими словами, більш-менш будь-який рівень інтелекту в принципі можна поєднати з більш-менш будь-якою кінцевою метою». Другий — теза про інструментальну конвергенцію, яка передбачає, що розумний агент діятиме таким чином, щоб сприяти його власному виживанню, самовдосконаленню та придбанню ресурсів, доки це підвищує ймовірність досягнення агентом своєї кінцевої мети. Тоді він зробив одне останнє припущення: незабаром дослідники створять суперінтелект ШІ, який «суттєво перевищує когнітивні можливості людини практично в усіх сферах інтересів».

Для Бострома та інших учасників спільноти, що займається адаптацією штучного інтелекту, ця перспектива означає загибель для людства, якщо нам не вдасться узгодити надрозумні штучні інтелекти з нашими бажаннями та цінностями. Бостром ілюструє цю небезпеку за допомогою відомого тепер мисленнєвого експерименту: уявіть, що надрозумному штучному інтелекту доручено максимізувати виробництво канцелярських скріпок. Згідно з тезами Бострома, у прагненні досягти цієї мети система штучного інтелекту використовуватиме свій надлюдський блиск і креативність, щоб збільшити власну силу та контроль, зрештою придбавши всі світові ресурси для виробництва більшої кількості скріпок. Людство вимре, але виробництво канцелярських скріпок дійсно буде збільшено.

Якщо ви вірите, що інтелект визначається здатністю досягати цілей, що будь-яка ціль може бути «вставлена» людьми в суперінтелектуального агента ШІ, і що такий агент буде використовувати свій суперінтелект, щоб зробити все для досягнення цієї мети, тоді ви будете прийти до того ж висновок що й зробив Рассел: «Все, що потрібно для забезпечення катастрофи, — це висококомпетентна машина в поєднанні з людьми, які мають недосконалу здатність повністю й правильно вказувати людські вподобання».

Це знайомий троп із наукової фантастики — людству загрожують машини, що вийшли з-під контролю, які неправильно витлумачили людські бажання. Тепер невелика частина спільноти дослідників штучного інтелекту глибоко стурбована подібним сценарієм у реальному житті. Десятки інститутів уже витратили сотні мільйонів доларів на цю проблему, а дослідницькі зусилля щодо узгодження тривають в університетах по всьому світу та у великих компаніях ШІ, таких як Google, Meta та OpenAI.

А як щодо безпосередніх ризиків, пов’язаних із несуперінтелектуальним ШІ, таких як втрата роботи, упередженість, порушення конфіденційності та поширення дезінформації? Виявилося, що співтовариства, які стурбовані головним чином такими короткостроковими ризиками, і ті, хто більше турбується про довгострокові ризики вирівнювання, мало збігаються. Насправді існує щось на кшталт культурної війни штучного інтелекту, коли одна сторона більше стурбована цими поточними ризиками, ніж тим, що вона вважає нереалістичним техно-футуризмом, а інша сторона вважає поточні проблеми менш актуальними, ніж потенційні катастрофічні ризики, які створює надрозумний штучний інтелект.

Для багатьох за межами цих конкретних спільнот, вирівнювання ШІ виглядає чимось схожим на релігію — з шанованими лідерами, незаперечною доктриною та відданими учнями, які борються з потенційно всемогутнім ворогом (необ’єднаний суперрозумний ШІ). Дійсно, нещодавно інформатик і блогер Скотт Ааронсон зазначив, що зараз існують «православна» та «реформована» гілки віри вирівнювання ШІ. Перший, пише він, майже повністю стурбований «збійним штучним інтелектом, який обманює людей, поки працює, щоб їх знищити». На противагу цьому, пише він, «ми, ті, хто ризикує реформувати ШІ, припускаємо таку можливість, але нас хвилює принаймні стільки ж потужний ШІ, який є зброєю злих людей, який, як ми очікуємо, створить ризик для існування набагато раніше».

Багато дослідників активно беруть участь у проектах на основі вирівнювання, починаючи від спроби надати принципів моральної філософії до машин, до навчання великих мовних моделей на краудсорсингових етичних судженнях. Жодна з цих спроб не була особливо корисною для того, щоб змусити машини міркувати про реальні ситуації. Багато авторів відзначали численні перешкоди, які заважають машинам вивчати людські вподобання та цінності: люди часто ірраціональні та поводяться таким чином, що суперечить їхнім цінностям, а цінності можуть змінюватися протягом життя і поколінь. Зрештою, незрозуміло, чиї цінності ми маємо навчити машинам вивчати.

Багато хто в спільноті вирівнювання вважає, що найперспективнішим шляхом уперед є техніка машинного навчання, відома як зворотне навчання з підкріпленням (IRL). З IRL машині не поставлено мету максимізувати; Такі «вставлені» цілі, на думку прихильників узгодження, можуть ненавмисно призвести до сценаріїв максимізації скріпок. Натомість завдання машини полягає в тому, щоб спостерігати за поведінкою людей і визначати їхні вподобання, цілі та цінності. В останні роки дослідники використовували IRL для навчити машини грати у відеоігри спостерігаючи за людьми та навчаючи роботів як робити сальто назад надаючи їм поступовий зворотний зв’язок від людей (люди переглядали короткі ролики різних спроб робота та вибирали той, який виглядав найкраще).

Незрозуміло, чи можуть подібні методи навчити машини більш тонким і абстрактним ідеям людських цінностей. Письменник Браян Крістіан, автор книги a науково-популярна книга про вирівнювання ШІ, є оптимістичним: «Не так вже й важко уявити заміну туманного поняття «сальто назад» ще більш туманним і невимовним поняттям, як-от «корисність». Або «доброта». Або «хороша» поведінка».

Однак я вважаю, що це недооцінює виклик. Такі етичні поняття, як доброта та хороша поведінка, набагато складніші та залежні від контексту, ніж будь-що, що IRL опанувала досі. Розглянемо поняття «правдивість» — цінність, яку ми напевно хочемо мати в наших системах ШІ. Дійсно, основною проблемою сучасних великих мовних моделей є їхня нездатність відрізнити правду від брехні. У той же час іноді нам може знадобитися, щоб наші помічники ШІ, як і люди, стримали свою правдивість: щоб захистити конфіденційність, уникнути образ інших або захистити когось у незліченній кількості інших ситуацій, які важко сформулювати.

Інші етичні поняття настільки ж складні. Має бути зрозуміло, що основним першим кроком до навчання машин етичним концепціям є надання їм можливості сприймати людські концепції в першу чергу, які, як я стверджував, все ще належать штучному інтелекту. найважливіша відкрита проблема.

Більше того, я бачу ще більш фундаментальну проблему з науковими уявленнями про вирівнювання ШІ. Більшість дискусій уявляють суперінтелектуальний штучний інтелект як машину, яка, перевершуючи людей у всіх когнітивних завданнях, все ще не має людського здорового глузду та залишається дивно механічною за своєю природою. І що важливо, згідно з тезою про ортогональність Бострома, машина досягла суперінтелекту, не маючи жодних власних цілей чи цінностей, натомість чекаючи, поки цілі будуть вставлені людьми.

Та чи міг інтелект працювати таким чином? Ніщо в сучасній науці психології чи нейронауки не підтверджує цю можливість. У людей, принаймні, інтелект глибоко взаємопов’язаний з нашими цілями та цінностями, а також з нашим відчуттям «я» та нашим конкретним соціальним і культурним середовищем. До цього призвело інтуїтивне уявлення про те, що певний вид чистого інтелекту можна відокремити від цих інших факторів багато невдалих прогнозів в історії ШІ. З того, що ми знаємо, здається набагато більш імовірним, що цілі загалом інтелектуальної системи штучного інтелекту не можуть бути легко вставлені, але вони повинні розвиватися, як і наші, в результаті власного соціального та культурного виховання.

У своїй книзі Сумісний з людьми, Рассел наводить аргументи на користь невідкладності дослідження проблеми вирівнювання: «Правильний час для занепокоєння щодо потенційно серйозної проблеми для людства залежить не лише від того, коли проблема виникне, але й від того, скільки часу знадобиться для підготовки та реалізації рішення. » Але без кращого розуміння того, що таке інтелект і наскільки він відокремлений від інших аспектів нашого життя, ми не можемо навіть визначити проблему, а тим більше знайти рішення. Правильне визначення та вирішення проблеми вирівнювання буде непростим; це вимагатиме від нас розробки широкої, науково обґрунтованої теорії інтелекту.

Часова мітка: 13 Грудня, 202213 Грудня, 2022

Часова мітка: Вересень 15, 2022

Що означає узгодити ШІ з людськими цінностями?

Перевидано Платоном

Більше від Квантамагазин

Доказ інформатики розкриває несподівану форму заплутаності

Машини навчаються краще, якщо ми навчимо їх основам

Чому математики заново доводять те, що вони вже знають

Як створити комп'ютер орігамі | Журнал Quanta

Запитання про пряму, що обертається, допомагає зрозуміти, що робить дійсні числа особливими

Як нескінченно багато простих чисел можуть бути нескінченно далеко одне від одного?

Як стародавнє мистецтво передбачення затемнень стало точною наукою | Журнал Quanta

Комп’ютерний науковець, який підвищує конфіденційність в Інтернеті

Дослідники хаосу тепер можуть передбачити небезпечні точки неповернення

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки

Вступ