Что значит привести ИИ в соответствие с человеческими ценностями?

Переиздано Платоном

Читают: 0

Много лет назад я научился программировать на старой машине Symbolics Lisp. В операционной системе была встроенная команда «DWIM», сокращение от «Do What I Mean». Если я набирал команду и получал сообщение об ошибке, я мог ввести «DWIM», и машина пыталась понять, что я хотел сделать. Удивительно, но в большинстве случаев это действительно срабатывало.

Команда DWIM была микрокосмом более современной проблемы «выравнивания ИИ»: мы, люди, склонны давать машинам двусмысленные или ошибочные инструкции, и мы хотим, чтобы они делали то, что мы имеем в виду, а не обязательно то, что мы говорим.

Компьютеры часто неверно истолковывают то, что мы от них хотим, что приводит к неожиданным и часто забавным результатам. Например, один исследователь машинного обучения, изучая подозрительно хорошие результаты программы классификации изображений, открытый что он основывал классификации не на самом изображении, а на том, сколько времени требовалось для доступа к файлу изображения — изображения из разных классов хранились в базах данных с немного разным временем доступа. Другая предприимчивый программист хотел, чтобы его пылесос Roomba перестал натыкаться на мебель, поэтому он подключил Roomba к нейронной сети, которая поощряла скорость, но наказывала Roomba, когда передний бампер с чем-то сталкивался. Машина соответствовала этим целям, всегда двигаясь задним ходом.

Но сообщество исследователей выравнивания ИИ видит в этих анекдотах и более темную сторону. На самом деле они считают, что неспособность машин понять, чего мы на самом деле от них хотим, представляет собой экзистенциальный риск. По их мнению, чтобы решить эту проблему, мы должны найти способы привести системы ИИ в соответствие с человеческими предпочтениями, целями и ценностями.

Эта точка зрения получила известность благодаря бестселлеру 2014 года. суперинтеллект философом Ником Бостромом, который частично утверждал, что растущий интеллект компьютеров может представлять прямую угрозу будущему человечества. Бостром никогда не давал точного определения интеллекта, но, как и большинство других членов сообщества выравнивания ИИ, он принял это определение позже. сочлененный исследователем ИИ Стюарт Рассел как: «Сущность считается разумной, грубо говоря, если она выбирает действия, от которых ожидается достижение ее целей, учитывая то, что она восприняла».

Бостром основывал свой взгляд на рисках ИИ на двух тезисах. Первый — это тезис ортогональности, который утверждает, по словам Бострома, «Разум и конечные цели — это ортогональные оси, вдоль которых возможные агенты могут свободно варьироваться. Другими словами, более или менее любой уровень интеллекта в принципе может сочетаться с более или менее любой конечной целью». Второй — это тезис об инструментальной конвергенции, который подразумевает, что разумный агент будет действовать таким образом, который способствует его собственному выживанию, самосовершенствованию и приобретению ресурсов, если это повышает вероятность достижения агентом своей конечной цели. Затем он сделал последнее предположение: вскоре исследователи создадут сверхразум ИИ, который «значительно превзойдет когнитивные способности людей практически во всех областях, представляющих интерес».

Для Бострома и других членов сообщества сторонников ИИ эта перспектива означает гибель человечества, если нам не удастся привести сверхразумный ИИ в соответствие с нашими желаниями и ценностями. Бостром иллюстрирует эту опасность знаменитым мысленным экспериментом: представьте, что перед сверхразумным ИИ поставлена цель максимизировать производство скрепок. Согласно тезисам Бострома, в стремлении достичь этой цели система ИИ будет использовать свою сверхчеловеческую гениальность и творческий потенциал, чтобы увеличить свою собственную силу и контроль, в конечном итоге приобретя все ресурсы мира для производства большего количества скрепок. Человечество вымрет, но производство скрепок действительно увеличится.

Если вы считаете, что интеллект определяется способностью достигать целей, что любая цель может быть «вставлена» людьми в сверхразумного агента ИИ, и что такой агент будет использовать свой сверхразум для достижения этой цели, то вы прийти к тому же заключение что и сделал Рассел: «Все, что необходимо для обеспечения катастрофы, — это высококомпетентная машина в сочетании с людьми, обладающими несовершенной способностью полностью и правильно определять человеческие предпочтения».

Это знакомый образ из научной фантастики — человечеству угрожают вышедшие из-под контроля машины, неверно интерпретирующие человеческие желания. Теперь немалая часть исследовательского сообщества ИИ глубоко обеспокоена подобным сценарием, разыгрываемым в реальной жизни. Десятки институтов уже потратили на решение этой проблемы сотни миллионов долларов, а исследования по выравниванию ведутся в университетах по всему миру и в крупных компаниях по искусственному интеллекту, таких как Google, Meta и OpenAI.

А как насчет более непосредственных рисков, связанных с несверхразумным ИИ, таких как потеря работы, предвзятость, нарушение конфиденциальности и распространение дезинформации? Выяснилось, что между сообществами, озабоченными прежде всего такими краткосрочными рисками, и теми, кто больше беспокоится о долгосрочных рисках выравнивания, мало общего. На самом деле, это что-то вроде войны культур ИИ: одна сторона больше беспокоится об этих текущих рисках, чем о том, что они считают нереалистичным технофутуризмом, а другая сторона считает текущие проблемы менее насущными, чем потенциальные катастрофические риски, связанные со сверхразумным ИИ.

Для многих за пределами этих конкретных сообществ мировоззрение ИИ выглядит чем-то вроде религии — с уважаемыми лидерами, неоспоримой доктриной и преданными учениками, сражающимися с потенциально всемогущим врагом (сверхразумным ИИ, не имеющим союзников). Действительно, ученый-компьютерщик и блогер Скотт Ааронсон недавно отметил, что теперь есть «православная» и «реформистская» ветви веры мировоззрения ИИ. Первый, пишет он, почти полностью беспокоится о «смещенном ИИ, который обманывает людей, работая над их уничтожением». В отличие от этого, пишет он, «мы, сторонники реформы ИИ, допускаем такую возможность, но мы не меньше беспокоимся о мощных ИИ, которые используются в качестве оружия плохими людьми, которые, как мы ожидаем, будут представлять экзистенциальные риски гораздо раньше».

Многие исследователи активно участвуют в проектах, основанных на выравнивании, начиная от попытки привить принципы моральной философии к машинам, к обучение больших языковых моделей на краудсорсинговых этических суждениях. Ни одна из этих попыток не оказалась особенно полезной для того, чтобы заставить машины рассуждать о реальных ситуациях. Многие авторы отмечали множество препятствий, мешающих машинам изучать человеческие предпочтения и ценности: люди часто иррациональны и ведут себя так, что противоречат их ценностям, а ценности могут меняться на протяжении жизни человека и поколения. В конце концов, неясно, чьи ценности должны изучать машины.

Многие в сообществе специалистов по выравниванию считают, что наиболее перспективным направлением развития является метод машинного обучения, известный как обучение с обратным подкреплением (ИРЛ). В IRL перед машиной не ставится цель максимизировать; такие «вставленные» цели, как считают сторонники выравнивания, могут непреднамеренно привести к сценариям максимизации скрепки. Вместо этого задача машины — наблюдать за поведением людей и делать выводы об их предпочтениях, целях и ценностях. В последние годы исследователи использовали IRL для обучать машины играть в видеоигры наблюдая за людьми и обучая роботов как делать сальто назад предоставляя им дополнительную обратную связь от людей (люди просматривали короткие клипы с различными попытками робота и выбирали тот, который выглядел лучше всего).

Неясно, могут ли подобные методы научить машины более тонким и абстрактным представлениям о человеческих ценностях. Писатель Брайан Кристиан, автор книги научно-популярная книга о выравнивании ИИ, настроен оптимистично: «Нетрудно представить себе замену туманной концепции «сальто назад» еще более туманной и невыразимой концепцией, такой как «полезность». Или «доброта». Или «хорошее» поведение».

Однако я думаю, что это недооценивает проблему. Этические понятия, такие как доброта и хорошее поведение, намного сложнее и зависят от контекста, чем все, что IRL освоила до сих пор. Рассмотрим понятие «правдивости» — ценность, которую мы, безусловно, хотим иметь в наших системах искусственного интеллекта. Действительно, основная проблема современных больших языковых моделей заключается в их неспособности отличить правду от лжи. В то же время иногда мы можем захотеть, чтобы наши ИИ-помощники, как и люди, умерили свою правдивость: чтобы защитить конфиденциальность, чтобы не оскорблять других или чтобы кто-то был в безопасности, среди бесчисленного множества других трудно сформулируемых ситуаций.

Другие этические концепции столь же сложны. Должно быть ясно, что важным первым шагом к обучению машин этическим понятиям является, прежде всего, предоставление машинам возможности усваивать человеческие понятия, что, как я утверждал, по-прежнему является прерогативой ИИ. самая важная открытая проблема.

Более того, я вижу еще более фундаментальную проблему, связанную с наукой, лежащей в основе представлений о согласовании ИИ. Большинство дискуссий представляют сверхразумный ИИ как машину, которая, хотя и превосходит людей во всех когнитивных задачах, все же лишена человеческого здравого смысла и остается странно механической по своей природе. И что важно, в соответствии с тезисом Бострома об ортогональности, машина достигла сверхразума без каких-либо собственных целей или ценностей, вместо этого ожидая целей, которые будут вставлены людьми.

Но может ли разведка работать таким образом? Ничто в современной психологии или нейронауке не поддерживает эту возможность. У людей, по крайней мере, интеллект глубоко взаимосвязан с нашими целями и ценностями, а также с нашим самоощущением и нашим конкретным социальным и культурным окружением. Интуитивное предположение, что некий вид чистого интеллекта можно отделить от этих других факторов, привело к много неудачных предсказаний в истории ИИ. Из того, что мы знаем, кажется гораздо более вероятным, что цели в целом разумной системы ИИ не могут быть легко вставлены, а должны развиваться, как и мы, в результате собственного социального и культурного воспитания.

В своей книге Человек совместимый, Рассел приводит доводы в пользу безотлагательности исследования проблемы выравнивания: «Правильное время для беспокойства о потенциально серьезной проблеме для человечества зависит не только от того, когда проблема возникнет, но и от того, сколько времени потребуется на подготовку и реализацию решения. ” Но без лучшего понимания того, что такое интеллект и насколько он отделен от других аспектов нашей жизни, мы не можем даже определить проблему, не говоря уже о том, чтобы найти решение. Правильно определить и решить проблему выравнивания будет непросто; это потребует от нас разработки широкой, научно обоснованной теории интеллекта.

Отметка времени: 13 декабря 202213 декабря 2022

Отметка времени: сентябрь 15, 2022

Что значит привести искусственный интеллект в соответствие с человеческими ценностями?

Переиздано Платоном

Больше от Квантовый журнал

Доказательство компьютерных наук раскрывает неожиданную форму запутанности

Машины учатся лучше, если мы учим их основам

Почему математики повторно доказывают то, что они уже знают

Как построить компьютер оригами » вики полезно Журнал Кванта

Вопрос о вращающейся линии помогает понять, что делает действительные числа особенными

Как может бесконечно много простых чисел быть бесконечно далеко друг от друга?

Как древнее искусство предсказания затмений стало точной наукой | Журнал Кванта

Ученый-компьютерщик, повышающий конфиденциальность в Интернете

Исследователи хаоса теперь могут предсказывать опасные точки невозврата

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись

Введение