Пионер компьютерных технологий, помогающий искусственному интеллекту увидеть | Журнал Кванта

Пионер компьютерных технологий, помогающий искусственному интеллекту увидеть | Журнал Кванта

Пионер компьютерных технологий, помогающий искусственному интеллекту увидеть | Журнал Quanta PlatoРазведка данных на основе блокчейна. Вертикальный поиск. Ай.

Введение

После появления Алексей Эфрос Переехав с семьей из России в Калифорнию, будучи подростком в 1980-х годах, он привез с собой персональный компьютер советской постройки «Электроника БК-0010». У машины не было внешнего хранилища, и она перегревалась каждые несколько часов, поэтому, чтобы играть в видеоигры, ему приходилось писать код, устранять неполадки и играть быстро — до того, как машина выключится. Этот цикл, повторявшийся большую часть дней, ускорил его обучение.

«Мне очень повезло, что этот советский компьютер был не очень хорош!» — сказал Эфрос, который легко смеется и говорит с легким русским акцентом. Сейчас он играет не так много игр, но желание исследовать и максимально эффективно использовать свои инструменты сохраняется.

В аспирантуре Калифорнийского университета в Беркли Эфрос начал ходить в походы и исследовать природную красоту района залива. Вскоре он начал совмещать свою страсть к компьютерам с удовольствием от этих достопримечательностей. Он разработал способ легко заделывать дыры на фотографиях — например, заменяя заблудший мусорный контейнер на фотографии красного леса естественными деревьями. Позже Adobe Photoshop принял версию этой техники для своего инструмента «заливка с учетом содержимого».

Сейчас Эфрос работает ученым-компьютерщиком в Исследовательской лаборатории искусственного интеллекта Беркли и объединяет огромные наборы онлайн-данных с алгоритмами машинного обучения, чтобы понять, смоделировать и воссоздать визуальный мир. В 2016 году Ассоциация вычислительной техники наградила его наградой. Премия в области вычислительной техники за работу по созданию реалистичных синтетических изображений, назвав его «образ алхимика".

Введение

Эфрос говорит, что, несмотря на все усилия исследователей, машины по-прежнему видят принципиально иначе, чем мы. «Области цвета и яркости требуют от нас связать то, что мы видим сейчас, с нашей памятью о том, где мы видели эти вещи раньше», — сказал Эфрос. «Эта связь придает смысл тому, что мы видим». Слишком часто машины видят то, что происходит в данный момент, не связывая это с тем, что они видели раньше.

Но разница может иметь преимущества. В компьютерном зрении Эфрос ценит возможность немедленно узнать, работает ли алгоритм, предназначенный для распознавания объектов и сцен, на изображении. Некоторые из его вопросов по компьютерному зрению, например: «Что делает Париж похожим на Париж?— имеют философский уклон. Другие, например, как решить проблему постоянного смещение в наборах данных, практичны и актуальны.

«Сейчас много людей занимаются искусственным интеллектом с языком», — сказал Эфрос. «Я хочу взглянуть на полностью визуальные закономерности, которые остались позади». Совершенствуя компьютерное зрение, он не только надеется на лучшее практическое применение, например, на беспилотные автомобили; он также хочет изучить эти идеи, чтобы лучше понять то, что он называет «человеческим визуальным интеллектом» — как люди понимают то, что они видят.

Quanta Magazine встретился с Эфросом в его офисе в Беркли, чтобы поговорить о научных сверхспособностях, сложности описания визуальных эффектов и о том, насколько на самом деле опасен искусственный интеллект. Интервью было сокращено и отредактировано для ясности.

Введение

Насколько улучшилось компьютерное зрение с тех пор, как вы были студентом?

Когда я начал писать докторскую диссертацию, в ней не было почти ничего полезного. Некоторые роботы завинчивали винты с помощью компьютерного зрения, но это было ограничено очень контролируемыми промышленными условиями. Затем внезапно моя камера обнаружила лица и сделала их резче.

Сейчас компьютерное зрение используется в огромном количестве приложений, например, в беспилотных автомобилях. Это занимает больше времени, чем некоторые думали изначально, но прогресс, тем не менее, есть. Для человека, который не водит машину, это чрезвычайно интересно.

Подожди, ты не водишь?

Нет, я плохо вижу, чтобы водить машину! [Смеется.] Для меня это изменило бы правила игры — иметь машину, на которой меня можно было бы возить куда угодно.

Я не осознавал, что твое зрение мешает тебе водить машину. Можете ли вы увидеть изображения, с которыми работаете, на мониторе компьютера?

Если я сделаю их достаточно большими. Вы можете видеть, что мои шрифты довольно большие. Я родился плохо видящим. Я думаю, что все остальные — чудаки из-за безумно хорошего зрения.

Повлиял ли ваш статус нечудака на направление ваших исследований?

Кто знает? Определенно не было чувства «Ой, я плохо вижу, поэтому я собираюсь сделать компьютеры, которые видят лучше». Нет, у меня никогда не было этого в качестве мотивации.

Чтобы быть хорошим учёным, вам нужна секретная суперсила. Вам нужно делать что-то лучше, чем все остальные. Самое замечательное в науке то, что не все мы обладаем одинаковой сверхсилой. Возможно, моя суперсила заключалась в том, что, поскольку я не очень хорошо вижу, я мог бы лучше понять проблему со зрением.

Введение

Я рано понял важность предварительных данных при взгляде на мир. Я сам не мог видеть очень хорошо, но мои воспоминания о предыдущем опыте настолько заполнили дыры, что я мог функционировать практически так же хорошо, как нормальный человек. Большинство людей не знают, что я плохо вижу. Я думаю, это дало мне уникальную интуицию: дело может быть не столько в пикселях, сколько в памяти.

Компьютеры видят только то, что есть сейчас, тогда как мы видим момент, связанный с полотном всего, что мы видели раньше.

Можно ли вообще выразить словами те тонкие визуальные закономерности, которые, например, делают Париж похожим на Париж?

Когда ты находишься в определенном городе, иногда ты просто знаешь, в каком ты городе — вот это Je Ne знаю что, даже если вы никогда не были на этом углу улицы. Это чрезвычайно сложно описать словами, но это прямо в пикселях.

[Что касается Парижа], можно говорить о том, что обычно это шестиэтажные здания, а на четвертом этаже обычно есть балконы. Кое-что из этого можно выразить словами, но многое не является лингвистическим. Для меня это захватывающе.

Ваша недавняя работа связана с обучением компьютеров принимать визуальные данные способами, имитирующими человеческое зрение. Как это работает?

Сейчас компьютеры располагают огромным набором данных: миллиарды случайных изображений, собранных из Интернета. Они берут случайные изображения, обрабатывают одно изображение, затем берут другое случайное изображение, обрабатывают его и т. д. Вы тренируете свою [визуальную систему] компьютера, снова и снова просматривая этот набор данных.

Способы, которыми мы — биологические агенты — получаем данные, очень разные. Когда мы сталкиваемся с новой ситуацией, это единственный раз, когда эти данные будут нам доступны. Мы никогда не были в такой ситуации, в этой комнате, с таким освещением, в такой одежде. Во-первых, мы используем эти данные, чтобы делать то, что нам нужно, чтобы понять мир. Затем мы используем эти данные, чтобы учиться на них, [чтобы предсказать] будущее.

Введение

Кроме того, данные, которые мы видим, не случайны. То, что вы видите сейчас, очень коррелирует с тем, что вы видели несколько секунд назад. Вы можете думать об этом как о видео. Все кадры видео коррелируют друг с другом, что сильно отличается от того, как компьютеры обрабатывают данные.

Я заинтересован в том, чтобы наш подход к обучению был таким, при котором компьютеры видят данные по мере их поступления, обрабатывают их и учатся на их основе по мере их поступления.

Я думаю, это не так просто, когда компьютеры смотрят видео, а не неподвижные изображения.

Нет, вам все равно нужны [компьютеры] для адаптации. Я заинтересован в изучении подходов, которые рассматривают данные по мере их поступления, а затем обрабатывают их и извлекают уроки по мере их поступления. Один из наших подходов известен как обучение во время тестирования. Идея состоит в том, что когда вы просматриваете последовательность изображений, например видео, все может меняться. Итак, вы не хотите, чтобы ваша модель была исправлена. Точно так же, как биологический агент всегда адаптируется к окружающей среде, мы хотим, чтобы компьютер постоянно адаптировался.

Стандартная парадигма заключается в том, что сначала вы обучаетесь на большом наборе данных, а затем развертываете. Dall·E и ChatGPT прошли обучение в Интернете примерно в 2021 году, а затем [их знания] заморозились. Затем он извергает то, что уже знает. Более естественным способом является [обучение во время тестирования], чтобы попытаться усвоить данные и учиться на рабочем месте, а не проводить отдельные этапы обучения и развертывания.

Определенно существует проблема с компьютерами, называемая сдвигом предметной области или смещением набора данных — идея о том, что если ваши обучающие данные сильно отличаются от данных, которые вы используете при развертывании системы, ничего не будет работать. очень хорошо. Мы добились определенного прогресса, но мы еще не совсем там.

Введение

Похожа ли проблема на то, как банки предупреждают инвесторов о том, что прошлые результаты могут не предсказать будущие доходы?

Именно в этом проблема. В реальном мире все меняется. Например, если в доме окажется полевая мышь, ничего страшного. Вы никогда не избавитесь от этой мыши! [Смеется.] Он родился в поле, никогда раньше не был в доме, и тем не менее он найдет и съест все ваши припасы. Очень быстро адаптируется, обучается и приспосабливается к новой среде.

Такой возможности нет в нынешних системах [компьютерного зрения]. Если вы тренируете машину в Калифорнии, а затем тестируете ее в Миннесоте — бум! - идет снег. Он никогда не видел снега. Это сбивает с толку.

Теперь люди решают эту проблему, получая столько данных, что [система] практически все видит. Тогда не нужно будет адаптироваться. Но это все еще пропускает редкие события.

Похоже, что системы искусственного интеллекта — это путь вперед. Что это значит для людей?

Работа OpenAI как над текстом (ChatGPT), так и над изображениями (Dall·E) была невероятно захватывающей и удивительной. Это подтверждает идею о том, что, если у вас достаточно данных, достаточно простые методы могут дать удивительно хорошие результаты.

Введение

Но ChatGPT заставил меня осознать, что люди не такие креативные и исключительные, какими нам хотелось бы себя видеть. Большую часть времени наши распознаватели образов могут брать верх. Мы говорим предложениями, составленными из фраз или предложений, которые мы слышали раньше. Конечно, у нас есть полет фантазии и творчества. Мы можем делать то, чего не могут компьютеры — по крайней мере, на данный момент. Но в большинстве случаев нас можно заменить ChatGPT, и большинство людей этого не заметит.

Это унизительно. Но это также мотивация вырваться из этих шаблонов, попытаться проявить больше фантазии, не застрять в клише и стилизации.

Некоторые ученые выразили обеспокоенность по поводу рисков, которые ИИ представляет для человечества. Вы беспокоитесь?

Многие исследователи, к которым я очень уважаю, предупреждали об искусственном интеллекте. Я не хочу преуменьшать эти слова. Многие из них являются действительными. Но нужно смотреть на вещи в перспективе.

Сейчас самая большая опасность для цивилизации исходит не от компьютеров, а от людей. Ядерный Армагеддон и изменение климата вызывают гораздо более насущные проблемы. РФ напала на своего ни в чем не повинного соседа. Я родился в России, и особенно ужасно, что мои бывшие соотечественники могли это делать. Я делаю все, что могу, чтобы эта тема оставалась темой номер один.

Мы можем думать, что революция искусственного интеллекта — самое важное событие нашей жизни. Но революция ИИ будет ничем, если мы не спасем свободный мир.

То есть тебя совсем не беспокоит ИИ?

Нет. Знаешь, я люблю волноваться. Я большой беспокойный человек! Но если Путин, разрушающий мир, здесь [поднимает руку к голове] и изменение климата здесь [опускает руку на плечи], то ИИ здесь, внизу [опускает руку на ноги]. Это доли процента моего беспокойства по сравнению с Путиным и изменением климата.

Отметка времени:

Больше от Квантовый журнал