Піонер обчислювальної техніки допомагає ШІ побачити | Журнал Quanta

Піонер обчислювальної техніки допомагає ШІ побачити | Журнал Quanta

Піонер обчислювальної техніки допомагає ШІ побачити | Журнал Quanta PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Вступ

Коли Олексій Ефрос переїхав із сім’єю з Росії до Каліфорнії, будучи підлітком у 1980-х роках, він привіз свій радянський персональний комп’ютер Elektronika BK-0010. Машина не мала зовнішньої пам’яті та перегрівалася кожні кілька годин, тому, щоб грати у відеоігри, йому доводилося писати код, усувати неполадки та швидко грати — до того, як машина вимкнеться. Цей цикл, повторюваний більшість днів, прискорив його навчання.

«Мені дуже пощастило, що цей радянський комп’ютер був не дуже хороший!» — сказав Ефрос, який легко сміється і розмовляє з легким російським акцентом. Зараз він не так багато грає в ігри, але бажання досліджувати та використовувати всі свої інструменти залишається.

У аспірантурі Каліфорнійського університету в Берклі Ефрос почав ходити в походи та досліджувати природну красу району затоки. Невдовзі він почав поєднувати свою пристрасть до комп’ютерів із задоволенням від цих видовищ. Він розробив спосіб легкого латання дірок на фотографіях — наприклад, замінивши сміттєвий контейнер на фотографії лісу секвої природними деревами. Пізніше Adobe Photoshop застосував версію техніки для свого інструменту «заповнення з урахуванням вмісту».

Зараз комп’ютерний науковець у дослідницькій лабораторії штучного інтелекту Берклі, Ефрос поєднує величезні набори онлайн-даних із алгоритмами машинного навчання, щоб зрозуміти, моделювати та відтворювати візуальний світ. У 2016 році Асоціація обчислювальної техніки нагородила його Премія з обчислювальної техніки за його роботу над створенням реалістичних синтетичних образів, називаючи його «образ алхіміка».

Вступ

Ефрос каже, що, незважаючи на всі зусилля дослідників, машини все ще бачать принципово інакше, ніж ми. «Кольорові плями та яскравість вимагають від нас пов’язати те, що ми бачимо зараз, із нашою пам’яттю про те, де ми бачили ці речі раніше», — сказав Ефрос. «Цей зв’язок надає значення тому, що ми бачимо». Дуже часто машини бачать те, що є в даний момент, не пов’язуючи це з тим, що вони бачили раніше.

Але відмінності можуть мати переваги. У комп’ютерному зорі Ефрос цінує безпосередність знання того, чи працює алгоритм, призначений для розпізнавання об’єктів і сцен, на зображенні. Деякі з його запитань щодо комп’ютерного зору, наприклад «Що робить Париж схожим на Париж?” — мають філософський ухил. Інші, наприклад, як звертатися до стійких зміщення в наборах даних, практичні та актуальні.

«Зараз багато людей займаються штучним інтелектом із мовою», — сказав Ефрос. «Я хочу подивитися на повністю візуальні моделі, які залишилися». Покращуючи комп’ютерний зір, він не тільки сподівається на кращі практичні застосування, як-от безпілотні автомобілі; він також хоче отримати цю інформацію, щоб краще зрозуміти те, що він називає «людським візуальним інтелектом» — як люди розуміють те, що вони бачать.

Журнал Quanta зустрівся з Ефросом у його офісі в Берклі, щоб поговорити про наукові надздібності, труднощі опису візуальних зображень і наскільки насправді небезпечним є штучний інтелект. Інтерв’ю було скорочено та відредаговано для ясності.

Вступ

Як покращився комп’ютерний зір з тих пір, як ви були студентом?

Коли я починав докторську, не було майже нічого корисного. Деякі роботи загвинчували гвинти за допомогою комп’ютерного зору, але це було обмежено таким дуже контрольованим промисловим середовищем. Потім раптом моя камера виявила обличчя та зробила їх чіткішими.

Зараз комп’ютерний зір використовується у величезній кількості додатків, наприклад, у безпілотних автомобілях. Це займає більше часу, ніж деякі люди спочатку думали, але все ж прогрес є. Для тих, хто не керує автомобілем, це надзвичайно цікаво.

Почекай, ти не водиш?

Ні, я погано бачу, щоб їздити! [Сміється.] Для мене це змінило б правила гри — мати машину, яка возила б мене кудись.

Я не розумів, що ваш зір заважає вам керувати автомобілем. Чи можете ви побачити зображення, з якими працюєте, на моніторі комп’ютера?

Якщо я зроблю їх достатньо великими. Ви бачите, що мої шрифти досить великі. Я народився погано бачу. Я думаю, що всі інші диваки, оскільки мають шалено гарний зір.

Чи вплинув ваш статус не дивака на напрям ваших досліджень?

Хто знає? Безумовно, не було відчуття «О, я погано бачу, тому я збираюся створювати комп’ютери, які бачать краще». Ні, у мене ніколи це не було мотивацією.

Щоб бути хорошим науковцем, вам потрібна таємна надздібність. Вам потрібно зробити щось краще за всіх. Найцікавіше в науці те, що ми не всі маємо однакову суперздібність. Можливо, це була моя надздібність, тому що я погано бачу, я міг би краще зрозуміти проблему зору.

Вступ

Рано я зрозумів важливість попередніх даних для погляду на світ. Я сам погано бачив, але моя пам’ять про попередній досвід заповнила прогалини достатньо, щоб я міг функціонувати так само добре, як нормальна людина. Більшість людей не знають, що я погано бачу. Це дало мені — я думаю — унікальне відчуття того, що мова може йти не про пікселі, а більше про пам’ять.

Комп’ютери бачать лише те, що є зараз, тоді як ми бачимо момент, пов’язаний із гобеленом усього, що ми бачили раніше.

Чи можна взагалі передати словами ті тонкі візуальні моделі, які, наприклад, роблять Париж схожим на Париж?

Коли ви перебуваєте в певному місті, іноді ви просто знаєте, у якому місті ви знаходитесь — ось що Je Ne знаю що, навіть якщо ви ніколи не були на цьому розі. Це надзвичайно важко описати словами, але це прямо там, у пікселях.

[Для Парижа] можна говорити про те, що це зазвичай шестиповерхові будинки, і зазвичай є балкони на четвертому поверсі. Ви можете висловити дещо з цього словами, але багато що не є лінгвістичним. Для мене це захоплююче.

Ваша нещодавня робота пов’язана з навчанням комп’ютерам приймати візуальні дані способами, що імітують людський зір. Як це працює?

Зараз комп’ютери мають величезний набір даних: мільярди випадкових зображень, зібраних з Інтернету. Вони беруть випадкові зображення, обробляють одне зображення, потім беруть інше випадкове зображення, обробляють його тощо. Ви тренуєте свою [візуальну] систему [комп’ютера], переглядаючи знову і знову цей набір даних.

Спосіб, яким ми — біологічні агенти — отримуємо дані, дуже різний. Коли ми стикаємося з новою ситуацією, це єдиний раз, коли ці дані будуть доступні для нас. Ми ніколи не були в такій ситуації, в цій кімнаті, з таким освітленням, одягнені таким чином. По-перше, ми використовуємо ці дані, щоб робити те, що нам потрібно, щоб розуміти світ. Потім ми використовуємо ці дані, щоб вчитися на них, [щоб передбачити] майбутнє.

Вступ

Крім того, дані, які ми бачимо, не є випадковими. Те, що ви бачите зараз, дуже корелює з тим, що ви бачили кілька секунд тому. Ви можете розглядати це як відео. Усі кадри відео пов’язані один з одним, що дуже відрізняється від того, як комп’ютери обробляють дані.

Я зацікавлений у тому, щоб наш підхід до навчання був таким, за якого комп’ютери бачать дані, коли вони надходять, обробляють їх і навчаються на них по ходу роботи.

Я думаю, це не так просто, як комп’ютери переглядати відео замість нерухомих зображень.

Ні, вам все одно потрібні [комп’ютери] для адаптації. Мене цікавлять підходи до навчання, які бачать дані, коли вони надходять, а потім обробляють і навчаються на них по мірі надходження. Один підхід, який ми маємо, відомий як контрольно-часове навчання. Ідея полягає в тому, що коли ви дивитеся на послідовність зображень, наприклад відео, все може змінитися. Отже, ви не хочете, щоб ваша модель була виправлена. Так само, як біологічний агент постійно адаптується до свого оточення, ми хочемо, щоб комп’ютер постійно адаптувався.

Стандартна парадигма полягає в тому, що ви спочатку тренуєтеся на великому наборі даних, а потім розгортаєте. Dall·E та ChatGPT пройшли навчання в Інтернеті приблизно у 2021 році, а потім [їх знання] заморозили. Потім він викидає те, що вже знає. Більш природним способом є [навчання під час тестування], щоб спробувати засвоїти дані та навчатися на роботі, а не проводити окремі фази навчання та розгортання.

Безсумнівно, існує проблема з комп’ютерами, яка називається зміщенням домену або зміщенням набору даних — це ідея, що якщо ваші навчальні дані сильно відрізняються від даних, які ви використовуєте під час розгортання системи, все не працюватиме дуже добре. Ми досягаємо певного прогресу, але ще не зовсім там.

Вступ

Чи проблема схожа на те, як банки попереджають інвесторів про те, що минулі результати можуть не передбачити майбутні доходи?

Саме в цьому проблема. У реальному світі все змінюється. Наприклад, якщо польова миша опиниться в будинку, вона згодиться. Ви ніколи не позбудетеся цієї миші! [Сміється.] Воно народилося в полі, ніколи раніше не було в будинку, але воно знайде та з’їсть усі ваші запаси. Дуже швидко адаптується, вчиться і пристосовується до нового середовища.

Такої можливості немає в сучасних системах [комп’ютерного зору]. З безпілотним керуванням, якщо ви навчите машину в Каліфорнії, а потім випробуєте її в Міннесоті — бум! — сніг є. Воно ніколи не бачило снігу. Це заплутується.

Тепер люди вирішують це, отримуючи стільки даних, що [система] в основному бачила все. Тоді йому не потрібно адаптуватися. Але це все одно пропускає рідкісні події.

Тоді схоже, що системи штучного інтелекту – це шлях вперед. Де це залишає людей?

Робота OpenAI як над текстом (ChatGPT), так і над зображенням (Dall·E) була неймовірно захоплюючою та несподіваною. Це ще раз підтверджує цю ідею, що якщо у вас є достатньо даних, досить прості методи можуть дати напрочуд хороші результати.

Вступ

Але ChatGPT змусив мене зрозуміти, що люди не такі креативні та виняткові, як ми хочемо себе бачити. У більшості випадків розпізнавальні шаблони в нас можуть взяти верх. Ми говоримо реченнями, складеними з фраз або речень, які ми чули раніше. Звичайно, у нас є політ фантазії та творчості. Ми можемо робити те, чого не можуть комп’ютери — принаймні на даний момент. Але найчастіше нас може замінити ChatGPT, і більшість людей не помітять.

Це принизливо. Але це також мотивація вирватися з цих шаблонів, спробувати мати більше польоту фантазії, не застрягати в кліше та пастирах.

Деякі вчені висловили занепокоєння щодо ризиків, які ШІ становить для людства. хвилюєшся?

Багато дослідників, яких я дуже поважаю, попереджали про штучний інтелект. Я не хочу применшувати ці слова. Багато з них є дійсними. Але потрібно поставити речі в перспективу.

Зараз найбільша небезпека для цивілізації походить не від комп’ютерів, а від людей. Ядерний Армагеддон і зміна клімату є набагато більш актуальними проблемами. Російська Федерація напала на абсолютно ні в чому не винного сусіда. Я народився в Росії, і особливо жахливо, що мої колишні співвітчизники можуть це робити. Я роблю все можливе, щоб це залишалося темою номер один.

Ми можемо вважати, що революція штучного інтелекту є найважливішою подією нашого життя. Але революція ШІ буде нічим, якщо ми не врятуємо вільний світ.

Отже, ви зовсім не хвилюєтесь про ШІ?

Ні, знаєш, я люблю хвилюватися. Я великий хвилювач! Але якщо тут Путін, який руйнує світ [підносить руку до голови], і тут зміна клімату [опускає руку на плечі], то AI тут внизу (опускає руку на ноги). Це частки відсотка мого занепокоєння порівняно з Путіним і зміною клімату.

Часова мітка:

Більше від Квантамагазин