Цей робот передбачає, коли ви посміхнетесь, а потім одразу посміхається у відповідь

Перевидано Платоном

читають: 0

This Robot Predicts When You'll Smile—Then Grins Back Right on Cue PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Комеді-клуби – мої улюблені прогулянки на вихідних. Зберіть друзів, випийте кілька напоїв, і коли жарт прийде до нас усіх, настане чарівний момент, коли наші погляди зустрінуться й зухвало посміхнуться.

Посмішка може перетворити незнайомців на найдорожчих друзів. Це шпори зустрічай-мила Голлівудські сюжети, відновлюють розірвані стосунки та нерозривно пов’язані з нечіткими, теплими почуттями радості.

Принаймні для людей. Для роботів їхні спроби щиро посміхнутися часто потрапляють у жахливу долину — досить близько, щоб нагадувати людину, але викликаючи відтінок занепокоєння. Логічно, ви знаєте, що вони намагаються зробити. Але передчуття підказує, що щось не так.

Це може бути через час. Роботів навчили імітувати вираз обличчя посмішки. Але вони не знають, коли ввімкнути посмішку. Коли люди спілкуються, ми щиро посміхаємося в тандемі без будь-якого свідомого планування. Роботам потрібен час, щоб проаналізувати вираз обличчя людини, щоб відтворити посмішку. Для людини навіть мілісекунди затримки піднімають волосся на потилиці — як у фільмі жахів, щось здається маніпулятивним і неправильним.

Минулого тижня команда з Колумбійського університету продемонстрував алгоритм яка вчить роботів ділитися посмішкою зі своїми людьми-операторами. Штучний інтелект аналізує незначні зміни обличчя, щоб передбачити вирази оператора приблизно за 800 мілісекунд до того, як вони відбудуться — якраз достатньо часу, щоб робот посміхнувся у відповідь.

Команда навчила м’яке обличчя людиноподібного робота на ім’я Емо передбачати та відповідати виразам свого супутника-людини. З силіконовим обличчям, тонованим у блакитний колір, Емо схожий на прибульця з наукової фантастики 60-х. Але він охоче посміхнувся разом зі своїм партнером-людиною на тій самій «емоційній» хвилі.

Людиноподібні роботи часто незграбні та неповороткі під час спілкування з людьми, пише Доктор Рейчел Джек з Університету Глазго, яка не брала участі в дослідженні. ChatGPT та інші великі мовні алгоритми вже можуть зробити мову штучного інтелекту схожою на людську, але невербальні комунікації важко відтворити.

Програмування соціальних навичок — принаймні для виразу обличчя — у фізичних роботів — це перший крок до допомоги «соціальним роботам приєднатися до соціального світу людей», — написала вона.

Під капотом

Від роботоксис до робо-серверів, які приносять вам їжу та напої, автономні роботи все більше входять у наше життя.

У Лондоні, Нью-Йорку, Мюнхені та Сеулі автономні роботи мандрувати хаотичними аеропортами, пропонуючи допомогу клієнтам — реєстрацію, пошук виходу на посадку або повернення втраченого багажу. У Сінгапурі кілька роботів семифутового зросту з круговим оглядом на 360 градусів бродити в аеропорту позначення потенційних проблем безпеки. Під час пандемії, собаки-роботи примусове соціальне дистанціювання.

Але роботи можуть більше. Для небезпечних робіт, таких як прибирання уламків зруйнованих будинків або мостів, вони можуть бути піонерами рятувальних робіт і підвищити безпеку для перших служб реагування. Оскільки населення планети дедалі старіє, вони могли б допомогти медсестрам підтримати людей похилого віку.

Поточний людиноподібні роботи чарівні по-мультяшному. Але головним інгредієнтом, за допомогою якого роботи потрапляють у наш світ, є довіра. Оскільки вчені створюють роботів із все більш людськими обличчями, ми хочемо, щоб їхні вирази відповідали нашим очікуванням. Це не просто імітація виразу обличчя. Щира спільна усмішка «так, я знаю» поверх жахливого жарту формує зв’язок.

Невербальна комунікація — вирази, жести рук, пози тіла — це інструменти, які ми використовуємо, щоб виразити себе. З ChatGPT та іншими генеративний ШІ, машини вже можуть «спілкуватися у відео та усно», сказав автор дослідження доктор Ход Ліпсон до наука.

Але коли мова заходить про реальний світ, де погляд, підморгування та посмішка можуть мати значення, це «канал, якого зараз не вистачає», — сказав Ліпсон. «Посмішка в невідповідний момент може мати негативні наслідки. [Якщо навіть на кілька мілісекунд запізно], здається, що ти, можливо, потураєш».

Зараз вилетить пташка

Щоб залучити роботів до невербальних дій, команда зосередилася на одному аспекті — спільній усмішці. Попередні дослідження попередньо запрограмували роботів імітувати посмішку. Але оскільки вони не є спонтанними, це спричиняє невелику, але помітну затримку та робить посмішку фальшивою.

«Є багато речей, які входять у невербальне спілкування», які важко оцінити, сказав Ліпсон. «Причина, чому нам потрібно говорити «сир», коли ми робимо фото, полягає в тому, що посміхнутися на вимогу насправді досить важко».

Нове дослідження було зосереджено на термінах.

Команда розробила алгоритм, який передбачає усмішку людини та змушує людиноподібне аніматронне обличчя посміхатися в тандемі. Роботизоване обличчя, яке називається Емо, має 26 шестерень — скажімо, штучних м’язів — оповитих еластичною силіконовою «шкірою». Кожна шестерня прикріплена до основного «скелета» робота за допомогою магнітів, щоб рухати бровами, очима, ротом і шиєю. Очі Емо мають вбудовані камери, щоб записувати навколишнє середовище та контролювати рухи очних яблук і моргання.

Сам по собі Емо може відстежувати власну міміку. Метою нового дослідження було допомогти йому інтерпретувати емоції інших. Команда використала трюк, який може знати будь-який підліток-інтроверт: вони попросили Емо подивитися в дзеркало, щоб навчитися контролювати свої механізми та створити ідеальний вираз обличчя, наприклад посмішку. Робот поступово навчився узгоджувати свої вирази з моторними командами, скажімо, «підніміть щоки». Потім команда видалила будь-яке програмне забезпечення, яке потенційно могло занадто сильно розтягнути обличчя, пошкодивши кремнієву шкіру робота.

«Виявляється... [зробити] обличчя робота, яке може посміхатися, було неймовірно складно з механічної точки зору. Це важче, ніж зробити роботизовану руку», — сказав Ліпсон. «Ми дуже добре розпізнаємо неавтентичні посмішки. Тому ми дуже чутливі до цього».

Щоб протистояти дивній долині, команда навчила Емо передбачати рухи обличчя за допомогою відео людей, які сміються, здивовані, хмуряться, плачуть та роблять інші вирази. Емоції універсальні: коли ти посміхаєшся, куточки твого рота згортаються у півмісяць. Коли ви плачете, брови змикаються.

ШІ аналізував рухи обличчя в кожній сцені кадр за кадром. Вимірюючи відстань між очима, ротом та іншими «особовими орієнтирами», він виявив ознаки, які відповідають певній емоції — наприклад, підняття кутика рота свідчить про натяк на посмішку, тоді як рух вниз може нахмуритися.

Після навчання штучному інтелекту знадобилося менше секунди, щоб розпізнати ці орієнтири обличчя. Увімкнувши Емо, обличчя робота могло передбачити посмішку на основі людської взаємодії протягом секунди, так що воно посміхалося разом зі своїм учасником.

Щоб було зрозуміло, штучний інтелект не «відчуває». Швидше, він поводиться як людина, коли хихикає кумедно встаючи зі щирою усмішкою.

Вираз обличчя – не єдиний сигнал, який ми помічаємо під час спілкування з людьми. Легке похитування головою, кивок, підняті брови чи жести рукою залишають слід. Незалежно від культури, «ums», «ahhs» і «like» або їхні еквіваленти інтегровані в повсякденні взаємодії. Зараз Емо схожий на дитину, яка навчилася посміхатися. Він ще не розуміє інших контекстів.

"Попереду ще багато чого" сказав Ліпсон. Ми лише дряпаємо поверхню невербальної комунікації для ШІ. Але «якщо ви вважаєте, що спілкування з ChatGPT цікаве, просто зачекайте, доки ці речі не стануть фізичними, і всі ставки скасовуються».

Зображення Фото: Yuhang Hu, Columbia Engineering через YouTube