Цей декодер активності мозку перетворює ідеї в текст, використовуючи лише сканування

Цей декодер активності мозку перетворює ідеї в текст, використовуючи лише сканування

Мова і мова - це те, як ми виражаємо свої внутрішні думки. Але нейробіологи просто обійшли потребу в чутній мові, принаймні в лабораторії. Натомість вони безпосередньо підключилися до біологічної машини, яка генерує мову та ідеї: мозку.

Використовуючи сканування мозку та значну дозу машинного навчання, команда з Техаського університету в Остіні розробила «мовний декодер», який фіксує суть того, що людина чує, базуючись лише на патернах активації мозку. Далекий від простого поні, декодер також може перекладати уявне мовлення та навіть генерувати описові субтитри для німого кіно за допомогою нейронної активності.

Ось головне: цей метод не потребує хірургічного втручання. Замість того, щоб покладатися на імплантовані електроди, які прослуховують електричні спалахи безпосередньо від нейронів, нейротехнологія використовує функціональну магнітно-резонансну томографію (фМРТ), абсолютно неінвазивну процедуру, для створення карт мозку, які відповідають мові.

Щоб було зрозуміло, ця технологія не є читанням думок. У кожному випадку декодер створює парафрази, які передають загальну ідею речення чи абзацу. Він не повторює кожне слово. Але це також сила декодера.

«Ми вважаємо, що декодер представляє щось глибше, ніж мови», — сказав провідний автор дослідження доктор Олександр Хут на брифінгу для преси. «Ми можемо відновити загальну ідею… і побачити, як ідея розвиватиметься, навіть якщо точні слова будуть втрачені».

Дослідження, опублікований цього тижня в Nature Neuroscience, представляє потужний перший поштовх при неінвазивності інтерфейси мозок-машина для декодування мови — загальновідомо складна проблема. З подальшим розвитком технологія може допомогти тим, хто втратив здатність говорити, відновити здатність спілкуватися із зовнішнім світом.

Робота також відкриває нові шляхи для вивчення того, як мова кодується в мозку, і для вчених ШІ, щоб копати в «чорній скриньці» моделей машинного навчання, які обробляють мову та мову.

«Це довго чекало… ми були шоковані тим, що це спрацювало так добре», — сказав Хат.

Мова декодування

Трансляція активності мозку в мову не нова. Одне попереднє дослідження використовували електроди, розміщені безпосередньо в мозку пацієнтів з паралічем. Прислухаючись до електричного стукання нейронів, команда змогла реконструювати повні слова пацієнта.

Хут вирішив вибрати альтернативний, якщо сміливий, шлях. Замість того, щоб покладатися на нейрохірургію, він обрав неінвазивний підхід: фМРТ.

«Очікування серед нейробіологів загалом, що ви можете робити подібні речі за допомогою фМРТ, досить низькі», — сказав Хут.

Є багато причин. На відміну від імплантатів, які впливають безпосередньо на нервову діяльність, фМРТ вимірює, як змінюється рівень кисню в крові. Це називається сигналом BOLD. Оскільки активніші ділянки мозку потребують більше кисню, відповіді BOLD діють як надійний проксі нейронної активності. Але це супроводжується проблемами. Сигнали повільні порівняно з вимірюванням електричних сплесків, і сигнали можуть бути шумними.

Проте фМРТ має величезну перевагу порівняно з мозковими імплантатами: вона може контролювати весь мозок із високою роздільною здатністю. Порівняно зі збором даних із самородка в одному регіоні, це забезпечує з висоти пташиного польоту когнітивні функції вищого рівня, включно з мовою.

Що стосується декодування мови, більшість попередніх досліджень торкалися моторної кори головного мозку, області, яка контролює, як рот і гортань рухаються для генерування мови, або більш «поверхневого рівня» в обробці мови для артикуляції. Команда Хата вирішила піднятися на одну абстракцію: у сферу думок та ідей.

У невідоме

Команда з самого початку зрозуміла, що їй потрібні дві речі. По-перше, набір даних високоякісного сканування мозку, який використовується для навчання декодера. По-друге, платформа машинного навчання для обробки даних.

Щоб створити базу даних карти мозку, семи добровольцям неодноразово сканували їхній мозок, коли вони слухали подкасти, а їхню нейронну активність вимірювали в апараті МРТ. Нікому не цікаво лежати всередині гігантського гучного магніту, і команда подбала про те, щоб волонтери були зацікавлені та пильні, оскільки фактори уваги до розшифровки.

Для кожної людини наступний масивний набір даних був поданий у структуру, що працює на основі машинного навчання. Завдяки нещодавньому вибуху моделей машинного навчання, які допомагають обробляти природну мову, команда змогла використати ці ресурси та легко створити декодер.

Він має кілька компонентів. Перша — це модель кодування з використанням оригінального GPT, попередника надзвичайно популярного ChatGPT. Модель бере кожне слово і передбачає, як відреагує мозок. Тут команда налаштувала GPT, використовуючи понад 200 мільйонів слів із коментарів і подкастів Reddit.

У цій другій частині використовується популярна техніка машинного навчання під назвою байєсівське декодування. Алгоритм вгадує наступне слово на основі попередньої послідовності та використовує вгадане слово для перевірки фактичної реакції мозку.

Наприклад, один епізод подкасту мав сюжетну лінію «моєму татові це не потрібно…». Коли в декодер було подано підказку, воно прийшло з потенційними відповідями: «багато», «правильно», «оскільки» тощо. Порівняння передбачуваної активності мозку з кожним словом із згенерованою з реального слова допомогло декодеру відточити моделі активності мозку кожної людини та виправити помилки.

Після повторення процесу з найкращими прогнозованими словами, аспект декодування програми

зрештою дізнався унікальний «нейронний відбиток» кожної людини для того, як вони обробляють мову.

Нейро-перекладач

На підтвердження концепції команда порівняла розшифровані відповіді з реальним текстом історії.

Це було напрочуд близько, але лише для загальної суті. Наприклад, одна сюжетна лінія, «ми починаємо обмінюватися історіями про наше життя, ми обидва з півночі», була розшифрована як «ми почали говорити про наш досвід у місцевості, де він народився, я був з півночі».

Це перефразування очікуване, пояснив Хут. Оскільки fMRI працює досить шумно та мляво, практично неможливо захопити та декодувати кожне слово. Декодер харчується сумішшю слів і має роз’єднати їх значення за допомогою таких функцій, як повороти фраз.

декодер сканування мозку фактичного стимулу проти розшифрованого
Авторство зображення: Техаський університет в Остіні

Навпаки, ідеї більш постійні і змінюються відносно повільно. Оскільки fMRI має затримку під час вимірювання нейронної активності, він фіксує абстрактні поняття та думки краще, ніж конкретні слова.

Цей підхід високого рівня має переваги. Незважаючи на брак точності, декодер фіксує вищий рівень представлення мови, ніж попередні спроби, включно з завданнями, не обмежуючись лише мовою. В одному тесті волонтери дивилися анімаційний ролик дівчини, на яку нападають дракони, без звуку. Використовуючи лише активність мозку, декодер описав сцену з точки зору головного героя як текстову історію. Іншими словами, декодер зміг перевести візуальну інформацію безпосередньо в розповідь на основі репрезентації мови, закодованої в діяльності мозку.

Подібним чином декодер також реконструював хвилинні уявні історії від волонтерів.

Після більш ніж десяти років роботи над технологією, «це було шокуюче та захоплююче, коли вона нарешті запрацювала», - сказав Хут.

Хоча декодер не зовсім точно читає думки, команда ретельно оцінювала конфіденційність розуму. У серії тестів вони виявили, що декодер працював лише за активної розумової участі добровольців. За словами першого автора Джеррі Танга, якщо учасникам було запропоновано порахувати в порядку семи, назвати різних тварин або подумки скласти власні історії, декодер швидко погіршився. Іншими словами, декодеру можна «свідомо протистояти».

Наразі ця технологія працює лише після місяців ретельного сканування мозку в гучно гудливій машині, лежачи абсолютно нерухомо, що навряд чи можливо для клінічного використання. Команда працює над перекладом технології на fNIRS (функціональна спектроскопія ближнього інфрачервоного діапазону), яка вимірює рівень кисню в крові в мозку. Хоча він має нижчу роздільну здатність, ніж fMRI, fNIRS є набагато більш портативним, оскільки основним обладнанням є пристрій, схожий на плавальну шапочку, який легко поміщається під толстовку.

«За допомогою налаштувань ми зможемо перевести поточні налаштування на повний продаж fNIRS», — сказав Хат.

Команда також планує використовувати новіші мовні моделі, щоб підвищити точність декодера та потенційно з’єднати різні мови. Оскільки мови мають спільне нейронне представлення в мозку, декодер теоретично міг би кодувати одну мову та використовувати нейронні сигнали, щоб декодувати її в іншу.

Це «захоплюючий напрямок майбутнього», — сказав Хат.

Зображення Фото: Джеррі Танг/Марта Моралес/Техаський університет в Остіні

Часова мітка:

Більше від Хаб сингулярності