Этот декодер активности мозга переводит идеи в текст, используя только сканы

Этот декодер активности мозга переводит идеи в текст, используя только сканы

Язык и речь — это то, как мы выражаем наши внутренние мысли. Но нейробиологи просто обошли потребность в слышимой речи, по крайней мере, в лаборатории. Вместо этого они напрямую подключились к биологической машине, которая генерирует язык и идеи: мозгу.

Используя сканирование мозга и изрядную дозу машинного обучения, команда из Техасского университета в Остине разработала «языковой декодер», который улавливает суть того, что человек слышит, основываясь только на паттернах активации его мозга. Декодер далеко не односложный, он также может переводить воображаемую речь и даже генерировать описательные субтитры для немых фильмов, используя нейронную активность.

Вот кикер: метод не требует хирургического вмешательства. Вместо того, чтобы полагаться на имплантированные электроды, которые прослушивают электрические импульсы непосредственно от нейронов, нейротехнология использует функциональную магнитно-резонансную томографию (фМРТ), совершенно неинвазивную процедуру, для создания карт мозга, соответствующих языку.

Чтобы быть ясным, технология не чтение мыслей. В каждом случае декодер создает парафразы, передающие общую идею предложения или абзаца. Он не повторяет каждое слово. Тем не менее, это также сила декодера.

«Мы думаем, что декодер представляет собой нечто более глубокое, чем языки», — сказал ведущий автор исследования доктор Александр Хут на брифинге для прессы. «Мы можем восстановить общую идею… и посмотреть, как она будет развиваться, даже если точные слова будут потеряны».

Исследование, опубликованный на этой неделе в Nature Neuroscience, представляет собой мощный первый толчок к неинвазивным мозг-машина интерфейсы для языка декодирования - общеизвестно трудная проблема. При дальнейшем развитии технология может помочь тем, кто потерял способность говорить, восстановить способность общаться с внешним миром.

Работа также открывает новые возможности для изучения того, как язык кодируется в мозгу, и для ученых, занимающихся искусственным интеллектом, для изучения «черного ящика» моделей машинного обучения, которые обрабатывают речь и язык.

«Это было давно… мы были в некотором роде шокированы тем, что это сработало так хорошо, как сейчас», — сказал Хут.

Язык декодирования

Перевод активности мозга в речь не нов. Одно предыдущее исследование использовали электроды, помещаемые непосредственно в мозг пациентов с параличом. Прислушиваясь к электрической болтовне нейронов, команда смогла восстановить полные слова пациента.

Хут решил выбрать альтернативный, пусть и смелый, маршрут. Вместо того, чтобы полагаться на нейрохирургию, он выбрал неинвазивный подход: фМРТ.

«Ожидания среди нейробиологов в целом, что вы можете делать такие вещи с помощью фМРТ, довольно низки», — сказал Хут.

Есть много причин. В отличие от имплантатов, которые напрямую связаны с нейронной активностью, фМРТ измеряет изменение уровня кислорода в крови. Это называется ЖИРНЫМ сигналом. Поскольку более активным областям мозга требуется больше кислорода, ответы BOLD действуют как надежный показатель нейронной активности. Но это связано с проблемами. Сигналы вялые по сравнению с измерением электрических вспышек, и сигналы могут быть шумными.

Тем не менее, фМРТ имеет огромное преимущество по сравнению с мозговыми имплантатами: она может контролировать весь мозг с высоким разрешением. По сравнению со сбором данных из самородка в одном регионе, он дает общее представление о когнитивных функциях более высокого уровня, включая язык.

При декодировании языка большинство предыдущих исследований касались моторной коры, области, которая контролирует движения рта и гортани для генерации речи, или более «поверхностного уровня» при обработке речи для артикуляции. Команда Хута решила подняться на одну абстракцию выше: в царство мыслей и идей.

В неизвестность

С самого начала команда поняла, что им нужны две вещи. Во-первых, набор данных высококачественных сканов мозга, используемых для обучения декодера. Во-вторых, система машинного обучения для обработки данных.

Чтобы создать базу данных карты мозга, семи добровольцам неоднократно сканировали мозг, когда они слушали истории подкастов, а их нейронную активность измеряли внутри аппарата МРТ. Лежать внутри гигантского шумного магнита никому не доставляет удовольствия, и команда позаботилась о том, чтобы волонтеры были заинтересованы и бдительны, поскольку внимание влияет на расшифровку.

Для каждого человека полученный огромный набор данных был загружен в структуру, основанную на машинном обучении. Благодаря недавнему взрыву моделей машинного обучения, которые помогают обрабатывать естественный язык, команда смогла использовать эти ресурсы и быстро создать декодер.

Он состоит из нескольких компонентов. Первая — это модель кодирования с использованием оригинального GPT, предшественника широко популярного ChatGPT. Модель берет каждое слово и предсказывает реакцию мозга. Здесь команда точно настроила GPT, используя более 200 миллионов слов из комментариев и подкастов Reddit.

Во второй части используется популярный метод машинного обучения, называемый байесовским декодированием. Алгоритм угадывает следующее слово на основе предыдущей последовательности и использует угаданное слово для проверки фактической реакции мозга.

Например, в одном выпуске подкаста сюжетной линией было «моему папе это не нужно…». При подаче в декодер в качестве подсказки она давала возможные ответы: «много», «правильно», «с тех пор» и так далее. Сравнение прогнозируемой активности мозга с каждым словом с активностью, полученной из фактического слова, помогло декодеру отточить модели активности мозга каждого человека и исправить ошибки.

После повторения процесса с лучшими предсказанными словами, аспект декодирования программы

в конце концов узнали уникальные «нейронные отпечатки пальцев» каждого человека для того, как они обрабатывают речь.

Нейро переводчик

В качестве доказательства концепции команда сопоставила расшифрованные ответы с реальным текстом истории.

Это было удивительно близко, но только для общей сути. Например, одна сюжетная линия «мы начинаем обмениваться историями о нашей жизни, мы оба с севера» была расшифрована как «мы начали рассказывать о нашем опыте в районе, где он родился, я был с севера».

Такое перефразирование ожидаемо, пояснил Хут. Поскольку фМРТ довольно шумный и медленный, почти невозможно зафиксировать и расшифровать каждое слово. Декодер получает мешанину из слов и должен распутать их значения, используя такие функции, как обороты фраз.

фактический и декодированный стимул сканирования мозга декодер
Изображение предоставлено: Техасский университет в Остине.

Напротив, идеи более постоянны и меняются относительно медленно. Поскольку фМРТ имеет задержку при измерении нейронной активности, она фиксирует абстрактные понятия и мысли лучше, чем конкретные слова.

Этот высокоуровневый подход имеет свои преимущества. Декодеру не хватает точности, но он фиксирует более высокий уровень языкового представления, чем предыдущие попытки, в том числе для задач, не ограничивающихся только речью. В одном тесте добровольцы без звука смотрели анимационный ролик о девушке, на которую нападают драконы. Используя только активность мозга, декодер описывал сцену с точки зрения главного героя как текстовую историю. Другими словами, декодер смог преобразовать визуальную информацию непосредственно в повествование на основе представления языка, закодированного в мозговой деятельности.

Точно так же декодер реконструировал воображаемые истории добровольцев продолжительностью в одну минуту.

После более десяти лет работы над технологией «было шокирующим и захватывающим, когда она наконец заработала», — сказал Хут.

Хотя декодер не совсем читает мысли, команда тщательно оценивала ментальную конфиденциальность. В ходе серии тестов они обнаружили, что декодер работал только при активном умственном участии добровольцев. По словам первого автора Джерри Танга, если участников просили сосчитать в порядке семи, назвать разных животных или мысленно составить свои собственные истории, декодер быстро ухудшился. Другими словами, декодеру можно «сознательно сопротивляться».

На данный момент технология работает только после нескольких месяцев тщательного сканирования мозга в громко гудящей машине, когда он лежит совершенно неподвижно, что вряд ли возможно для клинического использования. Команда работает над преобразованием технологии в fNIRS (функциональную спектроскопию ближнего инфракрасного диапазона), которая измеряет уровень кислорода в крови в мозге. Хотя у него более низкое разрешение, чем у фМРТ, fNIRS гораздо более портативный, поскольку основное оборудование представляет собой устройство, похожее на шапочку для плавания, которое легко помещается под толстовку с капюшоном.

«С помощью настроек мы сможем перевести текущую настройку на оптовую продажу fNIRS», — сказал Хут.

Команда также планирует использовать новые языковые модели, чтобы повысить точность декодера и, возможно, объединить разные языки. Поскольку языки имеют общее нейронное представление в мозгу, декодер теоретически может кодировать один язык и использовать нейронные сигналы для его декодирования в другой.

Это «захватывающее будущее направление», сказал Хут.

Изображение Фото: Джерри Танг/Марта Моралес/Техасский университет в Остине

Отметка времени:

Больше от Singularity Hub