这种大脑活动解码器仅使用大脑扫描将想法转化为文本

这种大脑活动解码器仅使用大脑扫描将想法转化为文本

语言和言语是我们表达内心想法的方式。 但神经科学家只是绕过了对可听语音的需求,至少在实验室是这样。 相反,他们直接利用了产生语言和想法的生物机器:大脑。

得克萨斯大学奥斯汀分校的一个团队使用脑部扫描和大量机器学习开发了一种“语言解码器”,它仅根据大脑激活模式就能捕捉到人们听到的内容的要点。 与只会一招的小马不同,解码器还可以翻译想象中的语音,甚至可以使用神经活动为无声电影生成描述性字幕。

关键在于:该方法不需要手术。 神经技术不是依赖于直接监听来自神经元的电脉冲的植入电极,而是使用功能性磁共振成像 (fMRI)(一种完全非侵入性的程序)来生成与语言相对应的脑图。

需要明确的是,这项技术并不是读心术。 在每种情况下,解码器都会生成捕捉句子或段落总体思想的释义。 它不会重现每一个单词。 但这也是解码器的力量。

“我们认为解码器代表了比语言更深层次的东西,”主要研究作者亚历山大胡特博士在新闻发布会上说。 “我们可以恢复整体想法……并查看想法如何演变,即使确切的文字丢失了。”

该研究, 本周发表于 “自然神经科学”,代表着对非侵入性的强有力的首次推动 脑机接口 解码语言——这是一个出了名的难题。 随着进一步发展,该技术可以帮助那些失去说话能力的人恢复与外界沟通的能力。

这项工作还为了解语言在大脑中的编码方式开辟了新途径,并为人工智能科学家挖掘处理语音和语言的机器学习模型的“黑匣子”开辟了新途径。

“这是一个很长的时间......我们有点震惊,它的效果如此之好,”Huth 说。

解码语言

将大脑活动转化为语音并不新鲜。 之前的一项研究 使用的电极直接放置在瘫痪患者的大脑中。 通过监听神经元的电颤动,该团队能够重建患者的完整单词。

胡特决定另辟蹊径,如果大胆的话。 他没有依赖神经外科手术,而是选择了一种非侵入性方法:fMRI。

“一般来说,神经科学家对你可以用 fMRI 做这种事情的期望很低,”Huth 说。

有很多原因。 与直接进入神经活动的植入物不同,fMRI 测量血液中氧气水平的变化。 这称为 BOLD 信号。 因为更活跃的大脑区域需要更多氧气,所以 BOLD 反应可以作为神经活动的可靠代表。 但它带来了问题。 与测量电脉冲相比,信号是缓慢的,而且信号可能有噪音。

然而,与大脑植入物相比,fMRI 有一个巨大的好处:它可以以高分辨率监测整个大脑。 与从一个区域的块中收集数据相比,它提供了更高层次认知功能(包括语言)的鸟瞰图。

对于解码语言,大多数先前的研究都利用了运动皮层,这是一个控制嘴巴和喉部如何移动以产生语音的区域,或者在语言处理中更“表层”的发音。 Huth 的团队决定进行一个抽象:进入思想和想法的领域。

进入未知

团队从一开始就意识到他们需要两件事。 一是用于训练解码器的高质量大脑扫描数据集。 第二,处理数据的机器学习框架。

为了生成脑图数据库,七名志愿者在收听播客故事时反复扫描他们的大脑,同时在 MRI 机器内测量他们的神经活动。 躺在一个巨大的、嘈杂的磁铁里对任何人来说都不是一件有趣的事,团队注意让志愿者保持兴趣和警觉,因为注意力会影响解码。

对于每个人,随之而来的大量数据集被输入到一个由机器学习支持的框架中。 得益于最近帮助处理自然语言的机器学习模型的爆炸式增长,该团队能够利用这些资源并轻松构建解码器。

它有多个组件。 第一个是使用原始 GPT 的编码模型,它是广受欢迎的 ChatGPT 的前身。 该模型获取每个单词并预测大脑将如何反应。 在这里,该团队使用来自 Reddit 评论和播客的超过 200 亿个单词对 GPT 进行了微调。

第二部分使用机器学习中一种流行的技术,称为贝叶斯解码。 该算法根据先前的序列猜测下一个单词,并使用猜测的单词来检查大脑的实际反应。

例如,一个播客剧集的故事情节是“我爸爸不需要它……”。 当作为提示输入解码器时,它会附带潜在的响应:“很多”、“正确”、“从那以后”等等。 将每个单词的预测大脑活动与实际单词生成的大脑活动进行比较,有助于解码器磨练每个人的大脑活动模式并纠正错误。

在使用最佳预测单词重复该过程后,程序的解码部分最终了解了每个人如何处理语言的独特“神经指纹”。

神经翻译器

作为概念验证,该团队将解码后的回复与实际故事文本进行对比。

它出奇地接近,但仅针对一般要点。 例如,一个故事情节,“我们开始交换关于我们都来自北方的生活的故事”,被解码为“我们开始谈论我们在他出生的地区的经历,我来自北方。”

Huth 解释说,这种解释是意料之中的。 因为 fMRI 相当嘈杂和缓慢,几乎不可能捕捉和解码每个单词。 解码器输入了一大堆单词,需要使用短语转换等功能来解开它们的含义。

实际与解码刺激大脑扫描解码器
图片来源:德克萨斯大学奥斯汀分校

相比之下,想法更持久,变化相对缓慢。 由于 fMRI 在测量神经活动时存在滞后性,因此它比具体单词更能捕捉抽象概念和思想。

这种高级方法有好处。 虽然缺乏保真度,但解码器捕获了比以前的尝试更高级别的语言表示,包括不限于仅语音的任务。 在一项测试中,志愿者观看了一个女孩被龙攻击的动画片段,没有任何声音。 仅使用大脑活动,解码器就从主角的角度将场景描述为基于文本的故事。 换句话说,解码器能够根据大脑活动中编码的语言表征,将视觉信息直接转化为叙述。

同样,解码器还重建了志愿者的一分钟长的想象故事。

经过十多年的技术研究,“当它终于奏效时,我感到既震惊又兴奋,”Huth 说。

尽管解码器并不能完全读懂思想,但该团队还是谨慎地评估了心理隐私。 在一系列测试中,他们发现解码器只有在志愿者的积极心理参与下才能工作。 第一作者 Jerry Tang 说,要求参与者按 XNUMX 的顺序数数、说出不同动物的名字或在脑海中构建自己的故事会迅速降低解码器的性能。 也就是说,解码器可以“有意识地抵制”。

目前,这项技术只有在完全静止不动的情况下,在嗡嗡作响的机器上进行数月仔细的脑部扫描后才能发挥作用,这在临床上使用几乎不可行。 该团队正致力于将该技术转化为 fNIRS(功能性近红外光谱),用于测量大脑中的血氧水平。 尽管 fNIRS 的分辨率比 fMRI 低,但它更加便携,因为主要硬件是一个类似泳帽的设备,可以轻松放入连帽衫内。

“通过调整,我们应该能够将当前的设置转化为 fNIRS 批发,”Huth 说。

该团队还计划使用更新的语言模型来提高解码器的准确性,并可能桥接不同的语言。 由于语言在大脑中具有共享的神经表征,因此理论上解码器可以对一种语言进行编码,并使用神经信号将其解码为另一种语言。

Huth 说,这是一个“令人兴奋的未来方向”。

图片来源: Jerry Tang/Martha Morales/德克萨斯大学奥斯汀分校

时间戳记:

更多来自 奇异枢纽