この脳活動デコーダーは、スキャンのみを使用してアイデアをテキストに変換します

この脳活動デコーダーは、スキャンのみを使用してアイデアをテキストに変換します

言語とスピーチは、私たちが内なる考えを表現する方法です。 しかし、神経科学者は、少なくとも研究室では、可聴音声の必要性を回避しただけです。 代わりに、彼らは言語とアイデアを生成する生物学的機械である脳を直接利用しました。

テキサス大学オースティン校のチームは、脳スキャンと大量の機械学習を使用して、脳の活性化パターンだけに基づいて人が聞いていることの要点を捉える「言語デコーダー」を開発しました。 ワントリック ポニーとはほど遠く、デコーダーは想像上の会話を翻訳することもでき、神経活動を使用して無声映画の説明的な字幕を生成することもできます。

ここにキッカーがあります:この方法は手術を必要としません. ニューロテクノロジーは、ニューロンから直接電気バーストを聞く埋め込み電極に頼るのではなく、完全に非侵襲的な手順である機能的磁気共鳴画像法 (fMRI) を使用して、言語に対応する脳マップを生成します。

明確にするために、テクノロジーは読むことを気にしません。 いずれの場合も、デコーダは、文または段落の一般的な概念を捉えた言い換えを生成します。 すべての単語を繰り返すわけではありません。 しかし、それはデコーダーの能力でもあります。

「デコーダーは言語よりも深い何かを表していると考えています」と主任研究者のアレクサンダー・フス博士は記者会見で述べた。 「私たちは全体的なアイデアを取り戻すことができます…そして正確な言葉が失われたとしても、アイデアがどのように進化するかを見ることができます。」

調査、今週公開された ネイチャーニューロサイエンス、非侵襲性への強力な最初のプッシュを表します ブレイン・マシン・インターフェース 言語を解読するための、悪名高い難しい問題です。 この技術がさらに発展すれば、話す能力を失った人々が外の世界とコミュニケーションをとる能力を取り戻すのに役立つ可能性があります。

この研究はまた、言語が脳内でどのようにエンコードされているかを学習するための新しい道を開き、AI 科学者が音声と言語を処理する機械学習モデルの「ブラック ボックス」を掘り下げる道を開きます。

Huth 氏は次のように述べています。

デコード言語

脳の活動を音声に変換することは新しいことではありません。 XNUMX つの以前の研究 麻痺患者の脳に直接電極を埋め込んで使用します。 ニューロンの電気チャタリングを聞くことで、チームは患者から完全な言葉を再構築することができました。

Huth は、大胆であれば、別のルートを取ることにしました。 脳神経外科に頼る代わりに、彼は非侵襲的アプローチである fMRI を選択しました。

「一般的に神経科学者の間では、fMRI でこの種のことができるという期待はかなり低いです」と Huth 氏は述べています。

理由はたくさんあります。 神経活動を直接利用するインプラントとは異なり、fMRI は血液中の酸素レベルがどのように変化するかを測定します。 これを BOLD 信号と呼びます。 より活発な脳領域はより多くの酸素を必要とするため、BOLD 応答は神経活動の信頼できるプロキシとして機能します。 しかし、それには問題が伴います。 信号は、電気的バーストの測定に比べて遅く、信号にノイズが多い可能性があります。

しかし、fMRI には、脳インプラントに比べて大きな利点があります。脳全体を高解像度で監視できます。 XNUMX つの地域のナゲットからデータを収集する場合と比較して、言語を含む高レベルの認知機能の鳥瞰図を提供します。

言語の解読に関して、これまでのほとんどの研究は運動皮質、つまり口と喉頭がどのように発話を生成するかを制御する領域、または調音のための言語処理における「表面レベル」を利用していました。 Huth のチームは、XNUMX つ抽象化を進めることにしました。それは、思考とアイデアの領域です。

未知へ

チームは最初から XNUMX つのことが必要であることに気付きました。 XNUMXつは、デコーダーのトレーニングに使用される高品質の脳スキャンのデータセットです。 XNUMX つ目は、データを処理するための機械学習フレームワークです。

脳地図データベースを生成するために、XNUMX 人のボランティアがポッドキャストの話を聞きながら脳を繰り返しスキャンし、MRI 装置内で神経活動を測定しました。 巨大で騒がしい磁石の中に横たわるのは誰にとっても楽しいことではありません.

各人について、その後の膨大なデータセットが、機械学習を利用したフレームワークに入力されました。 自然言語の処理を支援する機械学習モデルが最近急増したおかげで、チームはそれらのリソースを活用して、デコーダーを簡単に構築することができました。

複数のコンポーネントがあります。 200 つ目は、大人気の ChatGPT の前身であるオリジナルの GPT を使用したエンコード モデルです。 モデルは各単語を取得し、脳がどのように反応するかを予測します。 ここで、チームは Reddit のコメントとポッドキャストから合計 XNUMX 億語以上を使用して GPT を微調整しました。

この XNUMX 番目の部分では、ベイジアン デコーディングと呼ばれる機械学習で一般的な手法を使用します。 アルゴリズムは、前のシーケンスに基づいて次の単語を推測し、推測された単語を使用して脳の実際の反応を確認します。

たとえば、あるポッドキャストのエピソードには、ストーリーラインとして「私の父はそれを必要としません…」が含まれていました。 プロンプトとしてデコーダーに入力すると、「かなり」、「正しい」、「以来」などの潜在的な応答が返されました。 各単語で予測された脳活動と実際の単語から生成された脳活動を比較することで、デコーダーは各人の脳活動パターンに焦点を合わせ、間違いを修正することができました。

最良の予測された単語でプロセスを繰り返した後、プログラムのデコードの側面

最終的に、言語をどのように処理するかについて、各人に固有の「神経指紋」を学習しました。

神経翻訳者

概念実証として、チームはデコードされた応答を実際のストーリー テキストと照らし合わせました。

驚くほど近くなりましたが、一般的な要点のみです。 たとえば、あるストーリーライン「私たちは北の出身である私たちの生活について話し始めます」は、「彼が生まれた地域での経験について話し始めた」と解読されました。私は北の出身でした。

Huth 氏は、この言い換えは当然のことだと説明しています。 fMRI はかなりノイズが多く、動作が遅いため、各単語をキャプチャしてデコードすることはほぼ不可能です。 デコーダーには単語の寄せ集めが与えられ、フレーズの順番などの機能を使用してそれらの意味を解きほぐす必要があります。

実際の刺激とデコードされた刺激 脳スキャン デコーダー
画像著作権: テキサス大学オースティン校

対照的に、アイデアはより永続的であり、比較的ゆっくりと変化します。 fMRI は神経活動を測定する際に遅延があるため、特定の言葉よりも抽象的な概念や思考をよりよく捉えます。

このハイレベルなアプローチには利点があります。 忠実度には欠けますが、デコーダーは、音声のみに限定されないタスクを含め、以前の試みよりも高いレベルの言語表現をキャプチャします。 あるテストでは、ボランティアは少女がドラゴンに襲われているアニメーションクリップを無音で見ました。 脳の活動のみを使用して、デコーダーは主人公の視点からのシーンをテキストベースのストーリーとして記述しました。 言い換えれば、デコーダーは、視覚情報を、脳活動でエンコードされた言語の表現に基づいて物語に直接変換することができました。

同様に、デコーダーは、ボランティアからの XNUMX 分間の想像上の物語も再構築しました。

この技術に XNUMX 年以上取り組んできた後、「最終的に機能したときは衝撃的でエキサイティングでした」と Huth 氏は述べています。

デコーダーは心を正確に読み取るわけではありませんが、チームは精神的なプライバシーを慎重に評価しました。 一連のテストで、彼らはデコーダーがボランティアの積極的な精神的参加でのみ機能することを発見しました. 参加者に XNUMX の順序で数を数えたり、さまざまな動物の名前を付けたり、心の中で自分のストーリーを組み立てたりするように求めると、デコーダーが急速に劣化したと、筆頭著者の Jerry Tang 氏は述べています。 言い換えれば、デコーダーは「意識的に抵抗する」ことができます。

今のところ、この技術は、完全にじっと横たわっている大声でハミングするマシンで何ヶ月も注意深く脳をスキャンした後にのみ機能します。これは、臨床使用にはほとんど適していません。 チームは、この技術を脳内の血中酸素レベルを測定する fNIRS (機能的近赤外分光法) に変換することに取り組んでいます。 解像度は fMRI よりも低くなりますが、メインのハードウェアがパーカーの下に簡単に収まる水泳帽のようなデバイスであるため、fNIRS ははるかに移植性が高くなります。

「微調整を加えることで、現在のセットアップを fNIRS 全体の販売に変換できるはずです」と Huth 氏は述べています。

チームはまた、新しい言語モデルを使用してデコーダーの精度を高め、異なる言語を橋渡しすることも計画しています。 言語は脳内で共有された神経表現を持っているため、デコーダーは理論上、ある言語をエンコードし、神経信号を使用して別の言語にデコードすることができます。

Huth 氏は、これは「エキサイティングな将来の方向性」だと述べています。

画像のクレジット: ジェリー・タン/マーサ・モラレス/テキサス大学オースティン校

タイムスタンプ:

より多くの 特異点ハブ