이 뇌 활동 디코더는 뇌 스캔만 사용하여 아이디어를 텍스트로 변환합니다.

이 뇌 활동 디코더는 뇌 스캔만 사용하여 아이디어를 텍스트로 변환합니다.

언어와 말은 우리가 내면의 생각을 표현하는 방법입니다. 그러나 신경과학자들은 적어도 연구실에서는 들을 수 있는 음성의 필요성을 그냥 지나쳤습니다. 대신 그들은 언어와 아이디어를 생성하는 생물학적 기계인 뇌를 직접 활용했습니다.

뇌 스캔과 막대한 양의 기계 학습을 사용하여 오스틴에 있는 텍사스 대학의 한 팀은 뇌 활성화 패턴만을 기반으로 사람이 듣는 내용의 요지를 캡처하는 "언어 디코더"를 개발했습니다. 원 트릭 조랑말과는 거리가 먼 디코더는 상상의 음성을 번역하고 신경 활동을 사용하여 무성 영화에 대한 설명 자막을 생성할 수도 있습니다.

키커는 다음과 같습니다. 이 방법은 수술이 필요하지 않습니다. 뉴런에서 직접 전기 버스트를 듣는 이식된 전극에 의존하는 대신 신경 기술은 완전한 비침습적 절차인 기능적 자기 공명 영상(fMRI)을 사용하여 언어에 해당하는 뇌 지도를 생성합니다.

확실히 말하자면, 이 기술은 마음을 읽는 것이 아닙니다. 각각의 경우에 디코더는 문장이나 단락의 일반적인 아이디어를 캡처하는 의역을 생성합니다. 모든 단일 단어를 재생산하지는 않습니다. 그러나 그것은 또한 디코더의 힘이기도 합니다.

“우리는 디코더가 언어보다 더 깊은 무언가를 나타낸다고 생각합니다. "우리는 전반적인 아이디어를 복구할 수 있고...정확한 단어가 손실되더라도 아이디어가 어떻게 발전하는지 확인할 수 있습니다."

연구, 이번 주에 게시됨 자연 신경 과학, 비 침습적 뇌-기계 인터페이스 해독 언어 - 악명 높은 어려운 문제. 더 발전하면 이 기술은 말을 할 수 없는 사람들이 외부 세계와 소통할 수 있는 능력을 되찾도록 도울 수 있습니다.

이 작업은 또한 언어가 뇌에서 어떻게 인코딩되는지 학습하고 AI 과학자가 음성과 언어를 처리하는 기계 학습 모델의 "블랙 박스"를 파헤칠 수 있는 새로운 길을 열어줍니다.

Huth는 “오랜 시간이 걸렸습니다… 우리는 이것이 잘 작동한다는 사실에 다소 충격을 받았습니다.”라고 Huth는 말했습니다.

디코딩 언어

두뇌 활동을 언어로 번역하는 것은 새로운 것이 아닙니다. 하나의 이전 연구 마비 환자의 뇌에 전극을 직접 삽입했습니다. 뉴런의 전기적 채터링을 들음으로써 팀은 환자의 완전한 단어를 재구성할 수 있었습니다.

Huth는 대담하지만 대안적인 경로를 선택하기로 결정했습니다. 그는 신경외과에 의존하는 대신 비침습적 접근 방식인 fMRI를 선택했습니다.

"일반적으로 fMRI로 이런 종류의 일을 할 수 있다는 신경과학자들의 기대는 매우 낮습니다."라고 Huth는 말했습니다.

많은 이유가 있습니다. 신경 활동을 직접 활용하는 임플란트와 달리 fMRI는 혈액의 산소 수치가 어떻게 변화하는지 측정합니다. 이를 BOLD 신호라고 합니다. 더 활동적인 뇌 영역은 더 많은 산소를 필요로 하기 때문에 BOLD 반응은 신경 활동에 대한 신뢰할 수 있는 프록시 역할을 합니다. 그러나 문제가 있습니다. 신호는 전기 버스트 측정에 비해 느리고 신호에 잡음이 있을 수 있습니다.

그러나 fMRI는 뇌 임플란트에 비해 엄청난 이점이 있습니다. 전체 뇌를 고해상도로 모니터링할 수 있습니다. 한 지역의 덩어리에서 데이터를 수집하는 것과 비교하여 언어를 포함한 더 높은 수준의 인지 기능에 대한 조감도를 제공합니다.

해독 언어를 사용하여 대부분의 이전 연구는 입과 후두가 말을 생성하기 위해 움직이는 방식을 제어하는 ​​영역인 운동 피질 또는 발음을 위한 언어 처리에서 더 많은 "표면 수준"을 활용했습니다. Huth의 팀은 생각과 아이디어의 영역으로 추상화하기로 결정했습니다.

미지로

팀은 처음부터 두 가지가 필요하다는 것을 깨달았습니다. 하나는 디코더 훈련을 위한 고품질 뇌 스캔 데이터 세트입니다. 둘째, 데이터를 처리하는 기계 학습 프레임워크입니다.

뇌 지도 데이터베이스를 생성하기 위해 XNUMX명의 지원자는 MRI 기계 내부에서 신경 활동을 측정하면서 팟캐스트 이야기를 들으면서 반복적으로 뇌를 스캔했습니다. 거대하고 시끄러운 자석 안에 눕는 것은 누구에게나 재미가 없으며 팀은 주의가 해독에 영향을 미치기 때문에 지원자들이 관심을 갖고 주의를 기울일 수 있도록 주의를 기울였습니다.

각 사람에 대해 이어지는 방대한 데이터 세트가 머신 러닝으로 구동되는 프레임워크에 입력되었습니다. 최근 자연어 처리를 돕는 기계 학습 모델이 폭발적으로 증가한 덕분에 팀은 이러한 리소스를 활용하고 디코더를 쉽게 구축할 수 있었습니다.

여러 구성 요소가 있습니다. 첫 번째는 매우 인기 있는 ChatGPT의 전신인 원본 GPT를 사용하는 인코딩 모델입니다. 모델은 각 단어를 사용하여 뇌가 어떻게 반응할지 예측합니다. 여기에서 팀은 Reddit 댓글 및 팟캐스트에서 총 200억 개 이상의 단어를 사용하여 GPT를 미세 조정했습니다.

이 두 번째 부분은 베이지안 디코딩이라는 기계 학습에서 널리 사용되는 기술을 사용합니다. 알고리즘은 이전 시퀀스를 기반으로 다음 단어를 추측하고 추측한 단어를 사용하여 뇌의 실제 반응을 확인합니다.

예를 들어, 한 팟캐스트 에피소드에는 "아빠는 필요 없어..."라는 스토리가 있었습니다. 프롬프트로 디코더에 입력하면 "많이", "맞습니다", "이후" 등의 잠재적인 응답이 나타납니다. 각 단어의 예측된 뇌 활동을 실제 단어에서 생성된 것과 비교함으로써 디코더가 각 사람의 뇌 활동 패턴을 파악하고 실수를 수정하는 데 도움이 되었습니다.

가장 잘 예측된 단어로 프로세스를 반복한 후 프로그램의 디코딩 측면은 결국 각 사람이 언어를 처리하는 방법에 대한 고유한 "신경 지문"을 학습했습니다.

신경 번역가

개념 증명으로 팀은 디코딩된 응답을 실제 스토리 텍스트와 비교했습니다.

그것은 놀라울 정도로 가까웠지만 일반적인 요지에만 해당되었습니다. 예를 들어, "우리 둘 다 북쪽에서 온 우리의 삶에 대한 이야기를 교환하기 시작합니다."라는 한 줄거리는 "우리는 그가 태어난 지역에서 우리의 경험에 대해 이야기하기 시작했습니다. 나는 북쪽에서 왔습니다."로 해독되었습니다.

이 의역이 예상된다고 Huth는 설명했습니다. fMRI는 다소 시끄럽고 느리기 때문에 각 단어를 캡처하고 해독하는 것이 거의 불가능합니다. 디코더는 뒤죽박죽된 단어를 입력받고 구문 전환과 같은 기능을 사용하여 의미를 풀어야 합니다.

실제 vs 디코딩된 자극 뇌 스캔 디코더
이미지 크레디트: 오스틴에 있는 텍사스 대학교

반대로 아이디어는 더 영구적이고 상대적으로 느리게 변합니다. fMRI는 신경 활동을 측정할 때 지연이 있기 때문에 특정 단어보다 추상적인 개념과 생각을 더 잘 포착합니다.

이 높은 수준의 접근 방식에는 이점이 있습니다. 충실도가 부족하지만 디코더는 음성에만 국한되지 않는 작업을 포함하여 이전 시도보다 더 높은 수준의 언어 표현을 캡처합니다. 한 테스트에서 지원자들은 소리 없이 용의 공격을 받는 소녀의 애니메이션 클립을 시청했습니다. 뇌 활동만을 사용하여 해독기는 주인공의 관점에서 장면을 텍스트 기반의 이야기로 묘사했습니다. 즉, 디코더는 뇌 활동에 인코딩된 언어 표현을 기반으로 시각적 정보를 내러티브로 직접 번역할 수 있었습니다.

유사하게, 디코더는 또한 지원자들로부터 XNUMX분 길이의 상상 이야기를 재구성했습니다.

이 기술에 대해 XNUMX년 이상 작업한 후 "마침내 작동했을 때 충격적이고 흥미로웠습니다."라고 Huth는 말했습니다.

디코더가 마음을 정확히 읽지는 못하지만 팀은 정신 사생활을 신중하게 평가했습니다. 일련의 테스트에서 그들은 디코더가 지원자의 적극적인 정신적 참여와 함께 작동한다는 것을 발견했습니다. 제XNUMX저자 제리 탕(Jerry Tang)은 참가자들에게 XNUMX의 순서로 세거나, 다른 동물의 이름을 지정하거나, 자신의 이야기를 정신적으로 구성하도록 요청하면 디코더가 빠르게 저하되었다고 말했습니다. 다시 말해, 디코더는 "의식적으로 저항"될 수 있습니다.

현재 이 기술은 완전히 가만히 누워 있는 동안 큰 소리로 윙윙거리는 기계에서 몇 달 동안 주의 깊게 뇌를 스캔한 후에만 작동합니다. 임상 용도로는 거의 불가능합니다. 연구팀은 이 기술을 뇌의 혈중 산소 수준을 측정하는 fNIRS(기능적 근적외선 분광법)로 번역하는 작업을 하고 있습니다. fMRI보다 해상도는 낮지만 fNIRS는 주요 하드웨어가 후드티 안에 쉽게 들어갈 수 있는 수영모 같은 장치이기 때문에 휴대성이 훨씬 뛰어납니다.

"조정을 통해 현재 설정을 fNIRS 도매로 변환할 수 있어야 합니다."라고 Huth는 말했습니다.

팀은 또한 디코더의 정확도를 높이고 잠재적으로 서로 다른 언어를 연결하기 위해 새로운 언어 모델을 사용할 계획입니다. 언어는 뇌에서 신경 표현을 공유하기 때문에 디코더는 이론적으로 한 언어를 인코딩하고 신경 신호를 사용하여 다른 언어로 디코딩할 수 있습니다.

"흥미로운 미래 방향"이라고 Huth는 말했습니다.

이미지 신용 : 제리 탱/마사 모랄레스/텍사스 대학교 오스틴 캠퍼스

타임 스탬프 :

더보기 특이점 허브