Denne hjerneaktivitetsdekoderen oversetter ideer til tekst ved kun å bruke hjerneskanninger

Denne hjerneaktivitetsdekoderen oversetter ideer til tekst ved kun å bruke hjerneskanninger

Språk og tale er hvordan vi uttrykker våre indre tanker. Men nevrovitenskapsmenn omgikk bare behovet for hørbar tale, i det minste i laboratoriet. I stedet benyttet de seg direkte av den biologiske maskinen som genererer språk og ideer: hjernen.

Ved å bruke hjerneskanninger og en heftig dose maskinlæring utviklet et team fra University of Texas i Austin en "språkdekoder" som fanger opp kjernen av hva en person hører basert på hjerneaktiveringsmønstrene deres alene. Langt fra en ett-triks ponni, kan dekoderen også oversette innbilt tale, og til og med generere beskrivende undertekster for stumfilmer ved hjelp av nevral aktivitet.

Her er kickeren: metoden krever ikke kirurgi. I stedet for å stole på implanterte elektroder, som lytter til elektriske utbrudd direkte fra nevroner, bruker nevroteknologien funksjonell magnetisk resonansavbildning (fMRI), en fullstendig ikke-invasiv prosedyre, for å generere hjernekart som tilsvarer språket.

For å være klar, teknologien er ikke tankelesing. I hvert tilfelle produserer dekoderen parafraser som fanger den generelle ideen om en setning eller et avsnitt. Den gjengir ikke hvert eneste ord. Likevel er det også dekoderens kraft.

"Vi tror at dekoderen representerer noe dypere enn språk," sa hovedforfatter av studien Dr. Alexander Huth i en pressebriefing. "Vi kan gjenopprette den generelle ideen ... og se hvordan ideen utvikler seg, selv om de eksakte ordene går tapt."

Studien, publisert denne uken i Nature Neuroscience, representerer en kraftig første push inn i ikke-invasiv hjerne-maskin-grensesnitt for dekoding av språk – et notorisk vanskelig problem. Med videreutvikling vil teknologien kunne bidra til at de som har mistet taleevnen får tilbake evnen til å kommunisere med omverdenen.

Arbeidet åpner også nye veier for å lære om hvordan språk er kodet i hjernen, og for AI-forskere å grave inn i den "svarte boksen" av maskinlæringsmodeller som behandler tale og språk.

"Det var lenge på vei ... vi var litt sjokkert over at dette fungerte så bra som det gjør," sa Huth.

Dekodingsspråk

Å oversette hjerneaktivitet til tale er ikke nytt. En tidligere studie brukte elektroder plassert direkte i hjernen til pasienter med lammelser. Ved å lytte til nevronenes elektriske skravling, var teamet i stand til å rekonstruere fullstendige ord fra pasienten.

Huth bestemte seg for å ta en alternativ, hvis dristig, rute. I stedet for å stole på nevrokirurgi, valgte han en ikke-invasiv tilnærming: fMRI.

"Forventningen blant nevrovitenskapsmenn generelt om at du kan gjøre denne typen ting med fMRI er ganske lav," sa Huth.

Det er mange grunner. I motsetning til implantater som tar direkte inn i nevral aktivitet, måler fMRI hvordan oksygennivået i blodet endres. Dette kalles FET-signalet. Fordi mer aktive hjerneområder krever mer oksygen, fungerer BOLD-responser som en pålitelig proxy for nevral aktivitet. Men det kommer med problemer. Signalene er trege sammenlignet med måling av elektriske utbrudd, og signalene kan være støyende.

Likevel har fMRI en enorm fordel sammenlignet med hjerneimplantater: den kan overvåke hele hjernen med høy oppløsning. Sammenlignet med å samle data fra en nugget i én region, gir den et fugleperspektiv av kognitive funksjoner på høyere nivå – inkludert språk.

Med dekodingsspråk tok de fleste tidligere studier inn i den motoriske cortex, et område som kontrollerer hvordan munnen og strupehodet beveger seg for å generere tale, eller mer "overflatenivå" i språkbehandling for artikulasjon. Huths team bestemte seg for å gå en abstraksjon opp: inn i riket av tanker og ideer.

Inn i det ukjente

Teamet innså at de trengte to ting fra begynnelsen. En, et datasett med høykvalitets hjerneskanninger for å trene dekoderen. To, et maskinlæringsrammeverk for å behandle dataene.

For å generere hjernekartdatabasen fikk syv frivillige hjernen skannet gjentatte ganger mens de lyttet til podcasthistorier mens de fikk målt nevrale aktivitet i en MR-maskin. Å ligge inne i en gigantisk, bråkete magnet er ikke morsomt for noen, og teamet passet på å holde de frivillige interesserte og våkne, siden oppmerksomheten spiller inn i dekodingen.

For hver person ble det påfølgende massive datasettet matet inn i et rammeverk drevet av maskinlæring. Takket være den nylige eksplosjonen i maskinlæringsmodeller som hjelper til med å behandle naturlig språk, var teamet i stand til å utnytte disse ressursene og enkelt bygge dekoderen.

Den har flere komponenter. Den første er en kodingsmodell som bruker den originale GPT, forgjengeren til den enormt populære ChatGPT. Modellen tar hvert ord og forutsier hvordan hjernen vil reagere. Her finjusterte teamet GPT ved å bruke over 200 millioner ord totalt fra Reddit-kommentarer og podcaster.

Denne andre delen bruker en populær teknikk innen maskinlæring kalt Bayesiansk dekoding. Algoritmen gjetter neste ord basert på en tidligere sekvens og bruker det gjettede ordet for å sjekke hjernens faktiske respons.

For eksempel hadde en podcastepisode "faren min trenger det ikke ..." som en historie. Når den ble matet inn i dekoderen som en melding, kom den med potensielle svar: "mye", "riktig", "siden" og så videre. Sammenligning av forutsagt hjerneaktivitet med hvert ord med den som ble generert fra det faktiske ordet hjalp dekoderen med å finpusse hver persons hjerneaktivitetsmønstre og korrigere for feil.

Etter å ha gjentatt prosessen med de best forutsagte ordene, lærte dekodingsaspektet av programmet til slutt hver persons unike "nevrale fingeravtrykk" for hvordan de behandler språk.

En nevrooversetter

Som et bevis på konseptet satt teamet de dekodede svarene opp mot den faktiske historieteksten.

Det kom overraskende nært, men bare for det generelle. For eksempel, en historielinje, "vi begynner å bytte historier om livene våre vi begge er fra nord," ble dekodet som "vi begynte å snakke om våre opplevelser i området han ble født i, jeg var fra nord."

Denne parafraseringen er forventet, forklarte Huth. Fordi fMRI er ganske støyende og tregt, er det nesten umulig å fange opp og dekode hvert ord. Dekoderen mates med en blanding av ord og må skille ut betydningene deres ved å bruke funksjoner som vendinger.

faktisk vs dekodet stimulus hjerneskanning dekoder
Bildekreditt: University of Texas i Austin

I motsetning er ideer mer permanente og endres relativt sakte. Fordi fMRI har et etterslep når man måler nevral aktivitet, fanger den abstrakte konsepter og tanker bedre enn spesifikke ord.

Denne tilnærmingen på høyt nivå har fordeler. Mens den mangler troskap, fanger dekoderen et høyere nivå av språkrepresentasjon enn tidligere forsøk, inkludert for oppgaver som ikke er begrenset til tale alene. I en test så de frivillige på et animert klipp av en jente som ble angrepet av drager uten lyd. Ved å bruke hjerneaktivitet alene beskrev dekoderen scenen fra hovedpersonens perspektiv som en tekstbasert historie. Med andre ord var dekoderen i stand til å oversette visuell informasjon direkte til en fortelling basert på en representasjon av språk kodet i hjerneaktivitet.

På samme måte rekonstruerte dekoderen også ett minutt lange innbilte historier fra de frivillige.

Etter over et tiår å jobbe med teknologien, "var det sjokkerende og spennende når det endelig fungerte," sa Huth.

Selv om dekoderen ikke akkurat leser tanker, var teamet nøye med å vurdere mentalt privatliv. I en serie tester fant de at dekoderen kun fungerte med de frivilliges aktive mentale medvirkning. Å be deltakerne om å telle opp i en rekkefølge på syv, navngi forskjellige dyr, eller mentalt konstruere sine egne historier, degraderte raskt dekoderen, sa førsteforfatter Jerry Tang. Med andre ord kan dekoderen "bevisst motstå".

Foreløpig fungerer teknologien bare etter måneder med nøye hjerneskanning i en høyt brummende maskin mens den ligger helt stille – knapt mulig for klinisk bruk. Teamet jobber med å oversette teknologien til fNIRS (funksjonell nær-infrarød spektroskopi), som måler oksygennivået i blodet i hjernen. Selv om den har en lavere oppløsning enn fMRI, er fNIRS langt mer bærbar da hovedmaskinvaren er en badehette-lignende enhet som lett får plass under en hettegenser.

"Med justeringer bør vi være i stand til å oversette det nåværende oppsettet til fNIRS engros," sa Huth.

Teamet planlegger også å bruke nyere språkmodeller for å øke dekoderens nøyaktighet, og potensielt bygge bro mellom forskjellige språk. Fordi språk har en delt nevrale representasjon i hjernen, kan dekoderen i teorien kode ett språk og bruke nevrale signaler til å dekode det til et annet.

Det er en "spennende fremtidig retning," sa Huth.

Bilde Credit: Jerry Tang/Martha Morales/The University of Texas i Austin

Tidstempel:

Mer fra Singularity Hub