Denne hjerneaktivitetsdekoder oversætter ideer til tekst ved kun at bruge scanninger

Denne hjerneaktivitetsdekoder oversætter ideer til tekst ved kun at bruge scanninger

Sprog og tale er, hvordan vi udtrykker vores indre tanker. Men neurovidenskabsmænd omgik netop behovet for hørbar tale, i det mindste i laboratoriet. I stedet trykkede de direkte på den biologiske maskine, der genererer sprog og ideer: hjernen.

Ved hjælp af hjernescanninger og en stor dosis maskinlæring udviklede et hold fra University of Texas i Austin en "sprogdekoder", der fanger kernen i, hvad en person hører alene baseret på deres hjerneaktiveringsmønstre. Langt fra en one-trick pony, kan dekoderen også oversætte forestillet tale og endda generere beskrivende undertekster til stumfilm ved hjælp af neural aktivitet.

Her er kickeren: Metoden kræver ikke operation. I stedet for at stole på implanterede elektroder, som lytter til elektriske udbrud direkte fra neuroner, bruger neuroteknologien funktionel magnetisk resonansbilleddannelse (fMRI), en fuldstændig ikke-invasiv procedure, til at generere hjernekort, der svarer til sproget.

For at være klar, er teknologien ikke tankelæsning. I hvert tilfælde producerer dekoderen parafraser, der fanger den generelle idé om en sætning eller et afsnit. Det gentager ikke hvert eneste ord. Men det er også dekoderens kraft.

"Vi tror, ​​at dekoderen repræsenterer noget dybere end sprog," sagde hovedforfatter af undersøgelsen Dr. Alexander Huth i en pressebriefing. "Vi kan genvinde den overordnede idé ... og se, hvordan ideen udvikler sig, selvom de nøjagtige ord går tabt."

Studiet, udgivet i denne uge i Nature Neuroscience, repræsenterer et kraftfuldt første skub til ikke-invasiv hjerne-maskine-grænseflader til afkodning af sprog - et notorisk vanskeligt problem. Med videreudvikling kunne teknologien hjælpe dem, der mistede taleevnen, til at genvinde deres evne til at kommunikere med omverdenen.

Arbejdet åbner også nye veje til at lære om, hvordan sprog er kodet i hjernen, og for AI-forskere til at grave i den "sorte boks" af maskinlæringsmodeller, der behandler tale og sprog.

"Det var længe undervejs ... vi var lidt chokerede over, at dette fungerede så godt, som det gør," sagde Huth.

Afkodningssprog

At oversætte hjerneaktivitet til tale er ikke nyt. En tidligere undersøgelse brugte elektroder placeret direkte i hjernen på patienter med lammelse. Ved at lytte til neuronernes elektriske snak, var holdet i stand til at rekonstruere fulde ord fra patienten.

Huth besluttede at tage en alternativ, hvis vovet, rute. I stedet for at stole på neurokirurgi, valgte han en ikke-invasiv tilgang: fMRI.

"Forventningen blandt neurovidenskabsmænd generelt om, at du kan gøre denne slags ting med fMRI, er ret lav," sagde Huth.

Der er masser af grunde. I modsætning til implantater, der griber direkte ind i neural aktivitet, måler fMRI, hvordan iltniveauet i blodet ændrer sig. Dette kaldes FED-signalet. Fordi mere aktive hjerneområder kræver mere ilt, fungerer BOLD-responser som en pålidelig proxy for neural aktivitet. Men det kommer med problemer. Signalerne er træge i forhold til måling af elektriske bursts, og signalerne kan være støjende.

Alligevel har fMRI en massiv fordel sammenlignet med hjerneimplantater: den kan overvåge hele hjernen i høj opløsning. Sammenlignet med at indsamle data fra en guldklump i én region, giver det et fugleperspektiv af kognitive funktioner på højere niveau - inklusive sprog.

Med afkodningssprog har de fleste tidligere undersøgelser grebet ind i den motoriske cortex, et område, der styrer, hvordan munden og strubehovedet bevæger sig for at generere tale, eller mere "overfladeniveau" i sprogbehandling til artikulation. Huths team besluttede at gå en abstraktion op: ind i tankernes og idéernes område.

Ind i det ukendte

Holdet indså, at de havde brug for to ting fra begyndelsen. Den ene, et datasæt af højkvalitets hjernescanninger, der bruges til træning af dekoderen. To, en maskinlæringsramme til at behandle dataene.

For at generere hjernekortdatabasen fik syv frivillige deres hjerner scannet gentagne gange, mens de lyttede til podcasthistorier, mens de fik målt deres neurale aktivitet inde i en MR-maskine. At ligge inde i en gigantisk, larmende magnet er ikke sjovt for nogen, og holdet sørgede for at holde de frivillige interesserede og opmærksomme, da opmærksomheden spiller ind i afkodningen.

For hver person blev det efterfølgende massive datasæt ført ind i en ramme drevet af maskinlæring. Takket være den seneste eksplosion i maskinlæringsmodeller, der hjælper med at behandle naturligt sprog, var holdet i stand til at udnytte disse ressourcer og nemt bygge dekoderen.

Den har flere komponenter. Den første er en kodningsmodel, der bruger den originale GPT, forløberen til den enormt populære ChatGPT. Modellen tager hvert ord og forudsiger, hvordan hjernen vil reagere. Her finjusterede holdet GPT ved at bruge over 200 millioner ord i alt fra Reddit-kommentarer og podcasts.

Denne anden del bruger en populær teknik inden for maskinlæring kaldet Bayesiansk afkodning. Algoritmen gætter det næste ord baseret på en tidligere sekvens og bruger det gættede ord til at kontrollere hjernens faktiske respons.

For eksempel havde en podcast-episode "min far har ikke brug for det ..." som en historie. Når den blev ført ind i dekoderen som en prompt, kom den med potentielle svar: "meget", "rigtigt", "siden" og så videre. Sammenligning af forudsagt hjerneaktivitet med hvert ord med den, der blev genereret fra det faktiske ord, hjalp dekoderen med at finpudse hver persons hjerneaktivitetsmønstre og korrigere for fejl.

Efter at have gentaget processen med de bedst forudsagte ord, afkodningsaspektet af programmet

til sidst lærte hver persons unikke "neurale fingeraftryk" for, hvordan de behandler sprog.

En Neuro-oversætter

Som et bevis på konceptet satte holdet de afkodede svar op imod den faktiske historietekst.

Det kom overraskende tæt på, men kun for den generelle essens. For eksempel blev en historielinje, "vi begynder at udveksle historier om vores liv, vi begge er fra nord," blev afkodet som "vi begyndte at tale om vores oplevelser i det område, han blev født i, jeg kom fra nord."

Denne parafrasering forventes, forklarede Huth. Fordi fMRI er ret støjende og træg, er det næsten umuligt at fange og afkode hvert ord. Dekoderen fodres med en blanding af ord og skal skille deres betydninger ad ved hjælp af funktioner som vendinger.

faktisk vs afkodet stimulus hjernescanner dekoder
Billedkredit: University of Texas i Austin

I modsætning hertil er ideer mere permanente og ændrer sig relativt langsomt. Fordi fMRI har en forsinkelse ved måling af neural aktivitet, fanger den abstrakte begreber og tanker bedre end specifikke ord.

Denne tilgang på højt niveau har fordele. Mens den mangler troskab, fanger dekoderen et højere niveau af sprogrepræsentation end tidligere forsøg, herunder til opgaver, der ikke er begrænset til tale alene. I en test så de frivillige et animeret klip af en pige, der blev angrebet af drager uden nogen lyd. Ved at bruge hjerneaktivitet alene beskrev dekoderen scenen fra hovedpersonens perspektiv som en tekstbaseret historie. Med andre ord var dekoderen i stand til at oversætte visuel information direkte til en fortælling baseret på en repræsentation af sprog kodet i hjerneaktivitet.

På samme måde rekonstruerede dekoderen også et minut lange forestillede historier fra de frivillige.

Efter over ti år at arbejde på teknologien, "var det chokerende og spændende, da det endelig virkede," sagde Huth.

Selvom dekoderen ikke ligefrem læser tanker, var holdet omhyggelige med at vurdere det mentale privatliv. I en række tests fandt de ud af, at dekoderen kun virkede med de frivilliges aktive mentale deltagelse. At bede deltagerne om at tælle op i en rækkefølge på syv, navngive forskellige dyr eller mentalt konstruere deres egne historier, forringede hurtigt dekoderen, sagde førsteforfatter Jerry Tang. Med andre ord kan dekoderen "bevidst modstås."

Indtil videre virker teknologien kun efter måneders omhyggelige hjernescanninger i en højlydt brummende maskine, mens den ligger helt stille - næppe gennemførligt til klinisk brug. Holdet arbejder på at oversætte teknologien til fNIRS (functional Near-Infrared Spectroscopy), som måler blodets iltniveau i hjernen. Selvom den har en lavere opløsning end fMRI, er fNIRS langt mere bærbar, da hovedhardwaren er en badehætte-lignende enhed, der nemt passer under en hættetrøje.

"Med tweaks burde vi være i stand til at oversætte den nuværende opsætning til fNIRS whole sale," sagde Huth.

Holdet planlægger også at bruge nyere sprogmodeller til at øge dekoderens nøjagtighed og potentielt bygge bro mellem forskellige sprog. Fordi sprog har en fælles neural repræsentation i hjernen, kunne dekoderen i teorien kode et sprog og bruge de neurale signaler til at afkode det til et andet.

Det er en "spændende fremtidig retning," sagde Huth.

Billede Credit: Jerry Tang/Martha Morales/The University of Texas i Austin

Tidsstempel:

Mere fra Singularitet Hub