Denna hjärnaktivitetsavkodare översätter idéer till text med endast hjärnskanningar

Denna hjärnaktivitetsavkodare översätter idéer till text med endast hjärnskanningar

Språk och tal är hur vi uttrycker våra inre tankar. Men neuroforskare förbigick bara behovet av hörbart tal, åtminstone i labbet. Istället knackade de direkt på den biologiska maskinen som genererar språk och idéer: hjärnan.

Med hjälp av hjärnskanningar och en rejäl dos maskininlärning utvecklade ett team från University of Texas i Austin en "språkavkodare" som fångar kärnan i vad en person hör baserat på enbart deras hjärnaktiveringsmönster. Långt ifrån en entricksponny, kan avkodaren också översätta föreställt tal och till och med generera beskrivande undertexter för stumfilmer med neural aktivitet.

Här är kickern: metoden kräver ingen operation. Istället för att förlita sig på implanterade elektroder, som lyssnar på elektriska skurar direkt från neuroner, använder neurotekniken funktionell magnetisk resonanstomografi (fMRI), en helt icke-invasiv procedur, för att generera hjärnkartor som motsvarar språket.

För att vara tydlig, tekniken är inte tankeläsning. I varje fall producerar avkodaren parafraser som fångar den allmänna idén om en mening eller ett stycke. Den återger inte vartenda ord. Men det är också dekoderns kraft.

"Vi tror att avkodaren representerar något djupare än språk", sa huvudförfattaren till studien Dr Alexander Huth i en pressträff. "Vi kan återställa den övergripande idén ... och se hur idén utvecklas, även om de exakta orden försvinner."

Studien, publicerad denna vecka i Nature Neuroscience, representerar en kraftfull första push till icke-invasiv hjärn-maskin-gränssnitt för avkodning av språk — ett notoriskt svårt problem. Med vidareutveckling skulle tekniken kunna hjälpa de som tappat talförmågan att återfå sin förmåga att kommunicera med omvärlden.

Arbetet öppnar också nya vägar för att lära sig om hur språk är kodat i hjärnan, och för AI-forskare att gräva i den "svarta lådan" av maskininlärningsmodeller som bearbetar tal och språk.

"Det höll på att vänta länge ... vi blev lite chockade över att det här fungerade så bra som det gör," sa Huth.

Avkodningsspråk

Att översätta hjärnaktivitet till tal är inte nytt. En tidigare studie använda elektroder placerade direkt i hjärnan på patienter med förlamning. Genom att lyssna på nervcellernas elektriska prat, kunde teamet rekonstruera fullständiga ord från patienten.

Huth bestämde sig för att ta en alternativ, om vågad, väg. Istället för att förlita sig på neurokirurgi, valde han ett icke-invasivt tillvägagångssätt: fMRI.

"Förväntningarna bland neuroforskare i allmänhet att du kan göra den här typen av saker med fMRI är ganska låg," sa Huth.

Det finns många skäl. Till skillnad från implantat som kopplar direkt till neural aktivitet, mäter fMRI hur syrenivåerna i blodet förändras. Detta kallas FET-signalen. Eftersom mer aktiva hjärnregioner kräver mer syre, fungerar BOLD-svar som en pålitlig proxy för neural aktivitet. Men det kommer med problem. Signalerna är tröga jämfört med att mäta elektriska skurar, och signalerna kan vara brusiga.

Ändå har fMRI en enorm fördel jämfört med hjärnimplantat: den kan övervaka hela hjärnan med hög upplösning. Jämfört med att samla in data från en guldklimp i en region ger det en fågelperspektiv över kognitiva funktioner på högre nivå – inklusive språk.

Med avkodningsspråk har de flesta tidigare studier använt den motoriska cortexen, ett område som styr hur munnen och struphuvudet rör sig för att generera tal, eller mer "ytnivå" i språkbehandling för artikulation. Huths team bestämde sig för att gå en abstraktion upp: in i tankarnas och idéernas rike.

In i det okända

Teamet insåg att de behövde två saker från början. En, en datauppsättning av högkvalitativa hjärnskanningar för att träna avkodaren. Två, ett maskininlärningsramverk för att bearbeta data.

För att skapa hjärnkartdatabasen fick sju frivilliga sina hjärnor skannade upprepade gånger när de lyssnade på podcastberättelser samtidigt som de fick sin neurala aktivitet mätt inuti en MRI-maskin. Att ligga inuti en gigantisk, bullrig magnet är inte roligt för någon, och teamet var noga med att hålla volontärerna intresserade och alerta, eftersom uppmärksamheten påverkar avkodningen.

För varje person matades den efterföljande massiva datamängden in i ett ramverk som drivs av maskininlärning. Tack vare den senaste explosionen i maskininlärningsmodeller som hjälper till att bearbeta naturligt språk, kunde teamet utnyttja dessa resurser och enkelt bygga avkodaren.

Den har flera komponenter. Den första är en kodningsmodell som använder den ursprungliga GPT, föregångaren till den enormt populära ChatGPT. Modellen tar varje ord och förutsäger hur hjärnan kommer att reagera. Här finjusterade teamet GPT med över 200 miljoner totalt ord från Reddit-kommentarer och podcaster.

Denna andra del använder en populär teknik inom maskininlärning som kallas Bayesiansk avkodning. Algoritmen gissar nästa ord baserat på en tidigare sekvens och använder det gissade ordet för att kontrollera hjärnans faktiska svar.

Till exempel hade ett podcastavsnitt "min pappa behöver det inte..." som handling. När den matades in i avkodaren som en uppmaning kom den med potentiella svar: "mycket", "rätt", "sedan" och så vidare. Att jämföra förutspådd hjärnaktivitet med varje ord med den som genererades från det faktiska ordet hjälpte avkodaren att finslipa varje persons hjärnaktivitetsmönster och korrigera för misstag.

Efter att ha upprepat processen med de bäst förutspådda orden, lärde sig avkodningsaspekten av programmet så småningom varje persons unika "neurala fingeravtryck" för hur de bearbetar språk.

En neuroöversättare

Som ett bevis på konceptet ställde teamet de avkodade svaren mot den faktiska berättelsetexten.

Det kom förvånansvärt nära, men bara för det allmänna. Till exempel, en berättelserad, "vi börjar byta historier om våra liv som vi båda kommer från norr", avkodades som "vi började prata om våra upplevelser i området han föddes i. Jag kom från norr."

Denna omskrivning förväntas, förklarade Huth. Eftersom fMRI är ganska bullrigt och trögt, är det nästan omöjligt att fånga och avkoda varje ord. Avkodaren matas med ett mix av ord och behöver reda ut deras betydelser med hjälp av funktioner som fraser.

faktiska vs avkodade stimulus hjärnskanningar avkodare
Bildkredit: University of Texas i Austin

Däremot är idéer mer permanenta och förändras relativt långsamt. Eftersom fMRI har en fördröjning när man mäter neural aktivitet, fångar den abstrakta begrepp och tankar bättre än specifika ord.

Detta tillvägagångssätt på hög nivå har fördelar. Även om den saknar trohet, fångar avkodaren en högre nivå av språkrepresentation än tidigare försök, inklusive för uppgifter som inte är begränsade till enbart tal. I ett test tittade volontärerna på ett animerat klipp av en flicka som attackerades av drakar utan något ljud. Med enbart hjärnaktivitet beskrev avkodaren scenen från huvudpersonens perspektiv som en textbaserad berättelse. Med andra ord kunde avkodaren översätta visuell information direkt till ett narrativ baserat på en representation av språk som kodats i hjärnaktivitet.

På samma sätt rekonstruerade avkodaren också en minut långa föreställda berättelser från volontärerna.

Efter över ett decennium att arbeta med tekniken "var det chockerande och spännande när det äntligen fungerade", sa Huth.

Även om avkodaren inte exakt läser tankar, var teamet noga med att bedöma mental integritet. I en serie tester fann de att avkodaren bara fungerade med volontärernas aktiva mentala deltagande. Att be deltagarna att räkna upp i en ordning på sju, namnge olika djur eller mentalt konstruera sina egna berättelser försämrade snabbt avkodaren, sa förstaförfattaren Jerry Tang. Med andra ord kan avkodaren "medvetet motstås".

För närvarande fungerar tekniken bara efter månader av noggranna hjärnskanningar i en högljutt brummande maskin medan den ligger helt stilla – knappast möjlig för klinisk användning. Teamet arbetar med att översätta tekniken till fNIRS (funktionell nära-infraröd spektroskopi), som mäter blodets syrenivåer i hjärnan. Även om den har en lägre upplösning än fMRI, är fNIRS mycket mer portabel eftersom den huvudsakliga hårdvaran är en badmössaliknande enhet som lätt får plats under en hoodie.

"Med tweaks borde vi kunna översätta den nuvarande inställningen till fNIRS-grossist," sa Huth.

Teamet planerar också att använda nyare språkmodeller för att öka dekoderns noggrannhet och potentiellt överbrygga olika språk. Eftersom språk har en delad neural representation i hjärnan kan avkodaren i teorin koda ett språk och använda de neurala signalerna för att avkoda det till ett annat.

Det är en "spännande framtida riktning", sa Huth.

Image Credit: Jerry Tang/Martha Morales/The University of Texas i Austin

Tidsstämpel:

Mer från Singularity Hub