Hvordan transformere ser ud til at efterligne dele af hjernen PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Hvordan transformere ser ud til at efterligne dele af hjernen

At forstå, hvordan hjernen organiserer og får adgang til rumlig information - hvor vi er, hvad der er rundt om hjørnet, hvordan man kommer dertil - er fortsat en udsøgt udfordring. Processen involverer genkaldelse af et helt netværk af minder og lagrede rumlige data fra titusinder af neuroner, hver forbundet med tusindvis af andre. Neurovidenskabsmænd har identificeret nøgleelementer som f.eks gitterceller, neuroner, der kortlægger placeringer. Men at gå dybere vil vise sig vanskeligt: ​​Det er ikke som om forskere kan fjerne og studere skiver af menneskelig grå substans for at se, hvordan lokationsbaserede minder om billeder, lyde og lugte flyder igennem og forbinder sig med hinanden.

Kunstig intelligens tilbyder en anden vej ind. I årevis har neuroforskere udnyttet mange typer neurale netværk - de motorer, der driver de fleste deep learning-applikationer - til at modellere affyringen af ​​neuroner i hjernen. I nyere arbejde har forskere vist, at hippocampus, en struktur i hjernen, der er kritisk for hukommelsen, dybest set er en speciel slags neuralt net, kendt som et transformer, i forklædning. Deres nye model sporer rumlig information på en måde, der er parallel med hjernens indre funktion. De har set bemærkelsesværdig succes.

"Det faktum, at vi ved, at disse modeller af hjernen svarer til transformatoren, betyder, at vores modeller yder meget bedre og er nemmere at træne," sagde James Whittington, en kognitiv neurovidenskabsmand, der deler sin tid mellem Stanford University og laboratoriet i Tim Behrens ved University of Oxford.

Undersøgelser af Whittington og andre antyder, at transformatorer i høj grad kan forbedre neurale netværksmodellers evne til at efterligne den slags beregninger, der udføres af gitterceller og andre dele af hjernen. Sådanne modeller kunne skubbe vores forståelse af, hvordan kunstige neurale netværk fungerer, og endnu mere sandsynligt, hvordan beregninger udføres i hjernen, sagde Whittington.

"Vi forsøger ikke at genskabe hjernen," sagde David Ha, en datalog hos Google Brain, der også arbejder på transformermodeller. "Men kan vi skabe en mekanisme, der kan gøre, hvad hjernen gør?"

Transformers dukkede første gang op for fem år siden som en ny måde for AI at behandle sprog på. De er den hemmelige sovs i de overskriftsgribende sætningsfuldendende programmer som BERTI og GPT-3, som kan generere overbevisende sangtekster, komponere Shakespeare-sonetter og efterligne kundeservicerepræsentanter.

Transformere arbejder ved hjælp af en mekanisme kaldet selvopmærksomhed, hvor hvert input - et ord, en pixel, et tal i en sekvens - altid er forbundet med hver anden input. (Andre neurale netværk forbinder kun input med visse andre input.) Men mens transformatorer blev designet til sprogopgaver, har de siden udmærket sig ved andre opgaver såsom at klassificere billeder - og nu modellering af hjernen.

I 2020 blev en gruppe ledet af Sepp Hochreiter, en datalog ved Johannes Kepler University Linz i Østrig, brugte en transformer til at ombygge en kraftfuld, langvarig model for hukommelseshentning kaldet et Hopfield-netværk. Først introduceret for 40 år siden af ​​Princeton-fysikeren John Hopfield, følger disse netværk en generel regel: Neuroner, der er aktive på samme tid, bygger stærke forbindelser med hinanden.

Hochreiter og hans samarbejdspartnere, der bemærkede, at forskere har ledt efter bedre modeller for hukommelseshentning, så en sammenhæng mellem, hvordan Hopfield-netværk henter minder, og hvordan transformatorer udfører opmærksomhed. De opgraderede Hopfield-netværket og gjorde det i det væsentlige til en transformer. Denne ændring gjorde det muligt for modellen at gemme og hente flere minder på grund af mere effektive forbindelser, sagde Whittington. Hopfield selv beviste sammen med Dmitry Krotov på MIT-IBM Watson AI Lab, at et transformerbaseret Hopfield-netværk var biologisk plausibelt.

Derefter tidligere i år, Whittington og Behrens hjalp yderligere med at finjustere Hochreiters tilgang og modificerede transformeren, så den i stedet for at behandle minder som en lineær sekvens - som en række af ord i en sætning - kodede dem som koordinater i højere dimensionelle rum. Det "twist", som forskerne kaldte det, forbedrede yderligere modellens ydeevne på neurovidenskabelige opgaver. De viste også, at modellen var matematisk ækvivalent med modeller af gridcellefyringsmønstre, som neurovidenskabsmænd ser i fMRI-scanninger.

"Gitterceller har denne slags spændende, smukke, regelmæssige strukturer og med slående mønstre, der næppe dukker op tilfældigt," sagde Caswell Barry, en neuroforsker ved University College London. Det nye arbejde viste, hvordan transformatorer replikerer præcis de mønstre, der observeres i hippocampus. "De erkendte, at en transformer kan finde ud af, hvor den er baseret på tidligere tilstande, og hvordan den flyttes, og på en måde, der er indlæst i traditionelle modeller af gitterceller."

Andet nyligt arbejde tyder på, at transformatorer også kunne fremme vores forståelse af andre hjernefunktioner. Sidste år Martin Schrimpf, en computerneuroforsker ved Massachusetts Institute of Technology, analyseret 43 forskellige neurale netmodeller for at se, hvor godt de forudsagde målinger af menneskelig neural aktivitet som rapporteret ved fMRI og elektrokortikografi. Transformere, fandt han, er de nuværende førende, state-of-the-art neurale netværk, der forudsiger næsten al den variation, der findes i billeddannelsen.

Og Ha, sammen med en anden datalog Yujin Tang, designet for nylig en model, der med vilje kunne sende store mængder data gennem en transformer på en tilfældig, uordnet måde, der efterligner, hvordan den menneskelige krop transmitterer sensoriske observationer til hjernen. Deres transformator kunne, ligesom vores hjerner, med succes håndtere en uordnet strøm af information.

"Neurale net er fastkablet til at acceptere et bestemt input," sagde Tang. Men i det virkelige liv ændrer datasæt sig ofte hurtigt, og de fleste AI har ingen måde at justere på. "Vi ønskede at eksperimentere med en arkitektur, der kunne tilpasse sig meget hurtigt."

På trods af disse tegn på fremskridt ser Behrens transformatorer som blot et skridt mod en nøjagtig model af hjernen - ikke slutningen på søgen. "Jeg er nødt til at være en skeptisk neurovidenskabsmand her," sagde han. "Jeg tror ikke, at transformatorer ender med at blive den måde, vi tænker om sprog i hjernen, for eksempel, selvom de har den bedste nuværende model af sætninger."

"Er dette det mest effektive grundlag for at lave forudsigelser om, hvor jeg er, og hvad jeg vil se næste gang? Hvis jeg skal være ærlig, er det for tidligt at sige,” sagde Barry.

Schrimpf bemærkede også, at selv de bedst ydende transformatorer er begrænsede, fungerer godt til ord og korte sætninger, for eksempel, men ikke til større sproglige opgaver som at fortælle historier.

"Min fornemmelse er, at denne arkitektur, denne transformer, sætter dig i det rigtige rum til at forstå hjernens struktur og kan forbedres med træning," sagde Schrimpf. "Dette er en god retning, men feltet er super komplekst."

Tidsstempel:

Mere fra Quantamagazin