Hvordan transformatorer ser ut til å etterligne deler av hjernen PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Hvordan transformatorer ser ut til å etterligne deler av hjernen

Å forstå hvordan hjernen organiserer og får tilgang til romlig informasjon - hvor vi er, hva som er rundt hjørnet, hvordan du kommer dit - er fortsatt en utsøkt utfordring. Prosessen innebærer å hente frem et helt nettverk av minner og lagrede romlige data fra titalls milliarder nevroner, hver koblet til tusenvis av andre. Nevrovitenskapsmenn har identifisert nøkkelelementer som f.eks rutenettceller, nevroner som kartlegger steder. Men å gå dypere vil vise seg å være vanskelig: Det er ikke som om forskere kan fjerne og studere stykker av menneskelig grå substans for å se hvordan stedsbaserte minner av bilder, lyder og lukter flyter gjennom og kobles til hverandre.

Kunstig intelligens tilbyr en annen vei inn. I årevis har nevrovitenskapsmenn utnyttet mange typer nevrale nettverk - motorene som driver de fleste dyplæringsapplikasjoner - for å modellere avfyringen av nevroner i hjernen. I nyere arbeid har forskere vist at hippocampus, en struktur i hjernen som er kritisk for hukommelsen, i utgangspunktet er en spesiell type nevrale nett, kjent som et transformator, i forkledning. Deres nye modell sporer romlig informasjon på en måte som er parallell med hjernens indre funksjon. De har sett bemerkelsesverdig suksess.

"Det faktum at vi vet at disse hjernemodellene tilsvarer transformatoren betyr at modellene våre yter mye bedre og er lettere å trene," sa James Whittington, en kognitiv nevroforsker som deler tiden sin mellom Stanford University og laboratoriet til Tim Behrens ved University of Oxford.

Studier av Whittington og andre antyder at transformatorer i stor grad kan forbedre evnen til nevrale nettverksmodeller til å etterligne den slags beregninger som utføres av rutenettceller og andre deler av hjernen. Slike modeller kan presse vår forståelse av hvordan kunstige nevrale nettverk fungerer og, enda mer sannsynlig, hvordan beregninger utføres i hjernen, sa Whittington.

"Vi prøver ikke å gjenskape hjernen," sa David Ha, en dataforsker ved Google Brain som også jobber med transformatormodeller. "Men kan vi lage en mekanisme som kan gjøre det hjernen gjør?"

Transformers dukket først opp for fem år siden som en ny måte for AI å behandle språk på. De er den hemmelige sausen i de overskriftsfengende setningsfullende programmene som BERTI og GPT-3, som kan generere overbevisende sangtekster, komponere Shakespeare-sonetter og etterligne kundeservicerepresentanter.

Transformatorer fungerer ved hjelp av en mekanisme som kalles selvoppmerksomhet, der hver inngang - et ord, en piksel, et tall i en sekvens - alltid er koblet til annenhver inngang. (Andre nevrale nettverk kobler kun innganger til visse andre innganger.) Men mens transformatorer ble designet for språkoppgaver, har de siden utmerket seg med andre oppgaver som å klassifisere bilder - og nå modellering av hjernen.

I 2020 ble en gruppe ledet av Sepp Hochreiter, en informatiker ved Johannes Kepler-universitetet i Linz i Østerrike, brukte en transformator for å gjenopprette en kraftig, langvarig modell for minnehenting kalt et Hopfield-nettverk. Disse nettverkene ble først introdusert for 40 år siden av Princeton-fysikeren John Hopfield, og følger en generell regel: Nevroner som er aktive samtidig bygger sterke forbindelser med hverandre.

Hochreiter og hans samarbeidspartnere, som la merke til at forskere har lett etter bedre modeller for minneinnhenting, så en sammenheng mellom hvordan Hopfield-nettverk henter minner og hvordan transformatorer utfører oppmerksomhet. De oppgraderte Hopfield-nettverket, og gjorde det egentlig om til en transformator. Denne endringen tillot modellen å lagre og hente flere minner på grunn av mer effektive tilkoblinger, sa Whittington. Hopfield selv, sammen med Dmitry Krotov ved MIT-IBM Watson AI Lab, beviste at et transformatorbasert Hopfield-nettverk var biologisk plausibelt.

Deretter, tidligere i år, Whittington og Behrens hjalp til med å finpusse Hochreiters tilnærming ytterligere, og modifiserte transformatoren slik at i stedet for å behandle minner som en lineær sekvens - som en rekke ord i en setning - kodet den dem som koordinater i høyere dimensjonale rom. Den "vridningen", som forskerne kalte det, forbedret modellens ytelse på nevrovitenskapelige oppgaver ytterligere. De viste også at modellen var matematisk ekvivalent med modeller av gridcelleavfyringsmønstrene som nevrovitenskapsmenn ser i fMRI-skanninger.

"Grid-celler har denne typen spennende, vakker, regelmessig struktur og med slående mønstre som neppe dukker opp tilfeldig," sa Caswell Barry, en nevroforsker ved University College London. Det nye arbeidet viste hvordan transformatorer gjenskaper nøyaktig de mønstrene som ble observert i hippocampus. "De erkjente at en transformator kan finne ut hvor den er basert på tidligere tilstander og hvordan den er flyttet, og på en måte som er nøkkelen inn i tradisjonelle modeller av rutenettceller."

Andre nyere arbeid antyder at transformatorer kan fremme vår forståelse av andre hjernefunksjoner også. I fjor, Martin Schrimpf, en beregningsnevroforsker ved Massachusetts Institute of Technology, analysert 43 forskjellige nevrale nettmodeller for å se hvor godt de spådde målinger av menneskelig nevral aktivitet som rapportert ved fMRI og elektrokortikografi. Transformatorer, fant han, er de nåværende ledende, state-of-the-art nevrale nettverkene, og forutsier nesten all variasjonen som finnes i avbildningen.

Og Ha, sammen med en annen dataforsker Yujin Tang, utviklet nylig en modell som med vilje kunne sende store mengder data gjennom en transformator på en tilfeldig, uordnet måte, og etterligne hvordan menneskekroppen overfører sensoriske observasjoner til hjernen. Transformatoren deres, som hjernen vår, kunne håndtere en uordnet informasjonsflyt.

"Nevrale nett er kablet for å akseptere en bestemt inngang," sa Tang. Men i det virkelige liv endres datasett ofte raskt, og de fleste AI har ingen måte å justere på. "Vi ønsket å eksperimentere med en arkitektur som kunne tilpasse seg veldig raskt."

Til tross for disse tegnene på fremgang, ser Behrens transformatorer som bare et skritt mot en nøyaktig modell av hjernen - ikke slutten på søken. "Jeg må være en skeptisk nevroforsker her," sa han. "Jeg tror ikke transformatorer vil ende opp som hvordan vi tenker om språk i hjernen, for eksempel, selv om de har den beste gjeldende modellen av setninger."

"Er dette det mest effektive grunnlaget for å gi spådommer om hvor jeg er og hva jeg vil se neste gang? Hvis jeg skal være ærlig, er det for tidlig å si, sa Barry.

Schrimpf bemerket også at selv de best-ytende transformatorene er begrenset, fungerer bra for ord og korte setninger, for eksempel, men ikke for større språkoppgaver som å fortelle historier.

"Min følelse er at denne arkitekturen, denne transformatoren, setter deg i det rette rommet for å forstå strukturen i hjernen, og kan forbedres med trening," sa Schrimpf. "Dette er en god retning, men feltet er superkomplekst."

Tidstempel:

Mer fra Quantamagazin