Hur transformatorer verkar härma delar av hjärnan PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Hur transformatorer verkar härma delar av hjärnan

Att förstå hur hjärnan organiserar och får tillgång till rumslig information - var vi är, vad som finns runt hörnet, hur man tar sig dit - är fortfarande en utsökt utmaning. Processen går ut på att återkalla ett helt nätverk av minnen och lagrad rumslig data från tiotals miljarder neuroner, var och en kopplad till tusentals andra. Neuroforskare har identifierat nyckelelement som t.ex rutnätsceller, neuroner som kartlägger platser. Men att gå djupare kommer att visa sig vara knepigt: det är inte som om forskare kan ta bort och studera delar av mänsklig grå substans för att se hur platsbaserade minnen av bilder, ljud och lukter flödar igenom och ansluter till varandra.

Artificiell intelligens erbjuder en annan väg in. I åratal har neuroforskare utnyttjat många typer av neurala nätverk - motorerna som driver de flesta djupinlärningsapplikationer - för att modellera avfyrningen av neuroner i hjärnan. I nyare arbeten har forskare visat att hippocampus, en hjärnstruktur som är avgörande för minnet, i grunden är en speciell sorts neuralnät, känt som ett transformator, i förklädnad. Deras nya modell spårar rumslig information på ett sätt som är parallellt med hjärnans inre funktioner. De har sett anmärkningsvärda framgångar.

"Det faktum att vi vet att dessa modeller av hjärnan är likvärdiga med transformatorn betyder att våra modeller presterar mycket bättre och är lättare att träna," sa James Whittington, en kognitiv neuroforskare som delar sin tid mellan Stanford University och labbet på Tim Behrens vid University of Oxford.

Studier av Whittington och andra antyder att transformatorer avsevärt kan förbättra förmågan hos neurala nätverksmodeller att efterlikna de typer av beräkningar som utförs av rutnätsceller och andra delar av hjärnan. Sådana modeller kan driva vår förståelse av hur artificiella neurala nätverk fungerar och, ännu mer troligt, hur beräkningar utförs i hjärnan, sa Whittington.

"Vi försöker inte återskapa hjärnan," sa David Ha, en datavetare på Google Brain som också arbetar med transformatormodeller. "Men kan vi skapa en mekanism som kan göra det som hjärnan gör?"

Transformers dök upp för första gången för fem år sedan som ett nytt sätt för AI att bearbeta språk. De är den hemliga såsen i de där rubrik-gripande meningsfullbordande program som BERTI och GPT-3, som kan generera övertygande sångtexter, komponera Shakespeare-sonetter och imitera kundtjänstrepresentanter.

Transformatorer arbetar med en mekanism som kallas självuppmärksamhet, där varje ingång - ett ord, en pixel, ett nummer i en sekvens - alltid är kopplad till varannan ingång. (Andra neurala nätverk ansluter endast ingångar till vissa andra ingångar.) Men medan transformatorer designades för språkuppgifter, har de sedan dess utmärkt sig vid andra uppgifter som att klassificera bilder - och nu, modellering av hjärnan.

2020, en grupp ledd av Sepp Hochreiter, en datavetare vid Johannes Kepler University Linz i Österrike, använde en transformator för att bygga om en kraftfull, långvarig modell för minneshämtning som kallas ett Hopfield-nätverk. Dessa nätverk introducerades först för 40 år sedan av Princeton-fysikern John Hopfield och följer en allmän regel: Neuroner som samtidigt är aktiva bygger starka förbindelser med varandra.

Hochreiter och hans medarbetare, som noterade att forskare har letat efter bättre modeller för minneshämtning, såg ett samband mellan hur Hopfield-nätverk hämtar minnen och hur transformatorer utför uppmärksamhet. De uppgraderade Hopfield-nätverket och gjorde det i princip till en transformator. Den förändringen gjorde det möjligt för modellen att lagra och hämta fler minnen på grund av mer effektiva anslutningar, sa Whittington. Hopfield själv, tillsammans med Dmitry Krotov vid MIT-IBM Watson AI Lab, bevisade att ett transformatorbaserat Hopfield-nätverk var biologiskt rimligt.

Därefter, tidigare i årWhittington och Behrens hjälpte till att ytterligare finjustera Hochreiters tillvägagångssätt och modifierade transformatorn så att istället för att behandla minnen som en linjär sekvens - som en sträng av ord i en mening - kodade den dem som koordinater i högre dimensionella utrymmen. Den "twist", som forskarna kallade det, förbättrade modellens prestanda på neurovetenskapliga uppgifter ytterligare. De visade också att modellen var matematiskt likvärdig med modeller av rutnätscellavfyrningsmönster som neuroforskare ser i fMRI-skanningar.

"Gridceller har den här typen av spännande, vacker, regelbunden struktur och med slående mönster som sannolikt inte dyker upp slumpmässigt", säger Caswell Barry, neuroforskare vid University College London. Det nya arbetet visade hur transformatorer replikerar exakt de mönster som observerats i hippocampus. "De insåg att en transformator kan ta reda på var den är baserad på tidigare tillstånd och hur den flyttas, och på ett sätt som är inskrivet i traditionella modeller av rutnätsceller."

Annat nyligen arbetat tyder på att transformatorer kan främja vår förståelse av andra hjärnfunktioner också. Förra året, Martin Schrimpf, en beräkningsneuroforskare vid Massachusetts Institute of Technology, analyserade 43 olika neurala nätmodeller för att se hur väl de förutspådde mätningar av mänsklig neurala aktivitet som rapporterats av fMRI och elektrokortikografi. Transformatorer, fann han, är de nuvarande ledande, state-of-the-art neurala nätverken, som förutsäger nästan all variation som finns i avbildningen.

Och Ha, tillsammans med andra datavetare Yujin Tang, designade nyligen en modell som avsiktligt kunde skicka stora mängder data genom en transformator på ett slumpmässigt, oordnat sätt, som efterliknar hur människokroppen överför sensoriska observationer till hjärnan. Deras transformator, liksom våra hjärnor, kunde framgångsrikt hantera ett oordnat informationsflöde.

"Neurala nät är fastanslutna för att acceptera en viss ingång", sa Tang. Men i verkligheten förändras datamängder ofta snabbt, och de flesta AI har inget sätt att justera. "Vi ville experimentera med en arkitektur som kunde anpassa sig väldigt snabbt."

Trots dessa tecken på framsteg ser Behrens transformatorer som bara ett steg mot en korrekt modell av hjärnan - inte slutet på uppdraget. "Jag måste vara en skeptisk neuroforskare här," sa han. "Jag tror inte att transformatorer kommer att bli hur vi tänker om språk i hjärnan, till exempel, även om de har den bästa nuvarande modellen av meningar."

"Är detta den mest effektiva grunden för att göra förutsägelser om var jag är och vad jag kommer att se härnäst? Om jag ska vara ärlig är det för tidigt att säga”, sa Barry.

Schrimpf noterade också att även de bäst presterande transformatorerna är begränsade, fungerar bra för ord och korta fraser, till exempel, men inte för större språkuppgifter som att berätta historier.

"Min uppfattning är att den här arkitekturen, denna transformator, placerar dig i rätt utrymme för att förstå hjärnans struktur och kan förbättras med träning," sa Schrimpf. "Det här är en bra riktning, men fältet är superkomplicerat."

Tidsstämpel:

Mer från Quantamagazin