Självlärd AI visar likheter med hur hjärnan fungerar PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Självlärd AI visar likheter med hur hjärnan fungerar

I ett decennium nu har många av de mest imponerande artificiella intelligenssystemen lärts ut med hjälp av ett enormt lager av märkta data. En bild kan vara märkt "tabby cat" eller "tiger cat", till exempel för att "träna" ett artificiellt neuralt nätverk för att korrekt skilja en tabby från en tiger. Strategin har varit både spektakulärt framgångsrik och bedrövligt bristfällig.

Sådan "övervakad" träning kräver data mödosamt märkt av människor, och de neurala nätverken tar ofta genvägar och lär sig att associera etiketterna med minimal och ibland ytlig information. Till exempel kan ett neuralt nätverk använda närvaron av gräs för att känna igen ett foto av en ko, eftersom kor vanligtvis fotograferas på fält.

"Vi föder upp en generation av algoritmer som är som studenter [som] inte kom till lektionen hela terminen och sedan kvällen före finalen, proppar de", sa de Alexei Efros, en datavetare vid University of California, Berkeley. "De lär sig inte riktigt materialet, men de klarar sig bra på testet."

För forskare som är intresserade av skärningspunkten mellan djur- och maskinintelligens kan denna "övervakade inlärning" dessutom vara begränsad i vad den kan avslöja om biologiska hjärnor. Djur – inklusive människor – använder inte märkta datamängder för att lära sig. För det mesta utforskar de miljön på egen hand, och genom att göra det får de en rik och robust förståelse av världen.

Nu har vissa beräkningsneuroforskare börjat utforska neurala nätverk som har tränats med lite eller inga mänskliga märkta data. Dessa "självövervakade lärande"-algoritmer har visat sig vara enormt framgångsrika modellera mänskligt språk och, på senare tid, bildigenkänning. I senare arbete har beräkningsmodeller av däggdjurs visuella och auditiva system byggda med hjälp av självövervakade inlärningsmodeller visat en närmare överensstämmelse med hjärnans funktion än deras övervakade inlärningsmotsvarigheter. För vissa neuroforskare verkar det som om de konstgjorda nätverken börjar avslöja några av de faktiska metoder som våra hjärnor använder för att lära sig.

Felaktig tillsyn

Hjärnmodeller inspirerade av artificiella neurala nätverk blev myndiga för cirka 10 år sedan, ungefär samtidigt som ett neuralt nätverk som heter AlexNet revolutionerade uppgiften att klassificera okända bilder. Det nätverket, liksom alla neurala nätverk, var gjord av lager av artificiella neuroner, beräkningsenheter som bildar anslutningar till varandra som kan variera i styrka eller "vikt". Om ett neuralt nätverk misslyckas med att klassificera en bild korrekt, uppdaterar inlärningsalgoritmen vikten av kopplingarna mellan neuronerna för att göra den felklassificeringen mindre sannolik i nästa träningsomgång. Algoritmen upprepar denna process många gånger med alla träningsbilder, tweaking vikter, tills nätverkets felfrekvens är acceptabelt låg.

Ungefär samtidigt utvecklade neuroforskare de första beräkningsmodellerna av primats synsystem, med hjälp av neurala nätverk som AlexNet och dess efterföljare. Fackföreningen såg lovande ut: När apor och konstgjorda neurala nät visades samma bilder, visade till exempel aktiviteten hos de verkliga nervcellerna och de konstgjorda nervcellerna en spännande överensstämmelse. Konstgjorda modeller av hörsel- och luktdetektering följde.

Men allteftersom området fortskred insåg forskarna begränsningarna med övervakad utbildning. Till exempel, 2017, tog Leon Gatys, en datavetare vid universitetet i Tübingen i Tyskland, och hans kollegor en bild av en Ford Model T och lade sedan ett leopardskinnsmönster över fotot, vilket genererade en bisarr men lätt igenkännlig bild . Ett ledande artificiellt neuralt nätverk klassificerade korrekt den ursprungliga bilden som en modell T, men ansåg att den modifierade bilden var en leopard. Den hade fixerat sig vid texturen och hade ingen förståelse för formen på en bil (eller en leopard, för den delen).

Självövervakade inlärningsstrategier är utformade för att undvika sådana problem. I detta tillvägagångssätt märker människor inte data. Snarare, "etiketterna kommer från själva data", sa Friedemann Zenke, en beräkningsneuroforskare vid Friedrich Miescher Institute for Biomedical Research i Basel, Schweiz. Självövervakade algoritmer skapar i huvudsak luckor i data och ber det neurala nätverket att fylla i tomrummen. I en så kallad stor språkmodell, till exempel, kommer träningsalgoritmen att visa det neurala nätverket de första orden i en mening och be det förutsäga nästa ord. När tränad med en massiv korpus av text hämtad från internet, modellen verkar lära sig språkets syntaktiska struktur, som visar imponerande språklig förmåga - allt utan externa etiketter eller övervakning.

En liknande satsning pågår inom datorseende. I slutet av 2021, Kaiming He och kollegor avslöjade sina "maskerad automatisk kodare", som bygger på en Tekniken banbrytande av Efros team 2016. Den självövervakade inlärningsalgoritmen maskerar slumpmässigt bilder och döljer nästan tre fjärdedelar av var och en. Den maskerade autokodaren förvandlar de omaskerade delarna till latenta representationer - komprimerade matematiska beskrivningar som innehåller viktig information om ett objekt. (I fallet med en bild kan den latenta representationen vara en matematisk beskrivning som bland annat fångar formen på ett objekt i bilden.) En avkodare omvandlar sedan dessa representationer tillbaka till hela bilder.

Den självövervakade inlärningsalgoritmen tränar kombinationen av kodare och avkodare för att förvandla maskerade bilder till sina fullständiga versioner. Eventuella skillnader mellan de verkliga bilderna och de rekonstruerade matas tillbaka in i systemet för att hjälpa det att lära sig. Denna process upprepas för en uppsättning träningsbilder tills systemets felfrekvens är lämpligt låg. I ett exempel, när en tränad maskerad autokodare visades en tidigare osynlig bild av en buss med nästan 80 % av den skymd, rekonstruerade systemet framgångsrikt bussens struktur.

"Det här är ett mycket, mycket imponerande resultat," sa Efros.

De latenta representationerna som skapas i ett system som detta tycks innehålla väsentligt djupare information än vad tidigare strategier skulle kunna inkludera. Systemet kan lära sig formen på en bil, till exempel – eller en leopard – och inte bara deras mönster. "Och detta är verkligen den grundläggande idén med självövervakat lärande - du bygger upp din kunskap från botten och upp", sa Efros. Inget stopp i sista minuten för att klara tester.

Självövervakade hjärnor

I system som detta ser vissa neuroforskare ekon av hur vi lär oss. "Jag tror att det inte råder någon tvekan om att 90% av vad hjärnan gör är självövervakad inlärning," sa Blake Richards, en computational neuroscientist vid McGill University och Mila, Quebec Artificial Intelligence Institute. Biologiska hjärnor tros kontinuerligt förutsäga, säg, ett objekts framtida plats när det rör sig, eller nästa ord i en mening, precis som en självövervakad inlärningsalgoritm försöker förutsäga gapet i en bild eller ett textsegment. Och hjärnor lär sig också av sina misstag på egen hand - bara en liten del av vår hjärnas feedback kommer från en extern källa som i huvudsak säger "fel svar."

Tänk till exempel på de visuella systemen hos människor och andra primater. Dessa är de bäst studerade av alla djurs sensoriska system, men neuroforskare har kämpat för att förklara varför de inkluderar två separata vägar: den ventrala visuella strömmen, som är ansvarig för att känna igen objekt och ansikten, och den dorsala visuella strömmen, som bearbetar rörelse (den " vad" respektive "var" vägar).

Richards och hans team skapade en självövervakad modell som antyder ett svar. De tränad en AI som kombinerade två olika neurala nätverk: Det första, kallat ResNet-arkitekturen, designades för att bearbeta bilder; det andra, känt som ett återkommande nätverk, kunde hålla reda på en sekvens av tidigare ingångar för att göra förutsägelser om nästa förväntade ingång. För att träna den kombinerade AI:n började teamet med en sekvens av till exempel 10 bildrutor från en video och lät ResNet bearbeta dem en efter en. Det återkommande nätverket förutspådde sedan den latenta representationen av den 11:e ramen, utan att bara matcha de första 10 ramarna. Den självövervakade inlärningsalgoritmen jämförde förutsägelsen med det faktiska värdet och instruerade de neurala nätverken att uppdatera sina vikter för att göra förutsägelsen bättre.

Richards team fann att en AI tränad med ett enda ResNet var bra på objektigenkänning, men inte på att kategorisera rörelse. Men när de delade upp det enda ResNet i två och skapade två vägar (utan att ändra det totala antalet neuroner), utvecklade AI representationer för objekt i den ena och för rörelse i den andra, vilket möjliggjorde nedströms kategorisering av dessa egenskaper - precis som våra hjärnor troligen do.

För att testa AI ytterligare visade teamet en uppsättning videor som forskare vid Allen Institute for Brain Science i Seattle tidigare hade visat för möss. Precis som primater har möss hjärnregioner som är specialiserade för statiska bilder och för rörelse. Allen-forskarna registrerade den neurala aktiviteten i musens visuella cortex när djuren tittade på videorna.

Även här fann Richards team likheter i hur AI och de levande hjärnorna reagerade på videorna. Under träningen blev en av vägarna i det artificiella neurala nätverket mer lik de ventrala, objektdetekterande regionerna i musens hjärna, och den andra vägen blev lik de rörelsefokuserade dorsala regionerna.

Resultaten tyder på att vårt visuella system har två specialiserade vägar eftersom de hjälper till att förutsäga den visuella framtiden, sa Richards; en enda väg är inte tillräckligt bra.

Modeller av det mänskliga hörselsystemet berättar en liknande historia. I juni kom ett team under ledning av Jean-Rémi King, forskare vid Meta AI, tränade en AI som heter Wav2Vec 2.0, som använder ett neuralt nätverk för att omvandla ljud till latenta representationer. Forskarna maskerar några av dessa representationer, som sedan matas in i en annan komponent i neurala nätverk som kallas en transformator. Under träning förutsäger transformatorn den maskerade informationen. I processen lär sig hela AI att förvandla ljud till latenta representationer - återigen, inga etiketter behövs. Teamet använde cirka 600 timmars taldata för att träna nätverket, "vilket är ungefär vad ett barn skulle få under [de] första två års erfarenhet", sa King.

När systemet väl tränats spelade forskarna upp delar av ljudböcker på engelska, franska och mandarin. Forskarna jämförde sedan AI:s prestanda mot data från 412 personer - en blandning av infödda talare av de tre språken som hade lyssnat på samma ljudsträcka medan de fick sina hjärnor avbildade i en fMRI-skanner. King sa att hans neurala nätverk och den mänskliga hjärnan, trots de bullriga och lågupplösta fMRI-bilderna, "inte bara korrelerar med varandra, utan de korrelerar på ett systematiskt sätt": Aktiviteten i de tidiga lagren av AI överensstämmer med aktiviteten. i den primära hörselbarken, medan aktiviteten i AI:s djupaste skikt överensstämmer med aktiviteten i de högre skikten i hjärnan, i detta fall den prefrontala cortexen. "Det är verkligen vackra data," sade Richards. "Det är inte avgörande, men [det är] ytterligare ett övertygande bevis som tyder på att sättet vi lär oss språk faktiskt är till stor del genom att försöka förutsäga nästa saker som kommer att sägas."

Obotade patologier

Alla är inte övertygade. Josh McDermott, en beräkningsneuroforskare vid Massachusetts Institute of Technology, har arbetat med modeller för syn och hörseluppfattning med hjälp av både övervakat och självövervakat lärande. Hans labb har designat vad han kallar "metamers", syntetiserade ljud- och visuella signaler som för en människa bara är outgrundligt ljud. För ett artificiellt neuralt nätverk verkar metamerer dock omöjliga att skilja från verkliga signaler. Detta tyder på att representationerna som bildas i det neurala nätverkets djupare lager, även med självövervakad inlärning, inte matchar representationerna i våra hjärnor. Dessa självövervakade inlärningsmetoder "är framsteg i den meningen att du kan lära dig representationer som kan stödja många igenkänningsbeteenden utan att behöva alla dessa etiketter," sa McDermott. "Men de har fortfarande många av patologierna hos övervakade modeller."

Algoritmerna i sig behöver också mer arbete. Till exempel, i Meta AI:s Wav2Vec 2.0, förutsäger AI:n endast latenta representationer för några tiotals millisekunders ljud - mindre tid än det tar att uttala ett perceptuellt distinkt brus, än mindre ett ord. "Det finns många saker att göra för att göra något som liknar det som hjärnan gör," sa King.

Att verkligen förstå hjärnans funktion kommer att kräva mer än självövervakad inlärning. Dels är hjärnan full av återkopplingskopplingar, medan nuvarande modeller har få sådana kopplingar, om några. Ett självklart nästa steg skulle vara att använda självövervakad inlärning för att träna mycket återkommande nätverk — en svår process — och se hur aktiviteten i sådana nätverk kan jämföras med verklig hjärnaktivitet. Det andra avgörande steget skulle vara att matcha aktiviteten hos artificiella neuroner i självövervakade inlärningsmodeller med aktiviteten hos enskilda biologiska neuroner. "Förhoppningsvis kommer [våra] resultat i framtiden att bekräftas med encellsinspelningar också," sa King.

Om de observerade likheterna mellan hjärnor och självövervakade inlärningsmodeller håller för andra sensoriska uppgifter, kommer det att vara en ännu starkare indikation på att vilken magi våra hjärnor än är kapabla till kräver självövervakad inlärning i någon form. "Om vi ​​hittar systematiska likheter mellan väldigt olika system, skulle det tyda på att det kanske inte finns så många sätt att bearbeta information på ett intelligent sätt", sa King. "Åtminstone är det den vackra hypotesen vi skulle vilja arbeta med."

Tidsstämpel:

Mer från Quantamagazin