Selvlært AI viser likheter med hvordan hjernen fungerer PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Selvlært AI viser likheter med hvordan hjernen fungerer

I et tiår nå har mange av de mest imponerende kunstig intelligenssystemene blitt undervist ved hjelp av et enormt utvalg av merkede data. Et bilde kan være merket "tabbykatt" eller "tigerkatt", for eksempel for å "trene" et kunstig nevralt nettverk til å skille en tabby fra en tiger. Strategien har vært både spektakulært vellykket og sørgelig mangelfull.

Slik "overvåket" trening krever data møysommelig merket av mennesker, og de nevrale nettverkene tar ofte snarveier og lærer å assosiere etikettene med minimal og noen ganger overfladisk informasjon. For eksempel kan et nevralt nettverk bruke tilstedeværelsen av gress for å gjenkjenne et bilde av en ku, fordi kuer vanligvis fotograferes i åker.

"Vi oppdrar en generasjon av algoritmer som er som studenter [som] ikke kom til klassen hele semesteret, og så kvelden før finalen, propper de," sa Alexei Efros, en informatiker ved University of California, Berkeley. "De lærer egentlig ikke materialet, men de gjør det bra på testen."

For forskere som er interessert i skjæringspunktet mellom dyre- og maskinintelligens, kan dessuten denne "overvåkede læringen" være begrenset i hva den kan avsløre om biologiske hjerner. Dyr – inkludert mennesker – bruker ikke merkede datasett for å lære. For det meste utforsker de miljøet på egenhånd, og ved å gjøre det får de en rik og robust forståelse av verden.

Nå har noen beregningsmessige nevroforskere begynt å utforske nevrale nettverk som har blitt trent med lite eller ingen menneskemerkede data. Disse "selvovervåket læring"-algoritmene har vist seg enormt vellykkede modellering av menneskelig språk og, mer nylig, bildegjenkjenning. I nyere arbeid har beregningsmodeller av pattedyrs visuelle og auditive systemer bygget ved hjelp av selvovervåkede læringsmodeller vist en nærmere samsvar med hjernefunksjon enn deres overvåket lærende kolleger. For noen nevrovitenskapsmenn virker det som om de kunstige nettverkene begynner å avsløre noen av de faktiske metodene hjernen vår bruker for å lære.

Feil tilsyn

Hjernemodeller inspirert av kunstige nevrale nettverk ble voksen for rundt 10 år siden, omtrent samtidig som et nevralt nettverk kalt AlexNet revolusjonerte oppgaven med å klassifisere ukjente bilder. Dette nettverket, som alle nevrale nettverk, var laget av lag med kunstige nevroner, beregningsenheter som danner forbindelser til hverandre som kan variere i styrke eller "vekt". Hvis et nevralt nettverk ikke klarer å klassifisere et bilde riktig, oppdaterer læringsalgoritmen vekten av forbindelsene mellom nevronene for å gjøre den feilklassifiseringen mindre sannsynlig i neste runde med trening. Algoritmen gjentar denne prosessen mange ganger med alle treningsbildene, justering av vekter, til nettverkets feilrate er akseptabelt lav.

Omtrent på samme tid utviklet nevrovitenskapsmenn de første beregningsmodellene av primats visuelle system, ved å bruke nevrale nettverk som AlexNet og dets etterfølgere. Forbundet så lovende ut: Når aper og kunstige nevrale nett ble vist de samme bildene, viste for eksempel aktiviteten til de virkelige nevronene og de kunstige nevronene en spennende korrespondanse. Kunstige modeller for hørsels- og luktdeteksjon fulgte.

Men etter hvert som feltet utviklet seg, innså forskerne begrensningene ved veiledet opplæring. For eksempel, i 2017 tok Leon Gatys, en dataforsker ved universitetet i Tübingen i Tyskland, og hans kolleger et bilde av en Ford Model T, og la deretter et leopardskinnmønster over bildet, og genererte et bisarrt, men lett gjenkjennelig bilde . Et ledende kunstig nevralt nettverk klassifiserte det originale bildet korrekt som en Model T, men betraktet det modifiserte bildet som en leopard. Den hadde festet seg på teksturen og hadde ingen forståelse for formen til en bil (eller en leopard, for den saks skyld).

Selvstyrte læringsstrategier er utformet for å unngå slike problemer. I denne tilnærmingen merker ikke mennesker dataene. Snarere, "etikettene kommer fra selve dataene," sa Friedemann Zenke, en beregningsnevroforsker ved Friedrich Miescher Institute for Biomedical Research i Basel, Sveits. Selvovervåkede algoritmer skaper i hovedsak hull i dataene og ber det nevrale nettverket fylle ut de tomme feltene. I en såkalt stor språkmodell, for eksempel, vil treningsalgoritmen vise det nevrale nettverket de første par ordene i en setning og be det forutsi det neste ordet. Når trenet med et massivt korpus av tekst hentet fra internett, modellen ser ut til å lære den syntaktiske strukturen til språket, som viser imponerende språklige evner - alt uten eksterne etiketter eller tilsyn.

En lignende innsats er i gang innen datasyn. På slutten av 2021, Kaiming He og kolleger avslørte deres "maskert auto-koder", som bygger på en teknikk banebrytende av Efros' team i 2016. Den selvovervåkede læringsalgoritmen maskerer tilfeldig bilder, og skjuler nesten tre fjerdedeler av hvert enkelt. Den maskerte autokoderen gjør de umaskerte delene til latente representasjoner - komprimerte matematiske beskrivelser som inneholder viktig informasjon om et objekt. (Når det gjelder et bilde, kan den latente representasjonen være en matematisk beskrivelse som blant annet fanger opp formen til et objekt i bildet.) En dekoder konverterer deretter disse representasjonene tilbake til hele bilder.

Den selvovervåkede læringsalgoritmen trener koder-dekoder-kombinasjonen til å gjøre maskerte bilder til fullversjoner. Eventuelle forskjeller mellom de virkelige bildene og de rekonstruerte blir matet tilbake til systemet for å hjelpe det å lære. Denne prosessen gjentas for et sett med treningsbilder til systemets feilrate er passende lav. I ett eksempel, da en trent maskert auto-koder ble vist et tidligere usett bilde av en buss med nesten 80 % av den skjult, rekonstruerte systemet strukturen til bussen.

"Dette er et veldig, veldig imponerende resultat," sa Efros.

De latente representasjonene som er opprettet i et system som dette ser ut til å inneholde vesentlig dypere informasjon enn tidligere strategier kunne inkludere. Systemet kan lære formen til en bil, for eksempel - eller en leopard - og ikke bare mønstrene deres. "Og dette er egentlig den grunnleggende ideen om selvstyrt læring - du bygger opp kunnskapen din fra bunnen av," sa Efros. Ingen last i siste øyeblikk for å bestå tester.

Selvstyrte hjerner

I systemer som dette ser noen nevrovitenskapsmenn ekko av hvordan vi lærer. "Jeg tror det er ingen tvil om at 90% av det hjernen gjør er selvstyrt læring," sa Blake Richards, en beregningsnevroforsker ved McGill University og Mila, Quebec Artificial Intelligence Institute. Biologiske hjerner antas å kontinuerlig forutsi for eksempel et objekts fremtidige plassering når det beveger seg, eller neste ord i en setning, akkurat som en selvovervåket læringsalgoritme forsøker å forutsi gapet i et bilde eller et tekstsegment. Og hjerner lærer av sine feil på egenhånd også - bare en liten del av hjernens tilbakemelding kommer fra en ekstern kilde som i hovedsak sier "feil svar."

Vurder for eksempel de visuelle systemene til mennesker og andre primater. Disse er de best studerte av alle dyresensoriske systemer, men nevrovitenskapsmenn har slitt med å forklare hvorfor de inkluderer to separate veier: den ventrale visuelle strømmen, som er ansvarlig for å gjenkjenne objekter og ansikter, og den dorsal visuelle strømmen, som behandler bevegelse (den " henholdsvis hva- og hvor-veier).

Richards og teamet hans laget en selvstyrt modell som antyder et svar. De trent en AI som kombinerte to forskjellige nevrale nettverk: Det første, kalt ResNet-arkitekturen, ble designet for å behandle bilder; det andre, kjent som et tilbakevendende nettverk, kunne holde styr på en sekvens av tidligere innganger for å gi spådommer om neste forventede inngang. For å trene den kombinerte AI startet teamet med en sekvens på for eksempel 10 bilder fra en video og lot ResNet behandle dem én etter én. Det tilbakevendende nettverket forutså deretter den latente representasjonen av den 11. rammen, mens den ikke bare matchet de første 10 rammene. Den selvovervåkede læringsalgoritmen sammenlignet prediksjonen med den faktiske verdien og instruerte nevrale nettverk om å oppdatere vektene sine for å gjøre prediksjonen bedre.

Richards team fant ut at en AI trent med et enkelt ResNet var god til gjenkjenning av objekter, men ikke til å kategorisere bevegelse. Men da de delte enkelt ResNet i to, og skapte to veier (uten å endre det totale antallet nevroner), utviklet AI representasjoner for objekter i den ene og for bevegelse i den andre, noe som muliggjorde nedstrøms kategorisering av disse egenskapene - akkurat som hjernen vår sannsynligvis gjøre.

For å teste AI videre, viste teamet det et sett med videoer som forskere ved Allen Institute for Brain Science i Seattle tidligere hadde vist til mus. I likhet med primater har mus hjerneregioner spesialisert for statiske bilder og for bevegelse. Allen-forskerne registrerte den nevrale aktiviteten i musens visuelle cortex mens dyrene så på videoene.

Også her fant teamet til Richards likheter i måten AI og den levende hjernen reagerte på videoene. Under trening ble en av banene i det kunstige nevrale nettverket mer lik de ventrale, objektdetekterende områdene i musens hjerne, og den andre banen ble lik de bevegelsesfokuserte ryggområdene.

Resultatene tyder på at vårt visuelle system har to spesialiserte veier fordi de hjelper til med å forutsi den visuelle fremtiden, sa Richards; en enkelt vei er ikke god nok.

Modeller av det menneskelige auditive systemet forteller en lignende historie. I juni ble et team ledet av Jean-Rémi King, en forsker ved Meta AI, trent en AI kalt Wav2Vec 2.0, som bruker et nevralt nettverk for å transformere lyd til latente representasjoner. Forskerne maskerer noen av disse representasjonene, som deretter mates inn i et annet nevralt nettverk som kalles en transformator. Under trening forutsier transformatoren den maskerte informasjonen. I prosessen lærer hele AI å gjøre lyder til latente representasjoner - igjen, ingen etiketter nødvendig. Teamet brukte rundt 600 timer med taledata for å trene nettverket, "som er omtrent det et barn ville fått i løpet av de første to årene med erfaring," sa King.

Når systemet var trent, spilte forskerne det deler av lydbøker på engelsk, fransk og mandarin. Forskerne sammenlignet deretter AIs ytelse med data fra 412 personer - en blanding av morsmål av de tre språkene som hadde lyttet til de samme lydene mens de fikk hjernen avbildet i en fMRI-skanner. King sa at hans nevrale nettverk og den menneskelige hjernen, til tross for de støyende og lavoppløselige fMRI-bildene, "ikke bare korrelerer med hverandre, men de korrelerer på en systematisk måte": Aktiviteten i de tidlige lagene av AI stemmer overens med aktiviteten. i den primære auditive cortex, mens aktiviteten til AIs dypeste lag stemmer overens med aktiviteten i de høyere lagene i hjernen, i dette tilfellet den prefrontale cortex. "Det er virkelig vakre data," sa Richards. "Det er ikke avgjørende, men [det er] et annet overbevisende bevis som tyder på at måten vi lærer språk på, i stor grad er ved å prøve å forutsi neste ting som vil bli sagt."

Ukurerte patologier

Ikke alle er overbevist. Josh McDermott, en beregningsnevroforsker ved Massachusetts Institute of Technology, har jobbet med modeller for syn og auditiv persepsjon ved bruk av både overvåket og selvovervåket læring. Laboratoriet hans har designet det han kaller "metamers", syntetiserte lyd- og visuelle signaler som for et menneske bare er uutgrunnelig støy. For et kunstig nevralt nettverk ser imidlertid metamere ut til å være umulig å skille fra ekte signaler. Dette antyder at representasjonene som dannes i det nevrale nettverkets dypere lag, selv med selvovervåket læring, ikke samsvarer med representasjonene i hjernen vår. Disse selvovervåkede læringstilnærmingene "er fremskritt i den forstand at du er i stand til å lære representasjoner som kan støtte mange gjenkjennelsesatferder uten å trenge alle disse merkelappene," sa McDermott. "Men de har fortsatt mange av patologiene til overvåkede modeller."

Algoritmene i seg selv trenger også mer arbeid. For eksempel, i Meta AIs Wav2Vec 2.0, forutsier AI bare latente representasjoner for noen få titalls millisekunders lyd – mindre tid enn det tar å si en perseptuelt distinkt støy, enn si et ord. "Det er mange ting som må gjøres for å gjøre noe som ligner på hva hjernen gjør," sa King.

Å virkelig forstå hjernens funksjon vil kreve mer enn selvstyrt læring. For det første er hjernen full av tilbakemeldingsforbindelser, mens dagens modeller har få slike forbindelser, om noen. Et åpenbart neste skritt ville være å bruke selvovervåket læring for å trene svært tilbakevendende nettverk - en vanskelig prosess - og se hvordan aktiviteten i slike nettverk kan sammenlignes med ekte hjerneaktivitet. Det andre avgjørende trinnet ville være å matche aktiviteten til kunstige nevroner i selvovervåkede læringsmodeller til aktiviteten til individuelle biologiske nevroner. "Forhåpentligvis vil [våre] resultater i fremtiden også bli bekreftet med enkeltcelleopptak," sa King.

Hvis de observerte likhetene mellom hjerner og selvstyrte læringsmodeller holder for andre sensoriske oppgaver, vil det være en enda sterkere indikasjon på at uansett magi hjernen vår er i stand til krever selvovervåket læring i en eller annen form. "Hvis vi finner systematiske likheter mellom vidt forskjellige systemer, [vil det] tyde på at det kanskje ikke er så mange måter å behandle informasjon på en intelligent måte," sa King. "Det er i hvert fall den vakre hypotesen vi ønsker å jobbe med."

Tidstempel:

Mer fra Quantamagazin