Selvlært AI viser ligheder med, hvordan hjernen fungerer PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Selvlært AI viser ligheder med, hvordan hjernen fungerer

I et årti nu er mange af de mest imponerende kunstig intelligens-systemer blevet undervist ved hjælp af en enorm beholdning af mærkede data. Et billede kan være mærket "tabby kat" eller "tiger kat", for eksempel for at "træne" et kunstigt neuralt netværk til korrekt at skelne en tabby fra en tiger. Strategien har været både spektakulært vellykket og sørgeligt mangelfuld.

Sådan "overvåget" træning kræver data møjsommeligt mærket af mennesker, og de neurale netværk tager ofte genveje og lærer at forbinde etiketterne med minimal og til tider overfladisk information. For eksempel kan et neuralt netværk bruge tilstedeværelsen af ​​græs til at genkende et foto af en ko, fordi køer typisk fotograferes på marker.

"Vi opdrager en generation af algoritmer, der er ligesom studerende, [der] ikke kom til undervisningen hele semesteret, og så aftenen før finalen, propper de," sagde Alexei Efros, en datalog ved University of California, Berkeley. "De lærer ikke rigtig materialet, men de klarer sig godt på testen."

For forskere, der er interesseret i krydsfeltet mellem dyre- og maskinintelligens, kan denne "overvågede læring" desuden være begrænset i, hvad den kan afsløre om biologiske hjerner. Dyr – inklusive mennesker – bruger ikke mærkede datasæt til at lære. For det meste udforsker de miljøet på egen hånd, og ved at gøre det får de en rig og robust forståelse af verden.

Nu er nogle computerneurologer begyndt at udforske neurale netværk, der er blevet trænet med få eller ingen menneskemærkede data. Disse "selvovervågede lærings"-algoritmer har vist sig at være enormt succesfulde modellering af det menneskelige sprog og for nylig billedgenkendelse. I nyere arbejde har beregningsmodeller af pattedyrs visuelle og auditive systemer bygget ved hjælp af selvovervågede læringsmodeller vist en tættere overensstemmelse med hjernefunktion end deres overvågede læringsmodstykker. For nogle neurovidenskabsmænd virker det, som om de kunstige netværk begynder at afsløre nogle af de faktiske metoder, vores hjerner bruger til at lære.

Fejlagtigt tilsyn

Hjernemodeller inspireret af kunstige neurale netværk blev myndige for omkring 10 år siden, omkring samme tid som et neuralt netværk ved navn AlexNet revolutionerede opgaven med at klassificere ukendte billeder. Netværket var ligesom alle neurale netværk lavet af lag af kunstige neuroner, beregningsenheder, der danner forbindelser til hinanden, der kan variere i styrke eller "vægt". Hvis et neuralt netværk ikke formår at klassificere et billede korrekt, opdaterer indlæringsalgoritmen vægten af ​​forbindelserne mellem neuronerne for at gøre denne fejlklassificering mindre sandsynlig i den næste træningsrunde. Algoritmen gentager denne proces mange gange med alle træningsbillederne, tweaking vægte, indtil netværkets fejlrate er acceptabelt lav.

Omkring samme tid udviklede neurovidenskabsmænd de første beregningsmodeller af primats visuelle system, ved hjælp af neurale netværk som AlexNet og dets efterfølgere. Foreningen så lovende ud: Når aber og kunstige neurale net blev vist de samme billeder, viste aktiviteten af ​​de rigtige neuroner og de kunstige neuroner for eksempel en spændende overensstemmelse. Kunstige modeller af høre- og lugtdetektion fulgte.

Men efterhånden som feltet skred frem, indså forskerne begrænsningerne ved overvåget træning. I 2017 tog Leon Gatys, en datalog dengang ved universitetet i Tübingen i Tyskland, og hans kolleger et billede af en Ford Model T og lagde derefter et leopardskindsmønster hen over billedet, hvilket genererede et bizart, men let genkendeligt billede . Et førende kunstigt neuralt netværk klassificerede korrekt det originale billede som en Model T, men betragtede det modificerede billede som en leopard. Den havde fikseret sig på teksturen og havde ingen forståelse for formen på en bil (eller en leopard, for den sags skyld).

Selvovervågede læringsstrategier er designet til at undgå sådanne problemer. I denne tilgang mærker mennesker ikke dataene. Snarere, "etiketterne kommer fra selve dataene," sagde Friedemann Zenke, en computational neuroscientist ved Friedrich Miescher Institute for Biomedical Research i Basel, Schweiz. Selvovervågede algoritmer skaber i det væsentlige huller i dataene og beder det neurale netværk om at udfylde de tomme felter. I en såkaldt stor sprogmodel vil træningsalgoritmen for eksempel vise det neurale netværk de første par ord i en sætning og bede det om at forudsige det næste ord. Når den er trænet med et massivt korpus af tekst hentet fra internettet, modellen ser ud til at lære sprogets syntaktiske struktur, der viser imponerende sproglige evner - alt sammen uden eksterne etiketter eller supervision.

En lignende indsats er i gang inden for computervision. I slutningen af ​​2021, Kaiming He og kolleger afslørede deres "maskeret auto-encoder", der bygger på en teknik banebrydende af Efros' team i 2016. Den selvovervågede læringsalgoritme maskerer tilfældigt billeder og skjuler næsten tre fjerdedele af hvert billede. Den maskerede auto-encoder forvandler de afmaskede dele til latente repræsentationer - komprimerede matematiske beskrivelser, der indeholder vigtig information om et objekt. (Hvis der er tale om et billede, kan den latente repræsentation være en matematisk beskrivelse, der blandt andet fanger formen af ​​et objekt i billedet.) En dekoder konverterer derefter disse repræsentationer tilbage til hele billeder.

Den selvovervågede læringsalgoritme træner encoder-dekoder-kombinationen til at omdanne maskerede billeder til deres fulde versioner. Eventuelle forskelle mellem de rigtige billeder og de rekonstruerede bliver ført tilbage til systemet for at hjælpe det med at lære. Denne proces gentages for et sæt træningsbilleder, indtil systemets fejlrate er passende lav. I et eksempel, da en trænet, maskeret auto-encoder blev vist et hidtil uset billede af en bus med næsten 80 % af den skjult, rekonstruerede systemet med succes bussens struktur.

"Dette er et meget, meget imponerende resultat," sagde Efros.

De latente repræsentationer skabt i et system som dette ser ud til at indeholde væsentligt dybere information, end tidligere strategier kunne omfatte. Systemet lærer måske formen af ​​en bil, for eksempel - eller en leopard - og ikke kun deres mønstre. "Og dette er virkelig den grundlæggende idé om selvovervåget læring - du bygger din viden op fra bunden," sagde Efros. Ingen last i sidste øjeblik for at bestå prøver.

Selvstyrede hjerner

I systemer som dette ser nogle neurovidenskabsmænd ekkoer af, hvordan vi lærer. "Jeg tror, ​​der er ingen tvivl om, at 90% af det, hjernen gør, er selvovervåget læring," sagde Blake Richards, en computational neuroscientist ved McGill University og Mila, Quebec Artificial Intelligence Institute. Biologiske hjerner menes løbende at forudsige f.eks. et objekts fremtidige placering, når det bevæger sig, eller det næste ord i en sætning, ligesom en selvovervåget læringsalgoritme forsøger at forudsige hullet i et billede eller et tekstsegment. Og hjerner lærer også af deres fejl på egen hånd - kun en lille del af vores hjernes feedback kommer fra en ekstern kilde, der i det væsentlige siger "forkert svar."

Overvej for eksempel de visuelle systemer hos mennesker og andre primater. Disse er de bedst undersøgte af alle dyresansesystemer, men neurovidenskabsmænd har kæmpet for at forklare, hvorfor de inkluderer to separate veje: den ventrale visuelle strøm, som er ansvarlig for at genkende objekter og ansigter, og den dorsale visuelle strøm, som behandler bevægelse (den " henholdsvis hvad" og "hvor"-veje).

Richards og hans team skabte en selvovervåget model, der antyder et svar. De uddannet en AI, der kombinerede to forskellige neurale netværk: Det første, kaldet ResNet-arkitekturen, blev designet til at behandle billeder; det andet, kendt som et tilbagevendende netværk, kunne holde styr på en sekvens af tidligere input for at komme med forudsigelser om det næste forventede input. For at træne den kombinerede AI startede holdet med en sekvens på f.eks. 10 billeder fra en video og lod ResNet behandle dem én efter én. Det tilbagevendende netværk forudsagde derefter den latente repræsentation af den 11. frame, mens den ikke blot matchede de første 10 frames. Den selvovervågede læringsalgoritme sammenlignede forudsigelsen med den faktiske værdi og instruerede de neurale netværk til at opdatere deres vægte for at gøre forudsigelsen bedre.

Richards' team fandt ud af, at en AI trænet med et enkelt ResNet var god til genkendelse af objekter, men ikke til at kategorisere bevægelser. Men da de opdelte det enkelte ResNet i to og skabte to veje (uden at ændre det samlede antal neuroner), udviklede AI repræsentationer for objekter i den ene og for bevægelse i den anden, hvilket muliggjorde nedstrøms kategorisering af disse egenskaber - ligesom vores hjerner sandsynligvis gør.

For at teste AI yderligere viste holdet det et sæt videoer, som forskere ved Allen Institute for Brain Science i Seattle tidligere havde vist til mus. Ligesom primater har mus hjerneområder, der er specialiserede til statiske billeder og til bevægelse. Allen-forskerne registrerede den neurale aktivitet i musens visuelle cortex, mens dyrene så videoerne.

Også her fandt Richards' team ligheder i måden, hvorpå AI og de levende hjerner reagerede på videoerne. Under træningen blev en af ​​banerne i det kunstige neurale netværk mere lig de ventrale, objekt-detekterende regioner i musens hjerne, og den anden vej blev lig de bevægelsesfokuserede dorsale regioner.

Resultaterne tyder på, at vores visuelle system har to specialiserede veje, fordi de hjælper med at forudsige den visuelle fremtid, sagde Richards; en enkelt vej er ikke god nok.

Modeller af det menneskelige auditive system fortæller en lignende historie. I juni blev et hold ledet af Jean-Rémi King, en forsker ved Meta AI, trænet en AI kaldet Wav2Vec 2.0, som bruger et neuralt netværk til at transformere lyd til latente repræsentationer. Forskerne maskerer nogle af disse repræsentationer, som derefter føres ind i en anden komponent neuralt netværk kaldet en transformer. Under træning forudsiger transformatoren den maskerede information. I processen lærer hele AI at omdanne lyde til latente repræsentationer - igen, ingen etiketter er nødvendige. Holdet brugte omkring 600 timers taledata til at træne netværket, "hvilket er omtrent, hvad et barn ville få i [de] første to års erfaring," sagde King.

Da systemet var blevet trænet, afspillede forskerne det dele af lydbøger på engelsk, fransk og mandarin. Forskerne sammenlignede derefter AI's ydeevne med data fra 412 personer - en blanding af indfødte talere af de tre sprog, som havde lyttet til de samme strækninger af lyd, mens de fik deres hjerner afbildet i en fMRI-scanner. King sagde, at hans neurale netværk og den menneskelige hjerne, på trods af de støjende og lavopløselige fMRI-billeder, "ikke kun korrelerer med hinanden, men de korrelerer på en systematisk måde": Aktiviteten i de tidlige lag af AI stemmer overens med aktiviteten i den primære auditive cortex, hvorimod aktiviteten af ​​AI's dybeste lag stemmer overens med aktiviteten i de højere lag i hjernen, i dette tilfælde den præfrontale cortex. "Det er virkelig smukke data," sagde Richards. "Det er ikke afgørende, men [det er] endnu et overbevisende bevis, der tyder på, at den måde, vi lærer sprog på, i høj grad er ved at forsøge at forudsige de næste ting, der vil blive sagt."

Uhelbredte patologier

Ikke alle er overbeviste. Josh McDermott, en computational neuroscientist ved Massachusetts Institute of Technology, har arbejdet på modeller for syn og auditiv perception ved hjælp af både overvåget og selvovervåget læring. Hans laboratorium har designet, hvad han kalder "metamers", syntetiserede lyd- og visuelle signaler, der for et menneske blot er uudgrundelig støj. For et kunstigt neuralt netværk forekommer metamere imidlertid ikke at skelne fra rigtige signaler. Dette tyder på, at de repræsentationer, der dannes i det neurale netværks dybere lag, selv med selvovervåget læring, ikke matcher repræsentationerne i vores hjerner. Disse selvovervågede læringstilgange "er fremskridt i den forstand, at du er i stand til at lære repræsentationer, der kan understøtte en masse anerkendelsesadfærd uden at have brug for alle disse etiketter," sagde McDermott. "Men de har stadig mange af patologierne fra overvågede modeller."

Selve algoritmerne har også brug for mere arbejde. For eksempel, i Meta AI's Wav2Vec 2.0 forudsiger AI'en kun latente repræsentationer for et par titusvis af millisekunders lyd - mindre tid end det tager at udtale en perceptuelt distinkt støj, endsige et ord. "Der er mange ting, der skal gøres for at gøre noget, der ligner det, hjernen gør," sagde King.

Virkelig forståelse af hjernens funktion vil kræve mere end selvovervåget læring. For det første er hjernen fuld af feedback-forbindelser, mens nuværende modeller har få sådanne forbindelser, hvis nogen. Et oplagt næste skridt ville være at bruge selvovervåget læring til at træne stærkt tilbagevendende netværk - en vanskelig proces - og se, hvordan aktiviteten i sådanne netværk kan sammenlignes med reel hjerneaktivitet. Det andet afgørende skridt ville være at matche aktiviteten af ​​kunstige neuroner i selvovervågede læringsmodeller til aktiviteten af ​​individuelle biologiske neuroner. "Forhåbentlig vil [vores] resultater i fremtiden også blive bekræftet med enkeltcelleoptagelser," sagde King.

Hvis de observerede ligheder mellem hjerner og selvovervågede læringsmodeller holder for andre sensoriske opgaver, vil det være en endnu stærkere indikation af, at uanset hvilken magi vores hjerner er i stand til, kræver selvovervåget læring i en eller anden form. "Hvis vi finder systematiske ligheder mellem vidt forskellige systemer, [ville] det tyde på, at der måske ikke er så mange måder at behandle information på en intelligent måde," sagde King. "Det er i hvert fald en slags smukke hypotese, vi gerne vil arbejde med."

Tidsstempel:

Mere fra Quantamagazin