Autodidactische AI ​​vertoont overeenkomsten met hoe de hersenen werken PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Autodidactische AI ​​vertoont overeenkomsten met hoe de hersenen werken

Al tien jaar lang worden veel van de meest indrukwekkende kunstmatige-intelligentiesystemen aangeleerd met behulp van een enorme inventaris van gelabelde gegevens. Een afbeelding kan bijvoorbeeld het label 'tabby-kat' of 'tijgerkat' krijgen om een ​​kunstmatig neuraal netwerk te 'trainen' om een ​​gestreepte kat correct van een tijger te onderscheiden. De strategie is zowel spectaculair succesvol als hopeloos gebrekkig geweest.

Een dergelijke "gecontroleerde" training vereist gegevens die moeizaam door mensen worden gelabeld, en de neurale netwerken nemen vaak snelkoppelingen en leren de labels te associëren met minimale en soms oppervlakkige informatie. Een neuraal netwerk zou bijvoorbeeld de aanwezigheid van gras kunnen gebruiken om een ​​foto van een koe te herkennen, omdat koeien doorgaans in velden worden gefotografeerd.

"We brengen een generatie algoritmen groot die lijken op studenten [die] niet het hele semester naar de les zijn gekomen en dan de avond voor de finale, ze proppen," zei Alexei Efros, een computerwetenschapper aan de University of California, Berkeley. "Ze leren de stof niet echt, maar ze doen het goed op de test."

Voor onderzoekers die geïnteresseerd zijn in de kruising van dierlijke en machine-intelligentie, kan dit 'gesuperviseerde leren' bovendien beperkt zijn in wat het kan onthullen over biologische hersenen. Dieren - inclusief mensen - gebruiken geen gelabelde datasets om te leren. Voor het grootste deel verkennen ze de omgeving op eigen houtje en krijgen daardoor een rijk en robuust begrip van de wereld.

Nu zijn sommige computationele neurowetenschappers begonnen met het verkennen van neurale netwerken die zijn getraind met weinig of geen door mensen gelabelde gegevens. Deze algoritmen voor "zelf-gesuperviseerd leren" zijn enorm succesvol gebleken in het menselijke taal modelleren en, meer recentelijk, beeldherkenning. In recent werk hebben computationele modellen van de visuele en auditieve systemen van zoogdieren die zijn gebouwd met behulp van zelf-gesuperviseerde leermodellen een nauwere overeenkomst met de hersenfunctie laten zien dan hun tegenhangers die onder toezicht staan. Voor sommige neurowetenschappers lijkt het alsof de kunstmatige netwerken enkele van de werkelijke methoden beginnen te onthullen die onze hersenen gebruiken om te leren.

Gebrekkig toezicht

Hersenmodellen geïnspireerd door kunstmatige neurale netwerken werden ongeveer 10 jaar geleden volwassen, rond dezelfde tijd dat een neuraal netwerk genaamd AlexNet bracht een revolutie teweeg in de taak van het classificeren van onbekende afbeeldingen. Dat netwerk was, net als alle neurale netwerken, gemaakt van lagen kunstmatige neuronen, rekeneenheden die verbindingen met elkaar vormen die kunnen variëren in sterkte of 'gewicht'. Als een neuraal netwerk een afbeelding niet correct classificeert, werkt het leeralgoritme de gewichten van de verbindingen tussen de neuronen bij om die misclassificatie in de volgende trainingsronde minder waarschijnlijk te maken. Het algoritme herhaalt dit proces vele malen met alle trainingsbeelden, waarbij de gewichten worden aangepast, totdat het foutenpercentage van het netwerk acceptabel laag is.

Rond dezelfde tijd ontwikkelden neurowetenschappers de eerste computermodellen van de visueel systeem van primaten, met behulp van neurale netwerken zoals AlexNet en zijn opvolgers. De unie zag er veelbelovend uit: wanneer bijvoorbeeld apen en kunstmatige neurale netten dezelfde beelden te zien kregen, vertoonde de activiteit van de echte neuronen en de kunstmatige neuronen een intrigerende overeenkomst. Er volgden kunstmatige modellen van gehoor- en geurdetectie.

Maar naarmate het veld vorderde, realiseerden onderzoekers zich de beperkingen van begeleide training. In 2017 bijvoorbeeld namen Leon Gatys, een computerwetenschapper aan de Universiteit van Tübingen in Duitsland, en zijn collega's een afbeelding van een Ford Model T, en legden vervolgens een patroon van luipaardvel op de foto, waardoor een bizar maar gemakkelijk herkenbaar beeld ontstond . Een toonaangevend kunstmatig neuraal netwerk classificeerde de originele afbeelding correct als een Model T, maar beschouwde de gewijzigde afbeelding als een luipaard. Het was gefixeerd op de textuur en had geen begrip van de vorm van een auto (of een luipaard, wat dat betreft).

Zelf-gesuperviseerde leerstrategieën zijn ontworpen om dergelijke problemen te voorkomen. In deze benadering labelen mensen de gegevens niet. Integendeel, "de labels komen van de gegevens zelf", zei Friedemann Zenke, een computationele neurowetenschapper aan het Friedrich Miescher Instituut voor Biomedisch Onderzoek in Bazel, Zwitserland. Zelf-gecontroleerde algoritmen creëren in wezen hiaten in de gegevens en vragen het neurale netwerk om de lege plekken in te vullen. In een zogenaamd groot taalmodel laat het trainingsalgoritme het neurale netwerk bijvoorbeeld de eerste paar woorden van een zin zien en vraagt ​​het het volgende woord te voorspellen. Toen het model trainde met een enorm corpus aan tekst dat van internet was gehaald, lijkt te leren de syntactische structuur van de taal, waaruit een indrukwekkend taalkundig vermogen blijkt - allemaal zonder externe labels of toezicht.

Een soortgelijke inspanning is aan de gang in computer vision. Eind 2021, Kaiming Hij en collega's onthulden hun “gemaskeerde auto-encoder”, die voortbouwt op een techniek ontwikkeld door het team van Efros in 2016. Het zelf-gecontroleerde leeralgoritme maskeert willekeurig afbeeldingen, waardoor bijna driekwart van elk wordt verduisterd. De gemaskeerde auto-encoder verandert de ontmaskerde delen in latente representaties - gecomprimeerde wiskundige beschrijvingen die belangrijke informatie over een object bevatten. (In het geval van een afbeelding kan de latente representatie een wiskundige beschrijving zijn die onder andere de vorm van een object in de afbeelding vastlegt.) Een decoder zet die representaties vervolgens weer om in volledige afbeeldingen.

Het zelf-gecontroleerde leeralgoritme traint de combinatie van encoder en decoder om gemaskeerde afbeeldingen om te zetten in hun volledige versies. Eventuele verschillen tussen de echte beelden en de gereconstrueerde beelden worden teruggevoerd naar het systeem om het te helpen leren. Dit proces wordt herhaald voor een reeks trainingsbeelden totdat het foutenpercentage van het systeem voldoende laag is. In één voorbeeld, toen een getrainde gemaskerde auto-encoder een voorheen ongezien beeld van een bus kreeg waarvan bijna 80% verduisterd was, reconstrueerde het systeem met succes de structuur van de bus.

"Dit is een zeer, zeer indrukwekkend resultaat", zei Efros.

De latente representaties die in een systeem als dit worden gecreëerd, lijken aanzienlijk diepere informatie te bevatten dan eerdere strategieën zouden kunnen bevatten. Het systeem kan bijvoorbeeld de vorm van een auto leren - of een luipaard - en niet alleen hun patronen. "En dit is echt het fundamentele idee van zelfgestuurd leren - je bouwt je kennis van onderaf op", zei Efros. Geen last-minute gepropt om examens te halen.

Zelf-gecontroleerde hersenen

In dergelijke systemen zien sommige neurowetenschappers echo's van hoe we leren. "Ik denk dat er geen twijfel over bestaat dat 90% van wat de hersenen doen, zelf-gesuperviseerd leren is," zei Blake Richards, een computationele neurowetenschapper aan de McGill University en Mila, het Quebec Artificial Intelligence Institute. Men denkt dat biologische hersenen voortdurend de toekomstige locatie van een object voorspellen terwijl het beweegt, of het volgende woord in een zin, net zoals een zelf-gecontroleerd leeralgoritme probeert de opening in een afbeelding of een tekstsegment te voorspellen. En hersenen leren ook zelf van hun fouten - slechts een klein deel van de feedback van onze hersenen komt van een externe bron die in wezen "verkeerd antwoord" zegt.

Denk bijvoorbeeld aan de visuele systemen van mensen en andere primaten. Dit zijn de best bestudeerde van alle sensorische systemen van dieren, maar neurowetenschappers hebben moeite gehad om uit te leggen waarom ze twee afzonderlijke paden omvatten: de ventrale visuele stroom, die verantwoordelijk is voor het herkennen van objecten en gezichten, en de dorsale visuele stroom, die beweging verwerkt (de " respectievelijk wat" en "waar" paden).

Richards en zijn team creëerden een zelf-gecontroleerd model dat hint naar een antwoord. Zij getraind een AI die twee verschillende neurale netwerken combineerde: de eerste, de ResNet-architectuur genaamd, was ontworpen voor het verwerken van afbeeldingen; de tweede, bekend als een terugkerend netwerk, zou een reeks eerdere invoer kunnen bijhouden om voorspellingen te doen over de volgende verwachte invoer. Om de gecombineerde AI te trainen, begon het team met een reeks van bijvoorbeeld 10 frames uit een video en liet het ResNet ze één voor één verwerken. Het terugkerende netwerk voorspelde vervolgens de latente representatie van het 11e frame, terwijl het niet simpelweg overeenkwam met de eerste 10 frames. Het zelf-gecontroleerde leeralgoritme vergeleek de voorspelling met de werkelijke waarde en instrueerde de neurale netwerken om hun gewichten bij te werken om de voorspelling beter te maken.

Het team van Richards ontdekte dat een AI die was getraind met een enkele ResNet goed was in objectherkenning, maar niet in het categoriseren van beweging. Maar toen ze het enkele ResNet in twee splitsten en twee paden creëerden (zonder het totale aantal neuronen te veranderen), ontwikkelde de AI representaties voor objecten in de ene en voor beweging in de andere, waardoor stroomafwaartse categorisering van deze eigenschappen mogelijk werd - net zoals onze hersenen waarschijnlijk doen.

Om de AI verder te testen, liet het team het een reeks video's zien die onderzoekers van het Allen Institute for Brain Science in Seattle eerder aan muizen hadden getoond. Net als primaten hebben muizen hersengebieden die gespecialiseerd zijn voor statische beelden en voor beweging. De Allen-onderzoekers registreerden de neurale activiteit in de visuele cortex van de muis terwijl de dieren naar de video's keken.

Ook hier vond het team van Richards overeenkomsten in de manier waarop de AI en de levende hersenen op de video's reageerden. Tijdens de training leek een van de paden in het kunstmatige neurale netwerk meer op de ventrale, objectdetecterende gebieden van de hersenen van de muis, en het andere pad werd vergelijkbaar met de bewegingsgerichte dorsale gebieden.

De resultaten suggereren dat ons visuele systeem twee gespecialiseerde paden heeft omdat ze de visuele toekomst helpen voorspellen, zei Richards; een enkele weg is niet goed genoeg.

Modellen van het menselijk gehoorsysteem vertellen een soortgelijk verhaal. In juni heeft een team onder leiding van Jean-Remi Koning, een onderzoekswetenschapper bij Meta AI, trainde een AI genaamd Wav2Vec 2.0, die een neuraal netwerk gebruikt om audio om te zetten in latente representaties. De onderzoekers maskeren enkele van deze representaties, die vervolgens worden ingevoerd in een ander neuraal netwerk dat een transformator wordt genoemd. Tijdens de training voorspelt de transformator de gemaskeerde informatie. Tijdens het proces leert de hele AI om geluiden om te zetten in latente representaties - nogmaals, geen labels nodig. Het team gebruikte ongeveer 600 uur aan spraakgegevens om het netwerk te trainen, "wat ongeveer is wat een kind zou krijgen in [de] eerste twee jaar ervaring", zei King.

Nadat het systeem was getraind, speelden de onderzoekers delen van audioboeken af ​​in het Engels, Frans en Mandarijn. De onderzoekers vergeleken vervolgens de prestaties van de AI met gegevens van 412 mensen - een mix van moedertaalsprekers van de drie talen die naar dezelfde stukken audio hadden geluisterd terwijl hun hersenen werden afgebeeld in een fMRI-scanner. King zei dat zijn neurale netwerk en de menselijke hersenen, ondanks de luidruchtige en lage resolutie fMRI-beelden, "niet alleen met elkaar correleren, maar ze correleren op een systematische manier": de activiteit in de vroege lagen van de AI komt overeen met de activiteit in de primaire auditieve cortex, terwijl de activiteit van de diepste lagen van de AI overeenkomt met de activiteit in de hogere lagen in de hersenen, in dit geval de prefrontale cortex. "Het zijn echt mooie gegevens," zei Richards. "Het is niet overtuigend, maar [het is] een ander overtuigend bewijs dat suggereert dat, inderdaad, de manier waarop we taal leren voor een groot deel is door te proberen de volgende dingen te voorspellen die zullen worden gezegd."

Niet-genezen pathologieën

Niet iedereen is overtuigd. Josh McDermott, een computationele neurowetenschapper aan het Massachusetts Institute of Technology, heeft gewerkt aan modellen van visie en auditieve perceptie met behulp van zowel begeleid als zelf-gesuperviseerd leren. Zijn lab heeft ontworpen wat hij 'metamers' noemt, gesynthetiseerde audio- en visuele signalen die voor een mens gewoon... ondoorgrondelijk geluid. Voor een kunstmatig neuraal netwerk lijken metamers echter niet te onderscheiden van echte signalen. Dit suggereert dat de representaties die zich vormen in de diepere lagen van het neurale netwerk, zelfs bij zelfgestuurd leren, niet overeenkomen met de representaties in onze hersenen. Deze zelf-gecontroleerde leerbenaderingen "zijn vooruitgang in de zin dat je in staat bent om representaties te leren die veel herkenningsgedrag kunnen ondersteunen zonder al deze labels nodig te hebben", zei McDermott. "Maar ze hebben nog steeds veel van de pathologieën van modellen onder toezicht."

De algoritmen zelf hebben ook meer werk nodig. In Wav2Vec 2.0 van Meta AI voorspelt de AI bijvoorbeeld alleen latente representaties voor enkele tientallen milliseconden aan geluid - minder tijd dan het kost om een ​​perceptueel duidelijk geluid te uiten, laat staan ​​een woord. "Er zijn veel dingen die moeten worden gedaan om iets te doen dat lijkt op wat de hersenen doen", zei King.

Om de hersenfunctie echt te begrijpen, is meer nodig dan zelf-gecontroleerd leren. Om te beginnen zitten de hersenen vol met feedbackverbindingen, terwijl de huidige modellen weinig of geen dergelijke verbindingen hebben. Een voor de hand liggende volgende stap zou zijn om zelfgestuurd leren te gebruiken om zeer terugkerende netwerken te trainen - een moeilijk proces - en te zien hoe de activiteit in dergelijke netwerken zich verhoudt tot echte hersenactiviteit. De andere cruciale stap zou zijn om de activiteit van kunstmatige neuronen in zelf-gecontroleerde leermodellen af ​​te stemmen op de activiteit van individuele biologische neuronen. "Hopelijk zullen [onze] resultaten in de toekomst ook worden bevestigd met single-cell opnames", zei King.

Als de waargenomen overeenkomsten tussen hersenen en zelf-gecontroleerde leermodellen gelden voor andere zintuiglijke taken, zal dit een nog sterkere indicatie zijn dat voor welke magie onze hersenen ook in staat zijn, zelf-gesuperviseerd leren in een of andere vorm vereist. "Als we systematische overeenkomsten vinden tussen enorm verschillende systemen, zou dit suggereren dat er misschien niet zoveel manieren zijn om informatie op een intelligente manier te verwerken", zei King. "Tenminste, dat is een beetje de mooie hypothese waarmee we zouden willen werken."

Tijdstempel:

Meer van Quanta tijdschrift