Az autodidakta mesterséges intelligencia hasonlóságokat mutat az agy működésével, a PlatoBlockchain adatintelligenciával. Függőleges keresés. Ai.

Az autodidakta AI hasonlóságokat mutat az agy működésével

Immár egy évtizede a leglenyűgözőbb mesterséges intelligencia-rendszerek nagy részét címkézett adatok hatalmas készletének felhasználásával tanítják. Egy képen például „cirmos macska” vagy „tigrismacska” felirat szerepelhet, hogy „megtanítsanak” egy mesterséges neurális hálózatot a cirmos és a tigris helyes megkülönböztetésére. A stratégia egyszerre volt látványosan sikeres és sajnálatos módon hiányos.

Az ilyen „felügyelt” képzéshez emberek által fáradságosan felcímkézett adatokra van szükség, és a neurális hálózatok gyakran parancsikonokat használnak, megtanulva a címkéket minimális és néha felületes információkkal társítani. Például egy neurális hálózat felhasználhatja a fű jelenlétét egy tehén fényképének felismerésére, mivel a teheneket általában a mezőkön fényképezik.

„Az algoritmusok generációját neveljük fel, amelyek olyanok, mint az alsósok, [akik] nem jöttek el órára az egész félévben, majd a döntő előtti este zsúfoltak” – mondta. Alekszej Efros, a Berkeley-i Kaliforniai Egyetem informatikusa. "Nem igazán tanulják meg az anyagot, de jól teljesítenek a teszten."

Az állati és gépi intelligencia metszéspontja iránt érdeklődő kutatók számára ráadásul ez a „felügyelt tanulás” korlátozott lehet abban, hogy mit tud feltárni a biológiai agyról. Az állatok – beleértve az embereket is – nem használnak felcímkézett adatkészleteket a tanuláshoz. Többnyire önállóan kutatják fel a környezetet, és ezáltal gazdag és robusztus világértelmezésre tesznek szert.

Most néhány számítógépes idegtudós elkezdte feltárni azokat a neurális hálózatokat, amelyeket kevés vagy semmilyen, emberileg megjelölt adattal képeztek ki. Ezek az „önfelügyelt tanulási” algoritmusok rendkívül sikeresnek bizonyultak az emberi nyelv modellezése és újabban a képfelismerés. A közelmúltban végzett munkák során az emlősök vizuális és hallási rendszereinek önfelügyelt tanulási modellekkel felépített számítógépes modelljei szorosabb összefüggést mutattak az agyműködéssel, mint a felügyelt tanulású társaik. Egyes idegtudósok számára úgy tűnik, hogy a mesterséges hálózatok kezdik felfedni azokat a tényleges módszereket, amelyeket agyunk a tanuláshoz használ.

Hibás felügyelet

A mesterséges neurális hálózatok által ihletett agymodellek körülbelül 10 évvel ezelőtt értek nagykorúvá, nagyjából ugyanabban az időben, amikor egy neurális hálózat elnevezett. AlexNet forradalmasította az ismeretlen képek osztályozásának feladatát. Ez a hálózat, mint minden neurális hálózat, mesterséges neuronok rétegeiből épült fel, olyan számítási egységekből, amelyek különböző erősségű vagy „súlyú” kapcsolatokat alkotnak egymással. Ha egy neurális hálózat nem képes megfelelően besorolni egy képet, a tanulási algoritmus frissíti a neuronok közötti kapcsolatok súlyát, hogy a következő képzési körben kevésbé valószínű a téves besorolás. Az algoritmus ezt a folyamatot többször megismétli az összes képzési képpel, módosítva a súlyokat, amíg a hálózat hibaaránya elfogadhatóan alacsony lesz.

Ugyanebben az időben az idegtudósok kidolgozták az első számítási modelleket főemlős látórendszer, olyan neurális hálózatok használatával, mint az AlexNet és utódai. Az unió ígéretesnek tűnt: amikor például majmoknak és mesterséges ideghálóknak ugyanazokat a képeket mutatták, a valódi neuronok és a mesterséges neuronok aktivitása érdekes összefüggést mutatott. A hallás- és szagérzékelés mesterséges modelljei következtek.

De ahogy a terület fejlődött, a kutatók felismerték a felügyelt képzés korlátait. Például 2017-ben Leon Gatys, a németországi Tübingeni Egyetem informatikusa és kollégái lefotóztak egy Ford Model T-t, majd leopárdbőr mintát borítottak a képre, így egy bizarr, de könnyen felismerhető képet alkottak. . Egy vezető mesterséges neurális hálózat helyesen minősítette az eredeti képet T modellnek, de a módosított képet leopárdnak tekintette. Rögzült a textúrán, és nem értette az autó (vagy egy leopárd) alakját.

Az önfelügyelt tanulási stratégiák célja az ilyen problémák elkerülése. Ebben a megközelítésben az emberek nem címkézik fel az adatokat. Inkább „a címkék magukból az adatokból származnak” – mondta Friedemann Zenke, a svájci bázeli Friedrich Miescher Orvosbiológiai Kutatóintézet számítógépes idegtudósa. Az önfelügyelt algoritmusok lényegében hézagokat hoznak létre az adatokban, és megkérik a neurális hálózatot, hogy töltse ki az üres helyeket. Egy úgynevezett nagynyelvi modellben például a tanító algoritmus megmutatja a neurális hálózatnak a mondat első néhány szavát, és megkéri, hogy jósolja meg a következő szót. Amikor az internetről gyűjtött hatalmas szövegkorpusszal képezték ki, a modell tanulni látszik a nyelv szintaktikai struktúrája, amely lenyűgöző nyelvi képességeket mutat – mindezt külső címkék vagy felügyelet nélkül.

Hasonló erőfeszítés folyik a számítógépes látás területén. 2021 végén Kaiming He és a kollégák felfedték „maszkolt automatikus kódoló”, amely a technika Efros csapata 2016-ban úttörőként működött. Az önfelügyelt tanulási algoritmus véletlenszerűen maszkolja a képeket, és mindegyiknek majdnem háromnegyedét eltakarja. A maszkolt automatikus kódoló a nem maszkolt részeket látens reprezentációkká alakítja – tömörített matematikai leírásokká, amelyek fontos információkat tartalmaznak egy objektumról. (Egy kép esetében a látens ábrázolás egy matematikai leírás lehet, amely többek között egy tárgy alakját rögzíti a képen.) A dekóder ezután ezeket a reprezentációkat teljes képekké alakítja vissza.

Az önfelügyelt tanulási algoritmus megtanítja a kódoló-dekódoló kombinációt, hogy a maszkolt képeket a teljes verziójukká alakítsa. A valós és a rekonstruált képek közötti különbségek visszakerülnek a rendszerbe, hogy segítsék a tanulást. Ez a folyamat megismétlődik a képzési képek sorozatánál, amíg a rendszer hibaaránya megfelelően alacsony lesz. Egy példában, amikor egy betanított maszkos automatikus kódolónak egy korábban nem látott képet mutattak egy buszról, amelynek csaknem 80%-a el volt takarva, a rendszer sikeresen rekonstruálta a busz szerkezetét.

„Ez egy nagyon-nagyon lenyűgöző eredmény” – mondta Efros.

Úgy tűnik, hogy az ilyen rendszerben létrehozott látens reprezentációk lényegesen mélyebb információt tartalmaznak, mint amit a korábbi stratégiák tartalmazhattak. A rendszer megtanulhatja például egy autó – vagy egy leopárd – formáját, és nem csak a mintáit. „És valóban ez az önfelügyelt tanulás alapötlete – az ember alulról építi fel tudását” – mondta Efros. Nem kell az utolsó pillanatban zsúfolni a teszteken.

Önfelügyelt agyak

Az ehhez hasonló rendszerekben egyes idegtudósok visszhangot látnak annak, ahogyan tanulunk. „Szerintem nem kétséges, hogy az agy által végzett tevékenységek 90%-a önfelügyelt tanulás” – mondta. Blake Richards, a McGill Egyetem és Mila, a Quebec Artificial Intelligence Institute számítógépes idegtudósa. Úgy gondolják, hogy a biológiai agy folyamatosan megjósolja, mondjuk, egy objektum jövőbeli helyét, ahogy az mozog, vagy a következő szót egy mondatban, ahogyan egy önfelügyelt tanulási algoritmus megkísérli megjósolni a képben vagy a szöveg egy részének hiányát. És az agy saját maga is tanul a hibáikból – agyunk visszajelzésének csak egy kis része származik külső forrásból, amely lényegében „rossz választ” mond.

Vegyük például az emberek és más főemlősök látórendszerét. Ezek a legjobban tanulmányozott állatok az összes szenzoros rendszer közül, de az idegtudósok nem tudtak megmagyarázni, miért tartalmaznak két külön útvonalat: a ventrális látófolyamot, amely a tárgyak és arcok felismeréséért felelős, és a háti látófolyamot, amely a mozgást dolgozza fel (a „ mit” és „hol” útvonalak).

Richards és csapata egy önfelügyelt modellt hozott létre, amely a választ sejteti. Ők kiképzett egy mesterséges intelligencia, amely két különböző neurális hálózatot egyesített: az elsőt, a ResNet architektúrát képek feldolgozására tervezték; a második, ismétlődő hálózatként ismert, nyomon tudja követni az előző bemenetek sorozatát, hogy előrejelzéseket készítsen a következő várható bemenetről. A kombinált mesterséges intelligencia betanításához a csapat egy videóból, mondjuk 10 képkockából álló sorozattal kezdte, és hagyta, hogy a ResNet egyenként dolgozza fel azokat. Az ismétlődő hálózat ezután megjósolta a 11. képkocka látens megjelenítését, miközben nem egyszerűen az első 10 képkockához illeszkedett. Az önfelügyelt tanulási algoritmus összehasonlította az előrejelzést a tényleges értékkel, és utasította a neurális hálózatokat, hogy frissítsék súlyukat, hogy jobb legyen az előrejelzés.

Richards csapata úgy találta, hogy az egyetlen ResNet-tel kiképzett mesterséges intelligencia jó az objektumfelismerésben, de nem a mozgás kategorizálásában. De amikor kettéosztották az egyetlen ResNetet, két útvonalat létrehozva (anélkül, hogy megváltoztatták volna a neuronok teljes számát), az MI reprezentációkat fejlesztett ki az egyikben lévő objektumokhoz, a másikban pedig a mozgáshoz, lehetővé téve ezeknek a tulajdonságoknak a későbbi kategorizálását – ahogy valószínűleg az agyunk is. csináld.

A mesterséges intelligencia további tesztelése érdekében a csapat bemutatott neki egy videósorozatot, amelyet a seattle-i Allen Institute for Brain Science kutatói korábban egereken mutattak be. A főemlősökhöz hasonlóan az egereknek is vannak statikus képekre és mozgásra specializálódott agyi régiói. Az Allen kutatói rögzítették az egér vizuális kéregének idegi aktivitását, miközben az állatok nézték a videókat.

Richards csapata itt is hasonlóságokat talált abban, ahogyan az AI és az élő agy reagált a videókra. A tréning során a mesterséges neurális háló egyik útvonala jobban hasonlított az egér agyának ventrális, tárgyat észlelő régióihoz, a másik út pedig a mozgásra fókuszált háti régiókhoz.

Az eredmények azt sugallják, hogy vizuális rendszerünknek két speciális útvonala van, mivel ezek segítenek megjósolni a vizuális jövőt – mondta Richards; egyetlen út nem elég jó.

Az emberi hallórendszer modelljei hasonló történetet mesélnek el. Júniusban az általa vezetett csapat Jean-Rémi King, a Meta AI kutatója, kiképzett egy Wav2Vec 2.0 nevű mesterséges intelligencia, amely neurális hálózat segítségével alakítja át a hangot látens reprezentációkká. A kutatók elfednek néhány ilyen ábrázolást, amelyek aztán egy másik komponens neurális hálózatba, az úgynevezett transzformátorba táplálkoznak. Az edzés során a transzformátor előrejelzi a maszkolt információt. A folyamat során az egész mesterséges intelligencia megtanulja, hogy a hangokat látens reprezentációkká alakítsa – ismét nincs szükség címkékre. A csapat körülbelül 600 órányi beszédadatot használt fel a hálózat betanításához, „ez körülbelül annyi, mint amennyit egy gyerek az első két év tapasztalata alatt kap” – mondta King.

A rendszer betanítása után a kutatók angol, francia és mandarin nyelvű hangoskönyvek részein játszották le. A kutatók ezután 412 ember adataival hasonlították össze az AI teljesítményét – a három nyelvet anyanyelvi beszélők keverékével, akik ugyanazt a hangsávot hallgatták, miközben agyukat fMRI-szkennerrel leképezték. King azt mondta, hogy a neurális hálózata és az emberi agy a zajos és alacsony felbontású fMRI-képek ellenére „nemcsak korrelál egymással, hanem szisztematikusan is korrelálnak”: A mesterséges intelligencia korai rétegeinek aktivitása összhangban van az aktivitással. az elsődleges hallókéregben, míg az AI legmélyebb rétegeinek aktivitása igazodik az agy magasabb rétegeinek aktivitásához, ebben az esetben a prefrontális kéregben. „Nagyon szép adatok” – mondta Richards. "Ez nem meggyőző, de [ez] egy újabb meggyőző bizonyíték arra utal, hogy valóban a nyelvtanulás módja nagyrészt abból adódik, hogy megpróbáljuk megjósolni a következő dolgokat, amelyek elhangzanak."

Nem gyógyított patológiák

Nem mindenki győzött meg. Josh McDermott, a Massachusetts Institute of Technology számítógépes idegtudósa, a látás és a hallás észlelésének modelljein dolgozott felügyelt és önfelügyelt tanulással egyaránt. Laboratóriuma megtervezte az általa „metamereknek” nevezett hang- és vizuális jeleket, amelyek az ember számára csak kifürkészhetetlen zaj. Egy mesterséges neurális hálózatban azonban a metamerek megkülönböztethetetlennek tűnnek a valódi jelektől. Ez arra utal, hogy a neurális hálózat mélyebb rétegeiben kialakuló reprezentációk még önfelügyelt tanulás esetén sem egyeznek az agyunkban lévő reprezentációkkal. Ezek az önfelügyelt tanulási megközelítések „előrelépést jelentenek abban az értelemben, hogy meg lehet tanulni olyan reprezentációkat, amelyek számos felismerési viselkedést támogathatnak anélkül, hogy ezekre a címkékre szükség lenne” – mondta McDermott. "De még mindig sok a felügyelt modellek patológiája."

Maguk az algoritmusok is több munkát igényelnek. Például a Meta AI Wav2Vec 2.0-s verziójában az AI csak néhány tíz ezredmásodpercnyi hang látens megjelenítését jósolja meg – ez kevesebb idő, mint amennyire egy érzékelhetően eltérő zaj kiejtése, nemhogy egy szó kimondásához szükséges. „Sok dolgot kell tenni ahhoz, hogy valami hasonlót tegyünk, mint amit az agy” – mondta King.

Az agyműködés valódi megértéséhez többre lesz szükség, mint önfelügyelt tanulásra. Egyrészt az agy tele van visszacsatolási kapcsolatokkal, míg a jelenlegi modellekben kevés ilyen kapcsolat van, ha van ilyen. Egy kézenfekvő következő lépés az lenne, ha önfelügyelt tanulást alkalmaznának erősen visszatérő hálózatok betanítására – ez egy nehéz folyamat –, és megnézzük, hogy az ilyen hálózatokban végzett tevékenység hogyan viszonyul a valódi agyi tevékenységhez. A másik döntő lépés az lenne, hogy az önfelügyelt tanulási modellekben a mesterséges neuronok aktivitását az egyes biológiai neuronok aktivitásához igazítsák. "Remélhetőleg a jövőben [eredményeinket] egycellás felvételekkel is megerősítik" - mondta King.

Ha az agy és az önfelügyelt tanulási modellek között megfigyelt hasonlóságok más szenzoros feladatokra is érvényesek, az még erősebb jele lesz annak, hogy bármilyen varázslatra is képes agyunk, valamilyen formában önfelügyelt tanulásra van szükség. „Ha találunk szisztematikus hasonlóságokat a rendkívül eltérő rendszerek között, az azt sugallja, hogy talán nincs is olyan sok módja az információ intelligens feldolgozásának” – mondta King. "Legalábbis ez az a szép hipotézis, amellyel szeretnénk dolgozni."

Időbélyeg:

Még több Quantamagazine