Inteligența artificială autodidactă arată asemănări cu modul în care funcționează creierul PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

AI autodidact arată asemănări cu modul în care funcționează creierul

De un deceniu încoace, multe dintre cele mai impresionante sisteme de inteligență artificială au fost predate folosind un inventar imens de date etichetate. O imagine poate fi etichetată „pisica tigrată” sau „pisica tigrulă”, de exemplu, pentru a „antrena” o rețea neuronală artificială pentru a distinge corect un tigru de un tigru. Strategia a fost atât spectaculos de reușită, cât și teribil de deficitară.

O astfel de pregătire „supravegheată” necesită date etichetate laborios de oameni, iar rețelele neuronale iau adesea scurtături, învățând să asocieze etichetele cu informații minime și uneori superficiale. De exemplu, o rețea neuronală ar putea folosi prezența ierbii pentru a recunoaște o fotografie a unei vaci, deoarece vacile sunt de obicei fotografiate pe câmp.

„Crăm o generație de algoritmi care sunt ca niște studenți [care] nu au venit la clasă tot semestrul și apoi, în noaptea dinaintea finalei, se înghesuie”, a spus Alexei Efros, un informatician la Universitatea din California, Berkeley. „Nu învață cu adevărat materialul, dar se descurcă bine la test.”

În plus, pentru cercetătorii interesați de intersecția dintre inteligența animalelor și a mașinilor, această „învățare supravegheată” ar putea fi limitată în ceea ce poate dezvălui despre creierul biologic. Animalele – inclusiv oamenii – nu folosesc seturi de date etichetate pentru a învăța. În cea mai mare parte, ei explorează mediul pe cont propriu și, făcând acest lucru, obțin o înțelegere bogată și solidă a lumii.

Acum, unii oameni de știință în neuroștiință computațională au început să exploreze rețelele neuronale care au fost antrenate cu puține sau deloc date etichetate umane. Acești algoritmi de „învățare auto-supravegheată” s-au dovedit un succes enorm la modelarea limbajului uman și, mai recent, recunoașterea imaginii. În lucrări recente, modelele computaționale ale sistemelor vizuale și auditive ale mamiferelor construite folosind modele de învățare auto-supravegheată au arătat o corespondență mai strânsă cu funcția creierului decât omologii lor de învățare supravegheată. Pentru unii oameni de știință, se pare că rețelele artificiale încep să dezvăluie unele dintre metodele reale pe care creierul nostru le folosește pentru a învăța.

Supraveghere defectuoasă

Modelele cerebrale inspirate de rețelele neuronale artificiale au ajuns la majoritate acum aproximativ 10 ani, cam în aceeași perioadă în care o rețea neuronală numită AlexNet a revoluționat sarcina de a clasifica imaginile necunoscute. Acea rețea, ca toate rețelele neuronale, a fost făcută din straturi de neuroni artificiali, unități de calcul care formează conexiuni între ele, care pot varia în putere sau „greutate”. Dacă o rețea neuronală nu reușește să clasifice corect o imagine, algoritmul de învățare actualizează ponderile conexiunilor dintre neuroni pentru a face ca această clasificare greșită să fie mai puțin probabilă în următoarea rundă de antrenament. Algoritmul repetă acest proces de multe ori cu toate imaginile de antrenament, ajustând greutățile, până când rata de eroare a rețelei este acceptabil de scăzută.

Aproximativ în aceeași perioadă, oamenii de știință au dezvoltat primele modele computaționale ale sistemul vizual al primatelor, folosind rețele neuronale precum AlexNet și succesorii săi. Uniunea arăta promițătoare: când maimuțelor și rețelelor neuronale artificiale li s-au arătat aceleași imagini, de exemplu, activitatea neuronilor reali și a neuronilor artificiali au arătat o corespondență intrigantă. Au urmat modele artificiale de detectare a auzului și a mirosurilor.

Dar, pe măsură ce domeniul a progresat, cercetătorii și-au dat seama de limitările antrenamentului supravegheat. De exemplu, în 2017, Leon Gatys, un informatician la Universitatea din Tübingen din Germania, și colegii săi au făcut o imagine a unui Ford Model T, apoi au suprapus un model de piele de leopard peste fotografie, generând o imagine bizară, dar ușor de recunoscut. . O rețea neuronală artificială de top a clasificat corect imaginea originală ca Model T, dar a considerat imaginea modificată un leopard. Se fixase pe textura și nu înțelegea forma unei mașini (sau a unui leopard, de altfel).

Strategiile de învățare autosupravegheate sunt concepute pentru a evita astfel de probleme. În această abordare, oamenii nu etichetează datele. Mai degrabă, „etichetele provin din datele în sine”, a spus Friedemann Zenke, un neuroștiință computațional la Institutul Friedrich Miescher pentru Cercetare Biomedicală din Basel, Elveția. Algoritmii auto-supravegheați creează, în esență, goluri în date și cer rețelei neuronale să completeze spațiile libere. Într-un așa-numit model de limbaj mare, de exemplu, algoritmul de antrenament va arăta rețelei neuronale primele câteva cuvinte ale unei propoziții și îi va cere să prezică următorul cuvânt. Când este antrenat cu un corpus masiv de text cules de pe internet, modelul pare să învețe structura sintactică a limbii, demonstrând o capacitate lingvistică impresionantă — toate fără etichete externe sau supraveghere.

Un efort similar este în desfășurare în viziunea computerizată. La sfârșitul anului 2021, Kaiming El iar colegii și-au dezvăluit „auto-encoder mascat”, care se bazează pe un tehnică inițiat de echipa lui Efros în 2016. Algoritmul de învățare autosupravegheat maschează aleatoriu imaginile, ascunzând aproape trei sferturi din fiecare. Codificatorul automat mascat transformă porțiunile nemascate în reprezentări latente - descrieri matematice comprimate care conțin informații importante despre un obiect. (În cazul unei imagini, reprezentarea latentă ar putea fi o descriere matematică care surprinde, printre altele, forma unui obiect din imagine.) Un decodor transformă apoi acele reprezentări înapoi în imagini complete.

Algoritmul de învățare auto-supravegheat antrenează combinația codificator-decodor pentru a transforma imaginile mascate în versiunile lor complete. Orice diferență între imaginile reale și cele reconstruite este reintrodusă în sistem pentru a-l ajuta să învețe. Acest proces se repetă pentru un set de imagini de antrenament până când rata de eroare a sistemului este suficient de scăzută. Într-un exemplu, când unui auto-encoder mascat antrenat i s-a arătat o imagine nevăzută anterior a unui autobuz, cu aproape 80% din ea ascunsă, sistemul a reconstruit cu succes structura magistralei.

„Acesta este un rezultat foarte, foarte impresionant”, a spus Efros.

Reprezentările latente create într-un sistem ca acesta par să conțină informații substanțial mai profunde decât ar putea include strategiile anterioare. Sistemul ar putea învăța forma unei mașini, de exemplu, sau a unui leopard, și nu doar modelele acestora. „Și aceasta este cu adevărat ideea fundamentală a învățării auto-supravegheate – îți construiești cunoștințele de jos în sus”, a spus Efros. Fără înghesuială de ultim moment pentru a trece testele.

Creiere auto-supravegheate

În astfel de sisteme, unii oameni de știință în neuroștiință văd ecouri ale modului în care învățăm. „Cred că nu există nicio îndoială că 90% din ceea ce face creierul este învățare auto-supravegheată”, a spus Blake Richards, un neuroștiință computațional la Universitatea McGill și Mila, Institutul de Inteligență Artificială din Quebec. Se crede că creierul biologic prezice continuu, să zicem, locația viitoare a unui obiect pe măsură ce se mișcă, sau următorul cuvânt dintr-o propoziție, la fel cum un algoritm de învățare auto-supravegheat încearcă să prezică decalajul dintr-o imagine sau un segment de text. Și creierul învață singur din greșelile lor - doar o mică parte din feedback-ul creierului nostru vine de la o sursă externă care spune, în esență, „răspuns greșit”.

De exemplu, luați în considerare sistemele vizuale ale oamenilor și ale altor primate. Acestea sunt cele mai bine studiate dintre toate sistemele senzoriale ale animalelor, dar oamenii de știință s-au străduit să explice de ce includ două căi separate: fluxul vizual ventral, care este responsabil pentru recunoașterea obiectelor și fețelor, și fluxul vizual dorsal, care procesează mișcarea („ ce” și, respectiv, căile „unde”).

Richards și echipa sa au creat un model auto-supravegheat care sugerează un răspuns. ei dresat o IA care combina două rețele neuronale diferite: prima, numită arhitectura ResNet, a fost concepută pentru procesarea imaginilor; a doua, cunoscută sub numele de rețea recurentă, ar putea urmări o secvență de intrări anterioare pentru a face predicții despre următoarea intrare așteptată. Pentru a antrena IA combinată, echipa a început cu o secvență de, să zicem, 10 cadre dintr-un videoclip și a lăsat ResNet să le proceseze unul câte unul. Rețeaua recurentă a prezis apoi reprezentarea latentă a celui de-al 11-lea cadru, fără a se potrivi pur și simplu cu primele 10 cadre. Algoritmul de învățare auto-supravegheat a comparat predicția cu valoarea reală și a instruit rețelele neuronale să-și actualizeze ponderile pentru a face predicția mai bună.

Echipa lui Richards a descoperit că un AI antrenat cu un singur ResNet era bun la recunoașterea obiectelor, dar nu la clasificarea mișcărilor. Dar atunci când au împărțit singurul ResNet în două, creând două căi (fără a schimba numărul total de neuroni), AI a dezvoltat reprezentări pentru obiecte dintr-unul și pentru mișcare în celălalt, permițând clasificarea în aval a acestor proprietăți - la fel cum probabil creierul nostru. do.

Pentru a testa AI în continuare, echipa i-a arătat un set de videoclipuri pe care cercetătorii de la Institutul Allen pentru Știința Creierului din Seattle le-au arătat anterior șoarecilor. La fel ca primatele, șoarecii au regiuni ale creierului specializate pentru imagini statice și pentru mișcare. Cercetătorii Allen au înregistrat activitatea neuronală în cortexul vizual al șoarecelui în timp ce animalele urmăreau videoclipurile.

Și aici, echipa lui Richards a găsit asemănări în modul în care AI și creierul vii au reacționat la videoclipuri. În timpul antrenamentului, una dintre căile din rețeaua neuronală artificială a devenit mai asemănătoare cu regiunile ventrale, de detectare a obiectelor din creierul șoarecelui, iar cealaltă cale a devenit similară cu regiunile dorsale concentrate pe mișcare.

Rezultatele sugerează că sistemul nostru vizual are două căi specializate, deoarece ajută la prezicerea viitorului vizual, a spus Richards; o singură cale nu este suficient de bună.

Modelele sistemului auditiv uman spun o poveste similară. În iunie, o echipă condusă de Jean-Rémi King, cercetător la Meta AI, a antrenat un AI numit Wav2Vec 2.0, care folosește o rețea neuronală pentru a transforma sunetul în reprezentări latente. Cercetătorii maschează unele dintre aceste reprezentări, care apoi alimentează o altă rețea neuronală componentă numită transformator. În timpul antrenamentului, transformatorul prezice informațiile mascate. În acest proces, întreaga IA învață să transforme sunetele în reprezentări latente - din nou, nu sunt necesare etichete. Echipa a folosit aproximativ 600 de ore de date de vorbire pentru a antrena rețeaua, „care este aproximativ ceea ce ar obține un copil în primii doi ani de experiență”, a spus King.

Odată ce sistemul a fost antrenat, cercetătorii i-au redat secțiuni de cărți audio în engleză, franceză și mandarină. Cercetătorii au comparat apoi performanța AI cu datele de la 412 de persoane - un amestec de vorbitori nativi ai celor trei limbi care au ascultat aceleași secvențe de sunet în timp ce li s-au fotografiat creierul într-un scaner fMRI. King a spus că rețeaua sa neuronală și creierul uman, în ciuda imaginilor fMRI zgomotoase și cu rezoluție scăzută, „nu numai că se corelează între ele, dar se corelează într-un mod sistematic”: Activitatea din primele straturi ale AI se aliniază cu activitatea. în cortexul auditiv primar, în timp ce activitatea straturilor cele mai profunde ale IA se aliniază cu activitatea din straturile superioare ale creierului, în acest caz cortexul prefrontal. „Sunt date foarte frumoase”, a spus Richards. „Nu este concludent, dar [este] o altă dovadă convingătoare care sugerează că, într-adevăr, modul în care învățăm limba este în mare parte încercând să prezicem următoarele lucruri care vor fi spuse.”

Patologii nevindecate

Nu toată lumea este convinsă. Josh McDermott, un neuroștiință computațional la Institutul de Tehnologie din Massachusetts, a lucrat la modele de vedere și percepție auditivă folosind atât învățarea supravegheată, cât și auto-supravegheată. Laboratorul său a proiectat ceea ce el numește „metameri”, semnale audio și vizuale sintetizate care, pentru un om, sunt doar zgomot de nepătruns. Cu toate acestea, pentru o rețea neuronală artificială, metamerii par imposibil de distins de semnalele reale. Acest lucru sugerează că reprezentările care se formează în straturile mai profunde ale rețelei neuronale, chiar și cu învățarea auto-supravegheată, nu se potrivesc cu reprezentările din creierul nostru. Aceste abordări de învățare auto-supravegheată „sunt progrese în sensul că sunteți capabil să învățați reprezentări care pot sprijini o mulțime de comportamente de recunoaștere fără a avea nevoie de toate aceste etichete”, a spus McDermott. „Dar au încă multe dintre patologiile modelelor supravegheate.”

Algoritmii înșiși au nevoie de mai multă muncă. De exemplu, în Wav2Vec 2.0 de la Meta AI, AI prezice doar reprezentări latente pentru câteva zeci de milisecunde de sunet - mai puțin timp decât este nevoie pentru a rosti un zgomot perceptiv distinct, darămite un cuvânt. „Sunt multe lucruri de făcut pentru a face ceva similar cu ceea ce face creierul”, a spus King.

Înțelegerea cu adevărat a funcției creierului va necesita mai mult decât învățare auto-supravegheată. În primul rând, creierul este plin de conexiuni de feedback, în timp ce modelele actuale au puține astfel de conexiuni, dacă există. Un următor pas evident ar fi să folosiți învățarea auto-supravegheată pentru a antrena rețele foarte recurente - un proces dificil - și a vedea cum se compară activitatea din astfel de rețele cu activitatea reală a creierului. Celălalt pas crucial ar fi potrivirea activității neuronilor artificiali din modelele de învățare auto-supravegheate cu activitatea neuronilor biologici individuali. „Sperăm că, în viitor, rezultatele [noastre] vor fi confirmate și cu înregistrări cu o singură celulă”, a spus King.

Dacă asemănările observate între creier și modelele de învățare autosupravegheată sunt valabile pentru alte sarcini senzoriale, va fi un indiciu și mai puternic că orice magie de care este capabil creierul nostru necesită o învățare autosupravegheată într-o anumită formă. „Dacă găsim asemănări sistematice între sisteme foarte diferite, ar sugera că poate că nu există atât de multe modalități de procesare a informațiilor într-un mod inteligent”, a spus King. „Cel puțin, aceasta este ipoteza frumoasă cu care am dori să lucrăm.”

Timestamp-ul:

Mai mult de la Quantamagazina