Cum par transformatoarele să imite părți ale creierului PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Cum par transformatoarele să imită părți ale creierului

Înțelegerea modului în care creierul organizează și accesează informațiile spațiale - unde suntem, ce este după colț, cum să ajungem acolo - rămâne o provocare extraordinară. Procesul implică rechemarea unei întregi rețele de amintiri și date spațiale stocate de la zeci de miliarde de neuroni, fiecare conectat la mii de alții. Oamenii în neuroștiință au identificat elemente cheie precum celule grilă, neuroni care cartografiază locațiile. Dar să mergi mai adânc se va dovedi dificil: nu este ca și cum cercetătorii ar putea elimina și studia felii de materie cenușie umană pentru a urmări cum amintirile bazate pe locație ale imaginilor, sunetelor și mirosurilor curg și se conectează unele cu altele.

Inteligența artificială oferă o altă cale de intrare. De ani de zile, oamenii de știință au folosit multe tipuri de rețele neuronale - motoarele care alimentează cele mai multe aplicații de învățare profundă - pentru a modela declanșarea neuronilor din creier. În lucrări recente, cercetătorii au arătat că hipocampul, o structură a creierului esențială pentru memorie, este în esență un tip special de rețea neuronală, cunoscută sub numele de transformator, deghizat. Noul lor model urmărește informațiile spațiale într-un mod care este paralel cu funcționarea interioară a creierului. Au cunoscut un succes remarcabil.

„Faptul că știm că aceste modele ale creierului sunt echivalente cu transformatorul înseamnă că modelele noastre funcționează mult mai bine și sunt mai ușor de antrenat”, a spus James Whittington, un neuroștiință cognitiv care își împarte timpul între Universitatea Stanford și laboratorul de Tim Behrens la Universitatea din Oxford.

Studiile lui Whittington și alții sugerează că transformatoarele pot îmbunătăți considerabil capacitatea modelelor de rețele neuronale de a imita tipurile de calcule efectuate de celulele grilei și de alte părți ale creierului. Astfel de modele ne-ar putea împinge înțelegerea modului în care funcționează rețelele neuronale artificiale și, chiar mai probabil, a modului în care calculele sunt efectuate în creier, a spus Whittington.

„Nu încercăm să recreăm creierul”, a spus David Ha, un informatician la Google Brain care lucrează și la modele de transformatoare. „Dar putem crea un mecanism care poate face ceea ce face creierul?”

Transformers au apărut pentru prima dată în urmă cu cinci ani ca o nouă modalitate prin care AI-ul poate procesa limbajul. Ele sunt sosul secret în acele programe de completare a propozițiilor care captează titlurile precum OARET și GPT-3, care poate genera versuri convingătoare pentru cântece, poate compune sonete shakespeariane și poate uzurpa identitatea reprezentanților serviciului pentru clienți.

Transformatoarele funcționează folosind un mecanism numit auto-atenție, în care fiecare intrare - un cuvânt, un pixel, un număr dintr-o secvență - este întotdeauna conectată la orice altă intrare. (Alte rețele neuronale conectează intrările doar la anumite alte intrări.) Dar, în timp ce transformatoarele au fost proiectate pentru sarcini de limbaj, de atunci au excelat la alte sarcini, cum ar fi clasificarea imaginilor - și acum, modelarea creierului.

În 2020, un grup condus de Sepp Hochreiter, un informatician de la Universitatea Johannes Kepler din Linz din Austria, a folosit un transformator pentru a reelabora un model puternic, de lungă durată, de recuperare a memoriei, numit o rețea Hopfield. Introduse pentru prima dată în urmă cu 40 de ani de către fizicianul de la Princeton John Hopfield, aceste rețele urmează o regulă generală: neuronii care sunt activi în același timp construiesc conexiuni puternice între ei.

Hochreiter și colaboratorii săi, observând că cercetătorii au căutat modele mai bune de regăsire a memoriei, au văzut o legătură între modul în care rețelele Hopfield recuperează amintirile și modul în care transformatoarele atrag atenția. Au modernizat rețeaua Hopfield, transformând-o în esență într-un transformator. Această schimbare a permis modelului să stocheze și să recupereze mai multe amintiri datorită conexiunilor mai eficiente, a spus Whittington. Hopfield însuși, împreună cu Dmitry Krotov de la MIT-IBM Watson AI Lab, au demonstrat că o rețea Hopfield bazată pe transformatoare este plauzibilă din punct de vedere biologic.

Apoi, mai devreme anul asta, Whittington și Behrens au ajutat să modifice și mai mult abordarea lui Hochreiter, modificând transformatorul astfel încât, în loc să trateze amintirile ca o secvență liniară - ca un șir de cuvinte într-o propoziție - le-a codificat ca coordonate în spații dimensionale superioare. Această „întorsătură”, așa cum au numit-o cercetătorii, a îmbunătățit și mai mult performanța modelului în sarcinile de neuroștiință. Ei au arătat, de asemenea, că modelul a fost echivalent din punct de vedere matematic cu modelele modelelor de ardere a celulelor grile pe care oamenii de știință le văd în scanările fMRI.

„Celulele grilă au acest tip de structură interesantă, frumoasă, regulată și cu modele izbitoare, care este puțin probabil să apară la întâmplare”, a spus Caswell Barry, neuroștiință la University College London. Noua lucrare a arătat cum transformatoarele reproduc exact acele modele observate în hipocamp. „Ei au recunoscut că un transformator își poate da seama unde se bazează pe stările anterioare și cum este mutat și într-un mod care este introdus în modelele tradiționale de celule de rețea.”

Alte lucrări recente sugerează că transformatoarele ar putea avansa și înțelegerea altor funcții ale creierului. Anul trecut, Martin Schrimpf, un neuroștiință computațional la Institutul de Tehnologie din Massachusetts, a analizat 43 de modele diferite de rețele neuronale pentru a vedea cât de bine au prezis măsurătorile activității neuronale umane, așa cum sunt raportate de fMRI și electrocorticografie. El a descoperit că transformatoarele sunt rețelele neuronale de ultimă generație, care prezic aproape toate variațiile găsite în imagini.

Și Ha, împreună cu un coleg informatician Yujin Tang, a proiectat recent un model care ar putea trimite în mod intenționat cantități mari de date printr-un transformator într-un mod aleatoriu, neordonat, imitând modul în care corpul uman transmite observațiile senzoriale către creier. Transformatorul lor, ca și creierul nostru, ar putea gestiona cu succes un flux dezordonat de informații.

„Rețelele neuronale sunt cablate pentru a accepta o anumită intrare”, a spus Tang. Dar, în viața reală, seturile de date se schimbă adesea rapid și majoritatea AI nu are nicio modalitate de a se ajusta. „Am vrut să experimentăm o arhitectură care se poate adapta foarte repede.”

În ciuda acestor semne de progres, Behrens vede transformatoarele ca doar un pas către un model precis al creierului - nu sfârșitul căutării. „Trebuie să fiu un neuroștiință sceptic aici”, a spus el. „Nu cred că transformatoarele vor ajunge să fie modul în care gândim despre limbaj în creier, de exemplu, deși au cel mai bun model actual de propoziții.”

„Este aceasta cea mai eficientă bază pentru a face predicții despre unde mă aflu și ce voi vedea în continuare? Dacă sunt sincer, este prea devreme să spun”, a spus Barry.

De asemenea, Schrimpf a remarcat că chiar și transformatoarele cele mai performante sunt limitate, funcționând bine pentru cuvinte și fraze scurte, de exemplu, dar nu pentru sarcini de limbaj la scară mai mare, cum ar fi povestirea.

„Simțul meu este că această arhitectură, acest transformator, te pune în spațiul potrivit pentru a înțelege structura creierului și poate fi îmbunătățit cu antrenament”, a spus Schrimpf. „Aceasta este o direcție bună, dar domeniul este super complex.”

Timestamp-ul:

Mai mult de la Quantamagazina