Acest DeepMind AI învață rapid noi abilități doar privind oamenii

Acest DeepMind AI învață rapid noi abilități doar privind oamenii

This DeepMind AI Rapidly Learns New Skills Just by Watching Humans PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Predarea algoritmilor pentru a imita oamenii necesită de obicei sute sau mii de exemple. Dar o nouă IA de la Google DeepMind poate dobândi noi abilități de la demonstranții umani din mers.

Unul dintre cele mai mari trucuri ale omenirii este capacitatea noastră de a dobândi cunoștințe rapid și eficient unul de la celălalt. Acest tip de învățare socială, denumită adesea transmisie culturală, este ceea ce ne permite să arătăm unui coleg cum să folosească un nou instrument sau să învățăm copiilor noștri versuri.

Nu este surprinzător faptul că cercetătorii au încercat să reproducă procesul în mașini. Învățarea prin imitație, în care AI urmărește un om îndeplinește o sarcină și apoi încearcă să-i mimeze comportamentul, a fost mult timp o abordare populară pentru antrenarea roboților. Dar chiar și cei mai avansați algoritmi de învățare profundă de astăzi au nevoie de obicei să vadă multe exemple înainte de a-și putea copia cu succes antrenorii.

Când oamenii învață prin imitație, deseori își pot prelua sarcini noi după doar câteva demonstrații. Acum, cercetătorii Google DeepMind au făcut un pas către învățarea socială rapidă în AI cu agenți care învață să navigheze într-o lume virtuală de la oameni în timp real.

„Agenții noștri reușesc să imite în timp real un om în contexte noi, fără a utiliza date umane precolectate”, scriu cercetătorii într-un hârtie înăuntru Natura Comunicaţii. Identificăm un set surprinzător de simplu de ingrediente suficiente pentru a genera transmiterea culturală.”

Cercetătorii și-au antrenat agenții într-un simulator special conceput numit GoalCycle3D. Simulatorul folosește un algoritm pentru a genera un număr aproape nesfârșit de medii diferite bazate pe reguli despre modul în care ar trebui să funcționeze simularea și ce aspecte ale acesteia ar trebui să varieze.

În fiecare mediu, un mic blob Agenți AI trebuie să navigheze pe teren neuniform și diverse obstacole pentru a trece printr-o serie de sfere colorate într-o anumită ordine. Denivelarea terenului, densitatea obstacolelor și configurația sferelor variază între medii.

Agenții sunt instruiți să navigheze folosind Consolidarea învățării. Ei câștigă o recompensă pentru trecerea prin sfere în ordinea corectă și folosesc acest semnal pentru a-și îmbunătăți performanța în mai multe încercări. Dar, în plus, mediile includ și un agent expert – care este fie codificat, fie controlat de un om – care știe deja traseul corect prin curs.

Pe parcursul multor curse de antrenament, agenții AI învață nu numai elementele fundamentale ale modului în care funcționează mediile, ci și că cea mai rapidă modalitate de a rezolva fiecare problemă este imitarea expertului. Pentru a se asigura că agenții învață să imite mai degrabă decât să memoreze cursurile, echipa i-a antrenat pe un set de medii și apoi i-a testat pe altul. În mod crucial, după antrenament, echipa a arătat că agenții lor pot imita un expert și pot continua să urmeze traseul chiar și fără expert.

Acest lucru a necesitat câteva modificări ale abordărilor standard de învățare prin întărire.

Cercetătorii au făcut ca algoritmul să se concentreze pe expert, făcându-l să prezică locația celuilalt agent. I-au dat și un modul de memorie. În timpul antrenamentului, expertul intra și iese din medii, forțând agentul să-și memoreze acțiunile atunci când nu mai era prezent. AI s-a antrenat și pe un set larg de medii, ceea ce a asigurat că vede o gamă largă de sarcini posibile.

It might be difficult to translate the approach to more practical domains though. A key limitation is that when the researchers tested if the AI could learn from human demonstrations, the expert agent was controlled by one person during all training runs. That makes it hard to know whether the agents could learn from a variety of people.

Mai urgent, capacitatea de a modifica aleatoriu mediul de antrenament ar fi dificil de recreat în lumea reală. Iar sarcina de bază era simplă, nu necesita control motor fin și are loc în medii virtuale extrem de controlate.

Totuși, progresul învățării sociale în AI este binevenit. Dacă vrem să trăim într-o lume cu mașini inteligente, găsirea unor modalități eficiente și intuitive de a ne împărtăși experiența și expertiza cu acestea va fi crucială.

Credit imagine: Juliana e Mariana Amorim / Unsplash

Timestamp-ul:

Mai mult de la Singularity Hub