Umetna inteligenca se je pravkar naučila jezika skozi oči in ušesa malčka

Ponovno objavil Platon

Spremljevalci: 0

AI, ki se je pravkar naučil jezika skozi oči in ušesa malčka PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Sam je bil star šest mesecev, ko si je na čelo prvič privezal lahek fotoaparat.

Naslednje leto in pol, kamera ujela delčke njegovega življenja. Plazil se je okrog družinskih hišnih ljubljenčkov, opazoval svoje starše, kako kuhajo, in jokal na verandi z babico. Ves čas pa je kamera snemala vse, kar je slišal.

Kar zveni kot ljubek domači video posnetek malčka, je pravzaprav drzen koncept: ali se lahko umetna inteligenca nauči jezika kot otrok? Rezultati bi lahko razkrili tudi, kako otroci hitro usvojijo jezik in koncepte v zgodnjem otroštvu.

Nova študija in Znanost opisuje, kako so raziskovalci uporabili Samove posnetke, da bi umetno inteligenco usposobili za razumevanje jezika. Z le majhnim deležem življenjske izkušnje enega otroka v enem letu je umetna inteligenca lahko dojela osnovne koncepte – na primer žogo, metulja ali vedro.

AI, imenovan Child's View for Contrastive Learning (CVCL), približno posnema, kako se učimo kot malčki, tako da poveže vid z zvokom. To je zelo drugačen pristop od tistega, ki ga uporabljajo veliki jezikovni modeli, kot so ti za ChatGPT ali Bard. Nenavadna sposobnost teh modelov za ustvarjanje esejev, poezije ali celo scenarijev za poddaje je navdušila svet. Toda za razvoj teh sposobnosti morajo prebaviti bilijone besed iz najrazličnejših novic, scenarijev in knjig.

Nasprotno pa se otroci učijo z veliko manj vložkov in hitro posplošujejo svoje učenje, ko rastejo. Znanstveniki so se dolgo spraševali, ali lahko umetna inteligenca ujame te sposobnosti zgolj z vsakodnevnimi izkušnjami.

"Prvič smo pokazali, da se lahko nevronska mreža, usposobljena na tem razvojno realističnem vnosu enega samega otroka, nauči povezovati besede z njihovimi vizualnimi dvojniki," je avtor študije dr. Wai Keen Vong iz Centra za podatkovno znanost NYU. je dejal v sporočilu za javnost o raziskavi.

Otroška igra

Otroci zlahka vpijejo besede in njihov pomen iz vsakodnevnih izkušenj.

Pri komaj šestih mesecih začnejo povezovati besede s tem, kar vidijo – okrogla poskočna stvar je na primer »žoga«. Do dveh let poznajo približno 300 besed in njihove koncepte.

Znanstveniki že dolgo razpravljajo o tem, kako se to zgodi. Ena od teorij pravi, da se otroci naučijo povezati tisto, kar vidijo, s tem, kar slišijo. Drugi predlaga, da učenje jezikov zahteva širšo izkušnjo sveta, kot sta socialna interakcija in sposobnost sklepanja.

Te ideje je težko ločiti s tradicionalnimi kognitivnimi testi pri malčkih. Morda pa dobimo odgovor tako, da umetno inteligenco usposobimo skozi oči in ušesa otroka.

M3GAN?

Nova študija je izkoristila bogat video vir, imenovan SAYCam, ki vključuje podatke, zbrane pri treh otrocih, starih od 6 do 32 mesecev, s kamerami, podobnimi GoPro, pritrjenimi na čelo.

Dvakrat na teden so kamere posnele približno eno uro posnetkov in zvoka med dojenjem, plazenjem in igro. Ves zvočni dialog je bil prepisan v "izgovore" - besede ali stavke, izgovorjene preden se je govornik ali pogovor spremenil. Rezultat je množica multimedijskih podatkov z vidika dojenčkov in malčkov.

Za nov sistem je ekipa oblikovala dve nevronski mreži s "sodnikom", ki ju je usklajeval. Eden je prevedel prvoosebne vizualne elemente v kdo in kaj je prizora – ali mama kuha? Drugi je razvozlal besede in pomene iz zvočnih posnetkov.

Oba sistema sta bila nato časovno povezana, tako da se je umetna inteligenca naučila povezovati pravilne slike z besedami. Umetna inteligenca se je na primer naučila povezati sliko otroka z besedami "Glej, tam je dojenček" ali sliko žoge za jogo z "Vau, to je velika žoga." S treningom se je postopoma naučilo ločiti koncept žoge za jogo od dojenčka.

"To daje modelu namig o tem, katere besede naj bodo povezane s katerimi predmeti," je dejal Vong.

Ekipa je nato usposobila AI na videoposnetkih iz približno leta in pol Samovega življenja. Skupaj je obsegal več kot 600,000 video okvirjev, povezanih s 37,500 transkribiranimi izreki. Čeprav se številke slišijo velike, so približno le en odstotek Samovega vsakodnevnega budnega življenja in arašidov v primerjavi s količino podatkov, uporabljenih za urjenje velikih jezikovnih modelov.

Baby AI v vzponu

Za testiranje sistema je ekipa prilagodila skupni kognitivni test, ki se uporablja za merjenje jezikovnih sposobnosti otrok. Umetni inteligenci so pokazali štiri nove slike – mačko, posteljico, žogo in trato – in vprašali, katera je žoga.

Na splošno je AI izbral pravilno sliko približno 62 odstotkov časa. Učinkovitost se je skoraj ujemala z najsodobnejšim algoritmom, urjenim na 400 milijonih slikovnih in besedilnih parov iz spleta – red velikosti več podatkov, kot je bilo uporabljeno za usposabljanje umetne inteligence v študiji. Ugotovili so, da je povezovanje video slik z zvokom ključnega pomena. Ko je ekipa premešala video okvirje in njihove povezane izjave, se je model popolnoma pokvaril.

Umetna inteligenca bi lahko tudi "razmišljala" zunaj okvira in posploševala na nove situacije.

V drugem preizkusu je bil urjen na Samovi perspektivi slikanice, ko je njegov starš rekel: "To sta raca in metulj." Kasneje je dvignil igračo metulja, ko so ga vprašali: "Znaš narediti metulja?" Pri izzivu z večbarvnimi slikami metuljev – takšnih, ki jih umetna inteligenca še ni videla – je zaznal tri od štirih primerov za »metulje« z več kot 80-odstotno natančnostjo.

Vsi pojmi besed niso dosegli enakih točk. Na primer, "žlica" je bila borba. Vendar je vredno poudariti, da kot težko reCAPTCHA, so bile podobe treninga težko dešifrirati celo človek.

Growing Pains

O AI temelji na nedavnem napredku multimodalnega strojnega učenja, ki združuje besedilo, slike, zvok ali video za urjenje strojnih možganov.

Z vložkom iz izkušnje samo enega otroka je algoritem lahko zajel, kako so besede povezane med seboj, in povezal besede s slikami in koncepti. Predlaga, da malčkom, če slišijo besede in jih povežejo s tem, kar vidijo, pomaga graditi njihov besedni zaklad.

To ne pomeni, da drugi možganski procesi, kot so socialni znaki in sklepanje, ne pridejo v poštev. Dodajanje teh komponent algoritmu bi ga lahko potencialno izboljšalo, so zapisali avtorji.

Ekipa namerava nadaljevati poskus. Zaenkrat se "otroška" umetna inteligenca uči le iz okvirjev fotografij in ima besedišče, ki je večinoma sestavljeno iz samostalnikov. Integracija video segmentov v usposabljanje bi lahko pomagala AI pri učenju glagolov, ker video vključuje gibanje.

Pomaga lahko tudi dodajanje intonacije govornim podatkom. Otroci se zgodaj naučijo, da ima mamin »hmm« lahko zelo različne pomene, odvisno od tona.

Toda na splošno je kombinacija umetne inteligence in življenjskih izkušenj močna nova metoda za preučevanje tako strojnih kot človeških možganov. Lahko bi nam pomagal razviti nove modele umetne inteligence, ki se učijo kot otroci, in potencialno preoblikovati naše razumevanje tega, kako se naši možgani učijo jezika in konceptov.

Avtorstvo slike: Wai Keen Vong