En AI som precis har lärt sig språket genom ögonen och öronen på ett litet barn

Återutgiven av Platon

anhängare: 0

En AI som just lärt sig språk genom ögonen och öronen på ett litet barn PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Sam var sex månader gammal när han för första gången fäste en lätt kamera på sin panna.

För nästa och ett halvt år, kameran fångade utdrag av hans liv. Han kröp runt familjens husdjur, såg sina föräldrar laga mat och grät på verandan med mormor. Hela tiden spelade kameran in allt han hörde.

Det som låter som en söt hemmavideo för småbarn är faktiskt ett vågat koncept: Kan AI lära sig språk som ett barn? Resultaten kan också avslöja hur barn snabbt tillägnar sig språk och begrepp i tidig ålder.

En ny studie in Vetenskap beskriver hur forskare använde Sams inspelningar för att träna en AI att förstå språk. Med bara en liten del av ett barns livserfarenhet under ett år kunde AI förstå grundläggande koncept – till exempel en boll, en fjäril eller en hink.

AI, kallad Child's View for Contrastive Learning (CVCL), härmar ungefär hur vi lär oss som småbarn genom att matcha syn med ljud. Det är ett helt annat tillvägagångssätt än det som används av stora språkmodeller som de bakom ChatGPT eller Bard. Dessa modellers kusliga förmåga att skapa essäer, poesi eller till och med podcastmanus har hänfört världen. Men de behöver smälta biljoner ord från en mängd olika nyhetsartiklar, manus och böcker för att utveckla dessa färdigheter.

Barn däremot lär sig med mycket mindre input och generaliserar snabbt sina lärdomar när de växer. Forskare har länge undrat om AI kan fånga dessa förmågor enbart med vardagsupplevelser.

"Vi visar för första gången att ett neuralt nätverk tränat på denna utvecklingsmässigt realistiska input från ett enda barn kan lära sig att länka ord till sina visuella motsvarigheter," studieförfattaren Dr. Wai Keen Vong vid NYU:s Center for Data Science sade i ett pressmeddelande om forskningen.

Barns lek

Barn suger lätt upp ord och deras betydelser från vardagsupplevelsen.

Vid bara sex månader gamla börjar de koppla ord till det de ser – till exempel är en rund studsande sak en "boll". Vid två års ålder kan de ungefär 300 ord och deras begrepp.

Forskare har länge diskuterat hur detta händer. En teori säger att barn lär sig att matcha vad de ser med vad de hör. En annan antyder att språkinlärning kräver en bredare erfarenhet av världen, såsom social interaktion och förmågan att resonera.

Det är svårt att slita isär dessa idéer med traditionella kognitiva tester hos småbarn. Men vi kanske får ett svar genom att träna en AI genom ett barns ögon och öron.

M3GAN?

Den nya studien utnyttjade en rik videoresurs som heter SAYCam, som inkluderar data som samlats in från tre barn mellan 6 och 32 månader gamla med hjälp av GoPro-liknande kameror fastspända i pannan.

Två gånger i veckan spelade kamerorna in cirka en timme med bilder och ljud medan de ammade, kröp och spelade. All hörbar dialog transkriberades till "yttringar" - ord eller meningar som sades innan talaren eller konversationen ändrades. Resultatet är en mängd multimediadata från spädbarns och småbarns perspektiv.

För det nya systemet designade teamet två neurala nätverk med en "domare" för att samordna dem. En översatte förstapersonsbilder till vem och vad för en scen – är det en mamma som lagar mat? Den andra dechiffrerade ord och betydelser från ljudinspelningarna.

De två systemen korrelerades sedan i tid så att AI lärde sig att associera korrekta bilder med ord. Till exempel lärde AI sig att matcha en bild av en baby med orden "Titta, det finns en baby" eller en bild av en yogaboll med "Wow, det är en stor boll." Med träning lärde den sig gradvis att skilja konceptet med en yogaboll från en baby.

"Detta ger modellen en ledtråd om vilka ord som ska associeras med vilka objekt," sa Vong.

Teamet tränade sedan AI på videor från ungefär ett och ett halvt år av Sams liv. Tillsammans uppgick det till över 600,000 37,500 videorutor, parat med XNUMX XNUMX transkriberade yttranden. Även om siffrorna låter stora, är de ungefär bara en procent av Sams dagliga vakna liv och jordnötter jämfört med mängden data som används för att träna stora språkmodeller.

Baby AI på väg upp

För att testa systemet anpassade teamet ett vanligt kognitivt test som används för att mäta barns språkliga förmågor. De visade AI fyra nya bilder - en katt, en spjälsäng, en boll och en gräsmatta - och frågade vilken som var bollen.

Totalt sett valde AI den korrekta bilden runt 62 procent av tiden. Prestandan matchade nästan en toppmodern algoritm som tränats på 400 miljoner bild- och textpar från webben – storleksordningar mer data än vad som användes för att träna AI:n i studien. De fann att det var avgörande att länka videobilder med ljud. När teamet blandade videoramar och deras tillhörande yttranden gick modellen totalt sönder.

AI:n kan också "tänka" utanför ramarna och generalisera till nya situationer.

I ett annat test tränades den på Sams perspektiv på en bilderbok när hans förälder sa: "Det är en anka och en fjäril." Senare höll han upp en leksaksfjäril när han fick frågan: "Kan du göra fjärilen?" När den utmanades med flerfärgade fjärilsbilder - sådana som AI aldrig sett förut - upptäckte den tre av fyra exempel på "fjäril" med över 80 procents noggrannhet.

Alla ordbegrepp fick inte samma poäng. Till exempel var "sked" en kamp. Men det är värt att påpeka att, som en tuff reCAPTCHA, träningsbilderna var svåra att tyda även för en människa.

VÄXTVÄRK

Smakämnen AI bygger på de senaste framstegen inom multimodal maskininlärning, som kombinerar text, bilder, ljud eller video för att träna en maskinhjärna.

Med input från bara ett enda barns erfarenhet kunde algoritmen fånga hur ord relaterar till varandra och länka ord till bilder och begrepp. Det tyder på att för småbarn att höra ord och matcha dem med vad de ser hjälper till att bygga upp deras ordförråd.

Därmed inte sagt att andra hjärnprocesser, såsom sociala signaler och resonemang, inte spelar in. Att lägga till dessa komponenter till algoritmen kan potentiellt förbättra den, skrev författarna.

Teamet planerar att fortsätta experimentet. För närvarande lär den "baby" AI bara från stillbildsramar och har ett ordförråd som mestadels består av substantiv. Att integrera videosegment i utbildningen kan hjälpa AI att lära sig verb eftersom video innehåller rörelse.

Att lägga till intonation i taldata kan också hjälpa. Barn lär sig tidigt att en mammas "hmm" kan ha väldigt olika betydelser beroende på tonen.

Men totalt sett är att kombinera AI och livserfarenheter en kraftfull ny metod för att studera både maskin- och mänskliga hjärnor. Det kan hjälpa oss att utveckla nya AI-modeller som lär sig som barn, och potentiellt omforma vår förståelse för hur våra hjärnor lär sig språk och begrepp.

Bildkredit: Wai Keen Vong