AI just õpitud keel väikelapse silmade ja kõrvade kaudu

AI just õpitud keel väikelapse silmade ja kõrvade kaudu

An AI Just Learned Language Through the Eyes and Ears of a Toddler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Sam oli kuuekuune, kui kinnitas esimest korda kerge kaamera oma otsaesisele.

Järgmise pooleteise aasta jooksul kaamera jäädvustas katkendeid tema elust. Ta roomas ümber pere lemmikloomade, vaatas oma vanemaid süüa tegemas ja nuttis koos vanaemaga esikusel verandal. Kogu selle aja salvestas kaamera kõike, mida ta kuulis.

See, mis kõlab nagu armas väikelapse koduvideo, on tegelikult julge idee: kas tehisintellekt saab õppida keelt nagu laps? Tulemused võivad paljastada ka selle, kuidas lapsed omandavad varajases eas kiiresti keele ja mõisted.

Uues uurimuses in teadus kirjeldab, kuidas teadlased kasutasid Sami salvestisi, et õpetada tehisintellekti keelt mõistma. Vaid väikese osa ühe lapse elukogemusest üle aasta suutis AI mõista põhimõisteid – näiteks pall, liblikas või ämber.

Tehisintellekt, mida nimetatakse kontrastse õppimise lapse vaateks (CVCL), jäljendab ligikaudu seda, kuidas me väikelapsena õpime, sobitades nägemise heliga. See on hoopis teistsugune lähenemine kui see, mida kasutavad sellised suured keelemudelid nagu need ChatGPT või Bardi taga. Nende modellide hämmastav võime koostada esseesid, luulet või isegi taskuhäälingusaate stsenaariume on maailma vaimustanud. Kuid nende oskuste arendamiseks peavad nad seedima triljoneid sõnu paljudest uudisteartiklitest, stsenaariumidest ja raamatutest.

Lapsed aga õpivad palju väiksema panusega ja üldistavad kasvades oma õpitut kiiresti. Teadlased on pikka aega mõelnud, kas tehisintellekt suudab neid võimeid ainult igapäevaste kogemustega kinni püüda.

"Näitame esimest korda, et närvivõrk, mis on koolitatud selle ühe lapse arenguliselt realistliku sisendi põhjal, võib õppida sõnu siduma oma visuaalsete vastetega," uurib dr Wai Keen Vong NYU andmeteaduse keskusest. ütles pressiteates uuringu kohta.

Lapsemäng

Lapsed saavad igapäevakogemusest kergesti sõnu ja nende tähendusi.

Vaid kuue kuu vanuselt hakkavad nad sõnu ühendama nähtuga – näiteks ümmargune kopsakas asi on "pall". Kaheaastaselt teavad nad umbes 300 sõna ja nende mõisteid.

Teadlased on pikka aega vaielnud, kuidas see juhtub. Üks teooria ütleb, et lapsed õpivad sobitama seda, mida nad näevad, ja seda, mida nad kuulevad. Teine viitab sellele, et keeleõpe nõuab laiemat maailmakogemust, näiteks sotsiaalset suhtlust ja arutlusvõimet.

Neid ideid on raske tavapäraste kognitiivsete testidega väikelastel lahutada. Kuid me võime saada vastuse, kui treenime tehisintellekti läbi lapse silmade ja kõrvade.

M3GAN?

Uues uuringus kasutati rikkalikku videoressurssi nimega SAYCam, mis sisaldab andmeid, mis on kogutud kolmelt 6–32 kuu vanuselt lapselt, kasutades GoPro-laadseid kaameraid, mis on nende otsaesisele kinnitatud.

Kaks korda nädalas salvestasid kaamerad imetamise, roomamise ja mängimise ajal umbes tund aega materjali ja heli. Kõik kuuldavad dialoogid transkribeeriti "ütlusteks" - sõnadeks või lauseteks, mis räägiti enne kõneleja või vestluse muutumist. Tulemuseks on suur hulk multimeediumiandmeid imikute ja väikelaste vaatenurgast.

Uue süsteemi jaoks kavandas meeskond kaks närvivõrku, mille koordineerimiseks oli "kohtunik". Üks tõlgis esimese isiku visuaalid stseeniks, kes ja mis on – kas ema teeb süüa? Teised dešifreerisid helisalvestistest sõnu ja tähendusi.

Seejärel olid need kaks süsteemi ajas korrelatsioonis, nii et tehisintellekt õppis õigeid visuaale sõnadega seostama. Näiteks õppis tehisintellekt sobitama beebi kujutist sõnadega “Vaata, seal on laps” või joogapalli kujutist sõnadega “Vau, see on suur pall”. Treeninguga õppis see järk-järgult joogapalli mõistet beebist eraldama.

"See annab mudelile vihje selle kohta, milliseid sõnu tuleks milliste objektidega seostada," ütles Vong.

Seejärel õpetas meeskond tehisintellekti Sami umbes pooleteise aasta pikkusest elust pärit videote põhjal. Kokku moodustas see üle 600,000 37,500 videokaadri koos XNUMX XNUMX transkribeeritud lausungiga. Kuigi arvud kõlavad suurtena, moodustavad need laias laastus vaid ühe protsendi Sami igapäevasest ärkvelolekust ja maapähklitest, võrreldes suurte keelemudelite koolitamiseks kasutatud andmehulgaga.

Beebi AI tõusuteel

Süsteemi testimiseks kohandas meeskond ühise kognitiivse testi, mida kasutatakse laste keeleoskuse mõõtmiseks. Nad näitasid tehisintellektile nelja uut pilti – kassi, võrevoodi, palli ja muru – ning küsisid, milline neist on pall.

Üldiselt valis AI õige pildi umbes 62 protsenti ajast. Toimivus vastas peaaegu tipptasemel algoritmile, mida kasutati 400 miljonil veebist pärit pildi- ja tekstipaaril – suurusjärgu võrra rohkem andmeid, kui kasutati AI koolitamiseks uuringus. Nad leidsid, et videopiltide sidumine heliga on ülioluline. Kui meeskond segas videokaadreid ja nendega seotud lausungeid, purunes mudel täielikult.

AI võiks ka "mõelda" väljaspool kasti ja üldistada uutele olukordadele.

Teises testis treeniti Sami pildiraamatu vaatenurgast, nagu tema vanem ütles: "See on part ja liblikas." Hiljem tõstis ta mänguliblikat üleval, kui temalt küsiti: "Kas sa oskad liblikat teha?" Kui prooviti kasutada mitmevärvilisi liblikakujutisi – selliseid, mida tehisintellekt polnud kunagi varem näinud – tuvastas see kolm neljast „liblika“ näitest üle 80-protsendilise täpsusega.

Kõik sõnamõisted ei saanud võrdselt punkte. Näiteks "lusikas" oli võitlus. Kuid väärib märkimist, et nagu karm reCAPTCHA, oli treeningpilte isegi inimesel raske lahti mõtestada.

Kasvuvalud

. AI tugineb hiljutistele edusammudele multimodaalses masinõppes, mis ühendab teksti, pilte, heli või videot masinaaju treenimiseks.

Ainult ühe lapse kogemuse põhjal suutis algoritm jäädvustada, kuidas sõnad on üksteisega seotud, ning seostada sõnu piltide ja mõistetega. See viitab sellele, et väikelastel aitab sõnade kuulmine ja nende nägemisega sobitamine arendada nende sõnavara.

See ei tähenda, et muud ajuprotsessid, nagu sotsiaalsed näpunäited ja arutluskäik, ei tuleks mängu. Autorid kirjutasid, et nende komponentide lisamine algoritmile võib seda parandada.

Meeskond kavatseb katset jätkata. Praegu õpib "beebi" tehisintellekt ainult piltide raamidest ja selle sõnavara koosneb peamiselt nimisõnadest. Videolõikude integreerimine koolitusse võib aidata tehisintellektil verbe õppida, kuna video sisaldab liikumist.

Abiks võib olla ka intonatsiooni lisamine kõneandmetele. Lapsed õpivad varakult, et ema sõnal "hmm" võib olenevalt toonist olla väga erinev tähendus.

Kuid üldiselt on tehisintellekti ja elukogemuste kombineerimine võimas uus meetod nii masina kui ka inimese aju uurimiseks. See võib aidata meil välja töötada uusi tehisintellekti mudeleid, mis õpivad nagu lapsed, ja potentsiaalselt ümber kujundada meie arusaama sellest, kuidas meie aju keelt ja mõisteid õpib.

Pildi krediit: Wai Keen Vong

Ajatempel:

Veel alates Singulaarsuse keskus