Egy mesterséges intelligencia, amelyet most tanult meg egy kisgyermek szemével és fülével

Egy mesterséges intelligencia, amelyet most tanult meg egy kisgyermek szemével és fülével

Egy mesterséges intelligencia, amelyet most tanult meg egy kisgyermek szemével és fülével PlatoBlockchain adatintelligencia. Függőleges keresés. Ai.

Sam hat hónapos volt, amikor először szíjazott a homlokára egy könnyű kamerát.

A következő másfél évben a kamera töredékeket örökített meg életéből. Kúszott a család háziállatai körül, nézte a szüleit, ahogy főznek, és sírt a verandán a nagymamával. Mindeközben a kamera mindent rögzített, amit hallott.

Ami úgy hangzik, mint egy aranyos kisgyermekes otthoni videó, az valójában egy merész ötlet: Az AI megtanulhatja a nyelvet, mint egy gyerek? Az eredmények azt is feltárhatják, hogy a gyerekek milyen gyorsan sajátítják el a nyelvet és a fogalmakat korán.

Egy új tanulmány in Tudomány leírja, hogyan használták fel a kutatók Sam felvételeit arra, hogy egy mesterséges intelligenciát megtanítsanak a nyelv megértésére. Egy gyermek egy éven keresztüli élettapasztalatának csak egy kis részével az AI képes volt megragadni az alapvető fogalmakat – például a labda, a pillangó vagy a vödör.

Az AI, az úgynevezett Child's View for Contrastive Learning (CVCL), nagyjából azt utánozza, hogyan tanulunk kisgyermekként a látás és a hang párosításával. Ez egy egészen más megközelítés, mint az olyan nagy nyelvi modellek, mint a mostaniak a ChatGPT vagy a Bard mögött. Ezeknek a modelleknek az esszék, költészet vagy akár podcast-szkriptek megalkotására való elképesztő képessége lenyűgözte a világot. De sok billió szót kell megemészteniük a legkülönfélébb hírekből, forgatókönyvekből és könyvekből, hogy fejlesszék ezeket a képességeiket.

Ezzel szemben a gyerekek sokkal kevesebb hozzájárulással tanulnak, és növekedésük során gyorsan általánosítják a tanulást. A tudósok régóta azon töprengenek, hogy a mesterséges intelligencia képes-e megragadni ezeket a képességeket pusztán a mindennapi tapasztalatokkal.

„Első alkalommal mutatjuk meg, hogy egy neurális hálózat, amelyet egyetlen gyermektől kapott, erre a fejlődési szempontból valósághű bemenetre kiképzett, képes megtanulni szavakat összekapcsolni vizuális megfelelőikkel” – a tanulmány szerzője, Dr. Wai Keen Vong, a New York-i Egyetem Adattudományi Központjának munkatársa. mondta egy sajtóközleményben a kutatásról.

Gyermekjáték

A gyerekek könnyen magukba szívják a szavakat és azok jelentését a mindennapi tapasztalatokból.

Mindössze hat hónapos korukban elkezdik összekapcsolni a szavakat a látottakkal – például egy kerek pattogó dolog „labda”. Két éves korukra nagyjából 300 szót és azok fogalmát ismerik.

A tudósok régóta vitáznak arról, hogy ez hogyan történik. Az egyik elmélet szerint a gyerekek megtanulják összeegyeztetni azt, amit látnak, és amit hallanak. Egy másik szerint a nyelvtanulás a világ szélesebb körű megtapasztalását igényli, mint például a társas interakció és az érvelési képesség.

Ezeket a gondolatokat nehéz szétszedni a kisgyermekek hagyományos kognitív tesztjeivel. De választ kaphatunk, ha egy MI-t egy gyermek szemén és fülén keresztül tanítunk.

M3GAN?

Az új tanulmány egy gazdag videoforrást használt SAYCam, amely három, 6 és 32 hónapos kor közötti gyerektől gyűjtött adatokat tartalmaz GoPro-szerű kamerák segítségével a homlokukra rögzítve.

A kamerák hetente kétszer körülbelül egy órányi felvételt és hangot rögzítettek, miközben szoptattak, kúsztak és játszottak. Az összes hallható párbeszédet „megszólításokká” írták át – olyan szavakká vagy mondatokká, amelyeket azelőtt mondanak el, hogy a beszélő vagy a beszélgetés megváltozna. Az eredmény rengeteg multimédiás adat a csecsemők és kisgyermekek szemszögéből.

Az új rendszerhez a csapat két neurális hálózatot tervezett egy „bíró” koordinálásával. Az egyik az első személyű látványelemeket a kinek és minek a jelenetévé fordította – vajon egy anya főz? A többiek a hangfelvételekből fejtették meg a szavakat és a jelentéseket.

A két rendszert azután időben korrelálta, így az AI megtanulta a helyes vizuális elemeket szavakkal társítani. Például a mesterséges intelligencia megtanult egy baba képét a „Nézd, ott van egy baba” szavakkal párosítani, vagy egy jógalabdát a „Hú, ez egy nagy labda” szavakkal. Az edzéssel fokozatosan megtanulta elválasztani a jógalabda fogalmát a babától.

"Ez a modellnek támpontot ad arra vonatkozóan, hogy mely szavakat milyen objektumokhoz kell társítani" - mondta Vong.

A csapat ezután kiképezte az AI-t Sam életének nagyjából másfél éves videóin. Ez együtt több mint 600,000 37,500 videokockát tett ki, XNUMX XNUMX átírt megnyilatkozással párosítva. Bár a számok nagynak tűnnek, Sam napi ébren töltött életének nagyjából egy százalékát teszik ki, a nagy nyelvi modellek betanításához felhasznált adatmennyiséghez képest.

Baby AI feljövőben

A rendszer tesztelésére a csapat adaptált egy közös kognitív tesztet, amelyet a gyerekek nyelvi képességeinek mérésére használnak. Négy új képet mutattak az MI-nek – egy macskát, egy kiságyat, egy labdát és egy pázsitot –, és megkérdezték, melyik a labda.

Összességében az AI az esetek 62 százalékában a megfelelő képet választotta ki. A teljesítmény majdnem megegyezett a legkorszerűbb algoritmussal, amelyet 400 millió kép- és szövegpárra tanítottak az internetről – ez nagyságrendekkel több adatot tartalmazott, mint amennyi az MI betanításához használt a tanulmányban. Úgy találták, hogy kulcsfontosságú a videoképek hanggal való összekapcsolása. Amikor a csapat összekeverte a videókockákat és a hozzájuk tartozó kijelentéseket, a modell teljesen összeomlott.

A mesterséges intelligencia is képes „gondolkodni” kívülről, és általánosítani az új helyzetekre.

Egy másik tesztben Sam szemszögéből képezték ki a képeskönyvet, ahogy a szülei azt mondták: „Ez egy kacsa és egy pillangó.” Később felemelt egy játékpillangót, amikor megkérdezték tőle: „Tudsz megcsinálni a pillangót?” Amikor sokszínű pillangóképekkel – amilyeneket a mesterséges intelligencia még soha nem látott – kihívás elé állítottuk, négyből hármat 80 százalék feletti pontossággal észlelt a „pillangóra”.

Nem minden szófogalom kapott azonos pontszámot. Például a „kanál” küzdelem volt. De érdemes rámutatni, hogy mint egy kemény reCAPTCHA, az edzésképeket még az ember számára is nehéz volt megfejteni.

Növekvő fájdalmak

A Az AI a multimodális gépi tanulás legújabb eredményeire épít, amely szöveget, képeket, hangot vagy videót kombinál a gépi agy képzéséhez.

Egyetlen gyermek tapasztalatából származó bemenettel az algoritmus képes volt rögzíteni, hogy a szavak hogyan kapcsolódnak egymáshoz, és a szavakat képekhez és fogalmakhoz kapcsolta. Azt sugallja, hogy a kisgyermekek számára, ha hallanak szavakat, és hozzáigazítják azokat ahhoz, amit látnak, segít a szókincsük fejlesztésében.

Ez nem azt jelenti, hogy más agyi folyamatok, például a szociális jelzések és az érvelés ne lépnének be. A szerzők írták, hogy ezeknek az összetevőknek az algoritmushoz való hozzáadása potenciálisan javíthatja azt.

A csapat a kísérlet folytatását tervezi. A „baby” mesterséges intelligencia egyelőre csak állóképkeretekből tanul, és szókincse többnyire főnevekből áll. A videószegmensek beépítése a képzésbe segíthet az MI-nek megtanulni az igéket, mivel a videó mozgást is tartalmaz.

Az intonáció hozzáadása a beszédadatokhoz szintén segíthet. A gyerekek korán megtanulják, hogy egy anya „hmm”-je hangnemtől függően nagyon eltérő jelentéssel bírhat.

Összességében azonban a mesterséges intelligencia és az élettapasztalatok kombinálása új, erőteljes módszer a gépi és az emberi agy tanulmányozására. Segíthet olyan új mesterséges intelligencia-modellek kidolgozásában, amelyek úgy tanulnak, mint a gyerekek, és potenciálisan átformálja az agyunk nyelv- és fogalmi tanulásának megértését.

A kép forrása: Wai Keen Vong

Időbélyeg:

Még több Singularity Hub