Sztuczna inteligencja właśnie nauczyła się języka oczami i uszami małego dziecka

Opublikowane ponownie przez Plato

Obserwuje: 0

Sztuczna inteligencja właśnie nauczyła się języka oczami i uszami małego dziecka PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Sam miał sześć miesięcy, kiedy po raz pierwszy przypiął sobie do czoła lekki aparat.

Przez następne półtora roku kamera uchwyciła fragmenty jego życia. Pełzał wokół zwierząt domowych, patrzył, jak jego rodzice gotują i płakał na werandzie z babcią. Przez cały czas kamera rejestrowała wszystko, co usłyszał.

To, co brzmi jak urocze domowe wideo dla malucha, jest w rzeczywistości śmiałą koncepcją: czy sztuczna inteligencja może uczyć się języka jak dziecko? Wyniki mogą również ujawnić, w jaki sposób dzieci szybko nabywają języka i pojęć już w młodym wieku.

Nowe badania in nauka opisuje, jak badacze wykorzystali nagrania Sama do szkolenia sztucznej inteligencji w zakresie rozumienia języka. Dzięki zaledwie niewielkiej części doświadczenia życiowego jednego dziecka w ciągu roku sztuczna inteligencja była w stanie zrozumieć podstawowe pojęcia – na przykład piłkę, motyla czy wiadro.

Sztuczna inteligencja, zwana Child's View for Contrastive Learning (CVCL), z grubsza naśladuje sposób, w jaki uczymy się jako małe dzieci, dopasowując wzrok do dźwięku. To zupełnie inne podejście niż to, które przyjmują duże modele językowe, takie jak te za ChatGPT lub Bard. Niesamowita zdolność tych modelek do tworzenia esejów, poezji, a nawet scenariuszy podcastów zachwyciła świat. Aby rozwinąć te umiejętności, muszą jednak przetrawić biliony słów z najróżniejszych artykułów prasowych, scenariuszy i książek.

Dzieci natomiast uczą się przy znacznie mniejszym wkładzie i szybko generalizują swoją wiedzę w miarę dorastania. Naukowcy od dawna zastanawiali się, czy sztuczna inteligencja może uchwycić te zdolności wyłącznie na podstawie codziennych doświadczeń.

„Po raz pierwszy pokazujemy, że sieć neuronowa wytrenowana na realistycznych pod względem rozwojowym danych wejściowych pochodzących od pojedynczego dziecka może nauczyć się łączyć słowa z ich wizualnymi odpowiednikami” – autor badania, dr Wai Keen Vong z Center for Data Science na Uniwersytecie Nowojorskim powiedział w komunikacie prasowym o badaniach.

Dziecinnie proste

Dzieci z łatwością chłoną słowa i ich znaczenie z codziennego doświadczenia.

Już w wieku sześciu miesięcy zaczynają łączyć słowa z tym, co widzą – na przykład okrągła, sprężysta rzecz to „piłka”. Do drugiego roku życia znają już około 300 słów i ich pojęć.

Naukowcy od dawna debatują, jak to się dzieje. Jedna z teorii mówi, że dzieci uczą się dopasowywać to, co widzą, do tego, co słyszą. Inny sugeruje, że nauka języków wymaga szerszego doświadczenia świata, takiego jak interakcje społeczne i umiejętność rozumowania.

Trudno rozróżnić te pomysły za pomocą tradycyjnych testów poznawczych u małych dzieci. Odpowiedź możemy jednak uzyskać, trenując sztuczną inteligencję oczami i uszami dziecka.

M3GAN?

W nowym badaniu wykorzystano bogate źródło wideo o nazwie SAYCam, które obejmuje dane zebrane od trójki dzieci w wieku od 6 do 32 miesięcy za pomocą kamer typu GoPro przymocowanych do czoła.

Dwa razy w tygodniu kamery nagrywały około godziny materiału filmowego i dźwięku, podczas których karmiły piersią, raczkowały i bawiły się. Wszystkie słyszalne dialogi zostały przepisane na „wypowiedzi” — słowa lub zdania wypowiedziane przed zmianą mówcy lub konwersacji. Rezultatem jest bogactwo danych multimedialnych z perspektywy niemowląt i małych dzieci.

Na potrzeby nowego systemu zespół zaprojektował dwie sieci neuronowe z „sędzią”, który je koordynował. W jednym z nich przetłumaczono pierwszoosobowe wizualizacje na „kto i co” w scenie – czy to mama gotująca? Pozostałe rozszyfrowały słowa i znaczenia z nagrań audio.

Następnie oba systemy zostały skorelowane w czasie, dzięki czemu sztuczna inteligencja nauczyła się kojarzyć prawidłowe elementy wizualne ze słowami. Na przykład sztuczna inteligencja nauczyła się dopasowywać obraz dziecka do słów „Patrz, tam jest dziecko” lub obraz piłki do jogi do „Wow, to jest duża piłka”. Dzięki szkoleniom stopniowo nauczył się oddzielać koncepcję piłki do jogi od dziecka.

„To daje modelowi wskazówkę, które słowa powinny być powiązane z konkretnymi obiektami” – powiedział Vong.

Następnie zespół przeszkolił sztuczną inteligencję na podstawie filmów z mniej więcej półtora roku życia Sama. Łącznie było to ponad 600,000 37,500 klatek wideo i XNUMX XNUMX transkrypcji wypowiedzi. Chociaż liczby wydają się duże, stanowią one w przybliżeniu zaledwie jeden procent codziennego życia Sama i orzeszki ziemne w porównaniu z ilością danych wykorzystywanych do uczenia dużych modeli językowych.

Dziecięca sztuczna inteligencja rośnie

Aby przetestować system, zespół zaadaptował powszechny test poznawczy stosowany do pomiaru zdolności językowych dzieci. Pokazali AI cztery nowe obrazy – kota, łóżeczko, piłkę i trawnik – i zapytali, który z nich to piłka.

Ogólnie rzecz biorąc, sztuczna inteligencja wybierała prawidłowy obraz w około 62 procentach przypadków. Wydajność niemal dorównywała najnowocześniejszemu algorytmowi wytrenowanemu na 400 milionach par obrazów i tekstu z Internetu — danych o rząd wielkości więcej niż w przypadku uczenia sztucznej inteligencji w badaniu. Odkryli, że kluczowe znaczenie ma powiązanie obrazów wideo z dźwiękiem. Kiedy zespół przetasował klatki wideo i powiązane z nimi wypowiedzi, model całkowicie się załamał.

Sztuczna inteligencja może również „myśleć” nieszablonowo i uogólniać na nowe sytuacje.

W innym teście uczono go z perspektywy Sama na książkę z obrazkami, gdy jego rodzic powiedział: „To kaczka i motyl”. Później podniósł zabawkowego motyla, gdy zapytano go: „Czy potrafisz zrobić motyla?” Po zetknięciu się z wielobarwnymi obrazami motyli – takimi, jakich sztuczna inteligencja nigdy wcześniej nie widziała – wykryła trzy z czterech przykładów „motyla” z dokładnością przekraczającą 80%.

Nie wszystkie koncepcje słów uzyskały takie same wyniki. Na przykład „łyżka” była walką. Ale warto to podkreślić, jak twardziel reCAPTCHAobrazy szkoleniowe były trudne do rozszyfrowania nawet dla człowieka.

Growing Pains

Połączenia Sztuczna inteligencja opiera się na najnowszych osiągnięciach w multimodalnym uczeniu maszynowym, który łączy tekst, obrazy, dźwięk lub wideo w celu wytrenowania mózgu maszyny.

Wykorzystując dane pochodzące z doświadczeń pojedynczego dziecka, algorytm był w stanie uchwycić wzajemne powiązania słów i powiązać je z obrazami i koncepcjami. Sugeruje to, że w przypadku małych dzieci słuchanie słów i dopasowywanie ich do tego, co widzą, pomaga w budowaniu ich słownictwa.

Nie oznacza to, że inne procesy mózgowe, takie jak sygnały społeczne i rozumowanie, nie wchodzą w grę. Autorzy napisali, że dodanie tych komponentów do algorytmu mogłoby potencjalnie go ulepszyć.

Zespół planuje kontynuować eksperyment. Na razie „mała” sztuczna inteligencja uczy się wyłącznie na podstawie nieruchomych klatek obrazu i dysponuje słownictwem składającym się głównie z rzeczowników. Włączenie segmentów wideo do szkolenia może pomóc sztucznej inteligencji w nauce czasowników, ponieważ wideo obejmuje ruch.

Pomocne może być również dodanie intonacji do danych dotyczących mowy. Dzieci wcześnie uczą się, że „hmm” wypowiedziane przez mamę może mieć zupełnie inne znaczenie w zależności od tonu.

Ogólnie rzecz biorąc, łączenie sztucznej inteligencji i doświadczeń życiowych to nowa, potężna metoda badania mózgów maszyn i ludzi. Może nam pomóc w opracowaniu nowych modeli sztucznej inteligencji, które uczą się jak dzieci, i potencjalnie zmienić nasze rozumienie tego, w jaki sposób nasze mózgi uczą się języków i pojęć.

Źródło zdjęcia: Wai Keen Vong