Ta sztuczna inteligencja DeepMind szybko uczy się nowych umiejętności, po prostu obserwując ludzi

Ta sztuczna inteligencja DeepMind szybko uczy się nowych umiejętności, po prostu obserwując ludzi

Ta sztuczna inteligencja DeepMind szybko uczy się nowych umiejętności, po prostu obserwując ludzi PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Nauczenie algorytmów naśladujących ludzi zazwyczaj wymaga setek lub tysięcy przykładów. Jednak nowa sztuczna inteligencja Google DeepMind może na bieżąco zdobywać nowe umiejętności od ludzkich demonstrantów.

Jedną z największych sztuczek ludzkości jest nasza zdolność do szybkiego i skutecznego zdobywania wiedzy od siebie nawzajem. Ten rodzaj społecznego uczenia się, często nazywany transmisją kulturową, pozwala nam pokazać koledze, jak korzystać z nowego narzędzia lub nauczyć nasze dzieci rymowanek.

Nic dziwnego, że badacze próbowali odtworzyć ten proces na maszynach. Uczenie się przez naśladownictwo, podczas którego sztuczna inteligencja obserwuje, jak człowiek wykonuje zadanie, a następnie próbuje naśladować jego zachowanie, od dawna jest popularną metodą szkolenia robotów. Jednak nawet najbardziej zaawansowane obecnie algorytmy głębokiego uczenia się zazwyczaj muszą zobaczyć wiele przykładów, zanim będą mogły pomyślnie skopiować swoje trenerzy.

Kiedy ludzie uczą się poprzez naśladownictwo, często mogą podjąć nowe zadania już po kilku demonstracjach. Teraz badacze Google DeepMind zrobili krok w kierunku szybkiego uczenia się społecznościowego w sztucznej inteligencji dzięki agentom, którzy uczą się poruszać w wirtualnym świecie od ludzi w czasie rzeczywistym.

„Naszym agentom udaje się naśladować człowieka w czasie rzeczywistym w nowatorskich kontekstach, bez korzystania z żadnych wcześniej zebranych danych o ludziach” – piszą naukowcy w artykule papier w Nature Communications. "Identyfikujemy zaskakująco prosty zestaw składników wystarczających do wygenerowania przekazu kulturowego”.

Naukowcy przeszkolili swoich agentów w specjalnie zaprojektowanym symulatorze o nazwie GoalCycle3D. Symulator wykorzystuje algorytm do generowania niemal nieskończonej liczby różnych środowisk w oparciu o zasady dotyczące tego, jak powinna działać symulacja i jakie jej aspekty powinny się różnić.

W każdym środowisku mała kropelka AI agenci musi poruszać się po nierównym terenie i różnych przeszkodach, aby przejść przez szereg kolorowych kul w określonej kolejności. Nierówność terenu, gęstość przeszkód i konfiguracja sfer różnią się w zależności od środowiska.

Agenci są przeszkoleni w zakresie nawigacji uczenie się wzmacniania. Otrzymują nagrodę za przejście przez kule we właściwej kolejności i wykorzystują ten sygnał do poprawy swoich wyników w wielu próbach. Oprócz tego w środowiskach występuje także agent-ekspert – albo zakodowany na stałe, albo kontrolowany przez człowieka – który zna już właściwą trasę przez kurs.

Podczas wielu szkoleń agenci AI uczą się nie tylko podstaw działania środowisk, ale także tego, że najszybszym sposobem rozwiązania każdego problemu jest naśladowanie eksperta. Aby mieć pewność, że agenci uczą się naśladować, a nie tylko zapamiętywać kursy, zespół przeszkolił ich w jednym zestawie środowisk, a następnie przetestował w innym. Co najważniejsze, po szkoleniu zespół pokazał, że jego agenci potrafią naśladować eksperta i kontynuować podążanie wyznaczoną trasą nawet bez eksperta.

Wymagało to kilku poprawek w standardowych podejściach do uczenia się przez wzmacnianie.

Naukowcy skupili się na algorytmie na ekspertze, przewidując lokalizację drugiego agenta. Dali mu także moduł pamięci. Podczas szkolenia ekspert wpadał i wychodził z otoczenia, zmuszając agenta do zapamiętywania swoich działań, gdy już go nie było. Sztuczna inteligencja trenowała także w szerokim zestawie środowisk, co zapewniło jej dostrzeżenie szerokiego zakresu możliwych zadań.

Przełożenie tego podejścia na bardziej praktyczne dziedziny może jednak być trudne. Kluczowym ograniczeniem jest to, że kiedy badacze sprawdzali, czy sztuczna inteligencja może uczyć się na podstawie demonstracji na ludziach, agent-ekspert był kontrolowany przez jedną osobę podczas wszystkich przebiegów szkoleniowych. To sprawia, że ​​trudno jest stwierdzić, czy agenci mogliby uczyć się od różnych osób.

Co ważniejsze, możliwość losowej zmiany środowiska szkoleniowego byłaby trudna do odtworzenia w świecie rzeczywistym. Podstawowe zadanie było proste, nie wymagało precyzyjnej kontroli motorycznej i odbywało się w ściśle kontrolowanych środowiskach wirtualnych.

Mimo to postęp w zakresie uczenia się społecznego w zakresie sztucznej inteligencji jest mile widziany. Jeśli mamy żyć w świecie inteligentnych maszyn, znalezienie skutecznych i intuicyjnych sposobów dzielenia się z nimi naszym doświadczeniem i wiedzą specjalistyczną będzie miało kluczowe znaczenie.

Kredytowych Image: Juliana i Mariana Amorim / Unsplash

Znak czasu:

Więcej z Centrum osobliwości