Láttál már gazellabébit járni tanulni? Egy őz, amely alapvetően egy emlős apuka hosszú lábú, feltápászkodik, leesik, feláll, és újra elesik. Végül elég hosszú ideig áll ahhoz, hogy fogpiszkáló-szerű lábait egy sor közeli esésbe lendítse… áh, lépések. Meglepő módon néhány perccel e megnyerő bemutató után az őz úgy ugrál, mint egy régi profi.
Nos, most megvan ennek a klasszikus Serengeti jelenetnek a robotváltozata.
Az őz ez esetben egy robotkutya a Kaliforniai Egyetemen, Berkeleyben. És szintén meglepően gyorsan tanul (a többi robottípushoz képest). A robot azért is különleges, mert a többi, neten látott villámosabb robottól eltérően mesterséges intelligencia segítségével tanítja meg magát járni.
A hátáról indulva, integetett lábakkal a robot egy óra alatt megtanulja megfordítani, felállni és járni. További tíz perc zaklatás egy tekercs kartonnal elég ahhoz, hogy megtanítsa neki, hogyan kell ellenállni és felépülnie a kezelői lökdösődésnek.
Nem ez az első alkalom egy robot mesterséges intelligenciát használt fel, hogy megtanuljon járni. De míg a korábbi robotok próba és hiba útján sajátították el ezt a képességet a szimulációk számtalan iterációja során, addig a Berkeley bot teljes egészében a való világban tanult.
[Beágyazott tartalmat]
egy könyv megjelent Az arXiv preprint szerveren a kutatók – Danijar Hafner, Alejandro Escontrela és Philipp Wu – azt mondják, hogy a szimuláció során megtanult algoritmusok átvitele a való világba nem egyszerű. Az apró részletek és a valós világ és a szimuláció közötti különbségek megbotolhatják a fiatal robotokat. Másrészt a valós világban a betanítási algoritmusok nem praktikusak: túl sok időt és elhasználódást venne igénybe.
Négy évvel ezelőtt például az OpenAI bemutatott egy AI-kompatibilis robotkezet, amely képes manipulálni egy kockát. A Dactyl vezérlőalgoritmusnak mintegy 100 éves tapasztalatra volt szüksége egy 6,144 CPU-val és 8 Nvidia V100 GPU-val hajtott szimulációban ahhoz, hogy ezt a viszonylag egyszerű feladatot elvégezze. A dolgok azóta fejlődtek, de a probléma nagyrészt továbbra is fennáll. A tisztán megerősítő tanulási algoritmusoknak túl sok próbálkozásra és hibára van szükségük ahhoz, hogy elsajátítsák a készségeket ahhoz, hogy a való világban edzenek. Egyszerűen fogalmazva, a tanulási folyamat megtörné a kutatókat és a robotokat, mielőtt bármilyen érdemi előrelépést tennének.
A Berkeley csapata ezt a problémát a Dreamer nevű algoritmussal próbálta megoldani. Az úgynevezett „világmodell”, Álmodozó képes előrevetíteni annak valószínűségét, hogy egy jövőbeni cselekvés eléri a célját. A tapasztalattal az előrejelzések pontossága javul. A kevésbé sikeres akciók előzetes kiszűrésével a világmodell lehetővé teszi a robot számára, hogy hatékonyabban tudja kitalálni, mi működik.
"A világmodellek múltbeli tapasztalataiból való tanulása lehetővé teszi a robotok számára, hogy elképzeljék a lehetséges cselekvések jövőbeli kimenetelét, csökkentve ezzel a valós környezetben a sikeres viselkedés megtanulásához szükséges próbálkozások és hibák számát" - írják a kutatók. "A jövőbeli eredmények előrejelzésével a világmodellek lehetővé teszik a tervezést és a viselkedéstanulást, csak kis mennyiségű valós interakció mellett."
Más szóval, egy világmodell a szimulációban eltöltött évek képzési idejét a való világban legfeljebb egy kínos órára csökkentheti.
A megközelítésnek nagyobb jelentősége lehet, mint a robotkutyáknak. A csapat a Dreamer-t egy pick-and-place robotkarra és egy kerekes robotra is alkalmazta. Mindkét esetben azt találták, hogy a Dreamer lehetővé tette a robotjaiknak, hogy hatékonyan sajátítsák el a releváns készségeket, sim idő nélkül. A jövőbeni ambiciózusabb alkalmazások lehetnek önálló autóvezetés.
Természetesen vannak még megoldandó kihívások. Bár a megerősítő tanulás automatizálja a mai legfejlettebb robotok mögött meghúzódó bonyolult kézi kódolást, még mindig megköveteli a mérnököktől, hogy meghatározzák a robot céljait és azt, hogy mi számít sikernek – ez a gyakorlat egyrészt időigényes, másrészt nyílt végű a valós környezet számára. Ezenkívül, bár a robot túlélte a csapat itt végzett kísérleteit, a fejlettebb készségek továbbképzése túl soknak bizonyulhat ahhoz, hogy a jövőbeli robotok sérülés nélkül életben maradjanak. A kutatók szerint gyümölcsöző lehet a szimulátoros képzés és a gyors valós tanulás kombinálása.
Ennek ellenére az eredmények újabb lépést tesznek az AI-ban a robotikában. A Dreamer megerősíti azt az álláspontot, hogy „a megerősítő tanulás a robotvezérlés sarokköve lesz” – mondta Jonathan Hurst, az Oregoni Állami Egyetem robotika professzora. mondta MIT Technology Review.