Ez a DeepMind AI gyorsan elsajátít új készségeket azáltal, hogy csak embereket figyel

Ez a DeepMind AI gyorsan elsajátít új készségeket azáltal, hogy csak embereket figyel

This DeepMind AI Rapidly Learns New Skills Just by Watching Humans PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Az embereket utánzó algoritmusok tanításához általában több száz vagy több ezer példa szükséges. A Google DeepMind új mesterséges intelligencia azonban új készségeket gyűjthet az emberi demonstrálóktól menet közben.

Az emberiség egyik legnagyobb trükkje az, hogy képesek vagyunk gyorsan és hatékonyan tudást szerezni egymástól. Ez a fajta szociális tanulás, amelyet gyakran kulturális átörökítésnek is neveznek, lehetővé teszi, hogy megmutassuk egy kollégánknak, hogyan kell használni egy új eszközt, vagy megtaníthatjuk gyermekeinket mondókákra.

Nem meglepő, hogy a kutatók megpróbálták megismételni a folyamatot gépekben. Az imitációs tanulás, amelynek során az AI figyeli, hogy egy ember végrehajt egy feladatot, majd megpróbálja utánozni a viselkedését, régóta népszerű megközelítés a robotok képzésében. De még a mai legfejlettebb mély tanulási algoritmusoknak is sok példát kell látniuk, mielőtt sikeresen lemásolhatnák oktatóikat.

Amikor az emberek utánzás útján tanulnak, gyakran már néhány demonstráció után új feladatokat tudnak felvenni. A Google DeepMind kutatói most egy lépést tettek a mesterséges intelligencia gyors társadalmi tanulása felé olyan ügynökök segítségével, amelyek megtanulnak valós időben navigálni a virtuális világban az emberektől.

"Ügynökeinknek sikerül valós időben utánozni az embert újszerű kontextusokban anélkül, hogy bármilyen előre gyűjtött emberi adatot felhasználnának" - írják a kutatók papír be Nature Communications. "Meglepően egyszerű összetevőket azonosítunk, amelyek elegendőek a kulturális közvetítéshez."

A kutatók egy speciálisan tervezett GoalCycle3D szimulátorban képezték ki ügynökeiket. A szimulátor egy algoritmus segítségével szinte végtelen számú különböző környezetet generál a szimuláció működésére vonatkozó szabályok alapján, és annak milyen szempontjai változhatnak.

Minden környezetben kis foltszerű AI szerek egyenetlen terepen és különféle akadályokon kell navigálnia, hogy meghatározott sorrendben színes gömbök sorozatán haladjon át. A terep egyenetlensége, az akadályok sűrűsége és a gömbök konfigurációja környezetenként változó.

Az ügynökök képzettek a navigációra megerősítő tanulás. Jutalmat kapnak, ha a megfelelő sorrendben haladnak át a gömbökön, és ezt a jelet használják fel teljesítményük javítására számos próba során. De emellett a környezetekben egy szakértő ügynök is található – amelyet vagy keményen kódolnak, vagy egy ember irányít –, aki már ismeri a helyes útvonalat a pályán keresztül.

Sok edzés során az AI-ügynökök nemcsak a környezet működésének alapjait tanulják meg, hanem azt is, hogy az egyes problémák megoldásának leggyorsabb módja a szakértő utánzása. Annak biztosítására, hogy az ügynökök megtanulják utánozni a tanfolyamokat, ahelyett, hogy csak memorizálták volna a kurzusokat, a csapat egy adott környezetben betanította őket, majd egy másikon tesztelte őket. Lényeges, hogy az edzés után a csapat megmutatta, hogy ügynökeik képesek utánozni egy szakértőt, és a szakértő nélkül is követni tudják az útvonalat.

Ehhez néhány módosításra volt szükség a standard megerősítéses tanulási megközelítésekhez.

A kutatók az algoritmust a szakértőre összpontosították azáltal, hogy megjósolták a másik ügynök helyét. Adtak hozzá memóriamodult is. A képzés során a szakértő be- és kilép a környezetből, és arra kényszerítette az ügynököt, hogy memorizálja a tetteit, amikor már nem volt jelen. A mesterséges intelligencia a környezetek széles körére is oktatott, ami biztosította a lehetséges feladatok széles skáláját.

It might be difficult to translate the approach to more practical domains though. A key limitation is that when the researchers tested if the AI could learn from human demonstrations, the expert agent was controlled by one person during all training runs. That makes it hard to know whether the agents could learn from a variety of people.

Ami még sürgetőbb, az edzési környezet véletlenszerű megváltoztatásának képességét nehéz lenne újrateremteni a való világban. A mögöttes feladat pedig egyszerű volt, nem igényelt finommotoros vezérlést, és erősen ellenőrzött virtuális környezetekben történt.

Ennek ellenére üdvözlendő a mesterséges intelligencia terén a társadalmi tanulás előrehaladása. Ha intelligens gépekkel rendelkező világban akarunk élni, kulcsfontosságú lesz, hogy hatékony és intuitív módon megosszuk velük tapasztalatainkat és szakértelmünket.

Kép: Juliana és Mariana Amorim / Unsplash

Időbélyeg:

Még több Singularity Hub