Sellel robotkoeral on tehisintellekt ja ta on õppinud kõndima vaid tunniga PlatoBlockchaini andmeluure. Vertikaalne otsing. Ai.

Sellel robotkoeral on tehisintellekti aju ja ta õppis ennast kõndima vaid tunniga

pilt

Kas olete kunagi näinud gasellipoega, kes õpib kõndima? Kollakas, kes on põhimõtteliselt pikajalgse imetaja issi, rabeleb püsti, kukub, seisab ja kukub uuesti. Lõpuks seisab see piisavalt kaua, et oma hambaorki meenutavate jalgadega kukkuda... oeh, samme. Hämmastav on see, et mõni minut pärast seda armsat väljapanekut hüppab karvakas nagu vana proff.

Noh, nüüd on meil selle klassikalise Serengeti stseeni robotversioon.

Sel juhul on kollakaskoer California Berkeley ülikooli robotkoer. Ja see on ka üllatavalt kiire õppija (võrreldes ülejäänud roboti tüüpidega). Robot on eriline ka seetõttu, et erinevalt teistest räigematest robotitest, mida võisite võrgus näha, kasutab see tehisintellekti, et õpetada ise kõndima.

Alustades selili, jalad vehkimas, õpib robot tunni jooksul ennast ümber pöörama, püsti tõusma ja kõndima. Veel kümnest minutist papirulliga ahistamisest piisab, et õpetada talle, kuidas käitujate poolt tõukamisele vastu pidada ja sellest taastuda.

See pole esimene kord robot on kasutanud tehisintellekti kõndima õppimiseks. Kuid kui varasemad robotid õppisid seda oskust katse-eksituse meetodil lugematute simulatsioonide iteratsioonide käigus, siis Berkeley robot õppis täielikult reaalses maailmas.

[Varjatud sisu]

Aastal paber avaldatud arXivi eelprintserveris väidavad teadlased – Danijar Hafner, Alejandro Escontrela ja Philipp Wu –, et simulatsiooni käigus õpitud algoritmide ülekandmine pärismaailma ei ole lihtne. Väikesed detailid ja erinevused reaalse maailma ja simulatsiooni vahel võivad äsja tekkivaid roboteid komistada. Teisest küljest on treeningalgoritmid reaalses maailmas ebapraktilised: see võtaks liiga palju aega ja kuluks.

Näiteks neli aastat tagasi näitas OpenAI AI-toega robotkätt, mis suudab kuubikuga manipuleerida. Juhtimisalgoritm Dactyl vajas selle suhteliselt lihtsa ülesande täitmiseks 100 protsessori ja 6,144 Nvidia V8 GPU-ga töötava simulatsiooni kogemust umbes 100 aastat. Sellest ajast alates on asjad edenenud, kuid probleem jääb suures osas alles. Puhtalt tugevdavad õppealgoritmid vajavad liiga palju katse-eksitusi, et omandada oskusi, et neid pärismaailmas treenida. Lihtsamalt öeldes murraks õppeprotsess teadlasi ja enne oluliste edusammude tegemist.

Berkeley meeskond otsustas selle probleemi lahendada Dreamer-nimelise algoritmi abil. Selle ehitamine, mida nimetatakse "maailma mudel"Unistaja saab prognoosida tõenäosust, et tulevane tegevus saavutab oma eesmärgi. Kogemustega paraneb selle prognooside täpsus. Vähem õnnestunud toimingud eelnevalt välja filtreerides võimaldab maailmamudel robotil tõhusamalt aru saada, mis töötab.

"Maailmamudelite õppimine varasemate kogemuste põhjal võimaldab robotitel ette kujutada potentsiaalsete tegevuste tulevasi tulemusi, vähendades eduka käitumise õppimiseks vajalikku katse-eksituse arvu tegelikus keskkonnas," kirjutavad teadlased. "Tulevikutulemusi ennustades võimaldavad maailmamudelid planeerimist ja käitumist õppida, võttes arvesse ainult väikest suhtlust reaalses maailmas."

Teisisõnu võib maailmamudel vähendada simulatsioonis kulunud aastatepikkust treeningaega mitte rohkem kui ebamugavaks tunniks reaalses maailmas.

Sellel lähenemisviisil võib olla suurem tähtsus kui robotkoertel. Meeskond rakendas Dreamerit ka vali-ja-paigutavale robotkäele ja ratastega robotile. Mõlemal juhul leidsid nad, et Dreamer võimaldas nende robotitel asjakohaseid oskusi tõhusalt õppida, ilma et oleks vaja simsi aega. Ambitsioonikamad tulevased rakendused võivad hõlmata ise sõidu autod.

Muidugi on veel väljakutseid, millega tegeleda. Kuigi tugevdusõpe automatiseerib mõningaid keerulisi käsitsi kodeerimisi tänapäeva kõige arenenumate robotite taga, nõuab see siiski inseneridelt roboti eesmärkide määratlemist ja edu saavutamist – see harjutus on nii aeganõudev kui ka reaalses keskkonnas avatud. Lisaks, kuigi robot elas siin meeskonna katsed üle, võib pikem treenimine arenenumate oskuste omandamiseks osutuda liiga suureks, et tulevased robotid saaksid kahjustusteta ellu jääda. Teadlaste sõnul võib olla kasulik kombineerida simulaatorikoolitust kiire reaalmaailma õppimisega.

Sellegipoolest edendavad tulemused tehisintellekti robootikas veel ühe sammu. Dreamer kinnitab väidet, et "tugevdamise õppimine on roboti juhtimise nurgakivi tööriist," ütles Oregoni osariigi ülikooli robootikaprofessor Jonathan Hurst. ütles MIT Technology Review. 

Image Credit: Danijar Hafner / YouTube

Ajatempel:

Veel alates Singulaarsuse keskus