Otak DeepMind yang Mirip ChatGPT untuk Robot Memungkinkan Mereka Belajar dari Internet

Otak DeepMind yang Mirip ChatGPT untuk Robot Memungkinkan Mereka Belajar dari Internet

Sejak ChatGPT meledak ke kancah teknologi pada November tahun lalu, ChatGPT telah membantu orang menulis semua jenis materi, menghasilkan kode, dan menemukan informasi. Itu dan model bahasa besar lainnya (LLM) telah memfasilitasi tugas mulai dari panggilan layanan pelanggan hingga menerima pesanan makanan cepat saji. Mengingat betapa bermanfaatnya LLM bagi manusia dalam waktu singkat, bagaimana ChatGPT untuk robot memengaruhi kemampuan mereka untuk belajar dan melakukan hal-hal baru? Para peneliti di Google DeepMind memutuskan untuk mencari tahu dan menerbitkan temuan mereka di a posting blog dan kertas dirilis minggu lalu.

Mereka menyebut sistem mereka RT-2. Ini kependekan dari robotics transformer 2, dan merupakan penerus dari transformator robotika 1, yang dirilis perusahaan pada akhir tahun lalu. RT-1 didasarkan pada program bahasa dan visi kecil dan dilatih khusus untuk melakukan banyak tugas. Perangkat lunak ini digunakan dalam Alphabet X Robot Sehari-hari, memungkinkan mereka melakukan lebih dari 700 tugas berbeda dengan tingkat keberhasilan 97 persen. Tetapi ketika diminta untuk melakukan tugas baru yang tidak pernah mereka latih, robot yang menggunakan RT-1 hanya berhasil 32 persen.

RT-2 hampir menggandakan tingkat ini, berhasil melakukan tugas baru 62 persen dari waktu yang diminta. Para peneliti menyebut RT-2 sebagai model vision-language-action (VLA). Ini menggunakan teks dan gambar yang dilihatnya secara online untuk mempelajari keterampilan baru. Itu tidak sesederhana kedengarannya; itu membutuhkan perangkat lunak untuk terlebih dahulu "memahami" sebuah konsep, kemudian menerapkan pemahaman itu ke perintah atau serangkaian instruksi, kemudian melakukan tindakan yang memenuhi instruksi tersebut.

Salah satu contoh yang penulis berikan adalah membuang sampah. Pada model sebelumnya, perangkat lunak robot harus dilatih terlebih dahulu untuk mengidentifikasi sampah. Misalnya, jika ada pisang yang sudah dikupas di atas meja dengan kulitnya di sebelahnya, bot akan diperlihatkan bahwa kulitnya adalah sampah sedangkan pisang tidak. Kemudian akan diajarkan cara mengambil kulitnya, memindahkannya ke tempat sampah, dan menyimpannya di sana.

RT-2 bekerja sedikit berbeda. Karena model ini telah melatih banyak informasi dan data dari internet, model tersebut memiliki pemahaman umum tentang apa itu sampah, dan meskipun tidak dilatih untuk membuang sampah, model ini dapat menggabungkan langkah-langkah untuk menyelesaikan tugas ini.

LLM yang digunakan peneliti untuk melatih RT-2 adalah PaLI-X (model visi dan bahasa dengan 55 miliar parameter), dan Palm-E (apa yang disebut Google sebagai model bahasa multimodal yang diwujudkan, dikembangkan khusus untuk robot, dengan 12 miliar parameter). โ€œParameterโ€ mengacu pada atribut yang ditentukan oleh model pembelajaran mesin berdasarkan data pelatihannya. Dalam kasus LLM, mereka memodelkan hubungan antara kata-kata dalam sebuah kalimat dan menimbang seberapa besar kemungkinan kata tertentu akan didahului atau diikuti oleh kata lain.

Dengan menemukan hubungan dan pola antara kata-kata dalam kumpulan data raksasa, model belajar dari kesimpulan mereka sendiri. Mereka akhirnya dapat mengetahui bagaimana konsep yang berbeda berhubungan satu sama lain dan membedakan konteks. Dalam kasus RT-2, itu menerjemahkan pengetahuan itu menjadi instruksi umum untuk tindakan robotik.

Tindakan tersebut direpresentasikan untuk robot sebagai token, yang biasanya digunakan untuk merepresentasikan teks bahasa alami dalam bentuk fragmen kata. Dalam hal ini, token adalah bagian dari suatu tindakan, dan perangkat lunak merangkai beberapa token bersama-sama untuk melakukan suatu tindakan. Struktur ini juga memungkinkan perangkat lunak untuk melakukan penalaran berantai, yang berarti dapat menjawab pertanyaan atau petunjuk yang memerlukan beberapa tingkat penalaran.

Contoh yang diberikan tim termasuk memilih objek untuk digunakan sebagai palu saat palu tidak tersedia (robot memilih batu) dan memilih minuman terbaik untuk orang yang lelah (robot memilih minuman energi).

Otak Mirip ChatGPT DeepMind untuk Robot Memungkinkan Mereka Belajar dari Internet Kecerdasan Data PlatoBlockchain. Pencarian Vertikal. Ai.
Kredit Gambar: Google DeepMind

โ€œRT-2 menunjukkan peningkatan kemampuan generalisasi dan pemahaman semantik dan visual di luar data robotik yang terpapar,โ€ tulis para peneliti di Google posting blog. โ€œIni termasuk menafsirkan perintah baru dan menanggapi perintah pengguna dengan melakukan penalaran dasar, seperti penalaran tentang kategori objek atau deskripsi tingkat tinggi.โ€

Impian robot serba guna yang dapat membantu manusia dengan apa pun yang mungkin munculโ€”baik di rumah, lingkungan komersial, atau lingkungan industriโ€”tidak akan dapat dicapai sampai robot dapat belajar saat dalam perjalanan. Apa yang tampak seperti naluri paling dasar bagi kami adalah, bagi robot, kombinasi kompleks dari memahami konteks, mampu menalar melaluinya, dan mengambil tindakan untuk memecahkan masalah yang tidak diperkirakan akan muncul. Memprogram mereka untuk bereaksi dengan tepat terhadap berbagai skenario yang tidak direncanakan tidak mungkin dilakukan, jadi mereka harus dapat menggeneralisasi dan belajar dari pengalaman, seperti halnya manusia.

RT-2 adalah langkah ke arah ini. Namun, para peneliti mengakui bahwa meskipun RT-2 dapat menggeneralisasi konsep semantik dan visual, RT-3 belum dapat mempelajari tindakan baru dengan sendirinya. Sebaliknya, itu menerapkan tindakan yang sudah diketahui ke skenario baru. Mungkin RT-4 atau XNUMX akan dapat membawa keterampilan ini ke level selanjutnya. Sementara itu, saat tim menyimpulkan mereka posting blog, โ€œSementara masih banyak pekerjaan yang harus dilakukan untuk mengaktifkan robot yang membantu di lingkungan yang berpusat pada manusia, RT-2 menunjukkan kepada kita masa depan yang menarik untuk robotika hanya dalam genggaman.โ€

Gambar Kredit: Google DeepMind

Stempel Waktu:

Lebih dari Hub Singularity