Rozmowa z robotami w czasie rzeczywistym

Opublikowane ponownie przez Plato

Obserwuje: 0

Opublikowane przez: Corey Lynch, naukowiec i Ayzaan Wahid, inżynier ds. badań, robotyka w Google

Rozmowa z robotami w czasie rzeczywistym PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Wielka wizja uczenia się robotów, sięgająca wstecz Eksperymenty SHRDLU pod koniec lat 1960. XX wieku, to pomocne roboty, które zamieszkują ludzkie przestrzenie i wykonują różnorodne polecenia języka naturalnego. W ciągu ostatnich kilku lat nastąpił znaczny postęp w stosowaniu uczenia maszynowego (ML). następująca instrukcja, obie in symulacja oraz w rzeczywistych systemach. Ostatni Palm-SayCan prace stworzyły roboty, które wykorzystują modele językowe do planowania zachowań dalekosiężnych i wnioskowania o abstrakcyjnych celach. Kod jako zasady wykazało, że modele językowe generujące kod w połączeniu z wcześniej wyszkolonymi systemami percepcji mogą tworzyć uwarunkowane językowo zasady manipulacji robotem bez strzału. Pomimo tego postępu ważną brakującą właściwością obecnych systemów uczenia się robotów jest „język w, działania na zewnątrz”. w czasie rzeczywistym interakcji z ludźmi.

Idealnie byłoby, gdyby roboty przyszłości reagowały w czasie rzeczywistym na każde istotne zadanie, które użytkownik mógłby opisać w języku naturalnym. Szczególnie w otwartych środowiskach ludzkich może być ważne, aby użytkownicy końcowi dostosowywali zachowanie robota w trakcie jego działania, oferując szybkie poprawki („zatrzymaj się, podnieś nieco rękę”) lub określając ograniczenia („podsuń to powoli w prawo"). Co więcej, język czasu rzeczywistego może ułatwić ludziom i robotom współpracę nad złożonymi zadaniami o długim horyzoncie czasowym, przy czym ludzie iteracyjnie i interaktywnie kierują manipulacją robota, okazjonalnie przekazując informacje zwrotne w języku.

Rozmowa z robotami w czasie rzeczywistym PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Wyzwania związane z językiem otwartego słownictwa. Aby pomyślnie przejść przez zadanie o długim horyzoncie, takie jak „ułóż wszystkie klocki w linii pionowej”, robot musi precyzyjnie reagować na wiele różnych poleceń, w tym drobne zachowania korygujące, takie jak „przesuń nieco czerwone kółko w prawo”.

Jednak zmuszanie robotów do naśladowania otwarte słownictwo język stanowi poważne wyzwanie z perspektywy ML. Jest to środowisko z dużą liczbą zadań, w tym wieloma drobnymi działaniami korygującymi. Istniejący multitask nauka konfiguracje wykorzystują wyselekcjonowane nauka naśladowania zestawy danych lub złożone funkcje uczenia się przez wzmacnianie (RL) do kierowania uczeniem się każdego zadania, a ten znaczny wysiłek na zadanie jest trudny do skalowania poza mały, predefiniowany zestaw. Krytyczne otwarte pytanie w kontekście otwartego słownictwa brzmi zatem: w jaki sposób możemy skalować gromadzenie danych robotów, aby obejmowało nie dziesiątki, ale setki tysięcy zachowań w środowisku i jak możemy połączyć wszystkie te zachowania z językiem naturalnym i użytkownik końcowy może faktycznie dostarczyć?

In język interaktywny, prezentujemy dużą skalę ramy uczenia się naśladowania do tworzenia działających w czasie rzeczywistym robotów z otwartym słownictwem i warunkowaniem językowym. Po przeszkoleniu z naszym podejściem stwierdzamy, że an indywidualna polityka jest zdolna zwracania się nad 87,000 XNUMX unikalnych instrukcji (o rząd wielkości większy niż wcześniejsze prace), z szacowanym średnim wskaźnikiem sukcesu na poziomie 93.5%. Z przyjemnością informujemy również o wydaniu Tabela języków, największy dostępny zestaw danych robotów z adnotacjami językowymi, który, mamy nadzieję, przyczyni się do dalszych badań skoncentrowanych na robotach sterowanych językowo w czasie rzeczywistym.

Prowadzenie robotów za pomocą języka czasu rzeczywistego.

Roboty sterowane językowo w czasie rzeczywistym

Kluczem do naszego podejścia jest skalowalna recepta na tworzenie dużych, zróżnicowanych językowo zestawów demonstracyjnych robotów. W przeciwieństwie do poprzednich konfiguracji, które definiują wszystkie umiejętności z góry, a następnie zbierają wyselekcjonowane demonstracje dla każdej umiejętności, stale zbieramy dane dotyczące wielu robotów bez resetowania scen ani jakiejkolwiek segmentacji umiejętności niskiego poziomu. Wszystkie dane, w tym dane o błędach (np. zrzucanie klocków ze stołu), przechodzą przez a ponowne etykietowanie języka z perspektywy czasu proces do sparowania z tekstem. Tutaj adnotatorzy oglądają długie filmy z robotami, aby zidentyfikować jak najwięcej zachowań, zaznaczając, kiedy każde się zaczęło i zakończyło, oraz używają swobodnego języka naturalnego do opisania każdego segmentu. Co ważne, w przeciwieństwie do wcześniejszych instrukcji następujących po konfiguracjach, wszystkie umiejętności wykorzystywane do szkolenia wynikają z samych danych, a nie są określane z góry przez badaczy.

Nasze podejście do uczenia się i architektura są celowo proste. Nasza polityka dotycząca robotów opiera się na wzajemnej uwadze transformator, mapowanie wideo i tekstu 5 Hz na działania robota 5 Hz, przy użyciu standardowego uczenia nadzorowanego klonowanie behawioralne cel bez dodatkowych strat. W czasie testu nowe polecenia głosowe mogą być wysyłane do polityki (przez zamiana mowy na tekst) w dowolnym momencie do 5 Hz.

Język interaktywny: imitujący system uczenia się do produkcji robotów sterowanych językowo w czasie rzeczywistym.

Wydanie open source: zestaw danych i test porównawczy tabeli językowej

Ten proces adnotacji pozwolił nam zebrać zestaw danych Language-Table, który zawiera ponad 440 180 rzeczywistych i XNUMX XNUMX symulowanych demonstracji robota wykonującego polecenie językowe, wraz z sekwencją działań, które robot wykonał podczas demonstracji. Jest to największy zbiór danych demonstracyjnych robota uwarunkowany językowo, o rząd wielkości. Language-Table jest dostarczany z testem porównawczym symulowanej nauki imitacji, którego używamy do wyboru modelu, który może być wykorzystany do oceny nowych instrukcji zgodnie z architekturą lub podejściem.

Dataset	# Trajektorie (k)	# Unikalny (k)	Działania fizyczne	Real	Dostępny
Demonstracje epizodyczne
BC-Z	25	0.1	✓	✓	✓
PowiedzCan	68	0.5	✓	✓	❌
Teatr	1,097	779	❌	❌	❌
Etykietowanie języka z perspektywy czasu
BLOKI	30	n / a	❌	❌	✓
LangLFP	10	n / a	✓	❌	❌
LOREL	6	1.7	✓	✓	✓
CALVIN	20	0.4	✓	❌	✓
Tabela języków (real + sim)	623 (442+181)	206 (127+79)	✓	✓	✓

Porównujemy tabelę językową z istniejącymi zestawami danych robotów, podkreślając proporcje symulowanych (czerwony) lub rzeczywistych (niebieskich) danych robota, liczbę zebranych trajektorii oraz liczbę zadań możliwych do opisania w unikalnym języku.

Wyuczone zachowania językowe w czasie rzeczywistym

Przykłady instrukcji krótkiego horyzontu, które robot jest w stanie wykonać, wybrane losowo z pełnego zestawu ponad 87,000 XNUMX.

Instrukcja krótkiego horyzontu	sukces
(87,000 XNUMX więcej…)	...
popchnij niebieski trójkąt w lewy górny róg	80.0%
oddziel czerwoną gwiazdę i czerwone kółko	100.0%
przesuń żółte serce trochę w prawo	80.0%
umieść czerwoną gwiazdę nad niebieską kostką	90.0%
skieruj rękę na niebieski trójkąt	100.0%
przesuń grupę bloków nieco w lewo	100.0%
Średnia powyżej 87 tys., CI 95%	93.5% +- 3.42%

95% przedział ufności (CI) w odniesieniu do średniego sukcesu indywidualnej polityki dotyczącej języka interaktywnego ponad 87,000 XNUMX unikalnych instrukcji w języku naturalnym.

Odkryliśmy, że interesujące nowe możliwości pojawiają się, gdy roboty są w stanie śledzić język czasu rzeczywistego. Pokazujemy, że użytkownicy mogą przeprowadzać roboty przez złożone sekwencje o długim horyzoncie, używając wyłącznie języka naturalnego, aby rozwiązywać zadania wymagające wielu minut precyzyjnej, skoordynowanej kontroli (np. bloki w linii pionowej”). Ponieważ robot jest wyszkolony w posługiwaniu się otwartym językiem słownictwa, widzimy, że może reagować na różne zestawy poprawek słownych (np. „przesuń czerwoną gwiazdkę nieco w prawo”), które w przeciwnym razie mogłyby być trudne do wyliczenia z góry.

Przykłady długoterminowych celów osiągniętych dzięki wskazówkom językowym w czasie rzeczywistym.

Wreszcie widzimy, że język czasu rzeczywistego pozwala na nowe tryby zbierania danych przez roboty. Na przykład jeden operator może jednocześnie sterować czterema robotami, używając tylko języka mówionego. Może to potencjalnie zwiększyć skalę gromadzenia danych o robotach w przyszłości bez konieczności poświęcania niepodzielnej uwagi człowieka na każdego robota.

Jeden operator kontroluje wiele robotów jednocześnie za pomocą języka mówionego.

Wnioski

Chociaż język interaktywny jest obecnie ograniczony do blatu stołu ze stałym zestawem obiektów, pokazuje wstępne dowody na to, że imitacja uczenia się na dużą skalę może rzeczywiście tworzyć interaktywne roboty w czasie rzeczywistym, które wykonują dowolne polecenia użytkownika końcowego. Otwieramy źródła Tabela języków, największy w swoim rodzaju zestaw danych demonstracyjnych robotów w świecie rzeczywistym i powiązany z nim symulowany test porównawczy, aby pobudzić postęp w kontroli języka robotów fizycznych w czasie rzeczywistym. Uważamy, że użyteczność tego zestawu danych może nie ograniczać się tylko do sterowania robotami, ale może stanowić interesujący punkt wyjścia do badania przewidywań wideo uwarunkowanych językiem i działaniem, modelowania języka uwarunkowanego wideo robotów lub wielu innych interesujących aktywnych pytań w szerszy kontekst ML. Zobacz nasze papier i GitHub strona, aby dowiedzieć się więcej.

Podziękowania

Chcielibyśmy podziękować wszystkim, którzy wsparli te badania. Obejmuje to teleoperatorów robotów: Alex Luong, Armando Reyes, Elio Prado, Eric Tran, Gavin Gonzalez, Jodexty Therlonge, Joel Magpantay, Rochelle Dela Cruz, Samuel Wan, Sarah Nguyen, Scott Lehrer, Norine Rosales, Tran Pham, Kyle Gajadhar, Reece Mungal i Nikauleene Andrews; wsparcie sprzętowe robotów i koordynacja teleoperacji: Sean Snyder, Spencer Goodrich, Cameron Burns, Jorge Aldaco, Jonathan Vela; operacje na danych i infrastruktura: Muqthar Mohammad, Mitta Kumar, Arnab Bose, Wayne Gramlich; oraz wielu, którzy pomogli w opracowaniu etykiet językowych zbiorów danych. Chcielibyśmy również podziękować Pierre'owi Sermanetowi, Debidatta Dwibedi, Michaelowi Ryoo, Brianowi Ichterowi i Vincentowi Vanhoucke za ich nieocenione rady i wsparcie.

#mailpoet_form_1 .mailpoet_form { }
#mailpoet_form_1 formularz { margines na dole: 0; }
#mailpoet_form_1 .mailpoet_column_with_background {wypełnienie: 0px; }
#mailpoet_form_1 .wp-block-column:first-child, #mailpoet_form_1 .mailpoet_form_column:first-child { dopełnienie: 0 20px; }
#mailpoet_form_1 .mailpoet_form_column:not(:first-child) {margin-left: 0; }
#mailpoet_form_1 h2.mailpoet-heading {margines: 0 0 12px 0; }
#mailpoet_form_1 .mailpoet_paragraph { wysokość wiersza: 20 pikseli; margines dolny: 20px; }
#mailpoet_form_1 .mailpoet_segment_label, #mailpoet_form_1 .mailpoet_text_label, #mailpoet_form_1 .mailpoet_textarea_label, #mailpoet_form_1 .mailpoet_select_label, #mailpoet_form_1 .mailpoet_radio_label, #mailpoet_form_1 .mailpoet_checkbox_label, #mailpoet_form_1 .mailpoet_list_label, #mailpoet_form_1 .mailpoet_date_label { display: block; waga czcionki: normalna; }
#mailpoet_form_1 .mailpoet_text, #mailpoet_form_1 .mailpoet_textarea, #mailpoet_form_1 .mailpoet_select, #mailpoet_form_1 .mailpoet_date_month, #mailpoet_form_1 .mailpoet_date_day, #mailpoet_form_1 .mailpoet_date_year, #mailpoet_form_1 .mailpoet_date { wyświetl: blok; }
#mailpoet_form_1 .mailpoet_text, #mailpoet_form_1 .mailpoet_textarea { szerokość: 200 pikseli; }
#mailpoet_form_1 .mailpoet_checkbox { }
#mailpoet_form_1 .mailpoet_submit { }
#mailpoet_form_1 .mailpoet_divider { }
#mailpoet_form_1 .mailpoet_message { }
#mailpoet_form_1 .mailpoet_form_loading {szerokość: 30 pikseli; wyrównanie tekstu: środek; wysokość linii: normalna; }
#mailpoet_form_1 .mailpoet_form_loading > span { szerokość: 5 pikseli; wysokość: 5 pikseli; kolor tła: #5b5b5b; }#mailpoet_form_1{border-radius: 3px;background: #27282e;color: #ffffff;text-align: left;}#mailpoet_form_1 form.mailpoet_form {dopełnienie: 0px;}#mailpoet_form_1{width: 100%;}#mailpoet_form_1 . mailpoet_message {margines: 0; wypełnienie: 0 20px;}
#mailpoet_form_1 .mailpoet_validate_success {kolor: #00d084}
#mailpoet_form_1 input.parsley-success {kolor: #00d084}
#mailpoet_form_1 select.parsley-success {kolor: #00d084}
#mailpoet_form_1 textarea.parsley-success {kolor: #00d084}

#mailpoet_form_1 .mailpoet_validate_error {kolor: #cf2e2e}
#mailpoet_form_1 input.parsley-error {kolor: #cf2e2e}
#mailpoet_form_1 select.parsley-error {kolor: #cf2e2e}
#mailpoet_form_1 textarea.textarea.pietruszka-błąd {color: #cf2e2e}
#mailpoet_form_1 .parsley-errors-list {kolor: #cf2e2e}
#mailpoet_form_1 .wymagana pietruszka {color: #cf2e2e}
#mailpoet_form_1 .parsley-custom-error-message {kolor: #cf2e2e}
#mailpoet_form_1 .mailpoet_paragraph.last {margin-dolny margines: 0} @media (maks. szerokość: 500 pikseli) {#mailpoet_form_1 {tło: #27282e;}} @media (minimalna szerokość: 500 pikseli) {#mailpoet_form_1 .last .mailpoet_paragraph: ostatnie dziecko {margines dolny: 0}} @media (maksymalna szerokość: 500 pikseli) {#mailpoet_form_1 .mailpoet_form_column:ostatnie dziecko .mailpoet_paragraph:ostatnie dziecko {margines dolny: 0}}

Rozmowa z robotami w czasie rzeczywistym ponownie opublikowana ze źródła http://ai.googleblog.com/2022/12/talking-to-robots-in-real-time.html przez http://feeds.feedburner.com/blogspot/gJZg

tydzień crowdsourcingu

<!–

<!–
->