DeepMind's ChatGPT-like Brain for Robots به آنها اجازه می دهد از اینترنت بیاموزند

DeepMind's ChatGPT-like Brain for Robots به آنها اجازه می دهد از اینترنت بیاموزند

از زمانی که ChatGPT در نوامبر سال گذشته در صحنه فناوری منفجر شد، به مردم کمک می کند تا انواع مطالب را بنویسند، کد تولید کنند و اطلاعات پیدا کنند. این و دیگر مدل‌های زبان بزرگ (LLM) وظایفی را از برقراری تماس‌های خدمات مشتری تا گرفتن سفارش‌های فست فود تسهیل کرده‌اند. با توجه به اینکه LLM ها در مدت زمان کوتاهی که وجود داشته اند چقدر برای انسان مفید بوده است، ChatGPT برای روبات ها چگونه می تواند بر توانایی آنها در یادگیری و انجام کارهای جدید تأثیر بگذارد؟ محققان در Google DeepMind تصمیم گرفتند به این موضوع پی ببرند و یافته‌های خود را در a پست های وبلاگ و کاغذ هفته گذشته منتشر شد.

آنها سیستم خود را RT-2 می نامند. این مخفف ترانسفورماتور رباتیک 2 است و جانشین آن است ترانسفورماتور رباتیک 1، که این شرکت در پایان سال گذشته منتشر کرد. RT-1 بر اساس یک برنامه زبان و بینایی کوچک بود و به طور خاص برای انجام بسیاری از وظایف آموزش دیده بود. این نرم افزار در Alphabet X مورد استفاده قرار گرفت ربات های روزمره، آنها را قادر می سازد تا بیش از 700 کار مختلف را با نرخ موفقیت 97 درصد انجام دهند. اما وقتی از آنها خواسته شد تا کارهای جدیدی را انجام دهند که برای آنها آموزش ندیده بودند، روبات هایی که از RT-1 استفاده می کردند تنها در 32 درصد مواقع موفق بودند.

RT-2 تقریباً این میزان را دو برابر می کند و در 62 درصد مواقعی که از آن خواسته می شود وظایف جدید را با موفقیت انجام می دهد. محققان RT-2 را مدل بینایی-زبان-عمل (VLA) می نامند. از متن و تصاویری که آنلاین می بیند برای یادگیری مهارت های جدید استفاده می کند. این به آن سادگی که به نظر می رسد نیست. این نیاز به نرم افزار دارد که ابتدا یک مفهوم را "درک" کند، سپس آن درک را در یک دستور یا مجموعه ای از دستورالعمل ها اعمال کند، سپس اقداماتی را انجام دهد که آن دستورالعمل ها را برآورده کند.

یکی از مثال‌هایی که نویسندگان مقاله آورده‌اند، دفع زباله‌ها است. در مدل‌های قبلی، ابتدا باید نرم‌افزار ربات برای شناسایی زباله‌ها آموزش داده شود. به عنوان مثال، اگر یک موز پوست کنده روی میز با پوست کنار آن باشد، به ربات نشان داده می شود که پوست آن زباله است در حالی که موز اینطور نیست. سپس نحوه برداشتن پوست، انتقال آن به سطل زباله و گذاشتن آن در آنجا آموزش داده می شود.

اگرچه RT-2 کمی متفاوت عمل می کند. از آنجایی که مدل بر روی بارهای اطلاعات و داده‌های اینترنت آموزش دیده است، درک کلی از چیستی زباله دارد، و اگرچه برای دور ریختن زباله‌ها آموزش ندیده است، می‌تواند مراحل را برای تکمیل این کار کنار هم بگذارد.

LLMهایی که محققان برای آموزش RT-2 استفاده کردند، هستند PaLI-X (یک مدل بینایی و زبان با 55 میلیارد پارامتر)، و PalM-E (چیزی که گوگل آن را مدل زبان چندوجهی تجسم یافته می نامد که به طور خاص برای روبات ها با 12 میلیارد پارامتر توسعه یافته است). "پارامتر" به ویژگی ای اشاره دارد که یک مدل یادگیری ماشینی بر اساس داده های آموزشی خود تعریف می کند. در مورد LLM ها، آنها روابط بین کلمات را در یک جمله مدل می کنند و میزان احتمال اینکه یک کلمه معین قبل یا بعد از یک کلمه دیگر قرار گیرد چقدر است.

از طریق یافتن روابط و الگوهای بین کلمات در یک مجموعه داده غول پیکر، مدل ها از استنباط های خود یاد می گیرند. آنها در نهایت می توانند دریابند که مفاهیم مختلف چگونه با یکدیگر ارتباط دارند و زمینه را تشخیص دهند. در مورد RT-2، آن دانش را به دستورالعمل های تعمیم یافته برای اقدامات روباتیک ترجمه می کند.

این اقدامات برای ربات به عنوان نشانه‌هایی نشان داده می‌شوند که معمولاً برای نمایش متن زبان طبیعی در قالب قطعات کلمه استفاده می‌شوند. در این حالت، توکن‌ها بخش‌هایی از یک عمل هستند و نرم‌افزار چندین توکن را برای انجام یک عمل به هم متصل می‌کند. این ساختار همچنین نرم‌افزار را قادر می‌سازد تا استدلال زنجیره‌ای از فکر را انجام دهد، به این معنی که می‌تواند به سوالات یا درخواست‌هایی که نیاز به درجاتی از استدلال دارند پاسخ دهد.

نمونه‌هایی که این تیم ارائه می‌کند شامل انتخاب یک شی برای استفاده به عنوان چکش در زمانی که چکش در دسترس نیست (روبات سنگی را انتخاب می‌کند) و انتخاب بهترین نوشیدنی برای یک فرد خسته (روبات یک نوشیدنی انرژی‌زا انتخاب می‌کند).

مغز شبیه به ChatGPT DeepMind برای ربات ها به آنها امکان می دهد از هوش داده های PlatoBlockchain اینترنت بیاموزند. جستجوی عمودی Ai.
اعتبار تصویر: Google DeepMind

محققان در گوگل نوشتند: "RT-2 قابلیت های تعمیم بهبود یافته و درک معنایی و بصری را فراتر از داده های روباتیکی که در معرض آنها قرار گرفته است نشان می دهد." پست های وبلاگ. "این شامل تفسیر دستورات جدید و پاسخ به دستورات کاربر با انجام استدلال ابتدایی، مانند استدلال در مورد دسته بندی اشیا یا توضیحات سطح بالا است."

رویای ربات های همه منظوره تا زمانی که روبات‌ها نتوانند در حال حرکت یاد بگیرند، می‌توانند به انسان‌ها در هر کاری کمک کنند - چه در خانه، یک محیط تجاری یا یک محیط صنعتی. چیزی که برای ربات ها اساسی ترین غریزه به نظر می رسد، ترکیب پیچیده ای از درک زمینه، توانایی استدلال از طریق آن و انجام اقداماتی برای حل مشکلاتی است که پیش بینی نشده بود ظاهر شوند. برنامه ریزی آنها برای واکنش مناسب به انواع سناریوهای برنامه ریزی نشده غیرممکن است، بنابراین آنها باید بتوانند مانند انسان ها، تعمیم دهند و از تجربه بیاموزند.

RT-2 گامی در این راستا است. با این حال، محققان اذعان دارند که در حالی که RT-2 می تواند مفاهیم معنایی و بصری را تعمیم دهد، اما هنوز قادر به یادگیری اقدامات جدید به تنهایی نیست. در عوض، اقداماتی را که از قبل می داند در سناریوهای جدید اعمال می کند. شاید RT-3 یا 4 بتواند این مهارت ها را به سطح بعدی برساند. در این بین، همانطور که تیم در خود نتیجه می گیرد پست های وبلاگ"در حالی که هنوز مقدار زیادی کار برای فعال کردن ربات های مفید در محیط های انسان محور وجود دارد، RT-2 آینده هیجان انگیزی را برای رباتیک به ما نشان می دهد."

تصویر های اعتباری: Google DeepMind

تمبر زمان:

بیشتر از تکینگی هاب