از زمانی که ChatGPT در نوامبر سال گذشته در صحنه فناوری منفجر شد، به مردم کمک می کند تا انواع مطالب را بنویسند، کد تولید کنند و اطلاعات پیدا کنند. این و دیگر مدلهای زبان بزرگ (LLM) وظایفی را از برقراری تماسهای خدمات مشتری تا گرفتن سفارشهای فست فود تسهیل کردهاند. با توجه به اینکه LLM ها در مدت زمان کوتاهی که وجود داشته اند چقدر برای انسان مفید بوده است، ChatGPT برای روبات ها چگونه می تواند بر توانایی آنها در یادگیری و انجام کارهای جدید تأثیر بگذارد؟ محققان در Google DeepMind تصمیم گرفتند به این موضوع پی ببرند و یافتههای خود را در a پست های وبلاگ و کاغذ هفته گذشته منتشر شد.
آنها سیستم خود را RT-2 می نامند. این مخفف ترانسفورماتور رباتیک 2 است و جانشین آن است ترانسفورماتور رباتیک 1، که این شرکت در پایان سال گذشته منتشر کرد. RT-1 بر اساس یک برنامه زبان و بینایی کوچک بود و به طور خاص برای انجام بسیاری از وظایف آموزش دیده بود. این نرم افزار در Alphabet X مورد استفاده قرار گرفت ربات های روزمره، آنها را قادر می سازد تا بیش از 700 کار مختلف را با نرخ موفقیت 97 درصد انجام دهند. اما وقتی از آنها خواسته شد تا کارهای جدیدی را انجام دهند که برای آنها آموزش ندیده بودند، روبات هایی که از RT-1 استفاده می کردند تنها در 32 درصد مواقع موفق بودند.
RT-2 تقریباً این میزان را دو برابر می کند و در 62 درصد مواقعی که از آن خواسته می شود وظایف جدید را با موفقیت انجام می دهد. محققان RT-2 را مدل بینایی-زبان-عمل (VLA) می نامند. از متن و تصاویری که آنلاین می بیند برای یادگیری مهارت های جدید استفاده می کند. این به آن سادگی که به نظر می رسد نیست. این نیاز به نرم افزار دارد که ابتدا یک مفهوم را "درک" کند، سپس آن درک را در یک دستور یا مجموعه ای از دستورالعمل ها اعمال کند، سپس اقداماتی را انجام دهد که آن دستورالعمل ها را برآورده کند.
یکی از مثالهایی که نویسندگان مقاله آوردهاند، دفع زبالهها است. در مدلهای قبلی، ابتدا باید نرمافزار ربات برای شناسایی زبالهها آموزش داده شود. به عنوان مثال، اگر یک موز پوست کنده روی میز با پوست کنار آن باشد، به ربات نشان داده می شود که پوست آن زباله است در حالی که موز اینطور نیست. سپس نحوه برداشتن پوست، انتقال آن به سطل زباله و گذاشتن آن در آنجا آموزش داده می شود.
اگرچه RT-2 کمی متفاوت عمل می کند. از آنجایی که مدل بر روی بارهای اطلاعات و دادههای اینترنت آموزش دیده است، درک کلی از چیستی زباله دارد، و اگرچه برای دور ریختن زبالهها آموزش ندیده است، میتواند مراحل را برای تکمیل این کار کنار هم بگذارد.
LLMهایی که محققان برای آموزش RT-2 استفاده کردند، هستند PaLI-X (یک مدل بینایی و زبان با 55 میلیارد پارامتر)، و PalM-E (چیزی که گوگل آن را مدل زبان چندوجهی تجسم یافته می نامد که به طور خاص برای روبات ها با 12 میلیارد پارامتر توسعه یافته است). "پارامتر" به ویژگی ای اشاره دارد که یک مدل یادگیری ماشینی بر اساس داده های آموزشی خود تعریف می کند. در مورد LLM ها، آنها روابط بین کلمات را در یک جمله مدل می کنند و میزان احتمال اینکه یک کلمه معین قبل یا بعد از یک کلمه دیگر قرار گیرد چقدر است.
از طریق یافتن روابط و الگوهای بین کلمات در یک مجموعه داده غول پیکر، مدل ها از استنباط های خود یاد می گیرند. آنها در نهایت می توانند دریابند که مفاهیم مختلف چگونه با یکدیگر ارتباط دارند و زمینه را تشخیص دهند. در مورد RT-2، آن دانش را به دستورالعمل های تعمیم یافته برای اقدامات روباتیک ترجمه می کند.
این اقدامات برای ربات به عنوان نشانههایی نشان داده میشوند که معمولاً برای نمایش متن زبان طبیعی در قالب قطعات کلمه استفاده میشوند. در این حالت، توکنها بخشهایی از یک عمل هستند و نرمافزار چندین توکن را برای انجام یک عمل به هم متصل میکند. این ساختار همچنین نرمافزار را قادر میسازد تا استدلال زنجیرهای از فکر را انجام دهد، به این معنی که میتواند به سوالات یا درخواستهایی که نیاز به درجاتی از استدلال دارند پاسخ دهد.
نمونههایی که این تیم ارائه میکند شامل انتخاب یک شی برای استفاده به عنوان چکش در زمانی که چکش در دسترس نیست (روبات سنگی را انتخاب میکند) و انتخاب بهترین نوشیدنی برای یک فرد خسته (روبات یک نوشیدنی انرژیزا انتخاب میکند).
محققان در گوگل نوشتند: "RT-2 قابلیت های تعمیم بهبود یافته و درک معنایی و بصری را فراتر از داده های روباتیکی که در معرض آنها قرار گرفته است نشان می دهد." پست های وبلاگ. "این شامل تفسیر دستورات جدید و پاسخ به دستورات کاربر با انجام استدلال ابتدایی، مانند استدلال در مورد دسته بندی اشیا یا توضیحات سطح بالا است."
رویای ربات های همه منظوره تا زمانی که روباتها نتوانند در حال حرکت یاد بگیرند، میتوانند به انسانها در هر کاری کمک کنند - چه در خانه، یک محیط تجاری یا یک محیط صنعتی. چیزی که برای ربات ها اساسی ترین غریزه به نظر می رسد، ترکیب پیچیده ای از درک زمینه، توانایی استدلال از طریق آن و انجام اقداماتی برای حل مشکلاتی است که پیش بینی نشده بود ظاهر شوند. برنامه ریزی آنها برای واکنش مناسب به انواع سناریوهای برنامه ریزی نشده غیرممکن است، بنابراین آنها باید بتوانند مانند انسان ها، تعمیم دهند و از تجربه بیاموزند.
RT-2 گامی در این راستا است. با این حال، محققان اذعان دارند که در حالی که RT-2 می تواند مفاهیم معنایی و بصری را تعمیم دهد، اما هنوز قادر به یادگیری اقدامات جدید به تنهایی نیست. در عوض، اقداماتی را که از قبل می داند در سناریوهای جدید اعمال می کند. شاید RT-3 یا 4 بتواند این مهارت ها را به سطح بعدی برساند. در این بین، همانطور که تیم در خود نتیجه می گیرد پست های وبلاگ"در حالی که هنوز مقدار زیادی کار برای فعال کردن ربات های مفید در محیط های انسان محور وجود دارد، RT-2 آینده هیجان انگیزی را برای رباتیک به ما نشان می دهد."
تصویر های اعتباری: Google DeepMind
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. خودرو / خودروهای الکتریکی، کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- BlockOffsets. نوسازی مالکیت افست زیست محیطی. دسترسی به اینجا.
- منبع: https://singularityhub.com/2023/08/02/deepminds-chatgpt-like-brain-for-robots-lets-them-learn-from-the-internet/
- : دارد
- :است
- :نه
- $UP
- 12
- 32
- 700
- a
- توانایی
- قادر
- درباره ما
- اذعان
- عمل
- اقدامات
- معرفی
- الفبا
- قبلا
- همچنین
- مقدار
- an
- و
- دیگر
- پیش بینی
- درخواست
- به درستی
- هستند
- دور و بر
- AS
- At
- نویسندگان
- در دسترس
- دور
- موز
- مستقر
- اساسی
- BE
- بوده
- بودن
- بهترین
- میان
- خارج از
- بیلیون
- ربات
- مغز
- اما
- by
- صدا
- تماس ها
- CAN
- قابلیت های
- حمل
- مورد
- دسته
- GPT چت
- انتخاب
- رمز
- ترکیب
- بیا
- تجاری
- شرکت
- کامل
- پیچیده
- مفهوم
- مفاهیم
- زمینه
- اعتبار
- مشتری
- خدمات مشتری
- داده ها
- مصمم
- Deepmind
- تعریف می کند
- درجه
- سپرده
- توسعه
- مختلف
- جهت
- do
- انجام شده
- دو برابر
- رویا
- نوشیدن
- هر
- قادر ساختن
- را قادر می سازد
- را قادر می سازد
- پایان
- انرژی
- محیط
- در نهایت
- مثال
- مهیج
- تجربه
- قرار گرفتن در معرض
- تسهیل
- FAST
- شکل
- پیدا کردن
- پیدا کردن
- یافته ها
- نام خانوادگی
- به دنبال
- غذا
- برای
- فرم
- از جانب
- آینده
- سوالات عمومی
- تولید می کنند
- غول
- دادن
- داده
- می دهد
- Go
- گوگل
- فهم
- چکش
- آیا
- کمک
- مفید
- کمک
- در سطح بالا
- صفحه اصلی
- چگونه
- چگونه
- HTML
- HTTPS
- انسان
- شناسایی
- if
- تصاویر
- تأثیر
- غیر ممکن
- بهبود یافته
- in
- شامل
- شامل
- صنعتی
- اطلاعات
- دستورالعمل
- اینترنت
- به
- IT
- ITS
- JPG
- تنها
- دانش
- زبان
- بزرگ
- نام
- پارسال
- یاد گرفتن
- یادگیری
- اجازه می دهد تا
- سطح
- پسندیدن
- احتمالا
- کوچک
- بارهای
- دستگاه
- فراگیری ماشین
- بسیاری
- ماده
- حداکثر عرض
- ممکن است..
- معنی
- در ضمن
- قدرت
- مدل
- مدل
- اکثر
- حرکت
- چندگانه
- طبیعی
- نیاز
- جدید
- بعد
- نه
- نوامبر
- هدف
- of
- on
- آنلاین
- فقط
- به سوی
- or
- سفارشات
- دیگر
- خارج
- روی
- خود
- مقاله
- پارامترهای
- بخش
- الگوهای
- مردم
- در صد
- انجام
- انجام
- شاید
- شخص
- انتخاب کنید
- قطعه
- افلاطون
- هوش داده افلاطون
- PlatoData
- پاپ
- قبلی
- مشکلات
- برنامه
- برنامه نويسي
- منتشر شده
- سوالات
- نرخ
- نسبتا
- واکنش نشان می دهند
- دلیل
- اشاره دارد
- روابط
- منتشر شد
- نشان دادن
- نمایندگی
- نیاز
- نیاز
- محققان
- پاسخ
- پاسخ دادن
- ربات
- رباتیک
- ربات ها
- سنگ
- s
- سناریوها
- صحنه
- به نظر می رسد
- می بیند
- جمله
- سرویس
- تنظیم
- محیط
- کوتاه
- نشان داده شده
- نشان می دهد
- ساده
- پس از
- مهارت ها
- کوچک
- So
- نرم افزار
- حل
- برخی از
- به طور خاص
- گام
- مراحل
- هنوز
- ساختار
- موفقیت
- موفق
- موفقیت
- چنین
- سیستم
- جدول
- گرفتن
- مصرف
- کار
- وظایف
- تدریس کرد
- تیم
- فن آوری
- که
- La
- شان
- آنها
- سپس
- آنجا.
- اینها
- آنها
- اشیاء
- این
- کسانی که
- اگر چه؟
- از طریق
- زمان
- خسته
- به
- با هم
- نشانه
- قطار
- آموزش دیده
- آموزش
- ترانسفورماتور
- عظیم
- درک
- تا
- us
- استفاده کنید
- استفاده
- کاربر
- استفاده
- با استفاده از
- معمولا
- تنوع
- دید
- بود
- هفته
- وزن کن
- بود
- چی
- هر چه
- چه زمانی
- که
- در حین
- اراده
- با
- در داخل
- کلمه
- کلمات
- مهاجرت کاری
- با این نسخهها کار
- خواهد بود
- نوشتن
- نوشت
- X
- سال
- هنوز
- زفیرنت