آیا تا به حال دیده اید که یک بچه غزال راه رفتن را یاد بگیرد؟ یک بچه حنایی که اساساً یک بابای پستاندار است که پاهای بلندی دارد، روی پاهایش تکان می خورد، می افتد، می ایستد و دوباره می افتد. در نهایت، آنقدر می ایستد که پاهای خلال دندان مانند خود را در یک سری از سقوط های نزدیک... هه، پله ها تکان دهد. به طرز شگفت انگیزی، چند دقیقه بعد از این نمایشگر دوست داشتنی، حنایی مانند یک حرفه ای قدیمی به اطراف می پرد.
خوب، اکنون نسخه ربات این صحنه کلاسیک سرنگتی را داریم.
حنایی در این مورد یک سگ رباتیک در دانشگاه کالیفرنیا، برکلی است. و همچنین به طور شگفتآوری سریع یاد میگیرد (نسبت به بقیه رباتها). این ربات همچنین خاص است زیرا بر خلاف سایر رباتهای درخشانتر که ممکن است آنلاین دیده باشید، از هوش مصنوعی برای آموزش راه رفتن استفاده میکند.
ربات که از پشت شروع میشود و پاها تکان میدهند، یاد میگیرد که در عرض یک ساعت خودش را برگرداند، بایستد و راه برود. ده دقیقه آزار و اذیت دیگر با یک رول مقوا کافی است تا به او بیاموزد که چگونه در برابر فشار دادن توسط نگهبانان خود مقاومت کند و بهبود یابد.
این اولین بار نیست یک ربات از هوش مصنوعی برای یادگیری راه رفتن استفاده کرده است. اما در حالی که روباتهای قبلی این مهارت را با آزمون و خطا در تکرارهای بیشمار در شبیهسازی آموختند، ربات برکلی کاملاً در دنیای واقعی آموخت.
[محتوای جاسازی شده]
در یک مقاله منتشر شد در سرور preprint arXiv، محققان - Danijar Hafner، Alejandro Escontrela و Philipp Wu - میگویند که انتقال الگوریتمهایی که در شبیهسازی آموختهاند به دنیای واقعی ساده نیست. جزییات و تفاوتهای کوچک بین دنیای واقعی و شبیهسازی میتواند رباتهای نوپا را از بین ببرد. از سوی دیگر، آموزش الگوریتمها در دنیای واقعی غیرعملی است: زمان زیادی میبرد و فرسوده میشود.
برای مثال، چهار سال پیش، OpenAI یک دست رباتیک مجهز به هوش مصنوعی را به نمایش گذاشت که میتوانست یک مکعب را دستکاری کند. الگوریتم کنترل، Dactyl، برای انجام این کار نسبتاً ساده، به تجربه 100 ساله در شبیه سازی با 6,144 CPU و 8 GPU Nvidia V100 نیاز داشت. از آن زمان همه چیز پیشرفت کرده است، اما مشکل تا حد زیادی باقی است. الگوریتمهای یادگیری تقویتی خالص برای یادگیری مهارتها به آزمون و خطای زیادی نیاز دارند تا بتوانند در دنیای واقعی آموزش ببینند. به بیان ساده، فرآیند یادگیری باعث شکست محققان خواهد شد و ربات ها قبل از هر گونه پیشرفت معنی دار
تیم برکلی برای حل این مشکل با الگوریتمی به نام Dreamer اقدام کردند. ساختن چیزی که "مدل جهانیدریمر میتواند احتمال دستیابی یک عمل آینده به هدف خود را پیشبینی کند. با تجربه، دقت پیش بینی های آن بهبود می یابد. با فیلتر کردن اقدامات کمتر موفق از قبل، مدل جهانی به ربات اجازه می دهد تا به طور موثرتری بفهمد چه چیزی کار می کند.
محققان می نویسند: «یادگیری مدل های جهان از تجربیات گذشته، ربات ها را قادر می سازد تا نتایج آتی اقدامات بالقوه را تصور کنند و میزان آزمون و خطا را در محیط واقعی که برای یادگیری رفتارهای موفق لازم است، کاهش دهد. با پیشبینی نتایج آینده، مدلهای جهانی فقط با توجه به مقادیر کمی از تعامل در دنیای واقعی، امکان برنامهریزی و یادگیری رفتاری را فراهم میکنند.»
به عبارت دیگر، یک مدل جهانی میتواند معادل سالها زمان آموزش در یک شبیهسازی را به بیش از یک ساعت ناجور در دنیای واقعی کاهش دهد.
این رویکرد ممکن است ارتباط گستردهتری نسبت به سگهای روباتی داشته باشد. این تیم همچنین Dreamer را روی یک بازوی روباتیک و یک ربات چرخدار استفاده کرد. در هر دو مورد، آنها دریافتند که Dreamer به روباتهایشان اجازه میدهد تا مهارتهای مربوطه را بدون نیاز به زمان سیمکارت به طور موثر یاد بگیرند. برنامه های کاربردی آینده بلندپروازانه تر ممکن است شامل شود اتومبیل های خود رانندگی.
البته هنوز چالش هایی وجود دارد که باید به آنها پرداخت. اگرچه یادگیری تقویتی برخی از کدنویسی دستی پیچیده پشت پیشرفته ترین ربات های امروزی را خودکار می کند، اما همچنان نیازمند مهندسان است تا اهداف یک ربات و آنچه که موفقیت را تشکیل می دهد را تعریف کنند - تمرینی که برای محیط های واقعی هم زمان بر و هم باز است. همچنین، اگرچه این ربات از آزمایشهای تیم در اینجا جان سالم به در برد، اما آموزش طولانیتر در مورد مهارتهای پیشرفتهتر ممکن است برای رباتهای آینده بسیار زیاد باشد که بدون آسیب زنده بمانند. محققان می گویند ممکن است ترکیب آموزش شبیه ساز با یادگیری سریع در دنیای واقعی مثمر ثمر باشد.
با این حال، نتایج یک قدم دیگر هوش مصنوعی را در رباتیک پیش میبرد. جاناتان هرست، استاد رباتیک در دانشگاه ایالتی اورگان، دریمر این ادعا را تقویت می کند که "یادگیری تقویتی ابزاری اساسی در آینده کنترل ربات خواهد بود." گفته شده فناوری MIT را نقد کنید.
تصویر های اعتباری: دانیجار هافنر / یوتیوب