این هوش مصنوعی DeepMind به سرعت مهارت های جدیدی را فقط با تماشای انسان ها یاد می گیرد

این هوش مصنوعی DeepMind به سرعت مهارت های جدیدی را فقط با تماشای انسان ها یاد می گیرد

این هوش مصنوعی DeepMind به سرعت مهارت های جدیدی را فقط با تماشای هوش داده های پلاتو بلاک چین انسان ها یاد می گیرد. جستجوی عمودی Ai.

آموزش الگوریتم‌هایی برای تقلید از انسان معمولاً به صدها یا هزاران مثال نیاز دارد. اما یک هوش مصنوعی جدید از Google DeepMind می‌تواند مهارت‌های جدیدی را از تظاهرکنندگان انسانی در حال پرواز دریافت کند.

یکی از بزرگترین ترفندهای بشریت توانایی ما در کسب دانش سریع و کارآمد از یکدیگر است. این نوع یادگیری اجتماعی، که اغلب به عنوان انتقال فرهنگی از آن یاد می شود، چیزی است که به ما امکان می دهد به همکار خود نشان دهیم که چگونه از یک ابزار جدید استفاده کند یا قافیه های مهد کودک را به فرزندان خود آموزش دهد.

جای تعجب نیست که محققان سعی کرده اند این فرآیند را در ماشین ها تکرار کنند. یادگیری تقلید، که در آن هوش مصنوعی یک انسان را تماشا می کند که یک کار را انجام می دهد و سپس سعی می کند رفتار آنها را تقلید کند، مدت هاست که یک روش محبوب برای آموزش روبات ها بوده است. اما حتی پیشرفته‌ترین الگوریتم‌های یادگیری عمیق امروزی معمولاً باید نمونه‌های زیادی را ببینند تا بتوانند با موفقیت از مربی‌های خود کپی کنند.

وقتی انسان ها از طریق تقلید یاد می گیرند، اغلب می توانند کارهای جدیدی را پس از چند نمایش انجام دهند. اکنون، محققان Google DeepMind گامی به سوی یادگیری اجتماعی سریع در هوش مصنوعی با عواملی برداشته‌اند که یاد می‌گیرند در زمان واقعی در دنیای مجازی از انسان حرکت کنند.

محققان در مقاله ای می نویسند: «عوامل ما در تقلید بلادرنگ از انسان در زمینه های جدید بدون استفاده از داده های انسانی از پیش جمع آوری شده موفق می شوند. کاغذ در طبیعت ارتباطات. "ما مجموعه‌ای ساده و شگفت‌انگیز از مواد لازم برای ایجاد انتقال فرهنگی را شناسایی می‌کنیم.»

محققان ماموران خود را در یک شبیه ساز طراحی شده خاص به نام GoalCycle3D آموزش دادند. شبیه ساز از یک الگوریتم برای تولید تعداد تقریبا بی پایانی از محیط های مختلف بر اساس قوانینی در مورد نحوه عملکرد شبیه سازی و جنبه های آن استفاده می کند.

در هر محیط، لکه مانند عوامل هوش مصنوعی باید از زمین های ناهموار و موانع مختلف عبور کند تا از یک سری کره های رنگی به ترتیب خاصی عبور کند. ناهمواری زمین، تراکم موانع، و پیکربندی کره‌ها بین محیط‌ها متفاوت است.

ماموران آموزش دیده اند تا با استفاده از آن جهت یابی کنند تقویت یادگیری. آنها برای عبور از کره ها به ترتیب صحیح پاداش دریافت می کنند و از این سیگنال برای بهبود عملکرد خود در بسیاری از آزمایش ها استفاده می کنند. اما علاوه بر این، محیط‌ها همچنین دارای یک عامل خبره هستند - که یا به صورت سخت کد شده یا توسط یک انسان کنترل می‌شود - که از قبل مسیر صحیح را می‌داند.

در بسیاری از دوره‌های آموزشی، عوامل هوش مصنوعی نه تنها اصول اولیه نحوه عملکرد محیط‌ها را یاد می‌گیرند، بلکه سریع‌ترین راه برای حل هر مشکل، تقلید از متخصص است. برای اطمینان از اینکه عوامل به جای به خاطر سپردن دوره‌ها، تقلید را یاد می‌گیرند، تیم آنها را در یک مجموعه از محیط‌ها آموزش داد و سپس آنها را روی دیگری آزمایش کرد. نکته مهم این است که پس از تمرین، تیم نشان داد که عوامل آنها می توانند از یک متخصص تقلید کنند و حتی بدون کارشناس مسیر را ادامه دهند.

این نیاز به چند تغییر در رویکردهای یادگیری تقویتی استاندارد داشت.

محققان با پیش‌بینی موقعیت عامل دیگر، الگوریتم را بر روی متخصص متمرکز کردند. یک ماژول حافظه هم بهش دادند. در طول آموزش، کارشناس وارد و خارج از محیط می‌شد و عامل را مجبور می‌کرد تا اقدامات خود را برای زمانی که دیگر حضور نداشت حفظ کند. هوش مصنوعی همچنین در مجموعه وسیعی از محیط‌ها آموزش دید، که تضمین می‌کرد طیف وسیعی از وظایف ممکن را ببیند.

اگرچه ممکن است ترجمه این رویکرد به حوزه های کاربردی تر دشوار باشد. یک محدودیت کلیدی این است که وقتی محققان آزمایش کردند که آیا هوش مصنوعی می تواند از تظاهرات انسانی بیاموزد یا خیر، عامل متخصص در طول تمام دوره های آموزشی توسط یک نفر کنترل می شد. این امر تشخیص اینکه آیا ماموران می توانند از افراد مختلف بیاموزند یا خیر، دشوار می کند.

مهمتر از آن، توانایی تغییر تصادفی محیط تمرین در دنیای واقعی دشوار خواهد بود. و کار اساسی ساده بود، بدون نیاز به کنترل موتور خوب و در محیط های مجازی بسیار کنترل شده رخ می داد.

با این حال، پیشرفت یادگیری اجتماعی در هوش مصنوعی مورد استقبال قرار می گیرد. اگر می‌خواهیم در دنیایی با ماشین‌های هوشمند زندگی کنیم، یافتن راه‌های کارآمد و شهودی برای به اشتراک گذاشتن تجربه و تخصص خود با آن‌ها بسیار مهم خواهد بود.

تصویر های اعتباری: جولیانا و ماریانا آموریم / می Unsplash

تمبر زمان:

بیشتر از تکینگی هاب