عوامل هوش مصنوعی با «خودهای متعدد» یاد می گیرند که به سرعت در دنیایی در حال تغییر سازگار شوند

بازنشر افلاطون

دنبال: 0

عوامل هوش مصنوعی با «خودهای چندگانه» یاد بگیرند که به سرعت در دنیای در حال تغییر هوش داده پلاتو بلاک چین سازگار شوند. جستجوی عمودی Ai.

ما هر روز با نیازهای مختلفی روبرو هستیم. من گرسنه ام اما خسته هستم. روی مبل بخوابم یا شام درست کنم؟ من در دماهای خطرناک بیش از حد گرم می شوم اما به شدت تشنه هستم. آیا باید آب ولرمی را که زیر نور خورشید گرم می شود بچشم یا سرم را در فریزر بگذارم تا زمانی که توانایی ذهنی ساختن یخ را داشته باشم؟

هنگامی که با دوراهی مواجه می شویم، اغلب غرایز اولیه خود را بدون فکر دنبال می کنیم. اما در زیر سرپوش، چندین شبکه عصبی در حال رقابت برای گرفتن "بهترین" در هر لحظه هستند. روی غذا بخوابید فریزر روی آب ولرم. آنها ممکن است در گذشته تصمیمات وحشتناکی باشند - اما دفعه بعد، ما از اشتباهات گذشته خود درس می گیریم.

سازگاری ما با دنیای همیشه در حال تغییر، ابرقدرتی است که در حال حاضر از اکثر عوامل هوش مصنوعی فرار می کند. حتی پیچیده‌ترین عامل‌های هوش مصنوعی هم از بین می‌روند - یا به زمان محاسباتی غیرقابل دفاعی نیاز دارند - زیرا آنها اهداف متضاد را دستکاری می‌کنند.

برای تیمی به رهبری دکتر جاناتان کوهن در موسسه علوم اعصاب پرینستون، دلیل ساده است: سیستم های یادگیری ماشینی عموماً به عنوان یک موجودیت واحد عمل می کنند و مجبور به ارزیابی، محاسبه و اجرای یک هدف در یک زمان می شوند. اگرچه هوش مصنوعی می‌تواند از اشتباهات خود درس بگیرد، اما وقتی با چندین هدف متضاد به‌طور هم‌زمان به چالش کشیده می‌شود، برای یافتن تعادل مناسب تلاش می‌کند.

پس چرا هوش مصنوعی را از هم جدا نکنیم؟

In یک مطالعه جدید منتشر شده در PNAS، تیم یک صفحه از علوم اعصاب شناختی گرفت و یک عامل هوش مصنوعی مدولار ساخت.

ایده به ظاهر ساده است. به جای یک هوش مصنوعی یکپارچه - یک شبکه واحد که کل "خود" را در بر می گیرد - این تیم یک عامل ماژولار ساخت که هر بخش "انگیزه" و اهداف خاص خود را دارد اما یک "بدن" واحد را فرمان می دهد. مانند یک جامعه دموکراتیک، سیستم هوش مصنوعی در درون خود استدلال می کند که بهترین پاسخ را انتخاب کند، جایی که اقدامی که به احتمال زیاد بزرگترین نتیجه برنده را به همراه دارد، گام بعدی آن را هدایت می کند.

در چندین شبیه سازی، هوش مصنوعی ماژولار از همتای کلاسیک یکپارچه خود بهتر عمل کرد. انطباق پذیری آن به ویژه زمانی درخشید که محققان به طور مصنوعی تعداد اهدافی را که باید به طور همزمان حفظ می کردند افزایش دادند. هوش مصنوعی Lego-sque به سرعت سازگار شد، در حالی که همتای یکپارچه آن در تلاش برای رسیدن به آن بود.

این تیم گفت: «یکی از اساسی ترین سؤالات در مورد نمایندگی این است که چگونه یک فرد نیازهای متضاد را مدیریت می کند. با ساختن یک عامل هوش مصنوعی، این تحقیق فقط بینشی در مورد عوامل یادگیری ماشینی هوشمندتر ارائه نمی دهد. همچنین "راه را برای درک تعارضات روانی ذاتی در روان انسان هموار می کند." نوشت دکتر رابر بوشرا در دانشگاه پرینستون که در کار نبود.

بازی ویدیویی زندگی

چگونه موجودات باهوش می آموزند که نیازهای متضاد را در یک دنیای پیچیده و در حال تغییر متعادل کنند؟

این پرسش فلسفی حوزه‌های متعددی را تحت تأثیر قرار داده است - علوم اعصاب، روان‌شناسی، اقتصاد - که در ماهیت انسان کاوش می‌کنند. ما هنوز پاسخ روشنی نداریم. اما با توجه به اینکه هوش مصنوعی با ورود به دنیای واقعی به طور فزاینده‌ای با چالش‌های مشابهی مواجه می‌شود، زمان آن رسیده است که با این مشکل قدیمی مقابله کنیم.

مطالعه جدید این چالش را در قالب یک RPG ساده (بازی نقش آفرینی) انجام داد. دو شخصیت وجود دارند که در یک دنیای شبکه مانند حرکت می کنند و هر کدام در تلاش برای یافتن منابعی برای زنده ماندن هستند.

اولین شرکت کننده: عامل یکپارچه - که در غیر این صورت به عنوان "خود" شناخته می شود - با استفاده از یادگیری عمیق Q (DQL) آموزش دیده است. این الگوریتم که توسط DeepMind محبوب شده است، به ویژه در تعیین مرحله بهینه بعدی بسته به وضعیت فعلی آن قدرتمند است. مثلاً مثل یک بازی ویدیویی، باید به چپ بروم یا راست؟ کدام مهره شطرنج یا برو و به کجا منتقل شود؟ در اینجا، الگوریتم کل محیط را بررسی می کند در حالی که یک سیگنال پاداش واحد را دنبال می کند - یعنی هدف نهایی آن. به یک معنا، عامل یکپارچه یک مغز یکپارچه است که سعی می کند بهترین نتیجه را پس از پردازش همزمان همه منابع پشت سر هم به حداکثر برساند.

حریف: هوش مصنوعی مدولار. عامل هوش مصنوعی مانند یک هشت پا با اندام های نیمه مستقل به عوامل فرعی تقسیم می شود که هر کدام اهداف و بازخوردهای خاص خود را دارند. برای تبدیل آن به یک مبارزه عادلانه، هر ماژول با DQL نیز آموزش داده شده است. "مغزهای" جداگانه محیط اطراف خود را مشاهده می کنند و یاد می گیرند که بهترین گزینه را انتخاب کنند - اما فقط متناسب با اهداف خود. سپس نتایج پیش بینی شده خلاصه می شوند. سپس راه حل با نتیجه بهینه بالقوه انتخاب می شود و عامل هوش مصنوعی را به سمت انتخاب بعدی هدایت می کند.

و زمین بازی؟

این بازی یک نسخه بسیار ساده از یک بازی بقا است. هر عامل هوش مصنوعی در اطراف یک شبکه دو بعدی پرسه می‌زند که انواع مختلفی از منابع را در برخی مناطق پنهان دارد. هدف این است که چهار آمار عامل را در سطح تعیین شده خود نگه دارید که هر کدام به تدریج در طول زمان کاهش می یابد. هنگامی که چندین آمار سقوط می کنند، این به هوش مصنوعی بستگی دارد که تصمیم بگیرد کدام یک را اولویت بندی کند.

برای گیمرهای ویدیویی، این آزمایش را به عنوان یک نقشه بازی جدید و تلاش برای یافتن منابعی برای افزایش سلامتی، جادو، استقامت و قدرت حمله در نظر بگیرید. برای زندگی روزمره ما، تعادل گرسنگی، دما، خواب و سایر نیازهای اساسی فیزیولوژیکی است.

تیم توضیح داد: «به عنوان مثال، اگر عامل آمار «گرسنگی» پایینی داشت، می‌توانست با انتقال به محل آن منبع، منبع «غذا» را جمع‌آوری کند.

جنگل برای درختان

اولین آزمایش با یک محیط نسبتا ساده شروع شد. مکان برای هر هدف منبع در گوشه میدان بازی ثابت شد. عامل یکپارچه به راحتی چهار آمار خود را پس از 30,000 مرحله تمرین حفظ کرد، هرچند که تا رسیدن به اهداف مورد نظر، یک دوره پرشتاب و کم‌تیراندازی را پشت سر گذاشت. در مقابل، عامل مدولار بسیار سریعتر یاد گرفت. با 5,000 مرحله یادگیری، عامل قبلاً درک "وضعیت جهان" را به دست آورده بود.

به گفته نویسندگان، بخشی از مهارت هوش مصنوعی مدولار ناشی از حس درونی کاوش آزاد است. برخلاف روش‌های قبلی برای سیستم‌های مدولار که تقسیم و تسخیر می‌کنند تا به سمت هدف نهایی حرکت کنند، در اینجا هوش مصنوعی یک رابطه اجتماعی جامع‌تر را نشان می‌دهد – رابطه‌ای که در آن برخی از ماژول‌ها از طریق یک وضعیت دائمی رقابت داخلی ضرر می‌کنند.

از آنجایی که "بدن" عامل هوش مصنوعی تنها توسط ماژول برنده هدایت می شود، بازنده ها باید با تصمیمی که با آن موافق نبودند همراهی کنند و مجبور به ورود به یک واقعیت جدید شوند. سپس آنها باید به سرعت بهترین راه حل را برای مرحله بعدی تطبیق داده و دوباره محاسبه کنند. به عبارت دیگر، ماژول ها اغلب خود را خارج از منطقه راحتی خود می بینند. عشق سختی است، اما نتایج غیرمنتظره آنها را وادار می‌کند تا راه‌حل‌های جدیدی را بیندیشند – گاهی اوقات نتایج بهتری به دست می‌آیند که اگر به تنهایی به مشکل رسیدگی نمی‌کردند، فکر نمی‌کردند.

زک دولبرگ، نویسنده این مطالعه، گفت: به طور کلی، سیستم ماژولار یک "چرخه فضیلت مند با کاوش" را برای بهبود بیشتر اقدامات هوش مصنوعی تشکیل می دهد.

این سازگاری زمانی بیشتر درخشید که تیم هر دو عامل هوش مصنوعی را در محیط های متغیر به چالش کشید. در یک آزمایش، موقعیت‌های هدف منبع به یک مکان شبکه تصادفی در مقیاس‌های زمانی پراکنده منتقل شدند. هوش مصنوعی مدولار به سرعت تغییرات را دریافت و با آنها سازگار شد، در حالی که عامل یکپارچه عملکرد بسیار بدتری داشت.

در آزمایش دیگری، تیم شماره‌گیر را باز کرد و از عوامل هوش مصنوعی خواست که به‌جای چهار عامل اصلی، هشت عامل را به طور همزمان حفظ کنند. این آزمایش با این مشکل مقابله کرد که با افزایش تعداد متغیرها محاسبات از نظر زمان و انرژی مصرفی غیرممکن می‌شوند - که "نفرین ابعاد" نامیده می‌شود.

عامل مدولار به سرعت برای جستجوی منابع برای حفظ اهداف خود سازگار شد. در مقابل، عامل یکپارچه دوباره با مشکل مواجه شد و بازگشت به سطوح مورد نظر برای هر یک از آمارهای خود بسیار طولانی تر شد.

یکی در مقابل بسیاری

رویکرد ماژولار نمونه دیگری از بهره برداری از علوم اعصاب برای توسعه هوش مصنوعی است - در حالی که بینشی در مورد نحوه کار نوگین های ما ارائه می دهد.

مشابه کارهای قبلی، ماژول‌های مدولار نشان می‌دهند که می‌توان یک عامل هوش مصنوعی به‌طور موازی مسائل فرعی جداگانه و آسان‌تری را به روشی نسبتاً غیرمتمرکز از نظر پردازش داده‌ها یاد گرفت. به گفته نویسندگان، افزودن مدلی با سیستم کنترل سلسله مراتبی می تواند هوش مصنوعی را تقویت کند، زیرا هر دو ساختار در جهان طبیعی وجود دارند.

در حال حاضر، هر ماژول برای دستاوردهای خود برنامه‌ریزی می‌شود - مضربی از خود. اما اهداف ما در زندگی اغلب به هم مرتبط هستند. برای مثال، کاهش تشنگی و مبارزه با گرما متقابل نیستند. این تیم بر نیاز به ادغام این متقاطع‌ها – و یادگیری ارثی بودن یا آموخته شدن آن‌ها – در آزمایش‌های آتی تأکید می‌کند.

به دولبرگ، ناشناخته بخشی از هیجان است. ماژول ها چگونه توسعه می یابند؟ چه ویژگی های محیط توسعه بر راه حل های مختلف فشار می آورد؟ او درخواست کرد. و آیا مزایای مدولار بودن توضیح می‌دهد که چرا تعارض روان‌شناختی درونی برای شرایط انسانی بسیار مهم به نظر می‌رسد؟

تصویر های اعتباری: آنستیف/پیکسابای