معرفی
سالها پیش، برنامهنویسی بر روی دستگاه قدیمی Symbolics Lisp را یاد گرفتم. این سیستم عامل دارای یک فرمان داخلی بود که با املای "DWIM" مخفف "Do What I Mean" بود. اگر دستوری را تایپ می کردم و با خطا مواجه می شدم، می توانستم «DWIM» را تایپ کنم و دستگاه سعی می کند بفهمد که منظورم چیست. در بخش شگفت انگیزی از زمان، در واقع کار می کرد.
فرمان DWIM نمونه ای از مشکل مدرن تر "هم ترازی هوش مصنوعی" بود: ما انسان ها مستعد ارائه دستورالعمل های مبهم یا اشتباه به ماشین ها هستیم و می خواهیم آنها آنچه را که منظور ماست انجام دهند، نه لزوماً آنچه را که می گوییم.
رایانهها معمولاً آنچه را که ما میخواهیم انجام دهند اشتباه تفسیر میکنند و نتایج غیرمنتظره و اغلب سرگرمکننده دارند. برای مثال، یکی از محققین یادگیری ماشین، در حین بررسی نتایج مشکوک خوب یک برنامه طبقه بندی تصویر، کشف این طبقهبندی را نه بر اساس خود تصویر، بلکه بر اساس مدت زمانی که برای دسترسی به فایل تصویر طول میکشید، قرار میداد – تصاویر کلاسهای مختلف در پایگاههای داده با زمانهای دسترسی کمی متفاوت ذخیره میشدند. یکی دیگر برنامه نویس مبتکر می خواست جاروبرقی رومبا او برخورد نکردن با مبلمان را متوقف کند، بنابراین اتاقبا را به یک شبکه عصبی متصل کرد که به سرعت پاداش می داد، اما وقتی سپر جلویی با چیزی برخورد کرد، اتاقبا را مجازات کرد. ماشین این اهداف را با رانندگی همیشه به عقب انجام می دهد.
اما جامعه محققین همسویی هوش مصنوعی جنبه تاریک تری را در این حکایات می بینند. در واقع، آنها معتقدند که ناتوانی ماشینها در تشخیص آنچه ما واقعاً میخواهیم انجام دهند، یک خطر وجودی است. آنها معتقدند برای حل این مشکل، ما باید راههایی برای همسو کردن سیستمهای هوش مصنوعی با ترجیحات، اهداف و ارزشهای انسان پیدا کنیم.
این دیدگاه با کتاب پرفروش سال 2014 برجسته شد هوش فوق بشری توسط فیلسوف نیک بوستروم، که تا حدی استدلال کرد که افزایش هوش رایانهها میتواند تهدیدی مستقیم برای آینده بشریت باشد. بوستروم هرگز به طور دقیق هوش را تعریف نکرد، اما، مانند بسیاری از افراد دیگر در جامعه همسویی هوش مصنوعی، بعداً تعریفی را اتخاذ کرد. تفسیر شده توسط محقق هوش مصنوعی استوارت راسل به عنوان: "یک موجودیت، به طور کلی، هوشمند در نظر گرفته می شود، اگر اقداماتی را انتخاب کند که انتظار می رود با توجه به آنچه که درک کرده است، به اهداف خود دست یابد."
بوستروم دیدگاه خود را در مورد خطرات هوش مصنوعی بر اساس دو تز استوار کرد. اولی تز متعامد است که به قول بوستروم می گوید: «هوش و اهداف نهایی، محورهای متعامدی هستند که عوامل ممکن می توانند آزادانه در امتداد آنها تغییر کنند. به عبارت دیگر، کم و بیش هر سطحی از هوش را میتوان با کم و بیش هر هدف نهایی ترکیب کرد.» دوم تز همگرایی ابزاری است که دلالت بر این دارد که یک عامل باهوش به شیوههایی عمل میکند که بقای خود، بهبود خود و کسب منابع را ارتقا میدهد، تا زمانی که احتمال بیشتری برای دستیابی عامل به هدف نهاییاش وجود داشته باشد. سپس او یک فرض نهایی را مطرح کرد: محققان به زودی یک ابر هوش مصنوعی ایجاد خواهند کرد - هوشی که «عملاً در همه حوزههای مورد علاقه از عملکرد شناختی انسانها بسیار فراتر میرود».
برای Bostrom و دیگران در جامعه همسویی هوش مصنوعی، این چشم انداز برای بشریت عذاب خواهد بود، مگر اینکه موفق شویم هوش مصنوعی های فوق هوشمند را با خواسته ها و ارزش های خود هماهنگ کنیم. بوستروم این خطر را با یک آزمایش فکری مشهور نشان می دهد: تصور کنید به یک هوش مصنوعی فوق هوشمند هدف حداکثر سازی تولید گیره های کاغذ را بدهید. بر اساس تزهای بوستروم، در تلاش برای دستیابی به این هدف، سیستم هوش مصنوعی از درخشش و خلاقیت مافوق بشری خود برای افزایش قدرت و کنترل خود استفاده می کند و در نهایت تمام منابع جهان را برای تولید گیره های کاغذ بیشتر به دست می آورد. بشریت خواهد مرد، اما تولید گیره کاغذ در واقع به حداکثر خواهد رسید.
اگر فکر می کنید که هوش با توانایی دستیابی به اهداف تعریف می شود، هر هدفی می تواند توسط انسان ها در یک عامل هوش مصنوعی فوق هوشمند "درج" شود، و چنین عاملی از هوش فوق العاده خود برای انجام هر کاری برای رسیدن به آن هدف استفاده می کند، پس شما به همان می رسند نتیجه راسل انجام داد: "تمام چیزی که برای اطمینان از فاجعه لازم است، یک ماشین بسیار توانمند است که با انسان هایی ترکیب شده است که توانایی ناقصی برای مشخص کردن ترجیحات انسانی به طور کامل و درست دارند."
این یک داستان آشنا در داستان های علمی تخیلی است - بشریت در معرض تهدید ماشین های خارج از کنترل است که خواسته های انسان را اشتباه تفسیر کرده اند. اکنون بخش غیر قابل توجهی از جامعه تحقیقاتی هوش مصنوعی به شدت نگران اجرای این نوع سناریو در زندگی واقعی هستند. دهها مؤسسه تاکنون صدها میلیون دلار برای این مشکل هزینه کردهاند و تلاشهای تحقیقاتی برای همسویی در دانشگاههای سراسر جهان و شرکتهای بزرگ هوش مصنوعی مانند Google، Meta و OpenAI در حال انجام است.
در مورد خطرات فوریتر ناشی از هوش مصنوعی غیر فوقهوشمند، مانند از دست دادن شغل، تعصب، نقض حریم خصوصی و انتشار اطلاعات نادرست، چطور؟ به نظر می رسد که همپوشانی کمی بین جوامعی که در درجه اول با چنین ریسک های کوتاه مدت درگیر هستند و کسانی که بیشتر نگران خطرات همسویی طولانی مدت هستند وجود دارد. در واقع، چیزی شبیه یک جنگ فرهنگی هوش مصنوعی وجود دارد، که یک طرف بیشتر نگران این خطرات فعلی است تا آنچه به عنوان آیندهنگری غیرواقعی میداند، و طرف دیگر مشکلات فعلی را کمتر از خطرات فاجعهبار احتمالی ناشی از هوش مصنوعی فوقهوشمند میداند.
برای بسیاری از افراد خارج از این جوامع خاص، همسویی با هوش مصنوعی چیزی شبیه به یک مذهب به نظر می رسد - یکی با رهبران محترم، دکترین بی چون و چرا و شاگردان فداکار که با یک دشمن بالقوه قدرتمند (هوش مصنوعی فوق هوشمند غیر همسو) مبارزه می کنند. در واقع، دانشمند کامپیوتر و وبلاگ نویس اسکات آرونسون اخیرا اشاره کرد که اکنون شاخه های "ارتدوکس" و "اصلاح" ایمان همسویی هوش مصنوعی وجود دارد. او می نویسد که اولی تقریباً به طور کامل نگران "هوش مصنوعی نامناسب است که انسان ها را فریب می دهد در حالی که برای نابودی آنها کار می کند." در مقابل، او مینویسد: «ما که ریسکپذیران هوش مصنوعی اصلاحکننده هستیم، این امکان را داریم، اما حداقل به همان اندازه نگران هوش مصنوعیهای قدرتمندی هستیم که توسط انسانهای بد مسلح میشوند، که انتظار داریم خیلی زودتر خطرات وجودی را ایجاد کنند.»
بسیاری از محققان به طور فعال در پروژه های مبتنی بر هم ترازی درگیر هستند، از تلاش برای بیان اصول از فلسفه اخلاق به ماشین ها، به آموزش مدل های زبان بزرگ در مورد قضاوت های اخلاقی جمع سپاری شده هیچکدام از این تلاشها بهویژه در واداشتن ماشینها به استدلال درباره موقعیتهای دنیای واقعی مفید نبوده است. بسیاری از نویسندگان به موانع زیادی که ماشینها را از یادگیری ترجیحات و ارزشهای انسانی باز میدارد اشاره کردهاند: مردم اغلب غیرمنطقی هستند و به گونهای رفتار میکنند که با ارزشهای آنها در تضاد است، و ارزشها میتوانند در طول عمر و نسلها تغییر کنند. به هر حال، مشخص نیست که ما باید ارزشهای چه کسی را داشته باشیم که ماشینها تلاش میکنند یاد بگیرند.
بسیاری در جامعه همسویی فکر میکنند امیدوارکنندهترین مسیر رو به جلو، تکنیک یادگیری ماشینی است که به آن معروف است یادگیری تقویتی معکوس (IRL). با IRL، به دستگاه هدفی برای به حداکثر رساندن داده نمی شود. به عقیده طرفداران تراز، چنین اهداف "درج شده" می تواند به طور ناخواسته منجر به سناریوهای به حداکثر رساندن گیره کاغذ شود. در عوض، وظیفه ماشین مشاهده رفتار انسان ها و استنباط ترجیحات، اهداف و ارزش های آنهاست. در سال های اخیر، محققان از IRL استفاده کرده اند ماشین ها را برای بازی های ویدیویی آموزش دهید با مشاهده انسان ها و آموزش روبات ها نحوه انجام بک فلیپ با دادن بازخورد فزاینده از انسان به آنها (مردم کلیپ های کوتاهی از تلاش های مختلف یک ربات را مشاهده کردند و بهترین را انتخاب کردند).
مشخص نیست که آیا روشهای مشابه میتوانند ایدههای ظریفتر و انتزاعیتر ارزشهای انسانی را به ماشینها بیاموزند یا خیر. نویسنده برایان کریستین، نویسنده الف کتاب علمی رایج در مورد هم ترازی هوش مصنوعی، خوشبین است: «تصور جایگزینی مفهوم مبهم «بازگشت به عقب» با مفهومی حتی مبهمتر و غیرقابل وصفتر، مانند «مفید بودن» چندان دشوار نیست. یا "مهربانی". یا رفتار «خوب»».
با این حال، من فکر می کنم این چالش را دست کم می گیرد. مفاهیم اخلاقی مانند مهربانی و رفتار خوب بسیار پیچیدهتر و وابستهتر از هر چیزی است که IRL تاکنون بر آن تسلط داشته است. مفهوم "راستی" را در نظر بگیرید - ارزشی که ما مطمئناً در سیستم های هوش مصنوعی خود می خواهیم. در واقع، مشکل عمده مدل های زبانی بزرگ امروزی ناتوانی آنها در تشخیص حقیقت از دروغ است. در عین حال، ممکن است گاهی بخواهیم دستیاران هوش مصنوعی ما، درست مانند انسانها، صداقت خود را تعدیل کنند: برای محافظت از حریم خصوصی، جلوگیری از توهین به دیگران، یا ایمن نگه داشتن کسی، در میان موقعیتهای بیشمار دیگر که به سختی قابل بیان است.
سایر مفاهیم اخلاقی به همان اندازه پیچیده هستند. باید واضح باشد که اولین گام اساسی برای آموزش مفاهیم اخلاقی به ماشینها این است که ماشینها را قادر به درک مفاهیم انسانی در وهله اول کنیم، که من استدلال کردهام هنوز هوش مصنوعی است. مهمترین مشکل باز.
علاوه بر این، من یک مشکل اساسیتر را با علم نهفته در مفاهیم همسویی هوش مصنوعی میبینم. بیشتر بحثها یک هوش مصنوعی فوقهوشمند را ماشینی تصور میکنند که در عین اینکه در تمام وظایف شناختی از انسان پیشی میگیرد، هنوز فاقد عقل سلیم انسانی است و ماهیت مکانیکی عجیبی دارد. و مهمتر از همه، مطابق با تز تعمد بوستروم، ماشین بدون داشتن هیچ یک از اهداف یا ارزش های خود، به ابرهوشی دست یافته است، در عوض منتظر درج اهداف توسط انسان است.
با این حال آیا هوش می تواند به این شکل عمل کند؟ هیچ چیز در علم روانشناسی یا عصب شناسی فعلی این احتمال را پشتیبانی نمی کند. حداقل در انسانها، هوش عمیقاً با اهداف و ارزشهای ما و همچنین احساس ما از خود و محیط اجتماعی و فرهنگی خاص ما در ارتباط است. شهودی که میتوان نوعی هوش ناب را از این عوامل دیگر جدا کرد، به آن منتهی شده است بسیاری از پیش بینی های ناموفق در تاریخچه هوش مصنوعی با توجه به آنچه می دانیم، به نظر می رسد بسیار محتمل تر است که اهداف یک سیستم هوش مصنوعی به طور کلی هوشمند را نمی توان به راحتی وارد کرد، اما باید مانند ما در نتیجه تربیت اجتماعی و فرهنگی خود توسعه یابد.
در کتاب خود سازگار با انسانراسل برای فوریت تحقیق در مورد مشکل هم ترازی استدلال می کند: «زمان مناسب برای نگرانی در مورد یک مشکل بالقوه جدی برای بشریت نه تنها به زمان وقوع مشکل بلکه به مدت زمان لازم برای تهیه و اجرای راه حل بستگی دارد. ” اما بدون درک بهتر از چیستی هوش و میزان قابل تفکیک آن از سایر جنبههای زندگی ما، حتی نمیتوانیم مشکل را تعریف کنیم، چه برسد به اینکه راهحلی پیدا کنیم. تعریف درست و حل مشکل هم ترازی آسان نخواهد بود. این امر مستلزم آن است که یک نظریه علمی گسترده و مبتنی بر هوش را توسعه دهیم.