همسو کردن هوش مصنوعی با ارزش های انسانی به چه معناست؟ هوش داده PlatoBlockchain. جستجوی عمودی Ai.

همسو کردن هوش مصنوعی با ارزش های انسانی به چه معناست؟

معرفی

سال‌ها پیش، برنامه‌نویسی بر روی دستگاه قدیمی Symbolics Lisp را یاد گرفتم. این سیستم عامل دارای یک فرمان داخلی بود که با املای "DWIM" مخفف "Do What I Mean" بود. اگر دستوری را تایپ می کردم و با خطا مواجه می شدم، می توانستم «DWIM» را تایپ کنم و دستگاه سعی می کند بفهمد که منظورم چیست. در بخش شگفت انگیزی از زمان، در واقع کار می کرد.

فرمان DWIM نمونه ای از مشکل مدرن تر "هم ترازی هوش مصنوعی" بود: ما انسان ها مستعد ارائه دستورالعمل های مبهم یا اشتباه به ماشین ها هستیم و می خواهیم آنها آنچه را که منظور ماست انجام دهند، نه لزوماً آنچه را که می گوییم.

رایانه‌ها معمولاً آنچه را که ما می‌خواهیم انجام دهند اشتباه تفسیر می‌کنند و نتایج غیرمنتظره و اغلب سرگرم‌کننده دارند. برای مثال، یکی از محققین یادگیری ماشین، در حین بررسی نتایج مشکوک خوب یک برنامه طبقه بندی تصویر، کشف این طبقه‌بندی را نه بر اساس خود تصویر، بلکه بر اساس مدت زمانی که برای دسترسی به فایل تصویر طول می‌کشید، قرار می‌داد – تصاویر کلاس‌های مختلف در پایگاه‌های داده با زمان‌های دسترسی کمی متفاوت ذخیره می‌شدند. یکی دیگر برنامه نویس مبتکر می خواست جاروبرقی رومبا او برخورد نکردن با مبلمان را متوقف کند، بنابراین اتاقبا را به یک شبکه عصبی متصل کرد که به سرعت پاداش می داد، اما وقتی سپر جلویی با چیزی برخورد کرد، اتاقبا را مجازات کرد. ماشین این اهداف را با رانندگی همیشه به عقب انجام می دهد.

اما جامعه محققین همسویی هوش مصنوعی جنبه تاریک تری را در این حکایات می بینند. در واقع، آنها معتقدند که ناتوانی ماشین‌ها در تشخیص آنچه ما واقعاً می‌خواهیم انجام دهند، یک خطر وجودی است. آنها معتقدند برای حل این مشکل، ما باید راه‌هایی برای همسو کردن سیستم‌های هوش مصنوعی با ترجیحات، اهداف و ارزش‌های انسان پیدا کنیم.

این دیدگاه با کتاب پرفروش سال 2014 برجسته شد هوش فوق بشری توسط فیلسوف نیک بوستروم، که تا حدی استدلال کرد که افزایش هوش رایانه‌ها می‌تواند تهدیدی مستقیم برای آینده بشریت باشد. بوستروم هرگز به طور دقیق هوش را تعریف نکرد، اما، مانند بسیاری از افراد دیگر در جامعه همسویی هوش مصنوعی، بعداً تعریفی را اتخاذ کرد. تفسیر شده توسط محقق هوش مصنوعی استوارت راسل به عنوان: "یک موجودیت، به طور کلی، هوشمند در نظر گرفته می شود، اگر اقداماتی را انتخاب کند که انتظار می رود با توجه به آنچه که درک کرده است، به اهداف خود دست یابد."

بوستروم دیدگاه خود را در مورد خطرات هوش مصنوعی بر اساس دو تز استوار کرد. اولی تز متعامد است که به قول بوستروم می گوید: «هوش و اهداف نهایی، محورهای متعامدی هستند که عوامل ممکن می توانند آزادانه در امتداد آنها تغییر کنند. به عبارت دیگر، کم و بیش هر سطحی از هوش را می‌توان با کم و بیش هر هدف نهایی ترکیب کرد.» دوم تز همگرایی ابزاری است که دلالت بر این دارد که یک عامل باهوش به شیوه‌هایی عمل می‌کند که بقای خود، بهبود خود و کسب منابع را ارتقا می‌دهد، تا زمانی که احتمال بیشتری برای دستیابی عامل به هدف نهایی‌اش وجود داشته باشد. سپس او یک فرض نهایی را مطرح کرد: محققان به زودی یک ابر هوش مصنوعی ایجاد خواهند کرد - هوشی که «عملاً در همه حوزه‌های مورد علاقه از عملکرد شناختی انسان‌ها بسیار فراتر می‌رود».

برای Bostrom و دیگران در جامعه همسویی هوش مصنوعی، این چشم انداز برای بشریت عذاب خواهد بود، مگر اینکه موفق شویم هوش مصنوعی های فوق هوشمند را با خواسته ها و ارزش های خود هماهنگ کنیم. بوستروم این خطر را با یک آزمایش فکری مشهور نشان می دهد: تصور کنید به یک هوش مصنوعی فوق هوشمند هدف حداکثر سازی تولید گیره های کاغذ را بدهید. بر اساس تزهای بوستروم، در تلاش برای دستیابی به این هدف، سیستم هوش مصنوعی از درخشش و خلاقیت مافوق بشری خود برای افزایش قدرت و کنترل خود استفاده می کند و در نهایت تمام منابع جهان را برای تولید گیره های کاغذ بیشتر به دست می آورد. بشریت خواهد مرد، اما تولید گیره کاغذ در واقع به حداکثر خواهد رسید.

اگر فکر می کنید که هوش با توانایی دستیابی به اهداف تعریف می شود، هر هدفی می تواند توسط انسان ها در یک عامل هوش مصنوعی فوق هوشمند "درج" شود، و چنین عاملی از هوش فوق العاده خود برای انجام هر کاری برای رسیدن به آن هدف استفاده می کند، پس شما به همان می رسند نتیجه راسل انجام داد: "تمام چیزی که برای اطمینان از فاجعه لازم است، یک ماشین بسیار توانمند است که با انسان هایی ترکیب شده است که توانایی ناقصی برای مشخص کردن ترجیحات انسانی به طور کامل و درست دارند."

این یک داستان آشنا در داستان های علمی تخیلی است - بشریت در معرض تهدید ماشین های خارج از کنترل است که خواسته های انسان را اشتباه تفسیر کرده اند. اکنون بخش غیر قابل توجهی از جامعه تحقیقاتی هوش مصنوعی به شدت نگران اجرای این نوع سناریو در زندگی واقعی هستند. ده‌ها مؤسسه تاکنون صدها میلیون دلار برای این مشکل هزینه کرده‌اند و تلاش‌های تحقیقاتی برای همسویی در دانشگاه‌های سراسر جهان و شرکت‌های بزرگ هوش مصنوعی مانند Google، Meta و OpenAI در حال انجام است.

در مورد خطرات فوری‌تر ناشی از هوش مصنوعی غیر فوق‌هوشمند، مانند از دست دادن شغل، تعصب، نقض حریم خصوصی و انتشار اطلاعات نادرست، چطور؟ به نظر می رسد که همپوشانی کمی بین جوامعی که در درجه اول با چنین ریسک های کوتاه مدت درگیر هستند و کسانی که بیشتر نگران خطرات همسویی طولانی مدت هستند وجود دارد. در واقع، چیزی شبیه یک جنگ فرهنگی هوش مصنوعی وجود دارد، که یک طرف بیشتر نگران این خطرات فعلی است تا آنچه به عنوان آینده‌نگری غیرواقعی می‌داند، و طرف دیگر مشکلات فعلی را کمتر از خطرات فاجعه‌بار احتمالی ناشی از هوش مصنوعی فوق‌هوشمند می‌داند.

برای بسیاری از افراد خارج از این جوامع خاص، همسویی با هوش مصنوعی چیزی شبیه به یک مذهب به نظر می رسد - یکی با رهبران محترم، دکترین بی چون و چرا و شاگردان فداکار که با یک دشمن بالقوه قدرتمند (هوش مصنوعی فوق هوشمند غیر همسو) مبارزه می کنند. در واقع، دانشمند کامپیوتر و وبلاگ نویس اسکات آرونسون اخیرا اشاره کرد که اکنون شاخه های "ارتدوکس" و "اصلاح" ایمان همسویی هوش مصنوعی وجود دارد. او می نویسد که اولی تقریباً به طور کامل نگران "هوش مصنوعی نامناسب است که انسان ها را فریب می دهد در حالی که برای نابودی آنها کار می کند." در مقابل، او می‌نویسد: «ما که ریسک‌پذیران هوش مصنوعی اصلاح‌کننده هستیم، این امکان را داریم، اما حداقل به همان اندازه نگران هوش مصنوعی‌های قدرتمندی هستیم که توسط انسان‌های بد مسلح می‌شوند، که انتظار داریم خیلی زودتر خطرات وجودی را ایجاد کنند.»

بسیاری از محققان به طور فعال در پروژه های مبتنی بر هم ترازی درگیر هستند، از تلاش برای بیان اصول از فلسفه اخلاق به ماشین ها، به آموزش مدل های زبان بزرگ در مورد قضاوت های اخلاقی جمع سپاری شده هیچ‌کدام از این تلاش‌ها به‌ویژه در واداشتن ماشین‌ها به استدلال درباره موقعیت‌های دنیای واقعی مفید نبوده است. بسیاری از نویسندگان به موانع زیادی که ماشین‌ها را از یادگیری ترجیحات و ارزش‌های انسانی باز می‌دارد اشاره کرده‌اند: مردم اغلب غیرمنطقی هستند و به گونه‌ای رفتار می‌کنند که با ارزش‌های آن‌ها در تضاد است، و ارزش‌ها می‌توانند در طول عمر و نسل‌ها تغییر کنند. به هر حال، مشخص نیست که ما باید ارزش‌های چه کسی را داشته باشیم که ماشین‌ها تلاش می‌کنند یاد بگیرند.

بسیاری در جامعه همسویی فکر می‌کنند امیدوارکننده‌ترین مسیر رو به جلو، تکنیک یادگیری ماشینی است که به آن معروف است یادگیری تقویتی معکوس (IRL). با IRL، به دستگاه هدفی برای به حداکثر رساندن داده نمی شود. به عقیده طرفداران تراز، چنین اهداف "درج شده" می تواند به طور ناخواسته منجر به سناریوهای به حداکثر رساندن گیره کاغذ شود. در عوض، وظیفه ماشین مشاهده رفتار انسان ها و استنباط ترجیحات، اهداف و ارزش های آنهاست. در سال های اخیر، محققان از IRL استفاده کرده اند ماشین ها را برای بازی های ویدیویی آموزش دهید با مشاهده انسان ها و آموزش روبات ها نحوه انجام بک فلیپ با دادن بازخورد فزاینده از انسان به آنها (مردم کلیپ های کوتاهی از تلاش های مختلف یک ربات را مشاهده کردند و بهترین را انتخاب کردند).

مشخص نیست که آیا روش‌های مشابه می‌توانند ایده‌های ظریف‌تر و انتزاعی‌تر ارزش‌های انسانی را به ماشین‌ها بیاموزند یا خیر. نویسنده برایان کریستین، نویسنده الف کتاب علمی رایج در مورد هم ترازی هوش مصنوعی، خوشبین است: «تصور جایگزینی مفهوم مبهم «بازگشت به عقب» با مفهومی حتی مبهم‌تر و غیرقابل وصف‌تر، مانند «مفید بودن» چندان دشوار نیست. یا "مهربانی". یا رفتار «خوب»».

با این حال، من فکر می کنم این چالش را دست کم می گیرد. مفاهیم اخلاقی مانند مهربانی و رفتار خوب بسیار پیچیده‌تر و وابسته‌تر از هر چیزی است که IRL تاکنون بر آن تسلط داشته است. مفهوم "راستی" را در نظر بگیرید - ارزشی که ما مطمئناً در سیستم های هوش مصنوعی خود می خواهیم. در واقع، مشکل عمده مدل های زبانی بزرگ امروزی ناتوانی آنها در تشخیص حقیقت از دروغ است. در عین حال، ممکن است گاهی بخواهیم دستیاران هوش مصنوعی ما، درست مانند انسان‌ها، صداقت خود را تعدیل کنند: برای محافظت از حریم خصوصی، جلوگیری از توهین به دیگران، یا ایمن نگه داشتن کسی، در میان موقعیت‌های بی‌شمار دیگر که به سختی قابل بیان است.

سایر مفاهیم اخلاقی به همان اندازه پیچیده هستند. باید واضح باشد که اولین گام اساسی برای آموزش مفاهیم اخلاقی به ماشین‌ها این است که ماشین‌ها را قادر به درک مفاهیم انسانی در وهله اول کنیم، که من استدلال کرده‌ام هنوز هوش مصنوعی است. مهمترین مشکل باز.

علاوه بر این، من یک مشکل اساسی‌تر را با علم نهفته در مفاهیم همسویی هوش مصنوعی می‌بینم. بیشتر بحث‌ها یک هوش مصنوعی فوق‌هوشمند را ماشینی تصور می‌کنند که در عین اینکه در تمام وظایف شناختی از انسان پیشی می‌گیرد، هنوز فاقد عقل سلیم انسانی است و ماهیت مکانیکی عجیبی دارد. و مهمتر از همه، مطابق با تز تعمد بوستروم، ماشین بدون داشتن هیچ یک از اهداف یا ارزش های خود، به ابرهوشی دست یافته است، در عوض منتظر درج اهداف توسط انسان است.

با این حال آیا هوش می تواند به این شکل عمل کند؟ هیچ چیز در علم روانشناسی یا عصب شناسی فعلی این احتمال را پشتیبانی نمی کند. حداقل در انسان‌ها، هوش عمیقاً با اهداف و ارزش‌های ما و همچنین احساس ما از خود و محیط اجتماعی و فرهنگی خاص ما در ارتباط است. شهودی که می‌توان نوعی هوش ناب را از این عوامل دیگر جدا کرد، به آن منتهی شده است بسیاری از پیش بینی های ناموفق در تاریخچه هوش مصنوعی با توجه به آنچه می دانیم، به نظر می رسد بسیار محتمل تر است که اهداف یک سیستم هوش مصنوعی به طور کلی هوشمند را نمی توان به راحتی وارد کرد، اما باید مانند ما در نتیجه تربیت اجتماعی و فرهنگی خود توسعه یابد.

در کتاب خود سازگار با انسانراسل برای فوریت تحقیق در مورد مشکل هم ترازی استدلال می کند: «زمان مناسب برای نگرانی در مورد یک مشکل بالقوه جدی برای بشریت نه تنها به زمان وقوع مشکل بلکه به مدت زمان لازم برای تهیه و اجرای راه حل بستگی دارد. ” اما بدون درک بهتر از چیستی هوش و میزان قابل تفکیک آن از سایر جنبه‌های زندگی ما، حتی نمی‌توانیم مشکل را تعریف کنیم، چه برسد به اینکه راه‌حلی پیدا کنیم. تعریف درست و حل مشکل هم ترازی آسان نخواهد بود. این امر مستلزم آن است که یک نظریه علمی گسترده و مبتنی بر هوش را توسعه دهیم.

تمبر زمان:

بیشتر از مجله کوانتاما