مدل های زبان بزرگ چقدر سریع مهارت های غیر منتظره را یاد می گیرند؟ | مجله کوانتا

مدل های زبان بزرگ چقدر سریع مهارت های غیر منتظره را یاد می گیرند؟ | مجله کوانتا

How Quickly Do Large Language Models Learn Unexpected Skills? | Quanta Magazine PlatoBlockchain Data Intelligence. Vertical Search. Ai.

معرفی

دو سال پیش، در پروژه ای به نام فراتر از معیار بازی تقلید450 محقق فهرستی از 204 کار را که برای آزمایش قابلیت‌های مدل‌های زبانی بزرگ طراحی شده‌اند، جمع‌آوری کردند که ربات‌های چت مانند ChatGPT را تقویت می‌کنند. در بیشتر کارها، با افزایش مقیاس مدل‌ها، عملکرد به‌طور قابل پیش‌بینی و روان بهبود می‌یابد - هر چه مدل بزرگ‌تر می‌شود، بهتر می‌شود. اما با سایر وظایف، جهش در توانایی هموار نبود. عملکرد برای مدتی نزدیک به صفر باقی ماند، سپس عملکرد پرید. مطالعات دیگر جهش های مشابهی را در توانایی یافتند.

نویسندگان این را به عنوان رفتار "دستیابی به موفقیت" توصیف کردند. محققان دیگر آن را به یک انتقال فاز در فیزیک تشبیه کرده اند، مانند زمانی که آب مایع به یخ منجمد می شود. که در یک کاغذ در آگوست 2022 منتشر شد، محققان خاطرنشان کردند که این رفتارها نه تنها شگفت‌انگیز، بلکه غیرقابل پیش‌بینی هستند و باید مکالمات در حال تحول پیرامون ایمنی، پتانسیل و خطر هوش مصنوعی را اطلاع دهند. آنها توانایی ها را "ظهورکلمه ای که رفتارهای جمعی را توصیف می کند که فقط زمانی ظاهر می شوند که یک سیستم به سطح بالایی از پیچیدگی برسد.

اما ممکن است همه چیز به این سادگی نباشد. مقاله جدید توسط سه نفر از محققان دانشگاه استنفورد اظهار می شود که ظهور ناگهانی این توانایی ها فقط نتیجه روشی است که محققان عملکرد LLM را اندازه گیری می کنند. آنها استدلال می کنند که توانایی ها نه غیرقابل پیش بینی هستند و نه ناگهانی. گفت: «این گذار بسیار قابل پیش بینی تر از آن چیزی است که مردم به آن اعتبار می دهند سانمی کویجو، دانشمند کامپیوتر در استنفورد و نویسنده ارشد مقاله. "ادعاهای قوی ظهور به همان اندازه با روشی که ما برای اندازه گیری انتخاب می کنیم ارتباط دارد، همانطور که با آنچه مدل ها انجام می دهند ارتباط دارد."

ما فقط اکنون این رفتار را می بینیم و مطالعه می کنیم زیرا این مدل ها چقدر بزرگ شده اند. مدل های زبان بزرگ با تجزیه و تحلیل بسیار زیاد آموزش می بینند مجموعه داده های متن - کلمات از منابع آنلاین از جمله کتاب ها، جستجوهای وب و ویکی پدیا - و یافتن پیوند بین کلماتی که اغلب با هم ظاهر می شوند. اندازه بر حسب پارامترها اندازه‌گیری می‌شود که تقریباً مشابه همه راه‌هایی است که کلمات را می‌توان به هم متصل کرد. هر چه پارامترهای بیشتر باشد، یک LLM می تواند ارتباطات بیشتری پیدا کند. GPT-2 دارای 1.5 میلیارد پارامتر بود، در حالی که GPT-3.5، LLM که ChatGPT را تامین می کند، از 350 میلیارد پارامتر استفاده می کند. GPT-4 که ​​در مارس 2023 معرفی شد و اکنون زیربنای Microsoft Copilot است، طبق گزارش ها از 1.75 تریلیون استفاده می کند.

این رشد سریع افزایش شگفت انگیزی در عملکرد و کارایی به همراه داشته است، و هیچ کس بحث نمی کند که LLM های به اندازه کافی بزرگ می توانند وظایفی را که مدل های کوچکتر نمی توانند انجام دهند، از جمله مواردی که برای آنها آموزش ندیده اند، انجام دهند. سه نفر در استنفورد که ظهور را به عنوان یک "سراب" معرفی می کنند، تشخیص می دهند که LLM ها با افزایش مقیاس موثرتر می شوند. در حقیقت، پیچیدگی اضافه شده مدل های بزرگتر باید این امکان را فراهم کند که در مسائل دشوارتر و متنوع تر بهتر شوید. اما آن‌ها استدلال می‌کنند که آیا این بهبود صاف و قابل پیش‌بینی به نظر می‌رسد یا ناهموار و واضح به‌جای عملکرد درونی مدل، از انتخاب متریک - یا حتی کمبود نمونه‌های آزمایشی - نتیجه می‌گیرد.

جمع سه رقمی مثالی ارائه می دهد. در مطالعه BIG-bench در سال 2022، محققان گزارش دادند که با پارامترهای کمتر، هم GPT-3 و هم LLM دیگری به نام LAMDA نتوانستند به طور دقیق مشکلات اضافه را تکمیل کنند. با این حال، زمانی که GPT-3 با استفاده از 13 میلیارد پارامتر آموزش دید، توانایی آن به گونه ای تغییر کرد که گویی با چرخاندن یک سوئیچ تغییر کرد. ناگهان، می تواند اضافه کند - و LAMDA نیز می تواند در 68 میلیارد پارامتر. این نشان می دهد که توانایی اضافه کردن در آستانه خاصی ظاهر می شود.

اما محققان استنفورد خاطرنشان می‌کنند که LLM‌ها فقط بر اساس دقت مورد قضاوت قرار می‌گیرند: یا می‌توانستند این کار را به خوبی انجام دهند یا نمی‌توانستند. بنابراین حتی اگر یک LLM بیشتر ارقام را به درستی پیش بینی کرده باشد، شکست خورده است. درست به نظر نمی رسید. اگر 100 به اضافه 278 را محاسبه می کنید، 376 به نظر می رسد پاسخ بسیار دقیق تری نسبت به مثلاً 9.34- باشد.

بنابراین در عوض، کویجو و همکارانش همان کار را با استفاده از معیاری که اعتبار جزئی اعطا می کند، آزمایش کردند. می‌توانیم بپرسیم: چقدر رقم اول را به خوبی پیش‌بینی می‌کند؟ بعد دومی؟ بعد سومی؟» او گفت.

Koyejo ایده کار جدید را مدیون دانشجوی فارغ التحصیل خود Rylan Schaeffer می داند که به گفته او متوجه شده است که به نظر می رسد عملکرد یک LLM با نحوه اندازه گیری توانایی آن تغییر می کند. آنها به همراه براندو میراندا، یکی دیگر از دانشجویان فارغ‌التحصیل دانشگاه استنفورد، معیارهای جدیدی را انتخاب کردند که نشان می‌دهد با افزایش پارامترها، LLM ها توالی صحیحی از ارقام را علاوه بر مشکلات اضافه پیش‌بینی می‌کنند. این نشان می دهد که توانایی اضافه کردن ظاهری نیست - به این معنی که یک پرش ناگهانی و غیرقابل پیش بینی را تجربه می کند - اما تدریجی و قابل پیش بینی است. آنها متوجه می شوند که با یک چوب اندازه گیری متفاوت، ظهور ناپدید می شود.

معرفی

اما دانشمندان دیگر اشاره می‌کنند که این کار به طور کامل مفهوم ظهور را از بین نمی‌برد. به عنوان مثال، مقاله این سه نفر توضیح نمی دهد که چگونه می توان پیش بینی کرد که چه زمانی معیارها، یا کدام یک، بهبود ناگهانی را در یک LLM نشان می دهند. تیانشی لی، دانشمند کامپیوتر در دانشگاه نورث ایسترن. او گفت: "بنابراین از این نظر، این توانایی ها هنوز غیرقابل پیش بینی هستند." دیگران، مانند جیسون وی، یک دانشمند کامپیوتر در حال حاضر در OpenAI که فهرستی از توانایی های نوظهور را گردآوری کرده و نویسنده ای در مقاله BIG-bench بود. استدلال کرده اند که گزارش‌های قبلی ظهور صحیح بودند، زیرا برای توانایی‌هایی مانند محاسبات، پاسخ درست واقعاً چیزی است که اهمیت دارد.

گفت: «قطعاً گفتگوی جالبی در اینجا وجود دارد الکس تمکین، یک دانشمند محقق در استارتاپ هوش مصنوعی Anthropic. او گفت که مقاله جدید به طرز ماهرانه ای وظایف چند مرحله ای را تجزیه می کند تا مشارکت اجزای فردی را تشخیص دهد. اما این داستان کامل نیست. نمی توان گفت همه این پرش ها سراب است. من هنوز فکر می‌کنم ادبیات نشان می‌دهد که حتی زمانی که شما پیش‌بینی‌های یک مرحله‌ای دارید یا از معیارهای پیوسته استفاده می‌کنید، باز هم ناپیوستگی‌هایی دارید، و با افزایش اندازه مدل خود، همچنان می‌توانید شاهد بهبود آن به شکل پرش باشید.»

و حتی اگر ظهور در LLM های امروزی را بتوان با ابزارهای اندازه گیری مختلف توضیح داد، این احتمال وجود دارد که این مورد برای LLM های بزرگتر و پیچیده تر فردا صادق نباشد. گفت: "وقتی ما LLM ها را به سطح بعدی ارتقا دهیم، به ناچار آنها دانش را از وظایف دیگر و مدل های دیگر وام می گیرند." شیا "بن" هو، دانشمند کامپیوتر در دانشگاه رایس.

این ملاحظات در حال تکامل ظهور فقط یک سوال انتزاعی برای محققان نیست که باید در نظر بگیرند. برای تامکین، مستقیماً به تلاش‌های مداوم برای پیش‌بینی نحوه رفتار LLM‌ها اشاره می‌کند. او گفت: «این فناوری‌ها بسیار گسترده و بسیار کاربردی هستند. "امیدوارم که جامعه از این به عنوان نقطه پرش به عنوان تاکید مداوم بر اهمیت ایجاد علم پیش بینی برای این چیزها استفاده کند. چگونه از نسل بعدی مدل‌ها غافلگیر نشویم؟»

تمبر زمان:

بیشتر از مجله کوانتاما