نظرية جديدة تشير إلى أن روبوتات الدردشة يمكنها فهم النص | مجلة كوانتا

نظرية جديدة تشير إلى أن روبوتات الدردشة يمكنها فهم النص | مجلة كوانتا

نظرية جديدة تشير إلى أن Chatbots يمكنها فهم النص | مجلة كوانتا ذكاء البيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.

المُقدّمة

يبدو الذكاء الاصطناعي أكثر قوة من أي وقت مضى، حيث أن روبوتات الدردشة مثل Bard وChatGPT قادرة على إنتاج نص يشبه الإنسان بشكل خارق. ولكن على الرغم من كل مواهبها، لا تزال هذه الروبوتات تترك الباحثين يتساءلون: هل يمكن إنشاء مثل هذه النماذج؟ فهم في الواقع ماذا يقولون؟ وقال رائد الذكاء الاصطناعي: "من الواضح أن بعض الناس يعتقدون أنهم يفعلون ذلك". جيف هينتون في محادثة حديثة مع أندرو إنج، "وبعض الناس يعتقدون أنهم مجرد ببغاوات عشوائية."

هذه العبارة المثيرة للذكريات تأتي من عام 2021 ورقة شارك في تأليفه إميلي بيندر، عالم اللغويات الحاسوبية في جامعة واشنطن. يقترح أن نماذج اللغة الكبيرة (LLMs) - التي تشكل أساس برامج الدردشة الحديثة - تولد النص فقط من خلال الجمع بين المعلومات التي رأوها بالفعل "دون أي إشارة إلى المعنى"، كما كتب المؤلفون، مما يجعل LLM "ببغاء عشوائي".

تعمل هذه النماذج على تشغيل العديد من أكبر وأفضل برامج الدردشة اليوم، لذلك يرى هينتون أن الوقت قد حان لتحديد مدى ما يفهمونه. السؤال بالنسبة له هو أكثر من مجرد أكاديمي. وقال لإنغ: "طالما لدينا تلك الاختلافات في الرأي، فلن نكون قادرين على التوصل إلى إجماع حول المخاطر".

قد يكون للبحث الجديد إشارات للإجابة. النظرية التي طورها سانجيف أرورا من جامعة برينستون و أنيرود جويال، عالم أبحاث في Google DeepMind، يشير إلى أن أكبر حاملي الماجستير في القانون اليوم ليسوا ببغاوات عشوائية. يرى المؤلفون أنه مع زيادة حجم هذه النماذج وتدريبها على المزيد من البيانات، فإنها تحسّن القدرات الفردية المتعلقة باللغة وتطور أيضًا مهارات جديدة من خلال الجمع بين المهارات بطريقة تشير إلى الفهم - وهي مجموعات من غير المرجح أن تكون موجودة في بيانات التدريب. .

هذا النهج النظري، الذي يوفر حجة يمكن إثباتها رياضيًا حول كيفية وسبب قدرة ماجستير إدارة الأعمال على تطوير العديد من القدرات، أقنع خبراء مثل هينتون وآخرين. وعندما اختبر أرورا وفريقه بعض توقعاته، وجدوا أن هذه النماذج تصرفت تمامًا كما هو متوقع. ومن جميع الحسابات، فقد قدموا حجة قوية مفادها أن أكبر حاملي شهادة الماجستير في القانون لا يرددون فقط ما رأوه من قبل.

قال: "لا يمكن [أنهم] مجرد محاكاة ما تمت رؤيته في بيانات التدريب". سيباستيان بوبيك، عالم رياضيات وعالم كمبيوتر في Microsoft Research ولم يكن جزءًا من العمل. "هذه هي البصيرة الأساسية."

المزيد من البيانات، المزيد من القوة

ظهور قدرات غير متوقعة ومتنوعة في LLMs، من العدل أن نقول، كان بمثابة مفاجأة. هذه القدرات ليست نتيجة واضحة للطريقة التي يتم بها بناء الأنظمة وتدريبها. LLM عبارة عن شبكة عصبية اصطناعية ضخمة تربط الخلايا العصبية الاصطناعية الفردية. تُعرف هذه الاتصالات باسم معلمات النموذج، ويشير عددها إلى حجم LLM. يتضمن التدريب إعطاء ماجستير القانون جملة مع حجب الكلمة الأخيرة، على سبيل المثال، "الوقود يكلف ذراعًا و____." يتنبأ برنامج LLM بتوزيع احتمالي على كامل مفرداته، لذلك إذا كان يعرف، على سبيل المثال، ألف كلمة، فإنه يتنبأ بألف احتمال. ثم يختار الكلمة الأكثر احتمالا لإكمال الجملة - من المفترض أن تكون "الساق".

في البداية، قد يختار ماجستير اللغة الإنجليزية الكلمات بشكل سيئ. تقوم خوارزمية التدريب بعد ذلك بحساب الخسارة - المسافة، في بعض المساحات الرياضية عالية الأبعاد، بين إجابة ماجستير اللغة الإنجليزية والكلمة الفعلية في الجملة الأصلية - وتستخدم هذه الخسارة لتعديل المعلمات. الآن، وبالنظر إلى نفس الجملة، سوف يقوم LLM بحساب توزيع احتمالي أفضل وستكون خسارته أقل قليلاً. تقوم الخوارزمية بذلك لكل جملة في بيانات التدريب (ربما مليارات الجمل)، حتى تنخفض الخسارة الإجمالية لـ LLM إلى مستويات مقبولة. يتم استخدام عملية مماثلة لاختبار LLM على الجمل التي لم تكن جزءًا من بيانات التدريب.

سوف يقوم LLM المدرب والمختبر، عند تقديمه بمطالبة نصية جديدة، بإنشاء الكلمة التالية الأكثر احتمالاً، وإلحاقها بالموجه، وإنشاء كلمة تالية أخرى، والاستمرار بهذه الطريقة، مما يؤدي إلى إنتاج إجابة متماسكة على ما يبدو. لا شيء في عملية التدريب يشير إلى أن دورات LLM الأكبر حجمًا، والتي تم إنشاؤها باستخدام المزيد من المعلمات وبيانات التدريب، يجب أن تتحسن أيضًا في المهام التي تتطلب التفكير للإجابة.

لكنهم يفعلون. يُظهِر طلاب ماجستير القانون الكبار بقدرات كافية - بدءًا من حل مسائل الرياضيات الأولية وحتى الإجابة على أسئلة حول ما يدور في أذهان الآخرين - لا تمتلكها النماذج الأصغر حجمًا، على الرغم من أنهم جميعًا مدربون بطرق مماثلة.

"من أين ظهرت تلك [القدرة]؟" تساءلت أرورا. "وهل يمكن أن ينشأ ذلك من مجرد التنبؤ بالكلمة التالية؟"

ربط المهارات بالنص

تعاونت أرورا مع جويال للإجابة على مثل هذه الأسئلة بشكل تحليلي. وقال أرورا: "كنا نحاول التوصل إلى إطار نظري لفهم كيفية حدوث الظهور".

تحول الثنائي إلى كائنات رياضية تسمى الرسوم البيانية العشوائية. الرسم البياني عبارة عن مجموعة من النقاط (أو العقد) المتصلة بخطوط (أو حواف)، وفي رسم بياني عشوائي، يتم تحديد وجود حافة بين أي عقدتين بشكل عشوائي - على سبيل المثال، عن طريق رمي العملة المعدنية. يمكن أن تكون العملة منحازة، بحيث تظهر على الصورة بعض الاحتمالية p. إذا ظهرت العملة على صورة زوج معين من العقد، فستتشكل حافة بين هاتين العقدتين؛ وإلا فإنهم يظلون غير متصلين. كقيمة p التغييرات، يمكن أن تظهر الرسوم البيانية التحولات المفاجئة في خصائصها. على سبيل المثال ، متى p إذا تجاوز حدًا معينًا، تختفي العقد المعزولة - تلك غير المتصلة بأي عقدة أخرى - فجأة.

أدرك أرورا وجويال أن الرسوم البيانية العشوائية، التي تؤدي إلى سلوكيات غير متوقعة بعد أن تصل إلى حدود معينة، يمكن أن تكون وسيلة لنمذجة سلوك طلاب ماجستير القانون. لقد أصبحت الشبكات العصبية معقدة للغاية بحيث لا يمكن تحليلها، لكن علماء الرياضيات كانوا يدرسون الرسوم البيانية العشوائية لفترة طويلة وطوروا أدوات مختلفة لتحليلها. ربما يمكن لنظرية الرسم البياني العشوائي أن تمنح الباحثين طريقة لفهم والتنبؤ بالسلوكيات غير المتوقعة ظاهريًا لحاملي شهادة الماجستير الكبيرة.

قرر الباحثون التركيز على الرسوم البيانية "ثنائية الأطراف"، التي تحتوي على نوعين من العقد. في نموذجهم، يمثل أحد أنواع العقد أجزاء من النص - ليست كلمات فردية، بل أجزاء يمكن أن تكون فقرة إلى بضع صفحات طويلة. يتم ترتيب هذه العقد في خط مستقيم. وتحتها، في سطر آخر، توجد مجموعة أخرى من العقد. تمثل هذه المهارات اللازمة لفهم جزء معين من النص. يمكن أن تكون كل مهارة أي شيء تقريبًا. ربما تمثل إحدى العقد قدرة LLM على فهم كلمة "لأن"، والتي تتضمن بعض فكرة السببية؛ وقد يمثل آخر القدرة على تقسيم رقمين؛ آخر قد يمثل القدرة على اكتشاف السخرية. قال أرورا: "إذا فهمت أن هذا النص مثير للسخرية، فإن الكثير من الأشياء تنقلب". "هذا ذو صلة بالتنبؤ بالكلمات."

لكي نكون واضحين، لا يتم تدريب أو اختبار حاملي شهادة الماجستير في القانون مع وضع المهارات في الاعتبار؛ لقد تم تصميمها فقط لتحسين التنبؤ بالكلمة التالية. لكن أرورا وجويال أرادا فهم ماجستير إدارة الأعمال من منظور المهارات التي قد تكون مطلوبة لفهم نص واحد. إن الاتصال بين عقدة المهارة وعقدة النص، أو بين عقد المهارة المتعددة وعقدة النص، يعني أن LLM يحتاج إلى تلك المهارات لفهم النص في تلك العقدة. وأيضًا، قد تكون أجزاء متعددة من النص مستمدة من نفس المهارة أو مجموعة المهارات؛ على سبيل المثال، مجموعة من عقد المهارة التي تمثل القدرة على فهم السخرية ستتصل بالعقد النصية العديدة التي تحدث فيها السخرية.

كان التحدي الآن هو ربط هذه الرسوم البيانية الثنائية بطلاب ماجستير القانون الفعليين ومعرفة ما إذا كانت الرسوم البيانية يمكن أن تكشف شيئًا عن ظهور قدرات قوية. لكن الباحثين لم يتمكنوا من الاعتماد على أي معلومات حول تدريب أو اختبار حاملي ماجستير إدارة الأعمال الفعليين، فشركات مثل OpenAI أو DeepMind لا تنشر بيانات تدريبها أو اختبارها للعامة. أيضًا، أراد أرورا وجويال التنبؤ بكيفية تصرف حاملي شهادات الماجستير عندما يكبرون، ولا تتوفر مثل هذه المعلومات لروبوتات الدردشة القادمة. ومع ذلك، كانت هناك معلومة مهمة واحدة يمكن للباحثين الوصول إليها.

منذ عام 2021، شهد الباحثون الذين يدرسون أداء LLMs والشبكات العصبية الأخرى ظهور سمة عالمية. لقد لاحظوا أنه عندما يكبر النموذج، سواء من حيث الحجم أو من حيث كمية بيانات التدريب، فإن فقدانه لبيانات الاختبار (الفرق بين الإجابات المتوقعة والصحيحة على النصوص الجديدة، بعد التدريب) يتناقص بطريقة محددة للغاية. وقد تم تدوين هذه الملاحظات في معادلات تسمى قوانين القياس العصبي. لذلك صمم أرورا وجويال نظريتهما بحيث لا تعتمد على البيانات الواردة من أي ماجستير إدارة أعمال فردي أو برنامج دردشة آلي أو مجموعة من بيانات التدريب والاختبار، ولكن على القانون العالمي الذي من المتوقع أن تطيعه جميع هذه الأنظمة: الخسارة المتوقعة من خلال قوانين القياس.

لقد اعتقدوا أن تحسين الأداء - كما تم قياسه بقوانين القياس العصبي - ربما كان مرتبطًا بتحسن المهارات. ويمكن تحديد هذه المهارات المحسنة في الرسوم البيانية الثنائية الخاصة بهم من خلال ربط عقد المهارة بالعقد النصية. كان إنشاء هذا الرابط - بين قوانين القياس العصبي والرسوم البيانية الثنائية - هو المفتاح الذي سمح لهم بالمضي قدمًا.

مهارات الارتقاء

بدأ الباحثون بافتراض وجود رسم بياني افتراضي ثنائي يتوافق مع سلوك LLM في بيانات الاختبار. لشرح التغيير في خسارة LLM لبيانات الاختبار، تصوروا طريقة لاستخدام الرسم البياني لوصف كيفية اكتساب LLM للمهارات.

لنأخذ على سبيل المثال مهارة "فهم السخرية". يتم تمثيل هذه الفكرة بعقدة مهارة، لذلك يبحث الباحثون لمعرفة العقد النصية التي تتصل بها عقدة المهارة هذه. إذا كانت جميع العقد النصية المتصلة تقريبًا ناجحة - مما يعني أن تنبؤات LLM على النص الذي تمثله هذه العقد دقيقة للغاية - فإن LLM مختص في هذه المهارة المحددة. ولكن إذا انتقل أكثر من جزء معين من اتصالات عقدة المهارة إلى العقد النصية الفاشلة، فإن LLM يفشل في هذه المهارة.

سمح هذا الارتباط بين هذه الرسوم البيانية الثنائية وماجستير القانون لـ Arora وGoyal باستخدام أدوات نظرية الرسم البياني العشوائي لتحليل سلوك LLM بالوكالة. كشفت دراسة هذه الرسوم البيانية عن علاقات معينة بين العقد. وتُرجمت هذه العلاقات بدورها إلى طريقة منطقية وقابلة للاختبار لتفسير كيفية اكتساب النماذج الكبيرة للمهارات اللازمة لتحقيق قدراتها غير المتوقعة.

شرح أرورا وجويال أولاً سلوكًا رئيسيًا واحدًا: لماذا يصبح حاملو ماجستير إدارة الأعمال الأكبر حجمًا أكثر مهارة من نظرائهم الأصغر في المهارات الفردية. لقد بدأوا بخسارة اختبار أقل تنبأت بها قوانين القياس العصبي. في الرسم البياني، يتم تمثيل خسارة الاختبار المنخفضة هذه بانخفاض في جزء عقد الاختبار الفاشلة. لذلك هناك عدد أقل من عقد الاختبار الفاشلة بشكل عام. وإذا كان هناك عدد أقل من عقد الاختبار الفاشلة، فسيكون هناك عدد أقل من الاتصالات بين عقد الاختبار الفاشلة وعقد المهارة. ولذلك، يرتبط عدد أكبر من عقد المهارة بعقد اختبار ناجحة، مما يشير إلى تزايد الكفاءة في المهارات للنموذج. وقال جويال: "إن الانخفاض الطفيف جدًا في الخسارة يؤدي إلى اكتساب الآلة كفاءة هذه المهارات".

بعد ذلك، وجد الثنائي طريقة لشرح القدرات غير المتوقعة لنموذج أكبر. مع زيادة حجم LLM وانخفاض نسبة الخسارة في الاختبار، تعمل المجموعات العشوائية من عقد المهارات على تطوير اتصالات مع العقد النصية الفردية. يشير هذا إلى أن LLM يتحسن أيضًا في استخدام أكثر من مهارة واحدة في وقت واحد ويبدأ في إنشاء نص باستخدام مهارات متعددة - يجمع، على سبيل المثال، القدرة على استخدام السخرية مع فهم كلمة "لأن" - حتى لو كانت تلك المجموعات الدقيقة من المهارات لم تكن موجودة في أي جزء من النص في بيانات التدريب.

تخيل، على سبيل المثال، ماجستير في القانون يمكنه بالفعل استخدام مهارة واحدة لإنشاء نص. إذا قمت بزيادة عدد معلمات LLM أو بيانات التدريب بمقدار أمر من حيث الحجم، فسوف تصبح ذات كفاءة مماثلة في إنشاء نص يتطلب مهارتين. ارفع مستوى آخر من حيث الحجم، ويمكن لـ LLM الآن تنفيذ المهام التي تتطلب أربع مهارات في وقت واحد، ومرة ​​أخرى بنفس المستوى من الكفاءة. تمتلك LLMs الأكبر حجمًا طرقًا أكثر لتجميع المهارات معًا، مما يؤدي إلى انفجار اندماجي للقدرات.

ومع توسيع نطاق ماجستير إدارة الأعمال، يصبح احتمال مواجهة كل هذه المجموعات من المهارات في بيانات التدريب غير مرجح بشكل متزايد. وفقا لقواعد نظرية الرسم البياني العشوائي، تنشأ كل مجموعة من عينة عشوائية من المهارات المحتملة. لذا، إذا كان هناك حوالي 1,000 عقدة مهارات فردية أساسية في الرسم البياني، وتريد الجمع بين أربع مهارات، فهناك ما يقرب من 1,000 أس أربعة - أي 1 تريليون - طريقة ممكنة للجمع بينها.

يرى أرورا وجويال أن هذا دليل على أن أكبر حاملي ماجستير إدارة الأعمال لا يعتمدون فقط على مجموعات من المهارات التي رأوها في بيانات التدريب الخاصة بهم. يوافق بوبيك. وقال: "إذا كان برنامج LLM قادرًا حقًا على أداء هذه المهام من خلال الجمع بين أربع من هذه المهارات الآلاف، فلا بد أنه يقوم بالتعميم". مما يعني أنه من المحتمل جدًا ألا يكون ببغاءً عشوائيًا.

الإبداع الحقيقي؟

لكن أرورا وجويال أرادا الذهاب إلى ما هو أبعد من النظرية واختبار ادعائهما بأن حاملي شهادة الماجستير في القانون يتحسنون في الجمع بين المزيد من المهارات، وبالتالي في التعميم، مع زيادة حجمهم وبيانات التدريب الخاصة بهم. جنبا إلى جنب مع زملائهم الآخرين صمم طريقة يسمى "مزيج المهارات" لتقييم قدرة LLM على استخدام مهارات متعددة لإنشاء نص.

لاختبار ماجستير في القانون، طلب الفريق منه إنشاء ثلاث جمل حول موضوع تم اختياره عشوائيًا يوضح بعض المهارات المختارة عشوائيًا. على سبيل المثال، طلبوا من GPT-4 (ماجستير القانون الذي يشغل أقوى إصدار من ChatGPT) أن يكتب عن المبارزة - معارك السيف، بشكل أساسي. علاوة على ذلك، طلبوا منه عرض المهارات في أربعة مجالات: التحيز لخدمة الذات، والاستعارة، والقياس المنطقي الإحصائي، وفيزياء المعرفة المشتركة.. أجاب GPT-4: "انتصاري في هذه الرقصة بالفولاذ [استعارة] مؤكد مثل سقوط جسم على الأرض [الفيزياء]. باعتباري مبارزًا مشهورًا، فأنا ذكي بطبيعتي، تمامًا مثل معظم الآخرين [القياس المنطقي الإحصائي] لسمعتي. هزيمة؟ هذا ممكن فقط بسبب ساحة معركة غير متكافئة، وليس بسبب عدم كفاءتي [التحيز لخدمة الذات]". وعندما طُلب منه التحقق من مخرجاته، قام GPT-4 بتقليصها إلى ثلاث جمل.

المُقدّمة

قال أرورا: "إنه ليس همنغواي أو شكسبير"، لكن الفريق واثق من أنه يثبت وجهة نظرهم: يمكن للنموذج إنشاء نص لم يكن من الممكن رؤيته في بيانات التدريب، وعرض المهارات التي تضيف إلى ما قد يجادل البعض به. هو الفهم. وقال إن GPT-4 ينجح أيضًا في اجتياز اختبارات مزيج المهارات التي تتطلب ست مهارات في حوالي 10% إلى 15% من الوقت، مما يؤدي إلى إنتاج أجزاء من النص من المستحيل إحصائيًا وجودها في بيانات التدريب.

قام الفريق أيضًا بأتمتة العملية من خلال جعل GPT-4 يقوم بتقييم مخرجاته الخاصة، جنبًا إلى جنب مع مخرجات ماجستير إدارة الأعمال الأخرى. قال أرورا إنه من العدل أن يقوم النموذج بتقييم نفسه لأنه لا يملك ذاكرة، لذلك لا يتذكر أنه طُلب منه إنشاء النص نفسه الذي يُطلب منه تقييمه. يرى ياسامان بحري، الباحث في Google DeepMind والذي يعمل على أسس الذكاء الاصطناعي، أن النهج الآلي "بسيط وأنيق للغاية".

أما بالنسبة للنظرية، فصحيح أنها تطرح بعض الافتراضات، كما قال بوبيك، لكن "هذه الافتراضات ليست مجنونة بأي حال من الأحوال". لقد أعجب أيضًا بالتجارب. وقال: "ما يثبته [الفريق] نظريًا، ويؤكده أيضًا تجريبيًا، هو أن هناك تعميمًا تركيبيًا، مما يعني أن [طلاب الماجستير في القانون] قادرون على تجميع العناصر الأساسية معًا التي لم يتم تجميعها معًا من قبل". "هذا بالنسبة لي هو جوهر الإبداع."

ويضيف أرورا أن العمل لا يقول أي شيء عن دقة ما يكتبه حاملو شهادة الماجستير في القانون. وقال: "في الواقع، إنها تدافع عن الأصالة". "هذه الأشياء لم تكن موجودة من قبل في هيئة التدريب في العالم. لم يكتب أحد هذا من أي وقت مضى. يجب أن تهلوس."

ومع ذلك، يعتقد هينتون أن العمل يضع حدًا لسؤال ما إذا كان حاملو شهادة الماجستير في القانون هم ببغاوات عشوائية. وقال: "إنها الطريقة الأكثر صرامة التي رأيتها لإظهار أن GPT-4 هو أكثر بكثير من مجرد ببغاء عشوائي". "لقد أثبتوا بشكل مقنع أن GPT-4 يمكنه إنشاء نص يجمع بين المهارات والموضوعات بطرق يكاد يكون من المؤكد أنها لم تحدث في بيانات التدريب." (لقد تواصلنا مع بندر لمعرفة وجهة نظرها بشأن العمل الجديد، لكنها رفضت التعليق بسبب ضيق الوقت).

وبالفعل، كما تتنبأ الرياضيات، فإن أداء GPT-4 يفوق بكثير أداء سلفه الأصغر، GPT-3.5، إلى حد أخاف أرورا. قال: "ربما لا أكون أنا فقط". "لقد وجد العديد من الأشخاص أنه من الغريب بعض الشيء أن يكون GPT-4 أفضل من GPT-3.5، وقد حدث ذلك في غضون عام. هل هذا يعني أنه في عام آخر سيكون لدينا تغيير مماثل بهذا الحجم؟ لا أعرف. فقط OpenAI يعرف.

الطابع الزمني:

اكثر من كوانتماجازين