مبدأ الفيزياء الذي ألهم فن الذكاء الاصطناعي الحديث

مبدأ الفيزياء الذي ألهم فن الذكاء الاصطناعي الحديث

مبدأ الفيزياء الذي ألهم فن الذكاء الاصطناعي الحديث وذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.

المُقدّمة

اطلب من DALL · E 2 ، وهو نظام لتوليد الصور أنشأته شركة OpenAI ، أن يرسم صورة "سمكة ذهبية تلهم الكوكا كولا على الشاطئ" ، وستقوم بإخراج صور سريالية لذلك بالضبط. كان البرنامج سيصادف صورًا للشواطئ ، وسمكة ذهبية ، وكوكاكولا أثناء التدريب ، ولكن من غير المحتمل جدًا أن يكون قد شاهد واحدة اجتمع فيها الثلاثة معًا. ومع ذلك ، يمكن لـ DALL · E 2 تجميع المفاهيم في شيء قد يجعل دالي فخوراً.

DALL · E 2 هو نوع من النماذج التوليدية - وهو نظام يحاول استخدام بيانات التدريب لإنشاء شيء جديد يمكن مقارنته بالبيانات من حيث الجودة والتنوع. هذه واحدة من أصعب المشاكل في التعلم الآلي ، وكان الوصول إلى هذه النقطة رحلة صعبة.

استخدمت النماذج التوليدية المهمة الأولى للصور نهجًا للذكاء الاصطناعي يسمى الشبكة العصبية - وهو برنامج يتكون من عدة طبقات من الوحدات الحسابية تسمى الخلايا العصبية الاصطناعية. ولكن حتى مع تحسن جودة صورهم ، أثبتت النماذج أنها غير موثوقة ويصعب تدريبها. وفي الوقت نفسه ، فإن نموذجًا توليديًا قويًا - تم إنشاؤه بواسطة باحث ما بعد الدكتوراه شغوف بالفيزياء - ظل في حالة سبات ، حتى حقق اثنان من طلاب الدراسات العليا اختراقات تقنية أعادت الحياة إلى الوحش.

DALL · E 2 مثل هذا الوحش. البصيرة الرئيسية التي تجعل صور DALL · E 2 ممكنة - بالإضافة إلى صور منافسيها Stable Diffusion و Imagen - تأتي من عالم الفيزياء. النظام الذي يدعمها ، والمعروف باسم نموذج الانتشار ، مستوحى بشكل كبير من الديناميكا الحرارية غير المتوازنة ، التي تحكم ظواهر مثل انتشار السوائل والغازات. قال "هناك الكثير من التقنيات التي ابتكرها الفيزيائيون في البداية وهي الآن مهمة جدًا في التعلم الآلي" يانغ سونغ، باحث في التعلم الآلي في OpenAI.

هزت قوة هذه النماذج الصناعة والمستخدمين على حد سواء. قال "هذا وقت مثير للنماذج التوليدية" أنيما أناندكومار، عالم كمبيوتر في معهد كاليفورنيا للتكنولوجيا ومدير أول لأبحاث التعلم الآلي في Nvidia. وفي حين أن الصور الواقعية التي تم إنشاؤها بواسطة نماذج الانتشار يمكنها أحيانًا إدامة التحيزات الاجتماعية والثقافية ، قالت ، "لقد أظهرنا أن النماذج التوليدية مفيدة للمهام النهائية [التي] تحسن عدالة نماذج الذكاء الاصطناعي التنبؤية."

احتمالات عالية

لفهم كيفية عمل إنشاء البيانات للصور ، لنبدأ بصورة بسيطة مكونة من وحدتي بكسل متجاورتين تدرجات رمادية. يمكننا وصف هذه الصورة بالكامل بقيمتين ، بناءً على ظل كل بكسل (من الصفر إلى اللون الأسود تمامًا إلى 255 أبيض تمامًا). يمكنك استخدام هاتين القيمتين لرسم الصورة كنقطة في مساحة ثنائية الأبعاد.

إذا قمنا برسم صور متعددة كنقاط ، فقد تظهر مجموعات - صور معينة وقيم البكسل المقابلة لها والتي تحدث بشكل متكرر أكثر من غيرها. تخيل الآن سطحًا فوق المستوى ، حيث يتوافق ارتفاع السطح مع كثافة المجموعات. يرسم هذا السطح توزيع احتمالي. من المرجح أن تجد نقاط بيانات فردية أسفل الجزء العلوي من السطح ، وقليل منها حيث يكون السطح في أدنى مستوى.

المُقدّمة

يمكنك الآن استخدام توزيع الاحتمالات هذا لإنشاء صور جديدة. كل ما عليك القيام به هو إنشاء نقاط بيانات جديدة بشكل عشوائي مع الالتزام بالقيود التي تقوم بتوليد بيانات أكثر احتمالية في كثير من الأحيان - وهي عملية تسمى "أخذ العينات" للتوزيع. كل نقطة جديدة هي صورة جديدة.

ينطبق نفس التحليل على صور فوتوغرافية أكثر واقعية بتدرج الرمادي مع مليون بكسل لكل منها. الآن فقط ، لا يتطلب رسم كل صورة محورين ، بل مليون. سيكون توزيع الاحتمالية على هذه الصور سطحًا معقدًا يزيد عن مليون بعد واحد. إذا قمت بأخذ عينات من هذا التوزيع ، فسوف تنتج قيم مليون بكسل. اطبع تلك البكسلات على ورقة ، وستبدو الصورة على الأرجح كصورة من مجموعة البيانات الأصلية.

التحدي المتمثل في النمذجة التوليدية هو تعلم هذا التوزيع الاحتمالي المعقد لمجموعة من الصور التي تشكل بيانات التدريب. يُعد التوزيع مفيدًا جزئيًا لأنه يلتقط معلومات شاملة حول البيانات ، وجزئيًا لأنه يمكن للباحثين الجمع بين التوزيعات الاحتمالية على أنواع مختلفة من البيانات (مثل النصوص والصور) لتكوين مخرجات سريالية ، مثل سمكة ذهبية تلتهم الكوكاكولا على الشاطئ . قال أناندكومار: "يمكنك مزج المفاهيم المختلفة ومطابقتها ... لإنشاء سيناريوهات جديدة تمامًا لم يسبق رؤيتها في بيانات التدريب".

في عام 2014 ، أصبح نموذج يسمى شبكة الخصومة التوليدية (GAN) أول من ينتج صورًا واقعية. قال أناندكومار: "كان هناك الكثير من الإثارة". لكن من الصعب تدريب شبكات GAN: فقد لا يتعلمون التوزيع الاحتمالي الكامل ويمكن أن ينغلقوا على إنتاج الصور من مجموعة فرعية فقط من التوزيع. على سبيل المثال ، قد تقوم GAN المدربة على صور مجموعة متنوعة من الحيوانات بإنشاء صور للكلاب فقط.

احتاج التعلم الآلي إلى نموذج أكثر قوة. جاشا سوهل ديكشتاين، الذي كان عمله مستوحى من الفيزياء ، سيوفر واحدًا.

نقط من الإثارة

في الوقت الذي تم فيه اختراع شبكات GAN ، كان Sohl-Dickstein باحثًا في مرحلة ما بعد الدكتوراة في جامعة ستانفورد يعمل على نماذج توليدية ، مع اهتمام جانبي بالديناميكا الحرارية غير المتوازنة. يدرس هذا الفرع من الفيزياء الأنظمة التي ليست في حالة توازن حراري - تلك التي تتبادل المادة والطاقة داخليًا ومع بيئتها.

مثال توضيحي هو قطرة من الحبر الأزرق تنتشر في وعاء من الماء. في البداية ، تشكل نقطة داكنة في مكان واحد. في هذه المرحلة ، إذا كنت تريد حساب احتمال العثور على جزيء من الحبر في بعض الأحجام الصغيرة من الحاوية ، فأنت بحاجة إلى توزيع احتمالي يصمم بشكل واضح الحالة الأولية ، قبل أن يبدأ الحبر بالانتشار. لكن هذا التوزيع معقد ومن ثم يصعب أخذ عينات منه.

ومع ذلك ، في النهاية ، ينتشر الحبر في جميع أنحاء الماء ، مما يجعله أزرق شاحب. يؤدي هذا إلى توزيع احتمالي أبسط وأكثر اتساقًا للجزيئات يمكن وصفه بتعبير رياضي مباشر. تصف الديناميكا الحرارية غير المتوازنة التوزيع الاحتمالي في كل خطوة في عملية الانتشار. بشكل حاسم ، كل خطوة قابلة للعكس - بخطوات صغيرة كافية ، يمكنك الانتقال من التوزيع البسيط إلى التوزيع المعقد.

المُقدّمة

استخدم Sohl-Dickstein مبادئ الانتشار لتطوير خوارزمية للنمذجة التوليدية. الفكرة بسيطة: تقوم الخوارزمية أولاً بتحويل الصور المعقدة في مجموعة بيانات التدريب إلى ضوضاء بسيطة - مثل الانتقال من نقطة حبر لنشر الماء الأزرق الفاتح - ثم تعلم النظام كيفية عكس العملية ، وتحويل الضوضاء إلى صور.

وإليك كيف يعمل. أولاً ، تأخذ الخوارزمية صورة من مجموعة التدريب. كما في السابق ، لنفترض أن لكل وحدة من المليون بكسل بعض القيمة ، ويمكننا رسم الصورة كنقطة في مساحة مليونية الأبعاد. تضيف الخوارزمية بعض الضوضاء لكل بكسل في كل خطوة زمنية ، وهو ما يعادل انتشار الحبر بعد خطوة زمنية صغيرة واحدة. مع استمرار هذه العملية ، تحمل قيم البكسل علاقة أقل بقيمها في الصورة الأصلية ، وتبدو وحدات البكسل مثل توزيع ضوضاء بسيط. (تقوم الخوارزمية أيضًا بدفع قيمة كل بكسل a smidgen نحو الأصل ، والقيمة الصفرية على كل هذه المحاور ، في كل خطوة زمنية. يمنع هذا التنبيه قيم البكسل من الزيادة الكبيرة جدًا بحيث لا يمكن لأجهزة الكمبيوتر التعامل معها بسهولة.)

افعل ذلك لجميع الصور في مجموعة البيانات ، وسيتحول التوزيع الأولي المعقد للنقاط في مساحة مليون بعد (والتي لا يمكن وصفها وأخذ عينات منها بسهولة) إلى توزيع بسيط وطبيعي للنقاط حول الأصل.

قال Sohl-Dickstein: "إن تسلسل التحولات يحول ببطء شديد توزيع البيانات الخاصة بك إلى مجرد كرة ضوضاء كبيرة". تتيح لك هذه "العملية المستقبلية" توزيعًا يمكنك أخذ عينات منه بسهولة.

التالي هو جزء التعلم الآلي: امنح الشبكة العصبية الصور الصاخبة التي تم الحصول عليها من التمريرة الأمامية وقم بتدريبها على التنبؤ بالصور الأقل ضوضاء التي جاءت قبل ذلك بخطوة. سترتكب أخطاء في البداية ، لذلك تقوم بتعديل معلمات الشبكة حتى تعمل بشكل أفضل. في النهاية ، يمكن للشبكة العصبية أن تحول بشكل موثوق صورة مشوشة ، والتي تمثل عينة من التوزيع البسيط ، وصولاً إلى صورة ممثلة لعينة من التوزيع المعقد.

الشبكة المدربة هي نموذج توليدي كامل. الآن لا تحتاج حتى إلى صورة أصلية للقيام بتمريرة إلى الأمام: لديك وصف رياضي كامل للتوزيع البسيط ، بحيث يمكنك أخذ عينات منه مباشرة. يمكن للشبكة العصبية تحويل هذه العينة - بشكل أساسي فقط ثابتة - إلى صورة نهائية تشبه صورة في مجموعة بيانات التدريب.

يتذكر Sohl-Dickstein المخرجات الأولى لنموذج الانتشار الخاص به. قال: "عليك أن تحدق بجانبك وتكون مثل ،" أعتقد أن تلك النقطة الملونة تشبه شاحنة ". "لقد أمضيت شهورًا عديدة من حياتي أحدق في أنماط مختلفة من البكسل وأحاول رؤية البنية التي كنت مثلها ،" هذه طريقة أكثر تنظيماً من أي وقت مضى. " لقد كنت متحمسا جدا."

تصور المستقبل

نشر Sohl-Dickstein كتابه خوارزمية نموذج الانتشار في عام 2015 ، لكنها كانت لا تزال بعيدة عما يمكن أن تفعله شبكات GAN. في حين أن نماذج الانتشار يمكن أن تأخذ عينات من التوزيع بأكمله ولا تتعثر أبدًا في بصق مجموعة فرعية فقط من الصور ، كانت الصور تبدو أسوأ ، وكانت العملية بطيئة للغاية. قال سوهل ديكستين: "لا أعتقد في ذلك الوقت أن هذا كان يُنظر إليه على أنه مثير".

سوف يتطلب الأمر اثنين من الطلاب ، لم يكن أي منهما يعرف Sohl-Dickstein أو بعضهما البعض ، لربط النقاط من هذا العمل الأولي إلى نماذج الانتشار الحديثة مثل DALL · E 2. كان الأول سونج ، طالب الدكتوراه في ستانفورد في ذلك الوقت. في عام 2019 ، هو ومستشاره نشر طريقة جديدة لبناء النماذج التوليدية التي لم تقدر التوزيع الاحتمالي للبيانات (السطح عالي الأبعاد). بدلاً من ذلك ، قدرت تدرج التوزيع (فكر في الأمر على أنه منحدر للسطح عالي الأبعاد).

وجد سونج أن أسلوبه يعمل بشكل أفضل إذا قام أولاً بتشويش كل صورة في مجموعة بيانات التدريب بمستويات متزايدة من الضوضاء ، ثم طلب من شبكته العصبية التنبؤ بالصورة الأصلية باستخدام تدرجات التوزيع ، مما أدى إلى تقليل الضوضاء بشكل فعال. بمجرد التدريب ، يمكن لشبكته العصبية أن تأخذ صورة صاخبة مأخوذة من توزيع بسيط وتحولها تدريجياً إلى صورة تمثل مجموعة بيانات التدريب. كانت جودة الصورة رائعة ، لكن نموذج التعلم الآلي الخاص به كان بطيئًا بشكل مؤلم في أخذ العينات. وقد فعل ذلك دون علم بعمل Sohl-Dickstein. قال سونغ: "لم أكن على علم بنماذج الانتشار على الإطلاق". "بعد نشر ورقتنا البحثية لعام 2019 ، تلقيت بريدًا إلكترونيًا من Jascha. لقد أوضح لي أن [نماذجنا] لديها روابط قوية جدًا ".

في عام 2020 ، رأى الطالب الثاني تلك الروابط وأدرك أن عمل سونغ يمكن أن يحسن نماذج انتشار Sohl-Dickstein. جوناثان هو أنهى مؤخرًا عمل الدكتوراه في النمذجة التوليدية في جامعة كاليفورنيا ، بيركلي ، لكنه واصل العمل عليها. قال: "اعتقدت أنه كان أكثر التخصصات الفرعية جمالًا من الناحية الرياضية في التعلم الآلي".

أعاد Ho تصميم وتحديث نموذج انتشار Sohl-Dickstein مع بعض أفكار Song والتطورات الأخرى من عالم الشبكات العصبية. قال: "كنت أعرف أنه من أجل جذب انتباه المجتمع ، كنت بحاجة إلى جعل النموذج يولد عينات رائعة المظهر". "كنت مقتنعا أن هذا كان أهم شيء يمكنني القيام به في ذلك الوقت."

كان حدسه على الفور. أعلن هو وزملاؤه عن نموذج الانتشار الجديد والمحسّن هذا في عام 2020 ، في ورقة بحثية بعنوان "تقليل الضوضاء النماذج الاحتمالية للانتشار. " سرعان ما أصبحت علامة بارزة لدرجة أن الباحثين يشيرون إليها الآن ببساطة باسم DDPM. وفقًا لمعيار واحد لجودة الصورة - والذي يقارن توزيع الصور المُنشأة بتوزيع صور التدريب - فإن هذه النماذج تطابق أو تفوقت على جميع النماذج التوليدية المنافسة ، بما في ذلك شبكات GAN. لم يمض وقت طويل قبل أن يلاحظ اللاعبون الكبار. الآن ، تستخدم DALL · E 2 و Stable Diffusion و Imagen والنماذج التجارية الأخرى بعض الاختلافات في DDPM.

تحتوي نماذج الانتشار الحديثة على مكون رئيسي آخر: نماذج اللغات الكبيرة (LLMs) ، مثل GPT-3. هذه نماذج توليدية تم تدريبها على نصوص من الإنترنت لتعلم توزيعات الاحتمالات على الكلمات بدلاً من الصور. في عام 2021 ، هو الآن عالم أبحاث في شركة تخفي وزميله تيم سالمانس في Google Research ، جنبًا إلى جنب مع فرق أخرى في أماكن أخرى ، أوضحوا كيفية دمج المعلومات من LLM ونموذج نشر الصور لاستخدام النص (على سبيل المثال ، "أسماك ذهبية تلتهم Coca-Cola على الشاطئ") لتوجيه عملية الانتشار وبالتالي توليد الصور. تكمن عملية "الانتشار الموجه" في نجاح نماذج تحويل النص إلى صورة ، مثل DALL · E 2.

قال هو "إنهم يتجاوزون بكثير توقعاتي الجامحة". "لن أتظاهر بأنني رأيت كل هذا قادمًا."

توليد المشاكل

على الرغم من نجاح هذه النماذج ، إلا أن الصور من DALL · E 2 وأمثالها لا تزال بعيدة عن الكمال. يمكن أن تعكس النماذج اللغوية الكبيرة التحيزات الثقافية والمجتمعية ، مثل العنصرية والتمييز على أساس الجنس ، في النص الذي تولده. هذا لأنهم تلقوا تدريبات على نص مأخوذ من الإنترنت ، وغالبًا ما تحتوي هذه النصوص على لغة عنصرية وجنسية. LLMs التي تتعلم التوزيع الاحتمالي على مثل هذا النص تصبح مشبعة بنفس التحيزات. يتم تدريب نماذج الانتشار أيضًا على الصور غير المنسقة المأخوذة من الإنترنت ، والتي يمكن أن تحتوي على بيانات متحيزة بالمثل. لا عجب أن الجمع بين LLMs ونماذج الانتشار الحالية يمكن أن يؤدي في بعض الأحيان إلى صور تعكس أمراض المجتمع.

أناندكومار لديه خبرة مباشرة. عندما حاولت إنشاء صور رمزية منمنمة لنفسها باستخدام تطبيق قائم على نموذج الانتشار ، صُدمت. قالت: "لقد كانت [الكثير] من الصور ذات طابع جنسي للغاية ، في حين أن الأشياء التي كانت تقدمها للرجال لم تكن كذلك." هي غير وحيد.

يمكن تقليل هذه التحيزات عن طريق تنسيق البيانات وتصفيتها (مهمة صعبة للغاية ، نظرًا لضخامة مجموعة البيانات) ، أو عن طريق إجراء عمليات تحقق على كل من مطالبات الإدخال ومخرجات هذه النماذج. قال هو "بالطبع ، لا يوجد شيء بديل عن اختبار السلامة بعناية وعلى نطاق واسع". "هذا تحد مهم للميدان."

على الرغم من هذه المخاوف ، يؤمن أناندكومار بقوة النمذجة التوليدية. قالت: "أحب حقًا اقتباس ريتشارد فاينمان:" ما لا أستطيع إنشاؤه ، لا أفهمه ". مكّن الفهم المتزايد فريقها من تطوير نماذج إنتاجية لإنتاج ، على سبيل المثال ، بيانات تدريب تركيبية للفئات ذات التمثيل المنخفض للمهام التنبؤية ، مثل درجات لون البشرة الداكنة للتعرف على الوجه ، مما يساعد على تحسين الإنصاف. قد تعطينا النماذج التوليدية أيضًا نظرة ثاقبة حول كيفية تعامل أدمغتنا مع المدخلات المزعجة ، أو كيف تستحضر الصور الذهنية وتفكر في العمل المستقبلي. وبناء نماذج أكثر تطوراً يمكن أن يمنح الذكاء الاصطناعي قدرات مماثلة.

قال أناندكومار: "أعتقد أننا في بداية احتمالات ما يمكننا فعله باستخدام الذكاء الاصطناعي التوليدي".

الطابع الزمني:

اكثر من كوانتماجازين