حالة للحوسبة الموزعة لماجستير القانون في التكنولوجيا المالية

حالة للحوسبة الموزعة لماجستير القانون في التكنولوجيا المالية

حالة للحوسبة الموزعة لـ LLMs في ذكاء بيانات Fintech PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.

من الواضح أن العام السابق، على سبيل المثال، كان عام 2023 عامًا متميزًا من حيث التقدم في مجال الذكاء الاصطناعي. تقليديًا، كان هناك شعور دائمًا بأن تحقيق أقصى استفادة من الذكاء الاصطناعي يحتاج إلى استثمار قوي في البنية التحتية والدعم. لم يكن الأمر واضحًا كما كان في العام الماضي نظرًا لفضيلة ظهور الذكاء الاصطناعي التوليدي. كان أداء معظم تقنيات الذكاء الاصطناعي التقليدية قبل Gen AI جيدًا بشكل معقول على عدد قليل من وحدات معالجة الرسومات وذاكرة الوصول العشوائي. كل هذا تغير بعد إصدار GPT-3 بواسطة Open AI والإصدار الإضافي لعدد كبير من النماذج مفتوحة المصدر. كانت نماذج اللغات الكبيرة هذه كبيرة بكل معنى الكلمة، وكانت بحاجة إلى موارد حسابية هائلة في شكل وحدات معالجة رسوميات عالية الأداء وذاكرة كبيرة من حيث ذاكرة الوصول العشوائي. ويُعترف بقطاع الخدمات المالية على وجه الخصوص باعتباره المستفيد الأكبر من هذه التكنولوجيا. يمكن تحسين عدد الموارد المستخدمة في هذا القطاع في تحليل ومعالجة البيانات وخاصة البيانات النصية إلى حد كبير باستخدام LLMs. في الواقع، إن برامج LLM مفتوحة المصدر هي التي وجدت فائدة كبيرة لها في هذا القطاع. وهناك أسباب متعددة لذلك

(أ) أهمية البيانات وأمنها: الكثير من البيانات في القطاع المالي حساسة. ويجب تأمينهم والامتناع عن الوصول إلى الجمهور. يمكن أن يسبب التسرب المحتمل لهذه البيانات مشكلات خطيرة للشركة. إنه يوضح الحاجة إلى حلول مفتوحة المصدر أو حلول داخلية بدلاً من الحلول الخاصة خاصة لحالات الاستخدام الحرجة والحساسة.

(ب) تخصيص LLMs: تتطلب معظم حالات الاستخدام في هذا القطاع تخصيص نماذج LLM مع مجموعة بيانات محددة للغاية تختلف من شركة إلى أخرى من أجل توفير الاستجابة الصحيحة.

من الواضح تمامًا أن قابلية تطبيق LLM مفتوحة المصدر في القطاع المالي آخذة في الازدياد ولكن في نفس الوقت هناك العديد من التحديات في التنفيذ الأساسي لحل LLM. إن العدد الهائل من الموارد المطلوبة من حيث القدرة الحسابية والذاكرة أمر مكلف ويصعب دعمه. خذ على سبيل المثال الحدث المهم الأخير المتمثل في كشف مشروع Big Science عن BLOOM، وهو نموذج يحتوي على 176 مليار معلمة قادرة على دعم 46 لغة طبيعية و13 لغة برمجة. في حين أن إمكانية الوصول العام إلى نماذج المعلمات التي تحتوي على 100B+ قد سهلت استخدامها، إلا أن التحديات المرتبطة بالذاكرة العالية والتكاليف الحسابية لا تزال قائمة. ومن الجدير بالذكر أن الطرازات مثل OPT-175B وBLOOM-176B تتطلب أكثر من 350 جيجابايت من ذاكرة التسريع للاستدلال، وأكثر من ذلك للضبط الدقيق. وبالتالي، فإن الاستخدام العملي لمثل هذه LLMs غالبًا ما يتطلب العديد من وحدات معالجة الرسوميات المتطورة أو مجموعات متعددة العقد، والتي، نظرًا لتكاليفها المرتفعة، تحد من إمكانية الوصول للعديد من الباحثين والممارسين.

وهذا يجعل من المناسب اختبار توقعات مختلفة تمامًا كما يقولون
التفكير من خارج منطقة الجزاء.

نهج العميل – الخادم 

وهذا يجعل من المناسب إعداد الحوسبة الموزعة لـ LLMs كأحد الحلول الممكنة. وهذا أمر منطقي أيضًا لأننا نستخدم بالفعل أنظمة الحوسبة الموزعة العادية مثل الحوسبة السحابية والحوسبة الطرفية. وهذا يسهل التعاون بين عدة مستخدمين بغرض الاستدلال والضبط الدقيق لنماذج اللغات الكبيرة عبر الإنترنت. يمكن للمشاركين في الشبكة الموزعة تولي أدوار الخادم أو العميل أو كليهما. الخادم مسؤول عن استضافة مجموعة فرعية من طبقات النموذج، عادةً كتل المحولات، وإدارة الطلبات الواردة من العملاء. يمكن للعملاء، بدورهم، تشكيل سلسلة من الخوادم المتعاقبة المتوازية لخطوط الأنابيب لتنفيذ استنتاج النموذج بأكمله. وبعيدًا عن الاستدلال، يمكن للمرء المشاركة في أنشطة الضبط الدقيق باستخدام أساليب التدريب ذات المعلمات الفعالة مثل المحولات، أو عن طريق تدريب طبقات بأكملها. يمكن مشاركة الوحدات الفرعية المدربة على مركز النموذج، حيث يمكن للآخرين الاستفادة منها للاستدلال أو لمزيد من التدريب. يوضح هذا التنفيذ الفعال لنماذج 100B+ الموجودة في هذا الإعداد التعاوني، مدعومًا بالعديد من التحسينات مثل القياس الديناميكي، وتحديد أولويات الاتصالات ذات زمن الاستجابة المنخفض، وموازنة التحميل بين الخوادم. دعونا نناقش هذا بمزيد من التفصيل.

تصميم و محة فنية

يمكن تصنيف التطبيقات العملية لنماذج اللغة الكبيرة على نطاق واسع إلى سيناريوهين رئيسيين: الاستدلال والتكيف الفعال للمعلمات مع المهام النهائية. سأحاول تحديد الخطوط العريضة لتصميم الشبكة الموزعة، وتوضيح كيفية إدارتها بفعالية لكلا السيناريوهين وتسهيل المشاركة السلسة للمحولات المدربة بين مستخدمي النظام.

  • استنتاج نماذج المليار مقياس : في عملية إنشاء الرمز المميز، يقوم العميل بتخزين تضمينات الرمز المميز للنموذج محليًا، والتي تشكل عادةً جزءًا صغيرًا من إجمالي عدد المعلمات وتتلاءم بشكل مريح مع ذاكرة الوصول العشوائي (RAM) لمعظم أجهزة الكمبيوتر المحمولة والخوادم ومحطات العمل الحديثة. يعتمد العميل على الخوادم لتنفيذ كتل المحولات، حيث يستضيف كل خادم عدة كتل متتالية، يتم تحديد عددها حسب ذاكرة GPU المتوفرة. قبل كل جلسة استدلال، يقوم العميل بإنشاء سلسلة من الخوادم التي تشمل جميع طبقات النموذج بشكل جماعي. أثناء الجلسة النشطة، يستخدم العميل طبقة التضمين المحلية لاسترداد ناقلات التضمين لرموز البادئة، وإرسال هذه المتجهات إلى الخوادم وتلقي التمثيلات المحدثة. بعد الحصول على مخرجات الكتلة النهائية، يقوم العميل بحساب احتمالات الرمز المميز التالي ويتكرر خلال هذه العملية. تحتفظ الخوادم بمفاتيح الانتباه والقيم من مدخلات العميل السابقة لخطوات الاستدلال اللاحقة، ويقوم العملاء بتخزين المدخلات السابقة لكل خادم لتسهيل الاستبدال السريع في حالة فشل الخادم أو انقطاع الاتصال.
  • التدريب على المهام النهائية: في حين أن نماذج اللغات الكبيرة (LLMs) تتفوق في العديد من المشكلات من خلال الهندسة السريعة البسيطة، إلا أن تحقيق النتائج المثالية غالبًا ما يتطلب التدريب. أصبحت استراتيجيات الضبط الدقيق التقليدية، التي تتضمن تحديث جميع معلمات النموذج للمهمة النهائية، غير عملية بالنسبة للنماذج الكبيرة جدًا بسبب متطلبات الأجهزة الواسعة. على سبيل المثال، قد يتطلب الضبط الدقيق لـ BLOOM-176B ما يقرب من 3 تيرابايت من ذاكرة وحدة معالجة الرسومات لاستيعاب النموذج والتدرجات وحالات المُحسّن. ولمواجهة هذا التحدي، ابتكر مجتمع البرمجة اللغوية العصبية أساليب ضبط دقيقة ذات كفاءة في المعلمات تحافظ على معظم معلمات النماذج التي تم تدريبها مسبقًا. تحدد بعض الأساليب مجموعة فرعية من المعلمات الموجودة، بينما يقوم البعض الآخر بتعزيز النموذج بأوزان إضافية قابلة للتدريب. على الرغم من انخفاض متطلبات الذاكرة، غالبًا ما تتنافس هذه الأساليب ذات الكفاءة في المعلمات بشكل إيجابي مع الضبط الدقيق للنموذج الكامل ويمكن أن تتفوق عليها في سيناريوهات البيانات المنخفضة.
  • ضبط دقيق موزع: الفكرة الأساسية وراء الضبط الدقيق في الشبكة الموزعة هي أن العملاء يمتلكون معلمات مدربة، بينما تستضيف الخوادم الطبقات الأصلية المدربة مسبقًا. يمكن للخوادم تشغيل الانتشار العكسي عبر طبقاتها، وإرجاع التدرجات المتعلقة بعمليات التنشيط، لكنها لا تقوم بتحديث المعلمات من جانب الخادم. يتيح ذلك للعملاء تنفيذ مهام تدريبية مختلفة بشكل متزامن على نفس مجموعة الخوادم دون تدخل.

الهيكل الداخلي والتحسينات

تعتبر اعتبارات الأداء ذات أهمية قصوى للاستدلال الموزع، الذي يتضمن ثلاثة جوانب رئيسية: سرعة الحساب (مقارنة وحدة معالجة الرسومات المخصصة للألعاب عمرها 5 سنوات مع وحدة معالجة الرسومات الجديدة لمركز البيانات)، وتأخير الاتصال بسبب مسافة العقدة (عابرة للقارات مقابل المحلية)، وعرض النطاق الترددي الناجم عن تأخير الاتصال (10 ميجابت/ثانية مقابل 10 جيجابت/ثانية). في حين أن حتى وحدات معالجة الرسومات المخصصة للمستهلكين مثل GeForce RTX 3070 تتميز بالقدرة على تنفيذ خطوة استدلال كاملة لـ BLOOM-176B في أقل من ثانية، فإن التحدي يكمن في قيود ذاكرة وحدة معالجة الرسومات، مما يستلزم حلولاً فعالة. تتمثل إحدى طرق معالجة ذلك في استخدام القياس الكمي لتخزين المعلمات الأمثل وتحديد أولويات الخادم الديناميكي لتحسين سرعة الاتصال.

  • استخدام وحدات معالجة الرسومات الاستهلاكية: بالنظر إلى حقيقة أن كل خادم يمتلك ما لا يقل عن 16 جيجابايت من ذاكرة الوصول العشوائي لوحدة المعالجة المركزية و8 جيجابايت من ذاكرة وحدة معالجة الرسومات، فإن الهدف الأساسي هو تقليل أثر ذاكرة النموذج، مما يتيح لكل جهاز استيعاب المزيد من كتل المحولات. بالنسبة إلى BLOOM بمعلمات 176B، التي تتطلب 352 جيجابايت من ذاكرة وحدة معالجة الرسومات بدقة 16 بت، يمكننا تحسين ذلك عن طريق ضغط الحالات المخفية من خلال التكميم الديناميكي وتقليل الأوزان إلى دقة 8 بت باستخدام تحليل المصفوفة المختلطة. ويؤدي هذا إلى انخفاض كبير في العدد المطلوب من العقد، مما يؤدي بشكل فعال إلى خفض زمن الوصول إلى النصف وتقليل احتمالية الفشل.
  • ضغط Communication معادِلات:
    يمكننا استخدام التكميم الديناميكي Blockwise في الحالات المخفية قبل الاتصال المتوازي لخطوط الأنابيب، مما يؤدي إلى خفض متطلبات عرض النطاق الترددي إلى النصف دون المساس بجودة التوليد. 
  • ضغط الأوزان النموذجية: يؤدي استخدام تحليل المصفوفة المختلطة 8 بت لمضاعفة المصفوفة إلى تقليل مساحة الذاكرة بمقدار النصف تقريبًا دون التضحية بالجودة.
  • التعاون عبر الإنترنت: من أجل ضمان الاستدلال والتدريب الموثوقين على الرغم من انضمام العقد أو مغادرتها أو فشلها. يمكننا الاستفادة من مكتبة hivemind للتدريب اللامركزي والبروتوكولات المخصصة لتحمل الأخطاء للخوادم والعملاء.

الديمقراطية ومخاوف الخصوصية

يمكننا أن نستلهم من Blockchain لمعالجة عدم التوازن المحتمل بين النظراء الذين يوفرون موارد GPU (الخوادم) وأولئك الذين يستخدمون هذه الخوادم للاستدلال أو الضبط الدقيق. ولمعالجة هذه المشكلة، يمكن تنفيذ نظام للحوافز. يمكن للأقران الذين يقومون بتشغيل الخوادم أن يحصلوا على نقاط خاصة، يمكن استبدالها بالاستدلال ذي الأولوية العالية والضبط الدقيق أو مكافآت أخرى. ويهدف هذا النهج إلى تشجيع المشاركة النشطة والحفاظ على شبكة متوازنة. يتمثل أحد القيود المعترف بها في نهجنا الحالي في المخاوف المحتملة المتعلقة بالخصوصية، حيث يمكن للأقران الذين يخدمون الطبقات الأولية للنموذج الاستفادة من المدخلات لاستعادة رموز الإدخال. تتمثل إحدى طرق معالجة ذلك في نصح المستخدمين الذين يتعاملون مع البيانات الحساسة بقصر عملائهم على الخوادم الموثوقة أو إنشاء سربهم المعزول. على الرغم من أنه يمكننا استكشاف تقنيات تحسين الخصوصية مثل الحوسبة الآمنة متعددة الأطراف أو أجهزة الحفاظ على الخصوصية من NVIDIA.

وفي الختام

هدفي من خلال هذه المدونة هو تقديم وجهة نظري حول الحوسبة الموزعة للذكاء الاصطناعي وشرح سبب كونها مطلوبة ولمحة فنية موجزة عن أحد الأساليب الممكنة لتنفيذها. وأنا منفتح لمناقشة أفكار جديدة لتنفيذ ذلك. وبالنظر إلى حقيقة أنه سيكون هناك تطبيق واسع النطاق للذكاء الاصطناعي في القطاع المالي في السنوات المقبلة، علينا أن نبدأ في التفكير في كيفية الاستفادة من الموارد الحالية على النحو الأمثل قبل إنشاء موارد جديدة. والهدف الآخر هو إضفاء الطابع الديمقراطي على الوصول إلى نماذج اللغة الكبيرة، مما يتيح مجموعة واسعة من التطبيقات والدراسات والمسائل البحثية التي كانت في السابق صعبة أو باهظة التكلفة.

 

الطابع الزمني:

اكثر من فينتكسترا