التنقل في التكلفة العالية لحساب الذكاء الاصطناعي

التنقل في التكلفة العالية لحساب الذكاء الاصطناعي

التعامل مع التكلفة العالية للذكاء الاصطناعي لحساب ذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.
المصدر: ميدجورني

إن طفرة الذكاء الاصطناعي التوليدية مرتبطة بالحسابات. لها خاصية فريدة وهي أن إضافة المزيد من الحوسبة يؤدي مباشرة إلى منتج أفضل. عادةً ما يكون الاستثمار في البحث والتطوير مرتبطًا بشكل مباشر بدرجة أكبر بمدى قيمة المنتج ، وهذه العلاقة هي علاقة فرعية بشكل ملحوظ. لكن هذا ليس كذلك حاليًا مع الذكاء الاصطناعي ، ونتيجة لذلك ، فإن العامل السائد الذي يقود الصناعة اليوم هو ببساطة تكلفة التدريب والاستدلال. 

على الرغم من أننا لا نعرف الأرقام الحقيقية ، فقد سمعنا من مصادر حسنة السمعة أن عرض الحوسبة مقيد للغاية ، والطلب يفوقه بمعامل 10 (!) لذلك نعتقد أنه من العدل أن نقول ذلك ، الآن ، أصبح الوصول إلى موارد الحوسبة - بأقل تكلفة إجمالية - عاملاً حاسماً في نجاح شركات الذكاء الاصطناعي.

في الواقع ، لقد رأينا العديد من الشركات تنفق أكثر من 80٪ من إجمالي رأس مالها على موارد الحوسبة!

في هذا المنشور ، نحاول تفصيل عوامل التكلفة لشركة AI. ستتغير الأرقام المطلقة بالطبع بمرور الوقت ، لكننا لا نرى ارتياحًا فوريًا من التزام شركات الذكاء الاصطناعي بوصولها إلى موارد الحوسبة. لذلك ، آمل أن يكون هذا إطار عمل مفيدًا للتفكير من خلال المشهد. 

لماذا تعتبر نماذج الذكاء الاصطناعي باهظة الثمن من الناحية الحسابية؟

هناك مجموعة متنوعة من نماذج الذكاء الاصطناعي التوليدية ، وتعتمد تكاليف الاستدلال والتدريب على حجم النموذج ونوعه. لحسن الحظ ، فإن النماذج الأكثر شيوعًا اليوم هي في الغالب البنى القائمة على المحولات ، والتي تشمل نماذج اللغات الكبيرة الشائعة (LLMs) مثل GPT-3 أو GPT-J أو BERT. في حين أن العدد الدقيق لعمليات الاستدلال وتعلم المحولات خاص بالنموذج (انظر هذه الورقة) ، هناك قاعدة عامة دقيقة إلى حد ما تعتمد فقط على عدد المعلمات (أي أوزان الشبكات العصبية) للنموذج وعدد رموز الإدخال والإخراج. 

الرموز هي في الأساس تسلسلات قصيرة من بضعة أحرف. إنها تتوافق مع الكلمات أو أجزاء من الكلمات. أفضل طريقة للحصول على حدس للرموز هي تجربة الرموز المميزة باستخدام الرموز المميزة المتاحة للجمهور على الإنترنت (على سبيل المثال ، OpenAI). بالنسبة إلى GPT-3 ، متوسط ​​طول الرمز المميز 4 أحرف

القاعدة الأساسية للمحولات هي أن التمرير الأمامي (أي الاستدلال) لنموذج به p معلمات لإدخال وتسلسل إخراج من الطول n رموز كل, يستغرق ما يقرب من 2 * ن * ص عمليات الفاصلة العائمة (فلوبس) ¹. يستغرق التدريب على نفس النموذج تقريبًا 6 * ص FLOPS لكل رمز مميز (على سبيل المثال ، يتطلب التمرير الخلفي الإضافي أربع عمليات إضافية²). يمكنك تقريب تكلفة التدريب الإجمالية بضربها في كمية الرموز المميزة في بيانات التدريب.

تعتمد متطلبات الذاكرة للمحولات أيضًا على حجم النموذج. للاستدلال ، نحتاج إلى p معلمات النموذج لتناسب الذاكرة. للتعلم (أي ، الانتشار الخلفي) ، نحتاج إلى تخزين قيم وسيطة إضافية لكل معلمة بين التمرير الأمامي والخلفي. بافتراض أننا نستخدم أرقام فاصلة عائمة 32 بت ، فهذا هو 8 بايت إضافية لكل معلمة. لتدريب نموذج مكون من 175 مليار متغير ، سنحتاج إلى الاحتفاظ بأكثر من تيرابايت من البيانات في الذاكرة - وهذا يتجاوز أي وحدة معالجة رسومات موجودة اليوم ويتطلب منا تقسيم النموذج عبر البطاقات. يمكن تحسين متطلبات الذاكرة للاستدلال والتدريب باستخدام قيم الفاصلة العائمة ذات الأطوال الأقصر ، حيث تصبح 16 بت شائعة ومتوقعة 8 بت في المستقبل القريب.

التعامل مع التكلفة العالية للذكاء الاصطناعي لحساب ذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.

يحتوي الجدول أعلاه على أحجام وتكاليف حساب للعديد من النماذج الشائعة. يحتوي GPT-3 على ما يقرب من 175 مليار معلمة ، والتي بالنسبة لمدخلات ومخرجات تبلغ 1,024،350 رمزًا ، ينتج عنها تكلفة حسابية تبلغ حوالي 3 تريليون عملية فاصلة عائمة (على سبيل المثال ، Teraflops أو TFLOPS). يتطلب تدريب نموذج مثل GPT-3.14 حوالي 10 * 23 ^ XNUMX من عمليات الفاصلة العائمة. نماذج أخرى مثل Meta LLaMA لها حتى انه اعلى متطلبات الحساب. يعد تدريب مثل هذا النموذج أحد المهام الأكثر كثافة من الناحية الحسابية التي اضطلعت بها البشرية حتى الآن. 

للتلخيص: البنية التحتية للذكاء الاصطناعي مكلفة لأن المشاكل الخوارزمية الأساسية صعبة للغاية من الناحية الحسابية. يعد التعقيد الخوارزمي لفرز جدول قاعدة بيانات بمليون إدخال غير مهم مقارنةً بتعقيد إنشاء كلمة واحدة باستخدام GPT-3. هذا يعني أنك تريد اختيار النموذج الأصغر الذي يحل حالة الاستخدام الخاصة بك. 

الخبر السار هو أنه بالنسبة للمحولات ، يمكننا بسهولة تقدير مقدار الحوسبة والذاكرة التي سيستهلكها نموذج بحجم معين. وبالتالي ، فإن اختيار الأجهزة المناسبة يصبح الاعتبار التالي. 

وسيطة الوقت والتكلفة لوحدات معالجة الرسومات

كيف يترجم التعقيد الحسابي إلى الوقت؟ يمكن أن يقوم نواة المعالج عادةً بتنفيذ 1-2 تعليمات لكل دورة ، وكانت معدلات ساعة المعالج مستقرة حول 3 جيجاهرتز على مدار الخمسة عشر عامًا الماضية بسبب نهاية دينارد تحجيم. تنفيذ عملية استدلال GPT-3 واحدة دون استغلال أي معمارية متوازية سيستغرق الأمر 350 TFLOPS / (3 GHz * 1 FLOP) أو 116,000 ثانية ، أو 32 ساعة. هذا غير عملي إلى حد كبير. بدلاً من ذلك ، نحتاج إلى شرائح متخصصة تعمل على تسريع هذه المهمة.

من الناحية العملية ، تعمل جميع نماذج الذكاء الاصطناعي اليوم على بطاقات تستخدم عددًا كبيرًا جدًا من النوى المتخصصة. على سبيل المثال ، تحتوي وحدة معالجة الرسومات NVIDIA A100 على 512 "نواة موتر" يمكنها إجراء مضاعفة مصفوفة 4 × 4 (أي ما يعادل 64 عملية ضرب وإضافة ، أو 128 FLOPS) في دورة واحدة. غالبًا ما يشار إلى بطاقات تسريع الذكاء الاصطناعي باسم وحدات معالجة الرسومات (GPU) ، حيث تم تطوير البنية في الأصل لألعاب سطح المكتب. في المستقبل ، نتوقع أن يصبح الذكاء الاصطناعي بشكل متزايد عائلة منتجات متميزة. 

يتميز A100 بأداء رمزي يبلغ 312 TFLOPS وهو ما يقلل من الناحية النظرية الاستدلال لـ GPT-3 إلى حوالي ثانية واحدة. ومع ذلك ، هذا حساب مفرط في التبسيط لعدة أسباب. أولاً ، بالنسبة لمعظم حالات الاستخدام ، فإن الاختناق ليس قوة الحوسبة لوحدة معالجة الرسومات ولكن القدرة على الحصول على البيانات من ذاكرة الرسومات المتخصصة إلى نوى الموتر. ثانيًا ، ستستهلك الأوزان 1 مليارًا 175 جيجابايت ولن تتناسب مع ذاكرة الرسومات لأي وحدة معالجة رسومات. يجب استخدام تقنيات مثل التقسيم وتدفق الوزن. وثالثًا ، هناك عدد من التحسينات (على سبيل المثال ، استخدام تمثيلات الفاصلة العائمة الأقصر ، مثل FP700 أو FP16 أو المصفوفات المتفرقة) التي يتم استخدامها لتسريع الحساب. ولكن ، بشكل عام ، تعطينا الرياضيات المذكورة أعلاه حدسًا لتكلفة الحساب الإجمالية لـ LLMs اليوم.

يستغرق تدريب نموذج المحولات حوالي ثلاثة أضعاف الوقت الذي تستغرقه عملية الاستدلال. ومع ذلك ، نظرًا لأن مجموعة بيانات التدريب أكبر بنحو 300 مليون مرة من موجه الاستدلال ، فإن التدريب يستغرق وقتًا أطول بمقدار مليار عامل. على وحدة معالجة الرسوميات GPU واحدة ، سيستغرق التدريب عقودًا ؛ في الممارسة العملية ، يتم ذلك على مجموعات حسابية كبيرة في مراكز بيانات مخصصة أو ، على الأرجح ، في السحابة. من الصعب أيضًا موازاة التدريب أكثر من الاستدلال ، حيث يجب تبادل الأوزان المحدثة بين العقد. غالبًا ما تصبح الذاكرة وعرض النطاق الترددي بين وحدات معالجة الرسومات عاملاً أكثر أهمية بكثير ، حيث تكون الوصلات عالية السرعة والأقمشة المخصصة شائعة. لتدريب النماذج الكبيرة جدًا ، يمكن أن يكون إنشاء إعداد شبكة مناسب هو التحدي الأساسي. بالنظر إلى المستقبل ، ستتمتع مسرعات الذكاء الاصطناعي بإمكانات الاتصال بالشبكات على البطاقة أو حتى على الشريحة. 

كيف يترجم هذا التعقيد الحسابي إلى تكلفة؟ استنتاج GPT-3 ، الذي ، كما رأينا أعلاه ، يستغرق ثانية واحدة تقريبًا على A1 سيكون له تكلفة حساب أولية تتراوح بين 100 دولار أمريكي و 0.0002 دولار أمريكي لكل 0.0014 رمز مميز (هذا بالمقارنة مع تسعير OpenAI البالغ 1,000 دولار / 0.002 رمز مميز). سيكلف المستخدم الذي يقوم بإنشاء 1000 طلب استنتاج يوميًا في حدود الدولارات في السنة. هذه نقطة سعر منخفضة للغاية وتجعل معظم حالات استخدام الذكاء الاصطناعي المستندة إلى النص من قبل البشر قابلة للتطبيق من الناحية المالية.

قادة الإيمان من ناحية أخرى ، فإن GPT-3 أغلى بكثير. مرة أخرى ، فإن حساب تكلفة الحساب فقط لـ 3.14 * 10 ^ 23 FLOPS بالمعدلات المذكورة أعلاه يعطينا تقديرًا قدره 560,000 دولار على بطاقات A100 مقابل تشغيل تدريب واحد. من الناحية العملية ، بالنسبة للتدريب ، لن نحصل على كفاءة تقارب 100٪ في وحدة معالجة الرسومات ؛ ومع ذلك يمكننا أيضًا استخدام التحسينات لتقليل وقت التدريب. تتراوح التقديرات الأخرى لتكلفة التدريب GPT-3 من $500,000 إلى 4.6 مليون $، اعتمادًا على افتراضات الأجهزة. لاحظ أن هذه هي تكلفة التشغيل الفردي وليست التكلفة الإجمالية. من المحتمل أن تكون هناك حاجة لعمليات تشغيل متعددة وسيرغب موفرو السحابة في التزامات طويلة الأجل (المزيد حول هذا أدناه). يظل تدريب أفضل النماذج باهظ التكلفة ، ولكن في متناول شركة ناشئة جيدة التمويل.

للتلخيص ، يتطلب الذكاء الاصطناعي التوليدي استثمارات ضخمة في البنية التحتية للذكاء الاصطناعي اليوم. لا يوجد سبب للاعتقاد بأن هذا سيتغير في المستقبل القريب. يعد تدريب نموذج مثل GPT-3 أحد أكثر المهام التي اضطلعت بها البشرية كثافة من الناحية الحسابية على الإطلاق. وبينما تزداد سرعة وحدات معالجة الرسومات ، ونجد طرقًا لتحسين التدريب ، فإن التوسع السريع للذكاء الاصطناعي ينفي هذين التأثيرين.

اعتبارات للبنية التحتية للذكاء الاصطناعي

إلى هذه النقطة ، حاولنا أن نمنحك بعض الحدس للمقياس المطلوب للقيام بالتدريب والاستدلال على نماذج الذكاء الاصطناعي ، وما هي المعلمات الأساسية التي تحركها. مع هذا السياق ، نريد الآن تقديم بعض الإرشادات العملية حول كيفية تحديد البنية التحتية للذكاء الاصطناعي التي يجب استخدامها.

البنية التحتية الخارجية مقابل البنية التحتية الداخلية

دعونا نواجه الأمر: وحدات معالجة الرسومات رائعة. يميل العديد من المهندسين والمؤسسين المهتمين بالهندسة إلى توفير أجهزة الذكاء الاصطناعي الخاصة بهم ، ليس فقط لأنه يمنح تحكمًا دقيقًا في تدريب النموذج ، ولكن لأن هناك شيئًا ممتعًا حول تسخير كميات كبيرة من قوة الحوسبة (معرض a).

الحقيقة ، ومع ذلك ، هو ذلك لا تحتاج العديد من الشركات الناشئة - خاصة شركات التطبيقات - إلى إنشاء البنية التحتية للذكاء الاصطناعي الخاصة بها في اليوم الأول ، بدلاً من ذلك ، تتيح خدمات النموذج المستضافة مثل OpenAI أو Hugging Face (للغة) و Replicate (لتوليد الصور) للمؤسسين البحث بسرعة عن المنتج المناسب للسوق دون الحاجة إلى إدارة البنية التحتية الأساسية أو النماذج.

لقد أصبحت هذه الخدمات جيدة لدرجة أن العديد من الشركات لا تتخرج منها أبدًا. يمكن للمطورين تحقيق تحكم ذي مغزى في أداء النموذج من خلال الهندسة السريعة والضبط الدقيق لعمليات التجريد (أي الضبط الدقيق من خلال استدعاءات واجهة برمجة التطبيقات). يعتمد تسعير هذه الخدمات على الاستهلاك ، لذلك غالبًا ما يكون أرخص من تشغيل بنية تحتية منفصلة. لقد رأينا شركات تطبيقات تولد أكثر من 50 مليون دولار من ARR ، وتقدر قيمتها بأكثر من 1 مليار دولار ، تدير خدمات نموذجية مستضافة تحت الغطاء.

على الجانب الآخر ، بعض الشركات الناشئة - على وجه الخصوص هؤلاء الذين يقومون بتدريب نماذج أساسية جديدة أو بناء تطبيقات ذكاء اصطناعي متكاملة رأسياً - لا يمكنهم تجنب تشغيل نماذجهم الخاصة مباشرةً على وحدات معالجة الرسومات. إما لأن النموذج هو المنتج الفعال وأن الفريق يبحث عن "نموذج مناسب للسوق" ، أو لأن التحكم الدقيق في التدريب و / أو الاستدلال مطلوب لتحقيق قدرات معينة أو تقليل التكلفة الهامشية على نطاق واسع. في كلتا الحالتين ، يمكن أن تصبح إدارة البنية التحتية مصدرًا للميزة التنافسية.

إنشاء السحابة مقابل مركز البيانات

في معظم الحالات ، تكون السحابة هي المكان المناسب للبنية التحتية للذكاء الاصطناعي. تعد التكلفة الأولية الأقل ، والقدرة على التوسع والتصغير ، والتوافر الإقليمي ، وتقليل تشتيت الانتباه عن بناء مركز البيانات الخاص بك أمرًا مقنعًا لمعظم الشركات الناشئة والشركات الكبيرة.

لكن هناك استثناءات قليلة لهذه القاعدة:

  • إذا كنت تعمل على نطاق واسع جدًا ، فقد يصبح تشغيل مركز البيانات الخاص بك أكثر فعالية من حيث التكلفة. تختلف نقطة السعر الدقيقة بناءً على الموقع الجغرافي والإعداد ، ولكنها تتطلب عادةً إنفاقًا على البنية التحتية يزيد عن 50 مليون دولار سنويًا.
  • أنت بحاجة إلى أجهزة محددة للغاية لا يمكنك الحصول عليها من موفر السحابة. على سبيل المثال ، أنواع GPU غير المتوفرة على نطاق واسع ، بالإضافة إلى الذاكرة أو التخزين أو متطلبات الشبكة غير العادية.
  • لا يمكنك العثور على سحابة مقبولة لاعتبارات جيوسياسية.

إذا كنت ترغب في إنشاء مركز بيانات خاص بك ، فقد كان هناك تحليل شامل للسعر / الأداء لوحدات معالجة الرسومات من أجل الإعداد الخاص بك (على سبيل المثال ، تحليل تيم ديتمر). بالإضافة إلى تكلفة وأداء البطاقة نفسها ، يعتمد اختيار الأجهزة أيضًا على الطاقة والمساحة والتبريد. على سبيل المثال ، تتمتع بطاقتا RTX 3080 Ti معًا بقدرة حوسبة خام مماثلة لـ A100 ، لكن استهلاك الطاقة لكل منهما هو 700 واط مقابل 300 واط. يزيد فرق الطاقة البالغ 3,500 كيلووات في الساعة بمعدلات السوق البالغة 0.10 دولارًا أمريكيًا / كيلو واط في الساعة على مدار دورة حياة مدتها ثلاث سنوات من تكلفة RTX3080 Ti بمقدار ضعفين تقريبًا (حوالي 2 دولار أمريكي).

بعد كل هذا ، نتوقع أن تستخدم الغالبية العظمى من الشركات الناشئة الحوسبة السحابية. 

مقارنة مزودي الخدمة السحابية 

تقدم كل من Amazon Web Services (AWS) و Microsoft Azure و Google Cloud Platform (GCP) مثيلات GPU ، لكن يبدو أن مقدمي الخدمة الجدد يركزون أيضًا على أعباء عمل الذكاء الاصطناعي على وجه التحديد. إليك إطار عمل رأيناه يستخدمه العديد من المؤسسين لاختيار موفر السحابة:

السعر: يوضح الجدول أدناه أسعار عدد من السحابات المتخصصة الرئيسية والصغيرة اعتبارًا من 7 أبريل 2023. هذه البيانات إرشادية فقط ، حيث تختلف الحالات اختلافًا كبيرًا من حيث عرض النطاق الترددي للشبكة ، وتكاليف خروج البيانات ، والتكلفة الإضافية من وحدة المعالجة المركزية والشبكة ، والمتاحة الخصومات وعوامل أخرى.

التعامل مع التكلفة العالية للذكاء الاصطناعي لحساب ذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.

القدرة الحسابية على أجهزة معينة هي سلعة. بسذاجة ، نتوقع أسعارًا موحدة إلى حد ما ، لكن هذا ليس هو الحال. وعلى الرغم من وجود اختلافات جوهرية في الميزات بين السحب ، إلا أنها غير كافية لتوضيح أن سعر NVIDIA A100 عند الطلب يختلف بعامل يقارب 4x بين مقدمي الخدمة.

في الطرف العلوي من مقياس السعر ، تتقاضى السحابات العامة الكبيرة علاوة على أساس سمعة العلامة التجارية ، والموثوقية المثبتة ، والحاجة إلى إدارة مجموعة واسعة من أعباء العمل. يقدم موفرو الذكاء الاصطناعي المتخصصون الأصغر أسعارًا أقل ، إما عن طريق تشغيل مراكز البيانات المصممة لهذا الغرض (على سبيل المثال ، Coreweave) أو التحكيم في السحب الأخرى (على سبيل المثال ، Lambda Labs).

من الناحية العملية ، يتفاوض معظم المشترين الكبار على الأسعار مباشرة مع مزودي الخدمات السحابية ، ويلتزمون غالبًا ببعض متطلبات الحد الأدنى للإنفاق بالإضافة إلى الحد الأدنى من الالتزامات الزمنية (لقد رأينا 1-3 سنوات). تتقلص فروق الأسعار بين السحب إلى حد ما بعد التفاوض ، لكننا رأينا أن الترتيب في الجدول أعلاه يظل مستقرًا نسبيًا. من المهم أيضًا ملاحظة أن الشركات الصغيرة يمكنها الحصول على أسعار قوية من السحب المتخصصة دون التزامات إنفاق كبيرة.

المخزون: كانت أقوى وحدات معالجة الرسومات (على سبيل المثال ، Nvidia A100s) تعاني من نقص مستمر في المعروض منذ أكثر من 12 شهرًا. 

سيكون من المنطقي التفكير في أن أفضل ثلاثة مزودين للخدمات السحابية لديهم أفضل إتاحة ، نظرًا لقوتهم الشرائية الكبيرة ومجموعة الموارد. ولكن ، من المدهش إلى حد ما ، أن العديد من الشركات الناشئة لم تجد أن هذا صحيح. تحتوي السحابات الكبيرة على الكثير من الأجهزة ولكن لديها أيضًا احتياجات كبيرة للعملاء لإرضائها - على سبيل المثال ، Azure هو المضيف الأساسي لـ ChatGPT - وتقوم باستمرار بإضافة / تأجير سعة لتلبية الطلب. وفي الوقت نفسه ، التزمت Nvidia بإتاحة الأجهزة على نطاق واسع في جميع أنحاء الصناعة ، بما في ذلك التخصيصات لمقدمي الخدمات المتخصصين الجدد. (يفعلون ذلك ليكونوا عادلين وللتقليل من اعتمادهم على عدد قليل من العملاء الكبار الذين يتنافسون معهم أيضًا).

نتيجة لذلك ، تجد العديد من الشركات الناشئة المزيد من الرقائق المتاحة ، بما في ذلك أحدث شرائح Nvidia H100 ، في موفري السحابة الأصغر. إذا كنت على استعداد للعمل مع شركة بنية تحتية أحدث ، فقد تتمكن من تقليل أوقات الانتظار للأجهزة وربما توفير المال في هذه العملية.

حساب نموذج التسليم: لا تقدم السحابات الكبيرة اليوم سوى مثيلات مع وحدات معالجة رسومات مخصصة ، والسبب هو أن المحاكاة الافتراضية لوحدة معالجة الرسومات لا تزال مشكلة لم يتم حلها. تقدم السحابات المتخصصة للذكاء الاصطناعي نماذج أخرى ، مثل الحاويات أو الوظائف المجمعة ، التي يمكنها التعامل مع المهام الفردية دون تكبد تكلفة بدء التشغيل والتمزيق لمثيل ما. إذا كنت مرتاحًا لهذا النموذج ، فيمكنه تقليل التكلفة بشكل كبير.

يربط الشبكة: للتدريب ، على وجه التحديد ، يعد النطاق الترددي للشبكة عاملاً رئيسيًا في اختيار المزود. المجموعات ذات الأقمشة المخصصة بين العقد ، مثل NVLink ، ضرورية لتدريب بعض النماذج الكبيرة. بالنسبة لتوليد الصور ، يمكن أن تكون رسوم حركة الخروج أيضًا محركًا رئيسيًا للتكلفة.

دعم العملاء: يخدم مقدمو الخدمات السحابية الكبيرة مجموعة ضخمة من العملاء عبر الآلاف من وحدات SKU الخاصة بالمنتجات. قد يكون من الصعب جذب انتباه دعم العملاء ، أو حل مشكلة ما ، إلا إذا كنت عميلًا كبيرًا. من ناحية أخرى ، تقدم العديد من سحابات الذكاء الاصطناعي المتخصصة دعمًا سريعًا وسريع الاستجابة حتى للعملاء الصغار. هذا جزئيًا لأنهم يعملون على نطاق أصغر ، ولكن أيضًا لأن أعباء العمل لديهم أكثر تجانسًا - لذلك يتم تحفيزهم بشكل أكبر للتركيز على الميزات والأخطاء الخاصة بالذكاء الاصطناعي.

مقارنة وحدات معالجة الرسومات 

مع تساوي كل شيء آخر ، ستعمل وحدات معالجة الرسومات المتطورة بشكل أفضل في جميع أحمال العمل تقريبًا. ومع ذلك ، كما ترى في الجدول أدناه ، فإن أفضل الأجهزة تكون أيضًا أكثر تكلفة بشكل كبير. يمكن أن يؤدي اختيار النوع المناسب من GPU لتطبيقك المحدد إلى تقليل التكلفة بشكل كبير وقد يحدث فرقًا بين نموذج أعمال قابل للتطبيق وغير قابل للتطبيق.

التعامل مع التكلفة العالية للذكاء الاصطناعي لحساب ذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.

يعد تحديد المدى الذي يجب أن تصل إليه القائمة - أي تحديد خيارات GPU الأكثر فعالية من حيث التكلفة لتطبيقك - قرارًا تقنيًا إلى حد كبير خارج نطاق هذه المقالة. لكننا سنشارك أدناه بعض معايير الاختيار التي رأيناها الأكثر أهمية:

التدريب مقابل الاستدلال: كما رأينا في القسم الأول أعلاه ، يتطلب تدريب نموذج محول منا تخزين 8 بايت من البيانات للتدريب بالإضافة إلى أوزان النموذج. وهذا يعني أنه بالكاد يمكن استخدام وحدة معالجة الرسومات (GPU) النموذجية للمستهلكين الراقيين بسعة 12 جيجابايت من الذاكرة لتدريب نموذج مكون من 4 مليارات معلمة. من الناحية العملية ، يتم تدريب النماذج الكبيرة على مجموعات من الأجهزة مع العديد من وحدات معالجة الرسومات (GPU) لكل خادم ، والكثير من VRAM ، واتصالات النطاق الترددي العالي بين الخوادم (على سبيل المثال ، المجموعات التي تم إنشاؤها باستخدام وحدات معالجة رسومات مركز البيانات المتطورة).

على وجه التحديد ، ستكون العديد من الطرز أكثر فعالية من حيث التكلفة على NVIDIA H100 ، ولكن اعتبارًا من اليوم من الصعب العثور عليها وعادة ما تتطلب التزامًا طويل الأجل لأكثر من عام. يدير NVIDIA A100 معظم نماذج التدريب اليوم ؛ من السهل العثور عليها ، ولكن بالنسبة للمجموعات الكبيرة ، قد تتطلب أيضًا التزامًا طويل الأجل.

متطلبات الذاكرة: تحتوي LLMs الكبيرة على عدد معلمات مرتفع جدًا بحيث لا يتناسب مع أي بطاقة. يجب تقسيمها عبر بطاقات متعددة وتتطلب إعدادًا مشابهًا للتدريب. بمعنى آخر ، ربما تحتاج إلى H100s أو A100s حتى لاستدلال LLM. لكن النماذج الأصغر (على سبيل المثال ، الانتشار المستقر) تتطلب القليل من VRAM. في حين أن A100 لا يزال شائعًا ، فقد رأينا أن الشركات الناشئة تستخدم بطاقات A10 و A40 و A4000 و A5000 و A6000 أو حتى RTX. 

دعم الأجهزة: في حين أن الغالبية العظمى من أعباء العمل في الشركات التي تحدثنا عنها لتشغيلها على NVIDIA ، بدأ القليل منهم في التجريب مع البائعين الآخرين. الأكثر شيوعًا هو Google TPU ، ولكن يبدو أن Gaudi 2 من Intel يحصل على بعض الجر أيضًا. يتمثل التحدي الذي يواجه هؤلاء البائعين في أن أداء نموذجك غالبًا ما يعتمد بشكل كبير على توفر تحسينات البرامج لهذه الرقائق. من المحتمل أن تقوم بعمل PoC لفهم الأداء.

متطلبات الكمون: بشكل عام ، يمكن لأحمال العمل الأقل حساسية لوقت الاستجابة (على سبيل المثال ، معالجة البيانات المجمعة أو التطبيقات التي لا تتطلب استجابات تفاعلية لواجهة المستخدم) استخدام وحدات معالجة الرسومات الأقل قوة. يمكن أن يؤدي ذلك إلى تقليل تكلفة الحوسبة بما يصل إلى 3-4x (على سبيل المثال ، مقارنة A100s بـ A10s على AWS). من ناحية أخرى ، غالبًا ما تحتاج التطبيقات التي تواجه المستخدم إلى بطاقات متطورة لتقديم تجربة مستخدم جذابة في الوقت الفعلي. غالبًا ما يكون تحسين النماذج ضروريًا لتحقيق التكاليف في نطاق يمكن إدارته.

شائك: غالبًا ما تشهد شركات الذكاء الاصطناعي التوليدية ارتفاعات كبيرة في الطلب نظرًا لأن التكنولوجيا جديدة ومثيرة للغاية. ليس من غير المعتاد أن ترى أحجام الطلبات تزداد بمقدار 10 أضعاف في اليوم ، بناءً على إصدار منتج جديد ، أو تنمو بنسبة 50٪ أسبوعيًا باستمرار. غالبًا ما يكون التعامل مع هذه الارتفاعات أسهل في وحدات معالجة الرسومات المنخفضة النهاية ، حيث من المحتمل أن تتوفر المزيد من عقد الحوسبة عند الطلب. غالبًا ما يكون من المنطقي أيضًا خدمة هذا النوع من الزيارات بموارد منخفضة التكلفة - على حساب الأداء - إذا كانت تأتي من مستخدمين أقل تفاعلًا أو أقل احتفاظًا.

تحسين النماذج وجدولتها

يمكن أن تؤثر تحسينات البرامج بشكل كبير على وقت تشغيل النماذج - ومكاسب 10x ليست غير شائعة. ومع ذلك ، ستحتاج إلى تحديد الطرق الأكثر فعالية مع الطراز والنظام الخاصين بك.

تعمل بعض التقنيات مع مجموعة واسعة إلى حد ما من النماذج. يؤدي استخدام تمثيلات أقصر للفاصلة العائمة (على سبيل المثال ، FP16 أو FP8 مقابل FP32 الأصلي) أو التكميم (INT8 ، INT4 ، INT2) إلى تحقيق تسريع خطي غالبًا مع تقليل البتات. يتطلب هذا في بعض الأحيان تعديل النموذج ، ولكن هناك ، بشكل متزايد ، التقنيات المتاحة التي تعمل على أتمتة العمل بدقة مختلطة أو أقصر. تقليم الشبكات العصبية يقلل من عدد الأوزان عن طريق تجاهل الأوزان ذات القيم المنخفضة. جنبًا إلى جنب مع مضاعفة المصفوفة المتفرقة الفعالة ، يمكن أن يحقق ذلك تسريعًا كبيرًا في وحدات معالجة الرسومات الحديثة. مجموعة أخرى من تقنيات التحسين تعالج اختناق عرض النطاق الترددي للذاكرة (على سبيل المثال ، عن طريق بث أوزان النموذج).

التحسينات الأخرى خاصة بالنموذج بشكل كبير. على سبيل المثال ، حقق Stable Diffusion تقدمًا كبيرًا في مقدار VRAM المطلوب للاستدلال. فئة أخرى من التحسينات خاصة بالأجهزة. يتضمن TensorML من NVIDIA عددًا من التحسينات ، ولكنه سيعمل فقط على أجهزة NVIDIA. أخيرًا وليس آخرًا ، يمكن أن تؤدي جدولة مهام الذكاء الاصطناعي إلى اختناقات أو تحسينات هائلة في الأداء. من الأساليب الشائعة تخصيص النماذج لوحدات معالجة الرسومات بطريقة تقلل من مبادلة الأوزان ، واختيار أفضل وحدة معالجة رسومات لمهمة ما إذا توفرت عدة نماذج ، وتقليل وقت التوقف عن العمل عن طريق تجميع أعباء العمل مسبقًا.

في النهاية ، لا يزال تحسين النموذج يمثل نوعًا من الفن الأسود ، ومعظم الشركات الناشئة التي نتحدث عنها تعمل مع أطراف ثالثة للمساعدة في بعض جوانب البرامج هذه. في كثير من الأحيان ، هؤلاء ليسوا بائعي MLops التقليديين ، ولكن بدلاً من ذلك هم شركات متخصصة في تحسينات لنماذج توليدية محددة (على سبيل المثال ، OctoML أو SegMind).

كيف ستتطور تكلفة البنية التحتية للذكاء الاصطناعي؟

على مدى السنوات القليلة الماضية ، شهدنا نموًا هائلاً لكليهما معلمات النموذج و قوة حساب GPU. من غير الواضح ما إذا كان هذا الاتجاه سيستمر.

اليوم ، من المقبول على نطاق واسع أن هناك علاقة بين العدد الأمثل للمعلمات وحجم مجموعة بيانات التدريب (انظر Deepmind's الشنشيلة حيوان العمل من أجل المزيد في هذا). يتم تدريب أفضل ماجستير في القانون اليوم على الزحف المشترك (مجموعة من 4.5 مليار صفحة ويب ، أو حوالي 10٪ من جميع صفحات الويب الموجودة). تتضمن مجموعة التدريب أيضًا ويكيبيديا ومجموعة من الكتب ، على الرغم من أن كلاهما أصغر بكثير (يقدر إجمالي عدد الكتب الموجودة بأنه فقط حوالي 100 مليون). تم اقتراح أفكار أخرى ، مثل نسخ محتوى الفيديو أو الصوت ، ولكن لم يقترب أي منها من الحجم. ليس من الواضح ما إذا كان بإمكاننا الحصول على مجموعة بيانات تدريب غير اصطناعية أكبر بـ 10 أضعاف مما تم استخدامه بالفعل.

سيستمر أداء وحدة معالجة الرسومات في الزيادة ، ولكن أيضًا بمعدل أبطأ. لا يزال قانون مور ساريًا يسمح بمزيد من الترانزستورات والمزيد من النوى ، لكن الطاقة و I / O أصبحت عوامل مقيدة. بالإضافة إلى ذلك ، تم انتقاء العديد من الثمار المنخفضة للتحسينات. 

ومع ذلك ، لا يعني أي من هذا أننا لا نتوقع زيادة في الطلب على سعة الحوسبة. حتى إذا تباطأ نمو مجموعة النموذج والتدريب ، فإن نمو صناعة الذكاء الاصطناعي وزيادة عدد مطوري الذكاء الاصطناعي سوف يغذي الطلب على وحدات معالجة رسومات أكثر وأسرع. يتم استخدام جزء كبير من سعة وحدة معالجة الرسومات للاختبار بواسطة المطورين أثناء مرحلة تطوير النموذج ، ويتسع هذا الطلب خطيًا مع عدد الموظفين. ليس هناك ما يشير إلى أن نقص GPU الذي لدينا اليوم سوف ينحسر في المستقبل القريب.

هل ستؤدي هذه التكلفة العالية المستمرة للبنية التحتية للذكاء الاصطناعي إلى خلق خندق مائي يجعل من المستحيل على الوافدين الجدد اللحاق بالشركات الحالية الممولة تمويلًا جيدًا؟ لا نعرف إجابة هذا السؤال حتى الآن. قد تبدو تكلفة تدريب LLM كخندق مائي اليوم ، لكن نماذج مفتوحة المصدر مثل Alpaca أو Stable Diffusion أظهرت أن هذه الأسواق لا تزال مبكرة وقد تتغير بسرعة. بمرور الوقت ، هيكل تكلفة مجموعة برامج الذكاء الاصطناعي الناشئة (انظر منشوراتنا السابقة) قد تبدو أشبه بصناعة البرمجيات التقليدية. 

في النهاية ، سيكون هذا أمرًا جيدًا: لقد أظهر التاريخ أن هذا يؤدي إلى أنظمة بيئية نابضة بالحياة مع ابتكار سريع والعديد من الفرص لمؤسسي رواد الأعمال.

بفضل Moin Nadeem و Shangda Xu على مساهماتهم وتوجيههم أثناء عملية الكتابة.


¹ الحدس هنا هو أنه لأي معلمة (أي الوزن) في شبكة عصبية ، تحتاج عملية الاستدلال (أي تمرير إلى الأمام) إلى إجراء عمليتين للنقطة العائمة لكل معلمة. أولاً ، يضاعف قيمة عقدة الإدخال للشبكة العصبية مع المعلمة. ثانيًا ، يضيف نتيجة الجمع إلى عقدة الإخراج للشبكة العصبية. يتم استخدام المعلمات الموجودة في المشفر مرة واحدة لكل رمز إدخال ويتم استخدام المعلمات الموجودة في وحدة فك التشفير مرة واحدة لكل رمز إخراج. إذا افترضنا أن النموذج لديه p المعلمات والمدخلات والمخرجات لها طول n رموز, إجمالي عمليات الفاصلة العائمة ن * ص. هناك العديد من العمليات الأخرى (مثل التطبيع والتشفير / فك تشفير التضمين) التي تحدث في نموذج ، ولكن الوقت الذي يستغرقه تنفيذها صغير بالمقارنة. 

² يتطلب التعلم أولاً مرورًا إلى الأمام عبر المحول كما هو موضح أعلاه ، متبوعًا بممر خلفي يتكبد أربع عمليات إضافية لكل معلمة لحساب التدرج اللوني وضبط الوزن. لاحظ أن حساب التدرج اللوني يتطلب الحفاظ على قيم العقدة المحسوبة من التمرير الأمامي. بالنسبة لـ GPT-3 ، نماذج اللغة هم متعلمون قليلو الطلقات يناقش تكلفة التدريب.

* * *

الآراء المعبر عنها هنا هي آراء أفراد AH Capital Management، LLC ("a16z") المقتبس منهم وليست آراء a16z أو الشركات التابعة لها. تم الحصول على بعض المعلومات الواردة هنا من مصادر خارجية ، بما في ذلك من شركات محافظ الصناديق التي تديرها a16z. على الرغم من أنه مأخوذ من مصادر يُعتقد أنها موثوقة ، لم تتحقق a16z بشكل مستقل من هذه المعلومات ولا تقدم أي تعهدات حول الدقة الدائمة للمعلومات أو ملاءمتها لموقف معين. بالإضافة إلى ذلك ، قد يتضمن هذا المحتوى إعلانات جهات خارجية ؛ لم تقم a16z بمراجعة مثل هذه الإعلانات ولا تصادق على أي محتوى إعلاني وارد فيها.

يتم توفير هذا المحتوى لأغراض إعلامية فقط ، ولا ينبغي الاعتماد عليه كمشورة قانونية أو تجارية أو استثمارية أو ضريبية. يجب عليك استشارة مستشاريك بخصوص هذه الأمور. الإشارات إلى أي أوراق مالية أو أصول رقمية هي لأغراض توضيحية فقط ، ولا تشكل توصية استثمارية أو عرضًا لتقديم خدمات استشارية استثمارية. علاوة على ذلك ، هذا المحتوى غير موجه أو مخصص للاستخدام من قبل أي مستثمرين أو مستثمرين محتملين ، ولا يجوز الاعتماد عليه تحت أي ظرف من الظروف عند اتخاذ قرار بالاستثمار في أي صندوق تديره a16z. (سيتم تقديم عرض للاستثمار في صندوق a16z فقط من خلال مذكرة الاكتتاب الخاص واتفاقية الاشتراك والوثائق الأخرى ذات الصلة لأي صندوق من هذا القبيل ويجب قراءتها بالكامل.) أي استثمارات أو شركات محفظة مذكورة ، يشار إليها ، أو الموصوفة لا تمثل جميع الاستثمارات في السيارات التي تديرها a16z ، ولا يمكن أن يكون هناك ضمان بأن الاستثمارات ستكون مربحة أو أن الاستثمارات الأخرى التي تتم في المستقبل سيكون لها خصائص أو نتائج مماثلة. قائمة الاستثمارات التي أجرتها الصناديق التي يديرها Andreessen Horowitz (باستثناء الاستثمارات التي لم يمنحها المُصدر إذنًا لـ a16z للإفصاح علنًا عن الاستثمارات غير المعلنة في الأصول الرقمية المتداولة علنًا) على https://a16z.com/investments /.

الرسوم البيانية والرسوم البيانية المقدمة في الداخل هي لأغراض إعلامية فقط ولا ينبغي الاعتماد عليها عند اتخاذ أي قرار استثماري. الأداء السابق ليس مؤشرا على النتائج المستقبلية. المحتوى يتحدث فقط اعتبارًا من التاريخ المشار إليه. أي توقعات وتقديرات وتنبؤات وأهداف وآفاق و / أو آراء معبر عنها في هذه المواد عرضة للتغيير دون إشعار وقد تختلف أو تتعارض مع الآراء التي يعبر عنها الآخرون. يرجى الاطلاع على https://a16z.com/disclosures للحصول على معلومات إضافية مهمة.

الطابع الزمني:

اكثر من أندرسن هورويتز