پیمایش در هزینه بالای محاسبه هوش مصنوعی

پیمایش در هزینه بالای محاسبه هوش مصنوعی

پیمایش در هزینه های بالای هوش مصنوعی، محاسبه هوش داده پلاتوبلاک چین. جستجوی عمودی Ai.
منبع: Midjourney

رونق هوش مصنوعی مولد مبتنی بر محاسبات است. این ویژگی منحصر به فرد را دارد که افزودن محاسبات بیشتر مستقیماً منجر به محصول بهتر می شود. معمولاً، سرمایه‌گذاری تحقیق و توسعه مستقیماً با ارزش یک محصول مرتبط است و این رابطه به‌طور مشخصی زیرخطی است. اما این موضوع در حال حاضر در مورد هوش مصنوعی صدق نمی کند و در نتیجه، یکی از عوامل اصلی که امروزه صنعت را هدایت می کند صرفاً هزینه آموزش و استنتاج است. 

در حالی که ما اعداد واقعی را نمی دانیم، از منابع معتبر شنیده ایم که عرضه محاسبات بسیار محدود است، تقاضا با ضریب 10(!) از آن بیشتر است، بنابراین فکر می کنیم منصفانه است که بگوییم، در حال حاضر، دسترسی به منابع محاسباتی - با کمترین هزینه کل - به یک عامل تعیین کننده برای موفقیت شرکت های هوش مصنوعی تبدیل شده است..

در واقع، شرکت های زیادی را دیده ایم که بیش از 80 درصد از کل سرمایه جذب شده خود را صرف منابع محاسباتی می کنند!

در این پست سعی می کنیم فاکتورهای هزینه را برای یک شرکت هوش مصنوعی تجزیه کنیم. البته اعداد مطلق در طول زمان تغییر خواهند کرد، اما ما نمی‌بینیم که شرکت‌های هوش مصنوعی از دسترسی آنها به منابع محاسباتی آسوده خاطری داشته باشند. بنابراین، امیدوارم، این یک چارچوب مفید برای تفکر از طریق چشم انداز باشد. 

چرا مدل های هوش مصنوعی از نظر محاسباتی گران هستند؟

مدل‌های هوش مصنوعی مولد بسیار متنوع است و هزینه‌های استنباط و آموزش به اندازه و نوع مدل بستگی دارد. خوشبختانه امروزه محبوب ترین مدل ها عمدتاً معماری های مبتنی بر ترانسفورماتور هستند که شامل مدل های محبوب زبان بزرگ (LLM) مانند GPT-3، GPT-J یا BERT می شود. در حالی که تعداد دقیق عملیات برای استنتاج و یادگیری ترانسفورماتورها به مدل خاص بستگی دارد (نگاه کنید به این مقالهیک قانون نسبتاً دقیق وجود دارد که فقط به تعداد پارامترها (یعنی وزن شبکه‌های عصبی) مدل و تعداد نشانه‌های ورودی و خروجی بستگی دارد. 

توکن ها در اصل دنباله های کوتاهی از چند کاراکتر هستند. آنها با کلمات یا بخش هایی از کلمات مطابقت دارند. بهترین راه برای به دست آوردن شهود برای توکن ها این است که توکن سازی را با توکن سازهای آنلاین در دسترس عموم امتحان کنید (به عنوان مثال، OpenAI). برای GPT-3، میانگین طول یک توکن 4 کاراکتر است

قاعده کلی برای ترانسفورماتورها این است که یک پاس رو به جلو (یعنی استنتاج) برای یک مدل با p پارامترهای ورودی و خروجی دنباله طول n نشانه هر, تقریبا طول می کشد 2*n*p عملیات ممیز شناور (FLOPS)¹. آموزش برای همان مدل تقریباً طول می کشد 6*ص FLOPS به ازای هر توکن (یعنی، پاس اضافی به عقب به چهار عملیات دیگر نیاز دارد²). شما می توانید با ضرب این مقدار در مقدار توکن ها در داده های آموزشی، هزینه کل آموزش را تقریبی کنید.

نیاز به حافظه برای ترانسفورماتورها به اندازه مدل نیز بستگی دارد. برای استنباط، ما نیاز داریم p پارامترهای مدل برای جا دادن در حافظه برای یادگیری (یعنی پس انتشار)، ما باید مقادیر میانی اضافی را برای هر پارامتر بین پاس به جلو و عقب ذخیره کنیم. با فرض استفاده از اعداد ممیز شناور 32 بیتی، این 8 بایت اضافی در هر پارامتر است. برای آموزش یک مدل 175 میلیارد پارامتری، باید بیش از یک ترابایت داده در حافظه نگه داریم - این مقدار از هر پردازنده گرافیکی موجود امروزی بیشتر است و ما را ملزم می کند که مدل را بین کارت ها تقسیم کنیم. الزامات حافظه برای استنباط و آموزش را می توان با استفاده از مقادیر ممیز شناور با طول های کوتاه تر، با رایج شدن 16 بیت و پیش بینی 8 بیت در آینده نزدیک بهینه کرد.

پیمایش در هزینه های بالای هوش مصنوعی، محاسبه هوش داده پلاتوبلاک چین. جستجوی عمودی Ai.

جدول بالا اندازه ها و هزینه های محاسبه شده برای چندین مدل محبوب را نشان می دهد. GPT-3 تقریباً 175 میلیارد پارامتر دارد که برای ورودی و خروجی 1,024 توکن، هزینه محاسباتی تقریباً 350 تریلیون عملیات ممیز شناور (یعنی Teraflops یا TFLOPS) را به همراه دارد. آموزش مدلی مانند GPT-3 حدود 3.14*10^23 عملیات ممیز شناور طول می کشد. مدل های دیگری مانند LLaMA متا دارند حتی بالاتر الزامات را محاسبه کنید آموزش چنین مدلی یکی از وظایف محاسباتی فشرده‌تری است که بشر تاکنون انجام داده است. 

به طور خلاصه: زیرساخت هوش مصنوعی گران است زیرا مشکلات الگوریتمی اساسی از نظر محاسباتی بسیار سخت هستند. پیچیدگی الگوریتمی مرتب‌سازی جدول پایگاه داده با یک میلیون ورودی در مقایسه با پیچیدگی تولید یک کلمه با GPT-3 ناچیز است. این بدان معنی است که شما می خواهید کوچکترین مدلی را انتخاب کنید که مورد استفاده شما را حل کند. 

خبر خوب این است که برای ترانسفورماتورها، ما به راحتی می‌توانیم تخمین بزنیم که یک مدل با اندازه معین چقدر محاسبات و حافظه مصرف می‌کند. و بنابراین، انتخاب سخت افزار مناسب مورد توجه بعدی است. 

بحث زمان و هزینه برای پردازنده‌های گرافیکی

پیچیدگی محاسباتی چگونه به زمان ترجمه می شود؟ یک هسته پردازنده معمولاً می تواند 1-2 دستورالعمل را در هر چرخه اجرا کند و نرخ کلاک پردازنده در 3 سال گذشته به دلیل پایان یافتن این دوره در حدود 15 گیگاهرتز ثابت بوده است. مقیاس بندی دنار. اجرای یک عملیات استنتاج GPT-3 بدون بهره‌برداری از معماری موازی به ترتیب 350 TFLOPS/(3 گیگاهرتز*1 FLOP) یا 116,000 ثانیه یا 32 ساعت طول می‌کشد. این بسیار غیرعملی است. در عوض ما به تراشه های تخصصی نیاز داریم که این کار را تسریع کنند.

در عمل، امروزه تمام مدل‌های هوش مصنوعی روی کارت‌هایی اجرا می‌شوند که از تعداد بسیار زیادی هسته‌های تخصصی استفاده می‌کنند. به عنوان مثال، یک پردازنده گرافیکی NVIDIA A100 دارای 512 "هسته تانسور" است که می تواند ضرب ماتریس 4×4 (که معادل 64 ضرب و جمع یا 128 FLOPS است) را در یک چرخه انجام دهد. کارت‌های شتاب‌دهنده هوش مصنوعی اغلب به عنوان GPU (واحد پردازش گرافیکی) شناخته می‌شوند، زیرا این معماری در ابتدا برای بازی‌های رومیزی توسعه داده شد. در آینده انتظار داریم هوش مصنوعی به طور فزاینده ای به یک خانواده محصول متمایز تبدیل شود. 

A100 عملکرد اسمی دارد TFLOPS 312 که در تئوری استنتاج GPT-3 را به حدود 1 ثانیه کاهش می دهد. با این حال این یک محاسبه بیش از حد ساده به دلایل متعدد است. اول اینکه، برای بیشتر موارد استفاده، گلوگاه قدرت محاسباتی GPU نیست، بلکه توانایی دریافت داده‌ها از حافظه گرافیکی تخصصی به هسته‌های تانسور است. دوم، 175 میلیارد وزن، 700 گیگابایت را اشغال می کند و در حافظه گرافیکی هیچ پردازنده گرافیکی قرار نمی گیرد. باید از تکنیک هایی مانند پارتیشن بندی و پخش وزن استفاده شود. و سوم، تعدادی بهینه‌سازی وجود دارد (مثلاً استفاده از نمایش‌های ممیز شناور کوتاه‌تر، مانند FP16، FP8، یا ماتریس‌های پراکنده) که برای تسریع محاسبات استفاده می‌شوند. اما، به طور کلی، ریاضیات بالا به ما شهودی از هزینه محاسباتی کلی LLM های امروزی می دهد.

آموزش یک مدل ترانسفورماتور حدود سه برابر زمان استنتاج در هر توکن طول می کشد. با این حال، با توجه به اینکه مجموعه داده های آموزشی حدود 300 میلیون برابر بزرگتر از یک استنتاج است، آموزش با ضریب 1 میلیارد بیشتر طول می کشد. در یک GPU واحد، آموزش ده ها سال طول می کشد. در عمل این کار بر روی خوشه های محاسباتی بزرگ در مراکز داده اختصاصی یا به احتمال زیاد در فضای ابری انجام می شود. موازی کردن آموزش نیز سخت تر از استنتاج است، زیرا وزن های به روز شده باید بین گره ها رد و بدل شود. حافظه و پهنای باند بین پردازنده‌های گرافیکی اغلب به عامل بسیار مهم‌تری تبدیل می‌شود، زیرا اتصالات پرسرعت و پارچه‌های اختصاصی رایج هستند. برای آموزش مدل های بسیار بزرگ، ایجاد یک راه اندازی شبکه مناسب می تواند چالش اصلی باشد. با نگاهی به آینده، شتاب‌دهنده‌های هوش مصنوعی قابلیت‌های شبکه‌سازی روی کارت یا حتی روی تراشه خواهند داشت. 

این پیچیدگی محاسباتی چگونه به هزینه تبدیل می شود؟ یک استنتاج GPT-3، که همانطور که در بالا دیدیم، تقریباً 1 ثانیه در A100 طول می کشد، هزینه محاسباتی خام بین 0.0002 تا 0.0014 دلار برای 1,000 توکن خواهد داشت (این در مقایسه با قیمت 0.002/1000 توکن OpenAI است). یک کاربر که روزانه 100 درخواست استنتاج ایجاد می کند، به ترتیب دلار در سال هزینه دارد. این قیمت بسیار پایینی است و باعث می شود بیشتر موارد استفاده از هوش مصنوعی مبتنی بر متن توسط انسان ها از نظر مالی مقرون به صرفه باشد.

آموزش از طرف دیگر GPT-3 بسیار گرانتر است. دوباره محاسبه هزینه محاسباتی برای 3.14*10^23 FLOPS با نرخ های بالا، تخمینی 560,000 دلار در کارت های A100 برای اجرای تک تمرینی. در عمل، برای آموزش، تقریباً 100٪ کارایی در GPU نخواهیم داشت. با این حال می توانیم از بهینه سازی برای کاهش زمان آموزش نیز استفاده کنیم. برآوردهای دیگر هزینه آموزش GPT-3 از $500,000 به 4.6 میلیون $، بسته به فرضیات سخت افزاری توجه داشته باشید که این هزینه یک بار اجرا است و نه هزینه کلی. اجرای چندگانه احتمالاً مورد نیاز خواهد بود و ارائه‌دهندگان ابر تعهدات بلندمدت می‌خواهند (در زیر در این مورد بیشتر توضیح می‌دهیم). آموزش مدل های برتر همچنان گران است، اما در دسترس یک استارت آپ با بودجه خوب است.

به طور خلاصه، هوش مصنوعی مولد نیاز به سرمایه گذاری گسترده در زیرساخت های هوش مصنوعی امروزی دارد. هیچ دلیلی وجود ندارد که باور کنیم این وضعیت در آینده نزدیک تغییر خواهد کرد. آموزش مدلی مانند GPT-3 یکی از فشرده ترین وظایف محاسباتی بشر است که تاکنون انجام داده است. و در حالی که پردازنده‌های گرافیکی سریع‌تر می‌شوند و ما راه‌هایی برای بهینه‌سازی آموزش پیدا می‌کنیم، گسترش سریع هوش مصنوعی هر دوی این اثرات را نفی می‌کند.

ملاحظات زیرساخت هوش مصنوعی

تا این مرحله، ما سعی کرده‌ایم تا حدی درک مقیاس مورد نیاز برای انجام آموزش و استنتاج مدل‌های هوش مصنوعی و اینکه چه پارامترهای اساسی آن‌ها را هدایت می‌کنند، به شما ارائه دهیم. با این زمینه، اکنون می‌خواهیم راهنمایی‌های عملی در مورد چگونگی تصمیم‌گیری برای استفاده از زیرساخت‌های هوش مصنوعی ارائه کنیم.

زیرساخت خارجی در مقابل داخلی

بیایید با آن روبرو شویم: GPU ها جالب هستند. بسیاری از مهندسان و بنیانگذاران مهندسین گرایش به تهیه سخت افزار هوش مصنوعی خود دارند، نه تنها به این دلیل که کنترل دقیقی بر آموزش مدل می دهد، بلکه به این دلیل که در استفاده از مقادیر زیادی از قدرت محاسباتی چیز جالبی وجود دارد.نمایشگاه A).

واقعیت اما این است بسیاری از استارت آپ ها – به ویژه شرکت های اپلیکیشن – نیازی به ساخت زیرساخت هوش مصنوعی خود ندارند در روز 1. در عوض، سرویس‌های مدل میزبانی‌شده مانند OpenAI یا Hugging Face (برای زبان) و Replicate (برای تولید تصویر) به بنیان‌گذاران این امکان را می‌دهند تا بدون نیاز به مدیریت زیرساخت‌ها یا مدل‌های زیربنایی، به سرعت برای یافتن تناسب محصول با بازار جستجو کنند.

این خدمات آنقدر خوب شده اند که بسیاری از شرکت ها هرگز از آنها فارغ التحصیل نمی شوند. توسعه‌دهندگان می‌توانند از طریق مهندسی سریع و انتزاع‌های تنظیم دقیق با مرتبه بالاتر (یعنی تنظیم دقیق از طریق فراخوانی API) به کنترل معنی‌داری بر عملکرد مدل دست یابند. قیمت گذاری برای این خدمات مبتنی بر مصرف است، بنابراین اغلب ارزان تر از اجرای زیرساخت های جداگانه است. شرکت‌های اپلیکیشنی را دیده‌ایم که بیش از 50 میلیون دلار ARR تولید می‌کنند و ارزش آن بیش از 1 میلیارد دلار است که خدمات مدل میزبانی شده را زیر پوشش اجرا می‌کنند.

از طرف دیگر، برخی استارتاپ ها – به خصوص کسانی که مدل های پایه جدید را آموزش می دهند یا برنامه های هوش مصنوعی یکپارچه عمودی را می سازند - نمی توانند از اجرای مستقیم مدل های خود اجتناب کنند. روی پردازنده های گرافیکی یا به این دلیل که مدل به طور موثر محصول است و تیم در جستجوی «مناسب مدل با بازار» است، یا به این دلیل که برای دستیابی به قابلیت‌های خاص یا کاهش هزینه‌های نهایی در مقیاس بزرگ، کنترل دقیقی بر آموزش و/یا استنتاج لازم است. در هر صورت، مدیریت زیرساخت می تواند به منبع مزیت رقابتی تبدیل شود.

ابر در مقابل مرکز داده ساخته شده است

در بیشتر موارد، ابر مکان مناسبی برای زیرساخت هوش مصنوعی شماست. هزینه اولیه کمتر، توانایی افزایش و کاهش مقیاس، در دسترس بودن منطقه ای، و حواس پرتی کمتر از ساخت مرکز داده خود، برای اکثر استارت آپ ها و شرکت های بزرگتر قانع کننده است.

اما چند استثنا در این قاعده وجود دارد:

  • اگر در مقیاس بسیار بزرگ کار می کنید، ممکن است راه اندازی مرکز داده خود مقرون به صرفه تر باشد. قیمت دقیق بر اساس موقعیت جغرافیایی و تنظیم متفاوت است، اما معمولاً به هزینه زیرساختی بیش از 50 میلیون دلار در سال نیاز دارد.
  • شما به سخت افزار بسیار خاصی نیاز دارید که نمی توانید آن را از یک ارائه دهنده ابری تهیه کنید. به عنوان مثال، انواع GPU که به طور گسترده در دسترس نیستند، و همچنین نیازهای غیرمعمول حافظه، ذخیره سازی یا شبکه.
  • شما نمی توانید ابری را پیدا کنید که برای ملاحظات ژئوپلیتیکی قابل قبول باشد.

اگر می‌خواهید مرکز داده خود را بسازید، تجزیه و تحلیل جامع قیمت/عملکرد پردازنده‌های گرافیکی برای راه‌اندازی خودتان وجود دارد (به عنوان مثال، تحلیل تیم دتمر). علاوه بر هزینه و عملکرد خود کارت، انتخاب سخت افزار به قدرت، فضا و خنک کننده نیز بستگی دارد. به عنوان مثال، دو کارت RTX 3080 Ti با هم ظرفیت محاسباتی خام مشابه A100 دارند، اما مصرف انرژی مربوطه 700 وات در مقابل 300 وات است. اختلاف توان 3,500 کیلووات ساعتی با نرخ بازار 0.10 دلار در هر کیلووات ساعت در طول یک چرخه عمر سه ساله، هزینه RTX3080 Ti را تقریباً 2 برابر (تقریباً 1,000 دلار) افزایش می دهد.

همه اینها گفته شد، ما انتظار داریم که اکثریت قریب به اتفاق استارتاپ ها از محاسبات ابری استفاده کنند. 

مقایسه ارائه دهندگان خدمات ابری 

خدمات وب آمازون (AWS)، مایکروسافت آژور و پلتفرم ابری گوگل (GCP) همگی نمونه‌های GPU را ارائه می‌دهند، اما به نظر می‌رسد ارائه‌دهندگان جدید نیز به طور خاص بر روی بار کاری هوش مصنوعی تمرکز دارند. در اینجا چارچوبی وجود دارد که بسیاری از بنیانگذاران را برای انتخاب ارائه دهنده ابر از آن استفاده می کنند:

قیمت: جدول زیر قیمت تعدادی از ابرهای تخصصی اصلی و کوچک‌تر را تا 7 آوریل 2023 نشان می‌دهد. این داده‌ها فقط نشان‌دهنده است، زیرا نمونه‌ها از نظر پهنای باند شبکه، هزینه‌های خروج داده، هزینه اضافی از CPU و شبکه، در دسترس متفاوت هستند. تخفیف و عوامل دیگر

پیمایش در هزینه های بالای هوش مصنوعی، محاسبه هوش داده پلاتوبلاک چین. جستجوی عمودی Ai.

ظرفیت محاسبه بر روی سخت افزار خاص یک کالا است. ساده لوحانه، ما انتظار قیمت های نسبتاً یکسانی را داریم، اما اینطور نیست. و در حالی که تفاوت‌های قابل توجهی بین ویژگی‌های ابری وجود دارد، برای توضیح اینکه قیمت NVIDIA A100 بر اساس تقاضا تقریباً 4 برابر در میان ارائه‌دهندگان متفاوت است، کافی نیست.

در انتهای بالای مقیاس قیمت، ابرهای عمومی بزرگ بر اساس شهرت نام تجاری، قابلیت اطمینان اثبات شده و نیاز به مدیریت طیف گسترده ای از حجم کاری، حق بیمه دریافت می کنند. ارائه‌دهندگان تخصصی کوچک‌تر هوش مصنوعی قیمت‌های پایین‌تری را ارائه می‌کنند، یا با راه‌اندازی مراکز داده ساخته‌شده (مثلاً Coreweave) یا آربیتینگ ابرهای دیگر (مثلاً Lambda Labs).

از نظر عملی، اکثر خریداران بزرگ‌تر قیمت‌ها را مستقیماً با ارائه‌دهندگان ابری مذاکره می‌کنند، و اغلب به برخی از حداقل هزینه‌های مورد نیاز و همچنین حداقل تعهدات زمانی متعهد می‌شوند (ما شاهد 1-3 سال بوده‌ایم). تفاوت قیمت بین ابرها تا حدودی پس از مذاکره کاهش می یابد، اما ما شاهد هستیم که رتبه بندی در جدول بالا نسبتاً ثابت مانده است. همچنین مهم است که توجه داشته باشید که شرکت‌های کوچکتر می‌توانند قیمت‌های تهاجمی را از ابرهای تخصصی و بدون تعهد هزینه‌های کلان دریافت کنند.

دسترسی: قدرتمندترین پردازنده‌های گرافیکی (مانند Nvidia A100s) در بیش از 12 ماه گذشته به‌طور مداوم با کمبود مواجه بوده‌اند. 

منطقی است که فکر کنیم سه ارائه‌دهنده ابر برتر با توجه به قدرت خرید و منابع زیادشان، بهترین در دسترس بودن را دارند. اما، تا حدودی تعجب آور است که بسیاری از استارت آپ ها این موضوع را درست ندیده اند. ابرهای بزرگ سخت‌افزار زیادی دارند، اما نیازهای مشتریان بزرگی نیز برای برآورده کردن دارند - به عنوان مثال، Azure میزبان اصلی ChatGPT است - و دائماً در حال اضافه کردن/اجاره کردن ظرفیت برای برآورده کردن تقاضا هستند. در همین حال، انویدیا متعهد شده است که سخت افزار را به طور گسترده در سراسر صنعت در دسترس قرار دهد، از جمله تخصیص برای ارائه دهندگان تخصصی جدید. (آنها این کار را هم برای منصف بودن و هم برای کاهش وابستگی خود به چند مشتری بزرگ که با آنها رقابت می کنند انجام می دهند.)

در نتیجه، بسیاری از استارت‌آپ‌ها تراشه‌های موجود بیشتری از جمله Nvidia H100s را در ارائه‌دهندگان کوچک‌تر ابری پیدا می‌کنند. اگر مایل به همکاری با یک شرکت زیرساخت جدید هستید، ممکن است بتوانید زمان انتظار برای سخت افزار را کاهش دهید و احتمالاً در این فرآیند در هزینه خود صرفه جویی کنید.

محاسبه مدل تحویل: امروزه ابرهای بزرگ تنها نمونه هایی را با پردازنده های گرافیکی اختصاصی ارائه می دهند، دلیل آن این است که مجازی سازی GPU هنوز یک مشکل حل نشده است. ابرهای تخصصی هوش مصنوعی مدل‌های دیگری مانند کانتینرها یا کارهای دسته‌ای را ارائه می‌کنند که می‌توانند وظایف فردی را بدون متحمل شدن هزینه‌های راه‌اندازی و کاهش یک نمونه انجام دهند. اگر با این مدل راحت هستید، می تواند هزینه را به میزان قابل توجهی کاهش دهد.

اتصالات شبکه: برای آموزش، به طور خاص، پهنای باند شبکه یک عامل اصلی در انتخاب ارائه دهنده است. خوشه هایی با پارچه های اختصاصی بین گره ها، مانند NVLink، برای آموزش برخی مدل های بزرگ مورد نیاز است. برای تولید تصویر، هزینه های ترافیک خروجی نیز می تواند محرک اصلی هزینه باشد.

پشتیبانی از مشتری: ارائه دهندگان ابر بزرگ به مجموعه عظیمی از مشتریان در هزاران SKU محصول خدمات ارائه می دهند. جلب توجه پشتیبانی مشتری یا رفع مشکل ممکن است سخت باشد، مگر اینکه مشتری بزرگی باشید. از سوی دیگر، بسیاری از ابرهای تخصصی هوش مصنوعی، پشتیبانی سریع و پاسخگو را حتی برای مشتریان کوچک ارائه می دهند. این تا حدی به این دلیل است که آنها در مقیاس کوچکتر کار می کنند، اما همچنین به این دلیل است که حجم کاری آنها همگن تر است - بنابراین آنها انگیزه بیشتری برای تمرکز بر ویژگی ها و اشکالات خاص هوش مصنوعی دارند.

مقایسه پردازنده‌های گرافیکی 

اگر همه چیز برابر باشد، GPUهای رده بالا تقریباً در تمام بارهای کاری بهترین عملکرد را خواهند داشت. با این حال، همانطور که در جدول زیر می بینید، بهترین سخت افزار نیز به طور قابل ملاحظه ای گران تر است. انتخاب نوع مناسب GPU برای برنامه خاص شما می تواند هزینه را به میزان قابل توجهی کاهش دهد و ممکن است بین یک مدل تجاری قابل دوام و غیرقابل دوام تفاوت ایجاد کند.

پیمایش در هزینه های بالای هوش مصنوعی، محاسبه هوش داده پلاتوبلاک چین. جستجوی عمودی Ai.

تصمیم گیری در مورد اینکه تا چه حد در لیست پایین تر بروید - یعنی تعیین مقرون به صرفه ترین انتخاب های GPU برای برنامه شما - تا حد زیادی یک تصمیم فنی است که خارج از محدوده این مقاله است. اما در زیر برخی از معیارهای انتخابی را که مهم‌ترین آنها را دیده‌ایم به اشتراک می‌گذاریم:

آموزش در مقابل استنتاج: همانطور که در بخش اول در بالا دیدیم، آموزش یک مدل ترانسفورماتور مستلزم ذخیره 8 بایت داده برای آموزش علاوه بر وزن مدل است. این بدان معناست که یک GPU معمولی مصرف‌کننده بالا با 12 گیگابایت حافظه به سختی می‌تواند برای آموزش یک مدل 4 میلیارد پارامتری استفاده شود. در عمل، آموزش مدل‌های بزرگ بر روی دسته‌هایی از ماشین‌ها با ترجیحاً تعداد زیادی GPU در هر سرور، VRAM زیاد و اتصالات با پهنای باند بالا بین سرورها انجام می‌شود (یعنی خوشه‌هایی که با استفاده از GPU‌های مرکز داده بالا ساخته شده‌اند).

به طور خاص، بسیاری از مدل‌ها در NVIDIA H100 مقرون به صرفه‌تر خواهند بود، اما امروزه یافتن آن دشوار است و معمولاً به تعهد طولانی‌مدت بیش از یک سال نیاز دارد. NVIDIA A100 اکثر آموزش های مدل را امروز اجرا می کند. پیدا کردن آن آسان تر است، اما برای خوشه های بزرگ، ممکن است به تعهد طولانی مدت نیز نیاز باشد.

نیازهای حافظه: LLMهای بزرگ دارای تعداد پارامترهایی هستند که برای جا دادن در هر کارتی بسیار زیاد است. آنها باید در چند کارت تقسیم شوند و نیاز به تنظیمی مشابه آموزش دارند. به عبارت دیگر، شما احتمالاً حتی برای استنباط LLM به H100 یا A100 نیاز دارید. اما مدل‌های کوچک‌تر (مثلاً Stable Diffusion) به VRAM بسیار کمتری نیاز دارند. در حالی که A100 هنوز محبوب است، ما شاهد بودیم که استارت آپ ها از کارت های A10، A40، A4000، A5000 و A6000 یا حتی RTX استفاده می کنند. 

پشتیبانی سخت افزاری: در حالی که اکثریت قریب به اتفاق بارهای کاری در شرکت‌هایی که با آن‌ها صحبت کرده‌ایم روی NVIDIA اجرا می‌شوند، تعداد کمی شروع به آزمایش با سایر فروشندگان کرده‌اند. رایج‌ترین آنها Google TPU است، اما به نظر می‌رسد Gaudi 2 اینتل نیز در حال جذب است. چالش این فروشندگان این است که عملکرد مدل شما اغلب به در دسترس بودن بهینه سازی نرم افزار برای این تراشه ها بستگی دارد. احتمالاً برای درک عملکرد باید یک PoC انجام دهید.

الزامات تاخیر: به طور کلی، بارهای کاری حساس به تأخیر کمتر (به عنوان مثال، پردازش دسته ای داده یا برنامه هایی که به پاسخ های رابط کاربری تعاملی نیاز ندارند) می توانند از GPU های کم قدرت استفاده کنند. این می تواند هزینه محاسباتی را تا 3 تا 4 برابر کاهش دهد (به عنوان مثال، مقایسه A100s با A10s در AWS). از سوی دیگر، اپلیکیشن‌های روبه‌روی کاربر، اغلب به کارت‌های سطح بالایی نیاز دارند تا تجربه کاربری جذاب و لحظه‌ای را ارائه دهند. بهینه سازی مدل ها اغلب برای رساندن هزینه ها به محدوده قابل مدیریت ضروری است.

سنخیت: شرکت های مولد هوش مصنوعی اغلب شاهد افزایش چشمگیر تقاضا هستند زیرا این فناوری بسیار جدید و هیجان انگیز است. غیرعادی نیست که شاهد افزایش 10 برابری حجم درخواست ها در روز، بر اساس انتشار محصول جدید، یا 50 درصد رشد مداوم در هفته باشیم. مدیریت این نوک ها اغلب در GPU های پایین تر آسان تر است، زیرا گره های محاسباتی بیشتری در صورت تقاضا در دسترس هستند. اغلب منطقی است که این نوع ترافیک را با منابع کم‌هزینه - به بهای عملکرد - ارائه دهیم، اگر از طرف کاربران کمتر درگیر یا کمتر ممتنع باشد.

بهینه سازی و زمان بندی مدل ها

بهینه سازی نرم افزار می تواند به شدت بر زمان اجرای مدل ها تأثیر بگذارد - و افزایش 10 برابری غیر معمول نیست. با این حال، باید تعیین کنید که کدام روش در مدل و سیستم خاص شما مؤثرتر خواهد بود.

برخی از تکنیک ها با طیف نسبتاً گسترده ای از مدل ها کار می کنند. با استفاده از نمایش‌های ممیز شناور کوتاه‌تر (یعنی FP16 یا FP8 در مقابل FP32 اصلی) یا کوانتیزاسیون (INT8، INT4، INT2) به سرعتی دست می‌یابید که اغلب با کاهش بیت‌ها خطی است. این گاهی اوقات نیاز به اصلاح مدل دارد، اما به طور فزاینده‌ای فناوری‌هایی در دسترس هستند که کار با دقت ترکیبی یا کوتاه‌تر را خودکار می‌کنند. هرس شبکه های عصبی با نادیده گرفتن وزن های با مقادیر کم، تعداد وزن ها را کاهش می دهد. همراه با ضرب ماتریس پراکنده کارآمد، این می تواند به سرعت قابل توجهی در GPU های مدرن دست یابد. مجموعه دیگری از تکنیک‌های بهینه‌سازی به تنگنای پهنای باند حافظه می‌پردازد (مثلاً با پخش وزن مدل).

سایر بهینه‌سازی‌ها بسیار مختص مدل هستند. به عنوان مثال، Stable Diffusion پیشرفت های عمده ای در میزان VRAM مورد نیاز برای استنتاج داشته است. با این حال دسته دیگری از بهینه سازی ها مربوط به سخت افزار است. TensorML NVIDIA شامل تعدادی بهینه سازی است، اما فقط روی سخت افزار NVIDIA کار می کند. آخرین، اما نه کم‌اهمیت، زمان‌بندی وظایف هوش مصنوعی می‌تواند گلوگاه‌ها یا پیشرفت‌های بزرگی در عملکرد ایجاد کند. تخصیص مدل‌ها به پردازنده‌های گرافیکی به‌گونه‌ای که تعویض وزن‌ها را به حداقل برساند، انتخاب بهترین GPU برای یک کار در صورت در دسترس بودن چندین مدل، و به حداقل رساندن زمان خرابی با دسته‌بندی بارهای کاری از قبل، تکنیک‌های رایج هستند.

در نهایت، بهینه‌سازی مدل هنوز کمی یک هنر سیاه است و اکثر استارت‌آپ‌هایی که با آنها صحبت می‌کنیم، برای کمک به برخی از این جنبه‌های نرم‌افزاری با اشخاص ثالث همکاری می‌کنند. اغلب، این‌ها فروشنده‌های سنتی Mlops نیستند، بلکه شرکت‌هایی هستند که در بهینه‌سازی مدل‌های تولیدی خاص (مثلاً OctoML یا SegMind) تخصص دارند.

هزینه زیرساخت هوش مصنوعی چگونه تکامل خواهد یافت؟

در چند سال گذشته، ما شاهد رشد تصاعدی هر دو بوده ایم پارامترهای مدل و قدرت محاسباتی GPU. مشخص نیست که آیا این روند ادامه خواهد داشت یا خیر.

امروزه به طور گسترده پذیرفته شده است که بین تعداد بهینه پارامترها و اندازه مجموعه داده های آموزشی رابطه وجود دارد (نگاه کنید به Deepmind's نوعی جانور جونده کوچک شبیه سنجاب برای بیشتر در این مورد کار کنید). بهترین LLM های امروزی در این زمینه آموزش دیده اند خزش مشترک (مجموعه ای از 4.5 میلیارد صفحه وب یا حدود 10٪ از کل صفحات وب موجود). مجموعه آموزشی همچنین شامل ویکی‌پدیا و مجموعه‌ای از کتاب‌ها است، اگرچه هر دو بسیار کوچک‌تر هستند (تعداد کل کتاب‌های موجود تخمین زده می‌شود فقط حدود 100 میلیون). ایده‌های دیگری مانند رونویسی محتوای ویدیویی یا صوتی پیشنهاد شده‌اند، اما اندازه هیچ‌کدام از آنها به هم نزدیک نیست. مشخص نیست که آیا می‌توانیم مجموعه داده‌های آموزشی غیر مصنوعی را به دست آوریم که 10 برابر بزرگ‌تر از آنچه قبلاً استفاده شده باشد.

عملکرد GPU همچنان افزایش می یابد، اما همچنین با سرعت کمتری. قانون مور هنوز دست نخورده است و اجازه می دهد تا ترانزیستورها و هسته های بیشتری وجود داشته باشند، اما قدرت و I/O در حال تبدیل شدن به عوامل محدود کننده هستند. علاوه بر این، بسیاری از میوه های کم آویزان برای بهینه سازی انتخاب شده اند. 

با این حال، هیچ یک از اینها به این معنی نیست که ما انتظار افزایش تقاضا برای ظرفیت محاسباتی را نداریم. حتی اگر رشد مجموعه‌های آموزشی و مدل‌ها کند شود، رشد صنعت هوش مصنوعی و افزایش تعداد توسعه‌دهندگان هوش مصنوعی باعث افزایش تقاضا برای پردازنده‌های گرافیکی بیشتر و سریع‌تر می‌شود. بخش بزرگی از ظرفیت GPU برای آزمایش توسط توسعه دهندگان در مرحله توسعه یک مدل استفاده می شود و این تقاضا به صورت خطی با تعداد کار مقیاس می شود. هیچ نشانه ای مبنی بر کاهش کمبود GPU که امروز داریم در آینده نزدیک وجود ندارد.

آیا این هزینه بالای زیرساخت‌های هوش مصنوعی باعث ایجاد خندقی می‌شود که ورود تازه‌واردها را غیرممکن می‌سازد تا با شرکت‌های مستقری که بودجه خوبی دارند پیش بیایند؟ ما هنوز جواب این سوال را نمی دانیم. هزینه آموزش LLM ممکن است امروزه شبیه یک خندق به نظر برسد، اما مدل های منبع باز مانند Alpaca یا Stable Diffusion نشان داده اند که این بازارها هنوز زود هستند و ممکن است به سرعت تغییر کنند. با گذشت زمان، ساختار هزینه پشته نرم افزار هوش مصنوعی در حال ظهور (پست قبلی ما را ببینید) ممکن است بیشتر شبیه صنعت نرم افزار سنتی باشد. 

در نهایت، این امر خوبی خواهد بود: تاریخ نشان داده است که این امر منجر به اکوسیستم های پر جنب و جوش با نوآوری سریع و فرصت های زیادی برای بنیانگذاران کارآفرین می شود.

با تشکر از معین ندیم و شانگدا خو برای راهنمایی و راهنمایی آنها در طول فرآیند نوشتن.


¹ شهود در اینجا این است که برای هر پارامتر (به عنوان مثال وزن) در یک شبکه عصبی، یک عملیات استنتاج (یعنی عبور به جلو) نیاز به انجام دو عملیات ممیز شناور در هر پارامتر دارد. ابتدا مقدار گره ورودی شبکه عصبی را با پارامتر ضرب می کند. دوم، نتیجه حاصل از جمع را به گره خروجی شبکه عصبی اضافه می کند. پارامترهای رمزگذار یک بار در هر نشانه ورودی و پارامترهای رمزگشا یک بار در هر نشانه خروجی استفاده می شوند. اگر مدلی را فرض کنیم p پارامترها و ورودی و خروجی هر دو دارای طول هستند n نشانه, کل عملیات ممیز شناور هستند n * p. بسیاری از عملیات های دیگر (مانند عادی سازی، رمزگذاری/رمزگشایی تعبیه) وجود دارد که در یک مدل اتفاق می افتد، اما زمان لازم برای انجام آنها در مقایسه کم است. 

² یادگیری ابتدا نیاز به یک عبور رو به جلو از ترانسفورماتور دارد که در بالا توضیح داده شد، و به دنبال آن یک عبور به عقب است که چهار عملیات اضافی در هر پارامتر برای محاسبه گرادیان و تنظیم وزن انجام می دهد. توجه داشته باشید که محاسبه گرادیان مستلزم حفظ مقادیر گره محاسبه‌شده از پاس رو به جلو است. برای GPT-3، مدل های زبان یادگیرندگان کمی هستند بحث هزینه آموزش

* * * *

نظرات بیان شده در اینجا نظرات پرسنل AH Capital Management, LLC ("a16z") نقل شده است و نظرات a16z یا شرکت های وابسته به آن نیست. برخی از اطلاعات موجود در اینجا از منابع شخص ثالث، از جمله از شرکت‌های سبد سرمایه‌ای که توسط a16z مدیریت می‌شوند، به‌دست آمده است. در حالی که a16z از منابعی گرفته شده است که معتقدند قابل اعتماد هستند، a16z به طور مستقل چنین اطلاعاتی را تأیید نکرده است و هیچ اظهارنظری در مورد صحت پایدار اطلاعات یا مناسب بودن آن برای یک موقعیت خاص ارائه نمی کند. علاوه بر این، این محتوا ممکن است شامل تبلیغات شخص ثالث باشد. aXNUMXz چنین تبلیغاتی را بررسی نکرده و محتوای تبلیغاتی موجود در آن را تایید نمی کند.

این محتوا فقط برای مقاصد اطلاعاتی ارائه شده است و نباید به عنوان مشاوره حقوقی، تجاری، سرمایه گذاری یا مالیاتی به آن اعتماد کرد. شما باید در مورد این موارد با مشاوران خود مشورت کنید. ارجاع به هر گونه اوراق بهادار یا دارایی دیجیتال فقط برای مقاصد توضیحی است و به منزله توصیه یا پیشنهاد سرمایه گذاری برای ارائه خدمات مشاوره سرمایه گذاری نیست. علاوه بر این، این محتوا برای هیچ سرمایه‌گذار یا سرمایه‌گذار بالقوه‌ای هدایت نشده و برای استفاده از آن در نظر گرفته نشده است، و تحت هیچ شرایطی نمی‌توان هنگام تصمیم‌گیری برای سرمایه‌گذاری در هر صندوقی که توسط a16z مدیریت می‌شود، به آن اعتماد کرد. (پیشنهاد سرمایه گذاری در یک صندوق a16z فقط توسط یادداشت قرار دادن خصوصی، قرارداد اشتراک و سایر اسناد مربوط به هر صندوق انجام می شود و باید به طور کامل خوانده شود.) هر گونه سرمایه گذاری یا شرکت پرتفوی ذکر شده، ارجاع شده، یا شرح داده شده نشان دهنده همه سرمایه گذاری ها در وسایل نقلیه تحت مدیریت a16z نیست، و نمی توان اطمینان داشت که سرمایه گذاری ها سودآور هستند یا سایر سرمایه گذاری های انجام شده در آینده ویژگی ها یا نتایج مشابهی خواهند داشت. فهرستی از سرمایه‌گذاری‌های انجام‌شده توسط صندوق‌های تحت مدیریت آندریسن هوروویتز (به استثنای سرمایه‌گذاری‌هایی که ناشر مجوز افشای عمومی a16z و همچنین سرمایه‌گذاری‌های اعلام‌نشده در دارایی‌های دیجیتالی عمومی را ارائه نکرده است) در https://a16z.com/investments موجود است. /.

نمودارها و نمودارهای ارائه شده در داخل صرفاً برای مقاصد اطلاعاتی هستند و هنگام تصمیم گیری برای سرمایه گذاری نباید به آنها اعتماد کرد. عملکرد گذشته نشان دهنده نتایج آینده نیست. محتوا فقط از تاریخ مشخص شده صحبت می کند. هر گونه پیش بینی، تخمین، پیش بینی، هدف، چشم انداز، و/یا نظرات بیان شده در این مطالب بدون اطلاع قبلی ممکن است تغییر کند و ممکن است متفاوت یا مغایر با نظرات بیان شده توسط دیگران باشد. لطفاً برای اطلاعات مهم بیشتر به https://a16z.com/disclosures مراجعه کنید.

تمبر زمان:

بیشتر از آندرسن هورویتز