استنتاج مدل پایه مقیاس به صدها مدل با Amazon SageMaker – قسمت 1

بازنشر افلاطون

دنبال: 0

از آنجایی که دموکراسی‌سازی مدل‌های بنیادی (FM) رایج‌تر می‌شود و تقاضا برای خدمات تقویت‌شده با هوش مصنوعی افزایش می‌یابد، ارائه‌دهندگان نرم‌افزار به‌عنوان سرویس (SaaS) به دنبال استفاده از پلت‌فرم‌های یادگیری ماشین (ML) هستند که از چندین مستأجر پشتیبانی می‌کنند - برای دانشمندان داده داخلی در سازمانشان. و مشتریان خارجی شرکت‌های بیشتری به ارزش استفاده از FMها برای تولید محتوای بسیار شخصی و مؤثر برای مشتریان خود پی می‌برند. تنظیم دقیق FMها بر روی داده‌های خود می‌تواند دقت مدل را برای موارد استفاده خاص شما، خواه ایجاد ایمیل فروش با استفاده از زمینه بازدید از صفحه، ایجاد پاسخ‌های جستجو متناسب با خدمات شرکت، یا خودکارسازی پشتیبانی مشتری با آموزش مکالمات تاریخی باشد، به میزان قابل توجهی افزایش دهد.

ارائه میزبانی مدل هوش مصنوعی مولد به عنوان یک سرویس، هر سازمانی را قادر می‌سازد تا بدون نیاز به تخصص هوش مصنوعی داخلی، FM‌ها را به‌راحتی ادغام، آزمایش آزمایشی، و استقرار FM‌ها را در مقیاس به روشی مقرون‌به‌صرفه انجام دهد. این به شرکت‌ها امکان می‌دهد موارد استفاده از هوش مصنوعی مانند محتوای فروش و بازاریابی بیش از حد شخصی، جستجوی هوشمند و گردش‌های کاری سفارشی‌سازی شده خدمات مشتری را آزمایش کنند. با استفاده از مدل‌های مولد میزبانی شده که بر روی داده‌های مشتریان قابل اعتماد تنظیم شده‌اند، کسب‌وکارها می‌توانند سطح بعدی برنامه‌های هوش مصنوعی شخصی‌شده و مؤثر را برای تعامل و خدمت بهتر به مشتریان خود ارائه دهند.

آمازون SageMaker گزینه های مختلف استنتاج ML از جمله تبدیل بلادرنگ، ناهمزمان و تبدیل دسته ای را ارائه می دهد. این پست بر روی ارائه راهنمایی های تجویزی در مورد میزبانی FM های مقرون به صرفه در مقیاس تمرکز دارد. به طور خاص، ما در مورد دنیای سریع و پاسخگو استنتاج بلادرنگ بحث می کنیم و گزینه های مختلف برای استنتاج بلادرنگ برای FM ها را بررسی می کنیم.

برای استنتاج، معماری‌های AI/ML چند مستاجر باید الزامات داده‌ها و مدل‌ها و همچنین منابع محاسباتی مورد نیاز برای انجام استنتاج از این مدل‌ها را در نظر بگیرند. این مهم است که مدل‌های AI/ML چند مستاجر را در نظر بگیرید – در حالت ایده‌آل، برای استفاده بهینه از پردازنده‌ها و پردازنده‌های گرافیکی، باید بتوانید یک راه‌حل استنتاج طراحی کنید که می‌تواند با اطمینان از توزیع مدل‌ها، توان سرویس را افزایش داده و هزینه را کاهش دهد. در سراسر زیرساخت محاسباتی به شیوه ای کارآمد. علاوه بر این، مشتریان به دنبال راه‌حل‌هایی هستند که به آن‌ها کمک می‌کند تا بدون نیاز به ساختن همه چیز از ابتدا، یک معماری استنتاج بهترین عملکرد را به کار گیرند.

SageMaker Inference یک سرویس میزبانی ML کاملاً مدیریت شده است. این برنامه از ساخت برنامه های هوش مصنوعی مولد پشتیبانی می کند در حالی که استانداردهای نظارتی مانند FedRAMP را رعایت می کند. SageMaker مقیاس بندی مقرون به صرفه را برای بارهای کاری استنتاج با توان عملیاتی بالا فعال می کند. این برنامه از بارهای کاری متنوعی از جمله استنتاج بلادرنگ، ناهمزمان و دسته ای بر روی سخت افزارهایی مانند AWS Inferentia، AWS Graviton، پردازنده های گرافیکی NVIDIA و پردازنده های اینتل پشتیبانی می کند. SageMaker به شما کنترل کامل بر بهینه سازی ها، جداسازی حجم کار و کانتینرسازی می دهد. این به شما امکان می‌دهد تا با پشتیبانی از استقرار چند مدل و چند کانتینر، هوش مصنوعی مولد را به عنوان یک راه‌حل خدماتی در مقیاس بسازید.

چالش های مدل های بنیاد میزبانی در مقیاس

در زیر برخی از چالش های میزبانی FM برای استنتاج در مقیاس آورده شده است:

ردپای حافظه بزرگ – FM هایی با ده ها یا صدها میلیارد پارامتر مدل اغلب از ظرفیت حافظه یک تراشه شتاب دهنده فراتر می روند.
ترانسفورماتورها کند هستند – رمزگشایی خودکار در FM ها، به ویژه با توالی های ورودی و خروجی طولانی، عملیات I/O حافظه را تشدید می کند. این در دوره‌های تأخیر غیرقابل قبولی به اوج می‌رسد و بر استنتاج بلادرنگ تأثیر منفی می‌گذارد.
هزینه - FM ها به شتاب دهنده های ML نیاز دارند که هم حافظه بالا و هم قدرت محاسباتی بالایی را ارائه می دهند. دستیابی به توان عملیاتی بالا و تأخیر کم بدون قربانی کردن هیچکدام یک کار تخصصی است که نیاز به درک عمیقی از بهینه‌سازی مشترک شتاب سخت‌افزار-نرم‌افزار دارد.
زمان طولانی تر برای ورود به بازار - عملکرد بهینه از FM ها نیاز به تنظیم دقیق دارد. این فرآیند تنظیم تخصصی، همراه با پیچیدگی‌های مدیریت زیرساخت، منجر به چرخه‌های طولانی زمان تا بازار می‌شود.
جداسازی حجم کار – میزبانی FM ها در مقیاس، چالش هایی را در به حداقل رساندن شعاع انفجار و مدیریت همسایگان پر سر و صدا معرفی می کند. توانایی مقیاس کردن هر FM در پاسخ به الگوهای ترافیکی خاص مدل، نیاز به بلند کردن سنگین دارد.
مقیاس پذیری به صدها FM - کار با صدها FM به طور همزمان هزینه های عملیاتی قابل توجهی را معرفی می کند. مدیریت نقطه پایانی مؤثر، برش مناسب و تخصیص شتاب‌دهنده، و مقیاس‌بندی خاص مدل وظایفی هستند که با بکارگیری مدل‌های بیشتر، پیچیدگی آن‌ها ترکیب می‌شود.

توابع تناسب اندام

تصمیم گیری در مورد گزینه میزبانی مناسب مهم است زیرا بر کاربران نهایی ارائه شده توسط برنامه های شما تأثیر می گذارد. برای این منظور، مفهوم را به عاریت می گیریم توابع تناسب اندامکه توسط نیل فورد و همکارانش از AWS Partner Thought Works در کار خود ابداع شد. معماری های تکاملی ساختمان. عملکردهای تناسب اندام یک ارزیابی تجویزی از گزینه های میزبانی مختلف بر اساس اهداف شما ارائه می دهد. توابع تناسب اندام به شما کمک می کنند تا داده های لازم را برای امکان تکامل برنامه ریزی شده معماری خود به دست آورید. آنها مقادیر قابل اندازه گیری را برای ارزیابی نزدیکی راه حل شما به دستیابی به اهداف تعیین شده تعیین می کنند. عملکردهای تناسب اندام می توانند و باید با تکامل معماری برای هدایت فرآیند تغییر دلخواه تطبیق داده شوند. این ابزاری را در اختیار معماران قرار می دهد تا تیم های خود را با حفظ استقلال تیم هدایت کنند.

ما پیشنهاد می کنیم هنگام انتخاب گزینه استنتاج FM مناسب در مقیاس و مقرون به صرفه، عملکردهای تناسب اندام زیر را در نظر بگیریم:

اندازه مدل فونداسیون - FM ها بر اساس ترانسفورماتورها هستند. ترانسفورماتورها در تولید توالی متن طولانی به دلیل اندازه بسیار زیاد مدل ها، کند و تشنه حافظه هستند. مدل‌های زبان بزرگ (LLM) نوعی از FM هستند که وقتی برای تولید دنباله‌های متنی استفاده می‌شوند، به قدرت محاسباتی زیادی نیاز دارند و در دسترسی به حافظه پهنای باند بالا (HBM) و ظرفیت محاسبه مشکل دارند. این به این دلیل است که بخش بزرگی از پهنای باند حافظه موجود با بارگذاری پارامترهای مدل و توسط فرآیند رمزگشایی با رگرسیون خودکار. در نتیجه، حتی با مقادیر انبوه توان محاسباتی، FMها توسط ورودی/خروجی حافظه و محدودیت‌های محاسباتی محدود می‌شوند. بنابراین، اندازه مدل تصمیم‌های زیادی را تعیین می‌کند، مانند اینکه آیا مدل روی یک شتاب‌دهنده منفرد قرار می‌گیرد یا نیاز به شتاب‌دهنده‌های چندگانه ML با استفاده از تقسیم‌بندی مدل روی نمونه برای اجرای استنتاج با توان عملیاتی بالاتر دارد. مدل‌هایی با بیش از 3 میلیارد پارامتر معمولاً به چندین شتاب‌دهنده ML نیاز دارند زیرا ممکن است مدل در یک دستگاه شتاب‌دهنده منفرد جا نگیرد.
عملکرد و تأخیر استنتاج FM - بسیاری از مدل‌ها و برنامه‌های ML دارای تأخیر حیاتی هستند، که در آنها تأخیر استنتاج باید در محدوده‌های مشخص‌شده توسط یک هدف سطح سرویس باشد. تأخیر استنتاج FM به عوامل متعددی بستگی دارد، از جمله:
- اندازه مدل FM - اندازه مدل، از جمله کوانتیزاسیون در زمان اجرا.
- سخت افزار - محاسبه (TFLOPS)، اندازه و پهنای باند HBM، پهنای باند شبکه، سرعت اتصال درون نمونه، و پهنای باند ذخیره سازی.
- محیط نرم افزار - سرور مدل، کتابخانه موازی مدل، موتور بهینه‌سازی مدل، عملکرد ارتباط جمعی، معماری شبکه مدل، کوانتیزاسیون و چارچوب ML.
- سریع - طول ورودی و خروجی و فراپارامترها.
- تأخیر مقیاس پذیری - زمان برای مقیاس در پاسخ به ترافیک.
- تأخیر شروع سرد – ویژگی هایی مانند پیش گرم شدن بار مدل می تواند تأخیر شروع سرد در بارگذاری FM را کاهش دهد.
جداسازی حجم کار - این به الزامات جداسازی حجم کار از منظر مقررات و انطباق، از جمله محافظت از محرمانه بودن و یکپارچگی مدل‌ها و الگوریتم‌های هوش مصنوعی، محرمانه بودن داده‌ها در حین استنتاج هوش مصنوعی، و حفاظت از مالکیت معنوی هوش مصنوعی (IP) در برابر دسترسی غیرمجاز یا از دیدگاه مدیریت ریسک اشاره دارد. برای مثال، می‌توانید با کاهش هدفمند شعاع انفجار یا جلوگیری از همسایگان پر سر و صدا، تأثیر یک رویداد امنیتی را کاهش دهید.
مقرون به صرفه - استقرار و نگهداری یک مدل FM و برنامه ML بر روی یک چارچوب مقیاس پذیر یک فرآیند تجاری حیاتی است و هزینه ها ممکن است بسته به انتخاب های انجام شده در مورد زیرساخت میزبانی مدل، گزینه میزبانی، چارچوب های ML، ویژگی های مدل ML، بهینه سازی ها، سیاست مقیاس بندی بسیار متفاوت باشد. ، و بیشتر. بارهای کاری باید از زیرساخت سخت افزاری به طور بهینه استفاده کنند تا اطمینان حاصل شود که هزینه ها همچنان قابل کنترل است. این تابع تناسب به طور خاص به هزینه زیرساخت اشاره دارد که بخشی از هزینه کل مالکیت (TCO) است. هزینه های زیرساخت، هزینه های ترکیبی برای ذخیره سازی، شبکه و محاسبات است. همچنین درک سایر اجزای TCO، از جمله هزینه های عملیاتی و هزینه های امنیت و انطباق، بسیار مهم است. هزینه های عملیاتی هزینه های ترکیبی عملیات، نظارت و نگهداری زیرساخت ML است. هزینه های عملیاتی به عنوان تعداد مهندسان مورد نیاز بر اساس هر سناریو و حقوق سالانه مهندسان، جمع آوری شده در یک دوره خاص محاسبه می شود. زمانی که ترافیکی برای صرفه‌جویی در هزینه‌ها وجود ندارد، به‌طور خودکار در هر مدل به صفر می‌رسند.
مقیاس پذیری - این شامل:
- سربار عملیاتی در مدیریت صدها FM برای استنتاج در یک پلت فرم چند مستاجر.
- توانایی بسته بندی چندین FM در یک نقطه پایانی و مقیاس در هر مدل.
- فعال کردن مقیاس‌بندی در سطح نمونه و مدل در سطح ظرف براساس الگوهای بار کاری.
- پشتیبانی از مقیاس دهی به صدها FM در هر نقطه پایانی.
- پشتیبانی از قرارگیری اولیه مدل ها در ناوگان و جابجایی ناکافی شتاب دهنده ها.

نمایش ابعاد در توابع تناسب اندام

ما از نمودار عنکبوتی، که گاهی اوقات نمودار رادار نیز نامیده می شود، برای نشان دادن ابعاد در عملکردهای تناسب اندام استفاده می کنیم. نمودار عنکبوتی اغلب زمانی استفاده می شود که می خواهید داده ها را در چندین بعد منحصر به فرد نمایش دهید. این ابعاد معمولاً کمی هستند و معمولاً از صفر تا حداکثر مقدار متغیر هستند. محدوده هر بعد با یکدیگر نرمال می شود، به طوری که وقتی نمودار عنکبوت خود را ترسیم می کنیم، طول یک خط از صفر تا حداکثر مقدار یک بعد برای هر بعد یکسان خواهد بود.

نمودار زیر فرآیند تصمیم گیری مربوط به انتخاب معماری شما در SageMaker را نشان می دهد. هر شعاع در نمودار عنکبوت یکی از توابع تناسب اندام است که هنگام ایجاد راه حل استنتاج خود اولویت بندی می کنید.

استنتاج مدل پایه مقیاس به صدها مدل با Amazon SageMaker – قسمت 1 | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.

در حالت ایده‌آل، شکلی را می‌خواهید که در تمام اضلاع متساوی الاضلاع باشد (پنج ضلعی). این نشان می دهد که شما قادر به بهینه سازی در تمام عملکردهای تناسب اندام هستید. اما واقعیت این است که دستیابی به آن شکل چالش برانگیز خواهد بود - همانطور که شما یک عملکرد تناسب اندام را اولویت بندی می کنید، روی خطوط شعاع دیگر تأثیر می گذارد. این بدان معناست که بسته به آنچه که برای برنامه هوش مصنوعی مولد شما مهم است همیشه مبادلاتی وجود خواهد داشت و نموداری خواهید داشت که به سمت شعاع خاصی منحرف می شود. این معیارهایی است که ممکن است بخواهید بسته به نحوه مشاهده هر عملکرد، اولویت را به نفع سایرین حذف کنید. در نمودار ما، وزن متریک هر تابع تناسب به این صورت تعریف شده است - هر چه مقدار کمتر باشد، برای آن تابع تناسب کمتر بهینه است (به استثنای اندازه مدل، در این صورت هر چه مقدار بالاتر باشد، اندازه آن بزرگتر خواهد بود. مدل).

به عنوان مثال، بیایید یک مورد استفاده را در نظر بگیریم که در آن می‌خواهید از یک مدل خلاصه‌سازی بزرگ (مانند Anthropic Claude) برای ایجاد خلاصه‌های کاری از موارد خدمات و تعاملات مشتری بر اساس داده‌های موردی و سابقه مشتری استفاده کنید. ما نمودار عنکبوت زیر را داریم.

از آنجایی که این ممکن است شامل داده‌های حساس مشتری باشد، شما انتخاب می‌کنید که این حجم کاری را از مدل‌های دیگر جدا کرده و آن را روی یک نقطه پایانی تک مدل میزبانی کنید، که می‌تواند مقیاس آن را چالش‌برانگیز کند زیرا باید نقاط پایانی جداگانه را برای هر FM بچرخانید و مدیریت کنید. برنامه مولد هوش مصنوعی که با آن از مدل استفاده می کنید توسط عوامل سرویس به صورت بلادرنگ استفاده می شود، بنابراین تأخیر و توان عملیاتی در اولویت هستند، بنابراین نیاز به استفاده از انواع نمونه های بزرگتر مانند P4De است. در این شرایط، هزینه ممکن است بیشتر باشد زیرا اولویت جداسازی، تأخیر و توان عملیاتی است.

یکی دیگر از موارد استفاده سازمان خدماتی است که یک برنامه چت ربات پرسش و پاسخ می سازد که برای تعداد زیادی از مشتریان سفارشی شده است. نمودار عنکبوتی زیر اولویت های آنها را نشان می دهد.

هر تجربه ربات چت ممکن است لازم باشد برای هر مشتری خاص طراحی شود. مدل‌های مورد استفاده ممکن است نسبتاً کوچک‌تر باشند (FLAN-T5-XXL، Llama 7B، و k-NN)، و هر ربات چت در یک مجموعه ساعت مشخص برای مناطق زمانی مختلف در هر روز کار می‌کند. راه حل همچنین ممکن است دارای Retrieval Augmented Generation (RAG) باشد که با یک پایگاه داده حاوی تمام موارد پایه دانش برای استنتاج در زمان واقعی استفاده می شود. هیچ داده خاص مشتری از طریق این چت بات مبادله نمی شود. تأخیرهای شروع سرد قابل تحمل هستند زیرا چت ربات ها بر اساس یک برنامه زمان بندی مشخص کار می کنند. برای این مورد استفاده، می‌توانید معماری نقطه پایانی چند مدلی را انتخاب کنید و ممکن است بتوانید با استفاده از انواع نمونه‌های کوچک‌تر (مانند G5) هزینه را به حداقل برسانید و با میزبانی چندین مدل در هر نقطه پایانی در مقیاس، هزینه‌های عملیاتی را کاهش دهید. به استثنای جداسازی حجم کار، عملکردهای تناسب اندام در این مورد استفاده ممکن است دارای اولویت بیشتری باشند و مبادلات تا حدی به حداقل می رسد.

یک مثال نهایی می تواند یک برنامه تولید تصویر با استفاده از مدلی مانند Stable Diffusion 2.0 باشد که یک مدل 3.5 میلیارد پارامتری است. نمودار عنکبوت ما به شرح زیر است.

این یک برنامه مبتنی بر اشتراک است که به هزاران FM و مشتری خدمات ارائه می دهد. زمان پاسخگویی باید سریع باشد زیرا هر مشتری انتظار دارد که خروجی های تصویر به سرعت تغییر کند. توان عملیاتی نیز حیاتی است، زیرا در هر ثانیه صدها هزار درخواست وجود خواهد داشت، بنابراین نوع نمونه باید یک نوع نمونه بزرگتر باشد، مانند P4D که دارای GPU و حافظه کافی است. برای این کار می‌توانید یک نقطه پایانی چند کانتینری بسازید که چندین نسخه از مدل را میزبانی می‌کند تا تولید تصویر را از یک مجموعه درخواست به مجموعه دیگر حذف کنید. برای این مورد استفاده، به منظور اولویت‌بندی تأخیر و توان عملیاتی و تطبیق با تقاضای کاربر، هزینه محاسبات و جداسازی حجم کار، معاوضه خواهد بود.

استفاده از عملکردهای تناسب اندام برای انتخاب گزینه میزبانی FM

در این بخش، ما به شما نشان می دهیم که چگونه عملکردهای تناسب اندام قبلی را در انتخاب گزینه میزبانی مناسب FM در SageMaker FMs در مقیاس اعمال کنید.

نقاط پایانی تک مدل SageMaker

نقاط پایانی تک مدل SageMaker به شما این امکان را می دهد که یک FM را در یک کانتینر میزبانی شده در نمونه های اختصاصی با تاخیر کم و توان عملیاتی بالا میزبانی کنید. این نقاط پایانی به طور کامل مدیریت می شوند و از مقیاس خودکار پشتیبانی می کنند. می‌توانید نقطه پایانی تک مدل را به‌عنوان یک نقطه پایانی تدارک دیده پیکربندی کنید که در آن پیکربندی زیرساخت نقطه پایانی مانند نوع نمونه و تعداد آن را پاس می‌کنید، جایی که SageMaker به‌طور خودکار منابع محاسباتی را راه‌اندازی می‌کند و بسته به خط‌مشی مقیاس‌بندی خودکار، آنها را به داخل و خارج مقیاس می‌دهد. شما می توانید با استفاده از چندین نقطه پایانی تک مدلی، میزبانی صدها مدل را انجام دهید و از a استفاده کنید معماری مبتنی بر سلول برای افزایش انعطاف پذیری و کاهش شعاع انفجار.

هنگام ارزیابی توابع تناسب اندام برای یک نقطه پایانی تک مدل تدارک دیده شده، موارد زیر را در نظر بگیرید:

اندازه مدل فونداسیون – اگر مدل‌هایی دارید که نمی‌توانند در حافظه شتاب‌دهنده ML قرار بگیرند و بنابراین در یک نمونه به شتاب‌دهنده‌های متعدد نیاز دارند، این کار مناسب است.
عملکرد و تأخیر استنتاج FM - این مربوط به برنامه های کاربردی هوش مصنوعی مولد با تأخیر است.
جداسازی حجم کار - برنامه شما ممکن است نیاز داشته باشد ابر محاسبه الاستیک آمازون (Amazon EC2) ایزوله در سطح نمونه به دلایل انطباق امنیتی. هر FM یک نقطه پایان استنتاج جداگانه دریافت می کند و نمونه EC2 را با مدل دیگری به اشتراک نمی گذارد. برای مثال، می‌توانید حجم کار استنتاج مدل مرتبط با HIPAA (مانند مدل تشخیص PHI) را در یک نقطه پایانی جداگانه با پیکربندی گروه امنیتی اختصاصی با جداسازی شبکه جدا کنید. شما می توانید حجم کار استنتاج مدل مبتنی بر GPU خود را از سایر موارد بر اساس نمونه های EC2 مبتنی بر Nitro مانند p4dn جدا کنید تا آنها را از بارهای کاری کمتر قابل اعتماد جدا کنید. نمونه‌های EC2 مبتنی بر سیستم نیترو یک رویکرد منحصر به فرد برای مجازی‌سازی و جداسازی ارائه می‌کنند و شما را قادر می‌سازد تا پردازش داده‌های حساس را از اپراتورها و نرم‌افزار AWS همیشه ایمن و جدا کنید. مهم ترین بعد را فراهم می کند محاسبات محرمانه به عنوان مجموعه ای ذاتی و پیش فرض از حفاظت از نرم افزار سیستم و اپراتورهای ابری. این گزینه همچنین از استقرار مدل های AWS Marketplace ارائه شده توسط ارائه دهندگان مدل های شخص ثالث در SageMaker پشتیبانی می کند.

نقاط پایانی چند مدل SageMaker

SageMaker نقاط پایانی چند مدلی (MME) به شما امکان می‌دهد چندین مدل را روی یک هسته GPU میزبانی کنید، نمونه‌های GPU را در پشت یک نقطه پایانی در چندین مدل به اشتراک بگذارید، و مدل‌ها را بر اساس ترافیک ورودی به صورت پویا بارگیری و بارگیری کنید. با این کار می توانید به میزان قابل توجهی در هزینه صرفه جویی کنید و به بهترین قیمت و عملکرد دست یابید.

اگر نیاز به میزبانی مدل‌های کوچک‌تری دارید که در یک نمونه می‌توانند در یک شتاب‌دهنده ML قرار بگیرند، MME بهترین انتخاب هستند. اگر تعداد زیادی (حداکثر هزاران) مدل با اندازه مشابه (کمتر از 1 میلیارد پارامتر) دارید که می توانید از طریق یک کانتینر مشترک در یک نمونه ارائه دهید و نیازی به دسترسی به همه مدل ها در یک نمونه ندارید، این استراتژی باید در نظر گرفته شود. همان زمان. می توانید مدلی را که باید استفاده شود بارگیری کنید و سپس آن را برای مدل دیگری تخلیه کنید.

MMEها همچنین برای مدل‌های میزبانی مشترک طراحی شده‌اند که از چارچوب ML یکسانی استفاده می‌کنند، زیرا از کانتینر مشترک برای بارگیری چندین مدل استفاده می‌کنند. بنابراین، اگر ترکیبی از چارچوب های ML در ناوگان مدل خود دارید (مانند PyTorch و TensorFlow)، یک نقطه پایانی SageMaker با InferenceComponents انتخاب بهتری است ما بحث میکنیم InferenceComponents بیشتر در ادامه این پست

در نهایت، MMEها برای برنامه‌هایی مناسب هستند که می‌توانند گاه به گاه جریمه تأخیر شروع سرد را تحمل کنند، زیرا مدل‌های کم استفاده می‌توانند به نفع مدل‌هایی که اغلب فراخوانی می‌شوند، بارگذاری شوند. اگر دنباله‌ای طولانی از مدل‌هایی دارید که به‌ندرت به آن‌ها دسترسی پیدا می‌کنید، یک نقطه پایانی چند مدلی می‌تواند به طور مؤثری به این ترافیک خدمت کند و باعث صرفه‌جویی قابل توجهی در هزینه شود.

هنگام ارزیابی زمان استفاده از MME موارد زیر را در نظر بگیرید:

اندازه مدل فونداسیون - ممکن است مدل‌هایی داشته باشید که در یک نمونه با HBM شتاب‌دهنده ML منطبق باشند و بنابراین نیازی به شتاب‌دهنده‌های متعدد نداشته باشید.
عملکرد و تأخیر استنتاج FM – ممکن است برنامه‌های هوش مصنوعی تولیدی داشته باشید که می‌توانند تأخیر شروع سرد را زمانی که مدل درخواست می‌شود و در حافظه نیست، تحمل کنند.
جداسازی حجم کار – در نظر بگیرید که همه مدل‌ها از یک ظرف استفاده کنند.
مقیاس پذیری - موارد زیر را در نظر بگیرید:
- شما می توانید چندین مدل را در یک نقطه پایانی و مقیاس در هر مدل و نمونه ML بسته بندی کنید.
- می‌توانید مقیاس خودکار سطح نمونه را بر اساس الگوهای بار کاری فعال کنید.
- MME ها از مقیاس دهی به هزاران مدل در هر نقطه پایانی پشتیبانی می کنند. شما نیازی به حفظ مقیاس بندی خودکار و پیکربندی استقرار هر مدل ندارید.
- هر زمان که مدل توسط درخواست استنتاج درخواست شد، می توانید از استقرار داغ استفاده کنید.
- می‌توانید طبق درخواست استنتاج مدل‌ها را به‌صورت پویا بارگیری کنید و در پاسخ به فشار حافظه آن‌ها را تخلیه کنید.
- می توانید منابع زیربنایی را با مدل ها به اشتراک بگذارید.
مقرون به صرفه - به اشتراک گذاری منابع در بین مدل ها با بارگذاری و تخلیه پویا مدل ها، که منجر به صرفه جویی در هزینه می شود، در نظر بگیرید.

نقطه پایان استنتاج SageMaker با InferenceComponents

نقطه پایان استنتاج جدید SageMaker با InferenceComponents یک رویکرد مقیاس پذیر برای میزبانی چندین FM در یک نقطه پایانی و مقیاس بندی در هر مدل ارائه می دهد. کنترل دقیقی برای تخصیص منابع (شتاب دهنده ها، حافظه، CPU) و تنظیم سیاست های مقیاس خودکار بر اساس هر مدل برای دستیابی به توان عملیاتی مطمئن و عملکرد قابل پیش بینی در اختیار شما قرار می دهد و می توانید استفاده از محاسبات را در چندین مدل به صورت جداگانه مدیریت کنید. اگر مدل‌های زیادی با اندازه‌ها و الگوهای ترافیکی مختلف دارید که باید میزبانی کنید، و اندازه‌های مدل اجازه نمی‌دهد در حافظه یک شتاب‌دهنده جا شوند، این بهترین گزینه است. همچنین به شما امکان می‌دهد برای صرفه‌جویی در هزینه‌ها، مقیاس را به صفر برسانید، اما الزامات تأخیر برنامه شما باید به اندازه کافی انعطاف‌پذیر باشد تا زمان شروع سرد مدل‌ها را در نظر بگیرد. این گزینه بیشترین انعطاف را در استفاده از محاسبات به شما می دهد تا زمانی که جداسازی در سطح کانتینر برای هر مشتری یا FM کافی باشد. برای جزئیات بیشتر در مورد نقطه پایانی جدید SageMaker با InferenceComponents، به پست مفصل مراجعه کنید با استفاده از آخرین ویژگی های Amazon SageMaker هزینه های استقرار مدل را به طور متوسط 50٪ کاهش دهید.

هنگام تعیین اینکه چه زمانی باید از نقطه پایانی استفاده کنید، موارد زیر را در نظر بگیرید InferenceComponents:

اندازه مدل فونداسیون – این برای مدل‌هایی مناسب است که نمی‌توانند در حافظه شتاب‌دهنده ML قرار بگیرند و بنابراین به چندین شتاب‌دهنده در یک نمونه نیاز دارند.
عملکرد و تأخیر استنتاج FM - این برای برنامه‌های هوش مصنوعی مولد با تأخیر مناسب است.
جداسازی حجم کار - ممکن است برنامه هایی داشته باشید که در آن ایزوله سازی در سطح ظرف کافی باشد.
مقیاس پذیری - موارد زیر را در نظر بگیرید:
- شما می توانید چندین FM را در یک نقطه پایانی و مقیاس در هر مدل بسته بندی کنید.
- می‌توانید مقیاس‌بندی سطح ظرف را بر اساس الگوهای بار کاری در سطح نمونه و مدل‌سازی فعال کنید.
- این روش از مقیاس دهی به صدها FM در هر نقطه پایانی پشتیبانی می کند. شما نیازی به پیکربندی سیاست مقیاس خودکار برای هر مدل یا ظرف ندارید.
- این از قرارگیری اولیه مدل ها در ناوگان و کنترل شتاب دهنده های ناکافی پشتیبانی می کند.
مقرون به صرفه – برای صرفه جویی در هزینه ها، می توانید در هر مدل زمانی که ترافیک وجود ندارد مقیاس آن را به صفر برسانید.

بسته بندی چندین FM در نقطه پایانی یکسان: گروه بندی مدل

تعیین استراتژی معماری استنتاجی که در SageMaker به کار می گیرید به اولویت ها و الزامات برنامه شما بستگی دارد. برخی از ارائه‌دهندگان SaaS در محیط‌های تنظیم‌شده‌ای می‌فروشند که الزامات انزوا سختی را تحمیل می‌کنند - آنها باید گزینه‌ای داشته باشند که آنها را قادر می‌سازد به برخی یا همه FM‌های خود گزینه استقرار در یک مدل اختصاصی را ارائه دهند. اما برای بهینه‌سازی هزینه‌ها و به دست آوردن صرفه‌جویی در مقیاس، ارائه‌دهندگان SaaS باید محیط‌های چند مستاجر را نیز داشته باشند که در آن چندین FM را در یک مجموعه مشترک از منابع SageMaker میزبانی کنند. اکثر سازمان‌ها احتمالاً یک محیط میزبانی ترکیبی خواهند داشت که در آن نقاط پایانی تک مدلی و نقاط پایانی چند مدلی یا چند کانتینری را به عنوان بخشی از معماری SageMaker خود دارند.

یک تمرین مهم که باید هنگام معماری این محیط استنتاج توزیع شده انجام دهید، گروه بندی مدل های خود برای هر نوع معماری است که باید در نقاط پایانی SageMaker خود تنظیم کنید. اولین تصمیمی که باید بگیرید در مورد الزامات جداسازی حجم کاری است—شما باید FM هایی را که باید در نقاط پایانی اختصاصی خودشان باشند، جدا کنید، خواه به دلایل امنیتی، کاهش شعاع انفجار و خطر همسایه پر سر و صدا، یا ملاقات باشد. SLAهای سختگیرانه برای تأخیر

ثانیا، باید تعیین کنید که آیا FM ها در یک شتاب دهنده ML قرار می گیرند یا به شتاب دهنده های متعدد نیاز دارند، اندازه مدل ها و الگوهای ترافیکی آنها چیست. مدل‌های با اندازه‌های مشابه که در مجموع برای پشتیبانی از یک تابع مرکزی خدمت می‌کنند، منطقاً می‌توانند با میزبانی مشترک چندین مدل در یک نقطه پایانی با هم گروه‌بندی شوند، زیرا اینها بخشی از یک برنامه تجاری واحد هستند که توسط یک تیم مرکزی مدیریت می‌شود. برای میزبانی مشترک چندین مدل در یک نقطه پایانی، یک تمرین گروه‌بندی باید انجام شود تا مشخص شود کدام مدل‌ها می‌توانند در یک نمونه، یک ظرف یا چند کانتینر قرار بگیرند.

گروه بندی مدل ها برای MME

MMEها برای مدل‌های کوچک‌تر مناسب‌تر هستند (کمتر از 1 میلیارد پارامتر که می‌توانند در یک شتاب‌دهنده جا شوند) و از نظر اندازه و تأخیر فراخوانی مشابه هستند. برخی از تغییرات در اندازه مدل قابل قبول است. مثلا، Zendesk's مدل‌ها بین 10 تا 50 مگابایت هستند که به خوبی کار می‌کند، اما تغییرات اندازه‌ای که ضریب 10، 50 یا 100 برابر بیشتر است، مناسب نیستند. مدل‌های بزرگ‌تر ممکن است باعث شوند تعداد بارگذاری‌ها و بارگیری‌های بیشتر مدل‌های کوچک‌تر برای گنجاندن فضای کافی حافظه، که می‌تواند منجر به تأخیر بیشتر در نقطه پایانی شود. تفاوت در ویژگی‌های عملکرد مدل‌های بزرگ‌تر نیز می‌تواند منابعی مانند CPU را به طور نابرابر مصرف کند، که می‌تواند روی مدل‌های دیگر تأثیر بگذارد.

مدل‌هایی که در MME با هم گروه‌بندی می‌شوند، باید الگوهای ترافیکی پلکانی داشته باشند تا به شما امکان دهد محاسبات را در بین مدل‌ها برای استنتاج به اشتراک بگذارید. الگوهای دسترسی و تأخیر استنتاج شما همچنین باید زمانی که بین مدل‌ها جابه‌جا می‌شوید، زمان شروع سردی داشته باشد.

در زیر برخی از معیارهای توصیه شده برای گروه بندی مدل ها برای MME آمده است:

مدل های کوچکتر - از مدل هایی با کمتر از 1 میلیارد پارامتر استفاده کنید
اندازه مدل - مدل های با اندازه مشابه را گروه بندی کنید و در یک نقطه پایانی مشترک میزبانی کنید
تأخیر فراخوانی - مدل‌های گروهی با الزامات تأخیر فراخوانی مشابه که می‌توانند شروع سرد را تحمل کنند
سخت افزار - مدل ها را با استفاده از همان نوع نمونه EC2 زیربنایی گروه بندی کنید

گروه بندی مدل ها برای نقطه پایانی با InferenceComponents

نقطه پایانی SageMaker با InferenceComponents برای میزبانی FM های بزرگتر (بیش از 1 میلیارد پارامتر) در مقیاسی که به شتاب دهنده های ML یا دستگاه های متعدد در یک نمونه EC2 نیاز دارند، بهترین مناسب است. این گزینه برای بارهای کاری حساس به تأخیر و برنامه هایی که در آن ایزوله در سطح ظرف کافی است مناسب است. در زیر برخی از معیارهای توصیه شده برای گروه بندی مدل ها برای نقطه پایانی با چندگانه آورده شده است InferenceComponents:

سخت افزار - مدل ها را با استفاده از همان نوع نمونه EC2 زیربنایی گروه بندی کنید
اندازه مدل – گروه بندی مدل بر اساس اندازه مدل توصیه می شود اما اجباری نیست

خلاصه

در این پست، ما به سه گزینه استنباط بلادرنگ ML (نقاط پایانی تک، نقاط پایانی چند مدلی و نقاط پایانی با InferenceComponents) در SageMaker برای میزبانی کارآمد FMها در مقیاس مقرون به صرفه. می‌توانید از پنج عملکرد تناسب اندام استفاده کنید تا به شما در انتخاب گزینه میزبانی مناسب SageMaker برای FMs در مقیاس کمک کند. FM ها را گروه بندی کنید و با استفاده از معیارهای گروه بندی توصیه شده، آنها را در نقاط پایانی استنتاج SageMaker میزبانی کنید. علاوه بر عملکردهای تناسب اندام که در مورد آن بحث کردیم، می توانید از جدول زیر برای تصمیم گیری در مورد اینکه کدام گزینه میزبانی مشترک SageMaker برای مورد استفاده شما بهترین است استفاده کنید. می توانید نمونه کدهای هر یک از گزینه های میزبانی FM را در SageMaker در مخازن GitHub زیر پیدا کنید: تک نقطه پایانی SageMaker, نقطه پایانی چند مدلیو InferenceComponents نقطه پایانی

.	نقطه پایانی تک مدل	نقطه پایانی چند مدل	نقطه پایانی با InferenceComponents
چرخه عمر مدل	API برای مدیریت	پویا از طریق مسیر آمازون S3	API برای مدیریت
انواع نمونه پشتیبانی می شود	CPU، تک و چند GPU، نمونه های مبتنی بر استنتاج AWS	CPU، نمونه های مبتنی بر GPU واحد	CPU، تک و چند GPU، نمونه های مبتنی بر استنتاج AWS
دانه بندی متریک	نقطه پایانی	نقطه پایانی	نقطه پایانی و ظرف
مقیاس بندی دانه بندی	نمونه ML	نمونه ML	ظرف
رفتار مقیاس بندی	مقیاس بندی مستقل ML نمونه	مدل ها از حافظه بارگیری و تخلیه می شوند	پوسته پوسته شدن ظروف مستقل
سنجاق مدل	.	مدل ها را می توان بر اساس حافظه بارگیری کرد	هر ظرف را می توان طوری پیکربندی کرد که همیشه بارگیری یا تخلیه شود
الزامات کانتینر	SageMaker از پیش ساخته شده، سازگار با SageMaker Container خود را بیاورید (BYOC)	MMS، Triton، BYOC با قراردادهای MME	SageMaker از پیش ساخته شده، سازگار با SageMaker BYOC
گزینه های مسیریابی	تصادفی یا حداقل اتصال	تصادفی، چسبنده با پنجره محبوبیت	تصادفی یا حداقل اتصال
تخصیص سخت افزار برای مدل	تقدیم به مدل تک	به اشتراک گذاشته شده	برای هر ظرف اختصاص داده شده است
تعداد مدل های پشتیبانی شده	تنها	هزاران	صدها نفر
جریان پاسخ	پشتیبانی	پشتیبانی نشده	پشتیبانی
ضبط داده ها	پشتیبانی	پشتیبانی نشده	پشتیبانی نشده
تست سایه	پشتیبانی	پشتیبانی نشده	پشتیبانی نشده
چند واریانت	پشتیبانی	قابل اجرا نیست	پشتیبانی نشده
مدل های AWS Marketplace	پشتیبانی	قابل اجرا نیست	پشتیبانی نشده

درباره نویسندگان

استنتاج مدل پایه مقیاس به صدها مدل با Amazon SageMaker – قسمت 1 | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai. دکتر مهران نجفی یک معمار ارشد راه حل برای AWS است که بر راه حل های AI/ML و SaaS در Scale متمرکز شده است.

داوال پاتل یک معمار اصلی یادگیری ماشین در AWS است. او با سازمان‌هایی از شرکت‌های بزرگ گرفته تا استارت‌آپ‌های متوسط در زمینه مشکلات مربوط به محاسبات توزیع‌شده و هوش مصنوعی کار کرده است. او بر روی یادگیری عمیق از جمله دامنه های NLP و Computer Vision تمرکز دارد. او به مشتریان کمک می کند تا به استنباط مدل با عملکرد بالا در SageMaker دست یابند.

استنتاج مدل پایه مقیاس به صدها مدل با Amazon SageMaker – قسمت 1 | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai. ریلا دی ژسوس یک معمار اصلی راه حل در AWS است که با موفقیت به مشتریان سازمانی مختلف در منطقه DC، مریلند و ویرجینیا کمک کرده است تا به سمت ابر حرکت کنند. او که یک مدافع مشتری و مشاور فنی است، به سازمان هایی مانند Heroku/Salesforce کمک می کند تا در پلتفرم AWS به موفقیت برسند. او حامی سرسخت زنان در فناوری اطلاعات است و بسیار مشتاق یافتن راه هایی برای استفاده خلاقانه از فناوری و داده ها برای حل چالش های روزمره است.

محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
منبع: https://aws.amazon.com/blogs/machine-learning/scale-foundation-model-inference-to-hundreds-of-models-with-amazon-sagemaker-part-1/

تمبر زمان: نوامبر 30، 2023

تمبر زمان: اوت 10، 2023

بازنشر افلاطون

تسریع آموزش شبکه عصبی در مقیاس بزرگ در CPU با ThirdAI و AWS Graviton | خدمات وب آمازون

ورودی تماس گیرنده را با استفاده از انواع اسلات گرامری در آمازون لکس تفسیر کنید

برچسب‌گذاری ابر نقطه سه بعدی LiDAR با سنسور Velodyne LiDAR در Amazon SageMaker Ground Truth

نوت بوک های خود را از هر محیط JupyterLab با استفاده از افزونه Amazon SageMaker JupyterLab برنامه ریزی کنید | خدمات وب آمازون

بهبود کیفیت پیش‌بینی در مدل‌های طبقه‌بندی سفارشی با Amazon Comprehend | خدمات وب آمازون

چگونه تامسون رویترز برنامه های اشتراک محتوای شخصی شده را در مقیاس با استفاده از Amazon Personalize ارائه می دهد

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب