Improve Throughput Performance Of Llama 2 Models Using Amazon SageMaker

بازنشر افلاطون

دنبال: 0

ما در یک نقطه عطف هیجان انگیز در پذیرش گسترده یادگیری ماشین (ML) هستیم و معتقدیم که اکثر تجربیات و برنامه های کاربردی مشتری با هوش مصنوعی مولد دوباره اختراع خواهند شد. هوش مصنوعی مولد می تواند محتوا و ایده های جدیدی از جمله مکالمات، داستان ها، تصاویر، ویدیوها و موسیقی ایجاد کند. مانند بیشتر هوش مصنوعی، هوش مصنوعی مولد از مدل‌های ML پشتیبانی می‌کند - مدل‌های بسیار بزرگی که بر روی مقادیر زیادی داده آموزش داده می‌شوند و معمولاً به عنوان مدل‌های پایه (FM) شناخته می‌شوند. FM ها بر اساس ترانسفورماتورها ساخته شده اند. ترانسفورماتورها در تولید توالی متن طولانی به دلیل اندازه بسیار زیاد مدل ها، کند و تشنه حافظه هستند. مدل‌های زبان بزرگ (LLM) که برای تولید دنباله‌های متنی استفاده می‌شوند، به قدرت محاسباتی زیادی نیاز دارند و در دسترسی به حافظه پهنای باند بالا (HBM) و ظرفیت محاسباتی مشکل دارند. این به این دلیل است که بخش بزرگی از پهنای باند حافظه موجود با بارگذاری پارامترهای مدل و توسط فرآیند رمزگشایی با رگرسیون خودکاردر نتیجه، حتی با وجود مقادیر انبوه توان محاسباتی، LLMها توسط ورودی/خروجی حافظه و محدودیت‌های محاسباتی محدود می‌شوند و از استفاده کامل از منابع سخت‌افزاری موجود جلوگیری می‌کنند.

به طور کلی، استنباط مولد LLM ها دارای سه چالش اصلی است (بر اساس پاپ و همکاران 2022):

ردپای حافظه بزرگ به دلیل پارامترهای مدل عظیم و حالت گذرا در طول رمزگشایی. پارامترها اغلب از حافظه یک تراشه شتاب دهنده فراتر می روند. حافظه پنهان کلید-مقدار توجه نیز به حافظه قابل توجهی نیاز دارد.
موازی پذیری کم تاخیر را افزایش می دهد، به خصوص با ردپای حافظه بزرگ، که نیاز به انتقال داده های قابل توجهی برای بارگذاری پارامترها و حافظه پنهان در هسته های محاسباتی در هر مرحله دارد. این منجر به نیازهای کل پهنای باند حافظه برای برآوردن اهداف تاخیر می شود.
مقیاس درجه دوم محاسبه مکانیسم توجه نسبت به طول دنباله، تاخیر و چالش های محاسباتی را ترکیب می کند.

بچینگ یکی از تکنیک های مقابله با این چالش هاست. دسته بندی به فرآیند ارسال چندین توالی ورودی با هم به یک LLM و در نتیجه بهینه سازی عملکرد استنتاج LLM اشاره دارد. این رویکرد به بهبود توان عملیاتی کمک می کند زیرا پارامترهای مدل نیازی به بارگذاری برای هر دنباله ورودی ندارند. پارامترها را می توان یک بار بارگذاری کرد و برای پردازش چندین توالی ورودی استفاده کرد. بچینگ به طور کارآمد از پهنای باند HBM شتاب دهنده استفاده می کند که منجر به استفاده محاسباتی بالاتر، توان عملیاتی بهبود یافته و استنتاج مقرون به صرفه می شود.

این پست به بررسی تکنیک‌هایی برای به حداکثر رساندن توان با استفاده از تکنیک‌های دسته‌بندی برای استنتاج مولد موازی در LLM می‌پردازد. ما در مورد روش‌های دسته‌بندی مختلف برای کاهش ردپای حافظه، افزایش موازی‌پذیری، و کاهش مقیاس درجه دوم توجه برای افزایش توان عملیاتی بحث می‌کنیم. هدف استفاده کامل از سخت افزارهایی مانند HBM و شتاب دهنده ها برای غلبه بر تنگناها در حافظه، I/O و محاسبات است. سپس چگونگی را برجسته می کنیم آمازون SageMaker استنتاج مدل بزرگ (LMI) ظروف یادگیری عمیق (DLC) می تواند به این تکنیک ها کمک کند. در نهایت، ما یک تحلیل مقایسه ای از بهبود توان عملیاتی با هر استراتژی دسته بندی در SageMaker را ارائه می کنیم DLC های LMI برای بهبود توان عملیاتی برای مدل هایی مانند لاما نسخه 2. شما می توانید یک دفترچه یادداشت همراه را در قسمت پیدا کنید SageMaker مخزن GitHub را مثال می‌زند.

استنتاج برای مدل های زبان بزرگ (LLM)

رمزگشایی خود رگرسیون فرآیندی است که در آن مدل‌های زبانی مانند GPT خروجی متن را یک توکن تولید می‌کنند. این شامل تغذیه بازگشتی توکن های تولید شده به مدل به عنوان بخشی از توالی ورودی به منظور پیش بینی توکن های بعدی است. مراحل به شرح زیر است:

مدل توکن های قبلی را به ترتیب به عنوان ورودی دریافت می کند. برای مرحله اول، این اعلان شروع ارائه شده توسط کاربر است.
مدل توزیعی را بر روی واژگان برای نشانه بعدی پیش بینی می کند.
توکن با بالاترین احتمال پیش بینی شده انتخاب شده و به دنباله خروجی الحاق می شود. مراحل 2 و 3 بخشی از رمزگشایی تا زمان نگارش این مقاله، برجسته‌ترین روش‌های رمزگشایی عبارتند از جستجوی حریصانه، جستجوی پرتو، جستجوی متضاد و نمونه‌برداری.
این نشانه جدید برای مرحله رمزگشایی بعدی به دنباله ورودی اضافه می شود.
مدل از طریق این مراحل تکرار می‌شود و در هر مرحله یک نشانه جدید تولید می‌کند تا زمانی که نشانگر انتهای دنباله تولید شود یا به طول خروجی مورد نظر برسد.

ارائه مدل برای LLMها

ارائه مدل برای LLMها به فرآیند دریافت درخواست‌های ورودی برای تولید متن، استنتاج و برگرداندن نتایج به برنامه‌های درخواست‌کننده اشاره دارد. موارد زیر مفاهیم کلیدی درگیر در ارائه مدل هستند:

کلاینت ها چندین درخواست استنتاج ایجاد می کنند که هر درخواست متشکل از دنباله ای از نشانه ها یا اعلان های ورودی است.
درخواست ها توسط سرور استنتاج دریافت می شوند (به عنوان مثال، سرویس DJLS, TorchServe, تریتون، یا بغل کردن صورت TGI)
سرور استنتاج درخواست‌های استنتاج را دسته‌بندی می‌کند و دسته را به موتور اجرایی که شامل کتابخانه‌های پارتیشن‌بندی مدل (مانند Transformers-NeuronX, در اعماق, شتاب دادن، یا سریع ترانسفورماتور) برای اجرای گذر رو به جلو (پیش بینی توالی نشانه خروجی) در مدل زبان مولد
موتور اجرا توکن های پاسخ را تولید می کند و پاسخ را به سرور استنتاج ارسال می کند
سرور استنتاج با نتایج تولید شده به مشتریان پاسخ می دهد

Improve throughput performance of Llama 2 models using Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

زمانی که سرور استنتاج با موتور اجرا در سطح درخواست تعامل دارد، چالش‌هایی با زمان‌بندی سطح درخواست وجود دارد، مانند هر درخواست با استفاده از فرآیند پایتون، که نیاز به یک کپی جداگانه از مدل دارد، که حافظه را محدود می‌کند. به عنوان مثال، همانطور که در شکل زیر نشان داده شده است، فقط می توانید یک نسخه از یک مدل با اندازه 80 گیگابایت را روی یک نمونه یادگیری ماشین (ML) با 96 گیگابایت حافظه کل دستگاه شتاب دهنده بارگذاری کنید. اگر می‌خواهید درخواست‌های اضافی را همزمان ارائه دهید، باید یک نسخه اضافی از کل مدل را بارگیری کنید. این حافظه و مقرون به صرفه نیست.

Improve throughput performance of Llama 2 models using Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

اکنون که چالش‌های ناشی از زمان‌بندی در سطح درخواست را درک می‌کنیم، بیایید به تکنیک‌های دسته‌بندی مختلف که می‌توانند به بهینه‌سازی توان عملیاتی کمک کنند نگاهی بیندازیم.

تکنیک های بچینگ

در این بخش، تکنیک‌های مختلف بچینگ را توضیح می‌دهیم و نحوه پیاده‌سازی آنها را با استفاده از SageMaker نشان می‌دهیم ظرف LMI.

Improve throughput performance of Llama 2 models using Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

دو نوع اصلی دسته بندی برای درخواست های استنتاج وجود دارد:

سمت مشتری (استاتیک) – به طور معمول، زمانی که یک کلاینت درخواستی را به یک سرور ارسال می کند، سرور به طور پیش فرض هر درخواست را به صورت متوالی پردازش می کند، که برای توان عملیاتی مطلوب نیست. برای بهینه‌سازی توان عملیاتی، مشتری درخواست‌های استنتاج را در یک بار واحد دسته‌بندی می‌کند و سرور منطق پیش‌پردازش را پیاده‌سازی می‌کند تا دسته را به چندین درخواست تقسیم کند و استنتاج را برای هر درخواست جداگانه اجرا کند. در این گزینه، مشتری باید کد بچینگ را تغییر دهد و راه حل به شدت با اندازه دسته ای همراه است.
سمت سرور (پویا) - یکی دیگر از تکنیک های دسته بندی استفاده از استنتاج برای کمک به دستیابی به دسته بندی در سمت سرور است. همانطور که درخواست های استنتاج مستقل به سرور می رسد، سرور استنتاج می تواند آنها را به صورت پویا در دسته های بزرگتر در سمت سرور گروه بندی کند. سرور استنتاج می تواند دسته بندی را برای رسیدن به یک هدف تأخیر مشخص مدیریت کند، و در عین حال در محدوده تأخیر مورد نظر، توان عملیاتی را به حداکثر برساند. سرور استنتاج به طور خودکار این کار را انجام می دهد، بنابراین نیازی به تغییر کد سمت مشتری نیست. دسته‌بندی سمت سرور شامل تکنیک‌های مختلفی برای بهینه‌سازی عملکرد بیشتر برای مدل‌های زبان مولد مبتنی بر رمزگشایی رگرسیون خودکار است. این تکنیک های دسته بندی شامل دسته بندی پویا، دسته بندی پیوسته و دسته بندی PagedAttention (vLLM) است.

دسته بندی پویا

دسته بندی پویا به ترکیب درخواست های ورودی و ارسال آنها با هم به عنوان یک دسته برای استنتاج اشاره دارد. دسته بندی پویا یک تکنیک دسته بندی سمت سرور عمومی است که برای همه وظایف از جمله بینایی کامپیوتر (CV)، پردازش زبان طبیعی (NLP) و غیره کار می کند.

در یک ظرف LMI، می‌توانید دسته‌بندی درخواست‌ها را بر اساس تنظیمات زیر پیکربندی کنید خدمت.خواص:

دسته_اندازه - به اندازه دسته اشاره دارد
حداکثر_تاخیر دسته ای - به حداکثر تاخیر برای تجمع دسته ای اشاره دارد

اگر هر یک از این آستانه ها برآورده شود (برآوردن حداکثر اندازه دسته یا تکمیل دوره انتظار)، سپس یک دسته جدید آماده می شود و برای استنباط به مدل هل داده می شود. نمودار زیر دسته‌ای پویا از درخواست‌ها با طول‌های توالی ورودی مختلف را نشان می‌دهد که با هم توسط مدل پردازش می‌شوند.

Improve throughput performance of Llama 2 models using Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

می توانید با پیکربندی کانتینر LMI، دسته بندی پویا را در SageMaker پیاده سازی کنید خدمت.خواص به شرح زیر است:

#Dynamic Batching
engine=Python
option.entryPoint=djl_python.huggingface
batch_size=64 #example
max_batch_delay=1000 #example
option.tensor_parallel_degree=2 #example

اگرچه دسته‌بندی پویا می‌تواند تا چهار برابر افزایش توان عملیاتی را در مقایسه با عدم دسته‌بندی فراهم کند، اما مشاهده می‌کنیم که استفاده از GPU در این مورد بهینه نیست زیرا تا زمانی که تمام درخواست‌ها پردازش کامل نشده باشند، سیستم نمی‌تواند دسته دیگری را بپذیرد.

بچینگ مداوم

دسته بندی مداوم یک بهینه سازی خاص برای تولید متن است. توان عملیاتی را بهبود می بخشد و زمان را فدای تأخیر اول بایت نمی کند. بچینگ مداوم (همچنین به نام تکراری or بچینگ نورد) به چالش زمان GPU بیکار می پردازد و با فشار دادن مداوم درخواست های جدیدتر در دسته، از رویکرد دسته بندی پویا بیشتر استفاده می کند. نمودار زیر دسته بندی مداوم درخواست ها را نشان می دهد. هنگامی که پردازش درخواست های 2 و 3 به پایان می رسد، مجموعه دیگری از درخواست ها برنامه ریزی می شود.

Improve throughput performance of Llama 2 models using Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

نمودار تعاملی زیر عمیق‌تر به نحوه عملکرد دسته‌بندی پیوسته می‌پردازد.

Improve throughput performance of Llama 2 models using Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

(حسن نیت: https://github.com/InternLM/lmdeploy)

می‌توانید از یک تکنیک قدرتمند برای کارآمد کردن LLM و تولید متن استفاده کنید: ذخیره برخی از ماتریس‌های توجه. این به این معنی است که اولین پاس یک اعلان با پاس های رو به جلو بعدی متفاوت است. برای اولین پاس، شما باید کل ماتریس توجه را محاسبه کنید، در حالی که پیگیری ها فقط نیاز به محاسبه توجه نشانه جدید دارند. اولین پاس نامیده می شود پیش پر کردن در سراسر این پایه کد، در حالی که موارد بعدی فراخوانی می شوند کشف کردن. از آنجایی که prefill بسیار گرانتر از رمزگشایی است، ما نمی خواهیم همیشه آن را انجام دهیم، اما یک پرس و جو در حال اجرا احتمالاً در حال انجام رمزگشایی است. اگر می‌خواهیم از دسته‌بندی پیوسته همانطور که قبلا توضیح داده شد استفاده کنیم، باید در نقطه‌ای پیش‌پر را اجرا کنیم تا ماتریس توجه مورد نیاز برای پیوستن به گروه رمزگشایی ایجاد شود.

این تکنیک ممکن است با استفاده مؤثر از GPUهای بیکار، امکان افزایش 20 برابری توان را در مقایسه با عدم دسته بندی فراهم کند.

شما می توانید پارامترهای زیر را به دقت تنظیم کنید serving.properties ظرف LMI برای استفاده از بچینگ پیوسته:

موتور – موتور زمان اجرا کد. ارزش ها شامل Python, DeepSpeed, FasterTransformerو MPI. استفاده از MPI برای فعال کردن بچینگ مداوم
رولینگ_بچ - دسته بندی در سطح تکرار را با استفاده از یکی از استراتژی های پشتیبانی شده فعال می کند. ارزش ها شامل auto, schedulerو lmi-dist. ما استفاده می کنیم lmi-dist برای روشن کردن بچینگ پیوسته برای Llama 2.
max_rolling_batch_size - تعداد درخواست های همزمان را در دسته پیوسته محدود می کند. پیش‌فرض 32 است.
max_rolling_batch_prefill_tokens - تعداد نشانه‌ها را برای ذخیره‌سازی محدود می‌کند. این باید بر اساس اندازه دسته و طول توالی ورودی تنظیم شود تا از حافظه GPU جلوگیری شود. فقط برای چه زمانی پشتیبانی می شود rolling_batch=lmi-dist. توصیه ما این است که مقدار را بر اساس تعداد درخواست های همزمان x حافظه مورد نیاز برای ذخیره نشانه های ورودی و نشانه های خروجی در هر درخواست تنظیم کنید.

کد زیر نمونه ای برای serving.properties برای پیکربندی بچینگ پیوسته:

#Continuous Batching
engine=MPI
option.entryPoint=djl_python.huggingface
option.rolling_batch=auto
option.max_rolling_batch_size=64 #example
option.paged_attention=false
option.max_rolling_batch_prefill_tokens=16080 #example
option.tensor_parallel_degree=2 #example

صفحه دسته بندی توجه

در فرآیند رمزگشایی اتورگرسیو، تمام نشانه های ورودی به LLM تانسورهای کلید توجه و ارزش خود را تولید می کنند و این تانسورها در حافظه GPU نگهداری می شوند تا توکن های بعدی تولید شوند. این تانسورهای کلید و مقدار ذخیره شده در حافظه پنهان اغلب به عنوان تانسور نامیده می شوند حافظه پنهان KV or حافظه پنهان توجه. طبق مقاله vLLM: سرویس دهی آسان، سریع و ارزان LLM با PagedAttention، حافظه نهان KV برای یک دنباله در Llama 1.7B تا 13 گیگابایت طول می کشد. همچنین پویا است. اندازه آن به طول توالی بستگی دارد که بسیار متغیر و غیرقابل پیش بینی است. در نتیجه، مدیریت کارآمد حافظه نهان KV چالش مهمی را به همراه دارد. این مقاله نشان داد که سیستم های موجود 60 تا 80 درصد حافظه را به دلیل تکه تکه شدن و رزرو بیش از حد هدر می دهند.

PagedAttention یک الگوریتم بهینه‌سازی جدید است که توسط UC Berkeley ایجاد شده است که با تخصیص حافظه در صفحات یا بلوک‌های با اندازه ثابت، فرآیند دسته‌بندی پیوسته را با اجازه دادن به حافظه نهان توجه (کش KV) غیر پیوسته بهبود می‌بخشد. این الهام گرفته از حافظه مجازی و مفاهیم صفحه بندی مورد استفاده توسط سیستم عامل ها است.

طبق مقاله vLLM، حافظه پنهان توجه هر دنباله توکن ها به بلوک ها تقسیم می شود و از طریق یک جدول بلوک به بلوک های فیزیکی نگاشت می شود. در طول محاسبه توجه، یک هسته PagedAttention می تواند از جدول بلوک ها برای واکشی موثر بلوک ها از حافظه فیزیکی استفاده کند. این منجر به کاهش قابل توجه اتلاف حافظه می شود و به اندازه دسته بزرگتر، افزایش استفاده از GPU و توان عملیاتی بالاتر اجازه می دهد. شکل زیر پارتیشن کش توجه را به صفحات غیر پیوسته نشان می دهد.

Improve throughput performance of Llama 2 models using Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

نمودار زیر یک مثال استنتاج با PagedAttention را نشان می دهد. مراحل کلیدی عبارتند از:

درخواست استنتاج با یک اعلان ورودی دریافت می شود.
در مرحله پیش پر کردن، توجه محاسبه می شود و کلید-مقدارها در حافظه فیزیکی غیر پیوسته ذخیره می شوند و به بلوک های کلید-مقدار منطقی نگاشت می شوند. این نگاشت در یک جدول بلوک ذخیره می شود.
اعلان ورودی از طریق مدل (یک پاس رو به جلو) اجرا می شود تا اولین نشانه پاسخ تولید شود. در طول تولید نشانه پاسخ، حافظه پنهان توجه از مرحله پیش پر کردن استفاده می شود.
در طول تولید توکن بعدی، اگر بلوک فیزیکی فعلی پر باشد، حافظه اضافی به صورت غیر پیوسته تخصیص داده می شود که امکان تخصیص به موقع را فراهم می کند.

Improve throughput performance of Llama 2 models using Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

PagedAttention به استفاده تقریباً بهینه از حافظه و کاهش اتلاف حافظه کمک می کند. این اجازه می دهد تا درخواست های بیشتری با هم جمع شوند و در نتیجه افزایش قابل توجهی در توان استنتاج ایجاد می شود.

کد زیر یک نمونه است serving.properties برای پیکربندی دسته بندی PagedAttention در یک ظرف LMI در SageMaker:

#Paged Attention Batching
engine=MPI
option.entryPoint=djl_python.huggingface
option.rolling_batch=auto
option.max_rolling_batch_size=64 #example
option.paged_attention=true
option.max_rolling_batch_prefill_tokens=16080 #example
option.tensor_parallel_degree=2 #example

چه زمانی از کدام تکنیک بچینگ استفاده کنیم

شکل زیر تکنیک های دسته بندی سمت سرور را به همراه نمونه خلاصه می کند serving.properties در LMI در SageMaker.

Improve throughput performance of Llama 2 models using Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

جدول زیر تکنیک های مختلف بچینگ و موارد استفاده از آنها را خلاصه می کند.

	PagedAttention Batching	بچینگ پیوسته	دسته بندی پویا	دسته بندی سمت مشتری	بدون دسته
چگونه کار می کند	همیشه درخواست های جدید را در سطح نشانه به همراه بلوک های صفحه بندی شده ادغام کنید و استنتاج دسته ای انجام دهید.	همیشه درخواست جدید را در سطح نشانه ادغام کنید و استنتاج دسته ای انجام دهید.	ادغام درخواست جدید در سطح درخواست؛ می تواند چند میلی ثانیه به تاخیر بیاندازد تا یک دسته تشکیل شود.	کلاینت مسئول دسته بندی درخواست های استنتاج متعدد در یک محموله قبل از ارسال آن به سرور استنتاج است.	وقتی درخواستی رسید، استنتاج را فورا اجرا کنید.
زمانی که بهترین عملکرد را دارد	این رویکرد توصیه شده برای پشتیبانی مدل های فقط رمزگشا این برای بارهای کاری بهینه سازی شده مناسب است. این فقط برای مدل های تولید متن قابل اجرا است.	درخواست‌های همزمان در زمان‌های مختلف با استراتژی رمزگشایی یکسان ارائه می‌شوند. این برای بارهای کاری بهینه سازی شده مناسب است. این فقط برای مدل های تولید متن قابل اجرا است.	درخواست‌های همزمان در زمان‌های مختلف با استراتژی رمزگشایی یکسان ارائه می‌شوند. این برای بارهای کاری حساس به زمان پاسخگویی که نیاز به توان عملیاتی بالاتری دارند، مناسب است. این برای CV، NLP، و انواع دیگر مدل ها قابل اجرا است.	برای موارد استفاده از استنتاج آفلاین که محدودیت تأخیر برای به حداکثر رساندن توان عملیاتی ندارند، مناسب است.	درخواست‌های استنتاج نادر یا درخواست‌های استنتاج با استراتژی‌های رمزگشایی مختلف. برای بارهای کاری با نیازهای تأخیر زمان پاسخگویی مناسب است.

مقایسه توان عملیاتی تکنیک‌های مختلف بچینگ برای یک مدل بزرگ تولیدی در SageMaker

ما معیار عملکرد را بر روی یک انجام دادیم Llama v2 7B مدل SageMaker با استفاده از یک ظرف LMI و تکنیک های مختلف دسته بندی که در این پست با درخواست های ورودی همزمان 50 و تعداد کل درخواست های 5,000 مورد بحث قرار گرفته است.

ما از سه دستور ورودی مختلف با طول های متغیر برای تست عملکرد استفاده کردیم. در دسته‌بندی پیوسته و PagedAttention، طول توکن‌های خروجی برای سه دستور ورودی به ترتیب 64، 128 و 256 تنظیم شد. برای دسته بندی پویا، از طول توکن خروجی ثابت 128 توکن استفاده کردیم. ما نقاط پایانی SageMaker را برای آزمایش با نوع نمونه ml.g5.24xlarge به کار بردیم. جدول زیر شامل نتایج تست های ارزیابی عملکرد است.

مدل	استراتژی بچینگ	درخواست در ثانیه در ml.g5.24xlarge
LLaMA2-7b	دسته بندی پویا	3.24
LLaMA2-7b	بچینگ پیوسته	6.92
LLaMA2-7b	PagedAttention Batching	7.41

با استفاده از دسته‌بندی PagedAttention در مقایسه با دسته‌بندی پویا برای مدل Llama2.3-2B در SageMaker با استفاده از یک ظرف LMI، تقریباً 7 برابر افزایش توان عملیاتی را مشاهده می‌کنیم.

نتیجه

در این پست، تکنیک‌های دسته‌بندی مختلف برای استنتاج LLM و چگونگی کمک به افزایش توان عملیاتی را توضیح دادیم. ما نشان دادیم که چگونه تکنیک‌های بهینه‌سازی حافظه می‌توانند کارایی سخت‌افزار را با استفاده از دسته‌بندی پیوسته و PagedAttention افزایش دهند و مقادیر توان عملیاتی بالاتری نسبت به دسته‌بندی پویا ارائه دهند. با استفاده از دسته‌بندی PagedAttention در مقایسه با دسته‌بندی پویا برای مدل Llama2.3-2B در SageMaker با استفاده از ظرف LMI، تقریباً 7 برابر افزایش توان عملیاتی را شاهد بودیم. می توانید نوت بوک مورد استفاده برای آزمایش تکنیک های مختلف بچینگ را در آن پیدا کنید GitHub.

درباره نویسندگان

Improve throughput performance of Llama 2 models using Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. گاگان سینگ یک مدیر ارشد حساب فنی در AWS است که در آنجا با استارتاپ‌های بومی دیجیتالی شریک می‌شود تا مسیر آنها را به سمت موفقیت بیشتر در کسب و کار هموار کند. او با داشتن جایگاهی در پیشبرد ابتکارات یادگیری ماشینی، از Amazon SageMaker استفاده می‌کند، به‌ویژه بر راه‌حل‌های یادگیری عمیق و هوش مصنوعی مولد تأکید می‌کند. گاگان در اوقات فراغت خود با پیاده روی در مسیرهای هیمالیا و غوطه ور شدن در ژانرهای مختلف موسیقی آرامش می یابد.

Improve throughput performance of Llama 2 models using Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. داوال پاتل یک معمار اصلی یادگیری ماشین در AWS است. او با سازمان‌هایی از شرکت‌های بزرگ گرفته تا استارت‌آپ‌های متوسط در زمینه مشکلات مربوط به محاسبات توزیع‌شده و هوش مصنوعی کار کرده است. او بر روی یادگیری عمیق از جمله دامنه های NLP و Computer Vision تمرکز دارد. او به مشتریان کمک می کند تا به استنباط مدل با عملکرد بالا در SageMaker دست یابند.

Improve throughput performance of Llama 2 models using Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Venugopal Pai یک معمار راه حل در AWS است. او در بنگالورو، هند زندگی می کند و به مشتریان بومی دیجیتال کمک می کند تا برنامه های خود را در AWS مقیاس و بهینه کنند.

محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
منبع: https://aws.amazon.com/blogs/machine-learning/improve-throughput-performance-of-llama-2-models-using-amazon-sagemaker/

تمبر زمان: سپتامبر 25، 2023

تمبر زمان: مار 31، 2022

بازنشر افلاطون

چگونه آمپ در آمازون از داده ها برای افزایش تعامل مشتری استفاده کرد، قسمت 2: ساختن یک پلت فرم توصیه نمایش شخصی با استفاده از Amazon SageMaker

راهنمای ساده برای آموزش Llama 2 با AWS Trainium در Amazon SageMaker | خدمات وب آمازون

از یادگیری ماشین برای شناسایی ناهنجاری‌ها و پیش‌بینی زمان خرابی با Amazon Timestream و Amazon Lookout for Equipment استفاده کنید

از خدمات AWS AI و ML برای تقویت دسترسی و شامل افراد دارای اختلال بینایی یا ارتباطی استفاده کنید.

با استفاده از Amazon SageMaker Data Wrangler داده ها را از Databricks برای یادگیری ماشین آماده کنید

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب