چگونه Mantium به استنتاج GPT-J با تاخیر کم با DeepSpeed در Amazon SageMaker می‌رسد

بازنشر افلاطون

دنبال: 0

مانتیوم یک ارائه دهنده پلتفرم ابری جهانی برای ساخت برنامه های کاربردی هوش مصنوعی و مدیریت آنها در مقیاس است. پلتفرم توسعه انتها به انتها Mantium به شرکت ها و مشاغل در هر اندازه امکان می دهد تا برنامه های کاربردی هوش مصنوعی و اتوماسیون را سریعتر و آسان تر از آنچه به طور سنتی امکان پذیر بوده است بسازند. با Mantium، تیم‌های فنی و غیرفنی می‌توانند برنامه‌های کاربردی هوش مصنوعی را نمونه‌سازی، توسعه، آزمایش و استقرار کنند، همگی با رویکردی کم‌کد. Mantium از طریق ثبت خودکار، نظارت و ویژگی‌های ایمنی، نرم‌افزار و مهندسان DevOps را از صرف وقت خود برای اختراع مجدد چرخ رها می‌کند. در سطح بالایی، Mantium ارائه می دهد:

هوش مصنوعی پیشرفته - با انتخاب گسترده ای از مدل های زبان بزرگ منبع باز و خصوصی با یک UI یا API ساده آزمایش و توسعه دهید.
اتوماسیون فرآیند هوش مصنوعی – به راحتی برنامه های مبتنی بر هوش مصنوعی را با کتابخانه روبه رشدی از ادغام ها و سازنده هوش مصنوعی گرافیکی Mantium بسازید.
استقرار سریع - با استقرار یک کلیک، جدول زمانی تولید را از ماه ها به هفته ها یا حتی روزها کوتاه کنید. این ویژگی اپلیکیشن های هوش مصنوعی را با یک کلیک به برنامه های وب قابل اشتراک گذاری تبدیل می کند.
ایمنی و مقررات - اطمینان از ایمنی و انطباق با سیاست های حاکمیتی و پشتیبانی از فرآیندهای انسان در حلقه.

با Mantium AI Builder، می‌توانید گردش‌های کاری پیچیده‌ای ایجاد کنید که APIهای خارجی، عملیات منطقی و مدل‌های هوش مصنوعی را یکپارچه می‌کند. تصویر زیر نمونه‌ای از برنامه Mantium AI را نشان می‌دهد که ورودی Twilio، خط‌مشی حاکمیت، بلوک AI (که می‌تواند به یک مدل منبع باز مانند GPT-J متکی باشد) و خروجی Twilio را به هم متصل می‌کند.

برای پشتیبانی از این برنامه، Mantium نه تنها به APIهای مدل از ارائه دهندگان هوش مصنوعی مانند Open AI، Co:here، و AI21 دسترسی جامع و یکنواخت، بلکه به مدل‌های منبع باز پیشرفته نیز ارائه می‌کند. در Mantium، ما معتقدیم که هر کسی باید بتواند برنامه‌های کاربردی هوش مصنوعی مدرنی را که مالک آن است، سرتاسر بسازد، و ما از این امر با ارائه دسترسی بدون کد و کم‌کد به مدل‌های منبع باز بهینه‌سازی شده برای عملکرد پشتیبانی می‌کنیم.

به عنوان مثال، یکی از مدل های منبع باز اصلی Mantium است GPT-J، یک مدل پیشرفته پردازش زبان طبیعی (NLP) که توسط الوتر هوش مصنوعی. با 6 میلیارد پارامتر، GPT-J یکی از بزرگترین و بهترین مدل های تولید متن متن باز است. کاربران Mantium می توانند GPT-J را از طریق AI Builder Mantium در برنامه های هوش مصنوعی خود ادغام کنند. در مورد GPT-J، این شامل مشخص کردن a است سریع (نمایشی به زبان طبیعی از کاری که مدل باید انجام دهد) و پیکربندی برخی پارامترهای اختیاری.

برای مثال، اسکرین شات زیر نمایش مختصری از یک درخواست تحلیل احساسات را نشان می‌دهد که توضیحات و پیش‌بینی احساسات را تولید می‌کند. در این مثال، نویسنده نوشت که "غذا فوق العاده بود" و "خدمات آنها فوق العاده بود." بنابراین، این متن بیانگر احساسات مثبت است.

با این حال، یک چالش با مدل های منبع باز این است که به ندرت برای عملکرد در سطح تولید طراحی شده اند. در مورد مدل‌های بزرگ مانند GPT-J، این امر می‌تواند بسته به مورد استفاده، استقرار تولید را غیرعملی و حتی غیرممکن کند.

برای اطمینان از دسترسی کاربران به بهترین عملکرد در کلاس، ما همیشه به دنبال راه‌هایی برای کاهش تأخیر مدل‌های اصلی خود هستیم. در این پست، نتایج یک آزمایش بهینه‌سازی استنتاج را شرح می‌دهیم که در آن از موتور استنتاج DeepSpeed برای افزایش سرعت استنتاج GPT-J تقریباً 116٪ استفاده می‌کنیم. ما همچنین توضیح می‌دهیم که چگونه پیاده‌سازی Hugging Face Transformers GPT-J با DeepSpeed را در ما به کار گرفته‌ایم. آمازون SageMaker نقاط پایانی استنتاج

مروری بر مدل GPT-J

GPT-J یک مدل زبان پیش‌آموزشی (GPT) است و از نظر معماری، با مدل‌های زبانی محبوب، خصوصی و بزرگ مانند GPT-3 Open AI قابل مقایسه است. همانطور که قبلاً ذکر شد، تقریباً از 6 میلیارد پارامتر و 28 لایه تشکیل شده است که از یک بلوک پیشخور و یک بلوک خود توجهی تشکیل شده است. هنگامی که برای اولین بار منتشر شد، GPT-J یکی از اولین مدل های زبان بزرگی بود که از آن استفاده کرد تعبیه های چرخشییک استراتژی رمزگذاری موقعیت جدید که رمزگذارهای موقعیت مطلق و نسبی را یکی می کند. همچنین از یک استراتژی موازی سازی نوآورانه استفاده می کند که در آن لایه های متراکم و پیشرو در یک لایه ترکیب می شوند که سربار ارتباط را به حداقل می رساند.

اگرچه GPT-J ممکن است از نظر استانداردهای امروزی به اندازه کافی بزرگ نباشد - مدل های بزرگ معمولاً از بیش از 100 میلیارد پارامتر تشکیل می شوند - هنوز عملکرد قابل توجهی دارد و با مهندسی سریع یا حداقل تنظیم دقیق، می توانید از آن برای حل بسیاری از مشکلات استفاده کنید. علاوه بر این، اندازه نسبتاً متوسط آن به این معنی است که می توانید آن را با سرعت بیشتری و با هزینه بسیار کمتر نسبت به مدل های بزرگتر اجرا کنید.

با این حال، GPT-J هنوز هم بسیار بزرگ است. به عنوان مثال، آموزش GPT-J در FP32 با به‌روزرسانی‌های وزن کامل و بهینه‌ساز Adam به بیش از 200 گیگابایت حافظه نیاز دارد: 24 گیگابایت برای پارامترهای مدل، 24 گیگابایت برای گرادیان، 24 گیگابایت برای گرادیان‌های مربع آدام، 24 گیگابایت برای حالت‌های بهینه‌ساز، و حافظه اضافی مورد نیاز برای بارگیری دسته های آموزشی و ذخیره سازی فعال سازی ها. البته، آموزش در FP16 این نیاز به حافظه را تقریباً به نصف کاهش می‌دهد، اما ردپای حافظه بیش از 100 گیگابایت همچنان نیازمند استراتژی‌های آموزشی نوآورانه است. به عنوان مثال، با همکاری SageMaker، تیم NLP Mantium یک گردش کار برای آموزش (تنظیم دقیق) GPT-J با استفاده از کتابخانه موازی مدل توزیع شده SageMaker.

در مقابل، ارائه GPT-J برای استنتاج نیاز به حافظه بسیار کمتری دارد - در FP16، وزن مدل کمتر از 13 گیگابایت را اشغال می‌کند، به این معنی که استنتاج به راحتی می‌تواند روی یک پردازنده گرافیکی 16 گیگابایتی انجام شود. با این حال، استنباط با پیاده سازی های خارج از جعبه GPT-J، مانند ترانسفورماتور Hugging Face پیاده سازی که ما استفاده می کنیم، نسبتا کند است. برای پشتیبانی از موارد استفاده که به تولید متن بسیار پاسخگو نیاز دارند، ما بر کاهش تأخیر استنتاج GPT-J تمرکز کرده‌ایم.

چالش‌های تاخیر پاسخ GPT-J

تأخیر پاسخ یک مانع اصلی برای ترانسفورماتورهای از پیش آموزش دیده مولد (GPT) مانند GPT-J است که تولید متن مدرن را تامین می کند. مدل‌های GPT متن را از طریق دنباله‌ای از مراحل استنتاج تولید می‌کنند. در هر مرحله استنتاج، به مدل متنی به عنوان ورودی داده می شود، و مشروط به این ورودی، یک کلمه را از واژگان خود نمونه برداری می کند تا به متن اضافه شود. برای مثال، با توجه به دنباله ژتون‌ها «من به یک چتر نیاز دارم، چون این است»، یک نشانه بعدی با احتمال زیاد ممکن است «باران» باشد. با این حال، می‌تواند «آفتابی» یا «محصول» باشد، که می‌تواند اولین گام به سمت دنباله متنی مانند «من به یک چتر نیاز دارم، زیرا حتماً باران می‌بارد» باشد.

سناریوهایی مانند این چالش‌های جالبی را برای استقرار مدل‌های GPT ایجاد می‌کنند، زیرا موارد استفاده در دنیای واقعی ممکن است شامل ده‌ها، صدها یا حتی هزاران مرحله استنتاج باشد. به عنوان مثال، تولید یک پاسخ 1,000 توکن به 1,000 مرحله استنتاج نیاز دارد! بر این اساس، اگرچه یک مدل ممکن است سرعت های استنتاجی را ارائه دهد که به طور جداگانه به اندازه کافی سریع به نظر می رسند، زمانی که متون طولانی تولید می شوند، تأخیر به راحتی می تواند به سطوح غیرقابل دفاع برسد. ما تأخیر متوسط 280 میلی ثانیه در هر مرحله استنتاج را روی یک GPU V100 مشاهده کردیم. این ممکن است برای یک مدل پارامتر 6.7 میلیارد سریع به نظر برسد، اما با چنین تأخیرهایی، تقریباً 30 ثانیه طول می کشد تا یک پاسخ 500 توکن ایجاد شود که از دیدگاه تجربه کاربر ایده آل نیست.

بهینه سازی سرعت استنتاج با DeepSpeed Inference

در اعماق یک کتابخانه بهینه سازی یادگیری عمیق منبع باز است که توسط مایکروسافت توسعه یافته است. اگرچه DeepSpeed اساساً بر روی بهینه سازی آموزش مدل های بزرگ تمرکز دارد، اما DeepSpeed همچنین یک چارچوب بهینه سازی استنتاج ارائه می کند که از مجموعه ای از مدل ها از جمله BERT، Megatron، GPT-Neo، GPT2 و GPT-J پشتیبانی می کند. DeepSpeed Inference استنتاج با کارایی بالا را با معماری‌های بزرگ مبتنی بر ترانسفورماتور از طریق ترکیبی از موازی‌سازی مدل، هسته‌های CUDA بهینه‌شده با استنتاج و کوانتیزه کردن تسهیل می‌کند.

برای افزایش سرعت استنتاج با GPT-J، از موتور استنتاج DeepSpeed برای تزریق هسته های CUDA بهینه شده به اجرای Hugging Face Transformers GPT-J استفاده می کنیم.

برای ارزیابی مزایای سرعت موتور استنتاج DeepSpeed، ما یک سری تست تأخیر انجام دادیم که در آن GPT-J را تحت پیکربندی‌های مختلف زمان‌بندی کردیم. به طور خاص، استفاده یا عدم استفاده از DeepSpeed، سخت افزار، طول دنباله خروجی و طول توالی ورودی را تغییر دادیم. ما بر روی خروجی و طول توالی ورودی تمرکز کردیم، زیرا هر دو بر سرعت استنتاج تأثیر می‌گذارند. برای تولید یک دنباله خروجی از 50 توکن، مدل باید 50 مرحله استنتاج را انجام دهد. علاوه بر این، زمان لازم برای انجام یک مرحله استنتاج به اندازه دنباله ورودی بستگی دارد - ورودی های بزرگتر به زمان پردازش بیشتری نیاز دارند. اگرچه تأثیر اندازه توالی خروجی بسیار بزرگتر از تأثیر اندازه توالی ورودی است، هنوز لازم است هر دو عامل را در نظر بگیریم.

در آزمایش خود از طرح زیر استفاده کردیم:

موتور استنتاج DeepSpeed - روشن خاموش
سخت افزار – T4 (ml.g4dn.2xlarge)، V100 (ml.p3.2xlarge)
طول دنباله ورودی - 50 ، 200 ، 500 ، 1000
طول دنباله خروجی - 50 ، 100 ، 150 ، 200

در مجموع، این طرح دارای 64 ترکیب از این چهار عامل است و برای هر ترکیب، 20 تست تاخیر انجام دادیم. هر آزمایش بر روی یک نقطه پایانی استنتاج SageMaker از قبل راه‌اندازی‌شده اجرا شد، و اطمینان حاصل کرد که آزمایش‌های تأخیر ما زمان‌های تولید، از جمله تبادل API و پیش پردازش را منعکس می‌کند.

آزمایش‌های ما نشان می‌دهد که موتور استنتاج GPT-J DeepSpeed به طور قابل‌توجهی سریع‌تر از پیاده‌سازی پایه Hugging Face Transformers PyTorch است. شکل زیر میانگین تأخیرهای تولید متن برای GPT-J با و بدون شتاب DeepSpeed در نقاط پایانی ml.g4dn.2xlarge و ml.p3.2xlarge SageMaker را نشان می‌دهد.

در نمونه ml.g4dn.2xlarge، که مجهز به پردازنده گرافیکی NVIDIA T16 با ظرفیت 4 گیگابایت است، میانگین کاهش تأخیر تقریباً 24 درصد را مشاهده کردیم [انحراف استاندارد (SD) = 0.05]. این با افزایش از میانگین 12.5 (SD = 0.91) توکن در ثانیه به میانگین 16.5 (SD = 2.13) توکن در ثانیه مطابقت دارد. قابل توجه است که اثر شتاب DeepSpeed در نمونه ml.p3.2xlarge که مجهز به پردازنده گرافیکی NVIDIA V100 است حتی قوی‌تر بود. در آن سخت‌افزار، کاهش تأخیر 53% (SD = 07) را مشاهده کردیم. از نظر توکن در ثانیه، این با افزایش از میانگین 21.9 (SD = 1.97) توکن در ثانیه به میانگین 47.5 (SD = 5.8) توکن در ثانیه مطابقت دارد.

ما همچنین مشاهده کردیم که شتاب ارائه شده توسط DeepSpeed در هر دو پیکربندی سخت افزاری با افزایش اندازه توالی های ورودی، اندکی کاهش یافت. با این حال، در تمام شرایط، استنباط با بهینه‌سازی‌های GPT-J DeepSpeed همچنان به طور قابل‌توجهی سریع‌تر از خط پایه بود. به عنوان مثال، در نمونه g4dn، حداکثر و حداقل کاهش تاخیر به ترتیب 31٪ (اندازه دنباله ورودی = 50) و 15٪ (اندازه دنباله ورودی = 1000) بود. و در نمونه p3، حداکثر و حداقل کاهش تأخیر به ترتیب 62 درصد (اندازه توالی ورودی = 50) و 40 درصد (اندازه توالی ورودی = 1000) بود.

استقرار GPT-J با DeepSpeed در نقطه پایانی استنتاج SageMaker

علاوه بر افزایش چشمگیر سرعت تولید متن برای GPT-J، موتور استنتاج DeepSpeed به سادگی در یک نقطه پایانی استنتاج SageMaker ادغام می شود. قبل از افزودن DeepSpeed به پشته استنتاج، نقاط پایانی ما بر روی یک تصویر Docker سفارشی بر اساس یک تصویر رسمی PyTorch اجرا می‌شدند. SageMaker استقرار نقاط پایانی استنتاج سفارشی را بسیار آسان می کند و ادغام DeepSpeed به سادگی شامل وابستگی و نوشتن چند خط کد بود. راهنمای منبع باز گردش کار استقرار برای استقرار GPT-J با DeepSpeed در دسترس است GitHub.

نتیجه

Mantium به نوآوری های پیشرو اختصاص داده شده است تا همه بتوانند به سرعت با هوش مصنوعی بسازند. از اتوماسیون فرآیند مبتنی بر هوش مصنوعی گرفته تا تنظیمات ایمنی و انطباق دقیق، پلتفرم کامل ما همه ابزارهای لازم را برای توسعه و مدیریت برنامه‌های کاربردی هوش مصنوعی قوی و مسئولانه در مقیاس فراهم می‌کند و مانع ورود را کاهش می‌دهد. SageMaker به شرکت هایی مانند Mantium کمک می کند تا به سرعت وارد بازار شوند.

برای اینکه بدانید Mantium چگونه می‌تواند به شما در ایجاد گردش‌های کاری پیچیده مبتنی بر هوش مصنوعی برای سازمانتان کمک کند، به این سایت مراجعه کنید www.mantiumai.com.

درباره نویسندگان

جو هوور یک دانشمند کاربردی ارشد در تیم تحقیق و توسعه هوش مصنوعی Mantium است. او مشتاق توسعه مدل‌ها، روش‌ها و زیرساخت‌هایی است که به مردم کمک می‌کند مشکلات دنیای واقعی را با سیستم‌های پیشرفته NLP حل کنند. او در اوقات فراغت خود از کوله‌پشتی، باغبانی، آشپزی و معاشرت با خانواده لذت می‌برد.

داوال پاتل یک معمار اصلی یادگیری ماشین در AWS است. او با سازمان‌هایی از شرکت‌های بزرگ گرفته تا استارت‌آپ‌های متوسط در زمینه مشکلات مربوط به محاسبات توزیع‌شده و هوش مصنوعی کار کرده است. او بر روی یادگیری عمیق از جمله دامنه های NLP و Computer Vision تمرکز دارد. او به مشتریان کمک می کند تا به استنباط مدل با عملکرد بالا در SageMaker دست یابند.

سونیل پادمانابهان یک معمار راه حل های استارتاپی در AWS است. او به‌عنوان یک بنیان‌گذار سابق استارت‌آپ و مدیر ارشد فناوری، علاقه‌مند به یادگیری ماشینی است و بر کمک به استارت‌آپ‌ها در استفاده از AI/ML برای نتایج کسب‌وکارشان و طراحی و استقرار راه‌حل‌های ML/AI در مقیاس تمرکز می‌کند.

تمبر زمان: ژوئن 15، 2022

تمبر زمان: اکتبر 19، 2022

چگونه Mantium به استنتاج GPT-J با تاخیر کم با DeepSpeed در Amazon SageMaker دست می یابد

بازنشر افلاطون

مروری بر مدل GPT-J

چالش‌های تاخیر پاسخ GPT-J

بهینه سازی سرعت استنتاج با DeepSpeed Inference

استقرار GPT-J با DeepSpeed در نقطه پایانی استنتاج SageMaker

نتیجه

درباره نویسندگان

بیشتر از آموزش ماشین AWS

شناسایی و طبقه بندی بدافزار با آمازون Rekognition

با Test Workbench | چرخه عمر توسعه ربات چت آمازون Lex را تسریع کنید خدمات وب آمازون

فناوری AWS Cloud برای تشخیص ناهنجاری قلبی در زمان واقعی با استفاده از داده‌های دستگاه‌های پوشیدنی

با راه حل های Amazon SageMaker JumpStart تجزیه و تحلیل خلاف واقع از پاسخ ذرت به نیتروژن ایجاد کنید.

Abode از رویدادهای ویدئویی پخش جریانی آمازون Rekognition برای ارائه اعلان‌های بی‌درنگ به مشتریان خانه هوشمند خود استفاده می‌کند.

تأثیر تجاری توصیه های شخصی سازی آمازون را اندازه گیری کنید

الگوهای طراحی برای استنتاج سریال در Amazon SageMaker

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب

مروری بر مدل GPT-J

چالش‌های تاخیر پاسخ GPT-J

بهینه سازی سرعت استنتاج با DeepSpeed ​​Inference

استقرار GPT-J با DeepSpeed ​​در نقطه پایانی استنتاج SageMaker

نتیجه

درباره نویسندگان

بیشتر از آموزش ماشین AWS

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب

بهینه سازی سرعت استنتاج با DeepSpeed Inference

استقرار GPT-J با DeepSpeed در نقطه پایانی استنتاج SageMaker