درخواست صفر شات برای مدل پایه Flan-T5 در آمازون SageMaker JumpStart

بازنشر افلاطون

دنبال: 0

اندازه و پیچیدگی مدل‌های زبان بزرگ (LLM) در چند سال اخیر افزایش یافته است. LLM ها قابلیت های قابل توجهی را در یادگیری معناشناسی زبان طبیعی و تولید پاسخ های انسان مانند نشان داده اند. بسیاری از LLM های اخیر با تکنیک قدرتمندی به نام تنظیم شده اند تنظیم دستورالعمل، که به مدل کمک می کند تا وظایف جدید را انجام دهد یا پاسخ هایی به درخواست های جدید بدون تنظیم دقیق اعلان ایجاد کند. یک مدل تنظیم‌شده با دستورالعمل از درک خود از وظایف یا مفاهیم مرتبط برای ایجاد پیش‌بینی‌هایی برای درخواست‌های جدید استفاده می‌کند. از آنجایی که این تکنیک شامل به‌روزرسانی وزن‌های مدل نمی‌شود، از فرآیند زمان‌بر و محاسباتی پرهزینه مورد نیاز برای تنظیم دقیق یک مدل برای یک کار جدید و قبلاً دیده نشده جلوگیری می‌کند.

در این پست، ما نشان می‌دهیم که چگونه می‌توانید به یک مدل Flan T5 تنظیم‌شده با دستورالعمل دسترسی داشته باشید و آن را مستقر کنید آمازون SageMaker Jumpstart. ما همچنین نشان می‌دهیم که چگونه می‌توانید درخواست‌های مدل‌های Flan-T5 را برای انجام وظایف مختلف پردازش زبان طبیعی (NLP) مهندسی کنید. علاوه بر این، این کارها را می توان با یادگیری شات صفر انجام داد، جایی که یک اعلان کاملاً مهندسی شده می تواند مدل را به سمت نتایج دلخواه هدایت کند. به عنوان مثال، ارائه یک سوال چند گزینه ای و درخواست از مدل برای بازگرداندن پاسخ مناسب از گزینه های موجود را در نظر بگیرید. ما دستورات مربوط به وظایف NLP زیر را پوشش می دهیم:

خلاصه سازی متن
استدلال عقل سلیم
جواب سوال
طبقه بندی احساسات
ترجمه
تفکیک ضمیر
تولید متن بر اساس مقاله
مقاله خیالی بر اساس عنوان

کد تمامی مراحل این دمو در ادامه مطلب موجود است دفتر یادداشت.

JumpStart مرکز یادگیری ماشین (ML) است آمازون SageMaker که دسترسی با یک کلیک به بیش از 350 الگوریتم داخلی را ارائه می دهد. مدل های از پیش آموزش دیده TensorFlow، PyTorch، Hugging Face و MXNet. و الگوهای راه حل از پیش ساخته شده JumpStart نیز از قبل آموزش داده شده است مدل های پایه مانند هوش مصنوعی پایداری انتشار پایدار مدل متن به تصویر، شکوفه، کوهر تولید, AlexaTM آمازون و بیشتر.

تنظیم دستورالعمل

تنظیم دستورالعمل تکنیکی است که شامل تنظیم دقیق یک مدل زبان در مجموعه ای از وظایف NLP با استفاده از دستورالعمل ها می شود. در این تکنیک، مدل برای انجام وظایف با پیروی از دستورالعمل های متنی به جای مجموعه داده های خاص برای هر کار، آموزش داده می شود. این مدل با مجموعه‌ای از نمونه‌های ورودی و خروجی برای هر کار به‌خوبی تنظیم می‌شود و به مدل اجازه می‌دهد تا کارهای جدیدی را تعمیم دهد که به صراحت درباره آن‌ها آموزش ندیده‌اند تا زمانی که دستورات برای وظایف ارائه شده است. تنظیم دستورالعمل به بهبود دقت و اثربخشی مدل‌ها کمک می‌کند و در شرایطی که مجموعه داده‌های بزرگ برای کارهای خاص در دسترس نیستند مفید است.

تعداد بی‌شماری از تحقیقات تنظیم دستورالعمل از سال 2020 انجام شده است و مجموعه‌ای از وظایف، قالب‌ها و روش‌های مختلف را تولید می‌کند. یکی از برجسته ترین روش های تنظیم دستورالعمل، مدل های زبانی دقیق (Flan)، این مجموعه‌های در دسترس عموم را در یک مجموعه Flan جمع‌آوری می‌کند تا مدل‌های تنظیم‌شده را بر اساس دستورالعمل‌های مختلف تولید کند. به این ترتیب، مدل‌های چند وظیفه‌ای Flan با همان مدل‌هایی که به‌طور مستقل روی هر کار خاص تنظیم شده‌اند، رقابت می‌کنند و می‌توانند فراتر از دستورالعمل‌های خاصی که در طول آموزش دیده می‌شوند، به دستورالعمل‌ها به طور کلی تعمیم دهند.

یادگیری شات صفر

یادگیری شات صفر در NLP به یک LLM از قبل آموزش دیده اجازه می دهد تا به وظایفی که به طور خاص برای آنها آموزش ندیده است پاسخ دهد. در این تکنیک، مدل با یک متن ورودی و یک اعلان ارائه می شود که خروجی مورد انتظار از مدل را به زبان طبیعی توصیف می کند. مدل‌های از پیش آموزش‌دیده می‌توانند از دانش خود برای ایجاد پاسخ‌های منسجم و مرتبط حتی برای درخواست‌هایی که به‌طور خاص روی آن‌ها آموزش ندیده‌اند، استفاده کنند. یادگیری صفر شات می تواند زمان و داده های مورد نیاز را کاهش دهد و در عین حال کارایی و دقت وظایف NLP را بهبود بخشد. یادگیری صفر شات در انواع وظایف NLP مانند پاسخ به سوال، خلاصه سازی و تولید متن استفاده می شود.

یادگیری چند شات شامل آموزش مدلی برای انجام وظایف جدید با ارائه تنها چند مثال است. این در جایی مفید است که داده های برچسب گذاری شده محدودی برای آموزش در دسترس باشد. اگرچه این پست در درجه اول بر یادگیری صفر شات تمرکز دارد، مدل های ارجاع شده همچنین قادر به ایجاد پاسخ به دستورات یادگیری چند شات هستند.

مدل Flan-T5

یک مدل رمزگذار رمزگشا معروف به نام T5 (ترانسفورماتور انتقال متن به متن) یکی از این مدل‌ها است که متعاقباً از طریق روش Flan تنظیم شد تا Flan-T5 خانواده مدل Flan-T5 یک مدل تنظیم شده با دستورالعمل است و بنابراین قادر به انجام وظایف مختلف NLP صفر شات و همچنین وظایف یادگیری درون متنی چند شات است. با تلقین مناسب، می‌تواند کارهای NLP بدون شات مانند خلاصه‌سازی متن، استدلال عقل سلیم، استنتاج زبان طبیعی، پاسخ‌گویی به سؤال، طبقه‌بندی جملات و احساسات، ترجمه و تفکیک ضمایر را انجام دهد. نمونه های ارائه شده در این پست با خانواده Flan-T5 تولید شده اند.

JumpStart استقرار راحت این خانواده مدل را از طریق فراهم می کند Amazon SageMaker Studio و SageMaker SDK. این شامل Flan-T5 Small، Flan-T5 Base، Flan-T5 Large، Flan-T5 XL و Flan-T5 XXL است. علاوه بر این، JumpStart سه نسخه از Flan-T5 XXL را در سطوح مختلف کوانتیزاسیون ارائه می‌کند:

Flan-T5 XXL - مدل کامل، بارگذاری شده در فرمت ممیز شناور تک دقیق (FP32).
Flan-T5 XXL FP16 – یک نسخه با فرمت ممیز شناور نیمه دقیق (FP16) از مدل کامل. این پیاده سازی حافظه GPU کمتری مصرف می کند و استنتاج سریع تری نسبت به نسخه FP32 انجام می دهد.
Flan-T5 XXL BNB INT8 - یک نسخه کوانتیزه شده 8 بیتی از مدل کامل، که با استفاده از accelerate و bitsandbytes کتابخانه ها این پیاده سازی دسترسی به این LLM را در نمونه هایی با محاسبات کمتر فراهم می کند، مانند نمونه تک GPU ml.g5.xlarge.

مهندسی سریع برای کارهای NLP صفر شات در مدل های Flan-T5

مهندسی سریع با ایجاد اعلان های با کیفیت بالا برای هدایت مدل به سمت پاسخ های مورد نظر سروکار دارد. درخواست ها باید بر اساس وظیفه و مجموعه داده خاصی که استفاده می شود طراحی شوند. هدف در اینجا ارائه اطلاعات لازم به مدل برای تولید پاسخ‌های با کیفیت بالا و در عین حال به حداقل رساندن نویز است. این می تواند شامل کلمات کلیدی، زمینه های اضافی، سؤالات و موارد دیگر باشد. برای مثال کد زیر را ببینید:

Input with Prompt: Translate this English sentence to Spanish: Cat loves chicken pizza
Model Output: Gato ama la pizza de pollo

یک اعلان خوب طراحی شده می تواند مدل را خلاق تر و کلی تر کند تا بتواند به راحتی با وظایف جدید سازگار شود. درخواست‌ها همچنین می‌توانند به ترکیب دانش دامنه در مورد وظایف خاص و بهبود تفسیرپذیری کمک کنند. مهندسی سریع می تواند عملکرد مدل های یادگیری صفر و چند شات را تا حد زیادی بهبود بخشد. ایجاد اعلان‌های با کیفیت بالا مستلزم بررسی دقیق کار در دست و همچنین درک عمیق نقاط قوت و محدودیت‌های مدل است.

در ارائه شده نمونه دفترچه یادداشت، هر کار حداقل هفت الگوی سریع و مجموعه ای جامع از پارامترها را برای کنترل خروجی مدل نشان می دهد، مانند حداکثر طول توالی، تعداد دنباله های برگشتی و تعداد پرتوها. علاوه بر این، الگوهای سریع استفاده شده از این هستند مخزن Flan T5 GitHub، که شامل بسیاری از الگوهای مورد استفاده در مجموعه Flan است. این مجموعه از الگوها برای کشف زمانی که مهندسی سریع خود را انجام می دهید مفید است.

در جدول زیر، مدل Flan-T5 XXL برای تولید پاسخ برای وظایف مختلف NLP صفر شات استفاده شده است. ستون اول وظیفه را نشان می دهد، ستون دوم حاوی دستور ارائه شده به مدل است (که متن الگو پررنگ است و متن غیر پررنگ ورودی نمونه است)، و ستون سوم پاسخی است که از مدل در هنگام پرس و جو در برابر مدل ارائه شده است. سریع.

کار خلاصه سازی را به عنوان مثال در نظر بگیرید: برای ایجاد یک اعلان مدل، می توانید الگو را به هم متصل کنید Briefly summarize this paragraph: با مثال متنی که می خواهید خلاصه کنید. همه وظایف در این جدول از پارامترهای بارگذاری یکسانی استفاده می کنند: max_length=150 برای ارائه حد بالایی در تعداد نشانه های پاسخ، no_repeat_ngram_size=5 برای جلوگیری از تکرار n-gram، و do_sample=False برای غیرفعال کردن نمونه برداری برای تکرارپذیری بعداً هنگام پرس و جو از نقطه پایانی، در مورد گزینه های پارامتر payload موجود بحث می کنیم.

کار	درخواست (الگوی پررنگ)	خروجی مدل
خلاصه سازی	این پاراگراف را به اختصار خلاصه کنید: Amazon Comprehend از پردازش زبان طبیعی (NLP) برای استخراج بینش در مورد محتوای اسناد استفاده می کند. با شناسایی موجودیت ها، عبارات کلیدی، زبان، احساسات و سایر عناصر مشترک در یک سند، بینش ها را توسعه می دهد. از Amazon Comprehend برای ایجاد محصولات جدید بر اساس درک ساختار اسناد استفاده کنید. برای مثال، با استفاده از Amazon Comprehend می‌توانید فیدهای شبکه‌های اجتماعی را برای ذکر محصولات جستجو کنید یا کل مخزن اسناد را برای عبارات کلیدی اسکن کنید. می توانید با استفاده از کنسول آمازون Comprehend یا با استفاده از API های آمازون Comprehend به قابلیت های تجزیه و تحلیل اسناد آمازون دسترسی داشته باشید. می‌توانید تحلیل بلادرنگ را برای حجم‌های کاری کوچک اجرا کنید یا می‌توانید کارهای تحلیل ناهمزمان را برای مجموعه‌های اسناد بزرگ شروع کنید. می توانید از مدل های از پیش آموزش دیده ای که Amazon Comprehend ارائه می دهد استفاده کنید یا می توانید مدل های سفارشی خود را برای طبقه بندی و شناسایی موجودیت آموزش دهید. همه ویژگی های آمازون Comprehend اسناد متنی UTF-8 را به عنوان ورودی می پذیرند. علاوه بر این، طبقه بندی سفارشی و شناسایی موجودیت سفارشی، فایل های تصویری، فایل های PDF و فایل های Word را به عنوان ورودی می پذیرد. Amazon Comprehend بسته به ویژگی خاص می تواند اسناد را به زبان های مختلف بررسی و تجزیه و تحلیل کند. برای اطلاعات بیشتر، به زبان های پشتیبانی شده در Amazon Comprehend مراجعه کنید. قابلیت زبان غالب آمازون Comprehend می تواند اسناد را بررسی کند و زبان غالب را برای انتخاب بسیار گسترده تری از زبان ها تعیین کند.	توانایی های آمازون درک را درک کنید
استدلال عقل سلیم یا استدلال زبان طبیعی	جام جهانی در شهر لس آنجلس آمریکا آغاز شد.nnبر اساس پاراگراف بالا می توان نتیجه گرفت که ”جام جهانی در آمریکا برگزار می شود."?nn["بله"، "نه"]	بله
پاسخ به سوال	پاسخ بر اساس زمینه:nnجدیدترین و نوآورانه‌ترین کیندل هنوز به شما امکان می‌دهد از میلیون‌ها کتاب و سند یادداشت برداری کنید، فهرست‌ها و مجلات بنویسید و موارد دیگر. برای خوانندگانی که همیشه آرزو می‌کردند بتوانند در کتاب‌های الکترونیکی خود بنویسند، Kindle جدید آمازون این امکان را به آنها می‌دهد. Kindle Scribe اولین Kindle برای خواندن و نوشتن است و به کاربران اجازه می دهد کتاب ها و اسناد خود را با یادداشت ها، فهرست ها و موارد دیگر تکمیل کنند. در اینجا همه چیزهایی که باید در مورد Kindle Scribe بدانید، از جمله سوالات متداول آمده است. Kindle Scribe خواندن و نوشتن را مانند آنچه روی کاغذ انجام می دهید آسان می کند Kindle Scribe دارای صفحه نمایش 10.2 اینچی بدون تابش نور (بزرگترین دستگاه کیندل)، وضوح واضح 300 ppi و 35 چراغ جلو LED است که به طور خودکار با محیط شما تنظیم می شود. بیشتر تجربه خود را با نور گرم قابل تنظیم، اندازه فونت، فاصله خطوط و موارد دیگر شخصی کنید. با انتخاب شما از قلم پایه یا قلم پریمیوم ارائه می شود که از آن برای نوشتن روی صفحه مانند روی کاغذ استفاده می کنید. آنها همچنین به صورت مغناطیسی به کیندل شما متصل می شوند و هرگز نیازی به شارژ ندارند. قلم پریمیوم شامل یک پاک کن اختصاصی و یک دکمه میانبر قابل تنظیم است. Kindle Scribe بیشترین گزینه های ذخیره سازی را در بین تمام دستگاه های Kindle دارد: از بین 8 گیگابایت، 16 گیگابایت یا 32 گیگابایت، متناسب با سطح خواندن و نوشتن خود انتخاب کنید.nnویژگی های کلیدی کیندل جدید چیست؟	صفحه نمایش 10.2 اینچی بدون تابش خیره کننده
دسته بندی جمله یا احساس	بررسی: nاین حرکت بسیار عالی است و یک بار دیگر ما را خیره و خوشحال می کندnاین جمله نقد فیلم منفی است یا مثبت؟nگزینه ها: n مثبت n منفی	مثبت
ترجمه	اسم من آرتور استnnترجمه به آلمانی	نام من آرتور است
تفکیک ضمیر	آلن با گفتن یک جوک خنده دار دوستش شین را به خنده انداخت.nn کیست he با اشاره به?nn(A) آلن n (B) Xin	آلن
تولید عنوان بر اساس یک مقاله	جدیدترین و نوآورانه‌ترین کیندل هنوز به شما امکان می‌دهد از میلیون‌ها کتاب و سند یادداشت برداری کنید، فهرست‌ها و مجلات بنویسید و موارد دیگر. برای خوانندگانی که همیشه آرزو می‌کردند بتوانند در کتاب‌های الکترونیکی خود بنویسند، Kindle جدید آمازون این امکان را به آنها می‌دهد. Kindle Scribe اولین Kindle برای خواندن و نوشتن است و به کاربران اجازه می دهد کتاب ها و اسناد خود را با یادداشت ها، فهرست ها و موارد دیگر تکمیل کنند. در اینجا همه چیزهایی که باید در مورد Kindle Scribe بدانید، از جمله سوالات متداول آمده است. Kindle Scribe خواندن و نوشتن را مانند آنچه روی کاغذ انجام می دهید آسان می کند Kindle Scribe دارای صفحه نمایش 10.2 اینچی بدون تابش نور (بزرگترین دستگاه کیندل)، وضوح واضح 300 ppi و 35 چراغ جلو LED است که به طور خودکار با محیط شما تنظیم می شود. بیشتر تجربه خود را با نور گرم قابل تنظیم، اندازه فونت، فاصله خطوط و موارد دیگر شخصی کنید. با انتخاب شما از قلم پایه یا قلم پریمیوم ارائه می شود که از آن برای نوشتن روی صفحه مانند روی کاغذ استفاده می کنید. آنها همچنین به صورت مغناطیسی به کیندل شما متصل می شوند و هرگز نیازی به شارژ ندارند. قلم پریمیوم شامل یک پاک کن اختصاصی و یک دکمه میانبر قابل تنظیم است. Kindle Scribe بیشترین گزینه های ذخیره سازی را در بین تمام دستگاه های Kindle دارد: از بین 8 گیگابایت، 16 گیگابایت یا 32 گیگابایت، متناسب با سطح خواندن و نوشتن خود انتخاب کنید. nn عنوان خوبی برای مقاله بالا به من بدهید.	هر آنچه که باید در مورد کیندل اسکریب جدید بدانید
تولید مقاله خیالی بر اساس عنوان	عنوان: "دانشگاه امکانات جدیدی در راه است«\nبا توجه به عنوان بالا یک مقاله خیالی، مقاله را تصور کنید.n	دانشگاه فیلیپین (UP) قرار است ساختمان جدیدی را برای کالج پزشکی و علوم بهداشتی خود (CMHS) در محوطه دانشگاه سانتو توماس (UST) در شهر باکولود بسازد. ساختمان CMHS که در پردیس UST واقع خواهد شد، اولین ساختمانی خواهد بود که توسط دانشگاه در پردیس UST ساخته شده است. به گفته دکتر خوزه ال. آلکالا، معاون اداری و مالی UP، ساختمان CMMS اولین ساختمان در نوع خود در کشور خواهد بود. ساختمان CMMH دومین ساختمانی خواهد بود که توسط UP در UST ساخته شده است. اولین ساختمان که در سال 2008 تکمیل شد، UP است

به مدل‌های تنظیم‌شده با دستورالعمل Flan-T5 در SageMaker دسترسی پیدا کنید

JumpStart سه راه را برای شروع استفاده از این مدل‌های Flan تنظیم شده با دستورالعمل ارائه می‌کند: مدل‌های پایه JumpStart، Studio و SageMaker SDK. بخش‌های زیر نشان می‌دهد که هر یک از این راه‌ها چگونه هستند و نحوه دسترسی به آنها را شرح می‌دهند.

مدل های فونداسیون جامپ استارت

توسعه دهندگان می توانند از رابط بصری استفاده کنند مدل های فونداسیون جامپ استارت، از طریق کنسول SageMaker برای آزمایش مدل های Flan تنظیم شده توسط دستورالعمل بدون نوشتن یک خط کد قابل دسترسی است. این زمین بازی یک جعبه متن اعلان ورودی را همراه با کنترل‌هایی برای پارامترهای مختلف مورد استفاده در هنگام استنتاج فراهم می‌کند. این ویژگی در حال حاضر در یک پیش‌نمایش دروازه‌دار است و خواهید دید درخواست دسترسی اگر دسترسی ندارید، به جای مدل ها دکمه بزنید. همانطور که در اسکرین شات های زیر مشاهده می کنید، می توانید به مدل های پایه در صفحه ناوبری کنسول SageMaker دسترسی داشته باشید. انتخاب کنید مشاهده مدل روی کارت مدل Flan-T5 XL برای دسترسی به رابط کاربری.