تکنیک ها و رویکردهای نظارت بر مدل های زبان بزرگ در AWS | خدمات وب آمازون

تکنیک ها و رویکردهای نظارت بر مدل های زبان بزرگ در AWS | خدمات وب آمازون

مدل‌های زبان بزرگ (LLM) انقلابی در زمینه پردازش زبان طبیعی (NLP) ایجاد کرده‌اند و کارهایی مانند ترجمه زبان، خلاصه‌سازی متن و تحلیل احساسات را بهبود می‌بخشند. با این حال، همانطور که این مدل‌ها همچنان در اندازه و پیچیدگی رشد می‌کنند، نظارت بر عملکرد و رفتار آنها به طور فزاینده‌ای چالش برانگیز شده است.

نظارت بر عملکرد و رفتار LLM ها یک وظیفه حیاتی برای اطمینان از ایمنی و اثربخشی آنها است. معماری پیشنهادی ما راه‌حلی مقیاس‌پذیر و قابل تنظیم برای نظارت آنلاین LLM ارائه می‌کند و تیم‌ها را قادر می‌سازد راه‌حل نظارت شما را با موارد استفاده و نیازهای خاص شما تنظیم کنند. با استفاده از خدمات AWS، معماری ما در زمان واقعی رفتار LLM را مشاهده می‌کند و تیم‌ها را قادر می‌سازد تا به سرعت هر گونه مشکل یا ناهنجاری را شناسایی و رسیدگی کنند.

در این پست، ما چند معیار برای نظارت بر LLM آنلاین و معماری مربوطه آنها را برای مقیاس با استفاده از خدمات AWS نشان می‌دهیم. CloudWatch آمازون و AWS لامبدا. این یک راه حل قابل تنظیم فراتر از آنچه با آن ممکن است ارائه می دهد ارزیابی مدل مشاغل با بستر آمازون.

بررسی اجمالی راه حل

اولین چیزی که باید در نظر گرفت این است که معیارهای مختلف نیاز به ملاحظات محاسباتی متفاوتی دارند. یک معماری مدولار، که در آن هر ماژول بتواند داده های استنتاج مدل را دریافت کند و معیارهای خود را تولید کند، ضروری است.

ما پیشنهاد می‌کنیم که هر ماژول درخواست‌های استنتاج ورودی را به LLM ببرد و جفت‌های اعلان و تکمیل (پاسخ) را به ماژول‌های محاسبه متریک ارسال کند. هر ماژول مسئول محاسبه معیارهای خود با توجه به اعلان ورودی و تکمیل (پاسخ) است. این معیارها به CloudWatch منتقل می‌شوند، که می‌تواند آنها را جمع‌آوری کند و با هشدارهای CloudWatch برای ارسال اعلان‌ها در شرایط خاص کار کند. نمودار زیر این معماری را نشان می دهد.

شکل 1: ماژول محاسبه متریک - نمای کلی راه حل

شکل 1: ماژول محاسبه متریک - نمای کلی راه حل

گردش کار شامل مراحل زیر است:

  1. کاربر به عنوان بخشی از یک برنامه یا رابط کاربری درخواستی را از Amazon Bedrock می کند.
  2. Amazon Bedrock درخواست و تکمیل (پاسخ) را در آن ذخیره می کند سرویس ذخیره سازی ساده آمازون (Amazon S3) طبق پیکربندی ثبت احضار.
  3. فایل ذخیره شده در Amazon S3 یک رویداد ایجاد می کند که محرک های یک تابع لامبدا تابع ماژول ها را فراخوانی می کند.
  4. ماژول ها معیارهای مربوطه خود را به معیارهای CloudWatch.
  5. آژیر می تواند تیم توسعه را از مقادیر متریک غیرمنتظره مطلع کند.

دومین موردی که هنگام اجرای نظارت LLM باید در نظر گرفت، انتخاب معیارهای مناسب برای ردیابی است. اگرچه معیارهای بالقوه زیادی وجود دارد که می توانید از آنها برای نظارت بر عملکرد LLM استفاده کنید، ما برخی از گسترده ترین آنها را در این پست توضیح می دهیم.

در بخش‌های بعدی، ما تعدادی از معیارهای ماژول مربوطه و معماری ماژول محاسبه متریک مربوطه را برجسته می‌کنیم.

شباهت معنایی بین اعلان و تکمیل (پاسخ)

هنگام اجرای LLM ها، می توانید اعلان و تکمیل (پاسخ) را برای هر درخواست رهگیری کنید و با استفاده از یک مدل جاسازی آنها را به جاسازی تبدیل کنید. جاسازی ها بردارهایی با ابعاد بالا هستند که معنای معنایی متن را نشان می دهند. آمازون تایتان چنین مدل هایی را از طریق Titan Embeddings ارائه می دهد. با گرفتن فاصله ای مانند کسینوس بین این دو بردار، می توانید کمیت کنید که اعلان و تکمیل (پاسخ) چقدر از نظر معنایی مشابه هستند. شما می توانید استفاده کنید SciPy or یادگیری برای محاسبه فاصله کسینوس بین بردارها نمودار زیر معماری این ماژول محاسبه متریک را نشان می دهد.

شکل 2: ماژول محاسبه متریک - شباهت معنایی

شکل 2: ماژول محاسبه متریک - شباهت معنایی

این گردش کار شامل مراحل کلیدی زیر است:

  1. یک تابع Lambda یک پیام جریانی را از طریق دریافت می کند آمازون کینسیس حاوی یک جفت اعلان و تکمیل (پاسخ).
  2. این تابع یک تعبیه برای هر دو دستور و تکمیل (پاسخ) دریافت می کند و فاصله کسینوس بین دو بردار را محاسبه می کند.
  3. این تابع آن اطلاعات را به معیارهای CloudWatch ارسال می کند.

احساسات و سمیت

نظارت بر احساسات به شما امکان می دهد لحن کلی و تأثیر احساسی پاسخ ها را بسنجید، در حالی که تجزیه و تحلیل سمیت معیار مهمی از وجود زبان توهین آمیز، بی احترامی یا مضر در خروجی های LLM را ارائه می دهد. هر گونه تغییر در احساسات یا مسمومیت باید به دقت بررسی شود تا اطمینان حاصل شود که مدل مطابق انتظار رفتار می کند. نمودار زیر ماژول محاسبه متریک را نشان می دهد.

شکل 3: ماژول محاسبه متریک - احساسات و سمیت

شکل 3: ماژول محاسبه متریک - احساسات و سمیت

گردش کار شامل مراحل زیر است:

  1. یک تابع Lambda یک جفت اعلان و تکمیل (پاسخ) را از طریق Amazon Kinesis دریافت می کند.
  2. از طریق AWS Step Functions ارکستراسیون، تابع فراخوانی می شود درک آمازون برای شناسایی احساس و سمیت.
  3. این تابع اطلاعات را در معیارهای CloudWatch ذخیره می کند.

برای اطلاعات بیشتر در مورد تشخیص احساسات و سمیت با آمازون Comprehend، مراجعه کنید یک پیش‌بینی‌کننده سمیت مبتنی بر متن قوی بسازید و با استفاده از تشخیص سمیت آمازون Comprehend، محتوای مضر را پرچم‌گذاری کنید.

نسبت امتناع

افزایش امتناع ها، مانند زمانی که یک LLM به دلیل کمبود اطلاعات، تکمیل را انکار می کند، می تواند به این معنی باشد که یا کاربران مخرب سعی می کنند از LLM به روش هایی استفاده کنند که برای جیلبریک کردن آن در نظر گرفته شده است، یا اینکه انتظارات کاربران برآورده نمی شود و آنها پاسخ های کم ارزش دریافت می کنند. یکی از راه‌های سنجش تعداد دفعات وقوع این اتفاق، مقایسه رد استانداردهای مدل LLM با پاسخ‌های واقعی از LLM است. به عنوان مثال، موارد زیر برخی از عبارات امتناع رایج آنتروپیک Claude v2 LLM هستند:

“Unfortunately, I do not have enough context to provide a substantive response. However, I am an AI assistant created by Anthropic to be helpful, harmless, and honest.”

“I apologize, but I cannot recommend ways to…”

“I'm an AI assistant created by Anthropic to be helpful, harmless, and honest.”

در مجموعه‌ای ثابت از اعلان‌ها، افزایش این امتناع‌ها می‌تواند سیگنالی باشد که مدل بیش از حد محتاط یا حساس شده است. حالت معکوس نیز باید ارزیابی شود. این می تواند سیگنالی باشد که مدل اکنون بیشتر مستعد درگیر شدن در مکالمات سمی یا مضر است.

برای کمک به یکپارچگی مدل و نسبت امتناع مدل، می‌توانیم پاسخ را با مجموعه‌ای از عبارات امتناع شناخته شده از LLM مقایسه کنیم. این می تواند یک طبقه بندی واقعی باشد که می تواند توضیح دهد که چرا مدل درخواست را رد کرده است. می‌توانید فاصله کسینوس بین پاسخ و پاسخ‌های امتناع شناخته شده را از مدل تحت نظارت بگیرید. نمودار زیر این ماژول محاسبه متریک را نشان می دهد.

شکل 4: ماژول محاسبه متریک - نسبت رد

شکل 4: ماژول محاسبه متریک - نسبت رد

گردش کار شامل مراحل زیر است:
  1. یک تابع Lambda یک اعلان و تکمیل (پاسخ) دریافت می کند و با استفاده از آمازون تایتان از پاسخ تعبیه می شود.
  2. این تابع فاصله کسینوس یا اقلیدسی بین پاسخ و درخواست‌های امتناع موجود در حافظه پنهان را محاسبه می‌کند.
  3. تابع این میانگین را به معیارهای CloudWatch ارسال می کند.

یکی دیگر از گزینه استفاده از آن است تطبیق فازی برای یک رویکرد ساده اما کمتر قدرتمند برای مقایسه ردهای شناخته شده با خروجی LLM. رجوع به اسناد پایتون برای مثال

خلاصه

قابلیت مشاهده LLM یک روش حیاتی برای اطمینان از استفاده قابل اعتماد و قابل اعتماد از LLM است. نظارت، درک، و اطمینان از دقت و قابلیت اطمینان LLM ها می تواند به شما در کاهش خطرات مرتبط با این مدل های هوش مصنوعی کمک کند. با نظارت بر توهمات، تکمیل‌های بد (پاسخ‌ها) و درخواست‌ها، می‌توانید مطمئن شوید که LLM شما در مسیر خود باقی می‌ماند و ارزش مورد نظر شما و کاربرانتان را ارائه می‌کند. در این پست، چند معیار را برای نمایش نمونه‌ها مورد بحث قرار دادیم.

برای کسب اطلاعات بیشتر در مورد ارزیابی مدل های فونداسیون مراجعه کنید از SageMaker Clarify برای ارزیابی مدل های فونداسیون استفاده کنید، و موارد اضافی را مرور کنید نمونه نوت بوک در مخزن GitHub ما موجود است. همچنین می‌توانید راه‌هایی را برای عملیاتی کردن ارزیابی‌های LLM در مقیاس بزرگ کشف کنید عملیاتی کردن ارزیابی LLM در مقیاس با استفاده از خدمات Amazon SageMaker Clarify و MLOps. در پایان توصیه می کنیم به مدل های زبان بزرگ را از نظر کیفیت و مسئولیت ارزیابی کنید برای کسب اطلاعات بیشتر در مورد ارزیابی LLM.


درباره نویسنده

Techniques and approaches for monitoring large language models on AWS | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.برونو کلاین یک مهندس ارشد یادگیری ماشین با AWS Professional Services Analytics Practice است. او به مشتریان کمک می کند تا راه حل های کلان داده و تجزیه و تحلیل را پیاده سازی کنند. خارج از محل کار، او از گذراندن وقت با خانواده، مسافرت و امتحان غذای جدید لذت می برد.

Techniques and approaches for monitoring large language models on AWS | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.رشابه لوخنده یک مهندس ارشد داده و ML با تمرین تجزیه و تحلیل خدمات حرفه ای AWS است. او به مشتریان کمک می کند تا راه حل های کلان داده، یادگیری ماشین و تجزیه و تحلیل را پیاده سازی کنند. خارج از محل کار، او از گذراندن وقت با خانواده، مطالعه، دویدن و بازی گلف لذت می برد.

تمبر زمان:

بیشتر از آموزش ماشین AWS