Техніки та підходи для моніторингу великих мовних моделей на AWS | Веб-сервіси Amazon

Техніки та підходи для моніторингу великих мовних моделей на AWS | Веб-сервіси Amazon

Великі мовні моделі (LLM) зробили революцію в області обробки природної мови (NLP), покращивши такі завдання, як переклад мови, підсумовування тексту та аналіз настроїв. Однак, оскільки ці моделі продовжують зростати в розмірах і складності, моніторинг їх продуктивності та поведінки стає дедалі складнішим.

Моніторинг продуктивності та поведінки LLM є критичним завданням для забезпечення їх безпеки та ефективності. Запропонована нами архітектура забезпечує масштабоване та настроюване рішення для онлайн-моніторингу LLM, що дозволяє командам адаптувати ваше рішення для моніторингу до ваших конкретних випадків використання та вимог. Використовуючи сервіси AWS, наша архітектура забезпечує бачення в режимі реального часу поведінки LLM і дозволяє командам швидко виявляти та усувати будь-які проблеми чи аномалії.

У цій публікації ми демонструємо кілька показників для онлайн-моніторингу LLM та їх відповідну архітектуру для масштабування за допомогою таких сервісів AWS, як Amazon CloudWatch та AWS Lambda. Це пропонує настроюване рішення понад те, що можливо оцінка моделі робочих місць с Amazon Bedrock.

Огляд рішення

Перше, що слід враховувати, це те, що різні показники вимагають різних обчислень. Необхідна модульна архітектура, де кожен модуль може отримувати дані моделі та виробляти власні показники.

Ми пропонуємо, щоб кожен модуль приймав вхідні запити на висновок до LLM, передаючи пари підказки та завершення (відповіді) модулям метричних обчислень. Кожен модуль відповідає за обчислення власних показників щодо підказки введення та завершення (відповіді). Ці показники передаються в CloudWatch, який може агрегувати їх і працювати з сигналами CloudWatch для надсилання сповіщень про певні умови. Наступна діаграма ілюструє цю архітектуру.

Рис. 1: Модуль метричних обчислень – огляд рішення

Рис. 1: Модуль метричних обчислень – огляд рішення

Робочий процес включає наступні кроки:

  1. Користувач робить запит до Amazon Bedrock як частину програми або інтерфейсу користувача.
  2. Amazon Bedrock зберігає запит і завершення (відповідь) у Служба простого зберігання Amazon (Amazon S3) відповідно до конфігурації журналювання викликів.
  3. Файл, збережений на Amazon S3, створює подію, яка тригери лямбда-функція. Функція викликає модулі.
  4. Модулі публікують свої відповідні показники Показники CloudWatch.
  5. Сигналізація може повідомити групу розробників про несподівані значення показників.

Друге, що слід враховувати під час впровадження моніторингу LLM, – це вибір правильних показників для відстеження. Хоча існує багато потенційних показників, які ви можете використовувати для моніторингу ефективності LLM, ми пояснюємо деякі з них у цій публікації.

У наступних розділах ми висвітлюємо кілька відповідних метрик модуля та відповідну архітектуру обчислювального модуля метрики.

Семантична подібність між підказкою та завершенням (відповіддю)

Під час запуску LLM ви можете перехопити підказку та завершення (відповідь) для кожного запиту та перетворити їх на вбудовування за допомогою моделі вбудовування. Вбудовування — це багатовимірні вектори, які представляють семантичне значення тексту. Амазонський титан надає такі моделі через Titan Embeddings. Взявши відстань, наприклад косинус, між цими двома векторами, ви можете кількісно визначити, наскільки семантично подібні підказка та завершення (відповідь). Ви можете використовувати SciPy or scikit-вчитися щоб обчислити косинусну відстань між векторами. Наступна діаграма ілюструє архітектуру цього модуля метричних обчислень.

Рис. 2: Модуль метричного обчислення – семантична подібність

Рис. 2: Модуль метричного обчислення – семантична подібність

Цей робочий процес включає такі основні кроки:

  1. Функція Lambda отримує потокове повідомлення через Амазонський кінезіс містить пару підказки та завершення (відповіді).
  2. Функція отримує вбудовування як для підказки, так і для завершення (відповіді) і обчислює косинусну відстань між двома векторами.
  3. Ця функція надсилає цю інформацію до показників CloudWatch.

Настрій і токсичність

Моніторинг настрою дозволяє оцінити загальний тон і емоційний вплив відповідей, тоді як аналіз токсичності забезпечує важливий показник наявності образливих, неповажних або шкідливих висловлювань у результатах LLM. Слід уважно стежити за будь-якими змінами в настроях або токсичності, щоб переконатися, що модель поводиться належним чином. Наступна діаграма ілюструє модуль метричних обчислень.

Рис. 3: Модуль метричних обчислень – почуття та токсичність

Рис. 3: Модуль метричних обчислень – почуття та токсичність

Робочий процес включає наступні кроки:

  1. Функція Lambda отримує пару підказок і завершення (відповідь) через Amazon Kinesis.
  2. За допомогою оркестровки AWS Step Functions функція викликається «Амазонка» щоб виявити настрій та токсичність.
  3. Функція зберігає інформацію в метриках CloudWatch.

Додаткову інформацію про виявлення настрою та токсичності за допомогою Amazon Comprehend див Створіть надійний текстовий предиктор токсичності та Позначайте шкідливий вміст за допомогою виявлення токсичності Amazon Comprehend.

Коефіцієнт відмов

Збільшення кількості відмов, наприклад коли LLM відмовляє в завершенні через брак інформації, може означати, що або зловмисники намагаються використовувати LLM у спосіб, призначений для його джейлбрейку, або що очікування користувачів не виправдовуються, і вони отримують малоцінні відповіді. Один із способів оцінити, як часто це відбувається, — порівняти стандартні відмови від моделі LLM, що використовується, з фактичними відповідями від LLM. Наприклад, нижче наведено деякі поширені фрази відмови від Anthropic Claude v2 LLM:

“Unfortunately, I do not have enough context to provide a substantive response. However, I am an AI assistant created by Anthropic to be helpful, harmless, and honest.”

“I apologize, but I cannot recommend ways to…”

“I'm an AI assistant created by Anthropic to be helpful, harmless, and honest.”

На фіксованому наборі підказок збільшення цих відмов може бути сигналом того, що модель стала надто обережною або чутливою. Слід також оцінити зворотний випадок. Це може бути сигналом того, що модель тепер більш схильна до токсичних або шкідливих розмов.

Щоб допомогти змоделювати цілісність і змоделювати відсоток відмов, ми можемо порівняти відповідь із набором відомих фраз відмови від LLM. Це може бути фактичний класифікатор, який може пояснити, чому модель відхилила запит. Ви можете взяти косинусну відстань між відповіддю та відомими відповідями на відмову з моделі, що відстежується. Наступна діаграма ілюструє цей модуль метричних обчислень.

Рис. 4: Модуль метричних обчислень – співвідношення відмов

Рис. 4: Модуль метричних обчислень – співвідношення відмов

Робочий процес складається з наступних кроків:
  1. Функція Lambda отримує підказку та завершення (відповідь) і отримує вбудовування відповіді за допомогою Amazon Titan.
  2. Ця функція обчислює косинус або евклідову відстань між відповіддю та наявними підказками про відмову, збереженими в пам’яті.
  3. Функція надсилає це середнє значення до показників CloudWatch.

Інший варіант - використання нечітка відповідність для простого, але менш потужного підходу до порівняння відомих відмов з результатами LLM. Зверніться до Документація на Python для прикладу.

Підсумки

Спостережливість LLM є важливою практикою для забезпечення надійного та надійного використання LLM. Моніторинг, розуміння та забезпечення точності й надійності LLM можуть допомогти вам зменшити ризики, пов’язані з цими моделями ШІ. Відстежуючи галюцинації, погані завершення (відповіді) і підказки, ви можете переконатися, що ваш LLM залишається на правильному шляху та забезпечує цінність, яку шукаєте ви та ваші користувачі. У цій публікації ми обговорили кілька показників, щоб продемонструвати приклади.

Щоб отримати додаткові відомості про оцінку моделей фундаменту, див Використовуйте SageMaker Clarify для оцінки моделей основи, і перегляньте додаткові приклади зошитів доступні в нашому репозиторії GitHub. Ви також можете дослідити способи введення в дію оцінювання LLM у масштабі Операціоналізація масштабної оцінки LLM за допомогою сервісів Amazon SageMaker Clarify і MLOps. Наостанок рекомендуємо звернутися до Оцініть великі мовні моделі на предмет якості та відповідальності щоб дізнатися більше про оцінювання LLM.


Про авторів

Техніки та підходи для моніторингу великих мовних моделей на AWS | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Бруно Кляйн є старшим інженером з машинного навчання в аналітичній практиці AWS Professional Services. Він допомагає клієнтам впроваджувати великі дані та аналітичні рішення. Поза роботою він любить проводити час із родиною, подорожувати та пробувати нову їжу.

Техніки та підходи для моніторингу великих мовних моделей на AWS | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Рушабх Локханде є старшим інженером з обробки даних і ML у аналітичній практиці AWS Professional Services. Він допомагає клієнтам впроваджувати великі дані, машинне навчання та аналітичні рішення. Поза роботою він любить проводити час із родиною, читати, бігати та грати в гольф.

Часова мітка:

Більше від AWS Машинне навчання