За межами показників: гібридний підхід до оцінки ефективності LLM

Перевидано Платоном

читають: 0

гібридний підхід до оцінки ефективності LLP

Великі мовні моделі (LLM) представляють собою унікальний виклик, коли справа доходить до оцінки ефективності. На відміну від традиційного машинного навчання, де результати часто є двійковими, результати LLM знаходяться в спектрі правильності. Крім того, хоча ваша базова модель може перевершувати широкі показники, загальна продуктивність не гарантує оптимальної продуктивності для ваших конкретних випадків використання.

Таким чином, цілісний підхід до оцінки LLM має використовувати різноманітні підходи, такі як використання LLM для оцінки LLM (тобто автооцінка) та використання гібридних підходів людини та LLM. У цій статті розглядаються конкретні кроки різних методів, розповідається про те, як створити користувацькі набори оцінок, адаптовані до вашої програми, точно визначити релевантні показники та застосувати ретельні методи оцінки – як для вибору моделей, так і для моніторингу поточної продуктивності у виробництві.

Створюйте цільові набори оцінок для ваших випадків використання

Щоб оцінити ефективність LLM у конкретному варіанті використання, вам потрібно перевірити модель на наборі прикладів, які репрезентують ваші цільові випадки використання. Для цього потрібно створити власний набір оцінок.

Почніть з малого. Щоб перевірити ефективність LLM у вашому випадку використання, ви можете почати лише з 10 прикладів. Кожен із цих прикладів можна запускати кілька разів, щоб оцінити послідовність і надійність моделі.
Підберіть складні приклади. Приклади, які ви обираєте, не повинні бути однозначними. Вони мають бути складними, спрямованими на повну перевірку можливостей моделі. Це може включати підказки з неочікуваними вхідними даними, запити, які можуть викликати упередження, або запитання, які вимагають глибокого розуміння теми. Йдеться не про те, щоб обдурити модель, а радше про те, щоб переконатися, що вона підготовлена до непередбачуваної природи реальних додатків.
Розгляньте можливість використання LLM для створення набору оцінювання. Цікаво, що це звичайна практика використання мовних моделей для побудови оцінювальних наборів для оцінки самих себе чи інших мовних моделей. Наприклад, магістр права може створити набір пар запитань і відповідей на основі вхідного тексту, який ви можете використовувати як першу партію зразків для своєї програми відповідей на запитання.
Включіть відгуки користувачів. Незалежно від внутрішнього командного тестування чи ширшого розгортання відгуки користувачів часто виявляють непередбачені проблеми та реальні сценарії. Такі відгуки можна інтегрувати як нові складні приклади у ваші набори для оцінювання.

По суті, створення спеціального набору для оцінювання є динамічним процесом, який адаптується та розвивається разом із життєвим циклом вашого LLM-проекту. Ця ітераційна методологія гарантує, що ваша модель залишається налаштованою на актуальні актуальні виклики.

Поєднайте показники, порівняння та оцінку на основі критеріїв

Одних показників зазвичай недостатньо для оцінки LLM. LLM працюють у сфері, де не завжди є єдина «правильна» відповідь. Крім того, використання сукупних показників може ввести в оману. Модель може досягти успіху в одній області та похитнутися в іншій, але все одно матиме вражаючий середній бал.

Ваші критерії оцінки залежатимуть від окремих атрибутів конкретної системи LLM. Хоча точність і неупередженість є загальними цілями, інші критерії можуть мати першочергове значення в конкретних сценаріях. Наприклад, медичний чат-бот може надавати пріоритет нешкідливості відповіді, бот служби підтримки клієнтів може наголошувати на підтримці постійного доброзичливого тону, або програма для веб-розробки може вимагати виведення в певному форматі.

Щоб спростити процес, кілька критеріїв оцінювання можна об’єднати в один функція зворотного зв'язку. Він прийматиме як вхідні дані текст, згенерований LLM, і деякі метадані, а потім виводитиме бал, який вказує на якість тексту.

Таким чином, цілісна оцінка ефективності LLM зазвичай передбачає щонайменше 3 різні підходи:

Кількісні показники: якщо є остаточні правильні відповіді, ви можете за умовчанням використовувати традиційні методи оцінки ML кількісні підходи.
Довідкові порівняння: Для прикладів без чіткої однозначної відповіді, але з наявним посиланням на прийнятні відповіді, відповідь моделі можна порівняти та порівняти з уже існуючими прикладами.
Оцінка на основі критеріїв: за відсутності посилання фокус зміщується на вимірювання вихідних даних моделі за попередньо визначеними критеріями.

Як еталонні порівняння, так і оцінки на основі критеріїв можуть виконуватися або людьми, що оцінюють, або за допомогою автоматизованих процесів. Далі ми розглянемо переваги та недоліки цих різних підходів до оцінювання.

Людина, автооцінка та гібридний підхід

Людське оцінювання часто розглядається як золотий стандарт для оцінювання програм машинного навчання, включаючи системи на базі LLM, але це не завжди можливо через часові або технічні обмеження. Автоматичне оцінювання та гібридний підходи часто використовуються в корпоративних налаштуваннях для масштабування оцінки ефективності LLM.

Оцінка людини

Наявність людського нагляду за виходом додатків на базі LLM має важливе значення для забезпечення точності та надійності цих систем. Однак покладатися виключно на цей підхід для оцінювання LLM може бути не ідеальним через наступні ключові обмеження:

Занепокоєння щодо якості: Дивно, але передові моделі, такі як GPT-4, часто дають оцінки вищої якості порівняно з середніми результатами працівників, найнятих через Mechanical Turk. Людські оцінювачі, якщо не керуватись ретельними експериментальними планами, можуть не зосередитися на основних якостях, які мають найбільше значення. Існує схильність потрапити в поверхневі елементи; наприклад, вони можуть віддати перевагу добре сформатованій, але помилковій відповіді над точною, але чітко поданою.
Наслідки витрат: Отримання оцінок високого рівня людьми дороге. Чим вищої якості оцінки ви прагнете, тим вищими будуть пов’язані витрати.
Часові обмеження: Збір людських оцінок займає багато часу. У стрімкому світі розробки систем на базі LLM, де розгортання може відбуватися протягом кількох днів або тижнів, розробники не завжди можуть дозволити собі зупинятися та чекати відгуків.

Ці обмеження підкреслюють важливість доповнення людського оцінювання більш ефективними методами оцінювання.

Автооцінка

Великі мовні моделі виявилися вправними в оцінці продуктивності своїх аналогів. Примітно, що більш просунутий або більший LLM можна використовувати для оцінки продуктивності менших моделей. Також часто використовують LLM для оцінки власного результату. Враховуючи механіку LLMs, модель спочатку може дати неправильну відповідь. Проте, надаючи тій самій моделі стратегічно розроблену підказку, яка вимагає оцінити її початкову відповідь, модель фактично отримує можливість «відобразити» або «переосмислити». Ця процедура суттєво підвищує ймовірність того, що модель виявить будь-які помилки.

Використання LLM для оцінювання інших LLM пропонує швидку та економічно ефективну альтернативу найму людей-оцінювачів. Однак у цього методу є критичні підводні камені, які бізнес-лідери та лідери технологій повинні бути готові вирішити:

Якщо отримати завдання оцінити відповідь за шкалою від 1 до 5, LLM може демонструвати постійне упередження на певну оцінку, незалежно від фактичної якості відповіді.
Порівнюючи власну продуктивність з результатами інших моделей, LLM загалом демонструє перевагу власній відповіді.
Послідовність відповіді кандидатів може періодично впливати на оцінку, як, наприклад, демонстрація переваги першому відображеному варіанту відповіді.
LLM, як правило надавати перевагу довшим відповідям, навіть якщо вони містять фактичні помилки або користувачам важче зрозуміти та використовувати.

Враховуючи недоліки, притаманні оцінюванню LLM, стратегічне включення ручного контролю з боку оцінювачів залишається доцільним кроком, і його не слід пропускати в процесі розробки програми LLM.

Гібридний підхід

Переважаючий підхід полягає в тому, що розробники в значній мірі покладаються на автоматичні оцінки, які сприяють LLM. Це забезпечує їх миттєвим механізмом зворотного зв’язку, що забезпечує швидкий вибір моделі, точне налаштування та експериментування з різноманітними підказками системи. Мета полягає в тому, щоб на основі цих автоматичних оцінок створити оптимально ефективну систему. Після завершення фази автоматизованого оцінювання наступним кроком зазвичай є глибше занурення за участю висококваліфікованих оцінювачів для перевірки достовірності автоматичної оцінки.

Забезпечення високоякісних людських оцінок може бути дорогим завданням. Хоча вдаватися до такого рівня перевірки після кожного незначного вдосконалення системи непрагматично, людська оцінка є обов’язковою фазою перед переходом системи LLM у робоче середовище. Як зазначалося раніше, оцінки LLM можуть проявлятися упереджено та бути ненадійними.

Після розгортання вкрай важливо отримати справжні відгуки від кінцевих користувачів наших додатків на базі LLM. Зворотній зв’язок може бути таким простим, як оцінка користувачами відповіді як корисної (великий палець вгору) або некорисної (великий палець вниз), але в ідеалі вона повинна супроводжуватися детальними коментарями, що підкреслюють сильні сторони та недоліки відповідей моделі.

Основні оновлення моделі або зміни в запитах користувачів можуть ненавмисно знизити продуктивність вашої програми або виявити приховані недоліки. Постійний моніторинг продуктивності програми LLM за нашими визначеними критеріями залишається критично важливим протягом усього терміну її експлуатації, щоб ви могли швидко виявити та усунути нові недоліки. .

Ключові винесення

Оцінка продуктивності систем на базі LLM представляє унікальні проблеми, що відрізняє це завдання від звичайних оцінок машинного навчання. У процесі оцінювання системи LLM слід враховувати такі критичні міркування, щоб інформувати вашу методологію:

Індивідуальні набори для оцінювання: Щоб отримати корисну інформацію, необхідно створювати надійні, орієнтовані на програму набори оцінок. Ці набори не обов’язково мають бути великими, але вони мають включати низку складних зразків.
Динамічне розширення завдань оцінювання: коли ви отримуєте відгуки від користувачів, дуже важливо постійно розширювати й уточнювати набір оцінок, щоб охопити нові проблеми та нюанси.
Кількісні показники та якісні критерії: Складна природа LLM часто вислизає від простих кількісних показників. Важливо встановити набір критеріїв, адаптованих до вашого конкретного випадку використання, що дозволить більш детально оцінити продуктивність моделі.
Уніфікована функція зворотного зв'язку: щоб спростити процес оцінювання, подумайте про об’єднання кількох критеріїв у єдину послідовну функцію зворотного зв’язку.
Гібридний підхід до оцінки: використання як магістрів права, так і висококваліфікованих спеціалістів-оцінювачів у вашому процесі оцінювання пропонує більш повну перспективу та дає найбільш надійні та економічно ефективні результати.
Безперервний моніторинг у реальному світі: шляхом об’єднання відгуків користувачів із уніфікованою функцією зворотного зв’язку ви можете безперервно контролювати та точно налаштовувати продуктивність LLM, забезпечуючи послідовне узгодження з вимогами реального світу.

Ми повідомимо вас, коли випустимо більше таких підсумкових статей, як ця.

споріднений

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
ПлатонЕСГ. Автомобільні / електромобілі, вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
ChartPrime. Розвивайте свою торгову гру за допомогою ChartPrime. Доступ тут.
BlockOffsets. Модернізація екологічної компенсаційної власності. Доступ тут.
джерело: https://www.topbots.com/llm-performance-evaluation/

Часова мітка: Серпень 22, 2023

Часова мітка: Жовтень 10, 2023

Поза межами показників: гібридний підхід до оцінки ефективності LLM

Перевидано Платоном

Створюйте цільові набори оцінок для ваших випадків використання

Поєднайте показники, порівняння та оцінку на основі критеріїв

Людина, автооцінка та гібридний підхід

Оцінка людини

Автооцінка

Гібридний підхід

Ключові винесення

споріднений

Більше від ТОПБОТИ

Semiconductor Titans: Inside the World of AI Chip Manufacturing and Design

Необмежені чат-боти визнають самопошкодження

Кодуйте розумніше, а не складніше: оптимізуйте розробку програмного забезпечення за допомогою Generative AI

Вступ до моделей дифузії для машинного навчання

Межа GenAI: 10 трансформаційних наукових робіт LLM за 2023 рік від LLaMA до GPT-4

RAG проти Finetuning — який найкращий інструмент для покращення вашої програми LLM?

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки

Створюйте цільові набори оцінок для ваших випадків використання

Поєднайте показники, порівняння та оцінку на основі критеріїв

Людина, автооцінка та гібридний підхід

Оцінка людини

Автооцінка

Гібридний підхід

Ключові винесення

Вам подобається ця стаття? Підпишіться на отримання нових оновлень щодо досліджень ШІ.

споріднений

Більше від ТОПБОТИ

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки