Великі мовні моделі (LLM) представляють собою унікальний виклик, коли справа доходить до оцінки ефективності. На відміну від традиційного машинного навчання, де результати часто є двійковими, результати LLM знаходяться в спектрі правильності. Крім того, хоча ваша базова модель може перевершувати широкі показники, загальна продуктивність не гарантує оптимальної продуктивності для ваших конкретних випадків використання.
Таким чином, цілісний підхід до оцінки LLM має використовувати різноманітні підходи, такі як використання LLM для оцінки LLM (тобто автооцінка) та використання гібридних підходів людини та LLM. У цій статті розглядаються конкретні кроки різних методів, розповідається про те, як створити користувацькі набори оцінок, адаптовані до вашої програми, точно визначити релевантні показники та застосувати ретельні методи оцінки – як для вибору моделей, так і для моніторингу поточної продуктивності у виробництві.
Створюйте цільові набори оцінок для ваших випадків використання
Щоб оцінити ефективність LLM у конкретному варіанті використання, вам потрібно перевірити модель на наборі прикладів, які репрезентують ваші цільові випадки використання. Для цього потрібно створити власний набір оцінок.
- Почніть з малого. Щоб перевірити ефективність LLM у вашому випадку використання, ви можете почати лише з 10 прикладів. Кожен із цих прикладів можна запускати кілька разів, щоб оцінити послідовність і надійність моделі.
- Підберіть складні приклади. Приклади, які ви обираєте, не повинні бути однозначними. Вони мають бути складними, спрямованими на повну перевірку можливостей моделі. Це може включати підказки з неочікуваними вхідними даними, запити, які можуть викликати упередження, або запитання, які вимагають глибокого розуміння теми. Йдеться не про те, щоб обдурити модель, а радше про те, щоб переконатися, що вона підготовлена до непередбачуваної природи реальних додатків.
- Розгляньте можливість використання LLM для створення набору оцінювання. Цікаво, що це звичайна практика використання мовних моделей для побудови оцінювальних наборів для оцінки самих себе чи інших мовних моделей. Наприклад, магістр права може створити набір пар запитань і відповідей на основі вхідного тексту, який ви можете використовувати як першу партію зразків для своєї програми відповідей на запитання.
- Включіть відгуки користувачів. Незалежно від внутрішнього командного тестування чи ширшого розгортання відгуки користувачів часто виявляють непередбачені проблеми та реальні сценарії. Такі відгуки можна інтегрувати як нові складні приклади у ваші набори для оцінювання.
По суті, створення спеціального набору для оцінювання є динамічним процесом, який адаптується та розвивається разом із життєвим циклом вашого LLM-проекту. Ця ітераційна методологія гарантує, що ваша модель залишається налаштованою на актуальні актуальні виклики.
Поєднайте показники, порівняння та оцінку на основі критеріїв
Одних показників зазвичай недостатньо для оцінки LLM. LLM працюють у сфері, де не завжди є єдина «правильна» відповідь. Крім того, використання сукупних показників може ввести в оману. Модель може досягти успіху в одній області та похитнутися в іншій, але все одно матиме вражаючий середній бал.
Ваші критерії оцінки залежатимуть від окремих атрибутів конкретної системи LLM. Хоча точність і неупередженість є загальними цілями, інші критерії можуть мати першочергове значення в конкретних сценаріях. Наприклад, медичний чат-бот може надавати пріоритет нешкідливості відповіді, бот служби підтримки клієнтів може наголошувати на підтримці постійного доброзичливого тону, або програма для веб-розробки може вимагати виведення в певному форматі.
Щоб спростити процес, кілька критеріїв оцінювання можна об’єднати в один функція зворотного зв'язку. Він прийматиме як вхідні дані текст, згенерований LLM, і деякі метадані, а потім виводитиме бал, який вказує на якість тексту.
Таким чином, цілісна оцінка ефективності LLM зазвичай передбачає щонайменше 3 різні підходи:
- Кількісні показники: якщо є остаточні правильні відповіді, ви можете за умовчанням використовувати традиційні методи оцінки ML кількісні підходи.
- Довідкові порівняння: Для прикладів без чіткої однозначної відповіді, але з наявним посиланням на прийнятні відповіді, відповідь моделі можна порівняти та порівняти з уже існуючими прикладами.
- Оцінка на основі критеріїв: за відсутності посилання фокус зміщується на вимірювання вихідних даних моделі за попередньо визначеними критеріями.
Як еталонні порівняння, так і оцінки на основі критеріїв можуть виконуватися або людьми, що оцінюють, або за допомогою автоматизованих процесів. Далі ми розглянемо переваги та недоліки цих різних підходів до оцінювання.
Людина, автооцінка та гібридний підхід
Людське оцінювання часто розглядається як золотий стандарт для оцінювання програм машинного навчання, включаючи системи на базі LLM, але це не завжди можливо через часові або технічні обмеження. Автоматичне оцінювання та гібридний підходи часто використовуються в корпоративних налаштуваннях для масштабування оцінки ефективності LLM.
Оцінка людини
Наявність людського нагляду за виходом додатків на базі LLM має важливе значення для забезпечення точності та надійності цих систем. Однак покладатися виключно на цей підхід для оцінювання LLM може бути не ідеальним через наступні ключові обмеження:
- Занепокоєння щодо якості: Дивно, але передові моделі, такі як GPT-4, часто дають оцінки вищої якості порівняно з середніми результатами працівників, найнятих через Mechanical Turk. Людські оцінювачі, якщо не керуватись ретельними експериментальними планами, можуть не зосередитися на основних якостях, які мають найбільше значення. Існує схильність потрапити в поверхневі елементи; наприклад, вони можуть віддати перевагу добре сформатованій, але помилковій відповіді над точною, але чітко поданою.
- Наслідки витрат: Отримання оцінок високого рівня людьми дороге. Чим вищої якості оцінки ви прагнете, тим вищими будуть пов’язані витрати.
- Часові обмеження: Збір людських оцінок займає багато часу. У стрімкому світі розробки систем на базі LLM, де розгортання може відбуватися протягом кількох днів або тижнів, розробники не завжди можуть дозволити собі зупинятися та чекати відгуків.
Ці обмеження підкреслюють важливість доповнення людського оцінювання більш ефективними методами оцінювання.
Автооцінка
Великі мовні моделі виявилися вправними в оцінці продуктивності своїх аналогів. Примітно, що більш просунутий або більший LLM можна використовувати для оцінки продуктивності менших моделей. Також часто використовують LLM для оцінки власного результату. Враховуючи механіку LLMs, модель спочатку може дати неправильну відповідь. Проте, надаючи тій самій моделі стратегічно розроблену підказку, яка вимагає оцінити її початкову відповідь, модель фактично отримує можливість «відобразити» або «переосмислити». Ця процедура суттєво підвищує ймовірність того, що модель виявить будь-які помилки.
Використання LLM для оцінювання інших LLM пропонує швидку та економічно ефективну альтернативу найму людей-оцінювачів. Однак у цього методу є критичні підводні камені, які бізнес-лідери та лідери технологій повинні бути готові вирішити:
- Якщо отримати завдання оцінити відповідь за шкалою від 1 до 5, LLM може демонструвати постійне упередження на певну оцінку, незалежно від фактичної якості відповіді.
- Порівнюючи власну продуктивність з результатами інших моделей, LLM загалом демонструє перевагу власній відповіді.
- Послідовність відповіді кандидатів може періодично впливати на оцінку, як, наприклад, демонстрація переваги першому відображеному варіанту відповіді.
- LLM, як правило надавати перевагу довшим відповідям, навіть якщо вони містять фактичні помилки або користувачам важче зрозуміти та використовувати.
Враховуючи недоліки, притаманні оцінюванню LLM, стратегічне включення ручного контролю з боку оцінювачів залишається доцільним кроком, і його не слід пропускати в процесі розробки програми LLM.
Гібридний підхід
Переважаючий підхід полягає в тому, що розробники в значній мірі покладаються на автоматичні оцінки, які сприяють LLM. Це забезпечує їх миттєвим механізмом зворотного зв’язку, що забезпечує швидкий вибір моделі, точне налаштування та експериментування з різноманітними підказками системи. Мета полягає в тому, щоб на основі цих автоматичних оцінок створити оптимально ефективну систему. Після завершення фази автоматизованого оцінювання наступним кроком зазвичай є глибше занурення за участю висококваліфікованих оцінювачів для перевірки достовірності автоматичної оцінки.
Забезпечення високоякісних людських оцінок може бути дорогим завданням. Хоча вдаватися до такого рівня перевірки після кожного незначного вдосконалення системи непрагматично, людська оцінка є обов’язковою фазою перед переходом системи LLM у робоче середовище. Як зазначалося раніше, оцінки LLM можуть проявлятися упереджено та бути ненадійними.
Після розгортання вкрай важливо отримати справжні відгуки від кінцевих користувачів наших додатків на базі LLM. Зворотній зв’язок може бути таким простим, як оцінка користувачами відповіді як корисної (великий палець вгору) або некорисної (великий палець вниз), але в ідеалі вона повинна супроводжуватися детальними коментарями, що підкреслюють сильні сторони та недоліки відповідей моделі.
Основні оновлення моделі або зміни в запитах користувачів можуть ненавмисно знизити продуктивність вашої програми або виявити приховані недоліки. Постійний моніторинг продуктивності програми LLM за нашими визначеними критеріями залишається критично важливим протягом усього терміну її експлуатації, щоб ви могли швидко виявити та усунути нові недоліки. .
Ключові винесення
Оцінка продуктивності систем на базі LLM представляє унікальні проблеми, що відрізняє це завдання від звичайних оцінок машинного навчання. У процесі оцінювання системи LLM слід враховувати такі критичні міркування, щоб інформувати вашу методологію:
- Індивідуальні набори для оцінювання: Щоб отримати корисну інформацію, необхідно створювати надійні, орієнтовані на програму набори оцінок. Ці набори не обов’язково мають бути великими, але вони мають включати низку складних зразків.
- Динамічне розширення завдань оцінювання: коли ви отримуєте відгуки від користувачів, дуже важливо постійно розширювати й уточнювати набір оцінок, щоб охопити нові проблеми та нюанси.
- Кількісні показники та якісні критерії: Складна природа LLM часто вислизає від простих кількісних показників. Важливо встановити набір критеріїв, адаптованих до вашого конкретного випадку використання, що дозволить більш детально оцінити продуктивність моделі.
- Уніфікована функція зворотного зв'язку: щоб спростити процес оцінювання, подумайте про об’єднання кількох критеріїв у єдину послідовну функцію зворотного зв’язку.
- Гібридний підхід до оцінки: використання як магістрів права, так і висококваліфікованих спеціалістів-оцінювачів у вашому процесі оцінювання пропонує більш повну перспективу та дає найбільш надійні та економічно ефективні результати.
- Безперервний моніторинг у реальному світі: шляхом об’єднання відгуків користувачів із уніфікованою функцією зворотного зв’язку ви можете безперервно контролювати та точно налаштовувати продуктивність LLM, забезпечуючи послідовне узгодження з вимогами реального світу.
Вам подобається ця стаття? Підпишіться на отримання нових оновлень щодо досліджень ШІ.
Ми повідомимо вас, коли випустимо більше таких підсумкових статей, як ця.
споріднений
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. Автомобільні / електромобілі, вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- ChartPrime. Розвивайте свою торгову гру за допомогою ChartPrime. Доступ тут.
- BlockOffsets. Модернізація екологічної компенсаційної власності. Доступ тут.
- джерело: https://www.topbots.com/llm-performance-evaluation/
- : має
- :є
- : ні
- :де
- $UP
- 1
- 10
- 7
- a
- МЕНЮ
- прийнятний
- супроводжується
- рахунки
- точність
- точний
- Achieve
- придбання
- фактичний
- адреса
- просунутий
- Переваги
- після
- проти
- сукупність
- AI
- ai дослідження
- вирівнювання
- Дозволити
- тільки
- Також
- альтернатива
- завжди
- an
- та
- Інший
- відповідь
- Відповіді
- будь-який
- крім
- додаток
- Розробка додатка
- застосування
- підхід
- підходи
- ЕСТЬ
- стаття
- статті
- AS
- оцінити
- оцінка
- асоційований
- At
- Атрибути
- Автоматизований
- автоматичний
- доступний
- середній
- чекати
- база
- заснований
- BE
- перед тим
- За
- упередження
- підсилює
- Бот
- обидва
- широкий
- Створюємо
- бізнес
- але
- by
- CAN
- кандидат
- кандидатів
- потужність
- захоплення
- випадок
- випадків
- спійманий
- виклик
- проблеми
- складні
- Chatbot
- Вибирати
- КОГЕРЕНТНИЙ
- Збір
- об'єднання
- приходить
- коментарі
- загальний
- порівняний
- порівняння
- Зроблено
- всеосяжний
- Вважати
- міркування
- послідовний
- обмеження
- будувати
- містити
- постійно
- звичайний
- Core
- виправити
- рентабельним
- дорого
- витрати
- може
- покриття
- створювати
- Критерії
- критичний
- вирішальне значення
- Поточний
- виготовлений на замовлення
- клієнт
- підтримка клієнтів
- Днів
- глибокий
- глибше
- дефолт
- певний
- остаточний
- заглиблюватися
- демонстрація
- розгортання
- розгортання
- призначений
- конструкцій
- докладно
- розробників
- розробка
- різний
- displayed
- чіткий
- Ні
- домен
- Не знаю
- вниз
- недоліки
- два
- динамічний
- e
- кожен
- Раніше
- фактично
- ефективний
- або
- елементи
- з'являються
- підкреслити
- дозволяє
- охоплювати
- endeavor
- гарантує
- забезпечення
- підприємство
- Навколишнє середовище
- помилки
- сутність
- істотний
- встановити
- оцінювати
- оцінки
- оцінка
- оцінки
- Навіть
- Кожен
- еволюціонує
- приклад
- Приклади
- перевершувати
- виконано
- існувати
- Розширювати
- розширення
- дорогий
- експериментальний
- полегшений
- захитатися
- швидкий темп
- на користь
- реально
- зворотний зв'язок
- кілька
- Перший
- Сфокусувати
- після
- для
- формат
- часто
- дружній
- від
- функція
- Крім того
- збирати
- Загальне
- в цілому
- породжувати
- генерується
- справжній
- отримати
- даний
- мета
- золото
- Золотий Стандарт
- Зростання
- гарантувати
- траплятися
- важче
- Запрягання
- Мати
- має
- сильно
- високоякісний
- вище
- виділивши
- цілісний
- Як
- How To
- Однак
- HTTPS
- людина
- гібрид
- i
- ідеальний
- в ідеалі
- ідентифікувати
- ідентифікує
- if
- Негайний
- імператив
- здійснювати
- значення
- вражаючий
- in
- включати
- включені
- вказує
- повідомити
- притаманне
- початковий
- спочатку
- вхід
- витрати
- розуміння
- екземпляр
- інтегрований
- внутрішній
- в
- IT
- ЙОГО
- сам
- JPG
- ключ
- Знати
- мова
- великий
- більше
- Лідери
- вивчення
- найменш
- дозволяти
- рівень
- Важіль
- використання
- життя
- Життєвий цикл
- як
- ймовірність
- недоліки
- LLM
- ТОО
- довше
- машина
- навчання за допомогою машини
- Підтримка
- керівництво
- Матерія
- макс-ширина
- Може..
- механічний
- механіка
- механізм
- медичний
- меров
- злиття
- метадані
- метод
- Методологія
- методика
- педантичний
- Метрика
- може бути
- незначний
- вводить в оману
- ML
- модель
- Моделі
- монітор
- моніторинг
- більше
- більш ефективний
- найбільш
- множинний
- повинен
- природа
- обов'язково
- Необхідність
- Нові
- наступний
- особливо
- зазначив,
- цілей
- of
- Пропозиції
- часто
- on
- один раз
- ONE
- постійний
- працювати
- оперативний
- Можливість
- оптимальний
- or
- Інше
- наші
- Результати
- вихід
- над
- Нагляд
- власний
- пар
- Першорядний
- приватність
- пауза
- продуктивність
- виконанні
- перспектива
- фаза
- plato
- Інформація про дані Платона
- PlatoData
- практика
- прагматичний
- підготовлений
- представити
- представлений
- подарунки
- Пріоритетність
- процедура
- процес
- процеси
- виробляти
- Production
- проектів
- доведений
- забезпечувати
- Питання та відповіді
- якісний
- якості
- якість
- кількісний
- запити
- питань
- швидко
- діапазон
- ставка
- швидше
- рейтинг
- Реальний світ
- царство
- отримати
- удосконалювати
- Незалежно
- реєструвати
- звільнити
- доречний
- надійність
- надійний
- покладаючись
- залишається
- представник
- запитів
- вимагати
- Вимога
- Вимагається
- дослідження
- курорт
- відповідь
- відповіді
- результати
- Виявляє
- суворий
- міцний
- прогін
- то ж
- шкала
- сценарії
- рахунок
- огляд
- Шукати
- вибирає
- вибір
- послідовності
- комплект
- набори
- установка
- налаштування
- Зміни
- недоліки
- Повинен
- підпис
- простий
- спростити
- особливий
- менше
- So
- виключно
- деякі
- конкретний
- спектр
- standard
- старт
- Крок
- заходи
- Як і раніше
- просто
- Стратегічний
- Стратегічно
- раціоналізувати
- сильні сторони
- тема
- по суті
- такі
- РЕЗЮМЕ
- чудовий
- підтримка
- SWIFT
- система
- Systems
- з урахуванням
- Приймати
- прийняті
- Тандем
- Мета
- цільове
- Завдання
- команда
- технічний
- методи
- Технологія
- тест
- Тестування
- Що
- Команда
- їх
- Їх
- потім
- Там.
- Ці
- вони
- це
- через
- по всьому
- трудомісткий
- times
- до
- TONE
- ТОПБОТИ
- до
- традиційний
- перехід
- типово
- розуміти
- розуміння
- Unexpected
- непередбачений
- єдиний
- створеного
- на відміну від
- непередбачуваний
- Updates
- використання
- використання випадку
- використовуваний
- користувач
- користувачі
- використання
- зазвичай
- використовувати
- використовувати
- ПЕРЕВІР
- різноманітність
- через
- we
- Web
- Веб-розробка
- тижня
- коли
- Чи
- який
- в той час як
- ширше
- волі
- з
- в
- без
- робочі
- світ
- ще
- врожайність
- Ти
- вашу
- зефірнет