Швидке проектування – це завдання, яке краще залишити моделям ШІ

Швидке проектування – це завдання, яке краще залишити моделям ШІ

Prompt engineering is a task best left to AI models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Великі мовні моделі породили темне мистецтво оперативного проектування – процесу складання системних інструкцій, які викликають кращі відповіді чат-бота.

Як зазначено в недавньому дослідженні папір, «Необґрунтована ефективність ексцентричних автоматичних підказок» Ріка Батла та Теї Голлапуді з VMware компанії Broadcom, здавалося б тривіальні варіації у формулюванні підказок значно впливають на продуктивність моделі.

Відсутність узгодженої методології для покращення продуктивності моделі за допомогою швидкої оптимізації призвела до того, що фахівці з машинного навчання включили так зване «позитивне мислення» в підказки системи.

Команда системна підказка інструктує модель про те, як поводитися, і передує запиту користувача. Таким чином, коли запитуєте модель штучного інтелекту розв’язати математичну задачу, системна підказка на кшталт «Ви професор математики», ймовірно – хоча і не завжди – дає кращі результати, ніж пропуск цієї заяви.

Про це розповів Рік Батл, штатний інженер машинного навчання VMware Реєстр у телефонному інтерв’ю, що він спеціально радить цього не робити. «Головна думка статті полягає в тому, що метод проб і помилок — це неправильний спосіб робити речі», — пояснив він.

Шлях позитивного мислення – коли ви просто вставляєте фрагменти в системне повідомлення на зразок «Це буде весело!» – може покращити продуктивність моделі, зазначив він. «Але перевірити їх науково важко з точки зору обчислень, тому що ви змінюєте одну річ і вам потрібно повторно запустити весь набір тестів».

Кращим підходом, як запропонував Батл, є автоматична оптимізація підказок – залучення LLM для вдосконалення підказок для покращення продуктивності в еталонних тестах.

Попередні дослідження показав, що це працює з комерційними LLM. Недоліком цього є те, що це може бути досить дорогим. За словами дослідників, проведення цього експерименту з 12,000 3.5 запитами на модель з використанням GPT-4/XNUMX, Gemini або Claude коштувало б кілька тисяч доларів.

«Мета дослідження полягала в тому, щоб з’ясувати, чи можна використовувати менші моделі з відкритим кодом як оптимізатори, — пояснив Баттл, — і відповідь виявилася так».

Battle і Gollapudi (більше не з Broadcom) протестували 60 комбінацій фрагментів системних повідомлень із підказками Chain Thought і без них на трьох моделях із відкритим кодом – Mistral-7B, Llama2-13B і Llama2-70B – із параметрами від семи до 70 мільярдів у наборі математичних даних початкової школи GSM8K.

«Якщо ви використовуєте модель з відкритим кодом, навіть аж до 7B, для якої ми використовували Mistral, — сказав Баттл, — якщо у вас є лише 100 тестових зразків і 100 зразків оптимізації, ви можете отримати кращу продуктивність. за допомогою автоматичних оптимізаторів, які входять із коробки DSPy, яка є бібліотекою, яку ми використовуємо для цього».

Окрім більшої ефективності, отримані від LLM оптимізації підказок демонструють стратегії, які, ймовірно, не спали б на думку людям, які налаштовують підказки.

«Дивно, але виявляється, що майстерність [Llama2-70B] у математичному міркуванні може бути посилена вираженням спорідненості до Star Trek”, – зазначають автори у своїй статті.

Повна системна підказка виглядає так:

Системне повідомлення:

«Командо, нам потрібно, щоб ви проклали курс через цю турбулентність і виявили джерело аномалії. Використовуйте всі доступні дані та свій досвід, щоб допомогти нам у цій складній ситуації».

Префікс відповіді:

Журнал капітана, зоряна дата [вставте тут дату]: ми успішно проклали курс через турбулентність і зараз наближаємося до джерела аномалії.

«У мене немає хорошого пояснення, чому автоматичні підказки такі дивні, як вони є», — сказав нам Баттл. «І я точно б ніколи не придумав нічого подібного вручну». ®

Часова мітка:

Більше від Реєстр