Нова та вдосконалена модель вбудовування

Перевидано Платоном

читають: 0

Ми раді оголосити про нову модель вбудовування, яка значно ефективніша, економічніша та простіша у використанні. Нова модель, text-embedding-ada-002, замінює п’ять окремих моделей для пошуку тексту, схожості тексту та пошуку коду та перевершує нашу попередню найефективнішу модель, Davinci, у більшості завдань, але має нижчу ціну на 99.8%.

Прочитайте документацію

Вбудовування — це числові представлення понять, перетворені на числові послідовності, що полегшує комп’ютерам розуміння зв’язків між цими поняттями. Оскільки початковий запуск OpenAI /вставки кінцевої точки, багато програм мають вбудовані засоби для персоналізації, рекомендації та пошуку вмісту.

Ви можете запитати /вставки кінцева точка для нової моделі з двома рядками коду за допомогою нашого Бібліотека OpenAI Python, як і з попередніми моделями:

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

Покращення моделі

Сильніша продуктивність. text-embedding-ada-002 перевершує всі старі моделі вбудовування в задачах пошуку тексту, пошуку коду та подібності речень і отримує порівнянну продуктивність у класифікації тексту. Для кожної категорії завдань ми оцінюємо моделі на наборах даних, які використовуються в старі вкладення.

Уніфікація можливостей. Ми значно спростили інтерфейс /вставки кінцевої точки шляхом об’єднання п’яти окремих моделей, показаних вище (text-similarity, text-search-query, text-search-doc, code-search-text та code-search-code) в одну нову модель. Це єдине представлення працює краще, ніж наші попередні моделі вбудовування, у різноманітному наборі тестів пошуку тексту, схожості речень і тестів пошуку коду.

Довший контекст. Довжина контексту нової моделі збільшена в чотири рази, з 2048 до 8192, що робить роботу з довгими документами зручнішою.

Менший розмір вбудовування. Нові вбудовані елементи мають лише 1536 розмірів, що становить одну восьму розміру davinci-001 вбудовування, що робить нові вбудовування більш економічно ефективними при роботі з векторними базами даних.

Знижена ціна. Ми знизили ціну на нові вбудовані моделі на 90% порівняно зі старими моделями такого ж розміру. Нова модель має кращу або подібну продуктивність, ніж старі моделі Davinci, за ціною на 99.8% нижчою.

Загалом, нова модель вбудовування є набагато потужнішим інструментом для обробки природної мови та кодових завдань. Ми раді бачити, як наші клієнти використовуватимуть його для створення ще більш ефективних програм у своїх галузях.

Недоліки

Новий text-embedding-ada-002 модель не перевершує text-similarity-davinci-001 на тесті класифікації лінійного зондування SentEval. Для завдань, які вимагають навчання легкозваженого лінійного шару поверх векторів вбудовування для прогнозування класифікації, ми пропонуємо порівняти нову модель з text-similarity-davinci-001 і вибір будь-якої моделі забезпечує оптимальну продуктивність.

Перевірте Обмеження та ризики у розділі документації щодо вбудовування для загальних обмежень наших моделей вбудовування.

Приклади Embeddings API у дії

Календар А.І це продукт для охоплення продажів, який використовує вбудовування, щоб відповідати правильній рекламі для потрібних клієнтів із набору даних, що містить 340 млн профілів. Ця автоматизація спирається на схожість між вставленням профілів клієнтів і рекламних пропозицій, щоб оцінити найбільш відповідні збіги, усуваючи 40–56% небажаного націлювання порівняно зі старим підходом.

поняття, компанія з онлайн-робочого простору, використовуватиме нові вбудовані засоби OpenAI, щоб покращити пошук Notion за межами сучасних систем зіставлення ключових слів.

Прочитайте документацію

Часова мітка: 15 Грудня, 202215 Грудня, 2022

Часова мітка: Серпень 1, 2023

Нова та покращена модель вбудовування

Перевидано Платоном

Покращення моделі

Недоліки

Приклади Embeddings API у дії

Більше від OpenAI

Point-E: система для створення тривимірних хмар точок із складних підказок

Використання GPT-4 для модерації вмісту

DALL·E тепер доступний у бета-версії

Прогнозування потенційних зловживань мовними моделями для кампаній з дезінформації та як зменшити ризик

Сора: Перші враження

Представляємо OpenAI Dublin

Представляємо ChatGPT

Структура аналізу небезпек для великих мовних моделей синтезу коду

Пам'ять і нові елементи керування для ChatGPT

Загальна доступність GPT-4 API та припинення підтримки старіших моделей в Completions API

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки