大幅に機能が向上し、費用対効果が高く、使いやすい新しい埋め込みモデルを発表できることを嬉しく思います。 新しいモデル、 text-embedding-ada-002
は、テキスト検索、テキスト類似性、およびコード検索の 99.8 つの個別のモデルに取って代わり、XNUMX% 低い価格でありながら、ほとんどのタスクで以前の最も有能なモデル Davinci よりも優れています。
埋め込みは、数列に変換された概念の数値表現であり、コンピューターがそれらの概念間の関係を簡単に理解できるようにします。 以来、 最初の立ち上げ OpenAIの /埋め込み エンドポイントに加えて、多くのアプリケーションには埋め込みが組み込まれており、コンテンツをパーソナライズ、推奨、および検索しています。
あなたはクエリすることができます /埋め込み を使用した XNUMX 行のコードで新しいモデルのエンドポイント OpenAI Python ライブラリ、以前のモデルと同じように:
import openai
response = openai.Embedding.create(
input="porcine pals say",
model="text-embedding-ada-002"
)
モデルの改善
より強力なパフォーマンス. text-embedding-ada-002
テキスト検索、コード検索、および文の類似性タスクですべての古い埋め込みモデルよりも優れており、テキスト分類で同等のパフォーマンスが得られます。 各タスク カテゴリについて、使用されたデータセットでモデルを評価します。 古い埋め込み.
機能の統合. のインターフェースを大幅に簡素化しました。 /埋め込み 上記の XNUMX つの個別のモデルをマージすることにより、エンドポイント (text-similarity
, text-search-query
, text-search-doc
, code-search-text
および code-search-code
) を単一の新しいモデルに変換します。 この単一の表現は、さまざまなテキスト検索、文の類似性、およびコード検索のベンチマーク全体で、以前の埋め込みモデルよりも優れたパフォーマンスを発揮します。
より長いコンテキスト。 新しいモデルのコンテキストの長さは 2048 から 8192 に XNUMX 倍に増加し、長いドキュメントの操作がより便利になります。
埋め込みサイズが小さい。 新しい埋め込みには 1536 次元しかなく、サイズは の XNUMX 分の XNUMX です。 davinci-001
ベクターデータベースでの作業において、新しい埋め込みをより費用対効果の高いものにします。
値下げした価格。 同じサイズの古いモデルと比較して、新しい埋め込みモデルの価格を 90% 値下げしました。 新しいモデルは、古い Davinci モデルよりも優れた、または同等のパフォーマンスを 99.8% 低い価格で実現しています。
全体として、新しい埋め込みモデルは、自然言語処理とコード タスクのためのはるかに強力なツールです。 お客様がそれぞれの分野でさらに優れたアプリケーションを作成するためにそれをどのように使用するかを楽しみにしています。
制限事項
新しい text-embedding-ada-002
モデルが優れていない text-similarity-davinci-001
SentEval 線形プローブ分類ベンチマークで。 分類予測のために埋め込みベクトルの上に軽量線形レイヤーをトレーニングする必要があるタスクの場合、新しいモデルを次のように比較することをお勧めします。 text-similarity-davinci-001
最適なパフォーマンスが得られるモデルを選択します。
チェック 制限とリスク 埋め込みモデルの一般的な制限については、埋め込みドキュメントのセクションを参照してください。
実際の埋め込み API の例
カレンダー AI は、埋め込みを使用して、340 億 40 万のプロファイルを含むデータセットから適切なセールスピッチを適切な顧客に一致させるセールス アウトリーチ製品です。 この自動化は、顧客プロファイルの埋め込みと販売ピッチの類似性に依存して、最も適切な一致をランク付けし、古いアプローチと比較して不要なターゲティングの 56 ~ XNUMX% を排除します。
概念オンライン ワークスペース企業である は、OpenAI の新しい埋め込みを使用して、今日のキーワード マッチング システムを超えて Notion 検索を改善します。