我们很高兴地宣布推出一种新的嵌入模型,该模型功能更强大、成本更低且使用更简单。 新机型, text-embedding-ada-002
,取代了文本搜索、文本相似性和代码搜索的五个独立模型,并且在大多数任务上优于我们之前最强大的模型 Davinci,同时价格降低了 99.8%。
嵌入是转换为数字序列的概念的数字表示,这使计算机很容易理解这些概念之间的关系。 自从 最初的发射 OpenAI 的 /嵌入 端点,许多应用程序都结合了嵌入来个性化、推荐和搜索内容。
您可以查询 /嵌入 使用我们的两行代码的新模型端点 OpenAI Python 库,就像以前的模型一样:
import openai
response = openai.Embedding.create(
input="porcine pals say",
model="text-embedding-ada-002"
)
模型改进
性能更强. text-embedding-ada-002
在文本搜索、代码搜索和句子相似性任务上优于所有旧的嵌入模型,并在文本分类上获得相当的性能。 对于每个任务类别,我们评估模型中使用的数据集 旧嵌入.
能力统一. 我们大大简化了 /嵌入 通过合并上面显示的五个独立模型的端点(text-similarity
, text-search-query
, text-search-doc
, code-search-text
和 code-search-code
) 成一个单一的新模型。 这种单一表示在一组不同的文本搜索、句子相似性和代码搜索基准测试中比我们之前的嵌入模型表现更好。
更长的上下文。 新模型的上下文长度增加了四倍,从 2048 增加到 8192,使处理长文档更加方便。
较小的嵌入尺寸。 新的嵌入只有 1536 维,大小的八分之一 davinci-001
嵌入,使新嵌入在使用矢量数据库时更具成本效益。
减价。 与相同尺寸的旧型号相比,我们将新嵌入型号的价格降低了 90%。 新型号以低 99.8% 的价格实现了与旧 Davinci 型号更好或相似的性能。
总的来说,新的嵌入模型是一个更强大的自然语言处理和代码任务工具。 我们很高兴看到我们的客户将如何使用它在各自领域创建功能更强大的应用程序。
限制
新的 text-embedding-ada-002
模型表现不佳 text-similarity-davinci-001
在 SentEval 线性探测分类基准上。 对于需要在嵌入向量之上训练轻量级线性层以进行分类预测的任务,我们建议将新模型与 text-similarity-davinci-001
并选择能够提供最佳性能的模型。
访问 限制与风险 嵌入文档中有关我们嵌入模型的一般限制的部分。
嵌入 API 的实际应用示例
日历人工智能 是一种销售推广产品,它使用嵌入将正确的销售宣传与包含 340M 个人资料的数据集中的正确客户相匹配。 这种自动化依赖于嵌入的客户资料和销售宣传之间的相似性来对最合适的匹配项进行排名,与他们的旧方法相比,消除了 40-56% 的不需要的目标。
概念,在线工作空间公司,将使用 OpenAI 的新嵌入来改进概念搜索,使其超越当今的关键字匹配系统。