새롭고 향상된 내장 모델 PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

새롭고 향상된 임베딩 모델

훨씬 더 기능이 뛰어나고 비용 효율적이며 사용이 간편한 새로운 임베딩 모델을 발표하게 되어 기쁩니다. 새로운 모델, text-embedding-ada-002, 텍스트 검색, 텍스트 유사성 및 코드 검색을 위한 99.8개의 개별 모델을 대체하고 대부분의 작업에서 이전의 가장 유능한 모델인 Davinci보다 성능이 우수하면서도 가격은 XNUMX% 낮습니다.

문서 읽기

임베딩은 숫자 시퀀스로 변환된 개념의 숫자 표현으로, 컴퓨터가 해당 개념 간의 관계를 쉽게 이해할 수 있도록 합니다. 이후 초기 출시 OpenAI의 /임베딩 끝점에서 많은 애플리케이션이 임베딩을 통합하여 콘텐츠를 개인화, 추천 및 검색합니다.

쿼리 할 수 ​​있습니다. /임베딩 다음을 사용하여 두 줄의 코드로 새 모델의 끝점 OpenAI 파이썬 라이브러리, 이전 모델과 마찬가지로:

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

모델 개선

더 강력한 성능. text-embedding-ada-002 텍스트 검색, 코드 검색 및 문장 유사성 작업에서 모든 이전 임베딩 모델을 능가하고 텍스트 분류에서 유사한 성능을 얻습니다. 각 작업 범주에 대해 다음에서 사용된 데이터 세트에 대한 모델을 평가합니다. 오래된 임베딩.





기능의 통일. 인터페이스를 크게 단순화했습니다. /임베딩 위에 표시된 XNUMX개의 개별 모델을 병합하여 끝점(text-similarity, text-search-query, text-search-doc, code-search-textcode-search-code) 단일 새 모델로. 이 단일 표현은 다양한 텍스트 검색, 문장 유사성 및 코드 검색 벤치마크에서 이전 임베딩 모델보다 성능이 뛰어납니다.

더 긴 컨텍스트. 새 모델의 컨텍스트 길이는 2048에서 8192로 XNUMX배 증가하여 긴 문서 작업이 더욱 편리해졌습니다.

더 작은 임베딩 크기. 새로운 임베딩은 차원이 1536개에 불과하며 크기의 XNUMX/XNUMX입니다. davinci-001 벡터 데이터베이스로 작업할 때 새 임베딩을 보다 비용 효율적으로 만듭니다.

인하 된 가격. 동일한 크기의 이전 모델에 비해 새 임베딩 모델의 가격을 90%까지 낮췄습니다. 신형 모델은 99.8% 낮은 가격으로 구형 다빈치 모델보다 더 좋거나 비슷한 성능을 발휘한다.

전반적으로 새로운 임베딩 모델은 자연어 처리 및 코드 작업을 위한 훨씬 더 강력한 도구입니다. 우리는 고객이 해당 분야에서 훨씬 더 유능한 응용 프로그램을 만들기 위해 어떻게 사용할지 기대됩니다.

제한 사항

새로운 text-embedding-ada-002 모델이 성능을 능가하지 않습니다 text-similarity-davinci-001 SentEval 선형 프로빙 분류 벤치마크에서. 분류 예측을 위해 임베딩 벡터 위에 경량 선형 레이어를 교육해야 하는 작업의 경우 새 모델을 다음과 비교하는 것이 좋습니다. text-similarity-davinci-001 최적의 성능을 제공하는 모델을 선택합니다.

확인 제한 및 위험 임베딩 모델의 일반적인 제한 사항은 임베딩 문서의 섹션을 참조하세요.

실행 중인 Embeddings API의 예

캘린더 AI 임베딩을 사용하여 340억 40천만 개의 프로필이 포함된 데이터 세트에서 올바른 고객에게 올바른 영업 피치를 일치시키는 영업 홍보 제품입니다. 이 자동화는 고객 프로필 임베딩과 판매 제안 간의 유사성에 의존하여 가장 적합한 매치 순위를 매기며 이전 접근 방식에 비해 원치 않는 타겟팅을 56~XNUMX% 제거합니다.

개념온라인 작업 공간 회사인 는 OpenAI의 새로운 임베딩을 사용하여 오늘날의 키워드 일치 시스템을 넘어 Notion 검색을 개선할 것입니다.


문서 읽기

타임 스탬프 :

더보기 OpenAI