Model nou și îmbunătățit de încorporare PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Model de încorporare nou și îmbunătățit

Suntem încântați să anunțăm un nou model de încorporare care este mult mai capabil, mai eficient din punct de vedere al costurilor și mai simplu de utilizat. Noul model, text-embedding-ada-002, înlocuiește cinci modele separate pentru căutarea textului, similaritatea textului și căutarea codului și depășește modelul nostru anterior, cel mai capabil, Davinci, la majoritatea sarcinilor, având în același timp un preț cu 99.8% mai mic.

Citiți documentația

Înglobările sunt reprezentări numerice ale conceptelor convertite în secvențe de numere, ceea ce facilitează înțelegerea de către computere a relațiilor dintre aceste concepte. De când lansare inițială al OpenAI /embeddings endpoint, multe aplicații au încorporat încorporare pentru a personaliza, recomanda și căuta conținut.

Puteți interoga /embeddings punct final pentru noul model cu două linii de cod folosind nostru Biblioteca OpenAI Python, la fel ca și cu modelele anterioare:

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

Îmbunătățiri ale modelului

Performanță mai puternică. text-embedding-ada-002 depășește toate modelele vechi de încorporare la căutarea de text, căutarea de cod și sarcinile de similaritate a propozițiilor și obține performanțe comparabile la clasificarea textului. Pentru fiecare categorie de sarcini, evaluăm modelele pe seturile de date utilizate în înglobări vechi.





Unificarea capacităților. Am simplificat semnificativ interfața /embeddings punct final prin îmbinarea celor cinci modele separate prezentate mai sus (text-similarity, text-search-query, text-search-doc, code-search-text și code-search-code) într-un singur model nou. Această reprezentare unică are performanțe mai bune decât modelele noastre anterioare de încorporare într-un set divers de repere de căutare de text, de similaritate de propoziții și de căutare de cod.

Context mai lung. Lungimea contextului noului model este mărită cu un factor de patru, de la 2048 la 8192, făcând mai convenabil lucrul cu documente lungi.

Dimensiune mai mică de încorporare. Noile înglobări au doar 1536 de dimensiuni, o optime din dimensiunea davinci-001 înglobări, făcând noile înglobări mai rentabile în lucrul cu baze de date vectoriale.

Pret redus. Am redus prețul noilor modele de încorporare cu 90% față de modelele vechi de aceeași dimensiune. Noul model atinge performanțe mai bune sau similare ca vechile modele Davinci la un preț cu 99.8% mai mic.

În general, noul model de încorporare este un instrument mult mai puternic pentru procesarea limbajului natural și sarcinile de cod. Suntem încântați să vedem cum îl vor folosi clienții noștri pentru a crea aplicații și mai capabile în domeniile lor respective.

Limitări

Noul text-embedding-ada-002 modelul nu depășește text-similarity-davinci-001 pe benchmark-ul de clasificare a sondei liniare SentEval. Pentru sarcinile care necesită antrenarea unui strat liniar ponderat ușor deasupra vectorilor de încorporare pentru predicția clasificării, vă sugerăm să comparați noul model cu text-similarity-davinci-001 și alegerea oricărui model care oferă performanțe optime.

Verifică Limitări și riscuri secțiunea din documentația de încorporare pentru limitările generale ale modelelor noastre de încorporare.

Exemple de API Embeddings în acțiune

Calendar AI este un produs de promovare a vânzărilor care folosește încorporarea pentru a potrivi argumentul de vânzare potrivit cu clienții potriviți dintr-un set de date care conține 340 de milioane de profiluri. Această automatizare se bazează pe similitudinea dintre încorporarea profilurilor clienților și propunerile de vânzare pentru a clasa cele mai potrivite potriviri, eliminând 40-56% din direcționarea nedorită în comparație cu vechea abordare.

noțiune, compania de spații de lucru online, va folosi noile înglobări OpenAI pentru a îmbunătăți căutarea Notion dincolo de sistemele de potrivire a cuvintelor cheie de astăzi.


Citiți documentația

Timestamp-ul:

Mai mult de la OpenAI