New And Improved Embedding Model

Újra kiadta Platón

Követő: 0

Örömmel jelentjük be az új beágyazási modellt, amely lényegesen hatékonyabb, költséghatékonyabb és egyszerűbben használható. Az új modell, text-embedding-ada-002, öt különálló modellt vált fel a szövegkeresés, a szöveghasonlóság és a kódkeresés terén, és a legtöbb feladatban felülmúlja korábbi, legtehetősebb modellünket, a Davincit, miközben 99.8%-kal olcsóbb.

Olvassa el a dokumentációt

A beágyazások a fogalmak számsorozatokká konvertált numerikus ábrázolásai, amelyek megkönnyítik a számítógépek számára a fogalmak közötti kapcsolatok megértését. Mivel a kezdeti indítás az OpenAI /beágyazások végpont, sok alkalmazás beágyazott a tartalom személyre szabásához, ajánlásához és kereséséhez.

Lekérdezheti a /beágyazások végpontja az új modellhez két sor kóddal a mi OpenAI Python Library, akárcsak a korábbi modelleknél:

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

Modellfejlesztések

Erősebb teljesítmény. text-embedding-ada-002 felülmúlja az összes régi beágyazási modellt a szövegkeresési, kódkeresési és mondathasonlósági feladatokban, és hasonló teljesítményt nyújt a szövegosztályozásban. Minden feladatkategóriához kiértékeljük a felhasznált adatkészletek modelljeit régi beágyazások.

A képességek egyesítése. Jelentősen leegyszerűsítettük a felületet /beágyazások végpont a fent látható öt különálló modell egyesítésével (text-similarity, text-search-query, text-search-doc, code-search-text és a code-search-code) egyetlen új modellbe. Ez az egyetlen ábrázolás jobban teljesít, mint a korábbi beágyazási modelljeink a szövegkeresés, a mondathasonlóság és a kódkeresési referenciaértékek változatos halmazában.

Hosszabb kontextus. Az új modell környezeti hossza négyszeresére, 2048-ról 8192-re nőtt, így kényelmesebb a hosszú dokumentumokkal való munka.

Kisebb beágyazási méret. Az új beágyazások mérete mindössze 1536, ami a méretének egynyolcada davinci-001 beágyazások, így az új beágyazások költséghatékonyabbak a vektoros adatbázisokkal való munkavégzésben.

Csökkentett ár. Az új beágyazó modellek árát 90%-kal csökkentettük az azonos méretű régi modellekhez képest. Az új modell jobb vagy hasonló teljesítményt ér el, mint a régi Davinci modellek 99.8%-kal alacsonyabb áron.

Összességében az új beágyazási modell sokkal hatékonyabb eszköz a természetes nyelvi feldolgozáshoz és a kódfeladatokhoz. Izgatottan várjuk, hogy ügyfeleink miként fogják felhasználni azt, hogy még több alkalmas alkalmazást hozzanak létre saját területükön.

korlátozások

Az új text-embedding-ada-002 modell nem teljesít jobban text-similarity-davinci-001 a SentEval lineáris szondázási osztályozási benchmarkon. Azoknál a feladatoknál, amelyeknél egy könnyű súlyozású lineáris réteg betanítása szükséges a beágyazott vektorok tetején az osztályozás előrejelzéséhez, azt javasoljuk, hogy hasonlítsa össze az új modellt text-similarity-davinci-001 és válassza ki azt a modellt, amely optimális teljesítményt nyújt.

Ellenőrizd a Korlátozások és kockázatok szakasz a beágyazási dokumentációban a beágyazási modelljeink általános korlátozásaiért.

Példák az Embeddings API-ra működés közben

Naptár AI egy értékesítést segítő termék, amely beágyazásokat használ, hogy a megfelelő értékesítési ajánlatot a megfelelő ügyfelekhez igazítsa egy 340 millió profilt tartalmazó adatkészletből. Ez az automatizálás az ügyfélprofilok és az eladási ajánlatok beágyazása közötti hasonlóságra támaszkodik a legmegfelelőbb egyezések rangsorolásához, és a régi megközelítéshez képest a nem kívánt célzás 40–56%-át kiküszöböli.

fogalom, az online munkaterület-cég az OpenAI új beágyazásait fogja használni a fogalomkeresés javítására a mai kulcsszóegyezési rendszereken túl.

Olvassa el a dokumentációt

Időbélyeg: December 15, 2022December 15, 2022

Időbélyeg: 1. augusztus 2023.

Új és továbbfejlesztett beágyazási modell

Újra kiadta Platón

Modellfejlesztések

korlátozások

Példák az Embeddings API-ra működés közben

Még több OpenAI

Pont-E: 3D pontfelhők létrehozására szolgáló rendszer összetett promptokból

GPT-4 használata a tartalom moderálásához

A DALL·E már béta verzióban is elérhető

A nyelvi modellekkel való lehetséges visszaélések előrejelzése dezinformációs kampányokhoz – és a kockázat csökkentése

Sora: Első benyomások

Bemutatkozik az OpenAI Dublin

Bemutatkozik a ChatGPT

Veszélyelemző keretrendszer kódszintézis nagy nyelvi modellekhez

Memória és új vezérlők a ChatGPT-hez

A GPT-4 API általános elérhetősége és a régebbi modellek elavulása a Completions API-ban

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók