Nov in izboljšan model vdelave PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Nov in izboljšan model vdelave

Z veseljem oznanjamo nov model vdelave, ki je bistveno zmogljivejši, stroškovno učinkovitejši in preprostejši za uporabo. Novi model, text-embedding-ada-002, nadomešča pet ločenih modelov za iskanje po besedilu, podobnost besedila in iskanje po kodi ter prekaša naš prejšnji najzmogljivejši model Davinci pri večini nalog, medtem ko je njegova cena 99.8 % nižja.

Preberite dokumentacijo

Vdelave so numerične predstavitve konceptov, pretvorjene v številska zaporedja, ki računalnikom olajšajo razumevanje odnosov med temi koncepti. Odkar je začetni zagon OpenAI /vdelave končne točke so številne aplikacije vključile vdelave za prilagajanje, priporočanje in iskanje po vsebini.

Lahko povprašate po /vdelave končna točka za novi model z dvema vrsticama kode z uporabo našega Knjižnica OpenAI Python, tako kot bi lahko s prejšnjimi modeli:

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

Izboljšave modela

Močnejša zmogljivost. text-embedding-ada-002 prekaša vse stare modele vdelave pri iskanju po besedilu, iskanju po kodi in nalogah podobnosti stavkov ter dosega primerljivo zmogljivost pri klasifikaciji besedila. Za vsako kategorijo nalog ocenimo modele na naborih podatkov, ki so bili uporabljeni v stare vgradnje.





Poenotenje zmogljivosti. Bistveno smo poenostavili vmesnik /vdelave končno točko z združitvijo petih ločenih modelov, prikazanih zgoraj (text-similarity, text-search-query, text-search-doc, code-search-text in code-search-code) v en sam nov model. Ta posamezna predstavitev deluje bolje kot naši prejšnji modeli vdelave v raznolikem naboru iskanja po besedilu, podobnosti stavkov in meril uspešnosti iskanja kode.

Daljši kontekst. Dolžina konteksta novega modela je povečana za faktor štiri, z 2048 na 8192, zaradi česar je bolj priročno delo z dolgimi dokumenti.

Manjša velikost vgradnje. Nove vdelave imajo samo 1536 dimenzij, kar je ena osmina velikosti davinci-001 vdelave, zaradi česar so nove vdelave stroškovno učinkovitejše pri delu z vektorskimi zbirkami podatkov.

Znižana cena. Ceno novih vgradnih modelov smo znižali za 90% v primerjavi s starimi modeli iste velikosti. Novi model dosega boljše ali podobne zmogljivosti kot stari modeli Davinci po 99.8 % nižji ceni.

Na splošno je novi model vdelave veliko močnejše orodje za obdelavo naravnega jezika in kodne naloge. Navdušeni smo, da vidimo, kako ga bodo naše stranke uporabile za ustvarjanje še zmogljivejših aplikacij na svojih področjih.

Omejitve

Novi text-embedding-ada-002 model ni boljši text-similarity-davinci-001 na merilu uspešnosti klasifikacije linearnega sondiranja SentEval. Za naloge, ki zahtevajo usposabljanje lahkega linearnega sloja na vrhu vdelanih vektorjev za napovedovanje klasifikacije, predlagamo primerjavo novega modela z text-similarity-davinci-001 in izbira katerega koli modela zagotavlja optimalno delovanje.

Prijava Omejitve in tveganja razdelek v dokumentaciji o vdelavah za splošne omejitve naših modelov vdelave.

Primeri API-ja za vdelave v akciji

Koledar AI je izdelek za doseganje prodaje, ki uporablja vdelave za ujemanje prave prodajne predstavitve s pravimi strankami iz nabora podatkov, ki vsebuje 340 milijonov profilov. Ta avtomatizacija temelji na podobnosti med vdelavami profilov strank in prodajnimi predstavitvami za razvrščanje najprimernejših ujemanj, s čimer odpravi 40–56 % neželenega ciljanja v primerjavi s starim pristopom.

Pojem, spletno podjetje za delovne prostore, bo uporabilo nove vdelave OpenAI za izboljšanje iskanja Notion, ki presega današnje sisteme za ujemanje ključnih besed.


Preberite dokumentacijo

Časovni žig:

Več od OpenAI