Uusi ja parannettu upotusmalli PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Uusi ja parannettu upotusmalli

Olemme iloisia voidessamme julkistaa uuden upotusmallin, joka on huomattavasti tehokkaampi, kustannustehokkaampi ja helpompi käyttää. Uusi malli, text-embedding-ada-002, korvaa viisi erillistä mallia tekstihakua, tekstin samankaltaisuutta ja koodihakua varten ja ylittää edellisen tehokkaimman mallimme Davincin useimmissa tehtävissä, mutta hinta on 99.8 % alhaisempi.

Lue dokumentaatio

Upotukset ovat käsitteiden numeerisia esityksiä, jotka on muunnettu numerosarjoiksi, mikä tekee tietokoneiden helpoksi ymmärtää näiden käsitteiden väliset suhteet. Koska ensimmäinen laukaisu OpenAI:sta / upotukset päätepisteen, monet sovellukset ovat sisällyttäneet upotuksia sisällön personoimiseksi, suosittelemiseksi ja hakemiseksi.

Voit tiedustella / upotukset päätepiste uudelle mallille kahdella koodirivillä käyttämällä meidän OpenAI Python-kirjasto, aivan kuten aiemmissa malleissa:

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

Mallin parannukset

Vahvempi suorituskyky. text-embedding-ada-002 ylittää kaikki vanhat upotusmallit tekstihaussa, koodihaussa ja lauseiden samankaltaisuustehtävissä ja saa vastaavan suorituskyvyn tekstin luokittelussa. Arvioimme jokaisessa tehtäväkategoriassa käytetyt tietojoukot mallit vanhat upotukset.





Valmiuksien yhdistäminen. Olemme yksinkertaistaneet käyttöliittymää merkittävästi / upotukset päätepiste yhdistämällä yllä näkyvät viisi erillistä mallia (text-similarity, text-search-query, text-search-doc, code-search-text ja code-search-code) yhdeksi uudeksi malliksi. Tämä yksittäinen esitys toimii paremmin kuin aiemmat upotusmallimme erilaisissa tekstihaun, lauseiden samankaltaisuuden ja koodihaun vertailuarvoissa.

Pidempi konteksti. Uuden mallin kontekstipituus on kasvanut nelinkertaiseksi, 2048:sta 8192:een, mikä tekee pitkien asiakirjojen käsittelystä mukavampaa.

Pienempi upotuskoko. Uusilla upotuksilla on vain 1536 mitat, kahdeksasosa koosta davinci-001 upotukset, mikä tekee uusista upotuksista kustannustehokkaampaa työskennellä vektoritietokantojen kanssa.

Alennettu hinta. Olemme alentaneet uusien upotusmallien hintoja 90 % verrattuna samankokoisiin vanhoihin malleihin. Uusi malli saavuttaa paremman tai vastaavan suorituskyvyn kuin vanhat Davinci-mallit 99.8 % halvemmalla.

Kaiken kaikkiaan uusi upotusmalli on paljon tehokkaampi työkalu luonnollisen kielen käsittelyyn ja kooditehtäviin. Olemme innoissamme nähdessämme, kuinka asiakkaamme käyttävät sitä luodakseen entistä tehokkaampia sovelluksia omilla aloillaan.

Rajoitukset

Uusi text-embedding-ada-002 malli ei ole parempi text-similarity-davinci-001 SentEvalin lineaarisen luokituksen luokituksen vertailuarvolla. Tehtävissä, jotka vaativat kevyen lineaarisen kerroksen kouluttamista upotusvektoreiden päälle luokittelun ennustamista varten, suosittelemme uuden mallin vertaamista text-similarity-davinci-001 ja valitse mikä malli tarjoaa optimaalisen suorituskyvyn.

Tarkista Rajoitukset ja riskit osio upotusdokumentaatiossa, jossa kerrotaan upotusmalliemme yleisistä rajoituksista.

Esimerkkejä Embeddings API:sta toiminnassa

Kalenteri AI on myynnin tavoittamistuote, joka käyttää upotuksia oikean myyntipuheen yhdistämiseksi oikeille asiakkaille 340 miljoonaa profiilia sisältävästä tietojoukosta. Tämä automaatio perustuu asiakasprofiilien ja myyntipuheiden samankaltaisuuteen sopivimpien osumien luokittelussa, mikä eliminoi 40–56 % ei-toivotusta kohdistuksesta verrattuna heidän vanhaan lähestymistapaansa.

Käsite, online-työtilayritys, käyttää OpenAI:n uusia upotuksia parantaakseen käsitehakua nykypäivän avainsanahakujärjestelmien lisäksi.


Lue dokumentaatio

Aikaleima:

Lisää aiheesta OpenAI