Teksti ja koodi manustamise tutvustamine OpenAI API-s

Taasavaldanud Platon

järgijaid: 0

Teksti ja koodi manustamise tutvustamine OpenAI API-s

Tutvustame manustamist, OpenAI API uut lõpp-punkti, mis muudab loomuliku keele ja koodiülesannete (nt semantiline otsing, rühmitamine, teemade modelleerimine ja klassifitseerimine) täitmise lihtsaks. Manustused on mõistete arvulised esitused, mis on teisendatud numbrijadadeks, mis hõlbustavad arvutitel nende mõistete vaheliste seoste mõistmist. Meie manused ületavad tippmudeleid kolme standardse võrdlusaluse osas, sealhulgas 3% suhteline paranemine koodiotsingus.

Lugege dokumentatsiooni Lugege paberit

Manustused on kasulikud loomuliku keele ja koodiga töötamiseks, kuna neid saab hõlpsasti tarbida ja võrrelda teiste masinõppemudelite ja algoritmidega, nagu rühmitamine või otsing.

Manustused, mis on arvuliselt sarnased, on ka semantiliselt sarnased. Näiteks on sõna "koerte kaaslased ütlevad" manustamisvektor sarnasem sõna "woof" manustamisvektoriga kui "mjäu".

Uus lõpp-punkt kasutab närvivõrgu mudeleid, mis on GPT-3 järeltulijad, et vastendada tekst ja kood vektoresitluseks - "kinnitada" need suuremõõtmelisse ruumi. Iga mõõde kajastab sisendi mõnda aspekti.

Uus /manused lõpp-punktis OpenAI API pakub teksti ja koodi manuseid koos mõne koodireaga:

import openai
response = openai.Embedding.create( input="canine companions say", engine="text-similarity-davinci-001")


print(response)
{ "data": [ { "embedding": [ 0.000108064, 0.005860855, -0.012656143, ... -0.006642727, 0.002583989, -0.012567150 ], "index": 0, "object": "embedding" } ], "model": "text-similarity-babbage:001", "object": "list"
}

Anname välja kolm manustamismudelite perekonda, millest igaüks on häälestatud toimima hästi erinevate funktsioonide puhul: teksti sarnasus, tekstiotsing ja koodiotsing. Mudelid võtavad sisendiks teksti või koodi ja tagastavad manustusvektori.

	Mudelid	Kasutage kohtuasju
Teksti sarnasus: tabab tekstiosade semantilise sarnasuse.	`text-sarnasus-{ada, babbage, curie, davinci}-001`	Klasterdamine, regressioon, anomaaliate tuvastamine, visualiseerimine
Tekstiotsing: Semantilise teabe otsimine dokumentidest.	`text-search-{ada, babbage, curie, davinci}-{query, doc}-001`	Otsing, konteksti asjakohasus, teabe hankimine
Koodiotsing: otsige asjakohast koodi päringuga loomulikus keeles.	`koodiotsing-{ada, babbage}-{kood, tekst}-001`	Koodiotsing ja asjakohasus

Teksti sarnasuse mudelid

Teksti sarnasuse mudelid pakuvad manuseid, mis fikseerivad tekstiosade semantilise sarnasuse. Need mudelid on kasulikud paljude ülesannete, sealhulgas Klastrite loomine, andmete visualiseerimineja klassifikatsioon.

Järgmine interaktiivne visualiseerimine näitab DBpedia andmestiku tekstinäidiste manuseid:

Lohistage panoraamimiseks, kerige või näpistage suumimiseks

Manused alates text-similarity-babbage-001 mudelile rakendatud DBpedia andmestik. Valisime 100 kategooriat hõlmavast andmestikust juhuslikult 5 näidist ja arvutasime manustused /manused lõpp-punkt. Erinevad kategooriad kuvatakse manustamisruumis viie selge klastrina. Manusruumi visualiseerimiseks vähendasime manustamise mõõtmeid 5-lt 2048-le PKL. Kood ruumi manustamise 3D-mõõtmes visualiseerimiseks on saadaval siin.

Kahe tekstiosa sarnasuse võrdlemiseks kasutage lihtsalt punktitoode teksti manustamisel. Tulemuseks on "sarnasusskoor", mida mõnikord nimetatakse "koosinuse sarnasus”, vahemikus –1 kuni 1, kus suurem arv tähendab suuremat sarnasust. Enamikus rakendustes saab manuseid eelnevalt välja arvutada ja seejärel on punkttoodete võrdlus väga kiire.

import openai, numpy as np resp = openai.Embedding.create( input=["feline friends go", "meow"], engine="text-similarity-davinci-001") embedding_a = resp['data'][0]['embedding']
embedding_b = resp['data'][1]['embedding'] similarity_score = np.dot(embedding_a, embedding_b)

Üks populaarne manustamisviis on kasutada neid masinõppeülesannete funktsioonidena, näiteks klassifitseerimisel. Masinõppekirjanduses nimetatakse seda klassifitseerimisülesannet lineaarse klassifikaatori kasutamisel "lineaarseks sondiks". Meie tekstisarnasuse mudelid saavutavad uusi tipptasemel tulemusi lineaarse sondi klassifitseerimisel SentEval (Conneau jt, 2018), sageli kasutatav võrdlusalus manustamise kvaliteedi hindamiseks.

Lineaarne sondi klassifikatsioon üle 7 andmekogumi

Eelmine SOTA (Gao et al. 2021. aasta)

90.2%

text-sarnasus-davinci-001

92.2%

Näita rohkem

Tekstiotsingu mudelid

Tekstiotsingu mudelid pakuvad manuseid, mis võimaldavad suuremahulisi otsinguülesandeid, nagu tekstipäringuga dokumentide hulgast asjakohase dokumendi leidmine. Dokumentide ja päringu manustamine luuakse eraldi ning päringu ja iga dokumendi sarnasuse võrdlemiseks kasutatakse koosinussarnasust.

Manuspõhine otsing võib üldistada paremini kui klassikalises märksõnaotsingus kasutatavad sõnade kattumise tehnikad, kuna see tabab teksti semantilist tähendust ja on vähem tundlik täpsete fraaside või sõnade suhtes. Hindame tekstiotsingu mudeli toimivust BEIR (Thakur et al. 2021. aasta) otsige hindamiskomplekti ja saavutage varasematest meetoditest paremad otsingutulemused. Meie tekstiotsingu juhend pakub rohkem üksikasju otsinguülesannete manustamise kasutamise kohta.

Keskmine täpsus üle 11 otsinguülesande BEIRis

Eelmine SOTA (Izacard et al. 2021. aasta)

50.2%

text-search-davinci-{doc, query}-001

52.8%

Näita rohkem

Koodiotsingu mudelid

Koodiotsingu mudelid pakuvad koodiotsingu ülesannete jaoks koodi ja teksti manustamist. Arvestades koodiplokkide kogumit, on ülesandeks leida loomuliku keele päringu jaoks asjakohane koodiplokk. Hindame koodiotsingu mudeleid CodeSearchNet (Husian jt, 2019) hindamiskomplekt, kus meie manused saavutavad oluliselt paremaid tulemusi kui varasemad meetodid. Tutvuge koodiotsingu juhend kasutada koodiotsinguks manuseid.

Keskmine täpsus üle 6 programmeerimiskeele

Eelmine SOTA (Guo et al. 2021. aasta)

77.4%

code-search-babbage-{doc, query}-001

93.5%

Näita rohkem

Näited Embeddings API kohta töös

JetBrainsi uurimine

JetBrains Research's Astroparticle Physics Lab analüüsib andmeid nagu Astronoomi telegramm ja NASA omad GCN ringkirjad, mis on aruanded, mis sisaldavad astronoomilisi sündmusi, mida traditsioonilised algoritmid ei saa sõeluda.

Nende astronoomiliste aruannete OpenAI manustatud toel saavad teadlased nüüd otsida selliseid sündmusi nagu "krabipulsari pursked" mitmest andmebaasist ja väljaandest. Manustused saavutasid ka 99.85% täpsuse andmeallika klassifitseerimisel k-keskmiste klastrite abil.

FineTune Learning

FineTune Learning on ettevõte, mis loob õppimiseks hübriidseid inim-AI lahendusi, nagu adaptiivsed õppetsüklid mis aitavad õpilastel saavutada akadeemilisi standardeid.

OpenAI manustused parandasid oluliselt õpikute sisu leidmise ülesannet õpieesmärkide alusel. OpenAI tekstiotsingu-curie manustamismudel saavutas viie parima täpsusega 5%, ületas varasemaid lähenemisviise, nagu lause-BERT (89.1%). Kuigi inimeksperdid on endiselt paremad, suudab FineTune'i meeskond nüüd tervetele õpikutele sildistada mõne sekundiga, erinevalt ekspertidel kulunud tundidest.

Meie manuste võrdlus lausega BERT, GPT-3 otsing ja inimainete eksperte õpiku sisu sobitamiseks õpitud eesmärkidega. Anname aru täpsus@k, mitu korda on õige vastus top-k ennustuste piires.

Fabius

Fabius aitab ettevõtetel muuta kliendivestlused struktureeritud arusaamadeks, mis annavad teavet planeerimise ja prioriteetide seadmise kohta. OpenAI manustused võimaldavad ettevõtetel hõlpsamini leida ja märgistada klientide kõnede ärakirju funktsioonitaotlustega.

Näiteks võivad kliendid parema iseteenindusplatvormi taotlemiseks kasutada sõnu nagu "automaatne" või "lihtne kasutada". Varem kasutas Fabius ähmast märksõnaotsingut, et püüda neid ärakirju iseteenindusplatvormi sildiga märgistada. OpenAI manustega saavad nad nüüd leida 2x rohkem näiteid üldiselt ja 6x–10x rohkem näiteid abstraktsete kasutusjuhtudega funktsioonide kohta, millel puudub selge märksõna, mida kliendid võiksid kasutada.

Kõik API kliendid saavad rakendusega alustada manustamise dokumentatsioon manustamist oma rakendustes.

Lugege dokumentatsiooni

.vector-diagram img { kuva: puudub;
}
.vector-diagram img:first-child { kuva: plokk;
}