Nieuw en verbeterd inbeddingsmodel PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Nieuw en verbeterd inbeddingsmodel

We zijn verheugd om een ​​nieuw inbeddingsmodel aan te kondigen dat aanzienlijk capabeler, kosteneffectiever en eenvoudiger in gebruik is. het nieuwe model, text-embedding-ada-002, vervangt vijf afzonderlijke modellen voor tekstzoeken, tekstgelijkenis en codezoeken, en presteert bij de meeste taken beter dan ons vorige meest capabele model, Davinci, terwijl het 99.8% lager geprijsd is.

Lees documentatie

Inbeddingen zijn numerieke weergaven van concepten die zijn omgezet in nummerreeksen, waardoor computers de relaties tussen die concepten gemakkelijk kunnen begrijpen. Sinds de eerste lancering van de OpenAI /inbeddingen eindpunt hebben veel toepassingen ingebouwde insluitingen om inhoud te personaliseren, aan te bevelen en te doorzoeken.

U kunt de /inbeddingen eindpunt voor het nieuwe model met twee regels code met behulp van our OpenAI Python-bibliotheek, net zoals je kon met eerdere modellen:

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

Modelverbeteringen

Sterkere prestaties. text-embedding-ada-002 presteert beter dan alle oude inbeddingsmodellen op het gebied van tekstzoeken, codezoeken en zinsgelijkenistaken en behaalt vergelijkbare prestaties op het gebied van tekstclassificatie. Voor elke taakcategorie evalueren we de modellen op de gebruikte datasets oude inbeddingen.





Eenmaking van capaciteiten. We hebben de interface van de /inbeddingen eindpunt door de vijf hierboven getoonde afzonderlijke modellen samen te voegen (text-similarity, text-search-query, text-search-doc, code-search-text en code-search-code) in één nieuw model. Deze enkele representatie presteert beter dan onze eerdere inbeddingsmodellen in een diverse reeks benchmarks voor tekstzoekopdrachten, zinsovereenkomsten en codezoekopdrachten.

Langere context. De contextlengte van het nieuwe model is met een factor vier vergroot, van 2048 naar 8192, waardoor het handiger wordt om met lange documenten te werken.

Kleinere inbeddingsgrootte. De nieuwe inbeddingen hebben slechts 1536 dimensies, een achtste van de grootte van davinci-001 inbeddingen, waardoor de nieuwe inbeddingen kosteneffectiever zijn in het werken met vectordatabases.

Korting. We hebben de prijs van nieuwe inbouwmodellen met 90% verlaagd in vergelijking met oude modellen van dezelfde grootte. Het nieuwe model levert betere of vergelijkbare prestaties als de oude Davinci-modellen tegen een 99.8% lagere prijs.

Over het algemeen is het nieuwe inbeddingsmodel een veel krachtiger hulpmiddel voor natuurlijke taalverwerking en codetaken. We zijn verheugd om te zien hoe onze klanten het zullen gebruiken om nog meer capabele toepassingen in hun respectievelijke vakgebieden te creëren.

Beperkingen

De nieuwe text-embedding-ada-002 model presteert niet beter text-similarity-davinci-001 op de SentEval lineaire meetclassificatiebenchmark. Voor taken waarbij een lichtgewicht lineaire laag bovenop inbeddingsvectoren moet worden getraind voor classificatievoorspelling, raden we aan het nieuwe model te vergelijken met text-similarity-davinci-001 en het kiezen van welk model dan ook optimale prestaties geeft.

Controleer de Beperkingen & risico's sectie in de inbeddingsdocumentatie voor algemene beperkingen van onze inbeddingsmodellen.

Voorbeelden van Embeddings API in actie

Kalender AI is een sales outreach-product dat inbeddingen gebruikt om het juiste verkooppraatje aan de juiste klanten te koppelen uit een dataset met 340 miljoen profielen. Deze automatisering is afhankelijk van overeenkomsten tussen de inbedding van klantprofielen en verkooppraatjes om de meest geschikte overeenkomsten te rangschikken, waardoor 40-56% van de ongewenste targeting wordt geëlimineerd in vergelijking met hun oude aanpak.

notie, het online werkruimtebedrijf, zal de nieuwe inbeddingen van OpenAI gebruiken om de zoekfunctie van Notion verder te verbeteren dan de huidige systemen voor het matchen van zoekwoorden.


Lees documentatie

Tijdstempel:

Meer van OpenAI