Nowy i ulepszony model osadzania PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Nowy i ulepszony model osadzania

Z radością ogłaszamy nowy model osadzania, który jest znacznie bardziej wydajny, ekonomiczny i prostszy w użyciu. Nowy model, text-embedding-ada-002, zastępuje pięć oddzielnych modeli wyszukiwania tekstu, wyszukiwania podobieństwa tekstu i wyszukiwania kodu, a także przewyższa nasz poprzedni najbardziej wydajny model, Davinci, w większości zadań, a jego cena jest o 99.8% niższa.

Przeczytaj dokumentację

Osadzenia to numeryczne reprezentacje pojęć przekonwertowane na sekwencje liczb, które ułatwiają komputerom zrozumienie relacji między tymi pojęciami. od pierwsze uruchomienie z OpenAI /osadzania punktu końcowego, wiele aplikacji zawiera osadzanie w celu personalizacji, polecania i wyszukiwania treści.

Możesz zapytać o /osadzania punkt końcowy dla nowego modelu z dwoma wierszami kodu przy użyciu naszego Biblioteka Pythona OpenAI, tak jak w przypadku poprzednich modeli:

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

Ulepszenia modelu

Większa wydajność. text-embedding-ada-002 przewyższa wszystkie stare modele osadzania w zadaniach wyszukiwania tekstu, wyszukiwania kodu i podobieństwa zdań i uzyskuje porównywalną wydajność w klasyfikacji tekstu. Dla każdej kategorii zadań oceniamy modele na zestawach danych używanych w stare osady.





Ujednolicenie możliwości. Znacząco uprościliśmy interfejs programu /osadzania punkt końcowy poprzez połączenie pięciu oddzielnych modeli pokazanych powyżej (text-similarity, text-search-query, text-search-doc, code-search-text i code-search-code) w jeden nowy model. Ta pojedyncza reprezentacja działa lepiej niż nasze poprzednie modele osadzania w zróżnicowanym zestawie testów wyszukiwania tekstu, podobieństwa zdań i wyszukiwania kodu.

Dłuższy kontekst. Długość kontekstu nowego modelu została zwiększona czterokrotnie, z 2048 do 8192, dzięki czemu praca z długimi dokumentami jest wygodniejsza.

Mniejszy rozmiar osadzania. Nowe osady mają tylko 1536 wymiarów, jedną ósmą rozmiaru davinci-001 osadzania, dzięki czemu nowe osadzania są bardziej ekonomiczne w pracy z wektorowymi bazami danych.

Obniżona cena. Obniżyliśmy cenę nowych modeli do osadzania o 90% w porównaniu do starych modeli w tym samym rozmiarze. Nowy model osiąga lepsze lub podobne osiągi jak stare modele Davinci w cenie niższej o 99.8%.

Ogólnie rzecz biorąc, nowy model osadzania jest znacznie potężniejszym narzędziem do przetwarzania języka naturalnego i wykonywania zadań związanych z kodem. Nie możemy się doczekać, aby zobaczyć, jak nasi klienci wykorzystają ją do tworzenia jeszcze bardziej wydajnych aplikacji w swoich dziedzinach.

Ograniczenia

Nowa text-embedding-ada-002 model nie wyróżnia się text-similarity-davinci-001 w benchmarku klasyfikacji sondy liniowej SentEval. W przypadku zadań, które wymagają trenowania lekkiej warstwy liniowej na podstawie wektorów osadzania w celu przewidywania klasyfikacji, sugerujemy porównanie nowego modelu z text-similarity-davinci-001 i wybór dowolnego modelu, który zapewnia optymalną wydajność.

Sprawdź Ograniczenia i zagrożenia w dokumentacji osadzania, aby zapoznać się z ogólnymi ograniczeniami naszych modeli osadzania.

Przykłady API Embeddings w działaniu

Kalendar AI to produkt do obsługi sprzedaży, który wykorzystuje osadzanie, aby dopasować właściwą ofertę sprzedaży do odpowiednich klientów z zestawu danych zawierającego 340 milionów profili. Ta automatyzacja opiera się na podobieństwie między osadzonymi profilami klientów i ofertami sprzedaży w celu uszeregowania najbardziej odpowiednich dopasowań, eliminując 40–56% niechcianego kierowania w porównaniu ze starym podejściem.

Pojęcie, firma zajmująca się internetowymi obszarami roboczymi, użyje nowych osadzeń OpenAI, aby ulepszyć wyszukiwanie Notion poza dzisiejszymi systemami dopasowywania słów kluczowych.


Przeczytaj dokumentację

Znak czasu:

Więcej z OpenAI