Presentamos incrustaciones de texto y código en la API de OpenAI

Reeditado por Platón

seguidores: 0

Introducción de incrustaciones de texto y código en la API de OpenAI

Estamos introduciendo incrustaciones, un nuevo punto final en la API de OpenAI que facilita la realización de tareas de código y lenguaje natural como búsqueda semántica, agrupación, modelado de temas y clasificación. Las incrustaciones son representaciones numéricas de conceptos convertidos en secuencias numéricas, lo que facilita que las computadoras comprendan las relaciones entre esos conceptos. Nuestras incrustaciones superan a los mejores modelos en 3 puntos de referencia estándar, incluida una mejora relativa del 20 % en la búsqueda de código.

Leer documentación Leer papel

Las incrustaciones son útiles para trabajar con código y lenguaje natural, ya que pueden consumirse y compararse fácilmente con otros modelos y algoritmos de aprendizaje automático, como la agrupación en clústeres o la búsqueda.

Las incrustaciones que son numéricamente similares también lo son semánticamente. Por ejemplo, el vector de incrustación de "compañeros caninos dicen" será más similar al vector de incrustación de "guau" que al de "miau".

El nuevo punto final utiliza modelos de redes neuronales, que son descendientes de GPT-3, para asignar texto y código a una representación vectorial, "incrustarlos" en un espacio de alta dimensión. Cada dimensión captura algún aspecto de la entrada.

El nuevo /incrustaciones punto final en el API OpenAI proporciona incrustaciones de texto y código con unas pocas líneas de código:

import openai
response = openai.Embedding.create( input="canine companions say", engine="text-similarity-davinci-001")


print(response)
{ "data": [ { "embedding": [ 0.000108064, 0.005860855, -0.012656143, ... -0.006642727, 0.002583989, -0.012567150 ], "index": 0, "object": "embedding" } ], "model": "text-similarity-babbage:001", "object": "list"
}

Estamos lanzando tres familias de modelos integrados, cada uno ajustado para funcionar bien en diferentes funcionalidades: similitud de texto, búsqueda de texto y búsqueda de código. Los modelos toman texto o código como entrada y devuelven un vector de incrustación.

	fexibles	Casos de uso
Similitud de texto: captura la similitud semántica entre fragmentos de texto.	`similitud de texto-{ada, babbage, curie, davinci}-001`	Clustering, regresión, detección de anomalías, visualización
Búsqueda de texto: Recuperación de información semántica sobre documentos.	`búsqueda de texto-{ada, babbage, curie, davinci}-{consulta, doc}-001`	Búsqueda, relevancia del contexto, recuperación de información
Búsqueda de código: Encuentra código relevante con una consulta en lenguaje natural.	`código-búsqueda-{ada, babbage}-{código, texto}-001`	Búsqueda de código y relevancia

Modelos de similitud de texto

Los modelos de similitud de texto proporcionan incrustaciones que capturan la similitud semántica de los fragmentos de texto. Estos modelos son útiles para muchas tareas, incluyendo clustering, Visualización de datosy clasificación.

La siguiente visualización interactiva muestra incrustaciones de muestras de texto del conjunto de datos de DBpedia:

Arrastre para desplazarse, desplazarse o pellizcar para hacer zoom

incrustaciones de la text-similarity-babbage-001 modelo, aplicado a la DBpedia conjunto de datos Seleccionamos aleatoriamente 100 muestras del conjunto de datos que cubren 5 categorías y calculamos las incrustaciones a través de la /incrustaciones punto final Las diferentes categorías se muestran como 5 grupos claros en el espacio de incrustación. Para visualizar el espacio de incrustación, redujimos la dimensionalidad de incrustación de 2048 a 3 usando PCA. El código sobre cómo visualizar el espacio incrustado en la dimensión 3D está disponible esta página.

Para comparar la similitud de dos piezas de texto, simplemente use el producto de punto en las incrustaciones de texto. El resultado es una "puntuación de similitud", a veces llamada "similitud de coseno”, entre -1 y 1, donde un número más alto significa más similitud. En la mayoría de las aplicaciones, las incrustaciones se pueden precalcular y luego la comparación del producto escalar es extremadamente rápida de realizar.

import openai, numpy as np resp = openai.Embedding.create( input=["feline friends go", "meow"], engine="text-similarity-davinci-001") embedding_a = resp['data'][0]['embedding']
embedding_b = resp['data'][1]['embedding'] similarity_score = np.dot(embedding_a, embedding_b)

Un uso popular de las incrustaciones es usarlos como funciones en tareas de aprendizaje automático, como la clasificación. En la literatura de aprendizaje automático, cuando se utiliza un clasificador lineal, esta tarea de clasificación se denomina "sonda lineal". Nuestros modelos de similitud de texto logran nuevos resultados de vanguardia en la clasificación de sonda lineal en Evaluación enviada (Conneau y otros, 2018), un punto de referencia de uso común para evaluar la calidad de incrustación.

Clasificación de sonda lineal en 7 conjuntos de datos

SOTA anterior (Gao et al. 2021)

90.2%

texto-similitud-davinci-001

92.2%

Modelos de búsqueda de texto

Los modelos de búsqueda de texto proporcionan incrustaciones que permiten tareas de búsqueda a gran escala, como encontrar un documento relevante entre una colección de documentos dada una consulta de texto. La incrustación de los documentos y la consulta se produce por separado, y luego se usa la similitud del coseno para comparar la similitud entre la consulta y cada documento.

La búsqueda basada en incrustaciones puede generalizar mejor que las técnicas de superposición de palabras utilizadas en la búsqueda clásica de palabras clave, porque captura el significado semántico del texto y es menos sensible a frases o palabras exactas. Evaluamos el rendimiento del modelo de búsqueda de texto en el BEIR (Thakur, et al. 2021) suite de evaluación de búsqueda y obtener un mejor rendimiento de búsqueda que los métodos anteriores. Nuestro guía de búsqueda de texto proporciona más detalles sobre el uso de incrustaciones para tareas de búsqueda.

Precisión promedio en 11 tareas de búsqueda en BEIR

SOTA anterior (Izacard, et al. 2021)

50.2%

texto-búsqueda-davinci-{doc, consulta}-001

52.8%

Modelos de búsqueda de código

Los modelos de búsqueda de código proporcionan incrustaciones de código y texto para tareas de búsqueda de código. Dada una colección de bloques de código, la tarea es encontrar el bloque de código relevante para una consulta en lenguaje natural. Evaluamos los modelos de búsqueda de código en el CódigoBuscarNet (Husian et al., 2019) suite de evaluación donde nuestras incrustaciones logran resultados significativamente mejores que los métodos anteriores. Revisar la guía de búsqueda de código para usar incrustaciones para la búsqueda de código.

Precisión promedio en 6 lenguajes de programación

SOTA anterior (Guo, et al. 2021)

77.4%

código-búsqueda-babbage-{doc, consulta}-001

93.5%

Ejemplos de la API de incrustaciones en acción

Investigación de JetBrains

Investigación de JetBrains Laboratorio de Física de Astropartículas analiza datos como El telegrama del astrónomo y de la NASA Circulares GCN, que son informes que contienen eventos astronómicos que los algoritmos tradicionales no pueden analizar.

Impulsado por las incrustaciones de OpenAI de estos informes astronómicos, los investigadores ahora pueden buscar eventos como "estallidos de púlsares de cangrejo" en múltiples bases de datos y publicaciones. Las incrustaciones también lograron una precisión del 99.85 % en la clasificación de fuentes de datos a través de la agrupación en clústeres k-means.

Aprendizaje FineTune

Aprendizaje FineTune es una empresa que crea soluciones híbridas de inteligencia artificial humana para el aprendizaje, como bucles de aprendizaje adaptativo que ayudan a los estudiantes a alcanzar los estándares académicos.

Las incrustaciones de OpenAI mejoraron significativamente la tarea de encontrar contenido de libros de texto en función de los objetivos de aprendizaje. Con una precisión del 5 % entre los 89.1 primeros, el modelo de incrustaciones de curie de búsqueda de texto de OpenAI superó a enfoques anteriores como Sentence-BERT (64.5 %). Si bien los expertos humanos son aún mejores, el equipo de FineTune ahora puede etiquetar libros de texto completos en cuestión de segundos, en contraste con las horas que les tomó a los expertos.

Comparación de nuestras incrustaciones con Sentence-BERT, búsqueda GPT-3 y expertos en la materia humana para hacer coincidir el contenido de los libros de texto con los objetivos aprendidos. informamos precision@k, el número de veces que la respuesta correcta se encuentra dentro de las predicciones top-k.

Fabius

Fabius ayuda a las empresas a convertir las conversaciones de los clientes en conocimientos estructurados que informan la planificación y la priorización. Las incrustaciones de OpenAI permiten a las empresas encontrar y etiquetar más fácilmente las transcripciones de llamadas de los clientes con solicitudes de funciones.

Por ejemplo, los clientes pueden usar palabras como "automatizado" o "fácil de usar" para solicitar una mejor plataforma de autoservicio. Anteriormente, Fabius utilizaba la búsqueda de palabras clave aproximadas para intentar etiquetar esas transcripciones con la etiqueta de la plataforma de autoservicio. Con las incrustaciones de OpenAI, ahora pueden encontrar 2 veces más ejemplos en general y 6 a 10 veces más ejemplos de características con casos de uso abstractos que no tienen una palabra clave clara que los clientes podrían usar.

Todos los clientes de API pueden comenzar con el documentación de incrustaciones por utilizar incrustaciones en sus aplicaciones.

Leer documentación

.vector-diagrama img { pantalla: ninguno;
}
.diagrama vectorial img:primer hijo { mostrar: bloque;
}