Búsqueda de imágenes semánticas para artículos utilizando Amazon Rekognition, modelos de Amazon SageMaker Foundation y Amazon OpenSearch Service

Reeditado por Platón

seguidores: 0

Los editores digitales buscan continuamente formas de optimizar y automatizar sus flujos de trabajo de medios para generar y publicar contenido nuevo lo más rápido posible.

Los editores pueden tener repositorios que contengan millones de imágenes y, para ahorrar dinero, deben poder reutilizar estas imágenes en todos los artículos. Encontrar la imagen que mejor coincida con un artículo en repositorios de esta escala puede ser una tarea manual, repetitiva y que requiere mucho tiempo y que puede automatizarse. También depende de que las imágenes en el repositorio estén etiquetadas correctamente, lo que también se puede automatizar (para ver una historia de éxito de un cliente, consulte Aller Media encuentra el éxito con KeyCore y AWS).

En esta publicación, demostramos cómo usar Reconocimiento de amazonas, JumpStart de Amazon SageMakery Servicio Amazon OpenSearch para resolver este problema empresarial. Amazon Rekognition facilita agregar capacidad de análisis de imágenes a sus aplicaciones sin necesidad de experiencia en aprendizaje automático (ML) y viene con varias API para cumplir con casos de uso como detección de objetos, moderación de contenido, detección y análisis de rostros, y reconocimiento de texto y celebridades, que utilizamos en este ejemplo. SageMaker JumpStart es un servicio de código bajo que viene con soluciones prediseñadas, cuadernos de ejemplo y muchos modelos previamente entrenados de última generación de fuentes disponibles públicamente que son fáciles de implementar con un solo clic en su cuenta de AWS. . Estos modelos se han empaquetado para que se puedan implementar de forma segura y sencilla a través de Amazon SageMaker API. El nuevo SageMaker JumpStart Foundation Hub le permite implementar fácilmente modelos de lenguajes grandes (LLM) e integrarlos con sus aplicaciones. OpenSearch Service es un servicio totalmente administrado que simplifica la implementación, escala y operación de OpenSearch. OpenSearch Service le permite almacenar vectores y otros tipos de datos en un índice, y ofrece una rica funcionalidad que le permite buscar documentos utilizando vectores y midiendo la relación semántica, que utilizamos en esta publicación.

El objetivo final de esta publicación es mostrar cómo podemos mostrar un conjunto de imágenes que sean semánticamente similares a algún texto, ya sea un artículo o una sinopsis de televisión.

La siguiente captura de pantalla muestra un ejemplo de cómo tomar un mini artículo como entrada de búsqueda, en lugar de usar palabras clave, y poder mostrar imágenes semánticamente similares.

Resumen de la solución

La solución se divide en dos secciones principales. Primero, extrae los metadatos de etiquetas y celebridades de las imágenes mediante Amazon Rekognition. Luego genera una incrustación de los metadatos utilizando un LLM. Almacena los nombres de las celebridades y la incorporación de metadatos en el servicio OpenSearch. En la segunda sección principal, tiene una API para consultar el índice de su servicio OpenSearch en busca de imágenes utilizando las capacidades de búsqueda inteligente de OpenSearch para encontrar imágenes que sean semánticamente similares a su texto.

Esta solución utiliza nuestros servicios basados en eventos. Puente de eventos de Amazon, Funciones de paso de AWSy AWS Lambda para orquestar el proceso de extracción de metadatos de las imágenes mediante Amazon Rekognition. Amazon Rekognition realizará dos llamadas API para extraer etiquetas y celebridades conocidas de la imagen.

API de detección de celebridades de Amazon Rekognition, devuelve una serie de elementos en la respuesta. Para esta publicación, utiliza lo siguiente:

Nombre, ID y URL – El nombre de la celebridad, un ID único de Amazon Rekognition y una lista de URL, como el enlace IMDb o Wikipedia de la celebridad para obtener más información.
Igualar la confianza – Una puntuación de confianza de coincidencia que se puede utilizar para controlar el comportamiento de la API. Recomendamos aplicar un umbral adecuado a esta puntuación en su aplicación para elegir su punto de funcionamiento preferido. Por ejemplo, al establecer un umbral del 99%, puede eliminar más falsos positivos, pero es posible que se pierdan algunas coincidencias potenciales.

En su segunda llamada API, API de detección de etiquetas de Amazon Rekognition, devuelve una serie de elementos en la respuesta. Usas lo siguiente:

Nombre – El nombre de la etiqueta detectada.
Confianza – El nivel de confianza en la etiqueta asignada a un objeto detectado.

Un concepto clave en la búsqueda semántica son las incrustaciones. Una incrustación de palabras es una representación numérica de una palabra o grupo de palabras, en forma de vector. Cuando tienes muchos vectores, puedes medir la distancia entre ellos, y los vectores que están cerca en distancia son semánticamente similares. Por lo tanto, si genera una incrustación de todos los metadatos de sus imágenes y luego genera una incrustación de su texto, ya sea un artículo o una sinopsis de televisión, por ejemplo, utilizando el mismo modelo, podrá encontrar imágenes que sean semánticamente similares a su texto dado.

Hay muchos modelos disponibles en SageMaker JumpStart para generar incrustaciones. Para esta solución, utiliza la incrustación GPT-J 6B de Abrazando la cara. Produce incrustaciones de alta calidad y tiene una de las métricas de rendimiento más altas según Hugging Face. resultados de evaluación. lecho rocoso del amazonas Hay otra opción, aún en vista previa, donde puede elegir el modelo Amazon Titan Text Embeddings para generar las incrustaciones.

Utilice el modelo preentrenado GPT-J de SageMaker JumpStart para crear una incrustación de los metadatos de la imagen y almacenarla como un vector k-NN en el índice de su servicio OpenSearch, junto con el nombre de la celebridad en otro campo.

La segunda parte de la solución es devolver al usuario las 10 imágenes principales que sean semánticamente similares a su texto, ya sea un artículo o una sinopsis de televisión, incluidas las celebridades, si están presentes. Al elegir una imagen para acompañar un artículo, desea que la imagen resuene con los puntos pertinentes del artículo. SageMaker JumpStart alberga muchos modelos de resumen que pueden tomar un cuerpo de texto largo y reducirlo a los puntos principales del original. Para el modelo de resumen, se utiliza el Laboratorios AI21 Resumir modelo. Este modelo proporciona resúmenes de alta calidad de artículos de noticias y el texto fuente puede contener aproximadamente 10,000 palabras, lo que permite al usuario resumir todo el artículo de una sola vez.

Para detectar si el texto contiene nombres o celebridades potencialmente conocidas, utiliza Amazon Comprehend que puede extraer entidades clave de una cadena de texto. Luego filtra por la entidad Persona, que utiliza como parámetro de búsqueda de entrada.

Luego, toma el artículo resumido y genera una incrustación para usarla como otro parámetro de búsqueda de entrada. Es importante tener en cuenta que utiliza el mismo modelo implementado en la misma infraestructura para generar la incrustación del artículo que utilizó para las imágenes. Luego usas K-NN exacto con guión de puntuación para que puedas buscar por dos campos: nombres de celebridades y el vector que capturó la información semántica del artículo. Consulte esta publicación, Explicación de las capacidades de la base de datos vectorial de Amazon OpenSearch Service, sobre la escalabilidad del script Score y cómo este enfoque en índices grandes puede generar latencias altas.

Tutorial

El siguiente diagrama ilustra la arquitectura de la solución.

Siguiendo las etiquetas numeradas:

Subes una imagen a un Amazon S3 cubo
Puente de eventos de Amazon escucha este evento y luego activa un Función de paso de AWS ejecución
La función de paso toma la entrada de la imagen, extrae la etiqueta y los metadatos de las celebridades.
La AWS Lambda La función toma los metadatos de la imagen y genera una incrustación.
La lambda La función luego inserta el nombre de la celebridad (si está presente) y la incrustación como un vector k-NN en un índice del servicio OpenSearch.
Amazon S3 aloja un sitio web estático simple, atendido por un Amazon CloudFront distribución. La interfaz de usuario (UI) de front-end le permite autenticarse con la aplicación usando Cognito Amazonas para buscar imágenes
Envías un artículo o algún texto a través de la interfaz de usuario.
Otra lambda llamadas a funciones Amazon Comprehend para detectar cualquier nombre en el texto
Luego, la función resume el texto para obtener los puntos pertinentes del artículo.
La función genera una incrustación del artículo resumido.
La función luego busca Servicio de búsqueda abierta índice de imagen para cualquier imagen que coincida con el nombre de la celebridad y los k vecinos más cercanos del vector usando similitud coseno
Reloj en la nube de Amazon y Rayos X de AWS brindarle observabilidad del flujo de trabajo de principio a fin para alertarlo de cualquier problema.

Extraiga y almacene metadatos de imágenes clave

Las API DetectLabels y RecognizeCelebrities de Amazon Rekognition le brindan los metadatos de sus imágenes: etiquetas de texto que puede usar para formar una oración a partir de la cual generar una incrustación. El artículo le brinda una entrada de texto que puede usar para generar una incrustación.

Generar y almacenar incrustaciones de palabras

La siguiente figura muestra cómo trazar los vectores de nuestras imágenes en un espacio bidimensional, donde, como ayuda visual, hemos clasificado las incrustaciones por su categoría principal.

También genera una incrustación de este artículo recién escrito, de modo que pueda buscar en OpenSearch Service las imágenes más cercanas al artículo en este espacio vectorial. Utilizando el algoritmo de k vecinos más cercanos (k-NN), usted define cuántas imágenes devolver en sus resultados.

Ampliando la figura anterior, los vectores se clasifican según su distancia desde el artículo y luego devuelven las K imágenes más cercanas, donde K es 10 en este ejemplo.

OpenSearch Service ofrece la capacidad de almacenar vectores grandes en un índice y también ofrece la funcionalidad de ejecutar consultas en el índice usando k-NN, de modo que puede consultar con un vector para devolver los k documentos más cercanos que tienen vectores a corta distancia. utilizando varias medidas. Para este ejemplo, utilizamos similitud de coseno.

Detectar nombres en el artículo.

Utilice Amazon Comprehend, un servicio de procesamiento de lenguaje natural (NLP) de IA, para extraer entidades clave del artículo. En este ejemplo, utiliza Amazon Comprehend para extraer entidades y filtrar por la entidad Persona, que devuelve cualquier nombre que Amazon Comprehend pueda encontrar en la historia del periodista, con solo unas pocas líneas de código:

def get_celebrities(payload): response = comprehend_client.detect_entities( Text=' '.join(payload["text_inputs"]), LanguageCode="en", ) celebrities = "" for entity in response["Entities"]: if entity["Type"] == "PERSON": celebrities += entity["Text"] + " " return celebrities

En este ejemplo, carga una imagen en Servicio de almacenamiento simple de Amazon (Amazon S3), que desencadena un flujo de trabajo en el que se extraen metadatos de la imagen, incluidas las etiquetas y las celebridades. Luego, transforma los metadatos extraídos en una incrustación y almacena todos estos datos en OpenSearch Service.

Resumir el artículo y generar una incrustación.

Resumir el artículo es un paso importante para asegurarse de que la palabra incrustación capture los puntos pertinentes del artículo y, por lo tanto, devuelva imágenes que resuenan con el tema del artículo.

El modelo AI21 Labs Summarize es muy simple de usar sin ningún aviso y solo unas pocas líneas de código:

def summarise_article(payload): sagemaker_endpoint_summarise = os.environ["SAGEMAKER_ENDPOINT_SUMMARIZE"] response = ai21.Summarize.execute( source=payload, sourceType="TEXT", destination=ai21.SageMakerDestination(sagemaker_endpoint_summarise) ) response_summary = response.summary return response_summary

Luego usa el modelo GPT-J para generar la incrustación.

def get_vector(payload_summary): sagemaker_endpoint = os.environ["SAGEMAKER_ENDPOINT_VECTOR"] response = sm_runtime_client.invoke_endpoint( EndpointName=sagemaker_endpoint, ContentType="application/json", Body=json.dumps(payload_summary).encode("utf-8"), ) response_body = json.loads((response["Body"].read())) return response_body["embedding"][0]

Luego busca en el servicio OpenSearch sus imágenes.

El siguiente es un fragmento de ejemplo de esa consulta:

def search_document_celeb_context(person_names, vector): results = wr.opensearch.search( client=os_client, index="images", search_body={ "size": 10, "query": { "script_score": { "query": { "match": {"celebrities": person_names } }, "script": { "lang": "knn", "source": "knn_score", "params": { "field": "image_vector", "query_value": vector, "space_type": "cosinesimil" } } } } }, ) return results.drop(columns=["image_vector"]).to_dict()

La arquitectura contiene una aplicación web simple para representar un sistema de gestión de contenidos (CMS).

Para un artículo de ejemplo, utilizamos la siguiente entrada:

“A Werner Vogels le encantaba viajar por el mundo en su Toyota. Vemos aparecer su Toyota en muchas escenas mientras conduce para encontrarse con varios clientes en sus ciudades de origen”.

Ninguna de las imágenes tiene metadatos con la palabra “Toyota”, pero la semántica de la palabra “Toyota” es sinónimo de automóviles y conducción. Por lo tanto, con este ejemplo, podemos demostrar cómo podemos ir más allá de la búsqueda de palabras clave y devolver imágenes que sean semánticamente similares. En la captura de pantalla anterior de la interfaz de usuario, el título debajo de la imagen muestra los metadatos extraídos por Amazon Rekognition.

Podría incluir esta solución en un mayor flujo de trabajo donde utiliza los metadatos que ya extrajo de sus imágenes para comenzar a usar la búsqueda vectorial junto con otros términos clave, como nombres de celebridades, para devolver las imágenes y documentos con mejor resonancia para su consulta de búsqueda.

Conclusión

En esta publicación, mostramos cómo puede usar Amazon Rekognition, Amazon Comprehend, SageMaker y OpenSearch Service para extraer metadatos de sus imágenes y luego usar técnicas de aprendizaje automático para descubrirlas automáticamente mediante la búsqueda semántica y de celebridades. Esto es particularmente importante dentro de la industria editorial, donde la velocidad es importante para publicar contenido nuevo rápidamente y en múltiples plataformas.

Para obtener más información sobre cómo trabajar con recursos multimedia, consulte La inteligencia de medios ahora es más inteligente con Media2Cloud 3.0.

Sobre la autora

Mark Watkins es un arquitecto de soluciones dentro del equipo de medios y entretenimiento, que ayuda a sus clientes a resolver muchos problemas de datos y aprendizaje automático. Lejos de la vida profesional, le encanta pasar tiempo con su familia y ver crecer a sus dos pequeños.

Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
PlatoData.Network Vertical Generativo Ai. Empodérate. Accede Aquí.
PlatoAiStream. Inteligencia Web3. Conocimiento amplificado. Accede Aquí.
PlatoESG. Automoción / vehículos eléctricos, Carbón, tecnología limpia, Energía, Ambiente, Solar, Gestión de residuos. Accede Aquí.
PlatoSalud. Inteligencia en Biotecnología y Ensayos Clínicos. Accede Aquí.
ChartPrime. Eleve su juego comercial con ChartPrime. Accede Aquí.
Desplazamientos de bloque. Modernización de la propiedad de compensaciones ambientales. Accede Aquí.
Fuente: https://aws.amazon.com/blogs/machine-learning/semantic-image-search-for-articles-using-amazon-rekognition-amazon-sagemaker-foundation-models-and-amazon-opensearch-service/

Sello de tiempo: 8 de septiembre de 2023

Reeditado por Platón

Guarde la fecha: únase a AWS en NVIDIA GTC, del 19 al 22 de septiembre

MLOps en el perímetro con Amazon SageMaker Edge Manager y AWS IoT Greengrass

Proteja las URL prefirmadas de Amazon SageMaker Studio Parte 2: API privada con autenticación JWT

Aumente las transacciones fraudulentas utilizando datos sintéticos en Amazon SageMaker

Introducción a la implementación de modelos en tiempo real en Amazon SageMaker

AWS Localization utiliza Amazon Translate para escalar la localización

Ejecute y optimice la inferencia de varios modelos con puntos de enlace de varios modelos de Amazon SageMaker

Habilite CI/CD de puntos finales de Amazon SageMaker de varias regiones

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta