Cree fácilmente una búsqueda de imágenes semántica con Amazon Titan

Reeditado por Platón

seguidores: 0

Los editores digitales buscan continuamente formas de optimizar y automatizar sus flujos de trabajo de medios para generar y publicar contenido nuevo lo más rápido posible, pero sin renunciar a la calidad.

Agregar imágenes para capturar la esencia del texto puede mejorar la experiencia de lectura. Las técnicas de aprendizaje automático pueden ayudarle a descubrir este tipo de imágenes. “Una imagen impactante es una de las formas más efectivas de captar la atención del público y generar compromiso con su historia, pero también debe tener sentido.."

La Publicación anterior analizó cómo puede utilizar los servicios de aprendizaje automático (ML) de Amazon para ayudarle a encontrar las mejores imágenes para colocarlas en un artículo o sinopsis de televisión sin tener que escribir palabras clave. En el post anterior usaste Reconocimiento de amazonas para extraer metadatos de una imagen. Luego utilizó un modelo de incrustación de texto para generar una incrustación de palabras de los metadatos que podrían usarse más adelante para ayudar a encontrar las mejores imágenes.

En esta publicación, verá cómo puede utilizar los modelos de base de Amazon Titan para comprender rápidamente un artículo y encontrar las mejores imágenes para acompañarlo. Esta vez, generas la incrustación directamente desde la imagen.

Un concepto clave en la búsqueda semántica son las incrustaciones. Una incrustación es una representación numérica de alguna entrada (una imagen, texto o ambos) en forma de vector. Cuando tienes muchos vectores, puedes medir la distancia entre ellos, y los vectores que están cerca en distancia son semánticamente similares o relacionados.

lecho rocoso del amazonas es un servicio totalmente administrado que ofrece una selección de modelos básicos (FM) de alto rendimiento de empresas líderes en inteligencia artificial, incluidas AI21 Labs, Anthropic, Cohere, Meta, Stability AI y Amazon con una única API, junto con un amplio conjunto de capacidades para ayudarle a crear aplicaciones de IA generativa, simplificando el desarrollo y manteniendo la privacidad y la seguridad.

Titán Amazonas ha añadido recientemente un nuevo modelo de empotrar a su colección, Titan Multimodal Embeddings. Este nuevo modelo se puede utilizar para búsqueda multimodal, sistemas de recomendación y otras aplicaciones posteriores.

Los modelos multimodales pueden comprender y analizar datos en múltiples modalidades, como texto, imagen, video y audio. Este último modelo de Amazon Titan puede aceptar texto, imágenes o ambos. Esto significa que usa el mismo modelo para generar incrustaciones de imágenes y texto y usa esas incrustaciones para calcular qué tan similares son los dos.

Resumen de la solución

En la siguiente captura de pantalla, puede ver cómo tomar un mini artículo, realizar una búsqueda y encontrar imágenes que resuenan con el artículo. En este ejemplo, tomamos una oración que describe a Werner Vogels usando pañuelos blancos mientras viajaba por la India. El vector de la oración está semánticamente relacionado con los vectores de las imágenes de Werner con una bufanda y, por lo tanto, aparece como las imágenes principales en esta búsqueda.

En un nivel alto, se carga una imagen en Servicio de almacenamiento simple de Amazon (Amazon S3) y se extraen los metadatos, incluida la incrustación de la imagen.

Para extraer metadatos textuales de la imagen, utilice el función de reconocimiento de celebridades y del función de detección de etiquetas in Reconocimiento de amazonas. Amazon Rekognition reconoce automáticamente decenas de miles de personalidades conocidas en imágenes y vídeos mediante ML. Utilice esta función para reconocer cualquier celebridad en las imágenes y almacenar estos metadatos en Servicio Amazon OpenSearch. La detección de etiquetas encuentra objetos y conceptos de la imagen, como en la captura de pantalla anterior donde tiene los metadatos de la etiqueta debajo de la imagen.

Se utiliza el modelo Titan Multimodal Embeddings para generar una incrustación de la imagen que también son metadatos con capacidad de búsqueda.

Luego, todos los metadatos se almacenan en Servicio de búsqueda abierta para consultas de búsqueda posteriores cuando necesite encontrar una imagen o imágenes.

La segunda parte de la arquitectura consiste en enviar un artículo para encontrar estas imágenes recién ingeridas.

Cuando se envía el artículo, debe extraerlo y transformarlo en una entrada de búsqueda para el servicio OpenSearch. Tu usas Amazon Comprehend para detectar nombres en el texto que podrían ser celebridades potenciales. Resume el artículo, ya que probablemente elegirá solo una o dos imágenes para capturar la esencia del artículo. Generar un resumen del texto es una buena manera de asegurarse de que la inserción capture los puntos pertinentes de la historia. Para esto se utiliza el Amazon Titan Texto G1 – Express modelo con un mensaje como “Proporcione un resumen del siguiente texto. No agregue ninguna información que no se mencione en el texto a continuación”. Con el artículo resumido, utiliza el modelo de incrustaciones multimodales de Amazon Titan para generar una incrustación del artículo resumido. El modelo de incrustación también tiene un recuento máximo de entrada de tokens, por lo que resumir el artículo es aún más importante para asegurarse de que pueda obtener la mayor cantidad de información posible capturada en la incrustación. En términos simples, un token es una sola palabra, subpalabra o carácter.

Luego realiza una búsqueda en el servicio OpenSearch con los nombres y la incrustación del artículo para recuperar imágenes que sean semánticamente similares con la presencia de la celebridad determinada, si está presente.

Como usuario, simplemente busca imágenes utilizando un artículo como entrada.

Tutorial

El siguiente diagrama muestra la arquitectura para ofrecer este caso de uso.

Los siguientes pasos explican la secuencia de acciones (representadas en el diagrama) que permiten la búsqueda de imágenes semánticas y celebridades.

Subes una imagen a un Amazon S3 Cubeta.
Puente de eventos de Amazon escucha este evento y luego inicia un paso de AWS Step Functions.
El paso Funciones de pasos toma la Amazon S3 detalla la imagen y ejecuta tres acciones paralelas:
1. Una llamada API a Reconocimiento de amazonas Detectar etiquetas para extraer metadatos del objeto
2. Una llamada API a Reconocimiento de amazonas reconocercelebridades API para extraer celebridades conocidas
3. A AWS Lambda La función cambia el tamaño de la imagen a las dimensiones máximas aceptadas para el modelo de incrustación ML y genera una incrustación directamente desde la entrada de la imagen.
La lambda Luego, la función inserta los metadatos del objeto de imagen y los nombres de celebridades, si están presentes, y la incrustación como un vector k-NN en un índice del servicio OpenSearch.
Amazon S3 aloja un sitio web estático simple, distribuido por un Amazon CloudFront. La interfaz de usuario (UI) de front-end le permite autenticarse con la aplicación usando Cognito Amazonas para buscar imágenes.
Envías un artículo o algún texto utilizando la interfaz de usuario.
Otra lambda llamadas a funciones Amazon Comprehend para detectar cualquier nombre en el texto como celebridades potenciales.
Luego, la función resume el texto para obtener los puntos pertinentes del artículo utilizando Titan Text G1 – Express.
La función genera una incrustación del artículo resumido utilizando el modelo Amazon Titan Multimodal Embeddings.
La función luego busca el Servicio de búsqueda abierta índice de imágenes para imágenes que coinciden con el nombre de la celebridad y el k-vecinos más cercanos para el vector usando similitud de coseno usando K-NN exacto con guión de puntuación.
Reloj en la nube de Amazon y Rayos X de AWS brindarle observabilidad en el flujo de trabajo de un extremo a otro para alertarlo sobre cualquier problema.

La siguiente figura muestra el diseñador de flujo de trabajo visual del flujo de trabajo de Step Functions.

A continuación se muestra un ejemplo de incrustación:

{"Embedding_Results": [-0.40342346, 0.073382884, 0.22957325, -0.014249567, 0.042733602, -0.102064356, 0.21086141, -0.4672587, 0.17779616, 0.08438544, -0.58220416, -0.010788828, -0.28306714, 0.4242958, -0.01655291,....

La matriz de números anterior es lo que captura el significado del objeto de texto o imagen en una forma en la que se pueden realizar cálculos y funciones.

Las incrustaciones tienen una alta dimensionalidad, desde unos pocos cientos hasta muchos miles de dimensiones. Este modelo tiene una dimensionalidad de 1,024, es decir, la matriz anterior tendrá 1,024 elementos que capturan la semántica del objeto dado.

Incrustación multimodal versus incrustación de texto

Analizamos dos opciones para ofrecer búsqueda de imágenes semánticas donde la principal diferencia es cómo se generan las incrustaciones de las imágenes. En nuestro Publicación anterior, genera una incrustación a partir de los metadatos textuales, que se extraen mediante Amazon Rekognition. En esta publicación, utiliza el modelo Titan Multimodal Embeddings y puede generar una incrustación de la imagen directamente.

Al realizar una prueba rápida y ejecutar una consulta en la interfaz de usuario con los dos enfoques, puede ver que los resultados son notablemente diferentes. El artículo de consulta de ejemplo es "A Werner Vogels le encanta usar bufandas blancas cuando viaja por la India".

El resultado del modelo multimodal puntúa más alto las imágenes con una bufanda presente. La palabra bufanda está presente en nuestro artículo enviado, y la inserción lo ha reconocido.

En la interfaz de usuario, puede ver los metadatos extraídos por Amazon Rekognition, y los metadatos no incluyen la palabra bufanda y, por lo tanto, faltan cierta información de la imagen, lo cual puede suponer que el modelo de incrustación de imágenes no incluye y, por lo tanto, el modelo multimodal. podría tener una ventaja dependiendo del caso de uso. Con Amazon Rekognition, puede filtrar los objetos detectados en la imagen antes de crear una incrustación y, por lo tanto, tener otros casos de uso aplicables que podrían funcionar mejor según el resultado deseado.

La siguiente figura muestra los resultados del modelo Amazon Titan Multimodal Embeddings.

La siguiente figura muestra los resultados del modelo de incrustación de texto de Amazon Titan utilizando los metadatos extraídos de Amazon Rekognition para generar la incrustación.

Requisitos previos

Para este tutorial, debe tener los siguientes requisitos previos:

An Cuenta de AWS
Interfaz de línea de comandos del modelo de aplicación sin servidor de AWS (AWS SAM CLI)
- La solución utiliza la CLI de AWS SAM para la implementación.
- Asegúrese de estar utilizando la última versión de AWS SAM CLI.
Docker
- La solución utiliza la opción CLI de AWS SAM para construir dentro de un contenedor y evitar la necesidad de dependencias locales. Necesitas Docker para esto.
Nodo
- La interfaz de esta solución es una aplicación web React que se puede ejecutar localmente usando Node.
npm
- La instalación de los paquetes necesarios para ejecutar la aplicación web localmente o compilarla para una implementación remota requiere npm.

Cree e implemente la aplicación de pila completa

Clonar el repositorio

git clone https://github.com/aws-samples/semantic-image-search-for-articles.git

Cambie el directorio al proyecto recién clonado.
```
cd semantic-image-search-for-articles
```
Ejecute npm install para descargar todos los paquetes necesarios para ejecutar la aplicación.
```
npm install
```
Ejecute un script de implementación que ejecute una serie de scripts en secuencia que harán una sam construir, despliegue de sam, actualice los archivos de configuración y luego aloje los archivos de la aplicación web en Amazon S3 listos para servir a través de Amazon CloudFront.
```
npm run deploy
```
Uno de los resultados finales del script es una URL de Amazon CloudFront, que es la forma en que accederá a la aplicación. Debe crear un nuevo usuario en la Consola de administración de AWS para iniciar sesión. Tome nota de la URL para utilizarla más adelante.

La siguiente captura de pantalla muestra cómo el script utilizó AWS SAM para implementar su pila y generó una URL de Amazon CloudFront que puede usar para acceder a la aplicación.

Cree un nuevo usuario para iniciar sesión en la aplicación.

Visite la Cognito Amazonas consola y selecciona tu nueva Grupo de usuarios.
Cree un nuevo usuario con una nueva contraseña.

Inicie sesión y pruebe la aplicación web

Encuentra los Amazon CloudFront URL para acceder a la página de inicio de sesión. Esto se muestra en la línea final como se muestra en la captura de pantalla anterior.
Ingrese su nueva combinación de nombre de usuario y contraseña para iniciar sesión.
Cargue algunas imágenes de muestra usando la interfaz de usuario.
1. Elige Elija el archivo y luego elige Subir.
  Nota: También puede cargar directamente al depósito S3 de forma masiva agregando archivos al / uploads carpeta.
2. Escribe o copia y pega un artículo y elige Enviar para ver si las imágenes se devuelven en el orden esperado.

Limpiar

Para evitar incurrir en cargos futuros, elimine los recursos.

Busque el depósito de S3 implementado con esta solución y vacíelo.
Vaya a la consola de CloudFormation, elija la pila que implementó mediante el script de implementación mencionado anteriormente y elimine la pila.

Conclusión

En esta publicación, vio cómo usar Amazon Rekognition, Amazon Comprehend, Amazon Bedrock y OpenSearch Service para extraer metadatos de sus imágenes y luego usar técnicas de aprendizaje automático para descubrir automáticamente contenido estrechamente relacionado mediante la búsqueda semántica y de celebridades. Esto es particularmente importante dentro de la industria editorial, donde la velocidad es importante para publicar contenido nuevo rápidamente y en múltiples plataformas.

Como siguiente paso, implemente la solución en su cuenta de AWS y cargue algunas de sus propias imágenes para probar cómo la búsqueda semántica puede funcionar para usted. Déjame saber algunos de tus comentarios en los comentarios a continuación.

Acerca de los autores

Mark Watkins es un arquitecto de soluciones dentro del equipo de medios y entretenimiento, que ayuda a sus clientes a resolver muchos problemas de datos y aprendizaje automático. Lejos de la vida profesional, le encanta pasar tiempo con su familia y ver crecer a sus dos pequeños.

Dan Johns es un ingeniero arquitecto de soluciones que ayuda a sus clientes a desarrollar AWS y cumplir con los requisitos comerciales. Alejado de la vida profesional, le encanta leer, pasar tiempo con su familia y automatizar tareas dentro de su hogar.