Mejore sus mensajes de difusión estable con la generación aumentada de recuperación | Servicios web de Amazon

Mejore sus mensajes de difusión estable con la generación aumentada de recuperación | Servicios web de Amazon

La generación de texto a imagen es un campo de inteligencia artificial en rápido crecimiento con aplicaciones en una variedad de áreas, como medios y entretenimiento, juegos, visualización de productos de comercio electrónico, publicidad y marketing, diseño y visualización arquitectónicos, creaciones artísticas e imágenes médicas.

Difusión estable es un modelo de texto a imagen que le permite crear imágenes de alta calidad en segundos. En noviembre de 2022, anunció que los clientes de AWS pueden generar imágenes a partir de texto con Difusión estable modelos en JumpStart de Amazon SageMaker, un centro de aprendizaje automático (ML) que ofrece modelos, algoritmos y soluciones. La evolución continuó en abril de 2023 con la introducción de lecho rocoso del amazonas, un servicio totalmente administrado que ofrece acceso a modelos básicos de vanguardia, incluida Stable Diffusion, a través de una conveniente API.

A medida que un número cada vez mayor de clientes se embarca en sus esfuerzos de conversión de texto a imagen, surge un obstáculo común: cómo crear mensajes que ejerzan el poder de generar imágenes de alta calidad y con un propósito específico. Este desafío a menudo exige tiempo y recursos considerables a medida que los usuarios se embarcan en un viaje iterativo de experimentación para descubrir las indicaciones que se alinean con sus visiones.

Recuperación de generación aumentada (RAG) es un proceso en el que un modelo de lenguaje recupera documentos contextuales de una fuente de datos externa y utiliza esta información para generar texto más preciso e informativo. Esta técnica es particularmente útil para tareas de procesamiento del lenguaje natural (PLN) que requieren mucho conocimiento. Ahora extendemos su toque transformador al mundo de la generación de texto a imagen. En esta publicación, demostramos cómo aprovechar el poder de RAG para mejorar las indicaciones enviadas a sus modelos de Difusión Estable. Puede crear su propio asistente de IA para generar indicaciones en minutos con modelos de lenguaje grandes (LLM) en Amazon Bedrock, así como en SageMaker JumpStart.

Enfoques para crear mensajes de texto a imagen

Crear un mensaje para un modelo de texto a imagen puede parecer sencillo a primera vista, pero es una tarea engañosamente compleja. Es más que simplemente escribir unas pocas palabras y esperar que el modelo evoque una imagen que se alinee con su imagen mental. Las indicaciones eficaces deben proporcionar instrucciones claras y dejar espacio para la creatividad. Deben equilibrar la especificidad y la ambigüedad, y deben adaptarse al modelo particular que se utilice. Para abordar el desafío de la ingeniería rápida, la industria ha explorado varios enfoques:

  • Bibliotecas rápidas – Algunas empresas seleccionan bibliotecas de indicaciones escritas previamente a las que puede acceder y personalizar. Estas bibliotecas contienen una amplia gama de indicaciones adaptadas a diversos casos de uso, lo que le permite elegir o adaptar indicaciones que se ajusten a sus necesidades específicas.
  • Plantillas y pautas de aviso – Muchas empresas y organizaciones proporcionan a los usuarios un conjunto de plantillas y directrices predefinidas. Estas plantillas ofrecen formatos estructurados para escribir indicaciones, lo que facilita la elaboración de instrucciones efectivas.
  • Contribuciones de la comunidad y los usuarios. – Las plataformas colaborativas y las comunidades de usuarios suelen desempeñar un papel importante a la hora de mejorar las indicaciones. Los usuarios pueden compartir sus modelos perfeccionados, indicaciones exitosas, consejos y mejores prácticas con la comunidad, ayudando a otros a aprender y perfeccionar sus habilidades de redacción de indicaciones.
  • Ajuste del modelo – Las empresas pueden ajustar sus modelos de texto a imagen para comprender y responder mejor a tipos específicos de indicaciones. El ajuste fino puede mejorar el rendimiento del modelo para dominios o casos de uso particulares.

Estos enfoques de la industria en conjunto tienen como objetivo hacer que el proceso de creación de mensajes de texto a imagen efectivos sea más accesible, fácil de usar y eficiente, mejorando en última instancia la usabilidad y versatilidad de los modelos de generación de texto a imagen para una amplia gama de aplicaciones.

Usando RAG para un diseño rápido

En esta sección, profundizamos en cómo las técnicas RAG pueden cambiar las reglas del juego en la ingeniería rápida, trabajando en armonía con estos enfoques existentes. Al integrar perfectamente RAG en el proceso, podemos optimizar y mejorar la eficiencia del diseño rápido.

Búsqueda semántica en una base de datos rápida.

Imagine una empresa que ha acumulado un vasto repositorio de mensajes en su biblioteca de mensajes o que ha creado una gran cantidad de plantillas de mensajes, cada una diseñada para casos de uso y objetivos específicos. Tradicionalmente, los usuarios que buscaban inspiración para sus mensajes de texto a imagen navegaban manualmente a través de estas bibliotecas, a menudo examinando extensas listas de opciones. Este proceso puede llevar mucho tiempo y ser ineficiente. Al incorporar mensajes de la biblioteca de mensajes utilizando modelos de incrustación de texto, las empresas pueden crear un motor de búsqueda semántico. Así es como funciona:

  • Incrustar mensajes – La empresa utiliza incrustaciones de texto para convertir cada mensaje de su biblioteca en una representación numérica. Estas incorporaciones capturan el significado semántico y el contexto de las indicaciones.
  • Consulta de usuario – Cuando los usuarios proporcionan sus propias indicaciones o describen la imagen deseada, el sistema también puede analizar e incrustar sus entradas.
  • Búsqueda semántica – Utilizando las incrustaciones, el sistema realiza una búsqueda semántica. Recupera las indicaciones más relevantes de la biblioteca en función de la consulta del usuario, considerando tanto la entrada del usuario como los datos históricos en la biblioteca de indicaciones.

Al implementar la búsqueda semántica en sus bibliotecas de indicaciones, las empresas permiten a sus empleados acceder a una amplia reserva de indicaciones sin esfuerzo. Este enfoque no sólo acelera la creación rápida sino que también fomenta la creatividad y la coherencia en la generación de texto a imagen.

Mejore sus mensajes de difusión estable con la generación aumentada de recuperación | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

Generación rápida a partir de búsqueda semántica

Aunque la búsqueda semántica agiliza el proceso de búsqueda de mensajes relevantes, RAG va un paso más allá al utilizar estos resultados de búsqueda para generar mensajes optimizados. Así es como funciona:

  • Resultados de búsqueda semántica – Después de recuperar las indicaciones más relevantes de la biblioteca, el sistema las presenta al usuario, junto con la entrada original del usuario.
  • Modelo de generación de texto – El usuario puede seleccionar un mensaje de los resultados de la búsqueda o proporcionar más contexto sobre sus preferencias. El sistema introduce tanto el mensaje seleccionado como la entrada del usuario en un LLM.
  • Mensaje optimizado – El LLM, con su comprensión de los matices del lenguaje, elabora un mensaje optimizado que combina elementos del mensaje seleccionado y la entrada del usuario. Este nuevo mensaje se adapta a los requisitos del usuario y está diseñado para producir el resultado de imagen deseado.

La combinación de búsqueda semántica y generación de indicaciones no solo simplifica el proceso de búsqueda de indicaciones, sino que también garantiza que las indicaciones generadas sean muy relevantes y efectivas. Le permite ajustar y personalizar sus indicaciones, lo que en última instancia conduce a mejores resultados de generación de texto a imagen. Los siguientes son ejemplos de imágenes generadas desde Stable Diffusion XL utilizando las indicaciones de la búsqueda semántica y la generación de indicaciones.

Aviso original Mensajes de la búsqueda semántica Mensaje optimizado por LLM

una caricatura de un perrito

Mejore sus mensajes de difusión estable con la generación aumentada de recuperación | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

  • linda caricatura de un perro comiendo un sándwich en la mesa
  • Una ilustración de dibujos animados de un perro punk, estilo anime, fondo blanco.
  • una caricatura de un niño y su perro caminando por un sendero forestal

Mejore sus mensajes de difusión estable con la generación aumentada de recuperación | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

Una escena de dibujos animados de un niño caminando felizmente de la mano por un camino forestal con su lindo perro, en estilo de animación.

Mejore sus mensajes de difusión estable con la generación aumentada de recuperación | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

Aplicaciones de diseño rápido basadas en RAG en diversas industrias

Antes de explorar la aplicación de nuestra arquitectura RAG sugerida, comencemos con una industria en la que un modelo de generación de imágenes es más aplicable. En AdTech, la velocidad y la creatividad son fundamentales. La generación de avisos basada en RAG puede agregar valor instantáneo al generar sugerencias de avisos para crear muchas imágenes rápidamente para una campaña publicitaria. Los tomadores de decisiones humanos pueden revisar las imágenes generadas automáticamente para seleccionar la imagen candidata para la campaña. Esta función puede ser una aplicación independiente o estar integrada en herramientas y plataformas de software populares actualmente disponibles.

Otra industria donde el modelo de Difusión Estable puede mejorar la productividad es la de los medios y el entretenimiento. La arquitectura RAG puede ayudar en casos de uso de creación de avatares, por ejemplo. A partir de un simple mensaje, RAG puede agregar mucho más color y características a las ideas de avatar. Puede generar muchas sugerencias de candidatos y proporcionar ideas más creativas. A partir de estas imágenes generadas, puede encontrar la opción perfecta para la aplicación determinada. Aumenta la productividad al generar automáticamente muchas sugerencias rápidas. La variación que se le puede ocurrir es el beneficio inmediato de la solución.

Resumen de la solución

Permitir a los clientes construir su propio asistente de IA basado en RAG para un diseño rápido en AWS es un testimonio de la versatilidad de la tecnología moderna. AWS ofrece una gran cantidad de opciones y servicios para facilitar este esfuerzo. El siguiente diagrama de arquitectura de referencia ilustra una aplicación RAG para un diseño rápido en AWS.

Mejore sus mensajes de difusión estable con la generación aumentada de recuperación | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

Cuando se trata de seleccionar los LLM adecuados para su asistente de IA, AWS ofrece un espectro de opciones para satisfacer sus requisitos específicos.

En primer lugar, puede optar por los LLM disponibles a través de SageMaker JumpStart, utilizando instancias dedicadas. Estas instancias admiten una variedad de modelos, incluidos Falcon, Llama 2, Bloom Z y Flan-T5, o puede explorar modelos propietarios como Cohere's Command and Multilingual Embedding o Jurassic-2 de AI21 Labs.

Si prefiere un enfoque más simplificado, AWS ofrece LLM en lecho rocoso del amazonas, con modelos como Titán Amazonas y Claude antrópico. Se puede acceder fácilmente a estos modelos a través de sencillas llamadas API, lo que le permite aprovechar su potencia sin esfuerzo. La flexibilidad y diversidad de opciones garantizan que usted tenga la libertad de elegir el LLM que mejor se alinee con sus objetivos de diseño inmediatos, ya sea que esté buscando una innovación con contenedores abiertos o las sólidas capacidades de los modelos propietarios.

Cuando se trata de crear la base de datos vectorial esencial, AWS ofrece una multitud de opciones a través de sus servicios nativos. Puedes optar por Servicio Amazon OpenSearch, Aurora amazónicao Servicio de base de datos relacional de Amazon (Amazon RDS) para PostgreSQL, cada uno de los cuales ofrece características sólidas para satisfacer sus necesidades específicas. Alternativamente, puede explorar productos de socios de AWS como Pinecone, Weaviate, Elastic, Milvus o Chroma, que brindan soluciones especializadas para el almacenamiento y la recuperación de vectores eficientes.

Para ayudarlo a comenzar a construir un asistente de IA basado en RAG para un diseño rápido, hemos preparado una demostración completa en nuestro GitHub repositorio. Esta demostración utiliza los siguientes recursos:

  • Generación de imágenes: Stable Diffusion XL en Amazon Bedrock
  • Incrustación de texto: Amazon Titan en Amazon Bedrock
  • Generación de texto: Claude 2 en Amazon Bedrock
  • Base de datos de vectores: FAISS, una biblioteca de código abierto para una búsqueda eficiente de similitudes
  • Biblioteca de mensajes: ejemplos de mensajes de DifusiónDB, el primer conjunto de datos de galería de mensajes a gran escala para modelos generativos de texto a imagen

Además, hemos incorporado LangChain para la implementación de LLM y Streamit para el componente de aplicación web, brindando una experiencia fluida y fácil de usar.

Requisitos previos

Necesita tener lo siguiente para ejecutar esta aplicación de demostración:

  • Una cuenta de AWS
  • Conocimientos básicos de cómo navegar. Estudio Amazon SageMaker
  • Comprensión básica de cómo descargar un repositorio desde GitHub
  • Conocimientos básicos para ejecutar un comando en una terminal.

Ejecute la aplicación de demostración

Puede descargar todo el código necesario con las instrucciones del GitHub repositorio. Una vez implementada la aplicación, verá una página como la siguiente captura de pantalla.

Mejore sus mensajes de difusión estable con la generación aumentada de recuperación | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

Con esta demostración, nuestro objetivo es hacer que el proceso de implementación sea accesible y comprensible, brindándole una experiencia práctica para iniciar su viaje al mundo de RAG y acelerar el diseño en AWS.

Limpiar

Después de probar la aplicación, limpie sus recursos deteniéndola.

Conclusión

RAG se ha convertido en un paradigma revolucionario en el mundo del diseño rápido, revitalizando las capacidades de conversión de texto a imagen de Stable Diffusion. Al armonizar las técnicas RAG con los enfoques existentes y utilizar los sólidos recursos de AWS, hemos descubierto un camino hacia la creatividad optimizada y el aprendizaje acelerado.

Para recursos adicionales, visite lo siguiente:


Sobre los autores

Mejore sus mensajes de difusión estable con la generación aumentada de recuperación | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.james yi es Arquitecto Senior de Soluciones de Socios de AI/ML en el equipo de Tecnologías Emergentes en Amazon Web Services. Le apasiona trabajar con clientes y socios empresariales para diseñar, implementar y escalar aplicaciones AI/ML para derivar sus valores comerciales. Fuera del trabajo, le gusta jugar fútbol, ​​viajar y pasar tiempo con su familia.

Mejore sus mensajes de difusión estable con la generación aumentada de recuperación | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.Rumi Olsen es Arquitecto de soluciones en el Programa de socios de AWS. Se especializa en soluciones de aprendizaje automático y sin servidor en su función actual, y tiene experiencia en tecnologías de procesamiento de lenguaje natural. Pasa la mayor parte de su tiempo libre con su hija explorando la naturaleza del noroeste del Pacífico.

Sello de tiempo:

Mas de Aprendizaje automático de AWS