Améliorez vos invites de diffusion stable avec la génération augmentée de récupération | Services Web Amazon

Améliorez vos invites de diffusion stable avec la génération augmentée de récupération | Services Web Amazon

La génération de texte en image est un domaine de l'intelligence artificielle en croissance rapide avec des applications dans divers domaines, tels que les médias et le divertissement, les jeux, la visualisation de produits de commerce électronique, la publicité et le marketing, la conception et la visualisation architecturales, les créations artistiques et l'imagerie médicale.

Diffusion stable est un modèle de conversion texte-image qui vous permet de créer des images de haute qualité en quelques secondes. En novembre 2022, nous annoncé que les clients AWS peuvent générer des images à partir de texte avec Diffusion stable modèles dans Amazon SageMaker JumpStart, un hub d'apprentissage automatique (ML) proposant des modèles, des algorithmes et des solutions. L'évolution s'est poursuivie en avril 2023 avec l'introduction de Socle amazonien, un service entièrement géré offrant un accès à des modèles de fondation de pointe, notamment Stable Diffusion, via une API pratique.

Alors qu'un nombre toujours croissant de clients se lancent dans la conversion de texte en image, un obstacle commun se pose : comment créer des invites capables de produire des images ciblées de haute qualité. Ce défi nécessite souvent beaucoup de temps et de ressources alors que les utilisateurs se lancent dans un voyage itératif d'expérimentation pour découvrir les invites qui correspondent à leurs visions.

La génération augmentée de récupération (RAG) est un processus dans lequel un modèle de langage récupère des documents contextuels à partir d'une source de données externe et utilise ces informations pour générer un texte plus précis et informatif. Cette technique est particulièrement utile pour les tâches de traitement du langage naturel (NLP) exigeantes en connaissances. Nous étendons désormais sa touche transformatrice au monde de la génération de texte en image. Dans cet article, nous montrons comment exploiter la puissance de RAG pour améliorer les invites envoyées à vos modèles de diffusion stable. Vous pouvez créer votre propre assistant IA pour une génération d'invites en quelques minutes avec des modèles de langage étendus (LLM) sur Amazon Bedrock, ainsi que sur SageMaker JumpStart.

Approches pour créer des invites texte-image

Créer une invite pour un modèle texte-image peut sembler simple à première vue, mais c'est une tâche trompeusement complexe. Il ne suffit pas de taper quelques mots et d’attendre du modèle qu’il évoque une image qui correspond à votre image mentale. Des invites efficaces doivent fournir des instructions claires tout en laissant place à la créativité. Ils doivent équilibrer spécificité et ambiguïté, et doivent être adaptés au modèle particulier utilisé. Pour relever le défi de l’ingénierie rapide, l’industrie a exploré diverses approches :

  • Bibliothèques d'invites – Certaines entreprises organisent des bibliothèques d’invites pré-écrites auxquelles vous pouvez accéder et personnaliser. Ces bibliothèques contiennent un large éventail d'invites adaptées à divers cas d'utilisation, vous permettant de choisir ou d'adapter les invites qui correspondent à vos besoins spécifiques.
  • Modèles d'invite et directives – De nombreuses entreprises et organisations proposent aux utilisateurs un ensemble de modèles d’invites et de directives prédéfinis. Ces modèles offrent des formats structurés pour la rédaction d'invites, ce qui facilite la création d'instructions efficaces.
  • Contributions de la communauté et des utilisateurs – Les plateformes participatives et les communautés d’utilisateurs jouent souvent un rôle important dans l’amélioration des invites. Les utilisateurs peuvent partager leurs modèles affinés, leurs invites réussies, leurs conseils et leurs meilleures pratiques avec la communauté, aidant ainsi les autres à apprendre et à affiner leurs compétences en rédaction d'invites.
  • Mise au point du modèle – Les entreprises peuvent affiner leurs modèles de conversion texte-image pour mieux comprendre et répondre à des types spécifiques d'invites. Un réglage fin peut améliorer les performances du modèle pour des domaines ou des cas d'utilisation particuliers.

Ces approches industrielles visent collectivement à rendre le processus de création d'invites texte-image efficaces plus accessibles, conviviales et efficaces, améliorant ainsi la convivialité et la polyvalence des modèles de génération texte-image pour un large éventail d'applications.

Utiliser RAG pour une conception rapide

Dans cette section, nous examinons comment les techniques RAG peuvent changer la donne en matière d'ingénierie rapide, en travaillant en harmonie avec ces approches existantes. En intégrant de manière transparente RAG dans le processus, nous pouvons rationaliser et améliorer l'efficacité de la conception rapide.

Recherche sémantique dans une base de données d'invite

Imaginez une entreprise qui a accumulé un vaste référentiel d'invites dans sa bibliothèque d'invites ou qui a créé un grand nombre de modèles d'invites, chacun étant conçu pour des cas d'utilisation et des objectifs spécifiques. Traditionnellement, les utilisateurs en quête d'inspiration pour leurs invites de conversion texte-image parcouraient manuellement ces bibliothèques, passant souvent au crible de longues listes d'options. Ce processus peut prendre du temps et être inefficace. En intégrant des invites de la bibliothèque d'invites à l'aide de modèles d'intégration de texte, les entreprises peuvent créer un moteur de recherche sémantique. Voici comment cela fonctionne:

  • Intégration d'invites – L'entreprise utilise l'intégration de texte pour convertir chaque invite de sa bibliothèque en une représentation numérique. Ces intégrations capturent la signification sémantique et le contexte des invites.
  • Requête de l'utilisateur – Lorsque les utilisateurs fournissent leurs propres invites ou décrivent l'image souhaitée, le système peut également analyser et intégrer leurs entrées.
  • Recherche sémantique – À l’aide des intégrations, le système effectue une recherche sémantique. Il récupère les invites les plus pertinentes de la bibliothèque en fonction de la requête de l'utilisateur, en tenant compte à la fois des entrées de l'utilisateur et des données historiques dans la bibliothèque d'invites.

En mettant en œuvre la recherche sémantique dans leurs bibliothèques d'invites, les entreprises permettent à leurs employés d'accéder sans effort à un vaste réservoir d'invites. Cette approche accélère non seulement la création rapide, mais encourage également la créativité et la cohérence dans la génération de texte en image.

Améliorez vos invites de diffusion stable avec la génération augmentée de récupération | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Génération d'invites à partir d'une recherche sémantique

Bien que la recherche sémantique rationalise le processus de recherche d'invites pertinentes, RAG va encore plus loin en utilisant ces résultats de recherche pour générer des invites optimisées. Voici comment cela fonctionne:

  • Résultats de la recherche sémantique – Après avoir récupéré les invites les plus pertinentes de la bibliothèque, le système présente ces invites à l'utilisateur, aux côtés de la saisie originale de l'utilisateur.
  • Modèle de génération de texte – L'utilisateur peut sélectionner une invite dans les résultats de la recherche ou fournir un contexte supplémentaire sur ses préférences. Le système alimente à la fois l’invite sélectionnée et la saisie de l’utilisateur dans un LLM.
  • Invite optimisée – Le LLM, grâce à sa compréhension des nuances linguistiques, crée une invite optimisée qui combine des éléments de l’invite sélectionnée et de la saisie de l’utilisateur. Cette nouvelle invite est adaptée aux besoins de l’utilisateur et est conçue pour produire la sortie d’image souhaitée.

La combinaison de la recherche sémantique et de la génération d'invites simplifie non seulement le processus de recherche d'invites, mais garantit également que les invites générées sont très pertinentes et efficaces. Il vous permet d'affiner et de personnaliser vos invites, conduisant finalement à de meilleurs résultats de génération de texte en image. Voici des exemples d'images générées à partir de Stable Diffusion XL à l'aide des invites de recherche sémantique et de génération d'invites.

Invite d'origine Invites de la recherche sémantique Invite optimisée par LLM

un dessin animé d'un petit chien

Améliorez vos invites de diffusion stable avec la génération augmentée de récupération | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

  • joli dessin animé d'un chien prenant un sandwich à la table du dîner
  • une illustration de dessin animé d'un chien punk, style anime, fond blanc
  • une caricature d'un garçon et de son chien marchant dans un chemin forestier

Améliorez vos invites de diffusion stable avec la génération augmentée de récupération | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Une scène de dessin animé d'un garçon marchant joyeusement main dans la main dans un chemin forestier avec son adorable chien de compagnie, dans un style d'animation.

Améliorez vos invites de diffusion stable avec la génération augmentée de récupération | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Applications de conception rapide basées sur RAG dans divers secteurs

Avant d'explorer l'application de notre architecture RAG suggérée, commençons par un secteur dans lequel un modèle de génération d'images est le plus applicable. Dans l'AdTech, la rapidité et la créativité sont essentielles. La génération d'invites basée sur RAG peut ajouter une valeur instantanée en générant des suggestions d'invites pour créer rapidement de nombreuses images pour une campagne publicitaire. Les décideurs humains peuvent parcourir les images générées automatiquement pour sélectionner l'image candidate pour la campagne. Cette fonctionnalité peut être une application autonome ou intégrée à des outils logiciels et plates-formes populaires actuellement disponibles.

Un autre secteur dans lequel le modèle de diffusion stable peut améliorer la productivité est celui des médias et du divertissement. L'architecture RAG peut aider dans des cas d'utilisation de création d'avatar, par exemple. À partir d'une simple invite, RAG peut ajouter beaucoup plus de couleurs et de caractéristiques aux idées d'avatar. Il peut générer de nombreuses invites de candidats et fournir des idées plus créatives. À partir de ces images générées, vous pouvez trouver la solution idéale pour l’application donnée. Il augmente la productivité en générant automatiquement de nombreuses suggestions rapides. La variation qu’il peut proposer constitue le bénéfice immédiat de la solution.

Vue d'ensemble de la solution

Permettre aux clients de créer leur propre assistant d'IA basé sur RAG pour une conception rapide sur AWS témoigne de la polyvalence de la technologie moderne. AWS propose une multitude d'options et de services pour faciliter cette entreprise. Le diagramme d'architecture de référence suivant illustre une application RAG pour une conception rapide sur AWS.

Améliorez vos invites de diffusion stable avec la génération augmentée de récupération | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Lorsqu'il s'agit de sélectionner les bons LLM pour votre assistant IA, AWS propose une gamme de choix pour répondre à vos besoins spécifiques.

Tout d'abord, vous pouvez opter pour les LLM disponibles via SageMaker JumpStart, en utilisant des instances dédiées. Ces instances prennent en charge une variété de modèles, notamment Falcon, Llama 2, Bloom Z et Flan-T5, ou vous pouvez explorer des modèles propriétaires tels que Command and Multilingual Embedding de Cohere, ou Jurassic-2 d'AI21 Labs.

Si vous préférez une approche plus simplifiée, AWS propose des LLM sur Socle amazonien, mettant en vedette des modèles comme Titan d'Amazonie et Claude Anthropique. Ces modèles sont facilement accessibles via des appels API simples, vous permettant d'exploiter leur puissance sans effort. La flexibilité et la diversité des options vous garantissent la liberté de choisir le LLM qui correspond le mieux à vos objectifs de conception rapide, que vous recherchiez une innovation avec des conteneurs ouverts ou les capacités robustes de modèles propriétaires.

Lorsqu'il s'agit de créer la base de données vectorielles essentielle, AWS propose une multitude d'options via ses services natifs. Vous pouvez opter pour Service Amazon OpenSearch, Amazon Auroraou Amazon Relational Database Service (Amazon RDS) pour PostgreSQL, chacun offrant des fonctionnalités robustes pour répondre à vos besoins spécifiques. Vous pouvez également explorer les produits de partenaires AWS tels que Pinecone, Weaviate, Elastic, Milvus ou Chroma, qui fournissent des solutions spécialisées pour un stockage et une récupération efficaces des vecteurs.

Pour vous aider à démarrer la construction d'un assistant d'IA basé sur RAG pour une conception rapide, nous avons rassemblé une démonstration complète dans notre GitHub dépôt. Cette démonstration utilise les ressources suivantes :

  • Génération d'images : Stable Diffusion XL sur Amazon Bedrock
  • Intégration de texte : Amazon Titan sur Amazon Bedrock
  • Génération de texte : Claude 2 sur Amazon Bedrock
  • Base de données vectorielles : FAISS, une bibliothèque open source pour une recherche de similarité efficace
  • Bibliothèque d'invites : exemples d'invites de DiffusionDB, le premier ensemble de données de galerie d'invites à grande échelle pour les modèles génératifs texte-image

De plus, nous avons intégré LangChain pour la mise en œuvre du LLM et Streamit pour le composant d'application Web, offrant une expérience transparente et conviviale.

Pré-requis

Vous devez disposer des éléments suivants pour exécuter cette application de démonstration :

  • Un compte AWS
  • Compréhension de base de la façon de naviguer Amazon SageMakerStudio
  • Compréhension de base de la façon de télécharger un dépôt à partir de GitHub
  • Connaissance de base de l'exécution d'une commande sur un terminal

Exécutez l'application de démonstration

Vous pouvez télécharger tout le code nécessaire avec les instructions du GitHub dépôt. Une fois l'application déployée, vous verrez une page semblable à la capture d'écran suivante.

Améliorez vos invites de diffusion stable avec la génération augmentée de récupération | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Avec cette démonstration, nous visons à rendre le processus de mise en œuvre accessible et compréhensible, en vous offrant une expérience pratique pour démarrer votre voyage dans le monde de RAG et une conception rapide sur AWS.

Nettoyer

Après avoir essayé l'application, nettoyez vos ressources en arrêtant l'application.

Conclusion

RAG est devenu un paradigme révolutionnaire dans le monde de la conception rapide, revitalisant les capacités de conversion texte-image de Stable Diffusion. En harmonisant les techniques RAG avec les approches existantes et en utilisant les ressources robustes d'AWS, nous avons découvert une voie vers une créativité rationalisée et un apprentissage accéléré.

Pour des ressources supplémentaires, visitez les sites suivants :


À propos des auteurs

Améliorez vos invites de diffusion stable avec la génération augmentée de récupération | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.James Yi est architecte principal de solutions partenaires AI/ML au sein de l'équipe Emerging Technologies d'Amazon Web Services. Il est passionné par le fait de travailler avec des entreprises clientes et des partenaires pour concevoir, déployer et mettre à l'échelle des applications AI/ML afin de dériver leurs valeurs commerciales. En dehors du travail, il aime jouer au football, voyager et passer du temps avec sa famille.

Améliorez vos invites de diffusion stable avec la génération augmentée de récupération | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Rûmi Olsen est un architecte de solutions dans le programme de partenariat AWS. Elle est spécialisée dans les solutions sans serveur et d'apprentissage automatique dans son rôle actuel, et possède une formation dans les technologies de traitement du langage naturel. Elle passe la plupart de son temps libre avec sa fille à explorer la nature du nord-ouest du Pacifique.

Horodatage:

Plus de Apprentissage automatique AWS