Förbättra dina stabila diffusionsmeddelanden med Retrieval Augmented Generation | Amazon webbtjänster

Förbättra dina stabila diffusionsmeddelanden med Retrieval Augmented Generation | Amazon webbtjänster

Text-till-bildgenerering är ett snabbt växande område av artificiell intelligens med applikationer inom en mängd olika områden, såsom media och underhållning, spel, visualisering av e-handelsprodukter, reklam och marknadsföring, arkitektonisk design och visualisering, konstnärliga skapelser och medicinsk bildbehandling.

Stabil diffusion är en text-till-bild-modell som ger dig möjlighet att skapa bilder av hög kvalitet på några sekunder. I november 2022, vi meddelade som AWS-kunder kan generera bilder från text med Stabil diffusion modeller i Amazon SageMaker JumpStart, ett nav för maskininlärning (ML) som erbjuder modeller, algoritmer och lösningar. Utvecklingen fortsatte i april 2023 med introduktionen av Amazonas berggrund, en helt hanterad tjänst som erbjuder tillgång till banbrytande grundmodeller, inklusive Stable Diffusion, genom ett bekvämt API.

När ett ständigt ökande antal kunder ger sig in på sina text-till-bild-strävanden uppstår ett vanligt hinder – hur man skapar meddelanden som har kraften att ge högkvalitativa, målinriktade bilder. Den här utmaningen kräver ofta avsevärd tid och resurser när användare ger sig ut på en iterativ experimentresa för att upptäcka de uppmaningar som är i linje med deras visioner.

Retrieval Augmented Generation (RAG) är en process där en språkmodell hämtar kontextuella dokument från en extern datakälla och använder denna information för att generera mer korrekt och informativ text. Den här tekniken är särskilt användbar för kunskapsintensiva NLP-uppgifter (natural language processing). Vi utökar nu dess transformativa touch till en värld av text-till-bild-generering. I det här inlägget visar vi hur du kan utnyttja kraften i RAG för att förbättra de uppmaningar som skickas till dina stabila diffusionsmodeller. Du kan skapa din egen AI-assistent för snabb generering på några minuter med stora språkmodeller (LLM) på Amazon Bedrock, såväl som på SageMaker JumpStart.

Metoder för att skapa text-till-bild-meddelanden

Att skapa en uppmaning till en text-till-bild-modell kan verka enkelt vid första anblicken, men det är en bedrägligt komplex uppgift. Det är mer än att bara skriva några ord och förvänta sig att modellen ska frammana en bild som stämmer överens med din mentala bild. Effektiva uppmaningar bör ge tydliga instruktioner och samtidigt lämna utrymme för kreativitet. De måste balansera specificitet och tvetydighet, och de bör skräddarsys för den specifika modell som används. För att möta utmaningen med snabb ingenjörskonst har branschen utforskat olika tillvägagångssätt:

  • Snabba bibliotek – Vissa företag kurerar bibliotek med förskrivna uppmaningar som du kan komma åt och anpassa. Dessa bibliotek innehåller ett brett utbud av uppmaningar som är skräddarsydda för olika användningsfall, så att du kan välja eller anpassa uppmaningar som passar dina specifika behov.
  • Snabba mallar och riktlinjer – Många företag och organisationer förser användare med en uppsättning fördefinierade meddelandemallar och riktlinjer. Dessa mallar erbjuder strukturerade format för att skriva uppmaningar, vilket gör det enkelt att skapa effektiva instruktioner.
  • Gemenskaps- och användarbidrag – Crowdsourced-plattformar och användargemenskaper spelar ofta en viktig roll för att förbättra uppmaningar. Användare kan dela med sig av sina finjusterade modeller, framgångsrika uppmaningar, tips och bästa praxis med communityn, vilket hjälper andra att lära sig och förfina sina snabbskrivningsfärdigheter.
  • Modellfinjustering – Företag kan finjustera sina text-till-bild-modeller för att bättre förstå och svara på specifika typer av uppmaningar. Finjustering kan förbättra modellens prestanda för särskilda domäner eller användningsfall.

Dessa branschstrategier syftar tillsammans till att göra processen att skapa effektiva text-till-bild-meddelanden mer tillgänglig, användarvänlig och effektiv, vilket i slutändan förbättrar användbarheten och mångsidigheten hos modeller för text-till-bild-generering för ett brett spektrum av applikationer.

Använda RAG för snabb design

I det här avsnittet fördjupar vi oss i hur RAG-tekniker kan fungera som en game changer i snabb ingenjörskonst, som arbetar i harmoni med dessa befintliga tillvägagångssätt. Genom att sömlöst integrera RAG i processen kan vi effektivisera och förbättra effektiviteten i snabb design.

Semantisk sökning i en promptdatabas

Föreställ dig ett företag som har samlat på sig ett stort lager av uppmaningar i sitt promptbibliotek eller har skapat ett stort antal promptmallar, var och en designad för specifika användningsfall och mål. Traditionellt skulle användare som söker inspiration för sina text-till-bild-uppmaningar manuellt bläddra igenom dessa bibliotek, ofta sålla igenom omfattande listor med alternativ. Denna process kan vara tidskrävande och ineffektiv. Genom att bädda in prompter från promptbiblioteket med hjälp av textinbäddningsmodeller kan företag bygga en semantisk sökmotor. Så här fungerar det:

  • Inbäddningsuppmaningar – Företaget använder textinbäddningar för att konvertera varje prompt i sitt bibliotek till en numerisk representation. Dessa inbäddningar fångar den semantiska innebörden och sammanhanget för uppmaningarna.
  • Användarfråga – När användare ger sina egna uppmaningar eller beskriver sin önskade bild, kan systemet analysera och bädda in deras input också.
  • Semantisk sökning – Med hjälp av inbäddningarna utför systemet en semantisk sökning. Den hämtar de mest relevanta uppmaningarna från biblioteket baserat på användarens fråga, med hänsyn till både användarens input och historiska data i promptbiblioteket.

Genom att implementera semantisk sökning i sina promptbibliotek ger företag sina anställda möjlighet att komma åt en stor reservoar av prompter utan ansträngning. Detta tillvägagångssätt accelererar inte bara snabbt skapande utan uppmuntrar också kreativitet och konsekvens i text-till-bild-generering.y

Förbättra dina stabila diffusionsuppmaningar med Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Snabbgenerering från semantisk sökning

Även om semantisk sökning effektiviserar processen att hitta relevanta uppmaningar, tar RAG det ett steg längre genom att använda dessa sökresultat för att generera optimerade uppmaningar. Så här fungerar det:

  • Semantiska sökresultat – Efter att ha hämtat de mest relevanta uppmaningarna från biblioteket, presenterar systemet dessa uppmaningar för användaren, tillsammans med användarens ursprungliga input.
  • Textgenereringsmodell – Användaren kan välja en uppmaning från sökresultaten eller ge ytterligare sammanhang för sina preferenser. Systemet matar både den valda prompten och användarens indata till en LLM.
  • Optimerad prompt – LLM, med sin förståelse för språknyanser, skapar en optimerad prompt som kombinerar element från den valda prompten och användarens input. Denna nya prompt är skräddarsydd för användarens krav och är utformad för att ge önskad bildutdata.

Kombinationen av semantisk sökning och promptgenerering förenklar inte bara processen att hitta prompter utan säkerställer också att de prompter som genereras är mycket relevanta och effektiva. Det ger dig möjlighet att finjustera och anpassa dina meddelanden, vilket i slutändan leder till förbättrade resultat för generering av text till bild. Följande är exempel på bilder som genereras från Stable Diffusion XL med hjälp av uppmaningarna från semantisk sökning och promptgenerering.

Ursprunglig uppmaning Uppmaningar från semantisk sökning Optimerad prompt av LLM

en tecknad film av en liten hund

Förbättra dina stabila diffusionsuppmaningar med Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

  • söt tecknad film av en hund som har en smörgås vid middagsbordet
  • en tecknad illustration av en punkhund, animestil, vit bakgrund
  • en tecknad serie av en pojke och hans hund som går nerför en skogsväg

Förbättra dina stabila diffusionsuppmaningar med Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

En tecknad scen av en pojke som glatt går hand i hand nerför en skogsbana med sin söta hund, i animerad stil.

Förbättra dina stabila diffusionsuppmaningar med Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

RAG-baserade snabba designapplikationer inom olika branscher

Innan vi utforskar tillämpningen av vår föreslagna RAG-arkitektur, låt oss börja med en bransch där en bildgenereringsmodell är mest användbar. I AdTech är snabbhet och kreativitet avgörande. RAG-baserad promptgenerering kan lägga till omedelbart värde genom att generera snabba förslag för att skapa många bilder snabbt för en annonskampanj. Mänskliga beslutsfattare kan gå igenom de automatiskt genererade bilderna för att välja kandidatbild för kampanjen. Den här funktionen kan vara en fristående applikation eller inbäddad i populära mjukvaruverktyg och plattformar som för närvarande är tillgängliga.

En annan bransch där Stable Diffusion-modellen kan öka produktiviteten är media och underhållning. RAG-arkitekturen kan till exempel hjälpa till vid användning av avatarskapande. Utgående från en enkel uppmaning kan RAG lägga till mycket mer färg och egenskaper till avataridéerna. Det kan generera många kandidatuppmaningar och ge mer kreativa idéer. Från dessa genererade bilder kan du hitta den perfekta passformen för den givna applikationen. Det ökar produktiviteten genom att automatiskt generera många snabba förslag. Variationen den kan komma på är den omedelbara fördelen med lösningen.

Lösningsöversikt

Att ge kunderna möjlighet att konstruera sin egen RAG-baserade AI-assistent för snabb design på AWS är ett bevis på mångsidigheten hos modern teknik. AWS tillhandahåller en uppsjö av alternativ och tjänster för att underlätta denna strävan. Följande referensarkitekturdiagram illustrerar en RAG-applikation för snabb design på AWS.

Förbättra dina stabila diffusionsuppmaningar med Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

När det gäller att välja rätt LLM för din AI-assistent erbjuder AWS ett spektrum av val för att tillgodose dina specifika krav.

För det första kan du välja LLM:er tillgängliga via SageMaker JumpStart, med hjälp av dedikerade instanser. Dessa instanser stöder en mängd olika modeller, inklusive Falcon, Llama 2, Bloom Z och Flan-T5, eller så kan du utforska proprietära modeller som Cohere's Command and Multilingual Embedding, eller Jurassic-2 från AI21 Labs.

Om du föredrar ett mer förenklat tillvägagångssätt, erbjuder AWS LLMs på Amazonas berggrund, med modeller som Amazon Titan och antropiske Claude. Dessa modeller är lättillgängliga genom enkla API-anrop, så att du kan utnyttja deras kraft utan ansträngning. Flexibiliteten och mångfalden av alternativ säkerställer att du har friheten att välja den LLM som bäst överensstämmer med dina snabba designmål, oavsett om du letar efter en innovation med öppna behållare eller de robusta egenskaperna hos proprietära modeller.

När det gäller att bygga den väsentliga vektordatabasen erbjuder AWS en mängd alternativ genom sina inbyggda tjänster. Du kan välja Amazon OpenSearch Service, Amazon-Aurora, eller Amazon Relational Database Service (Amazon RDS) för PostgreSQL, var och en erbjuder robusta funktioner för att passa dina specifika behov. Alternativt kan du utforska produkter från AWS-partner som Pinecone, Weaviate, Elastic, Milvus eller Chroma, som tillhandahåller specialiserade lösningar för effektiv vektorlagring och hämtning.

För att hjälpa dig komma igång med att konstruera en RAG-baserad AI-assistent för snabb design, har vi satt ihop en omfattande demonstration i vår GitHub förvaret. Denna demonstration använder följande resurser:

  • Bildgenerering: Stable Diffusion XL på Amazon Bedrock
  • Textinbäddning: Amazon Titan på Amazon Bedrock
  • Textgenerering: Claude 2 på Amazon Bedrock
  • Vektordatabas: FAISS, ett bibliotek med öppen källkod för effektiv likhetssökning
  • Promptbibliotek: Snabbexempel från DiffusionDB, den första storskaliga promptgalleridatauppsättningen för text-till-bild-generativa modeller

Dessutom har vi införlivat LangChain för LLM-implementering och Streamit för webbapplikationskomponenten, vilket ger en sömlös och användarvänlig upplevelse.

Förutsättningar

Du måste ha följande för att köra denna demoapplikation:

  • Ett AWS-konto
  • Grundläggande förståelse för hur man navigerar Amazon SageMaker Studio
  • Grundläggande förståelse för hur man laddar ner ett repo från GitHub
  • Grundläggande kunskap om att köra ett kommando på en terminal

Kör demoapplikationen

Du kan ladda ner all nödvändig kod med instruktioner från GitHub repo. Efter att applikationen har distribuerats kommer du att se en sida som följande skärmdump.

Förbättra dina stabila diffusionsuppmaningar med Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Med denna demonstration siktar vi på att göra implementeringsprocessen tillgänglig och begriplig, vilket ger dig en praktisk upplevelse för att kickstarta din resa in i RAG-världen och snabb design på AWS.

Städa upp

När du har provat appen, rensa upp dina resurser genom att stoppa appen.

Slutsats

RAG har dykt upp som ett spelförändrande paradigm i en värld av snabb design, vilket återupplivar Stable Diffusions text-till-bild-funktioner. Genom att harmonisera RAG-tekniker med befintliga tillvägagångssätt och använda de robusta resurserna i AWS, har vi avslöjat en väg till strömlinjeformad kreativitet och accelererat lärande.

För ytterligare resurser, besök följande:


Om författarna

Förbättra dina stabila diffusionsuppmaningar med Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.James Yi är senior AI/ML Partner Solutions Architect i Emerging Technologies-teamet på Amazon Web Services. Han brinner för att arbeta med företagskunder och partners för att designa, distribuera och skala AI/ML-applikationer för att få fram deras affärsvärden. Utanför jobbet tycker han om att spela fotboll, resa och umgås med sin familj.

Förbättra dina stabila diffusionsuppmaningar med Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Rumi Olsen är en lösningsarkitekt i AWS Partner Program. Hon är specialiserad på serverlösa och maskininlärningslösningar i sin nuvarande roll och har en bakgrund inom naturlig språkbehandlingsteknologi. Hon tillbringar större delen av sin fritid med sin dotter för att utforska naturen i Pacific Northwest.

Tidsstämpel:

Mer från AWS maskininlärning