Forbedre dine stabile diffusionsmeddelelser med Retrieval Augmented Generation | Amazon Web Services

Forbedre dine stabile diffusionsmeddelelser med Retrieval Augmented Generation | Amazon Web Services

Tekst-til-billede-generering er et hastigt voksende felt af kunstig intelligens med applikationer inden for en række forskellige områder, såsom medier og underholdning, spil, e-handelsproduktvisualisering, reklame og marketing, arkitektonisk design og visualisering, kunstneriske kreationer og medicinsk billedbehandling.

Stabil diffusion er en tekst-til-billede-model, der giver dig mulighed for at skabe billeder i høj kvalitet på få sekunder. I november 2022 har vi annoncerede som AWS-kunder kan generere billeder fra tekst med Stabil diffusion modeller i Amazon SageMaker JumpStart, en hub for maskinlæring (ML), der tilbyder modeller, algoritmer og løsninger. Udviklingen fortsatte i april 2023 med introduktionen af Amazonas grundfjeld, en fuldt administreret tjeneste, der tilbyder adgang til banebrydende fundamentmodeller, inklusive stabil diffusion, gennem en praktisk API.

Efterhånden som et stadigt stigende antal kunder går i gang med deres tekst-til-billede-bestræbelser, opstår der en fælles forhindring - hvordan man laver prompter, der har magten til at give højkvalitets, formålsdrevne billeder. Denne udfordring kræver ofte betydelig tid og ressourcer, når brugerne begiver sig ud på en iterativ eksperimenterende rejse for at opdage de tilskyndelser, der stemmer overens med deres visioner.

Retrieval Augmented Generation (RAG) er en proces, hvor en sprogmodel henter kontekstuelle dokumenter fra en ekstern datakilde og bruger denne information til at generere mere nøjagtig og informativ tekst. Denne teknik er især nyttig til videnintensive NLP-opgaver (natural language processing). Vi udvider nu dens transformative touch til verden af ​​tekst-til-billede generering. I dette indlæg demonstrerer vi, hvordan du kan udnytte kraften i RAG til at forbedre de prompter, der sendes til dine stabile diffusionsmodeller. Du kan oprette din egen AI-assistent til hurtig generering på få minutter med store sprogmodeller (LLM'er) på Amazon Bedrock såvel som på SageMaker JumpStart.

Tilgange til at lave tekst-til-billede-prompter

At oprette en prompt til en tekst-til-billede-model kan virke ligetil ved første øjekast, men det er en vildledende kompleks opgave. Det er mere end bare at skrive et par ord og forvente, at modellen fremkalder et billede, der stemmer overens med dit mentale billede. Effektive prompter bør give klare instruktioner, samtidig med at der er plads til kreativitet. De skal balancere specificitet og tvetydighed, og de bør skræddersyes til den særlige model, der anvendes. For at løse udfordringen med hurtig ingeniørarbejde har industrien udforsket forskellige tilgange:

  • Spørg biblioteker – Nogle virksomheder kuraterer biblioteker med forudskrevne prompter, som du kan få adgang til og tilpasse. Disse biblioteker indeholder en bred vifte af prompter, der er skræddersyet til forskellige use cases, så du kan vælge eller tilpasse prompter, der passer til dine specifikke behov.
  • Spørg skabeloner og retningslinjer – Mange virksomheder og organisationer giver brugerne et sæt foruddefinerede promptskabeloner og retningslinjer. Disse skabeloner tilbyder strukturerede formater til at skrive prompter, hvilket gør det nemt at lave effektive instruktioner.
  • Fællesskabs- og brugerbidrag – Crowdsourcede platforme og brugerfællesskaber spiller ofte en væsentlig rolle i at forbedre prompts. Brugere kan dele deres finjusterede modeller, vellykkede prompter, tips og bedste praksis med fællesskabet og hjælpe andre med at lære og forfine deres prompt-skrivefærdigheder.
  • Model finjustering – Virksomheder kan finjustere deres tekst-til-billede-modeller for bedre at forstå og reagere på specifikke typer forespørgsler. Finjustering kan forbedre modellens ydeevne for bestemte domæner eller use cases.

Disse industritilgange sigter tilsammen på at gøre processen med at skabe effektive tekst-til-billede-prompter mere tilgængelige, brugervenlige og effektive, hvilket i sidste ende forbedrer anvendeligheden og alsidigheden af ​​tekst-til-billede-genereringsmodeller til en bred vifte af applikationer.

Brug af RAG til hurtig design

I dette afsnit dykker vi ned i, hvordan RAG-teknikker kan fungere som en game changer i hurtig konstruktion, og arbejder i harmoni med disse eksisterende tilgange. Ved problemfrit at integrere RAG i processen kan vi strømline og forbedre effektiviteten af ​​hurtigt design.

Semantisk søgning i en promptdatabase

Forestil dig en virksomhed, der har akkumuleret et stort lager af prompter i sit promptbibliotek eller har skabt et stort antal promptskabeloner, der hver især er designet til specifikke use cases og mål. Traditionelt ville brugere, der søger inspiration til deres tekst-til-billede-prompter, manuelt gennemse disse biblioteker og ofte gennemsøge omfattende lister over muligheder. Denne proces kan være tidskrævende og ineffektiv. Ved at indlejre prompter fra promptbiblioteket ved hjælp af tekstindlejringsmodeller kan virksomheder bygge en semantisk søgemaskine. Sådan fungerer det:

  • Indlejringsprompter – Virksomheden bruger tekstindlejringer til at konvertere hver prompt i sit bibliotek til en numerisk repræsentation. Disse indlejringer fanger den semantiske betydning og kontekst af prompterne.
  • Brugerforespørgsel – Når brugere giver deres egne prompter eller beskriver deres ønskede billede, kan systemet også analysere og integrere deres input.
  • Semantisk søgning – Ved hjælp af indlejringerne udfører systemet en semantisk søgning. Den henter de mest relevante prompter fra biblioteket baseret på brugerens forespørgsel, idet der tages hensyn til både brugerens input og historiske data i promptbiblioteket.

Ved at implementere semantisk søgning i deres promptbiblioteker giver virksomhederne deres medarbejdere mulighed for at få adgang til et stort reservoir af prompter uden besvær. Denne tilgang fremskynder ikke kun hurtig oprettelse, men fremmer også kreativitet og konsekvens i tekst-til-billede-generering.y

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Hurtig generering fra semantisk søgning

Selvom semantisk søgning strømliner processen med at finde relevante prompter, tager RAG det et skridt videre ved at bruge disse søgeresultater til at generere optimerede prompter. Sådan fungerer det:

  • Semantiske søgeresultater – Efter at have hentet de mest relevante prompter fra biblioteket, præsenterer systemet disse prompter for brugeren sammen med brugerens originale input.
  • Tekstgenereringsmodel – Brugeren kan vælge en prompt fra søgeresultaterne eller give yderligere kontekst til deres præferencer. Systemet feeder både den valgte prompt og brugerens input til en LLM.
  • Optimeret prompt – LLM'en skaber med sin forståelse af sprognuancer en optimeret prompt, der kombinerer elementer fra den valgte prompt og brugerens input. Denne nye prompt er skræddersyet til brugerens krav og er designet til at give det ønskede billedoutput.

Kombinationen af ​​semantisk søgning og generering af prompter forenkler ikke kun processen med at finde prompter, men sikrer også, at de genererede prompter er yderst relevante og effektive. Det giver dig mulighed for at finjustere og tilpasse dine prompter, hvilket i sidste ende fører til forbedrede tekst-til-billede-genereringsresultater. Følgende er eksempler på billeder genereret fra Stable Diffusion XL ved hjælp af prompter fra semantisk søgning og promptgenerering.

Original prompt Spørgsmål fra semantisk søgning Optimeret prompt af LLM

en tegneserie af en lille hund

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

  • sød tegneserie af en hund, der har en sandwich ved middagsbordet
  • en tegneserieillustration af en punkhund, anime-stil, hvid baggrund
  • en tegneserie af en dreng og hans hund, der går ned ad en skovvej

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

En tegneseriescene af en dreng, der glad går hånd i hånd ned ad en skovvej med sin søde hund, i animationsstil.

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

RAG-baserede hurtige designapplikationer på tværs af forskellige industrier

Før vi undersøger anvendelsen af ​​vores foreslåede RAG-arkitektur, lad os starte med en industri, hvor en billedgenereringsmodel er mest anvendelig. I AdTech er hurtighed og kreativitet afgørende. RAG-baseret promptgenerering kan tilføje øjeblikkelig værdi ved at generere prompteforslag til at skabe mange billeder hurtigt til en reklamekampagne. Menneskelige beslutningstagere kan gennemgå de automatisk genererede billeder for at vælge kandidatbilledet til kampagnen. Denne funktion kan være en selvstændig applikation eller indlejret i populære softwareværktøjer og platforme, der er tilgængelige i øjeblikket.

En anden industri, hvor stabil diffusionsmodellen kan øge produktiviteten, er medier og underholdning. RAG-arkitekturen kan f.eks. assistere ved brug af avatar-oprettelse. Med udgangspunkt i en simpel prompt kan RAG tilføje meget mere farve og karakteristika til avatar-ideerne. Det kan generere mange kandidatprompter og give mere kreative ideer. Ud fra disse genererede billeder kan du finde den perfekte pasform til den givne applikation. Det øger produktiviteten ved automatisk at generere mange hurtige forslag. Variationen, det kan komme med, er den umiddelbare fordel ved løsningen.

Løsningsoversigt

At give kunderne mulighed for at konstruere deres egen RAG-baserede AI-assistent til hurtigt design på AWS er ​​et vidnesbyrd om alsidigheden af ​​moderne teknologi. AWS tilbyder et væld af muligheder og tjenester for at lette denne bestræbelse. Følgende referencearkitekturdiagram illustrerer en RAG-applikation til hurtig design på AWS.

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Når det kommer til at vælge de rigtige LLM'er til din AI-assistent, tilbyder AWS et spektrum af valgmuligheder for at imødekomme dine specifikke krav.

For det første kan du vælge LLM'er, der er tilgængelige via SageMaker JumpStart, ved at bruge dedikerede instanser. Disse instanser understøtter en række forskellige modeller, inklusive Falcon, Llama 2, Bloom Z og Flan-T5, eller du kan udforske proprietære modeller såsom Cohere's Command and Multilingual Embedding eller Jurassic-2 fra AI21 Labs.

Hvis du foretrækker en mere forenklet tilgang, tilbyder AWS LLM'er på Amazonas grundfjeld, med modeller som Amazon Titan og antropiske Claude. Disse modeller er let tilgængelige gennem ligetil API-kald, så du nemt kan udnytte deres kraft. Fleksibiliteten og mangfoldigheden af ​​muligheder sikrer, at du har friheden til at vælge den LLM, der passer bedst til dine prompte designmål, uanset om du søger en innovation med åbne beholdere eller de robuste muligheder i proprietære modeller.

Når det kommer til at opbygge den essentielle vektordatabase, tilbyder AWS et væld af muligheder gennem deres oprindelige tjenester. Du kan vælge Amazon OpenSearch Service, Amazon Aurora eller Amazon Relational Database Service (Amazon RDS) til PostgreSQL, der hver tilbyder robuste funktioner, der passer til dine specifikke behov. Alternativt kan du udforske produkter fra AWS-partnere som Pinecone, Weaviate, Elastic, Milvus eller Chroma, som leverer specialiserede løsninger til effektiv vektorlagring og -hentning.

For at hjælpe dig i gang med at konstruere en RAG-baseret AI-assistent til hurtigt design, har vi sammensat en omfattende demonstration i vores GitHub depot. Denne demonstration bruger følgende ressourcer:

  • Billedgenerering: Stable Diffusion XL på Amazon Bedrock
  • Tekstindlejring: Amazon Titan på Amazon Bedrock
  • Tekstgenerering: Claude 2 på Amazon Bedrock
  • Vektordatabase: FAISS, et open source-bibliotek til effektiv lighedssøgning
  • Prompt bibliotek: Spørg eksempler fra DiffusionDB, det første storstilede promptgalleridatasæt til tekst-til-billede-generative modeller

Derudover har vi inkorporeret LangChain til LLM-implementering og Streamit til webapplikationskomponenten, hvilket giver en problemfri og brugervenlig oplevelse.

Forudsætninger

Du skal have følgende for at køre denne demoapplikation:

  • En AWS-konto
  • Grundlæggende forståelse for, hvordan man navigerer Amazon SageMaker Studio
  • Grundlæggende forståelse af, hvordan man downloader et repo fra GitHub
  • Grundlæggende viden om at køre en kommando på en terminal

Kør demoapplikationen

Du kan downloade al den nødvendige kode med instruktioner fra GitHub repo. Efter applikationen er implementeret, vil du se en side som følgende skærmbillede.

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Med denne demonstration sigter vi mod at gøre implementeringsprocessen tilgængelig og forståelig, hvilket giver dig en praktisk oplevelse til at kickstarte din rejse ind i RAG-verdenen og hurtigt design på AWS.

Ryd op

Når du har prøvet appen, skal du rydde op i dine ressourcer ved at stoppe applikationen.

Konklusion

RAG er dukket op som et spilskiftende paradigme i verden af ​​prompt design, der revitaliserer Stable Diffusions tekst-til-billede-funktioner. Ved at harmonisere RAG-teknikker med eksisterende tilgange og bruge de robuste ressourcer fra AWS, har vi afsløret en vej til strømlinet kreativitet og accelereret læring.

Besøg følgende for yderligere ressourcer:


Om forfatterne

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.James Yi er senior AI/ML Partner Solutions Architect i Emerging Technologies-teamet hos Amazon Web Services. Han brænder for at arbejde med virksomhedskunder og partnere for at designe, implementere og skalere AI/ML-applikationer for at udlede deres forretningsværdier. Uden for arbejdet nyder han at spille fodbold, rejse og tilbringe tid med sin familie.

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Rumi Olsen er Solutions Architect i AWS Partner Program. Hun har specialiseret sig i serverløse og maskinlæringsløsninger i sin nuværende rolle og har en baggrund i naturlige sprogbehandlingsteknologier. Hun bruger det meste af sin fritid sammen med sin datter på at udforske naturen i Pacific Northwest.

Tidsstempel:

Mere fra AWS maskinindlæring