Forbedre dine stabile diffusjonsmeldinger med Retrieval Augmented Generation | Amazon Web Services

Forbedre dine stabile diffusjonsmeldinger med Retrieval Augmented Generation | Amazon Web Services

Tekst-til-bilde generering er et raskt voksende felt av kunstig intelligens med applikasjoner innen en rekke områder, som media og underholdning, spill, visualisering av e-handelsprodukter, reklame og markedsføring, arkitektonisk design og visualisering, kunstneriske kreasjoner og medisinsk bildebehandling.

Stabil diffusjon er en tekst-til-bilde-modell som gir deg mulighet til å lage bilder av høy kvalitet i løpet av sekunder. I november 2022 har vi annonsert som AWS-kunder kan generere bilder fra tekst med Stabil diffusjon modeller i Amazon SageMaker JumpStart, et maskinlæringssenter (ML) som tilbyr modeller, algoritmer og løsninger. Evolusjonen fortsatte i april 2023 med introduksjonen av Amazonas grunnfjell, en fullstendig administrert tjeneste som tilbyr tilgang til banebrytende fundamentmodeller, inkludert Stable Diffusion, gjennom en praktisk API.

Etter hvert som et stadig økende antall kunder tar fatt på tekst-til-bilde-arbeidet, oppstår det en felles hindring – hvordan lage meldinger som har kraften til å gi høykvalitets, formålsdrevne bilder. Denne utfordringen krever ofte betydelig tid og ressurser ettersom brukere legger ut på en iterativ eksperimenteringsreise for å oppdage spørsmålene som stemmer overens med deres visjoner.

Retrieval Augmented Generation (RAG) er en prosess der en språkmodell henter kontekstuelle dokumenter fra en ekstern datakilde og bruker denne informasjonen til å generere mer nøyaktig og informativ tekst. Denne teknikken er spesielt nyttig for kunnskapsintensive naturlig språkbehandling (NLP) oppgaver. Vi utvider nå dens transformative touch til verden av tekst-til-bilde generering. I dette innlegget viser vi hvordan du kan utnytte kraften til RAG for å forbedre meldingene som sendes til dine stabile diffusjonsmodeller. Du kan lage din egen AI-assistent for rask generering på få minutter med store språkmodeller (LLMs) på Amazon Bedrock, så vel som på SageMaker JumpStart.

Tilnærminger til å lage tekst-til-bilde-forespørsel

Å lage en melding om en tekst-til-bilde-modell kan virke enkelt ved første øyekast, men det er en villedende kompleks oppgave. Det er mer enn å bare skrive noen få ord og forvente at modellen skal fremkalle et bilde som stemmer overens med ditt mentale bilde. Effektive oppfordringer bør gi klare instruksjoner samtidig som det gir rom for kreativitet. De må balansere spesifisitet og tvetydighet, og de bør skreddersys til den spesielle modellen som brukes. For å møte utfordringen med rask ingeniørarbeid, har industrien utforsket ulike tilnærminger:

  • Spør biblioteker – Noen selskaper kuraterer biblioteker med forhåndsskrevne forespørsler som du kan få tilgang til og tilpasse. Disse bibliotekene inneholder et bredt spekter av forespørsler skreddersydd for ulike brukstilfeller, slik at du kan velge eller tilpasse forespørsler som stemmer overens med dine spesifikke behov.
  • Spørsmål og retningslinjer – Mange bedrifter og organisasjoner gir brukerne et sett med forhåndsdefinerte forespørselsmaler og retningslinjer. Disse malene tilbyr strukturerte formater for å skrive spørsmål, noe som gjør det enkelt å lage effektive instruksjoner.
  • Fellesskap og brukerbidrag – Crowdsourcede plattformer og brukerfellesskap spiller ofte en betydelig rolle i å forbedre forespørsler. Brukere kan dele sine finjusterte modeller, vellykkede forespørsler, tips og beste fremgangsmåter med fellesskapet, og hjelpe andre med å lære og avgrense skriveferdighetene sine.
  • Finjustering av modellen – Bedrifter kan finjustere tekst-til-bilde-modellene sine for å bedre forstå og svare på spesifikke typer forespørsler. Finjustering kan forbedre modellytelsen for bestemte domener eller brukstilfeller.

Disse bransjetilnærmingene har samlet som mål å gjøre prosessen med å lage effektive tekst-til-bilde-meldinger mer tilgjengelige, brukervennlige og effektive, og til slutt forbedre brukervennligheten og allsidigheten til tekst-til-bilde-genereringsmodeller for et bredt spekter av applikasjoner.

Bruker RAG for rask design

I denne delen fordyper vi oss i hvordan RAG-teknikker kan tjene som en game changer i prompt engineering, og arbeider i harmoni med disse eksisterende tilnærmingene. Ved sømløst å integrere RAG i prosessen, kan vi strømlinjeforme og forbedre effektiviteten til rask design.

Semantisk søk ​​i en ledetekstdatabase

Tenk deg et selskap som har akkumulert et stort oppbevaringssted av ledetekster i ledetekstbiblioteket sitt eller har laget et stort antall ledetekstmaler, hver utformet for spesifikke brukstilfeller og mål. Tradisjonelt vil brukere som søker inspirasjon til tekst-til-bilde-forespørselen manuelt bla gjennom disse bibliotekene, ofte sile gjennom omfattende lister med alternativer. Denne prosessen kan være tidkrevende og ineffektiv. Ved å bygge inn forespørsler fra ledetekstbiblioteket ved å bruke tekstinnbyggingsmodeller, kan bedrifter bygge en semantisk søkemotor. Slik fungerer det:

  • Innbyggingsspørsmål – Selskapet bruker tekstinnbygging for å konvertere hver forespørsel i biblioteket til en numerisk representasjon. Disse innebyggingene fanger opp den semantiske betydningen og konteksten til ledetekstene.
  • Brukerspørring – Når brukere gir sine egne meldinger eller beskriver ønsket bilde, kan systemet analysere og bygge inn innspillet deres også.
  • Semantisk søk – Ved å bruke innebyggingene utfører systemet et semantisk søk. Den henter de mest relevante spørsmålene fra biblioteket basert på brukerens spørring, med tanke på både brukerens inndata og historiske data i ledetekstbiblioteket.

Ved å implementere semantisk søk ​​i spørsmålsbibliotekene sine, gir bedrifter sine ansatte mulighet til å få tilgang til et stort reservoar av spørsmål uten problemer. Denne tilnærmingen akselererer ikke bare rask oppretting, men oppmuntrer også til kreativitet og konsistens i tekst-til-bilde-generering.y

Forbedre dine stabile diffusjonsmeldinger med Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Spør generering fra semantisk søk

Selv om semantisk søk ​​effektiviserer prosessen med å finne relevante forespørsler, tar RAG det et skritt videre ved å bruke disse søkeresultatene til å generere optimaliserte forespørsler. Slik fungerer det:

  • Semantiske søkeresultater – Etter å ha hentet de mest relevante spørsmålene fra biblioteket, presenterer systemet disse ledetekstene for brukeren, sammen med brukerens originale input.
  • Tekstgenereringsmodell – Brukeren kan velge en forespørsel fra søkeresultatene eller gi ytterligere kontekst på preferansene sine. Systemet mater både den valgte forespørselen og brukerens input til en LLM.
  • Optimalisert forespørsel – LLM, med sin forståelse av språknyanser, lager en optimalisert ledetekst som kombinerer elementer fra den valgte ledeteksten og brukerens input. Denne nye forespørselen er skreddersydd for brukerens krav og er designet for å gi ønsket bildeutgang.

Kombinasjonen av semantisk søk ​​og promptgenerering forenkler ikke bare prosessen med å finne ledetekster, men sikrer også at ledetekstene som genereres er svært relevante og effektive. Det gir deg mulighet til å finjustere og tilpasse forespørslene dine, noe som til slutt fører til forbedrede tekst-til-bilde-genereringsresultater. Følgende er eksempler på bilder generert fra Stable Diffusion XL ved å bruke ledetekstene fra semantisk søk ​​og promptgenerering.

Opprinnelig ledetekst Forespørsler fra semantisk søk Optimalisert spørsmål fra LLM

en tegneserie av en liten hund

Forbedre dine stabile diffusjonsmeldinger med Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

  • søt tegneserie av en hund som har en sandwich ved middagsbordet
  • en tegneserieillustrasjon av en punkhund, anime-stil, hvit bakgrunn
  • en tegneserie av en gutt og hunden hans som går nedover en skogsvei

Forbedre dine stabile diffusjonsmeldinger med Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

En tegneseriescene av en gutt som lykkelig går hånd i hånd ned en skogvei med sin søte kjæledyrhund, i animasjonsstil.

Forbedre dine stabile diffusjonsmeldinger med Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

RAG-baserte designapplikasjoner på tvers av ulike bransjer

Før vi utforsker bruken av vår foreslåtte RAG-arkitektur, la oss starte med en bransje der en bildegenereringsmodell er mest anvendelig. I AdTech er hastighet og kreativitet avgjørende. RAG-basert promptgenerering kan tilføre umiddelbar verdi ved å generere prompte forslag for å lage mange bilder raskt for en annonsekampanje. Menneskelige beslutningstakere kan gå gjennom de automatisk genererte bildene for å velge kandidatbildet for kampanjen. Denne funksjonen kan være en frittstående applikasjon eller innebygd i populære programvareverktøy og plattformer som for tiden er tilgjengelige.

En annen bransje der Stable Diffusion-modellen kan øke produktiviteten er media og underholdning. RAG-arkitekturen kan for eksempel hjelpe til med bruk av avatarer. Med utgangspunkt i en enkel oppfordring kan RAG legge til mye mer farge og egenskaper til avatar-ideene. Det kan generere mange kandidatmeldinger og gi mer kreative ideer. Fra disse genererte bildene kan du finne den perfekte passformen for den gitte applikasjonen. Det øker produktiviteten ved automatisk å generere mange spørsmål. Variasjonen den kan komme opp med er den umiddelbare fordelen med løsningen.

Løsningsoversikt

Å gi kunder mulighet til å konstruere sin egen RAG-baserte AI-assistent for rask design på AWS er ​​et bevis på allsidigheten til moderne teknologi. AWS tilbyr en mengde alternativer og tjenester for å lette denne bestrebelsen. Følgende referansearkitekturdiagram illustrerer en RAG-applikasjon for rask design på AWS.

Forbedre dine stabile diffusjonsmeldinger med Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Når det gjelder å velge de riktige LLM-ene for AI-assistenten din, tilbyr AWS et spekter av valg for å imøtekomme dine spesifikke krav.

For det første kan du velge LLM-er tilgjengelig gjennom SageMaker JumpStart, ved å bruke dedikerte forekomster. Disse forekomstene støtter en rekke modeller, inkludert Falcon, Llama 2, Bloom Z og Flan-T5, eller du kan utforske proprietære modeller som Cohere’s Command and Multilingual Embedding, eller Jurassic-2 fra AI21 Labs.

Hvis du foretrekker en mer forenklet tilnærming, tilbyr AWS LLMs på Amazonas grunnfjell, med modeller som Amazon Titan og antropiske Claude. Disse modellene er lett tilgjengelige gjennom enkle API-anrop, slik at du enkelt kan utnytte kraften deres. Fleksibiliteten og mangfoldet av alternativer sikrer at du har friheten til å velge den LLM som passer best med dine umiddelbare designmål, enten du leter etter en innovasjon med åpne beholdere eller de robuste egenskapene til proprietære modeller.

Når det gjelder å bygge den essensielle vektordatabasen, tilbyr AWS en rekke alternativer gjennom deres opprinnelige tjenester. Du kan velge Amazon OpenSearch-tjeneste, Amazonas Auroraeller Amazon Relational Database Service (Amazon RDS) for PostgreSQL, som hver tilbyr robuste funksjoner for å passe dine spesifikke behov. Alternativt kan du utforske produkter fra AWS-partnere som Pinecone, Weaviate, Elastic, Milvus eller Chroma, som tilbyr spesialiserte løsninger for effektiv vektorlagring og gjenfinning.

For å hjelpe deg med å komme i gang med å konstruere en RAG-basert AI-assistent for rask design, har vi satt sammen en omfattende demonstrasjon i vår GitHub oppbevaringssted. Denne demonstrasjonen bruker følgende ressurser:

  • Bildegenerering: Stable Diffusion XL på Amazon Bedrock
  • Tekstinnbygging: Amazon Titan på Amazonas grunnfjell
  • Tekstgenerering: Claude 2 på Amazon Bedrock
  • Vektordatabase: FAISS, et åpen kildekode-bibliotek for effektivt likhetssøk
  • Spørrebibliotek: Spørre eksempler fra DiffusjonDB, det første store forespørselsgalleridatasettet for tekst-til-bilde-generative modeller

I tillegg har vi inkorporert LangChain for LLM-implementering og Streamit for nettapplikasjonskomponenten, noe som gir en sømløs og brukervennlig opplevelse.

Forutsetninger

Du må ha følgende for å kjøre denne demoapplikasjonen:

  • En AWS-konto
  • Grunnleggende forståelse for hvordan du navigerer Amazon SageMaker Studio
  • Grunnleggende forståelse av hvordan du laster ned en repo fra GitHub
  • Grunnleggende kunnskap om å kjøre en kommando på en terminal

Kjør demoapplikasjonen

Du kan laste ned all nødvendig kode med instruksjoner fra GitHub repo. Etter at applikasjonen er distribuert, vil du se en side som følgende skjermbilde.

Forbedre dine stabile diffusjonsmeldinger med Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Med denne demonstrasjonen tar vi sikte på å gjøre implementeringsprosessen tilgjengelig og forståelig, og gi deg en praktisk opplevelse for å kickstarte reisen din inn i RAG-verdenen og rask design på AWS.

Rydd opp

Etter at du har prøvd appen, kan du rydde opp i ressursene dine ved å stoppe applikasjonen.

konklusjonen

RAG har dukket opp som et spillendrende paradigme i verden av rask design, og revitaliserer Stable Diffusions tekst-til-bilde-funksjoner. Ved å harmonisere RAG-teknikker med eksisterende tilnærminger og bruke de robuste ressursene til AWS, har vi avdekket en vei til strømlinjeformet kreativitet og akselerert læring.

For ytterligere ressurser, besøk følgende:


Om forfatterne

Forbedre dine stabile diffusjonsmeldinger med Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.James Yi er senior AI/ML Partner Solutions Architect i Emerging Technologies-teamet hos Amazon Web Services. Han brenner for å jobbe med bedriftskunder og partnere for å designe, distribuere og skalere AI/ML-applikasjoner for å utlede deres forretningsverdier. Utenom jobben liker han å spille fotball, reise og tilbringe tid med familien.

Forbedre dine stabile diffusjonsmeldinger med Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Rumi Olsen er en løsningsarkitekt i AWS Partner Program. Hun spesialiserer seg på serverløse og maskinlæringsløsninger i sin nåværende rolle, og har bakgrunn fra naturlig språkbehandlingsteknologi. Hun tilbringer mesteparten av fritiden med datteren sin på å utforske naturen i Pacific Northwest.

Tidstempel:

Mer fra AWS maskinlæring