Izboljšajte svoje pozive Stable Diffusion z Retrieval Augmented Generation | Spletne storitve Amazon

Izboljšajte svoje pozive Stable Diffusion z Retrieval Augmented Generation | Spletne storitve Amazon

Generiranje besedila v sliko je hitro rastoče področje umetne inteligence z aplikacijami na različnih področjih, kot so mediji in zabava, igre, vizualizacija izdelkov elektronske trgovine, oglaševanje in trženje, arhitekturno oblikovanje in vizualizacija, umetniške stvaritve in medicinsko slikanje.

Stabilna difuzija je model besedila v sliko, ki vam omogoča ustvarjanje visokokakovostnih slik v nekaj sekundah. Novembra 2022 smo razglasitve s katerimi lahko stranke AWS ustvarijo slike iz besedila Stabilna difuzija modeli v Amazon SageMaker JumpStart, središče strojnega učenja (ML), ki ponuja modele, algoritme in rešitve. Razvoj se je aprila 2023 nadaljeval z uvedbo Amazon Bedrock, popolnoma upravljana storitev, ki ponuja dostop do najsodobnejših temeljnih modelov, vključno s Stable Diffusion, prek priročnega API-ja.

Ko se vse več strank loti svojih prizadevanj za pretvorbo besedila v sliko, se pojavlja pogosta ovira – kako oblikovati pozive, ki imajo moč za ustvarjanje visokokakovostnih, namensko usmerjenih slik. Ta izziv pogosto zahteva precej časa in sredstev, saj se uporabniki podajajo na ponavljajočo se pot eksperimentiranja, da bi odkrili pozive, ki so v skladu z njihovimi vizijami.

Retrieval Augmented Generation (RAG) je postopek, v katerem jezikovni model pridobi kontekstualne dokumente iz zunanjega vira podatkov in uporabi te informacije za ustvarjanje natančnejšega in informativnega besedila. Ta tehnika je še posebej uporabna za naloge obdelave naravnega jezika (NLP), ki zahtevajo veliko znanja. Zdaj razširimo njegov transformativni pridih na svet ustvarjanja besedila v sliko. V tej objavi prikazujemo, kako izkoristiti moč RAG za izboljšanje pozivov, poslanih vašim modelom Stable Diffusion. Ustvarite lahko lastnega pomočnika AI za hitro generiranje v nekaj minutah z velikimi jezikovnimi modeli (LLM) na Amazon Bedrock, kot tudi na SageMaker JumpStart.

Pristopi k oblikovanju pozivov besedila v sliko

Ustvarjanje poziva za model besedila v sliko se na prvi pogled morda zdi preprosto, vendar je to varljivo zapletena naloga. To je več kot le vtipkati nekaj besed in pričakovati, da bo model pričaral podobo, ki se ujema z vašo mentalno podobo. Učinkoviti pozivi morajo zagotavljati jasna navodila, hkrati pa pustiti prostor za ustvarjalnost. Morajo uravnotežiti specifičnost in dvoumnost ter morajo biti prilagojeni posameznemu uporabljenemu modelu. Za reševanje izziva hitrega inženiringa je industrija raziskala različne pristope:

  • Prompt knjižnice – Nekatera podjetja urejajo knjižnice vnaprej napisanih pozivov, do katerih lahko dostopate in jih prilagodite. Te knjižnice vsebujejo široko paleto pozivov, prilagojenih različnim primerom uporabe, kar vam omogoča, da izberete ali prilagodite pozive, ki ustrezajo vašim posebnim potrebam.
  • Pozivne predloge in smernice – Številna podjetja in organizacije uporabnikom ponujajo nabor vnaprej določenih predlog za pozive in smernic. Te predloge ponujajo strukturirane formate za pisanje pozivov, kar olajša ustvarjanje učinkovitih navodil.
  • Prispevki skupnosti in uporabnikov – Množične platforme in uporabniške skupnosti pogosto igrajo pomembno vlogo pri izboljšanju pozivov. Uporabniki lahko delijo svoje natančno nastavljene modele, uspešne pozive, nasvete in najboljše prakse s skupnostjo, s čimer drugim pomagajo pri učenju in izboljšanju njihovih veščin hitrega pisanja.
  • Natančna nastavitev modela – Podjetja lahko izpopolnijo svoje modele besedila v sliko, da bolje razumejo in se odzovejo na posebne vrste pozivov. Natančna nastavitev lahko izboljša zmogljivost modela za določene domene ali primere uporabe.

Skupni cilj teh industrijskih pristopov je narediti proces oblikovanja učinkovitih pozivov za pretvorbo besedila v sliko bolj dostopen, uporabniku prijazen in učinkovit, kar na koncu izboljša uporabnost in vsestranskost modelov generiranja besedila v sliko za širok spekter aplikacij.

Uporaba RAG za hitro načrtovanje

V tem razdelku se poglobimo v to, kako lahko tehnike RAG služijo kot sprememba igre pri hitrem inženiringu in delujejo v harmoniji s temi obstoječimi pristopi. Z brezhibno integracijo RAG v proces lahko poenostavimo in izboljšamo učinkovitost hitrega načrtovanja.

Semantično iskanje v promptni bazi podatkov

Predstavljajte si podjetje, ki je v svoji knjižnici pozivov zbralo obsežno skladišče pozivov ali ustvarilo veliko število predlog pozivov, od katerih je vsaka zasnovana za posebne primere uporabe in cilje. Običajno so uporabniki, ki iščejo navdih za svoje pozive za pretvorbo besedila v sliko, ročno brskali po teh knjižnicah in pogosto brskali po obsežnih seznamih možnosti. Ta postopek je lahko dolgotrajen in neučinkovit. Z vdelavo pozivov iz knjižnice pozivov z uporabo modelov za vdelavo besedila lahko podjetja zgradijo semantični iskalnik. Takole deluje:

  • Pozivi za vdelavo – Podjetje uporablja besedilne vdelave za pretvorbo vsakega poziva v svoji knjižnici v numerično predstavitev. Te vdelave zajamejo semantični pomen in kontekst pozivov.
  • Uporabniška poizvedba – Ko uporabniki podajo lastne pozive ali opišejo želeno sliko, lahko sistem analizira in vdela tudi njihov vnos.
  • Semantično iskanje – Z uporabo vdelav sistem izvaja semantično iskanje. Pridobi najpomembnejše pozive iz knjižnice na podlagi uporabnikove poizvedbe, pri čemer upošteva tako uporabnikov vnos kot zgodovinske podatke v knjižnici pozivov.

Z implementacijo semantičnega iskanja v svojih knjižnicah pozivov podjetja svojim zaposlenim omogočijo dostop do obsežnega rezervoarja pozivov brez truda. Ta pristop ne le pospeši hitro ustvarjanje, ampak tudi spodbuja ustvarjalnost in doslednost pri ustvarjanju besedila v sliko.y

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Hitro ustvarjanje iz semantičnega iskanja

Čeprav semantično iskanje poenostavi postopek iskanja ustreznih pozivov, RAG naredi korak dlje z uporabo teh rezultatov iskanja za ustvarjanje optimiziranih pozivov. Takole deluje:

  • Semantični rezultati iskanja – Po pridobivanju najpomembnejših pozivov iz knjižnice sistem te pozive prikaže uporabniku poleg izvirnega vnosa uporabnika.
  • Model generiranja besedila – Uporabnik lahko izbere poziv iz rezultatov iskanja ali poda nadaljnji kontekst glede svojih preferenc. Sistem posreduje izbrani poziv in uporabnikov vnos v LLM.
  • Optimiziran poziv – LLM s svojim razumevanjem jezikovnih odtenkov oblikuje optimiziran poziv, ki združuje elemente iz izbranega poziva in uporabnikovega vnosa. Ta novi poziv je prilagojen zahtevam uporabnika in je zasnovan tako, da daje želeno sliko.

Kombinacija semantičnega iskanja in generiranja pozivov ne le poenostavi postopka iskanja pozivov, ampak tudi zagotavlja, da so ustvarjeni pozivi zelo ustrezni in učinkoviti. Omogoča vam natančno nastavitev in prilagajanje vaših pozivov, kar na koncu vodi do izboljšanih rezultatov ustvarjanja besedila v sliko. Sledijo primeri slik, ustvarjenih s programom Stable Diffusion XL z uporabo pozivov semantičnega iskanja in ustvarjanja pozivov.

Originalni poziv Pozivi iz semantičnega iskanja Optimiziran poziv LLM

risanka kužka

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

  • ljubka risanka psa, ki ima sendvič za večerjo
  • risana ilustracija punk psa, anime stil, belo ozadje
  • risanka dečka in njegovega psa, ki se sprehajata po gozdnem pasu

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Risani prizor dečka, ki se veselo sprehaja z roko v roki po gozdnem pasu s svojim srčkanim hišnim psom, v slogu animacije.

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Aplikacije za hitro načrtovanje, ki temeljijo na RAG, v različnih panogah

Preden raziščemo uporabo naše predlagane arhitekture RAG, začnimo z industrijo, v kateri je model generiranja slik najbolj uporaben. V AdTechu sta hitrost in ustvarjalnost ključnega pomena. Generiranje pozivov na osnovi RAG lahko doda takojšnjo vrednost z ustvarjanjem predlogov za hitro ustvarjanje številnih slik za oglaševalsko akcijo. Ljudje, ki sprejemajo odločitve, lahko pregledajo samodejno ustvarjene slike, da izberejo sliko kandidata za kampanjo. Ta funkcija je lahko samostojna aplikacija ali vdelana v priljubljena programska orodja in platforme, ki so trenutno na voljo.

Druga panoga, v kateri lahko model stabilne difuzije poveča produktivnost, so mediji in zabava. Arhitektura RAG lahko na primer pomaga pri uporabi ustvarjanja avatarjev. Začenši s preprostim pozivom, lahko RAG doda veliko več barv in značilnosti idejam za avatarje. Ustvari lahko veliko pozivov za kandidate in ponudi bolj ustvarjalne zamisli. Iz teh ustvarjenih slik lahko najdete popolno prileganje za dano aplikacijo. Poveča produktivnost s samodejnim ustvarjanjem številnih hitrih predlogov. Različica, do katere lahko pride, je takojšnja korist rešitve.

Pregled rešitev

Opolnomočenje strank, da izdelajo lastnega pomočnika AI, ki temelji na RAG, za hitro načrtovanje v AWS je dokaz vsestranskosti sodobne tehnologije. AWS ponuja obilico možnosti in storitev za olajšanje tega prizadevanja. Naslednji diagram referenčne arhitekture ponazarja aplikacijo RAG za hitro načrtovanje na AWS.

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Ko gre za izbiro pravih LLM-jev za vašega pomočnika z umetno inteligenco, AWS ponuja spekter izbir, ki ustrezajo vašim posebnim zahtevam.

Prvič, lahko se odločite za LLM, ki je na voljo prek SageMaker JumpStart, z uporabo namenskih primerkov. Ti primerki podpirajo različne modele, vključno s Falcon, Llama 2, Bloom Z in Flan-T5, ali pa lahko raziščete lastniške modele, kot sta Cohere's Command in Multilingual Embedding, ali Jurassic-2 iz AI21 Labs.

Če imate raje bolj poenostavljen pristop, AWS ponuja LLM na Amazon Bedrock, ki prikazuje modele, kot je Amazon Titan in Antropični Claude. Ti modeli so zlahka dostopni prek enostavnih klicev API-ja, kar vam omogoča, da brez težav izkoristite njihovo moč. Prilagodljivost in raznolikost možnosti zagotavljata, da imate svobodo pri izbiri LLM, ki se najbolje ujema z vašimi cilji hitrega oblikovanja, ne glede na to, ali iščete inovacijo z odprtimi vsebniki ali robustne zmogljivosti lastniških modelov.

Ko gre za gradnjo bistvene vektorske baze podatkov, AWS ponuja številne možnosti prek svojih domačih storitev. Lahko se odločite za Storitev Amazon OpenSearch, Amazonska Auroraali Amazon Relational Database Service (Amazon RDS) za PostgreSQL, od katerih vsak ponuja robustne funkcije, ki ustrezajo vašim posebnim potrebam. Druga možnost je, da raziščete izdelke partnerjev AWS, kot so Pinecone, Weaviate, Elastic, Milvus ali Chroma, ki zagotavljajo specializirane rešitve za učinkovito vektorsko shranjevanje in iskanje.

Da bi vam pomagali začeti sestavljati pomočnika AI, ki temelji na RAG, za hitro načrtovanje, smo pripravili obsežno predstavitev v našem GitHub repozitorij. Ta predstavitev uporablja naslednje vire:

  • Generiranje slike: Stable Diffusion XL na Amazon Bedrock
  • Vdelava besedila: Amazon Titan na Amazon Bedrock
  • Generiranje besedila: Claude 2 na Amazon Bedrock
  • Vektorska zbirka podatkov: FAISS, odprtokodna knjižnica za učinkovito iskanje podobnosti
  • Knjižnica pozivov: Primeri pozivov iz DiffusionDB, prvi nabor podatkov galerije pozivov velikega obsega za generativne modele besedila v sliko

Poleg tega smo vključili LangChain za implementacijo LLM in Streamit za komponento spletne aplikacije, kar zagotavlja brezhibno in uporabniku prijazno izkušnjo.

Predpogoji

Za zagon te predstavitvene aplikacije morate imeti naslednje:

  • AWS račun
  • Osnovno razumevanje navigacije Amazon SageMaker Studio
  • Osnovno razumevanje, kako prenesti repo iz GitHub
  • Osnovno znanje izvajanja ukaza na terminalu

Zaženite demo aplikacijo

Vso potrebno kodo z navodili lahko prenesete iz GitHub repo. Ko je aplikacija uvedena, boste videli stran, kot je ta posnetek zaslona.

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

S to predstavitvijo želimo narediti postopek implementacije dostopen in razumljiv ter vam ponuditi praktično izkušnjo za hiter začetek vaše poti v svet RAG in hitrega oblikovanja na AWS.

Čiščenje

Ko preizkusite aplikacijo, počistite svoje vire tako, da zaustavite aplikacijo.

zaključek

RAG se je pojavil kot paradigma, ki spreminja igro v svetu hitrega oblikovanja in oživlja zmožnosti Stable Diffusion za pretvorbo besedila v sliko. Z uskladitvijo tehnik RAG z obstoječimi pristopi in uporabo robustnih virov AWS smo odkrili pot do poenostavljene ustvarjalnosti in pospešenega učenja.

Za dodatne vire obiščite naslednje:


O avtorjih

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.James Yi je višji arhitekt partnerskih rešitev AI/ML v ekipi za nastajajoče tehnologije pri Amazon Web Services. Navdušen je nad sodelovanjem s podjetniškimi strankami in partnerji pri načrtovanju, uvajanju in prilagajanju aplikacij AI/ML, da izpeljejo svoje poslovne vrednosti. Zunaj dela uživa v igranju nogometa, potovanjih in preživljanju časa z družino.

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Rumi Olsen je arhitekt rešitev v partnerskem programu AWS. V svoji trenutni vlogi je specializirana za rešitve brez strežnikov in strojnega učenja ter ima izkušnje s tehnologijami za obdelavo naravnega jezika. Večino prostega časa preživi s hčerko in raziskuje naravo severozahodnega Pacifika.

Časovni žig:

Več od Strojno učenje AWS