Îmbunătățiți-vă prompturile de difuzie stabilă cu Retrieval Augmented Generation | Amazon Web Services

Îmbunătățiți-vă prompturile de difuzie stabilă cu Retrieval Augmented Generation | Amazon Web Services

Generarea text-to-image este un domeniu în creștere rapidă al inteligenței artificiale, cu aplicații într-o varietate de domenii, cum ar fi media și divertisment, jocuri, vizualizare de produse de comerț electronic, publicitate și marketing, proiectare și vizualizare arhitecturală, creații artistice și imagistica medicală.

Difuzie stabilă este un model text-to-image care vă permite să creați imagini de înaltă calitate în câteva secunde. În noiembrie 2022, noi a anunțat cu care clienții AWS pot genera imagini din text Difuzie stabilă modele în Amazon SageMaker JumpStart, un centru de învățare automată (ML) care oferă modele, algoritmi și soluții. Evoluția a continuat în aprilie 2023 odată cu introducerea Amazon Bedrock, un serviciu complet gestionat care oferă acces la modele de fundație de ultimă oră, inclusiv Stable Diffusion, printr-un API convenabil.

Pe măsură ce un număr din ce în ce mai mare de clienți se lansează în eforturile lor de a transforma text-to-image, apare un obstacol comun - cum să creeze mesaje care dețin puterea de a produce imagini de înaltă calitate, orientate spre scop. Această provocare necesită adesea timp și resurse considerabile, deoarece utilizatorii pornesc într-o călătorie iterativă de experimentare pentru a descoperi indicațiile care se aliniază cu viziunile lor.

Retrieval Augmented Generation (RAG) este un proces în care un model de limbaj preia documente contextuale dintr-o sursă externă de date și utilizează aceste informații pentru a genera text mai precis și mai informativ. Această tehnică este deosebit de utilă pentru sarcinile de procesare a limbajului natural (NLP) intensive în cunoștințe. Acum extindem atingerea sa transformatoare în lumea generării text-to-image. În această postare, demonstrăm cum să valorificați puterea RAG pentru a îmbunătăți solicitările trimise modelelor dvs. de Stable Diffusion. Vă puteți crea propriul asistent AI pentru generare promptă în câteva minute cu modele de limbaj mari (LLM) pe Amazon Bedrock, precum și pe SageMaker JumpStart.

Abordări pentru crearea solicitărilor text-la-imagine

Crearea unui prompt pentru un model text-imagine poate părea simplă la prima vedere, dar este o sarcină înșelător de complexă. Este mai mult decât să tastezi câteva cuvinte și să te aștepți ca modelul să evoce o imagine care se aliniază cu imaginea ta mentală. Indicațiile eficiente ar trebui să ofere instrucțiuni clare, lăsând în același timp spațiu pentru creativitate. Acestea trebuie să echilibreze specificitatea și ambiguitatea și ar trebui să fie adaptate modelului particular utilizat. Pentru a aborda provocarea ingineriei prompte, industria a explorat diverse abordări:

  • Biblioteci prompte – Unele companii organizează biblioteci de solicitări pre-scrise pe care le puteți accesa și personaliza. Aceste biblioteci conțin o gamă largă de solicitări adaptate diferitelor cazuri de utilizare, permițându-vă să alegeți sau să adaptați solicitările care se aliniază nevoilor dumneavoastră specifice.
  • Șabloane și linii directoare prompte – Multe companii și organizații oferă utilizatorilor un set de șabloane și linii directoare de prompte predefinite. Aceste șabloane oferă formate structurate pentru scrierea solicitărilor, ceea ce face simplă elaborarea de instrucțiuni eficiente.
  • Contribuții ale comunității și ale utilizatorilor – Platformele crowdsourced și comunitățile de utilizatori joacă adesea un rol semnificativ în îmbunătățirea solicitărilor. Utilizatorii își pot împărtăși comunității modelele ajustate, sugestiile de succes, sfaturile și cele mai bune practici, ajutându-i pe alții să învețe și să-și perfecționeze abilitățile de scriere promptă.
  • Reglarea fină a modelului – Companiile își pot ajusta modelele text-to-image pentru a înțelege mai bine și a răspunde la anumite tipuri de solicitări. Reglarea fină poate îmbunătăți performanța modelului pentru anumite domenii sau cazuri de utilizare.

Aceste abordări din industrie urmăresc în mod colectiv să facă procesul de creare a mesajelor text-la-imagine mai accesibile, mai ușor de utilizat și mai eficient, sporind în cele din urmă gradul de utilizare și versatilitatea modelelor de generare text-la-imagine pentru o gamă largă de aplicații.

Folosind RAG pentru proiectare promptă

În această secțiune, analizăm modul în care tehnicile RAG pot servi ca un schimbător de joc în inginerie promptă, lucrând în armonie cu aceste abordări existente. Prin integrarea perfectă a RAG în proces, putem eficientiza și îmbunătăți eficiența proiectării prompte.

Căutare semantică într-o bază de date promptă

Imaginați-vă o companie care a acumulat un depozit vast de prompturi în biblioteca sa de prompt sau a creat un număr mare de șabloane de prompt, fiecare conceput pentru cazuri de utilizare și obiective specifice. În mod tradițional, utilizatorii care caută inspirație pentru solicitările lor de text în imagine ar naviga manual prin aceste biblioteci, cernind adesea liste extinse de opțiuni. Acest proces poate consuma timp și poate fi ineficient. Prin încorporarea solicitărilor din biblioteca de prompt folosind modele de încorporare de text, companiile pot construi un motor de căutare semantic. Iată cum funcționează:

  • Încorporarea solicitărilor – Compania folosește încorporarea textului pentru a converti fiecare prompt din biblioteca sa într-o reprezentare numerică. Aceste înglobări captează sensul semantic și contextul prompturilor.
  • Interogare utilizator – Atunci când utilizatorii își oferă propriile solicitări sau își descriu imaginea dorită, sistemul poate analiza și încorpora și intrarea lor.
  • Căutare semantică – Folosind înglobările, sistemul efectuează o căutare semantică. Acesta preia cele mai relevante solicitări din bibliotecă pe baza interogării utilizatorului, luând în considerare atât intrarea utilizatorului, cât și datele istorice din biblioteca de prompturi.

Prin implementarea căutării semantice în bibliotecile lor de prompturi, companiile își permit angajații să acceseze un rezervor vast de prompturi fără efort. Această abordare nu numai că accelerează crearea promptă, dar încurajează și creativitatea și consecvența în generarea text-to-image.y

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Generare promptă din căutarea semantică

Deși căutarea semantică simplifică procesul de găsire a solicitărilor relevante, RAG face un pas mai departe utilizând aceste rezultate de căutare pentru a genera solicitări optimizate. Iată cum funcționează:

  • Rezultatele căutării semantice – După ce a preluat cele mai relevante solicitări din bibliotecă, sistemul prezintă aceste solicitări utilizatorului, alături de intrarea inițială a utilizatorului.
  • Model de generare de text – Utilizatorul poate selecta o solicitare din rezultatele căutării sau poate oferi un context suplimentar cu privire la preferințele sale. Sistemul alimentează atât promptul selectat, cât și intrarea utilizatorului într-un LLM.
  • Prompt optimizat – LLM, cu înțelegerea sa a nuanțelor de limbaj, creează un prompt optimizat care combină elemente din promptul selectat și intrarea utilizatorului. Acest nou prompt este adaptat cerințelor utilizatorului și este conceput pentru a produce imaginea dorită.

Combinația dintre căutarea semantică și generarea prompturilor nu numai că simplifică procesul de găsire a solicitărilor, dar asigură și faptul că solicitările generate sunt extrem de relevante și eficiente. Vă permite să reglați fin și să vă personalizați solicitările, conducând în cele din urmă la rezultate îmbunătățite de generare a textului în imagine. Următoarele sunt exemple de imagini generate din Stable Diffusion XL utilizând solicitările din căutarea semantică și generarea promptului.

Solicitare originală Solicitări din căutarea semantică Solicitare optimizată de LLM

un desen animat cu un câine mic

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

  • desen animat drăguț cu un câine care are un sandviș la masă
  • o ilustrație de desene animate a unui câine punk, stil anime, fundal alb
  • un desen animat cu un băiat și câinele lui mergând pe o alee de pădure

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

O scenă de desene animate cu un băiat care se plimbă fericit mână în mână pe o alee de pădure cu câinele lui drăguț, în stil animație.

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Aplicații de proiectare promptă bazate pe RAG în diverse industrii

Înainte de a explora aplicarea arhitecturii noastre RAG sugerate, să începem cu o industrie în care un model de generare de imagini este cel mai aplicabil. În AdTech, viteza și creativitatea sunt esențiale. Generarea promptă bazată pe RAG poate adăuga valoare instantanee prin generarea de sugestii prompte pentru a crea rapid multe imagini pentru o campanie publicitară. Factorii de decizie umani pot parcurge imaginile generate automat pentru a selecta imaginea candidată pentru campanie. Această caracteristică poate fi o aplicație autonomă sau încorporată în instrumente și platforme software populare disponibile în prezent.

O altă industrie în care modelul Stable Diffusion poate spori productivitatea este media și divertismentul. Arhitectura RAG poate ajuta în cazurile de utilizare ale creării avatarului, de exemplu. Pornind de la un simplu prompt, RAG poate adăuga mult mai multă culoare și caracteristici ideilor de avatar. Poate genera multe solicitări pentru candidați și poate oferi idei mai creative. Din aceste imagini generate, puteți găsi potrivirea perfectă pentru aplicația dată. Mărește productivitatea prin generarea automată a multor sugestii prompte. Variația cu care poate veni este beneficiul imediat al soluției.

Prezentare generală a soluțiilor

Împuternicirea clienților să-și construiască propriul asistent AI bazat pe RAG pentru proiectare promptă pe AWS este o dovadă a versatilității tehnologiei moderne. AWS oferă o multitudine de opțiuni și servicii pentru a facilita acest efort. Următoarea diagramă de arhitectură de referință ilustrează o aplicație RAG pentru proiectare promptă pe AWS.

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Când vine vorba de selectarea LLM-urilor potrivite pentru asistentul dvs. AI, AWS oferă un spectru de opțiuni pentru a răspunde cerințelor dumneavoastră specifice.

În primul rând, puteți opta pentru LLM-uri disponibile prin SageMaker JumpStart, utilizând instanțe dedicate. Aceste instanțe acceptă o varietate de modele, inclusiv Falcon, Llama 2, Bloom Z și Flan-T5, sau puteți explora modele proprietare, cum ar fi Cohere’s Command and Multilingual Embedding sau Jurassic-2 de la AI21 Labs.

Dacă preferați o abordare mai simplificată, AWS oferă LLM-uri activate Amazon Bedrock, prezentând modele precum Amazon Titan și Claude antropic. Aceste modele sunt ușor accesibile prin apeluri API simple, permițându-vă să le valorificați puterea fără efort. Flexibilitatea și diversitatea opțiunilor vă asigură că aveți libertatea de a alege LLM care se aliniază cel mai bine cu obiectivele dvs. de proiectare promptă, indiferent dacă căutați o inovație cu containere deschise sau capabilitățile robuste ale modelelor proprietare.

Când vine vorba de construirea bazei de date vectoriale esențiale, AWS oferă o multitudine de opțiuni prin serviciile lor native. Poti opta pentru Serviciul Amazon OpenSearch, Amazon Aurora, Sau Amazon Relational Database Service (Amazon RDS) pentru PostgreSQL, fiecare oferind caracteristici robuste pentru a se potrivi nevoilor dumneavoastră specifice. Alternativ, puteți explora produse de la partenerii AWS precum Pinecone, Weaviate, Elastic, Milvus sau Chroma, care oferă soluții specializate pentru stocarea și recuperarea eficientă a vectorilor.

Pentru a vă ajuta să începeți să construiți un asistent AI bazat pe RAG pentru proiectare promptă, am realizat o demonstrație cuprinzătoare în GitHub repertoriu. Această demonstrație folosește următoarele resurse:

  • Generare imagini: Stable Diffusion XL pe Amazon Bedrock
  • Încorporarea textului: Amazon Titan pe Amazon Bedrock
  • Generare text: Claude 2 pe Amazon Bedrock
  • Baza de date vectorială: FAISS, o bibliotecă open source pentru căutare eficientă de similaritate
  • Prompt library: Prompt exemple de la DiffusionDB, primul set de date de galerie promptă la scară largă pentru modele generative text-to-image

În plus, am încorporat LangChain pentru implementarea LLM și Streamit pentru componenta aplicației web, oferind o experiență simplă și ușor de utilizat.

Cerințe preliminare

Trebuie să aveți următoarele pentru a rula această aplicație demonstrativă:

  • Un cont AWS
  • Înțelegerea de bază a modului de navigare Amazon SageMaker Studio
  • Înțelegerea de bază despre cum să descărcați un repo de pe GitHub
  • Cunoștințe de bază despre rularea unei comenzi pe un terminal

Rulați aplicația demo

Puteți descărca tot codul necesar cu instrucțiuni de la GitHub repo. După ce aplicația este implementată, veți vedea o pagină ca următoarea captură de ecran.

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Prin această demonstrație, ne propunem să facem procesul de implementare accesibil și ușor de înțeles, oferindu-vă o experiență practică pentru a vă începe călătoria în lumea RAG și proiectarea promptă pe AWS.

A curăța

După ce încercați aplicația, curățați-vă resursele oprind aplicația.

Concluzie

RAG a apărut ca o paradigmă de schimbare a jocului în lumea design-ului prompt, revitalizând capacitățile text-to-image ale Stable Diffusion. Prin armonizarea tehnicilor RAG cu abordările existente și prin utilizarea resurselor robuste ale AWS, am descoperit o cale de simplificare a creativității și de învățare accelerată.

Pentru resurse suplimentare, vizitați următoarele:


Despre autori

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.James Yi este un Senior AI/ML Partner Solutions Architect în echipa Emerging Technologies din Amazon Web Services. El este pasionat de lucrul cu clienții și partenerii întreprinderilor pentru a proiecta, implementa și scala aplicații AI/ML pentru a le deriva valorile de afaceri. În afara serviciului, îi place să joace fotbal, să călătorească și să petreacă timpul cu familia.

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Rumi Olsen este arhitect de soluții în Programul de parteneriat AWS. Ea este specializată în soluții de învățare automată și fără server în rolul ei actual și are experiență în tehnologiile de procesare a limbajului natural. Ea își petrece cea mai mare parte a timpului liber cu fiica ei explorând natura Pacificului de Nord-Vest.

Timestamp-ul:

Mai mult de la Învățare automată AWS