Parandage oma stabiilse difusiooni viipasid rakendusega Retrieval Augmented Generation | Amazoni veebiteenused

Parandage oma stabiilse difusiooni viipasid rakendusega Retrieval Augmented Generation | Amazoni veebiteenused

Tekstist pildiks genereerimine on kiiresti kasvav tehisintellekti valdkond, millel on rakendused erinevates valdkondades, nagu meedia ja meelelahutus, mängud, e-kaubanduse toodete visualiseerimine, reklaam ja turundus, arhitektuurne disain ja visualiseerimine, kunstilooming ja meditsiiniline pildistamine.

Stabiilne difusioon on tekstist pildiks muutev mudel, mis võimaldab teil mõne sekundi jooksul luua kvaliteetseid pilte. Novembris 2022, meie teatas millega AWS-i kliendid saavad tekstist pilte luua Stabiilne difusioon mudelid sisse Amazon SageMaker JumpStart, masinõppe (ML) keskus, mis pakub mudeleid, algoritme ja lahendusi. Areng jätkus 2023. aasta aprillis, kui võeti kasutusele Amazonase aluspõhi, täielikult hallatav teenus, mis pakub mugava API kaudu juurdepääsu tipptasemel alusmudelitele, sealhulgas Stable Diffusion.

Kui üha suurem arv kliente alustab oma tekstist pildiks muutmise püüdlusi, tekib tavaline takistus – kuidas koostada viipasid, mis võimaldavad luua kvaliteetseid eesmärgipäraseid pilte. See väljakutse nõuab sageli märkimisväärselt aega ja ressursse, kuna kasutajad alustavad korduvat katsetamist, et leida nende visioonidega kooskõlas olevad juhised.

Retrieval Augmented Generation (RAG) on protsess, mille käigus keelemudel hangib kontekstuaalsed dokumendid välisest andmeallikast ja kasutab seda teavet täpsema ja informatiivsema teksti loomiseks. See tehnika on eriti kasulik teadmistemahukate loomuliku keele töötlemise (NLP) ülesannete jaoks. Nüüd laiendame selle muutlikku puudutust tekstist pildiks genereerimise maailmale. Selles postituses näitame, kuidas kasutada RAG-i jõudu, et täiustada teie stabiilse difusiooni mudelitele saadetud viipasid. Saate Amazon Bedrockis ja SageMaker JumpStartis suurte keelemudelite (LLM) abil luua hetkega oma tehisintellekti abilise.

Lähenemisviisid tekstist pildiks viipade loomiseks

Tekst-pildiks mudeli viipa loomine võib esmapilgul tunduda lihtne, kuid see on petlikult keeruline ülesanne. See on midagi enamat kui lihtsalt mõne sõna tippimine ja ootus, et modell loob pildi, mis ühtib teie vaimse kuvandiga. Tõhusad juhised peaksid andma selgeid juhiseid, jättes samas ruumi loovusele. Need peavad tasakaalustama spetsiifilisust ja mitmetähenduslikkust ning need peaksid olema kohandatud konkreetse kasutatava mudeliga. Kiire projekteerimise väljakutse lahendamiseks on tööstus uurinud erinevaid lähenemisviise:

  • Kiired raamatukogud – Mõned ettevõtted kureerivad eelnevalt kirjutatud viipade teeke, millele pääsete juurde ja mida saate kohandada. Need teegid sisaldavad laia valikut viipasid, mis on kohandatud erinevatele kasutusjuhtudele, võimaldades teil valida või kohandada viipasid, mis vastavad teie konkreetsetele vajadustele.
  • Viipade mallid ja juhised – Paljud ettevõtted ja organisatsioonid pakuvad kasutajatele eelnevalt määratletud viipamalle ja juhiseid. Need mallid pakuvad viipade kirjutamiseks struktureeritud vorminguid, mis muudavad tõhusate juhiste koostamise lihtsaks.
  • kogukonna ja kasutajate panused – Tihti mängivad viipade täiustamisel olulist rolli rahvapõhised platvormid ja kasutajakogukonnad. Kasutajad saavad kogukonnaga jagada oma viimistletud mudeleid, edukaid juhiseid, näpunäiteid ja parimaid tavasid, aidates teistel õppida ja täiustada oma viipete kirjutamisoskusi.
  • Mudeli peenhäälestus – Ettevõtted võivad täpsustada oma tekstist pildiks muutmise mudeleid, et paremini mõista ja vastata teatud tüüpi viipadele. Peenhäälestus võib parandada mudeli jõudlust teatud domeenide või kasutusjuhtude jaoks.

Nende tööstusharu lähenemisviiside eesmärk on ühiselt muuta tõhusate tekstist pildiks viipade loomise protsess juurdepääsetavamaks, kasutajasõbralikumaks ja tõhusamaks, suurendades lõpuks tekstist pildiks genereerimise mudelite kasutatavust ja mitmekülgsust paljudes rakendustes.

RAG-i kasutamine kiireks kujundamiseks

Selles jaotises uurime, kuidas RAG-i tehnikad võivad toimida kiires inseneritöös mängu muutjana, töötades nende olemasolevate lähenemisviisidega kooskõlas. RAG-i sujuvalt protsessi integreerides saame kiiret projekteerimist sujuvamaks muuta ja tõhustada.

Semantiline otsing kiires andmebaasis

Kujutage ette ettevõtet, kes on kogunud oma viipade teeki suure hulga viipade hoidla või loonud suure hulga viipade malle, millest igaüks on mõeldud konkreetsete kasutusjuhtude ja eesmärkide jaoks. Traditsiooniliselt sirvivad kasutajad, kes otsivad oma tekstist pildiks viipade jaoks inspiratsiooni, neid teeke käsitsi, sõeludes sageli läbi ulatuslikke valikute loendeid. See protsess võib olla aeganõudev ja ebaefektiivne. Manustades viipade teegist viipasid teksti manustamismudelite abil, saavad ettevõtted luua semantilise otsingumootori. See toimib järgmiselt.

  • Viipade manustamine – Ettevõte kasutab teksti manustamist, et teisendada iga viip oma teegis numbriteks. Need manustused kajastavad viipade semantilist tähendust ja konteksti.
  • Kasutaja päring – Kui kasutajad esitavad oma viipasid või kirjeldavad soovitud pilti, saab süsteem analüüsida ja manustada ka nende sisendit.
  • Semantiline otsing – Manustuste abil teostab süsteem semantilise otsingu. See hangib teegist kasutaja päringu põhjal kõige asjakohasemad viibad, võttes arvesse nii kasutaja sisendit kui ka viipateegi ajaloolisi andmeid.

Rakendades semantilist otsingut oma viipade teekides, võimaldavad ettevõtted oma töötajatel hõlpsasti juurde pääseda suurele viipade reservuaarile. See lähenemine mitte ainult ei kiirenda kiiret loomist, vaid julgustab ka loovust ja järjepidevust tekstist pildiks genereerimisel.y

Parandage oma stabiilse difusiooni viipasid rakendusega Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Semantilisest otsingust viipade genereerimine

Kuigi semantiline otsing lihtsustab asjakohaste viipade leidmise protsessi, astub RAG sammu edasi, kasutades neid otsingutulemusi optimeeritud viipade genereerimiseks. See toimib järgmiselt.

  • Semantilised otsingutulemused – Pärast kõige asjakohasemate viipade hankimist teegist esitab süsteem need viibad kasutajale koos kasutaja algse sisendiga.
  • Teksti genereerimise mudel – Kasutaja saab valida otsingutulemuste hulgast viipa või pakkuda oma eelistuste kohta täiendavat konteksti. Süsteem edastab LLM-i nii valitud viipa kui ka kasutaja sisendi.
  • Optimeeritud viip – Keele nüansse mõistva LLM loob optimeeritud viipa, mis ühendab valitud viipa elemendid ja kasutaja sisendi. See uus viip on kohandatud kasutaja nõudmistele ja selle eesmärk on anda soovitud pildiväljund.

Semantilise otsingu ja viipade genereerimise kombinatsioon mitte ainult ei lihtsusta viipade leidmise protsessi, vaid tagab ka selle, et loodud viibad on väga asjakohased ja tõhusad. See annab teile võimaluse viipasid peenhäälestada ja kohandada, mis viib lõpuks paremate tekstist pildiks genereerimise tulemusteni. Järgmised on näited piltidest, mis on loodud rakendusest Stable Diffusion XL, kasutades semantilise otsingu ja viipade genereerimise viipasid.

Algne viip Semantilise otsingu viipad LLM-i optimeeritud viip

multikas väikesest koerast

Parandage oma stabiilse difusiooni viipasid rakendusega Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

  • armas multikas koerast, kes sööb õhtusöögilauas võileiba
  • multikas illustratsioon punkkoerast, anime stiilis, valge taust
  • multikas poisist ja tema koerast mööda metsarada jalutamas

Parandage oma stabiilse difusiooni viipasid rakendusega Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Animatsioonistiilis koomiksistseen poisist, kes jalutab õnnelikult käsikäes mööda metsarada oma armsa lemmikloomakoeraga.

Parandage oma stabiilse difusiooni viipasid rakendusega Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

RAG-põhised kiired disainirakendused erinevates tööstusharudes

Enne kui uurime meie soovitatud RAG-arhitektuuri rakendust, alustame tööstusega, kus kujutise genereerimise mudel on kõige rakendatavam. AdTechis on kiirus ja loovus kriitilise tähtsusega. RAG-põhine viipade genereerimine võib lisada kohest väärtust, genereerides soovitusi, et luua kiiresti reklaamikampaania jaoks palju pilte. Inimese otsustajad saavad kampaania jaoks kandidaatpildi valimiseks läbida automaatselt loodud pildid. See funktsioon võib olla eraldiseisev rakendus või manustatud praegu saadaolevatesse populaarsetesse tarkvaratööriistadesse ja platvormidesse.

Teine tööstusharu, kus stabiilse hajutamise mudel võib tootlikkust tõsta, on meedia ja meelelahutus. RAG-arhitektuur võib aidata näiteks avatari loomisel. Alates lihtsast viipast saab RAG lisada avatari ideedele palju rohkem värvi ja omadusi. See võib genereerida palju kandidaatide viipasid ja pakkuda loovamaid ideid. Nende loodud piltide hulgast leiate antud rakenduse jaoks ideaalse sobivuse. See suurendab tootlikkust, genereerides automaatselt palju viipeid soovitusi. Variatsioon, mida see võib välja tuua, on lahenduse vahetu kasu.

Lahenduse ülevaade

Klientide volitamine luua oma RAG-põhine AI-assistent AWS-i kiireks kujundamiseks on tunnistus kaasaegse tehnoloogia mitmekülgsusest. AWS pakub selle ettevõtmise hõlbustamiseks hulgaliselt võimalusi ja teenuseid. Järgmine arhitektuuri viiteskeem illustreerib RAG-rakendust AWS-i kiireks kujundamiseks.

Parandage oma stabiilse difusiooni viipasid rakendusega Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Tehisintellekti assistendi jaoks õigete LLM-ide valimisel pakub AWS mitmesuguseid valikuid, et rahuldada teie konkreetseid nõudeid.

Esiteks saate valida SageMaker JumpStarti kaudu saadaolevad LLM-id, kasutades selleks spetsiaalseid eksemplare. Need eksemplarid toetavad mitmesuguseid mudeleid, sealhulgas Falcon, Llama 2, Bloom Z ja Flan-T5, või saate uurida patenteeritud mudeleid, nagu Cohere'i käsk ja mitmekeelne manustamine või AI2 Labsi Jurassic-21.

Kui eelistate lihtsustatud lähenemist, pakub AWS LLM-e Amazonase aluspõhi, millel on sellised mudelid nagu Amazoni titaan ja antroopiline Claude. Need mudelid on hõlpsasti ligipääsetavad lihtsate API-kutsete kaudu, mis võimaldab teil nende võimsust vaevata rakendada. Paindlikkus ja valikute mitmekesisus tagavad, et teil on vabadus valida LLM, mis sobib kõige paremini teie kiirete disainieesmärkidega, olenemata sellest, kas otsite uuendusi avatud konteinerite või patenteeritud mudelite tugevate võimalustega.

Olulise vektorandmebaasi loomisel pakub AWS oma teenuste kaudu palju võimalusi. Saate valida Amazon OpenSearchi teenus, Amazonase Auroravõi Amazon Relational Database Service (Amazon RDS) PostgreSQL-i jaoks, millest igaüks pakub tugevaid funktsioone, mis vastavad teie konkreetsetele vajadustele. Teise võimalusena saate uurida tooteid AWS-i partneritelt, nagu Pinecone, Weaviate, Elastic, Milvus või Chroma, mis pakuvad spetsiaalseid lahendusi tõhusaks vektorite salvestamiseks ja otsimiseks.

Aitamaks teil alustada kiireks kujundamiseks mõeldud RAG-põhise AI-assistendi konstrueerimist, oleme koostanud põhjaliku tutvustuse GitHub hoidla. See esitlus kasutab järgmisi ressursse:

  • Pildi genereerimine: Stable Diffusion XL Amazon Bedrockil
  • Teksti manustamine: Amazon Titan Amazon Bedrockil
  • Teksti genereerimine: Claude 2 Amazon Bedrockis
  • Vektori andmebaas: FAISS, avatud lähtekoodiga raamatukogu tõhusaks sarnasuste otsimiseks
  • Viibateek: viipade näited DifusioonDB, esimene suuremahuline viipgalerii andmestik teksti-pildiks generatiivsete mudelite jaoks

Lisaks oleme lisanud LangChaini LLM-i juurutamiseks ja Streamiti veebirakenduse komponendi jaoks, pakkudes sujuvat ja kasutajasõbralikku kogemust.

Eeldused

Selle demorakenduse käivitamiseks peab teil olema järgmine teave:

  • AWS-i konto
  • Põhiteadmised navigeerimisest Amazon SageMaker Studio
  • Põhiteadmised selle kohta, kuidas repo alla laadida GitHub
  • Põhiteadmised käsu käivitamisest terminalis

Käivitage demorakendus

Saate kogu vajaliku koodi koos juhistega alla laadida aadressilt GitHub repo. Pärast rakenduse juurutamist näete lehte, nagu järgmine ekraanipilt.

Parandage oma stabiilse difusiooni viipasid rakendusega Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Selle demonstratsiooniga soovime muuta juurutusprotsess kättesaadavaks ja arusaadavaks, pakkudes teile praktilist kogemust, et alustada teekonda RAG-i maailma ja AWS-i kiiret disaini.

Koristage

Pärast rakenduse proovimist puhastage oma ressursse, peatades rakenduse.

Järeldus

RAG on muutunud kiire disaini maailmas mängu muutvaks paradigmaks, taaselustades Stable Diffusioni tekstist pildiks muutmise võimalusi. Ühtlustades RAG-tehnikad olemasolevate lähenemisviisidega ja kasutades AWS-i jõulisi ressursse, oleme avastanud tee sujuvamaks loovuseks ja kiirendatud õppimiseks.

Lisaressursside saamiseks külastage järgmist:


Autoritest

Parandage oma stabiilse difusiooni viipasid rakendusega Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.James Yi on AI/ML-i partnerlahenduste vanemarhitekt Amazon Web Servicesi arenevate tehnoloogiate meeskonnas. Ta on kirglik koostöösse ettevõtete klientide ja partneritega, et kavandada, juurutada ja skaleerida AI/ML-rakendusi, et tuletada nende äriväärtusi. Väljaspool tööd meeldib talle jalgpalli mängida, reisida ja perega aega veeta.

Parandage oma stabiilse difusiooni viipasid rakendusega Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Rumi Olsen on lahenduste arhitekt AWS-i partnerprogrammis. Ta on oma praeguses rollis spetsialiseerunud serverita ja masinõppe lahendustele ning tal on loomuliku keele töötlemise tehnoloogiate taust. Ta veedab suurema osa oma vabast ajast koos tütrega Vaikse ookeani loodeosa loodust uurides.

Ajatempel:

Veel alates AWS-i masinõpe