Verbeter uw stabiele diffusieprompts met Retrieval Augmented Generation | Amazon-webservices

Verbeter uw stabiele diffusieprompts met Retrieval Augmented Generation | Amazon-webservices

Het genereren van tekst-naar-afbeelding is een snel groeiend gebied van kunstmatige intelligentie met toepassingen op een verscheidenheid aan gebieden, zoals media en entertainment, gaming, visualisatie van e-commerceproducten, reclame en marketing, architectonisch ontwerp en visualisatie, artistieke creaties en medische beeldvorming.

Stabiele diffusie is een tekst-naar-afbeelding-model waarmee u binnen enkele seconden afbeeldingen van hoge kwaliteit kunt maken. In november 2022 hebben wij aangekondigd waarmee AWS-klanten afbeeldingen uit tekst kunnen genereren Stabiele diffusie modellen in Amazon SageMaker JumpStart, een machine learning (ML)-hub die modellen, algoritmen en oplossingen biedt. De evolutie zette zich in april 2023 voort met de introductie van Amazonebodem, een volledig beheerde service die via een handige API toegang biedt tot geavanceerde funderingsmodellen, waaronder Stable Diffusion.

Nu een steeds groter aantal klanten zich met hun tekst-naar-beeld-inspanningen begint, ontstaat er een gemeenschappelijke hindernis: hoe u aanwijzingen kunt maken die de kracht hebben om doelgerichte afbeeldingen van hoge kwaliteit te produceren. Deze uitdaging vergt vaak veel tijd en middelen als gebruikers aan een iteratieve reis van experimenteren beginnen om de aanwijzingen te ontdekken die aansluiten bij hun visie.

Retrieval Augmented Generation (RAG) is een proces waarbij een taalmodel contextuele documenten ophaalt uit een externe gegevensbron en deze informatie gebruikt om nauwkeurigere en informatievere tekst te genereren. Deze techniek is vooral nuttig voor kennisintensieve taken op het gebied van natuurlijke taalverwerking (NLP). We breiden de transformatieve toets nu uit naar de wereld van het genereren van tekst naar beeld. In dit bericht laten we zien hoe u de kracht van RAG kunt benutten om de aanwijzingen die naar uw stabiele diffusiemodellen worden verzonden, te verbeteren. Je kunt binnen enkele minuten je eigen AI-assistent maken voor snelle generatie met grote taalmodellen (LLM's) op Amazon Bedrock, maar ook op SageMaker JumpStart.

Benaderingen voor het maken van tekst-naar-afbeelding-prompts

Het maken van een prompt voor een tekst-naar-afbeelding-model lijkt op het eerste gezicht misschien eenvoudig, maar het is een bedrieglijk complexe taak. Het is meer dan alleen maar een paar woorden typen en verwachten dat het model een beeld oproept dat aansluit bij uw mentale beeld. Effectieve aanwijzingen moeten duidelijke instructies geven en tegelijkertijd ruimte laten voor creativiteit. Ze moeten een evenwicht vinden tussen specificiteit en ambiguรฏteit, en ze moeten worden afgestemd op het specifieke model dat wordt gebruikt. Om de uitdaging van snelle engineering aan te pakken, heeft de industrie verschillende benaderingen onderzocht:

  • Prompt-bibliotheken โ€“ Sommige bedrijven beheren bibliotheken met vooraf geschreven aanwijzingen die u kunt openen en aanpassen. Deze bibliotheken bevatten een breed scala aan aanwijzingen die zijn afgestemd op verschillende gebruiksscenario's, zodat u aanwijzingen kunt kiezen of aanpassen die aansluiten op uw specifieke behoeften.
  • Snelle sjablonen en richtlijnen โ€“ Veel bedrijven en organisaties bieden gebruikers een reeks vooraf gedefinieerde promptsjablonen en richtlijnen. Deze sjablonen bieden gestructureerde formaten voor het schrijven van aanwijzingen, waardoor het eenvoudig wordt om effectieve instructies te maken.
  • Community- en gebruikersbijdragen โ€“ Crowdsourced-platforms en gebruikersgemeenschappen spelen vaak een belangrijke rol bij het verbeteren van prompts. Gebruikers kunnen hun verfijnde modellen, succesvolle prompts, tips en best practices delen met de community, waardoor anderen hun vaardigheden op het gebied van promptschrijven kunnen leren en verfijnen.
  • Modelafstemming โ€“ Bedrijven kunnen hun tekst-naar-beeldmodellen verfijnen om specifieke soorten prompts beter te begrijpen en erop te reageren. Door fijnafstemming kunnen de modelprestaties voor bepaalde domeinen of gebruiksscenario's worden verbeterd.

Deze industriรซle benaderingen zijn er gezamenlijk op gericht om het proces van het maken van effectieve tekst-naar-afbeelding-prompts toegankelijker, gebruiksvriendelijker en efficiรซnter te maken, waardoor uiteindelijk de bruikbaarheid en veelzijdigheid van modellen voor het genereren van tekst-naar-afbeelding voor een breed scala aan toepassingen wordt vergroot.

RAG gebruiken voor snel ontwerp

In deze sectie onderzoeken we hoe RAG-technieken kunnen dienen als een game changer in prompt engineering, in harmonie met deze bestaande benaderingen. Door RAG naadloos in het proces te integreren, kunnen we de efficiรซntie van het snelle ontwerp stroomlijnen en verbeteren.

Semantisch zoeken in een promptdatabase

Stel je een bedrijf voor dat een enorme verzameling prompts in zijn promptbibliotheek heeft verzameld of een groot aantal promptsjablonen heeft gemaakt, elk ontworpen voor specifieke gebruiksscenario's en doelstellingen. Traditioneel bladerden gebruikers die op zoek waren naar inspiratie voor hun tekst-naar-afbeelding-prompts handmatig door deze bibliotheken, waarbij ze vaak door uitgebreide lijsten met opties bladerden. Dit proces kan tijdrovend en inefficiรซnt zijn. Door prompts uit de promptbibliotheek in te sluiten met behulp van tekstinsluitingsmodellen, kunnen bedrijven een semantische zoekmachine bouwen. Dit is hoe het werkt:

  • Aanwijzingen insluiten โ€“ Het bedrijf gebruikt tekstinsluitingen om elke prompt in de bibliotheek om te zetten in een numerieke weergave. Deze inbedding geeft de semantische betekenis en context van de aanwijzingen weer.
  • Gebruikersvraag โ€“ Wanneer gebruikers hun eigen aanwijzingen geven of hun gewenste afbeelding beschrijven, kan het systeem hun invoer ook analyseren en insluiten.
  • Semantisch zoeken โ€“ Met behulp van de insluitingen voert het systeem een โ€‹โ€‹semantische zoekopdracht uit. Het haalt de meest relevante prompts op uit de bibliotheek op basis van de zoekopdracht van de gebruiker, waarbij zowel de invoer van de gebruiker als historische gegevens in de promptbibliotheek in aanmerking worden genomen.

Door semantisch zoeken in hun promptbibliotheken te implementeren, geven bedrijven hun werknemers de mogelijkheid om moeiteloos toegang te krijgen tot een enorm reservoir aan prompts. Deze aanpak versnelt niet alleen de snelle creatie, maar stimuleert ook de creativiteit en consistentie bij het genereren van tekst naar afbeeldingen

Verbeter uw stabiele diffusieprompts met Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Snelle generatie op basis van semantisch zoeken

Hoewel semantisch zoeken het proces van het vinden van relevante prompts stroomlijnt, gaat RAG nog een stap verder door deze zoekresultaten te gebruiken om geoptimaliseerde prompts te genereren. Dit is hoe het werkt:

  • Semantische zoekresultaten โ€“ Nadat de meest relevante prompts uit de bibliotheek zijn opgehaald, presenteert het systeem deze prompts aan de gebruiker, naast de oorspronkelijke invoer van de gebruiker.
  • Model voor het genereren van tekst โ€“ De gebruiker kan een prompt uit de zoekresultaten selecteren of meer context over zijn voorkeuren geven. Het systeem voert zowel de geselecteerde prompt als de invoer van de gebruiker in een LLM in.
  • Geoptimaliseerde prompt โ€“ De LLM, met zijn begrip van taalnuances, maakt een geoptimaliseerde prompt die elementen uit de geselecteerde prompt en de invoer van de gebruiker combineert. Deze nieuwe prompt is afgestemd op de eisen van de gebruiker en is ontworpen om de gewenste beelduitvoer te leveren.

De combinatie van semantisch zoeken en het genereren van prompts vereenvoudigt niet alleen het proces van het vinden van prompts, maar zorgt er ook voor dat de gegenereerde prompts zeer relevant en effectief zijn. Hiermee kunt u uw aanwijzingen verfijnen en aanpassen, wat uiteindelijk leidt tot betere resultaten bij het genereren van tekst naar afbeeldingen. Hieronder volgen voorbeelden van afbeeldingen die zijn gegenereerd vanuit Stable Diffusion XL met behulp van de aanwijzingen uit semantisch zoeken en het genereren van aanwijzingen.

Oorspronkelijke prompt Prompts van semantisch zoeken Geoptimaliseerde prompt door LLM

een cartoon van een kleine hond

Verbeter uw stabiele diffusieprompts met Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

  • leuke cartoon van een hond die een broodje eet aan de eettafel
  • een cartoonillustratie van een punkhond, anime-stijl, witte achtergrond
  • een cartoon van een jongen en zijn hond die door een bosweg lopen

Verbeter uw stabiele diffusieprompts met Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Een tekenfilmscรจne van een jongen die vrolijk hand in hand over een bosweg loopt met zijn schattige hond, in animatiestijl.

Verbeter uw stabiele diffusieprompts met Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Op RAG gebaseerde snelle ontwerptoepassingen in diverse industrieรซn

Voordat we de toepassing van onze voorgestelde RAG-architectuur onderzoeken, beginnen we met een sector waarin een model voor het genereren van afbeeldingen het meest toepasbaar is. Bij AdTech zijn snelheid en creativiteit van cruciaal belang. Op RAG gebaseerde promptgeneratie kan direct waarde toevoegen door promptsuggesties te genereren om snel veel afbeeldingen te maken voor een advertentiecampagne. Menselijke besluitvormers kunnen de automatisch gegenereerde afbeeldingen doorlopen om de kandidaatafbeelding voor de campagne te selecteren. Deze functie kan een op zichzelf staande applicatie zijn of ingebed in populaire softwaretools en platforms die momenteel beschikbaar zijn.

Een andere sector waar het Stable Diffusion-model de productiviteit kan verbeteren, is media en entertainment. De RAG-architectuur kan bijvoorbeeld helpen bij gebruiksscenario's voor het maken van avatars. Vanaf een eenvoudige vraag kan RAG veel meer kleur en kenmerken aan de avatarideeรซn toevoegen. Het kan veel kandidatenprompts genereren en creatievere ideeรซn opleveren. Uit deze gegenereerde afbeeldingen kunt u de perfecte oplossing voor de gegeven toepassing vinden. Het verhoogt de productiviteit door automatisch veel snelle suggesties te genereren. De variatie die het kan bedenken, is het onmiddellijke voordeel van de oplossing.

Overzicht oplossingen

Dat klanten hun eigen op RAG gebaseerde AI-assistent kunnen bouwen voor snel ontwerp op AWS is een bewijs van de veelzijdigheid van moderne technologie. AWS biedt een overvloed aan opties en diensten om dit streven te vergemakkelijken. Het volgende referentiearchitectuurdiagram illustreert een RAG-toepassing voor snel ontwerp op AWS.

Verbeter uw stabiele diffusieprompts met Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Als het gaat om het selecteren van de juiste LLM's voor uw AI-assistent, biedt AWS een spectrum aan keuzes om aan uw specifieke vereisten te voldoen.

Ten eerste kunt u kiezen voor LLM's die beschikbaar zijn via SageMaker JumpStart, met behulp van speciale instanties. Deze instanties ondersteunen een verscheidenheid aan modellen, waaronder Falcon, Llama 2, Bloom Z en Flan-T5, of u kunt eigen modellen verkennen zoals Cohere's Command and Multilingual Embedding, of Jurassic-2 van AI21 Labs.

Als u de voorkeur geeft aan een meer vereenvoudigde aanpak, biedt AWS LLM's aan Amazonebodem, met modellen als Amazone Titan en antropische Claude. Deze modellen zijn eenvoudig toegankelijk via eenvoudige API-aanroepen, waardoor u hun kracht moeiteloos kunt benutten. De flexibiliteit en diversiteit aan opties zorgen ervoor dat u de vrijheid heeft om de LLM te kiezen die het beste aansluit bij uw snelle ontwerpdoelen, of u nu op zoek bent naar een innovatie met open containers of de robuuste mogelijkheden van eigen modellen.

Als het gaat om het bouwen van de essentiรซle vectordatabase, biedt AWS een groot aantal opties via hun eigen services. U kunt kiezen voor Amazon OpenSearch-service, Amazon Auroraof Amazon Relational Database Service (Amazon RDS) voor PostgreSQL, elk met robuuste functies die aan uw specifieke behoeften voldoen. Als alternatief kunt u producten van AWS-partners zoals Pinecone, Weaviate, Elastic, Milvus of Chroma verkennen, die gespecialiseerde oplossingen bieden voor efficiรซnte vectoropslag en -herstel.

Om u te helpen aan de slag te gaan met het bouwen van een op RAG gebaseerde AI-assistent voor een snel ontwerp, hebben we een uitgebreide demonstratie samengesteld in onze GitHub opslagplaats. Deze demonstratie maakt gebruik van de volgende bronnen:

  • Beeldgeneratie: Stable Diffusion XL op Amazon Bedrock
  • Tekst insluiten: Amazon Titan op Amazon Bedrock
  • Tekstgeneratie: Claude 2 op Amazon Bedrock
  • Vectordatabase: FAISS, een open source-bibliotheek voor efficiรซnt zoeken naar overeenkomsten
  • Promptbibliotheek: Promptvoorbeelden uit VerspreidingDB, de eerste grootschalige promptgalerijdataset voor tekst-naar-afbeelding generatieve modellen

Daarnaast hebben we LangChain voor LLM-implementatie en Streamit voor de webapplicatiecomponent geรฏntegreerd, wat een naadloze en gebruiksvriendelijke ervaring biedt.

Voorwaarden

U heeft het volgende nodig om deze demo-applicatie uit te voeren:

  • Een AWS-account
  • Basiskennis van navigeren Amazon SageMaker Studio
  • Basiskennis van hoe u een opslagplaats kunt downloaden van GitHub
  • Basiskennis van het uitvoeren van een opdracht op een terminal

Voer de demo-applicatie uit

U kunt alle benodigde code downloaden met instructies van de GitHub repository. Nadat de applicatie is geรฏmplementeerd, ziet u een pagina zoals de volgende schermafbeelding.

Verbeter uw stabiele diffusieprompts met Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Met deze demonstratie willen we het implementatieproces toegankelijk en begrijpelijk maken en u een praktische ervaring bieden waarmee u uw reis naar de wereld van RAG en een snel ontwerp op AWS een vliegende start kunt geven.

Opruimen

Nadat u de app hebt uitgeprobeerd, ruimt u uw bronnen op door de toepassing te stoppen.

Conclusie

RAG is naar voren gekomen als een baanbrekend paradigma in de wereld van prompt design, waardoor de tekst-naar-beeldmogelijkheden van Stable Diffusion nieuw leven worden ingeblazen. Door RAG-technieken te harmoniseren met bestaande benaderingen en de robuuste middelen van AWS te gebruiken, hebben we een weg ontdekt naar gestroomlijnde creativiteit en versneld leren.

Voor aanvullende bronnen gaat u naar:


Over de auteurs

Verbeter uw stabiele diffusieprompts met Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.James Yi is een Senior AI/ML Partner Solutions Architect in het Emerging Technologies-team van Amazon Web Services. Hij is gepassioneerd door het werken met zakelijke klanten en partners bij het ontwerpen, implementeren en schalen van AI/ML-applicaties om hun bedrijfswaarden af โ€‹โ€‹te leiden. Naast zijn werk houdt hij van voetballen, reizen en tijd doorbrengen met zijn gezin.

Verbeter uw stabiele diffusieprompts met Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Rumi Olsen is Solutions Architect in het AWS Partner Program. Ze is gespecialiseerd in serverloze en machine learning-oplossingen in haar huidige functie, en heeft een achtergrond in natuurlijke taalverwerkingstechnologieรซn. Ze brengt het grootste deel van haar vrije tijd met haar dochter door met het verkennen van de natuur van Pacific Northwest.

Tijdstempel:

Meer van AWS-machine learning