Migliora i tuoi suggerimenti di diffusione stabile con la generazione aumentata di recupero

Ripubblicato da Platone

Seguaci: 0

La generazione di testo in immagine è un campo dell'intelligenza artificiale in rapida crescita con applicazioni in una varietà di aree, come media e intrattenimento, giochi, visualizzazione di prodotti e-commerce, pubblicità e marketing, progettazione e visualizzazione architettonica, creazioni artistiche e imaging medico.

Diffusione stabile è un modello da testo a immagine che ti consente di creare immagini di alta qualità in pochi secondi. Nel novembre 2022, noi ha annunciato con cui i clienti AWS possono generare immagini dal testo Diffusione stabile modelli in JumpStart di Amazon SageMaker, un hub di machine learning (ML) che offre modelli, algoritmi e soluzioni. L'evoluzione è continuata nell'aprile 2023 con l'introduzione di Roccia Amazzonica, un servizio completamente gestito che offre accesso a modelli di fondazione all'avanguardia, tra cui Stable Diffusion, tramite una comoda API.

Mentre un numero sempre crescente di clienti intraprende i propri sforzi di trasformazione del testo in immagine, sorge un ostacolo comune: come creare suggerimenti che abbiano il potere di produrre immagini di alta qualità e mirate. Questa sfida spesso richiede tempo e risorse considerevoli poiché gli utenti intraprendono un viaggio iterativo di sperimentazione per scoprire gli spunti in linea con le loro visioni.

Retrieval Augmented Generation (RAG) è un processo in cui un modello linguistico recupera documenti contestuali da una fonte di dati esterna e utilizza queste informazioni per generare testo più accurato e informativo. Questa tecnica è particolarmente utile per attività di elaborazione del linguaggio naturale (PNL) ad alta intensità di conoscenza. Ora estendiamo il suo tocco trasformativo al mondo della generazione di testo in immagine. In questo post, dimostriamo come sfruttare la potenza di RAG per migliorare i suggerimenti inviati ai tuoi modelli di diffusione stabile. Puoi creare il tuo assistente AI per la generazione di prompt in pochi minuti con modelli linguistici di grandi dimensioni (LLM) su Amazon Bedrock e su SageMaker JumpStart.

Approcci alla creazione di prompt da testo a immagine

Creare un prompt per un modello da testo a immagine può sembrare semplice a prima vista, ma è un compito ingannevolmente complesso. È molto più che digitare semplicemente poche parole e aspettarsi che il modello evochi un'immagine in linea con la tua immagine mentale. Suggerimenti efficaci dovrebbero fornire istruzioni chiare lasciando spazio alla creatività. Devono bilanciare specificità e ambiguità e dovrebbero essere adattati al particolare modello utilizzato. Per affrontare la sfida del pronta ingegneria, l’industria ha esplorato vari approcci:

Librerie di suggerimenti – Alcune aziende curano librerie di istruzioni già scritte a cui è possibile accedere e personalizzare. Queste librerie contengono un'ampia gamma di prompt personalizzati per vari casi d'uso, consentendoti di scegliere o adattare prompt in linea con le tue esigenze specifiche.
Modelli di prompt e linee guida – Molte aziende e organizzazioni forniscono agli utenti una serie di modelli di prompt e linee guida predefiniti. Questi modelli offrono formati strutturati per la scrittura di istruzioni, rendendo semplice la creazione di istruzioni efficaci.
Contributi della community e degli utenti – Le piattaforme di crowdsourcing e le comunità di utenti spesso svolgono un ruolo significativo nel miglioramento dei suggerimenti. Gli utenti possono condividere i propri modelli ottimizzati, i suggerimenti di successo, i suggerimenti e le migliori pratiche con la comunità, aiutando gli altri ad apprendere e perfezionare le proprie capacità di scrittura dei suggerimenti.
Messa a punto del modello – Le aziende possono perfezionare i propri modelli testo-immagine per comprendere e rispondere meglio a tipi specifici di richieste. La messa a punto può migliorare le prestazioni del modello per domini o casi d'uso particolari.

Questi approcci di settore mirano collettivamente a rendere il processo di creazione di suggerimenti efficaci di conversione da testo a immagine più accessibile, facile da usare ed efficiente, migliorando in definitiva l'usabilità e la versatilità dei modelli di generazione di testo in immagine per un'ampia gamma di applicazioni.

Utilizzo di RAG per una progettazione rapida

In questa sezione, approfondiamo il modo in cui le tecniche RAG possono rappresentare un punto di svolta nel prompt engineering, lavorando in armonia con questi approcci esistenti. Integrando perfettamente RAG nel processo, possiamo semplificare e migliorare l'efficienza di una progettazione tempestiva.

Ricerca semantica in un database di prompt

Immagina un'azienda che ha accumulato un vasto repository di prompt nella sua libreria di prompt o ha creato un gran numero di modelli di prompt, ciascuno progettato per casi d'uso e obiettivi specifici. Tradizionalmente, gli utenti in cerca di ispirazione per i loro suggerimenti di conversione da testo a immagine sfogliavano manualmente queste librerie, spesso vagliando ampi elenchi di opzioni. Questo processo può essere dispendioso in termini di tempo e inefficiente. Incorporando i prompt dalla libreria dei prompt utilizzando modelli di incorporamento del testo, le aziende possono creare un motore di ricerca semantico. Ecco come funziona:

Incorporamento di prompt – L'azienda utilizza incorporamenti di testo per convertire ogni prompt nella sua libreria in una rappresentazione numerica. Questi incorporamenti catturano il significato semantico e il contesto dei prompt.
Domanda dell'utente – Quando gli utenti forniscono i propri suggerimenti o descrivono l'immagine desiderata, il sistema può analizzare e incorporare anche il loro input.
Ricerca semantica – Utilizzando gli incorporamenti, il sistema effettua una ricerca semantica. Recupera i prompt più rilevanti dalla libreria in base alla query dell'utente, considerando sia l'input dell'utente che i dati storici nella libreria dei prompt.

Implementando la ricerca semantica nelle librerie di prompt, le aziende consentono ai propri dipendenti di accedere facilmente a un vasto serbatoio di prompt. Questo approccio non solo accelera la creazione immediata, ma incoraggia anche la creatività e la coerenza nella generazione di testo in immagine

Migliora i tuoi suggerimenti di diffusione stabile con la generazione aumentata di recupero | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Generazione rapida dalla ricerca semantica

Sebbene la ricerca semantica semplifichi il processo di ricerca di prompt pertinenti, RAG fa un ulteriore passo avanti utilizzando questi risultati di ricerca per generare prompt ottimizzati. Ecco come funziona:

Risultati della ricerca semantica – Dopo aver recuperato i prompt più rilevanti dalla libreria, il sistema presenta questi prompt all'utente, insieme all'input originale dell'utente.
Modello di generazione del testo – L'utente può selezionare un prompt dai risultati della ricerca o fornire ulteriore contesto sulle proprie preferenze. Il sistema inserisce sia il prompt selezionato che l'input dell'utente in un LLM.
Pronto ottimizzato – LLM, con la sua comprensione delle sfumature linguistiche, crea un prompt ottimizzato che combina elementi del prompt selezionato e l’input dell’utente. Questo nuovo prompt è adattato alle esigenze dell’utente ed è progettato per produrre l’output di immagine desiderato.

La combinazione di ricerca semantica e generazione di prompt non solo semplifica il processo di ricerca dei prompt, ma garantisce anche che i prompt generati siano altamente pertinenti ed efficaci. Ti consente di ottimizzare e personalizzare i tuoi suggerimenti, portando in definitiva a risultati migliori nella generazione di testo in immagine. Di seguito sono riportati esempi di immagini generate da Stable Diffusion XL utilizzando i prompt della ricerca semantica e della generazione dei prompt.

Prompt originale

Suggerimenti dalla ricerca semantica

Prompt ottimizzato da LLM

un cartone animato di un cagnolino

Migliora i tuoi suggerimenti di diffusione stabile con la generazione aumentata di recupero | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

simpatico cartone animato di un cane che mangia un panino a tavola
un'illustrazione cartoon di un cane punk, stile anime, sfondo bianco
una vignetta di un ragazzo e il suo cane che camminano lungo un sentiero nel bosco

Una scena cartoon di un ragazzo che cammina felicemente mano nella mano lungo un sentiero nel bosco con il suo simpatico cane, in stile animazione.

Migliora i tuoi suggerimenti di diffusione stabile con la generazione aumentata di recupero | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Applicazioni di progettazione rapida basate su RAG in diversi settori

Prima di esplorare l’applicazione dell’architettura RAG da noi suggerita, iniziamo con un settore in cui un modello di generazione di immagini è maggiormente applicabile. Nell'AdTech, velocità e creatività sono fondamentali. La generazione di prompt basata su RAG può aggiungere valore immediato generando suggerimenti rapidi per creare rapidamente molte immagini per una campagna pubblicitaria. I decisori umani possono esaminare le immagini generate automaticamente per selezionare l'immagine candidata per la campagna. Questa funzionalità può essere un'applicazione autonoma o incorporata negli strumenti software e nelle piattaforme più diffusi attualmente disponibili.

Un altro settore in cui il modello di diffusione stabile può migliorare la produttività è quello dei media e dell’intrattenimento. L'architettura RAG può aiutare, ad esempio, nei casi d'uso della creazione di avatar. Partendo da un semplice suggerimento, RAG può aggiungere molto più colore e caratteristiche alle idee per l'avatar. Può generare molti suggerimenti per i candidati e fornire idee più creative. Da queste immagini generate, puoi trovare la soluzione perfetta per l'applicazione specifica. Aumenta la produttività generando automaticamente molti suggerimenti tempestivi. La variazione che può apportare è il vantaggio immediato della soluzione.

Panoramica della soluzione

Consentire ai clienti di costruire il proprio assistente AI basato su RAG per una progettazione rapida su AWS è una testimonianza della versatilità della tecnologia moderna. AWS offre una vasta gamma di opzioni e servizi per facilitare questo sforzo. Il seguente diagramma dell'architettura di riferimento illustra un'applicazione RAG per la progettazione tempestiva su AWS.

Migliora i tuoi suggerimenti di diffusione stabile con la generazione aumentata di recupero | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Quando si tratta di selezionare i LLM giusti per il tuo assistente AI, AWS offre una gamma di scelte per soddisfare le tue esigenze specifiche.

In primo luogo, puoi optare per LLM disponibili tramite SageMaker JumpStart, utilizzando istanze dedicate. Queste istanze supportano una varietà di modelli, tra cui Falcon, Llama 2, Bloom Z e Flan-T5, oppure puoi esplorare modelli proprietari come Cohere's Command and Multilingual Embedding o Jurassic-2 di AI21 Labs.

Se preferisci un approccio più semplificato, AWS offre LLM su Roccia Amazzonica, con modelli come Titano Amazzonico e Claude antropico. Questi modelli sono facilmente accessibili tramite semplici chiamate API, consentendoti di sfruttare la loro potenza senza sforzo. La flessibilità e la diversità delle opzioni ti garantiscono la libertà di scegliere il LLM che meglio si allinea ai tuoi obiettivi di progettazione tempestiva, sia che tu stia cercando un'innovazione con contenitori aperti o le robuste capacità di modelli proprietari.

Quando si tratta di creare il database vettoriale essenziale, AWS offre una moltitudine di opzioni attraverso i propri servizi nativi. Puoi optare per Servizio Amazon OpenSearch, Amazon Aurora, o Amazon Relational Database Service (Amazon RDS) per PostgreSQL, ognuno dei quali offre funzionalità robuste per soddisfare le tue esigenze specifiche. In alternativa, puoi esplorare i prodotti dei partner AWS come Pinecone, Weaviate, Elastic, Milvus o Chroma, che forniscono soluzioni specializzate per l'archiviazione e il recupero efficienti dei vettori.

Per aiutarti a iniziare a costruire un assistente AI basato su RAG per una progettazione rapida, abbiamo messo insieme una dimostrazione completa nel nostro GitHub deposito. Questa dimostrazione utilizza le seguenti risorse:

Generazione di immagini: Stable Diffusion XL su Amazon Bedrock
Incorporamento del testo: Amazon Titan su Amazon Bedrock
Generazione del testo: Claude 2 su Amazon Bedrock
Database vettoriale: FAIISS, una libreria open source per un'efficiente ricerca di similarità
Libreria di prompt: esempi di prompt da DiffusioneDB, il primo set di dati di gallerie di prompt su larga scala per modelli generativi da testo a immagine

Inoltre, abbiamo incorporato LangChain per l'implementazione LLM e Streamit per il componente dell'applicazione web, fornendo un'esperienza semplice e intuitiva.

Prerequisiti

Per eseguire questa applicazione demo è necessario disporre di quanto segue:

Un account AWS
Conoscenza di base di come navigare Amazon Sage Maker Studio
Comprensione di base su come scaricare un repository da GitHub
Conoscenza di base dell'esecuzione di un comando su un terminale

Esegui l'applicazione demo

Puoi scaricare tutto il codice necessario con le istruzioni dal GitHub pronti contro termine. Dopo aver distribuito l'applicazione, verrà visualizzata una pagina simile allo screenshot seguente.

Migliora i tuoi suggerimenti di diffusione stabile con la generazione aumentata di recupero | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Con questa dimostrazione, miriamo a rendere il processo di implementazione accessibile e comprensibile, fornendoti un'esperienza pratica per avviare il tuo viaggio nel mondo di RAG e velocizzare la progettazione su AWS.

ripulire

Dopo aver provato l'app, pulisci le tue risorse arrestando l'applicazione.

Conclusione

RAG è emerso come un paradigma rivoluzionario nel mondo del prompt design, rivitalizzando le capacità di conversione testo-immagine di Stable Diffusion. Armonizzando le tecniche RAG con gli approcci esistenti e utilizzando le solide risorse di AWS, abbiamo scoperto un percorso verso una creatività semplificata e un apprendimento accelerato.

Per ulteriori risorse, visitare quanto segue:

Circa gli autori

Giacomo Yi è un Senior AI/ML Partner Solutions Architect nel team Emerging Technologies di Amazon Web Services. È appassionato di lavorare con clienti e partner aziendali per progettare, distribuire e scalare applicazioni AI/ML per ricavarne i valori aziendali. Al di fuori del lavoro, gli piace giocare a calcio, viaggiare e passare il tempo con la sua famiglia.

Migliora i tuoi suggerimenti di diffusione stabile con la generazione aumentata di recupero | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Rumi Olsen è un Solutions Architect nell'AWS Partner Program. È specializzata in soluzioni serverless e di machine learning nel suo ruolo attuale e ha un background nelle tecnologie di elaborazione del linguaggio naturale. Trascorre la maggior parte del suo tempo libero con sua figlia ad esplorare la natura del Pacifico nord-occidentale.