Utilizza i modelli Amazon Titan per la generazione, la modifica e la ricerca di immagini | Servizi Web di Amazon

Utilizza i modelli Amazon Titan per la generazione, la modifica e la ricerca di immagini | Servizi Web di Amazon

Roccia Amazzonica fornisce un'ampia gamma di modelli di base ad alte prestazioni di Amazon e di altre aziende leader nel settore dell'intelligenza artificiale, tra cui Antropico, AI21, Meta, avere coesionee Stabilità AIe copre un'ampia gamma di casi d'uso, tra cui la generazione di testo e immagini, la ricerca, la chat, il ragionamento e la recitazione degli agenti e altro ancora. Il nuovo Generatore di immagini di Amazon Titan Il modello consente ai creatori di contenuti di generare rapidamente immagini realistiche e di alta qualità utilizzando semplici istruzioni di testo in inglese. Il modello AI avanzato comprende istruzioni complesse con più oggetti e restituisce immagini di qualità professionale adatte pubblicità, e-commerce e divertimento. Le caratteristiche principali includono la possibilità di perfezionare le immagini eseguendo l'iterazione delle istruzioni, la modifica automatica dello sfondo e la generazione di più variazioni della stessa scena. I creatori possono anche personalizzare il modello con i propri dati per produrre immagini sul marchio in uno stile specifico. È importante sottolineare che Titan Image Generator dispone di protezioni integrate, come filigrane invisibili su tutte le immagini generate dall'intelligenza artificiale, per incoraggiare uso responsabile e mitigare la diffusione della disinformazione. Questa tecnologia innovativa consente di produrre immagini personalizzate in grandi volumi qualsiasi settore più accessibile ed efficiente.

Il nuovo Incorporamenti multimodali di Amazon Titan Il modello aiuta a creare ricerche e consigli più accurati comprendendo testo, immagini o entrambi. Converte immagini e testo inglese in vettori semantici, catturando significato e relazioni nei tuoi dati. Puoi combinare testo e immagini come descrizioni di prodotti e foto per identificare gli articoli in modo più efficace. I vettori consentono esperienze di ricerca rapide e accurate. Titan Multimodal Embeddings è flessibile nelle dimensioni vettoriali, consentendo l'ottimizzazione per le esigenze prestazionali. Un'API asincrona e Servizio Amazon OpenSearch Il connettore semplifica l'integrazione del modello nelle applicazioni di ricerca neurale.

In questo post, spiegheremo come utilizzare i modelli Titan Image Generator e Titan Multimodal Embeddings tramite l'SDK AWS Python.

Generazione e modifica delle immagini

In questa sezione mostriamo i modelli di codifica di base per l'utilizzo dell'SDK AWS per generare nuove immagini ed eseguire modifiche basate sull'intelligenza artificiale su immagini esistenti. Esempi di codice sono forniti in Python e in questo è disponibile anche JavaScript (Node.js). Repository GitHub.

Prima di poter scrivere script che utilizzano l'API Amazon Bedrock, devi installare la versione appropriata dell'SDK AWS nel tuo ambiente. Per gli script Python è possibile utilizzare il file SDK AWS per Python (Boto3). Gli utenti Python potrebbero anche voler installare il file Modulo cuscino, che facilita le operazioni sulle immagini come il caricamento e il salvataggio delle immagini. Per le istruzioni di configurazione, fare riferimento a Repository GitHub.

Inoltre, abilita l'accesso ai modelli Amazon Titan Image Generator e Titan Multimodal Embeddings. Per ulteriori informazioni, fare riferimento a Accesso al modello.

Funzioni di aiuto

La seguente funzione configura il client runtime Amazon Bedrock Boto3 e genera immagini prendendo payload di diverse configurazioni (di cui parleremo più avanti in questo post):

import boto3
import json, base64, io
from random import randint
from PIL import Image bedrock_runtime_client = boto3.client("bedrock-runtime") def titan_image( payload: dict, num_image: int = 2, cfg: float = 10.0, seed: int = None, modelId: str = "amazon.titan-image-generator-v1",
) -> list: # ImageGenerationConfig Options: # - numberOfImages: Number of images to be generated # - quality: Quality of generated images, can be standard or premium # - height: Height of output image(s) # - width: Width of output image(s) # - cfgScale: Scale for classifier-free guidance # - seed: The seed to use for reproducibility seed = seed if seed is not None else randint(0, 214783647) body = json.dumps( { **payload, "imageGenerationConfig": { "numberOfImages": num_image, # Range: 1 to 5 "quality": "premium", # Options: standard/premium "height": 1024, # Supported height list above "width": 1024, # Supported width list above "cfgScale": cfg, # Range: 1.0 (exclusive) to 10.0 "seed": seed, # Range: 0 to 214783647 }, } ) response = bedrock_runtime_client.invoke_model( body=body, modelId=modelId, accept="application/json", contentType="application/json", ) response_body = json.loads(response.get("body").read()) images = [ Image.open(io.BytesIO(base64.b64decode(base64_image))) for base64_image in response_body.get("images") ] return images 

Genera immagini dal testo

Gli script che generano una nuova immagine da un prompt di testo seguono questo modello di implementazione:

  1. Configurare un messaggio di testo e un messaggio di testo negativo facoltativo.
  2. Usa il BedrockRuntime client per richiamare il modello Titan Image Generator.
  3. Analizzare e decodificare la risposta.
  4. Salva le immagini risultanti su disco.

Da testo a immagine

Quello che segue è un tipico script di generazione di immagini per il modello Titan Image Generator:

# Text Variation
# textToImageParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "negativeText": "cars", # Optional }, }
)

Ciò produrrà immagini simili alle seguenti.

Immagine di risposta 1 Immagine di risposta 2
2 cani che camminano per strada 2 cani che camminano per strada

Varianti di immagini

La variazione dell'immagine fornisce un modo per generare sottili varianti di un'immagine esistente. Il seguente frammento di codice utilizza una delle immagini generate nell'esempio precedente per creare immagini varianti:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Image Variation
# ImageVariationParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
#   images: base64 string representation of the input image, only 1 is supported
images = titan_image( { "taskType": "IMAGE_VARIATION", "imageVariationParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "images": [input_image], # One image is required "negativeText": "cars", # Optional }, },
)

Ciò produrrà immagini simili alle seguenti.

Immagine originale Immagine di risposta 1 Immagine di risposta 2
2 cani che camminano per strada Utilizza i modelli Amazon Titan per la generazione, la modifica e la ricerca di immagini | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Utilizza i modelli Amazon Titan per la generazione, la modifica e la ricerca di immagini | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Modifica un'immagine esistente

Il modello Titan Image Generator ti consente di aggiungere, rimuovere o sostituire elementi o aree all'interno di un'immagine esistente. Puoi specificare quale area influenzare fornendo una delle seguenti opzioni:

  • Immagine della maschera – Un'immagine maschera è un'immagine binaria in cui i pixel con valore 0 rappresentano l'area che si desidera influenzare e i pixel con valore 255 rappresentano l'area che dovrebbe rimanere invariata.
  • Richiesta maschera – Un prompt della maschera è una descrizione testuale in linguaggio naturale degli elementi che desideri influenzare, che utilizza un modello interno di segmentazione del testo.

Per ulteriori informazioni, fare riferimento a Linee guida di progettazione tempestive.

Gli script che applicano una modifica a un'immagine seguono questo modello di implementazione:

  1. Carica l'immagine da modificare dal disco.
  2. Converti l'immagine in una stringa con codifica base64.
  3. Configura la maschera attraverso uno dei seguenti metodi:
    1. Carica un'immagine della maschera dal disco, codificandola come base64 e impostandola come maskImage parametro.
    2. Impostare il maskText parametro ad una descrizione testuale degli elementi da influenzare.
  4. Specificare il nuovo contenuto da generare utilizzando una delle seguenti opzioni:
    1. Per aggiungere o sostituire un elemento, impostare il text parametro a una descrizione del nuovo contenuto.
    2. Per rimuovere un elemento, omettere il text parametro completamente.
  5. Usa il BedrockRuntime client per richiamare il modello Titan Image Generator.
  6. Analizzare e decodificare la risposta.
  7. Salva le immagini risultanti su disco.

Modifica dell'oggetto: Inpainting con un'immagine maschera

Quello che segue è un tipico script di modifica delle immagini per il modello Titan Image Generator utilizzato maskImage. Prendiamo una delle immagini generate in precedenza e forniamo un'immagine maschera, in cui i pixel con valore 0 vengono renderizzati come neri e i pixel con valore 255 come bianchi. Sostituiamo anche uno dei cani nell'immagine con un gatto utilizzando un messaggio di testo.

with open("<YOUR_MASK_IMAGE_FILE_PATH>", "rb") as image_file: mask_image = base64.b64encode(image_file.read()).decode("utf8") # Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_ORIGINAL_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Inpainting
# inPaintingParams Options:
#   text: prompt to guide inpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "text": "a cat", # Optional "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskImage": mask_image, }, }, num_image=3,
)

Ciò produrrà immagini simili alle seguenti.

Immagine originale Immagine della maschera Immagine modificata
2 cani che camminano per strada Utilizza i modelli Amazon Titan per la generazione, la modifica e la ricerca di immagini | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. gatto e cane che camminano per strada

Rimozione dell'oggetto: Inpainting con un prompt della maschera

In un altro esempio, usiamo maskPrompt per specificare un oggetto nell'immagine, preso dai passaggi precedenti, da modificare. Omettendo il messaggio di testo, l'oggetto verrà rimosso:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskPrompt": "white dog", # One of "maskImage" or "maskPrompt" is required }, },
)

Ciò produrrà immagini simili alle seguenti.

Immagine originale Immagine di risposta
2 cani che camminano per strada un cane che cammina per strada

Modifica dello sfondo: outpainting

La sovraverniciatura è utile quando si desidera sostituire lo sfondo di un'immagine. Puoi anche estendere i limiti di un'immagine per un effetto di zoom indietro. Nello script di esempio seguente utilizziamo maskPrompt specificare quale oggetto conservare; puoi anche usare maskImage. Il parametro outPaintingMode specifica se consentire la modifica dei pixel all'interno della maschera. Se impostato come DEFAULT, i pixel all'interno della maschera possono essere modificati in modo che l'immagine ricostruita sia complessivamente coerente. Questa opzione è consigliata se maskImage fornito non rappresenta l'oggetto con precisione a livello di pixel. Se impostato come PRECISE, viene impedita la modifica dei pixel all'interno della maschera. Questa opzione è consigliata se si utilizza a maskPromptmaskImage che rappresenta l'oggetto con precisione a livello di pixel.

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # OutPaintingParams Options:
#   text: prompt to guide outpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask
#   outPaintingMode: DEFAULT | PRECISE
images = titan_image( { "taskType": "OUTPAINTING", "outPaintingParams": { "text": "forest", # Required "image": input_image, # Required "maskPrompt": "dogs", # One of "maskImage" or "maskPrompt" is required "outPaintingMode": "PRECISE", # One of "PRECISE" or "DEFAULT" }, }, num_image=3,
)

Ciò produrrà immagini simili alle seguenti.

Immagine originale Testo Immagine di risposta
2 cani che camminano per strada "spiaggia" un cane che cammina sulla spiaggia
2 cani che camminano per strada "foresta" Utilizza i modelli Amazon Titan per la generazione, la modifica e la ricerca di immagini | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Inoltre, gli effetti di valori diversi per outPaintingMode, Con maskImage che non delinea l'oggetto con precisione a livello di pixel, sono i seguenti.

Questa sezione ti ha fornito una panoramica delle operazioni che puoi eseguire con il modello Titan Image Generator. Nello specifico, questi script dimostrano attività di conversione del testo in immagine, variazione dell'immagine, inpainting e outpainting. Dovresti essere in grado di adattare i modelli per le tue applicazioni facendo riferimento ai dettagli dei parametri per i tipi di attività descritti in dettaglio Documentazione di Amazon Titan Image Generator.

Incorporamento e ricerca multimodale

Puoi utilizzare il modello Amazon Titan Multimodal Embeddings per attività aziendali come la ricerca di immagini e raccomandazioni basate sulla somiglianza e dispone di un sistema di mitigazione integrato che aiuta a ridurre le distorsioni nei risultati della ricerca. Sono disponibili più dimensioni di incorporamento per ottenere i migliori compromessi tra latenza e precisione per le diverse esigenze e tutte possono essere personalizzate con una semplice API per adattarsi ai propri dati mantenendo la sicurezza e la privacy dei dati. Amazon Titan Multimodal Embeddings viene fornito come semplici API per applicazioni di ricerca e raccomandazione di trasformazioni batch in tempo reale o asincrone e può essere connesso a diversi database vettoriali, tra cui Servizio Amazon OpenSearch.

Funzioni di aiuto

La seguente funzione converte un'immagine e, facoltativamente, del testo in incorporamenti multimodali:

def titan_multimodal_embedding( image_path: str = None, # maximum 2048 x 2048 pixels description: str = None, # English only and max input tokens 128 dimension: int = 1024, # 1,024 (default), 384, 256 model_id: str = "amazon.titan-embed-image-v1",
): payload_body = {} embedding_config: dict = {"embeddingConfig": {"outputEmbeddingLength": dimension}} # You can specify either text or image or both if image_path: # Maximum image size supported is 2048 x 2048 pixels with open(image_path, "rb") as image_file: payload_body["inputImage"] = base64.b64encode(image_file.read()).decode( "utf8" ) if description: payload_body["inputText"] = description assert payload_body, "please provide either an image and/or a text description" print("n".join(payload_body.keys())) response = bedrock_runtime_client.invoke_model( body=json.dumps({**payload_body, **embedding_config}), modelId=model_id, accept="application/json", contentType="application/json", ) return json.loads(response.get("body").read())

La seguente funzione restituisce i principali incorporamenti multimodali simili in base a una query di incorporamenti multimodali. Tieni presente che in pratica puoi utilizzare un database vettoriale gestito, come OpenSearch Service. L'esempio seguente è a scopo illustrativo:

from scipy.spatial.distance import cdist
import numpy as np def search(query_emb: np.array, indexes: np.array, top_k: int = 1): dist = cdist(query_emb, indexes, metric="cosine") return dist.argsort(axis=-1)[0, :top_k], np.sort(dist, axis=-1)[:top_k]

Set di dati sintetici

A scopo illustrativo, utilizziamo Modello Claude 2.1 di Anthropic in Amazon Bedrock per generare in modo casuale sette prodotti diversi, ciascuno con tre varianti, utilizzando il seguente prompt:

Generate a list of 7 items description for an online e-commerce shop, each comes with 3 variants of color or type. All with separate full sentence description.

Di seguito è riportato l'elenco degli output restituiti:

1. T-shirt
- A red cotton t-shirt with a crew neck and short sleeves.
- A blue cotton t-shirt with a v-neck and short sleeves.
- A black polyester t-shirt with a scoop neck and cap sleeves. 2. Jeans
- Classic blue relaxed fit denim jeans with a mid-rise waist.
- Black skinny fit denim jeans with a high-rise waist and ripped details at the knees.
- Stonewash straight leg denim jeans with a standard waist and front pockets. 3. Sneakers
- White leather low-top sneakers with an almond toe cap and thick rubber outsole.
- Gray mesh high-top sneakers with neon green laces and a padded ankle collar.
- Tan suede mid-top sneakers with a round toe and ivory rubber cupsole. 4. Backpack
- A purple nylon backpack with padded shoulder straps, front zipper pocket and laptop sleeve.
- A gray canvas backpack with brown leather trims, side water bottle pockets and drawstring top closure.
- A black leather backpack with multiple interior pockets, top carry handle and adjustable padded straps. 5. Smartwatch
- A silver stainless steel smartwatch with heart rate monitor, GPS tracker and sleep analysis.
- A space gray aluminum smartwatch with step counter, phone notifications and calendar syncing.
- A rose gold smartwatch with activity tracking, music controls and customizable watch faces. 6. Coffee maker
- A 12-cup programmable coffee maker in brushed steel with removable water tank and keep warm plate.
- A compact 5-cup single serve coffee maker in matt black with travel mug auto-dispensing feature.
- A retro style stovetop percolator coffee pot in speckled enamel with stay-cool handle and glass knob lid. 7. Yoga mat
- A teal 4mm thick yoga mat made of natural tree rubber with moisture-wicking microfiber top.
- A purple 6mm thick yoga mat made of eco-friendly TPE material with integrated carrying strap.
- A patterned 5mm thick yoga mat made of PVC-free material with towel cover included.

Assegna la risposta sopra alla variabile response_cat. Quindi utilizziamo il modello Titan Image Generator per creare immagini di prodotto per ciascun articolo:

import re def extract_text(input_string): pattern = r"- (.*?)($|n)" matches = re.findall(pattern, input_string) extracted_texts = [match[0] for match in matches] return extracted_texts product_description = extract_text(response_cat) titles = []
for prompt in product_description: images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": prompt, # Required }, }, num_image=1, ) title = "_".join(prompt.split()[:4]).lower() titles.append(title) images[0].save(f"{title}.png", format="png")

Tutte le immagini generate possono essere trovate nell'appendice alla fine di questo post.

Indicizzazione di set di dati multimodali

Utilizzare il codice seguente per l'indicizzazione del set di dati multimodale:

multimodal_embeddings = []
for image_filename, description in zip(titles, product_description): embedding = titan_multimodal_embedding(f"{image_filename}.png", dimension=1024)["embedding"] multimodal_embeddings.append(embedding)

Ricerca multimodale

Utilizzare il seguente codice per la ricerca multimodale:

query_prompt = "<YOUR_QUERY_TEXT>"
query_embedding = titan_multimodal_embedding(description=query_prompt, dimension=1024)["embedding"]
# If searching via Image
# query_image_filename = "<YOUR_QUERY_IMAGE>"
# query_emb = titan_multimodal_embedding(image_path=query_image_filename, dimension=1024)["embedding"]
idx_returned, dist = search(np.array(query_embedding)[None], np.array(multimodal_embeddings))

Di seguito sono riportati alcuni risultati della ricerca.

Conclusione

Il post presenta i modelli Amazon Titan Image Generator e Amazon Titan Multimodal Embeddings. Titan Image Generator ti consente di creare immagini personalizzate di alta qualità da istruzioni di testo. Le funzionalità principali includono l'iterazione dei prompt, la modifica automatica in background e la personalizzazione dei dati. Dispone di misure di sicurezza come filigrane invisibili per incoraggiare un uso responsabile. Titan Multimodal Embeddings converte testo, immagini o entrambi in vettori semantici per fornire ricerche e suggerimenti accurati. Abbiamo quindi fornito esempi di codice Python per l'utilizzo di questi servizi e dimostrato la generazione di immagini da prompt di testo e l'iterazione su tali immagini; modificare le immagini esistenti aggiungendo, rimuovendo o sostituendo gli elementi specificati dalle immagini maschera o dal testo maschera; creazione di incorporamenti multimodali da testo, immagini o entrambi; e la ricerca di incorporamenti multimodali simili a una query. Abbiamo anche dimostrato l'utilizzo di un set di dati sintetici di e-commerce indicizzati e ricercati utilizzando Titan Multimodal Embeddings. Lo scopo di questo post è consentire agli sviluppatori di iniziare a utilizzare questi nuovi servizi di intelligenza artificiale nelle loro applicazioni. I modelli di codice possono fungere da modelli per implementazioni personalizzate.

Tutto il codice è disponibile su Repository GitHub. Per ulteriori informazioni, fare riferimento al Guida per l'utente di Amazon Bedrock.


Informazioni sugli autori

Utilizza i modelli Amazon Titan per la generazione, la modifica e la ricerca di immagini | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.Rohit Mittal è Principal Product Manager presso Amazon AI che sviluppa modelli di base multimodali. Recentemente ha guidato il lancio del modello Amazon Titan Image Generator come parte del servizio Amazon Bedrock. Esperto in AI/ML, NLP e ricerca, è interessato a creare prodotti che risolvano i punti critici dei clienti con tecnologie innovative.

Utilizza i modelli Amazon Titan per la generazione, la modifica e la ricerca di immagini | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.Dottor Ashwin Swaminathan è un ricercatore, ingegnere e manager di computer vision e machine learning con oltre 12 anni di esperienza nel settore e oltre 5 anni di esperienza nella ricerca accademica. Fondamentali solidi e comprovata capacità di acquisire rapidamente conoscenze e contribuire ad aree nuove ed emergenti.

Utilizza i modelli Amazon Titan per la generazione, la modifica e la ricerca di immagini | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.Dottor Yusheng Xie è Principal Applied Scientist presso Amazon AGI. Il suo lavoro si concentra sulla costruzione di modelli di fondazione multimodali. Prima di entrare in AGI, è stato a capo di vari sviluppi di intelligenza artificiale multimodale presso AWS come Amazon Titan Image Generator e Amazon Textract Queries.

Utilizza i modelli Amazon Titan per la generazione, la modifica e la ricerca di immagini | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.Dottor Hao Yang è uno dei principali scienziati applicati presso Amazon. I suoi principali interessi di ricerca sono il rilevamento di oggetti e l'apprendimento con annotazioni limitate. Fuori dal lavoro, Hao ama guardare film, fotografare e fare attività all'aperto.

Utilizza i modelli Amazon Titan per la generazione, la modifica e la ricerca di immagini | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.Dott. Davide Modolo è un Applied Science Manager presso Amazon AGI, che lavora alla creazione di grandi modelli fondazionali multimodali. Prima di entrare in Amazon AGI, è stato manager/responsabile per 7 anni in AWS AI Labs (Amazon Bedrock e Amazon Rekognition). Al di fuori del lavoro gli piace viaggiare e praticare qualsiasi tipo di sport, in particolare il calcio.

Utilizza i modelli Amazon Titan per la generazione, la modifica e la ricerca di immagini | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.Dottor Baichuan Sun, attualmente ricopre il ruolo di Sr. AI/ML Solutions Architect presso AWS, concentrandosi sull'intelligenza artificiale generativa e applica le sue conoscenze nella scienza dei dati e nell'apprendimento automatico per fornire soluzioni aziendali pratiche basate sul cloud. Con esperienza nella consulenza gestionale e nell'architettura di soluzioni AI, affronta una serie di sfide complesse, tra cui la visione artificiale robotica, la previsione di serie temporali e la manutenzione predittiva, tra le altre. Il suo lavoro si basa su un solido background di gestione di progetti, ricerca e sviluppo di software e attività accademiche. Al di fuori del lavoro, il dottor Sun ama l'equilibrio tra viaggiare e trascorrere del tempo con la famiglia e gli amici.

Utilizza i modelli Amazon Titan per la generazione, la modifica e la ricerca di immagini | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.Dottor Kai Zhu attualmente lavora come Cloud Support Engineer presso AWS, aiutando i clienti con problemi nei servizi relativi all'intelligenza artificiale/ML come SageMaker, Bedrock, ecc. È un esperto in materia di SageMaker. Esperto in data science e data engineering, è interessato alla realizzazione di progetti generativi basati sull'intelligenza artificiale.

Utilizza i modelli Amazon Titan per la generazione, la modifica e la ricerca di immagini | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.Kris Schultz ha trascorso oltre 25 anni a dare vita a esperienze utente coinvolgenti combinando tecnologie emergenti con un design di livello mondiale. Nel suo ruolo di Senior Product Manager, Kris aiuta a progettare e creare servizi AWS per potenziare media e intrattenimento, giochi e informatica spaziale.


Appendice

Nelle sezioni seguenti, mostriamo casi d'uso campione impegnativi come l'inserimento di testo, le mani e i riflessi per evidenziare le capacità del modello Titan Image Generator. Includiamo anche le immagini di output di esempio prodotte negli esempi precedenti.

Testo

Il modello Titan Image Generator eccelle in flussi di lavoro complessi come l'inserimento di testo leggibile nelle immagini. Questo esempio dimostra la capacità di Titan di riprodurre chiaramente le lettere maiuscole e minuscole in uno stile coerente all'interno di un'immagine.

un corgi che indossa un berretto da baseball con la scritta "genai" un ragazzo felice che alza il pollice e indossa una maglietta con la scritta "IA generativa"
Utilizza i modelli Amazon Titan per la generazione, la modifica e la ricerca di immagini | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Utilizza i modelli Amazon Titan per la generazione, la modifica e la ricerca di immagini | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Mani

Il modello Titan Image Generator ha anche la capacità di generare immagini AI dettagliate. L'immagine mostra mani e dita realistiche con dettagli visibili, andando oltre la generazione di immagini AI più basilari che potrebbero mancare di tale specificità. Negli esempi seguenti, nota la rappresentazione precisa della posa e dell'anatomia.

la mano di una persona vista dall'alto uno sguardo ravvicinato alle mani di una persona che tiene una tazza di caffè
Utilizza i modelli Amazon Titan per la generazione, la modifica e la ricerca di immagini | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Utilizza i modelli Amazon Titan per la generazione, la modifica e la ricerca di immagini | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Specchio

Le immagini generate dal modello Titan Image Generator dispongono spazialmente gli oggetti e riflettono accuratamente gli effetti specchio, come dimostrato negli esempi seguenti.

Un simpatico e soffice gatto bianco sta in piedi sulle zampe posteriori e scruta con curiosità in uno specchio dorato decorato. Nel riflesso il gatto vede se stesso bellissimo lago con riflessi sull'acqua
Utilizza i modelli Amazon Titan per la generazione, la modifica e la ricerca di immagini | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Utilizza i modelli Amazon Titan per la generazione, la modifica e la ricerca di immagini | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Immagini di prodotti sintetici

Di seguito sono riportate le immagini del prodotto generate in precedenza in questo post per il modello Titan Multimodal Embeddings.

Timestamp:

Di più da Apprendimento automatico di AWS