Utilizați modelele Amazon Titan pentru generarea, editarea și căutarea imaginilor | Amazon Web Services

Utilizați modelele Amazon Titan pentru generarea, editarea și căutarea imaginilor | Amazon Web Services

Amazon Bedrock oferă o gamă largă de modele de fundație de înaltă performanță de la Amazon și alte companii de IA de top, inclusiv Antropică, AI21, meta, fi legat, și Stabilitate AIși acoperă o gamă largă de cazuri de utilizare, inclusiv generarea de text și imagini, căutare, chat, raționament și agenți de acțiune și multe altele. Noul Amazon Titan Generator de imagini modelul permite creatorilor de conținut să genereze rapid imagini realiste, de înaltă calitate, folosind instrucțiuni simple de text în limba engleză. Modelul avansat AI înțelege instrucțiuni complexe cu mai multe obiecte și returnează imagini de calitate studio potrivite pentru reclamă, comerțul electronic și divertisment. Caracteristicile cheie includ capacitatea de a rafina imaginile prin iterare pe solicitări, editarea automată în fundal și generarea mai multor variații ale aceleiași scene. De asemenea, creatorii pot personaliza modelul cu propriile lor date pentru a scoate imagini de marcă într-un stil specific. Este important, Titan Image Generator are măsuri de protecție încorporate, cum ar fi filigrane invizibile pe toate imaginile generate de AI, pentru a încuraja utilizare responsabilă și atenuarea răspândirii dezinformarii. Această tehnologie inovatoare face să producă imagini personalizate în volum mare pentru orice industrie mai accesibil și mai eficient.

Noul Embeddings multimodale Amazon Titan modelul ajută la crearea de căutări și recomandări mai precise prin înțelegerea textului, a imaginilor sau a ambelor. Convertește imaginile și textul în limba engleză în vectori semantici, captând semnificația și relațiile în datele dvs. Puteți combina text și imagini, cum ar fi descrierile produselor și fotografiile, pentru a identifica articolele mai eficient. Vectorii oferă experiențe de căutare rapide și precise. Titan Multimodal Embeddings este flexibil în dimensiuni vectoriale, permițând optimizarea pentru nevoile de performanță. Un API asincron și Serviciul Amazon OpenSearch conector facilitează integrarea modelului în aplicațiile dvs. de căutare neuronală.

În această postare, vom explica cum să folosiți modelele Titan Image Generator și Titan Multimodal Embeddings prin intermediul AWS Python SDK.

Generarea și editarea imaginilor

În această secțiune, demonstrăm modelele de codare de bază pentru utilizarea SDK-ului AWS pentru a genera imagini noi și a efectua editări bazate pe inteligență artificială asupra imaginilor existente. Exemple de cod sunt furnizate în Python, iar JavaScript (Node.js) este, de asemenea, disponibil în acesta GitHub depozit.

Înainte de a putea scrie scripturi care utilizează API-ul Amazon Bedrock, trebuie să instalați versiunea corespunzătoare a AWS SDK în mediul dvs. Pentru scripturile Python, puteți utiliza SDK AWS pentru Python (Boto3). Utilizatorii Python ar putea dori, de asemenea, să instaleze Modul de pernă, care facilitează operațiunile de imagine precum încărcarea și salvarea imaginilor. Pentru instrucțiuni de configurare, consultați GitHub depozit.

În plus, permiteți accesul la modelele Amazon Titan Image Generator și Titan Multimodal Embeddings. Pentru mai multe informații, consultați Acces model.

Funcții de ajutor

Următoarea funcție setează clientul de execuție Amazon Bedrock Boto3 și generează imagini prin preluarea de încărcături utile de diferite configurații (despre care discutăm mai târziu în această postare):

import boto3
import json, base64, io
from random import randint
from PIL import Image bedrock_runtime_client = boto3.client("bedrock-runtime") def titan_image( payload: dict, num_image: int = 2, cfg: float = 10.0, seed: int = None, modelId: str = "amazon.titan-image-generator-v1",
) -> list: # ImageGenerationConfig Options: # - numberOfImages: Number of images to be generated # - quality: Quality of generated images, can be standard or premium # - height: Height of output image(s) # - width: Width of output image(s) # - cfgScale: Scale for classifier-free guidance # - seed: The seed to use for reproducibility seed = seed if seed is not None else randint(0, 214783647) body = json.dumps( { **payload, "imageGenerationConfig": { "numberOfImages": num_image, # Range: 1 to 5 "quality": "premium", # Options: standard/premium "height": 1024, # Supported height list above "width": 1024, # Supported width list above "cfgScale": cfg, # Range: 1.0 (exclusive) to 10.0 "seed": seed, # Range: 0 to 214783647 }, } ) response = bedrock_runtime_client.invoke_model( body=body, modelId=modelId, accept="application/json", contentType="application/json", ) response_body = json.loads(response.get("body").read()) images = [ Image.open(io.BytesIO(base64.b64decode(base64_image))) for base64_image in response_body.get("images") ] return images 

Generați imagini din text

Scripturile care generează o nouă imagine dintr-un prompt text urmează acest model de implementare:

  1. Configurați o solicitare text și o solicitare text negativă opțională.
  2. Folosește BedrockRuntime client pentru a invoca modelul Titan Image Generator.
  3. Analizați și decodificați răspunsul.
  4. Salvați imaginile rezultate pe disc.

Text-to-image

Următorul este un script tipic de generare de imagini pentru modelul Titan Image Generator:

# Text Variation
# textToImageParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "negativeText": "cars", # Optional }, }
)

Acest lucru va produce imagini similare cu cele de mai jos.

Imaginea de răspuns 1 Imaginea de răspuns 2
2 câini care se plimbă pe stradă 2 câini care se plimbă pe stradă

Variante de imagine

Variația imaginii oferă o modalitate de a genera variante subtile ale unei imagini existente. Următorul fragment de cod utilizează una dintre imaginile generate în exemplul anterior pentru a crea imagini variante:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Image Variation
# ImageVariationParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
#   images: base64 string representation of the input image, only 1 is supported
images = titan_image( { "taskType": "IMAGE_VARIATION", "imageVariationParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "images": [input_image], # One image is required "negativeText": "cars", # Optional }, },
)

Acest lucru va produce imagini similare cu cele de mai jos.

Imagine originală Imaginea de răspuns 1 Imaginea de răspuns 2
2 câini care se plimbă pe stradă Utilizați modelele Amazon Titan pentru generarea, editarea și căutarea imaginilor | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai. Utilizați modelele Amazon Titan pentru generarea, editarea și căutarea imaginilor | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Editați o imagine existentă

Modelul Titan Image Generator vă permite să adăugați, să eliminați sau să înlocuiți elemente sau zone dintr-o imagine existentă. Specificați ce zonă să afectați, oferind una dintre următoarele:

  • Imagine cu masca – O imagine mască este o imagine binară în care pixelii cu valoarea 0 reprezintă zona pe care doriți să o afectați, iar pixelii cu valoarea 255 reprezintă zona care ar trebui să rămână neschimbată.
  • Prompt pentru mască – Un prompt de mască este o descriere text în limbaj natural a elementelor pe care doriți să le afectați, care utilizează un model intern de segmentare a textului.

Pentru mai multe informații, consultați Orientări de inginerie prompte.

Scripturile care aplică o editare unei imagini urmează acest model de implementare:

  1. Încărcați imaginea pentru a fi editată de pe disc.
  2. Convertiți imaginea într-un șir codificat în base64.
  3. Configurați masca prin una dintre următoarele metode:
    1. Încărcați o imagine de mască de pe disc, codând-o ca base64 și setând-o ca maskImage parametru.
    2. Seteaza maskText parametru la o descriere text a elementelor de afectat.
  4. Specificați noul conținut care urmează să fie generat utilizând una dintre următoarele opțiuni:
    1. Pentru a adăuga sau înlocui un element, setați text parametru la o descriere a noului conținut.
    2. Pentru a elimina un element, omiteți text parametru complet.
  5. Folosește BedrockRuntime client pentru a invoca modelul Titan Image Generator.
  6. Analizați și decodificați răspunsul.
  7. Salvați imaginile rezultate pe disc.

Editarea obiectelor: Inpainting cu o imagine de mască

Următorul este un script obișnuit de editare a imaginii pentru modelul Titan Image Generator care utilizează maskImage. Luăm una dintre imaginile generate mai devreme și oferim o imagine de mască, în care pixelii cu valoare 0 sunt redați ca negru și pixelii cu valoarea 255 ca alb. De asemenea, înlocuim unul dintre câinii din imagine cu o pisică folosind un mesaj text.

with open("<YOUR_MASK_IMAGE_FILE_PATH>", "rb") as image_file: mask_image = base64.b64encode(image_file.read()).decode("utf8") # Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_ORIGINAL_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Inpainting
# inPaintingParams Options:
#   text: prompt to guide inpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "text": "a cat", # Optional "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskImage": mask_image, }, }, num_image=3,
)

Acest lucru va produce imagini similare cu cele de mai jos.

Imagine originală Imagine masca Imagine editată
2 câini care se plimbă pe stradă Utilizați modelele Amazon Titan pentru generarea, editarea și căutarea imaginilor | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai. pisică și câine care se plimbă pe stradă

Îndepărtarea obiectului: Inpainting cu un prompt de mască

Într-un alt exemplu, folosim maskPrompt pentru a specifica un obiect din imagine, luat din pașii anteriori, pentru a edita. Omitând promptul text, obiectul va fi eliminat:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskPrompt": "white dog", # One of "maskImage" or "maskPrompt" is required }, },
)

Acest lucru va produce imagini similare cu cele de mai jos.

Imagine originală Imagine de răspuns
2 câini care se plimbă pe stradă un câine care se plimbă pe stradă

Editare de fundal: Outpainting

Pictura este utilă atunci când doriți să înlocuiți fundalul unei imagini. De asemenea, puteți extinde limitele unei imagini pentru un efect de micșorare. În următorul exemplu de script, folosim maskPrompt să precizeze ce obiect să păstreze; poti folosi si maskImage. Parametrul outPaintingMode specifică dacă se permite modificarea pixelilor din interiorul măștii. Dacă se setează ca DEFAULT, pixelii din interiorul măștii pot fi modificați astfel încât imaginea reconstruită să fie consecventă în general. Această opțiune este recomandată dacă maskImage furnizat nu reprezintă obiectul cu precizie la nivel de pixel. Dacă se setează ca PRECISE, modificarea pixelilor din interiorul măștii este împiedicată. Această opțiune este recomandată dacă utilizați un maskPrompt sau un maskImage care reprezintă obiectul cu precizie la nivel de pixel.

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # OutPaintingParams Options:
#   text: prompt to guide outpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask
#   outPaintingMode: DEFAULT | PRECISE
images = titan_image( { "taskType": "OUTPAINTING", "outPaintingParams": { "text": "forest", # Required "image": input_image, # Required "maskPrompt": "dogs", # One of "maskImage" or "maskPrompt" is required "outPaintingMode": "PRECISE", # One of "PRECISE" or "DEFAULT" }, }, num_image=3,
)

Acest lucru va produce imagini similare cu cele de mai jos.

Imagine originală Text Imagine de răspuns
2 câini care se plimbă pe stradă "plajă" un câine care se plimbă pe plajă
2 câini care se plimbă pe stradă "pădure" Utilizați modelele Amazon Titan pentru generarea, editarea și căutarea imaginilor | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

În plus, efectele diferitelor valori pentru outPaintingMode, Cu un maskImage care nu conturează obiectul cu precizie la nivel de pixel, sunt după cum urmează.

Această secțiune v-a oferit o privire de ansamblu asupra operațiunilor pe care le puteți efectua cu modelul Titan Image Generator. Mai exact, aceste scripturi demonstrează sarcinile text-to-image, variația imaginii, inpainting și outpainting. Ar trebui să puteți adapta modelele pentru propriile aplicații, făcând referire la detaliile parametrilor pentru acele tipuri de sarcini detaliate în Documentația Amazon Titan Image Generator.

Încorporarea și căutarea multimodală

Puteți utiliza modelul Amazon Titan Multimodal Embeddings pentru activități de întreprindere, cum ar fi căutarea de imagini și recomandarea bazată pe asemănări, și are o atenuare încorporată care ajută la reducerea părtinirii rezultatelor căutării. Există mai multe dimensiuni de încorporare pentru cele mai bune compromisuri latență/acuratețe pentru diferite nevoi și toate pot fi personalizate cu un simplu API pentru a se adapta la propriile date, păstrând în același timp securitatea și confidențialitatea datelor. Amazon Titan Multimodal Embeddings este furnizat ca API-uri simple pentru aplicații de căutare și recomandare a transformării loturilor în timp real sau asincrone și pot fi conectate la diferite baze de date vectoriale, inclusiv Serviciul Amazon OpenSearch.

Funcții de ajutor

Următoarea funcție convertește o imagine și, opțional, text, în înglobări multimodale:

def titan_multimodal_embedding( image_path: str = None, # maximum 2048 x 2048 pixels description: str = None, # English only and max input tokens 128 dimension: int = 1024, # 1,024 (default), 384, 256 model_id: str = "amazon.titan-embed-image-v1",
): payload_body = {} embedding_config: dict = {"embeddingConfig": {"outputEmbeddingLength": dimension}} # You can specify either text or image or both if image_path: # Maximum image size supported is 2048 x 2048 pixels with open(image_path, "rb") as image_file: payload_body["inputImage"] = base64.b64encode(image_file.read()).decode( "utf8" ) if description: payload_body["inputText"] = description assert payload_body, "please provide either an image and/or a text description" print("n".join(payload_body.keys())) response = bedrock_runtime_client.invoke_model( body=json.dumps({**payload_body, **embedding_config}), modelId=model_id, accept="application/json", contentType="application/json", ) return json.loads(response.get("body").read())

Următoarea funcție returnează primele înglobări multimodale similare, având în vedere o interogare înglobări multimodale. Rețineți că, în practică, puteți utiliza o bază de date vectorială gestionată, cum ar fi OpenSearch Service. Următorul exemplu este cu titlu ilustrativ:

from scipy.spatial.distance import cdist
import numpy as np def search(query_emb: np.array, indexes: np.array, top_k: int = 1): dist = cdist(query_emb, indexes, metric="cosine") return dist.argsort(axis=-1)[0, :top_k], np.sort(dist, axis=-1)[:top_k]

Set de date sintetice

În scop ilustrativ, folosim Modelul Claude 2.1 de la Anthropic în Amazon Bedrock pentru a genera aleatoriu șapte produse diferite, fiecare cu trei variante, folosind următorul prompt:

Generate a list of 7 items description for an online e-commerce shop, each comes with 3 variants of color or type. All with separate full sentence description.

Următoarea este lista rezultatelor returnate:

1. T-shirt
- A red cotton t-shirt with a crew neck and short sleeves.
- A blue cotton t-shirt with a v-neck and short sleeves.
- A black polyester t-shirt with a scoop neck and cap sleeves. 2. Jeans
- Classic blue relaxed fit denim jeans with a mid-rise waist.
- Black skinny fit denim jeans with a high-rise waist and ripped details at the knees.
- Stonewash straight leg denim jeans with a standard waist and front pockets. 3. Sneakers
- White leather low-top sneakers with an almond toe cap and thick rubber outsole.
- Gray mesh high-top sneakers with neon green laces and a padded ankle collar.
- Tan suede mid-top sneakers with a round toe and ivory rubber cupsole. 4. Backpack
- A purple nylon backpack with padded shoulder straps, front zipper pocket and laptop sleeve.
- A gray canvas backpack with brown leather trims, side water bottle pockets and drawstring top closure.
- A black leather backpack with multiple interior pockets, top carry handle and adjustable padded straps. 5. Smartwatch
- A silver stainless steel smartwatch with heart rate monitor, GPS tracker and sleep analysis.
- A space gray aluminum smartwatch with step counter, phone notifications and calendar syncing.
- A rose gold smartwatch with activity tracking, music controls and customizable watch faces. 6. Coffee maker
- A 12-cup programmable coffee maker in brushed steel with removable water tank and keep warm plate.
- A compact 5-cup single serve coffee maker in matt black with travel mug auto-dispensing feature.
- A retro style stovetop percolator coffee pot in speckled enamel with stay-cool handle and glass knob lid. 7. Yoga mat
- A teal 4mm thick yoga mat made of natural tree rubber with moisture-wicking microfiber top.
- A purple 6mm thick yoga mat made of eco-friendly TPE material with integrated carrying strap.
- A patterned 5mm thick yoga mat made of PVC-free material with towel cover included.

Atribuiți răspunsul de mai sus variabilei response_cat. Apoi folosim modelul Titan Image Generator pentru a crea imagini de produs pentru fiecare articol:

import re def extract_text(input_string): pattern = r"- (.*?)($|n)" matches = re.findall(pattern, input_string) extracted_texts = [match[0] for match in matches] return extracted_texts product_description = extract_text(response_cat) titles = []
for prompt in product_description: images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": prompt, # Required }, }, num_image=1, ) title = "_".join(prompt.split()[:4]).lower() titles.append(title) images[0].save(f"{title}.png", format="png")

Toate imaginile generate pot fi găsite în anexa de la sfârșitul acestei postări.

Indexarea multimodală a seturilor de date

Utilizați următorul cod pentru indexarea multimodală a setului de date:

multimodal_embeddings = []
for image_filename, description in zip(titles, product_description): embedding = titan_multimodal_embedding(f"{image_filename}.png", dimension=1024)["embedding"] multimodal_embeddings.append(embedding)

Căutare multimodală

Utilizați următorul cod pentru căutarea multimodală:

query_prompt = "<YOUR_QUERY_TEXT>"
query_embedding = titan_multimodal_embedding(description=query_prompt, dimension=1024)["embedding"]
# If searching via Image
# query_image_filename = "<YOUR_QUERY_IMAGE>"
# query_emb = titan_multimodal_embedding(image_path=query_image_filename, dimension=1024)["embedding"]
idx_returned, dist = search(np.array(query_embedding)[None], np.array(multimodal_embeddings))

Următoarele sunt câteva rezultate ale căutării.

Concluzie

Postarea prezintă modelele Amazon Titan Image Generator și Amazon Titan Multimodal Embeddings. Titan Image Generator vă permite să creați imagini personalizate, de înaltă calitate, din mesaje text. Caracteristicile cheie includ repetarea solicitărilor, editarea automată în fundal și personalizarea datelor. Are garanții precum filigranele invizibile pentru a încuraja utilizarea responsabilă. Titan Multimodal Embeddings convertește textul, imaginile sau ambele în vectori semantici pentru a genera o căutare și recomandări precise. Apoi am furnizat exemple de cod Python pentru utilizarea acestor servicii și am demonstrat generarea de imagini din solicitări de text și iterarea pe acele imagini; editarea imaginilor existente prin adăugarea, eliminarea sau înlocuirea elementelor specificate de imaginile de mască sau de textul de mască; crearea de înglobări multimodale din text, imagini sau ambele; și căutarea înglobărilor multimodale similare la o interogare. De asemenea, am demonstrat utilizarea unui set de date sintetice de comerț electronic indexat și căutat folosind Titan Multimodal Embeddings. Scopul acestei postări este de a permite dezvoltatorilor să înceapă să folosească aceste noi servicii AI în aplicațiile lor. Modelele de cod pot servi ca șabloane pentru implementări personalizate.

Tot codul este disponibil pe GitHub depozit. Pentru mai multe informații, consultați Ghidul utilizatorului Amazon Bedrock.


Despre Autori

Utilizați modelele Amazon Titan pentru generarea, editarea și căutarea imaginilor | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.Rohit Mittal este manager de produs principal la Amazon AI, construind modele de fundație multimodale. El a condus recent lansarea modelului Amazon Titan Image Generator ca parte a serviciului Amazon Bedrock. Cu experiență în AI/ML, NLP și căutare, el este interesat să construiască produse care rezolvă problemele clienților cu tehnologie inovatoare.

Utilizați modelele Amazon Titan pentru generarea, editarea și căutarea imaginilor | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.Dr. Ashwin Swaminathan este un cercetător, inginer și manager în viziune computerizată și învățare automată, cu peste 12 ani de experiență în industrie și peste 5 ani de experiență în cercetare academică. Fundamente solide și capacitatea dovedită de a obține rapid cunoștințe și de a contribui la domenii mai noi și emergente.

Utilizați modelele Amazon Titan pentru generarea, editarea și căutarea imaginilor | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.Dr. Yusheng Xie este cercetător principal aplicat la Amazon AGI. Munca sa se concentrează pe construirea modelelor de fundații multimodale. Înainte de a se alătura AGI, a condus diverse dezvoltări multimodale de AI la AWS, cum ar fi Amazon Titan Image Generator și Amazon Texttract Queries.

Utilizați modelele Amazon Titan pentru generarea, editarea și căutarea imaginilor | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.Dr. Hao Yang este cercetător principal aplicat la Amazon. Principalele sale interese de cercetare sunt detectarea obiectelor și învățarea cu adnotări limitate. În afara serviciului, lui Hao îi place să vizioneze filme, fotografii și activități în aer liber.

Utilizați modelele Amazon Titan pentru generarea, editarea și căutarea imaginilor | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.Dr. Davide Modolo este Manager de Științe Aplicate la Amazon AGI, lucrând la construirea de modele de bază multimodale mari. Înainte de a se alătura Amazon AGI, a fost manager/conducător timp de 7 ani în AWS AI Labs (Amazon Bedrock și Amazon Rekognition). În afara serviciului, îi place să călătorească și să joace orice fel de sport, în special fotbal.

Utilizați modelele Amazon Titan pentru generarea, editarea și căutarea imaginilor | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.Dr. Baichuan Sun, În prezent, lucrează ca arhitect senior de soluții AI/ML la AWS, concentrându-se pe AI generativă și își aplică cunoștințele în știința datelor și învățarea automată pentru a oferi soluții de afaceri practice, bazate pe cloud. Cu experiență în consultanță în management și arhitectură de soluții AI, el abordează o serie de provocări complexe, inclusiv viziunea computerizată a roboticii, prognoza serii de timp și întreținerea predictivă, printre altele. Munca lui se bazează pe un fundal solid de management de proiect, cercetare și dezvoltare software și activități academice. În afara serviciului, Dr. Sun se bucură de echilibrul dintre călătorii și petrecerea timpului cu familia și prietenii.

Utilizați modelele Amazon Titan pentru generarea, editarea și căutarea imaginilor | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.Dr. Kai Zhu În prezent lucrează ca inginer de asistență cloud la AWS, ajutând clienții cu probleme legate de serviciile legate de AI/ML, cum ar fi SageMaker, Bedrock etc. El este expert în subiecte SageMaker. Cu experiență în știința datelor și ingineria datelor, el este interesat să construiască proiecte generative bazate pe inteligență artificială.

Utilizați modelele Amazon Titan pentru generarea, editarea și căutarea imaginilor | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.Kris Schultz a petrecut peste 25 de ani aducând la viață experiențe captivante pentru utilizatori, combinând tehnologiile emergente cu un design de clasă mondială. În rolul său de Senior Product Manager, Kris ajută la proiectarea și construirea serviciilor AWS pentru a alimenta Media & Divertisment, Gaming și Spatial Computing.


Apendice

În secțiunile următoare, demonstrăm exemple de cazuri de utilizare provocatoare, cum ar fi inserarea de text, mâinile și reflexiile, pentru a evidenția capacitățile modelului Titan Image Generator. Includem, de asemenea, imaginile de ieșire eșantion produse în exemplele anterioare.

Text

Modelul Titan Image Generator excelează la fluxuri de lucru complexe, cum ar fi inserarea de text care poate fi citit în imagini. Acest exemplu demonstrează capacitatea lui Titan de a reda clar literele mari și mici într-un stil consistent în cadrul unei imagini.

un corgi care poartă o șapcă de baseball cu textul „genai” un băiat fericit dând cu degetul mare în sus, purtând un tricou cu textul „AI generativ”
Utilizați modelele Amazon Titan pentru generarea, editarea și căutarea imaginilor | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai. Utilizați modelele Amazon Titan pentru generarea, editarea și căutarea imaginilor | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

mâini

Modelul Titan Image Generator are, de asemenea, capacitatea de a genera imagini detaliate AI. Imaginea arată mâini și degete realiste cu detalii vizibile, depășind generarea de imagini AI de bază, care ar putea să nu aibă o asemenea specificitate. În următoarele exemple, observați reprezentarea precisă a posturii și a anatomiei.

mâna unei persoane privită de sus o privire atentă la mâinile unei persoane care țin o cană de cafea
Utilizați modelele Amazon Titan pentru generarea, editarea și căutarea imaginilor | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai. Utilizați modelele Amazon Titan pentru generarea, editarea și căutarea imaginilor | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Oglindă

Imaginile generate de modelul Titan Image Generator aranjează spațial obiectele și reflectă cu acuratețe efectele oglinzii, așa cum este demonstrat în exemplele următoare.

O pisică albă drăguță și pufoasă stă pe picioarele din spate, privind curioasă într-o oglindă aurie ornată. În reflectare pisica se vede pe sine lac frumos cu cer cu reflexii pe apă
Utilizați modelele Amazon Titan pentru generarea, editarea și căutarea imaginilor | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai. Utilizați modelele Amazon Titan pentru generarea, editarea și căutarea imaginilor | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Imagini de produse sintetice

Următoarele sunt imaginile de produs generate mai devreme în această postare pentru modelul Titan Multimodal Embeddings.

Timestamp-ul:

Mai mult de la Învățare automată AWS