Bruk Amazon Titan-modeller for bildegenerering, redigering og søk | Amazon Web Services

Bruk Amazon Titan-modeller for bildegenerering, redigering og søk | Amazon Web Services

Amazonas grunnfjell tilbyr et bredt utvalg av høyytende fundamentmodeller fra Amazon og andre ledende AI-selskaper, inkludert Antropisk, AI21, Meta, Kohererog Stabilitet AI, og dekker et bredt spekter av brukstilfeller, inkludert tekst- og bildegenerering, søking, chat, resonnement og handlingsagenter og mer. Den nye Amazon Titan Image Generator modellen lar innholdsskapere raskt generere realistiske bilder av høy kvalitet ved hjelp av enkle engelske tekstmeldinger. Den avanserte AI-modellen forstår komplekse instruksjoner med flere objekter og returnerer bilder i studiokvalitet som passer for annonsering, e-handel og underholdning. Nøkkelfunksjoner inkluderer muligheten til å avgrense bilder ved å iterere på meldinger, automatisk bakgrunnsredigering og generere flere varianter av samme scene. Skapere kan også tilpasse modellen med sine egne data for å sende ut bilder på merkevaren i en bestemt stil. Det er viktig at Titan Image Generator har innebygde sikkerhetstiltak, som usynlige vannmerker på alle AI-genererte bilder, for å oppmuntre ansvarlig bruk og redusere spredningen av desinformasjon. Denne innovative teknologien gjør det å produsere tilpassede bilder i stort volum for enhver bransje mer tilgjengelig og effektiv.

Den nye Amazon Titan Multimodal Embeddings modellen bidrar til å bygge mer nøyaktige søk og anbefalinger ved å forstå tekst, bilder eller begge deler. Den konverterer bilder og engelsk tekst til semantiske vektorer, og fanger mening og relasjoner i dataene dine. Du kan kombinere tekst og bilder som produktbeskrivelser og bilder for å identifisere varer mer effektivt. Vektorene gir raske, nøyaktige søkeopplevelser. Titan Multimodal Embeddings er fleksibel i vektordimensjoner, noe som muliggjør optimalisering for ytelsesbehov. En asynkron API og Amazon OpenSearch-tjeneste kobling gjør det enkelt å integrere modellen i nevrale søkeapplikasjoner.

I dette innlegget går vi gjennom hvordan du bruker modellene Titan Image Generator og Titan Multimodal Embeddings via AWS Python SDK.

Bildegenerering og redigering

I denne delen demonstrerer vi de grunnleggende kodemønstrene for bruk av AWS SDK for å generere nye bilder og utføre AI-drevne redigeringer på eksisterende bilder. Kodeeksempler er gitt i Python, og JavaScript (Node.js) er også tilgjengelig i denne GitHub repository.

Før du kan skrive skript som bruker Amazon Bedrock API, må du installere riktig versjon av AWS SDK i miljøet ditt. For Python-skript kan du bruke AWS SDK for Python (Boto3). Python-brukere vil kanskje også installere Putemodul, som forenkler bildeoperasjoner som å laste og lagre bilder. For installasjonsinstruksjoner, se GitHub repository.

Aktiver i tillegg tilgang til Amazon Titan Image Generator og Titan Multimodal Embeddings-modellene. For mer informasjon, se Modelltilgang.

Hjelpefunksjoner

Følgende funksjon setter opp Amazon Bedrock Boto3 runtime-klienten og genererer bilder ved å ta nyttelast av forskjellige konfigurasjoner (som vi diskuterer senere i dette innlegget):

import boto3
import json, base64, io
from random import randint
from PIL import Image bedrock_runtime_client = boto3.client("bedrock-runtime") def titan_image( payload: dict, num_image: int = 2, cfg: float = 10.0, seed: int = None, modelId: str = "amazon.titan-image-generator-v1",
) -> list: # ImageGenerationConfig Options: # - numberOfImages: Number of images to be generated # - quality: Quality of generated images, can be standard or premium # - height: Height of output image(s) # - width: Width of output image(s) # - cfgScale: Scale for classifier-free guidance # - seed: The seed to use for reproducibility seed = seed if seed is not None else randint(0, 214783647) body = json.dumps( { **payload, "imageGenerationConfig": { "numberOfImages": num_image, # Range: 1 to 5 "quality": "premium", # Options: standard/premium "height": 1024, # Supported height list above "width": 1024, # Supported width list above "cfgScale": cfg, # Range: 1.0 (exclusive) to 10.0 "seed": seed, # Range: 0 to 214783647 }, } ) response = bedrock_runtime_client.invoke_model( body=body, modelId=modelId, accept="application/json", contentType="application/json", ) response_body = json.loads(response.get("body").read()) images = [ Image.open(io.BytesIO(base64.b64decode(base64_image))) for base64_image in response_body.get("images") ] return images 

Generer bilder fra tekst

Skript som genererer et nytt bilde fra en tekstmelding følger dette implementeringsmønsteret:

  1. Konfigurer en tekstmelding og valgfri negativ tekstmelding.
  2. Bruke BedrockRuntime klient for å påkalle Titan Image Generator-modellen.
  3. Parse og dekode svaret.
  4. Lagre de resulterende bildene på disk.

Tekst-til-bilde

Følgende er et typisk bildegenereringsskript for Titan Image Generator-modellen:

# Text Variation
# textToImageParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "negativeText": "cars", # Optional }, }
)

Dette vil produsere bilder som ligner på følgende.

Svarbilde 1 Svarbilde 2
2 hunder går på gaten 2 hunder går på gaten

Bildevarianter

Bildevariasjon gir en måte å generere subtile varianter av et eksisterende bilde. Følgende kodebit bruker ett av bildene generert i forrige eksempel for å lage variantbilder:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Image Variation
# ImageVariationParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
#   images: base64 string representation of the input image, only 1 is supported
images = titan_image( { "taskType": "IMAGE_VARIATION", "imageVariationParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "images": [input_image], # One image is required "negativeText": "cars", # Optional }, },
)

Dette vil produsere bilder som ligner på følgende.

Originalbilde Svarbilde 1 Svarbilde 2
2 hunder går på gaten Bruk Amazon Titan-modeller for bildegenerering, redigering og søk | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Bruk Amazon Titan-modeller for bildegenerering, redigering og søk | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Rediger et eksisterende bilde

Titan Image Generator-modellen lar deg legge til, fjerne eller erstatte elementer eller områder i et eksisterende bilde. Du spesifiserer hvilket område som skal påvirkes ved å angi ett av følgende:

  • Maskebilde – Et maskebilde er et binært bilde der 0-verdipiksler representerer området du vil påvirke og 255-verdipiksler representerer området som skal forbli uendret.
  • Maskemelding – En maskeprompt er en tekstbeskrivelse på naturlig språk av elementene du vil påvirke, som bruker en intern tekst-til-segmenteringsmodell.

For mer informasjon, se Raske tekniske retningslinjer.

Skript som bruker en redigering på et bilde, følger dette implementeringsmønsteret:

  1. Last inn bildet som skal redigeres fra disken.
  2. Konverter bildet til en base64-kodet streng.
  3. Konfigurer masken ved hjelp av en av følgende metoder:
    1. Last inn et maskebilde fra disken, kod det som base64 og sett det som maskImage parameter.
    2. Sett maskText parameter til en tekstbeskrivelse av elementene som skal påvirkes.
  4. Spesifiser det nye innholdet som skal genereres ved å bruke ett av følgende alternativer:
    1. For å legge til eller erstatte et element, angi text parameter til en beskrivelse av det nye innholdet.
    2. For å fjerne et element, utelate text parameter fullstendig.
  5. Bruke BedrockRuntime klient for å påkalle Titan Image Generator-modellen.
  6. Parse og dekode svaret.
  7. Lagre de resulterende bildene på disk.

Objektredigering: Maling med maskebilde

Følgende er et typisk bilderedigeringsskript for Titan Image Generator-modellen som bruker maskImage. Vi tar et av bildene generert tidligere og gir et maskebilde, der 0-verdipiksler gjengis som svarte og 255-verdipiksler som hvite. Vi erstatter også en av hundene på bildet med en katt ved hjelp av en tekstmelding.

with open("<YOUR_MASK_IMAGE_FILE_PATH>", "rb") as image_file: mask_image = base64.b64encode(image_file.read()).decode("utf8") # Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_ORIGINAL_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Inpainting
# inPaintingParams Options:
#   text: prompt to guide inpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "text": "a cat", # Optional "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskImage": mask_image, }, }, num_image=3,
)

Dette vil produsere bilder som ligner på følgende.

Originalbilde Maskebilde Redigert bilde
2 hunder går på gaten Bruk Amazon Titan-modeller for bildegenerering, redigering og søk | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. katt og hund går på gaten

Gjenstandsfjerning: Maling med maskeprompt

I et annet eksempel bruker vi maskPrompt for å spesifisere et objekt i bildet, hentet fra de tidligere trinnene, for å redigere. Ved å utelate tekstmeldingen vil objektet bli fjernet:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskPrompt": "white dog", # One of "maskImage" or "maskPrompt" is required }, },
)

Dette vil produsere bilder som ligner på følgende.

Originalbilde Svarbilde
2 hunder går på gaten en hund som går på gaten

Bakgrunnsredigering: Overmaling

Utmaling er nyttig når du vil erstatte bakgrunnen til et bilde. Du kan også utvide grensene til et bilde for en utzoomingseffekt. I følgende eksempelskript bruker vi maskPrompt å spesifisere hvilket objekt som skal beholdes; du kan også bruke maskImage. Parameteren outPaintingMode angir om det skal tillates modifikasjon av pikslene inne i masken. Hvis satt som DEFAULT, piksler inne i masken tillates modifisert slik at det rekonstruerte bildet vil være konsistent totalt sett. Dette alternativet anbefales hvis maskImage gitt representerer ikke objektet med presisjon på pikselnivå. Hvis satt som PRECISE, forhindres modifikasjon av piksler inne i masken. Dette alternativet anbefales hvis du bruker en maskPrompt eller en maskImage som representerer objektet med presisjon på pikselnivå.

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # OutPaintingParams Options:
#   text: prompt to guide outpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask
#   outPaintingMode: DEFAULT | PRECISE
images = titan_image( { "taskType": "OUTPAINTING", "outPaintingParams": { "text": "forest", # Required "image": input_image, # Required "maskPrompt": "dogs", # One of "maskImage" or "maskPrompt" is required "outPaintingMode": "PRECISE", # One of "PRECISE" or "DEFAULT" }, }, num_image=3,
)

Dette vil produsere bilder som ligner på følgende.

Originalbilde tekst Svarbilde
2 hunder som går på gaten "Strand" en hund går på stranden
2 hunder går på gaten "skog" Bruk Amazon Titan-modeller for bildegenerering, redigering og søk | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

I tillegg kommer effektene av ulike verdier for outPaintingMode, Med en maskImage som ikke skisserer objektet med nøyaktighet på pikselnivå, er som følger.

Denne delen har gitt deg en oversikt over operasjonene du kan utføre med Titan Image Generator-modellen. Spesifikt demonstrerer disse skriptene tekst-til-bilde, bildevariasjon, maling og utmaling. Du bør kunne tilpasse mønstrene for dine egne applikasjoner ved å referere til parameterdetaljene for de oppgavetypene som er beskrevet i Amazon Titan Image Generator-dokumentasjon.

Multimodal innbygging og søking

Du kan bruke Amazon Titan Multimodal Embeddings-modellen for bedriftsoppgaver som bildesøk og likhetsbasert anbefaling, og den har innebygd reduksjon som bidrar til å redusere skjevheter i søkeresultater. Det er flere innebygde dimensjonsstørrelser for best mulig ventetid/nøyaktighet avveininger for ulike behov, og alle kan tilpasses med en enkel API for å tilpasse seg dine egne data samtidig som datasikkerhet og personvern opprettholdes. Amazon Titan Multimodal Embeddings leveres som enkle API-er for sanntids eller asynkron batchtransformasjonssøking og anbefalingsapplikasjoner, og kan kobles til forskjellige vektordatabaser, inkludert Amazon OpenSearch-tjeneste.

Hjelpefunksjoner

Følgende funksjon konverterer et bilde, og eventuelt tekst, til multimodale innebygginger:

def titan_multimodal_embedding( image_path: str = None, # maximum 2048 x 2048 pixels description: str = None, # English only and max input tokens 128 dimension: int = 1024, # 1,024 (default), 384, 256 model_id: str = "amazon.titan-embed-image-v1",
): payload_body = {} embedding_config: dict = {"embeddingConfig": {"outputEmbeddingLength": dimension}} # You can specify either text or image or both if image_path: # Maximum image size supported is 2048 x 2048 pixels with open(image_path, "rb") as image_file: payload_body["inputImage"] = base64.b64encode(image_file.read()).decode( "utf8" ) if description: payload_body["inputText"] = description assert payload_body, "please provide either an image and/or a text description" print("n".join(payload_body.keys())) response = bedrock_runtime_client.invoke_model( body=json.dumps({**payload_body, **embedding_config}), modelId=model_id, accept="application/json", contentType="application/json", ) return json.loads(response.get("body").read())

Følgende funksjon returnerer de øverste lignende multimodale innebyggingene gitt en spørring multimodale innebygginger. Merk at du i praksis kan bruke en administrert vektordatabase, for eksempel OpenSearch Service. Følgende eksempel er for illustrasjon:

from scipy.spatial.distance import cdist
import numpy as np def search(query_emb: np.array, indexes: np.array, top_k: int = 1): dist = cdist(query_emb, indexes, metric="cosine") return dist.argsort(axis=-1)[0, :top_k], np.sort(dist, axis=-1)[:top_k]

Syntetisk datasett

For illustrasjonsformål bruker vi Anthropics Claude 2.1-modell i Amazonas grunnfjell å generere tilfeldig syv forskjellige produkter, hver med tre varianter, ved å bruke følgende ledetekst:

Generate a list of 7 items description for an online e-commerce shop, each comes with 3 variants of color or type. All with separate full sentence description.

Følgende er listen over returnerte utdata:

1. T-shirt
- A red cotton t-shirt with a crew neck and short sleeves.
- A blue cotton t-shirt with a v-neck and short sleeves.
- A black polyester t-shirt with a scoop neck and cap sleeves. 2. Jeans
- Classic blue relaxed fit denim jeans with a mid-rise waist.
- Black skinny fit denim jeans with a high-rise waist and ripped details at the knees.
- Stonewash straight leg denim jeans with a standard waist and front pockets. 3. Sneakers
- White leather low-top sneakers with an almond toe cap and thick rubber outsole.
- Gray mesh high-top sneakers with neon green laces and a padded ankle collar.
- Tan suede mid-top sneakers with a round toe and ivory rubber cupsole. 4. Backpack
- A purple nylon backpack with padded shoulder straps, front zipper pocket and laptop sleeve.
- A gray canvas backpack with brown leather trims, side water bottle pockets and drawstring top closure.
- A black leather backpack with multiple interior pockets, top carry handle and adjustable padded straps. 5. Smartwatch
- A silver stainless steel smartwatch with heart rate monitor, GPS tracker and sleep analysis.
- A space gray aluminum smartwatch with step counter, phone notifications and calendar syncing.
- A rose gold smartwatch with activity tracking, music controls and customizable watch faces. 6. Coffee maker
- A 12-cup programmable coffee maker in brushed steel with removable water tank and keep warm plate.
- A compact 5-cup single serve coffee maker in matt black with travel mug auto-dispensing feature.
- A retro style stovetop percolator coffee pot in speckled enamel with stay-cool handle and glass knob lid. 7. Yoga mat
- A teal 4mm thick yoga mat made of natural tree rubber with moisture-wicking microfiber top.
- A purple 6mm thick yoga mat made of eco-friendly TPE material with integrated carrying strap.
- A patterned 5mm thick yoga mat made of PVC-free material with towel cover included.

Tilordne svaret ovenfor til variabel response_cat. Deretter bruker vi Titan Image Generator-modellen til å lage produktbilder for hver vare:

import re def extract_text(input_string): pattern = r"- (.*?)($|n)" matches = re.findall(pattern, input_string) extracted_texts = [match[0] for match in matches] return extracted_texts product_description = extract_text(response_cat) titles = []
for prompt in product_description: images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": prompt, # Required }, }, num_image=1, ) title = "_".join(prompt.split()[:4]).lower() titles.append(title) images[0].save(f"{title}.png", format="png")

Alle de genererte bildene finner du i vedlegget på slutten av dette innlegget.

Multimodal datasettindeksering

Bruk følgende kode for multimodal datasettindeksering:

multimodal_embeddings = []
for image_filename, description in zip(titles, product_description): embedding = titan_multimodal_embedding(f"{image_filename}.png", dimension=1024)["embedding"] multimodal_embeddings.append(embedding)

Multimodalt søk

Bruk følgende kode for multimodalt søk:

query_prompt = "<YOUR_QUERY_TEXT>"
query_embedding = titan_multimodal_embedding(description=query_prompt, dimension=1024)["embedding"]
# If searching via Image
# query_image_filename = "<YOUR_QUERY_IMAGE>"
# query_emb = titan_multimodal_embedding(image_path=query_image_filename, dimension=1024)["embedding"]
idx_returned, dist = search(np.array(query_embedding)[None], np.array(multimodal_embeddings))

Følgende er noen søkeresultater.

konklusjonen

Innlegget introduserer Amazon Titan Image Generator og Amazon Titan Multimodal Embeddings-modeller. Titan Image Generator lar deg lage tilpassede bilder av høy kvalitet fra tekstmeldinger. Nøkkelfunksjoner inkluderer iterering på meldinger, automatisk bakgrunnsredigering og datatilpasning. Den har beskyttelsestiltak som usynlige vannmerker for å oppmuntre til ansvarlig bruk. Titan Multimodal Embeddings konverterer tekst, bilder eller begge deler til semantiske vektorer for å gi nøyaktige søk og anbefalinger. Vi ga deretter Python-kodeeksempler for bruk av disse tjenestene, og demonstrerte generering av bilder fra tekstmeldinger og iterasjon på disse bildene; redigere eksisterende bilder ved å legge til, fjerne eller erstatte elementer spesifisert av maskebilder eller masketekst; lage multimodale innebygginger fra tekst, bilder eller begge deler; og søker etter lignende multimodale innbygginger til en spørring. Vi demonstrerte også bruk av et syntetisk e-handelsdatasett indeksert og søkt ved hjelp av Titan Multimodal Embeddings. Målet med dette innlegget er å gjøre det mulig for utviklere å begynne å bruke disse nye AI-tjenestene i applikasjonene sine. Kodemønstrene kan tjene som maler for tilpassede implementeringer.

All koden er tilgjengelig på GitHub repository. For mer informasjon, se Amazon Bedrock brukerveiledning.


Om forfatterne

Bruk Amazon Titan-modeller for bildegenerering, redigering og søk | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Rohit Mittal er en hovedproduktsjef hos Amazon AI som bygger multimodale fundamentmodeller. Han ledet nylig lanseringen av Amazon Titan Image Generator-modellen som en del av Amazon Bedrock-tjenesten. Han er erfaren innen AI/ML, NLP og søk, og er interessert i å bygge produkter som løser kundenes smertepunkter med innovativ teknologi.

Bruk Amazon Titan-modeller for bildegenerering, redigering og søk | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Dr. Ashwin Swaminathan er en forsker, ingeniør og leder for datasyn og maskinlæring med 12+ års bransjeerfaring og 5+ års akademisk forskningserfaring. Sterke grunnleggende og bevist evne til raskt å tilegne seg kunnskap og bidra til nyere og fremvoksende områder.

Bruk Amazon Titan-modeller for bildegenerering, redigering og søk | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Dr. Yusheng Xie er en Principal Applied Scientist ved Amazon AGI. Arbeidet hans fokuserer på å bygge multimodale fundamentmodeller. Før han begynte i AGI, ledet han ulike multimodale AI-utviklinger hos AWS som Amazon Titan Image Generator og Amazon Textract Queries.

Bruk Amazon Titan-modeller for bildegenerering, redigering og søk | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Dr. Hao Yang er en Principal Applied Scientist hos Amazon. Hans viktigste forskningsinteresser er objektdeteksjon og læring med begrensede merknader. Utenfor jobben liker Hao å se filmer, fotografere og utendørsaktiviteter.

Bruk Amazon Titan-modeller for bildegenerering, redigering og søk | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Dr. Davide Modolo er en Applied Science Manager hos Amazon AGI, og jobber med å bygge store multimodale grunnmodeller. Før han begynte i Amazon AGI, var han leder/leder i 7 år i AWS AI Labs (Amazon Bedrock og Amazon Rekognition). Utenom jobben liker han å reise og spille alle slags sport, spesielt fotball.

Bruk Amazon Titan-modeller for bildegenerering, redigering og søk | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Dr. Baichuan Sun, jobber for tiden som Sr. AI/ML Solutions Architect hos AWS, med fokus på generativ AI og bruker sin kunnskap innen datavitenskap og maskinlæring for å tilby praktiske, skybaserte forretningsløsninger. Med erfaring innen ledelsesrådgivning og AI-løsningsarkitektur, adresserer han en rekke komplekse utfordringer, inkludert robotikk datasyn, tidsserieprognoser og prediktivt vedlikehold, blant andre. Arbeidet hans er forankret i en solid bakgrunn innen prosjektledelse, programvare FoU og akademiske sysler. Utenom jobben liker Dr. Sun balansen mellom å reise og tilbringe tid med familie og venner.

Bruk Amazon Titan-modeller for bildegenerering, redigering og søk | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Dr. Kai Zhu jobber for tiden som Cloud Support Engineer hos AWS, og hjelper kunder med problemer i AI/ML-relaterte tjenester som SageMaker, Bedrock, etc. Han er SageMaker Subject Matter Expert. Han er erfaren innen datavitenskap og datateknikk, og er interessert i å bygge generative AI-drevne prosjekter.

Bruk Amazon Titan-modeller for bildegenerering, redigering og søk | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Kris Schultz har brukt over 25 år på å bringe engasjerende brukeropplevelser til live ved å kombinere nye teknologier med design i verdensklasse. I sin rolle som Senior Product Manager hjelper Kris med å designe og bygge AWS-tjenester for å drive media og underholdning, spill og romlig databehandling.


Vedlegg

I de følgende delene viser vi utfordrende eksempler på bruk som tekstinnsetting, hender og refleksjoner for å fremheve egenskapene til Titan Image Generator-modellen. Vi inkluderer også eksempelutdataene produsert i tidligere eksempler.

tekst

Titan Image Generator-modellen utmerker seg ved komplekse arbeidsflyter som å sette inn lesbar tekst i bilder. Dette eksemplet demonstrerer Titans evne til tydelig å gjengi store og små bokstaver i en konsistent stil i et bilde.

en corgi med baseballcaps med teksten «genai» en glad gutt som gir tommelen opp, iført en t-skjorte med teksten «generativ AI»
Bruk Amazon Titan-modeller for bildegenerering, redigering og søk | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Bruk Amazon Titan-modeller for bildegenerering, redigering og søk | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

hender

Titan Image Generator-modellen har også muligheten til å generere detaljerte AI-bilder. Bildet viser realistiske hender og fingre med synlige detaljer, som går utover mer grunnleggende AI-bildegenerering som kan mangle slik spesifisitet. I de følgende eksemplene, legg merke til den nøyaktige fremstillingen av posituren og anatomien.

en persons hånd sett ovenfra en nær titt på en persons hender som holder et kaffekrus
Bruk Amazon Titan-modeller for bildegenerering, redigering og søk | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Bruk Amazon Titan-modeller for bildegenerering, redigering og søk | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Speil

Bildene generert av Titan Image Generator-modellen arrangerer objekter romlig og reflekterer speileffekter nøyaktig, som vist i de følgende eksemplene.

En søt, myk, hvit katt står på bakbena og stirrer nysgjerrig inn i et utsmykket gyllent speil. I refleksjonen ser katten seg selv vakker himmelsjø med refleksjoner på vannet
Bruk Amazon Titan-modeller for bildegenerering, redigering og søk | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Bruk Amazon Titan-modeller for bildegenerering, redigering og søk | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Syntetiske produktbilder

Følgende er produktbildene generert tidligere i dette innlegget for Titan Multimodal Embeddings-modellen.

Tidstempel:

Mer fra AWS maskinlæring