Kasutage kujutiste genereerimiseks, redigeerimiseks ja otsimiseks Amazon Titani mudeleid

Taasavaldanud Platon

järgijaid: 0

Amazonase aluspõhi pakub laia valikut suure jõudlusega alusmudeleid Amazonilt ja teistelt juhtivatelt tehisintellekti ettevõtetelt, sealhulgas Antroopne, AI21, Meta, Sidusja Stabiilsus AI, ning hõlmab laia valikut kasutusjuhtumeid, sealhulgas teksti ja piltide genereerimine, otsimine, vestlus, arutlus- ja tegutsemisagentid ning palju muud. Uus Amazon Titan pildigeneraator mudel võimaldab sisuloojatel lihtsate ingliskeelsete tekstiviipade abil kiiresti luua kvaliteetseid realistlikke pilte. Täiustatud AI-mudel mõistab keerukaid juhiseid mitme objektiga ja tagastab stuudiokvaliteediga pildid, mis sobivad reklaam, e-kaubandus ja meelelahutus. Põhifunktsioonid hõlmavad võimalust viipade järgi itereerides pilte täpsustada, automaatset tausta redigeerimist ja samast stseenist mitu variatsiooni genereerides. Loojad saavad mudelit ka oma andmetega kohandada, et väljastada konkreetses stiilis brändipõhiseid pilte. Oluline on see, et Titan Image Generatoril on sisseehitatud kaitsemehhanismid, nagu nähtamatud vesimärgid kõigil AI-ga loodud piltidel, et julgustada. vastutustundlik kasutamine ja desinformatsiooni levikut leevendada. See uuenduslik tehnoloogia võimaldab toota kohandatud pilte suures mahus mis tahes tööstusharu kättesaadavamaks ja tõhusamaks.

Uus Amazoni Titani multimodaalsed manused mudel aitab luua täpsemat otsingut ja soovitusi, mõistes teksti, pilte või mõlemat. See teisendab pildid ja ingliskeelse teksti semantilisteks vektoriteks, jäädvustades teie andmete tähenduse ja seosed. Saate kombineerida teksti ja pilte, nagu tootekirjeldused ja fotod, et üksusi tõhusamalt tuvastada. Vektorid võimaldavad kiiret ja täpset otsingukogemust. Titan Multimodal Embeddings on vektormõõtmete osas paindlik, võimaldades optimeerimist vastavalt jõudlusvajadustele. Asünkroonne API ja Amazon OpenSearchi teenus pistik muudab mudeli integreerimise oma närviotsingu rakendustesse lihtsaks.

Selles postituses käsitleme Titan Image Generatori ja Titan Multimodal Embeddingsi mudelite kasutamist AWS Python SDK kaudu.

Piltide genereerimine ja redigeerimine

Selles jaotises tutvustame põhilisi kodeerimismustreid AWS SDK kasutamiseks uute piltide genereerimiseks ja tehisintellekti toel olemasolevate piltide redigeerimiseks. Koodinäited on esitatud Pythonis ja selles on saadaval ka JavaScript (Node.js). GitHubi hoidla.

Enne Amazon Bedrock API-d kasutavate skriptide kirjutamist peate installima oma keskkonda AWS SDK sobiva versiooni. Pythoni skriptide jaoks saate kasutada AWS SDK Pythoni jaoks (Boto3). Pythoni kasutajad võivad soovida ka installida Padja moodul, mis hõlbustab pilditoiminguid, nagu piltide laadimine ja salvestamine. Seadistusjuhised leiate jaotisest GitHubi hoidla.

Lisaks lubage juurdepääs Amazon Titan Image Generator ja Titan Multimodal Embeddingsi mudelitele. Lisateabe saamiseks vaadake Juurdepääs mudelile.

Abimeeste funktsioonid

Järgmine funktsioon seadistab Amazon Bedrock Boto3 käitusaja kliendi ja genereerib pilte, võttes erinevate konfiguratsioonide kasulikku koormust (mida käsitleme selles postituses hiljem):

import boto3
import json, base64, io
from random import randint
from PIL import Image bedrock_runtime_client = boto3.client("bedrock-runtime") def titan_image( payload: dict, num_image: int = 2, cfg: float = 10.0, seed: int = None, modelId: str = "amazon.titan-image-generator-v1",
) -> list: # ImageGenerationConfig Options: # - numberOfImages: Number of images to be generated # - quality: Quality of generated images, can be standard or premium # - height: Height of output image(s) # - width: Width of output image(s) # - cfgScale: Scale for classifier-free guidance # - seed: The seed to use for reproducibility seed = seed if seed is not None else randint(0, 214783647) body = json.dumps( { **payload, "imageGenerationConfig": { "numberOfImages": num_image, # Range: 1 to 5 "quality": "premium", # Options: standard/premium "height": 1024, # Supported height list above "width": 1024, # Supported width list above "cfgScale": cfg, # Range: 1.0 (exclusive) to 10.0 "seed": seed, # Range: 0 to 214783647 }, } ) response = bedrock_runtime_client.invoke_model( body=body, modelId=modelId, accept="application/json", contentType="application/json", ) response_body = json.loads(response.get("body").read()) images = [ Image.open(io.BytesIO(base64.b64decode(base64_image))) for base64_image in response_body.get("images") ] return images

Loo tekstist pilte

Skriptid, mis loovad tekstiviipast uue pildi, järgivad järgmist rakendusmustrit:

Konfigureerige tekstiviipa ja valikuline negatiivne tekstiviipa.
Kasuta BedrockRuntime Titan Image Generator mudeli käivitamiseks.
Parsi ja dekodeeri vastust.
Salvestage saadud pildid kettale.

Tekst-pildiks

Järgnev on tüüpiline kujutise genereerimise skript Titan Image Generatori mudeli jaoks:

# Text Variation
# textToImageParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "negativeText": "cars", # Optional }, }
)

See loob järgmisega sarnased pildid.

Vastuse pilt 1	Vastuse pilt 2

Pildi variandid

Pildi variatsioon võimaldab luua olemasolevast pildist peeneid variante. Järgmine koodilõik kasutab variantkujutiste loomiseks ühte eelmises näites loodud kujutistest:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Image Variation
# ImageVariationParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
#   images: base64 string representation of the input image, only 1 is supported
images = titan_image( { "taskType": "IMAGE_VARIATION", "imageVariationParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "images": [input_image], # One image is required "negativeText": "cars", # Optional }, },
)

See loob järgmisega sarnased pildid.

Algne pilt	Vastuse pilt 1	Vastuse pilt 2

Redigeerige olemasolevat pilti

Mudel Titan Image Generator võimaldab teil olemasoleva pildi elemente või alasid lisada, eemaldada või asendada. Saate määrata, millist piirkonda mõjutada, pakkudes ühte järgmistest.

Maski pilt – Maski kujutis on kahendkujutis, milles 0-väärtusega pikslid tähistavad piirkonda, mida soovite mõjutada, ja 255-väärtusega pikslid tähistavad ala, mis peaks jääma muutumatuks.
Maski viip – Maski viip on loomuliku keele tekstikirjeldus elementide kohta, mida soovite mõjutada ja mis kasutab ettevõttesisest teksti-segmenteerimise mudelit.

Lisateavet leiate aadressilt Kiired insenerijuhised.

Skriptid, mis rakendavad pildile muudatust, järgivad järgmist rakendusmustrit:

Laadige redigeeritav pilt kettalt.
Teisendage pilt base64-kodeeringuga stringiks.
Seadistage mask ühel järgmistest meetoditest.
1. Laadige kettalt maski kujutis, kodeerides selle kui base64 ja määrates selle kui maskImage parameeter.
2. Määrake maskText parameeter mõjutavate elementide tekstikirjelduseks.
Määrake uus sisu, mida luuakse, kasutades ühte järgmistest valikutest.
1. Elemendi lisamiseks või asendamiseks määrake text parameeter uue sisu kirjeldusele.
2. Elemendi eemaldamiseks jätke välja text parameeter täielikult.
Kasuta BedrockRuntime Titan Image Generator mudeli käivitamiseks.
Parsi ja dekodeeri vastust.
Salvestage saadud pildid kettale.

Objekti redigeerimine: maskipildiga maalimine

Järgnev on tüüpiline pilditöötlusskript Titan Image Generatori mudeli jaoks maskImage. Võtame ühe varem genereeritud piltidest ja esitame maskipildi, kus 0 väärtusega pikslid renderdatakse mustana ja 255 väärtusega pikslid valgetena. Samuti asendame ühe pildil oleva koera kassiga, kasutades tekstiviipa.

with open("<YOUR_MASK_IMAGE_FILE_PATH>", "rb") as image_file: mask_image = base64.b64encode(image_file.read()).decode("utf8") # Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_ORIGINAL_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Inpainting
# inPaintingParams Options:
#   text: prompt to guide inpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "text": "a cat", # Optional "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskImage": mask_image, }, }, num_image=3,
)

See loob järgmisega sarnased pildid.

Algne pilt	Maski pilt	Redigeeritud pilt

Objekti eemaldamine: maalimine maskiviipaga

Teises näites kasutame maskPrompt et määrata pildil olev objekt, mis on võetud varasematest sammudest, redigeerimiseks. Tekstiviipa väljajätmisel objekt eemaldatakse:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskPrompt": "white dog", # One of "maskImage" or "maskPrompt" is required }, },
)

See loob järgmisega sarnased pildid.

Algne pilt	Vastuse pilt

Taustatöötlus: Outpainting

Väljavärvimine on kasulik, kui soovite asendada pildi tausta. Väljasuumiefekti saavutamiseks saate ka pildi piire laiendada. Järgmises näiteskriptis kasutame maskPrompt täpsustada, millist objekti säilitada; võite ka kasutada maskImage. Parameeter outPaintingMode määrab, kas lubada maskis olevate pikslite muutmist. Kui see on määratud DEFAULT, on lubatud maski sees olevaid piksleid muuta nii, et rekonstrueeritud pilt oleks üldiselt ühtlane. See valik on soovitatav, kui maskImage antud ei esinda objekti pikslitaseme täpsusega. Kui see on määratud PRECISE, on maski sees olevate pikslite muutmine takistatud. See valik on soovitatav, kui kasutate a maskPrompt või maskImage mis esindab objekti pikslitaseme täpsusega.

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # OutPaintingParams Options:
#   text: prompt to guide outpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask
#   outPaintingMode: DEFAULT | PRECISE
images = titan_image( { "taskType": "OUTPAINTING", "outPaintingParams": { "text": "forest", # Required "image": input_image, # Required "maskPrompt": "dogs", # One of "maskImage" or "maskPrompt" is required "outPaintingMode": "PRECISE", # One of "PRECISE" or "DEFAULT" }, }, num_image=3,
)

See loob järgmisega sarnased pildid.

Algne pilt	Tekst	Vastuse pilt
	"rand"
	"mets"

Lisaks erinevate väärtuste mõjud jaoks outPaintingModeKoos maskImage mis ei piiritle objekti pikslitaseme täpsusega, on järgmised.

See jaotis on andnud teile ülevaate toimingutest, mida saate Titan Image Generator mudeliga teha. Täpsemalt, need skriptid demonstreerivad teksti-pildiks muutmise, kujutise varieerimise, värvimise ja väljavärvimise ülesandeid. Peaksite saama mustreid oma rakenduste jaoks kohandada, viidates nende toimingutüüpide parameetrite üksikasjadele, mida on kirjeldatud artiklis Amazon Titan Image Generatori dokumentatsioon.

Multimodaalne manustamine ja otsimine

Saate kasutada Amazon Titan Multimodal Embeddingsi mudelit ettevõtte ülesannete jaoks, nagu pildiotsing ja sarnasuspõhine soovitus, ning sellel on sisseehitatud leevendus, mis aitab vähendada otsingutulemuste kallutatust. Erinevate vajaduste jaoks on parimate latentsusaja/täpsuse kompromisside jaoks mitu manustamismõõtme suurust ning kõiki saab kohandada lihtsa API-ga, et kohaneda teie andmetega, säilitades samal ajal andmete turvalisuse ja privaatsuse. Amazon Titan Multimodal Embeddings on saadaval lihtsate API-dena reaalajas või asünkroonse partii teisenduse otsimise ja soovituste rakenduste jaoks ning neid saab ühendada erinevate vektorandmebaasidega, sealhulgas Amazon OpenSearchi teenus.

Abimeeste funktsioonid

Järgmine funktsioon teisendab pildi ja valikuliselt teksti multimodaalseteks manusteks:

def titan_multimodal_embedding( image_path: str = None, # maximum 2048 x 2048 pixels description: str = None, # English only and max input tokens 128 dimension: int = 1024, # 1,024 (default), 384, 256 model_id: str = "amazon.titan-embed-image-v1",
): payload_body = {} embedding_config: dict = {"embeddingConfig": {"outputEmbeddingLength": dimension}} # You can specify either text or image or both if image_path: # Maximum image size supported is 2048 x 2048 pixels with open(image_path, "rb") as image_file: payload_body["inputImage"] = base64.b64encode(image_file.read()).decode( "utf8" ) if description: payload_body["inputText"] = description assert payload_body, "please provide either an image and/or a text description" print("n".join(payload_body.keys())) response = bedrock_runtime_client.invoke_model( body=json.dumps({**payload_body, **embedding_config}), modelId=model_id, accept="application/json", contentType="application/json", ) return json.loads(response.get("body").read())

Järgmine funktsioon tagastab populaarseimad sarnased multimodaalsed manused, mis on antud päringule multimodaalsed manused. Pange tähele, et praktikas saate kasutada hallatud vektorandmebaasi, näiteks OpenSearch Service. Järgmine näide on illustreeriv:

from scipy.spatial.distance import cdist
import numpy as np def search(query_emb: np.array, indexes: np.array, top_k: int = 1): dist = cdist(query_emb, indexes, metric="cosine") return dist.argsort(axis=-1)[0, :top_k], np.sort(dist, axis=-1)[:top_k]

Sünteetiline andmestik

Illustreerimise eesmärgil kasutame Anthropicu Claude 2.1 mudel Amazoni Bedrockis et luua juhuslikult seitse erinevat toodet, millest igaühel on kolm varianti, kasutades järgmist viipa:

Generate a list of 7 items description for an online e-commerce shop, each comes with 3 variants of color or type. All with separate full sentence description.

Järgmine on tagastatud väljundite loend:

1. T-shirt
- A red cotton t-shirt with a crew neck and short sleeves.
- A blue cotton t-shirt with a v-neck and short sleeves.
- A black polyester t-shirt with a scoop neck and cap sleeves. 2. Jeans
- Classic blue relaxed fit denim jeans with a mid-rise waist.
- Black skinny fit denim jeans with a high-rise waist and ripped details at the knees.
- Stonewash straight leg denim jeans with a standard waist and front pockets. 3. Sneakers
- White leather low-top sneakers with an almond toe cap and thick rubber outsole.
- Gray mesh high-top sneakers with neon green laces and a padded ankle collar.
- Tan suede mid-top sneakers with a round toe and ivory rubber cupsole. 4. Backpack
- A purple nylon backpack with padded shoulder straps, front zipper pocket and laptop sleeve.
- A gray canvas backpack with brown leather trims, side water bottle pockets and drawstring top closure.
- A black leather backpack with multiple interior pockets, top carry handle and adjustable padded straps. 5. Smartwatch
- A silver stainless steel smartwatch with heart rate monitor, GPS tracker and sleep analysis.
- A space gray aluminum smartwatch with step counter, phone notifications and calendar syncing.
- A rose gold smartwatch with activity tracking, music controls and customizable watch faces. 6. Coffee maker
- A 12-cup programmable coffee maker in brushed steel with removable water tank and keep warm plate.
- A compact 5-cup single serve coffee maker in matt black with travel mug auto-dispensing feature.
- A retro style stovetop percolator coffee pot in speckled enamel with stay-cool handle and glass knob lid. 7. Yoga mat
- A teal 4mm thick yoga mat made of natural tree rubber with moisture-wicking microfiber top.
- A purple 6mm thick yoga mat made of eco-friendly TPE material with integrated carrying strap.
- A patterned 5mm thick yoga mat made of PVC-free material with towel cover included.

Määrake ülaltoodud vastus muutujale response_cat. Seejärel kasutame iga kauba jaoks tootepiltide loomiseks mudelit Titan Image Generator:

import re def extract_text(input_string): pattern = r"- (.*?)($|n)" matches = re.findall(pattern, input_string) extracted_texts = [match[0] for match in matches] return extracted_texts product_description = extract_text(response_cat) titles = []
for prompt in product_description: images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": prompt, # Required }, }, num_image=1, ) title = "_".join(prompt.split()[:4]).lower() titles.append(title) images[0].save(f"{title}.png", format="png")

Kõik loodud pildid on leitavad selle postituse lõpus olevast lisast.

Multimodaalse andmekogumi indekseerimine

Kasutage multimodaalse andmekogumi indekseerimiseks järgmist koodi:

multimodal_embeddings = []
for image_filename, description in zip(titles, product_description): embedding = titan_multimodal_embedding(f"{image_filename}.png", dimension=1024)["embedding"] multimodal_embeddings.append(embedding)

Multimodaalne otsing

Kasutage multimodaalseks otsimiseks järgmist koodi:

query_prompt = "<YOUR_QUERY_TEXT>"
query_embedding = titan_multimodal_embedding(description=query_prompt, dimension=1024)["embedding"]
# If searching via Image
# query_image_filename = "<YOUR_QUERY_IMAGE>"
# query_emb = titan_multimodal_embedding(image_path=query_image_filename, dimension=1024)["embedding"]
idx_returned, dist = search(np.array(query_embedding)[None], np.array(multimodal_embeddings))

Järgnevalt on toodud mõned otsingutulemused.

Järeldus

Postitus tutvustab Amazon Titan Image Generatori ja Amazon Titan Multimodal Embeddingsi mudeleid. Titan Image Generator võimaldab teil tekstiviipade põhjal luua kohandatud kvaliteetseid pilte. Peamised funktsioonid hõlmavad viipade kordamist, automaatset tausta redigeerimist ja andmete kohandamist. Sellel on kaitsemeetmed, nagu nähtamatud vesimärgid, et julgustada vastutustundlikku kasutamist. Titan Multimodal Embeddings teisendab teksti, pildid või mõlemad semantilisteks vektoriteks, et võimaldada täpset otsingut ja soovitusi. Seejärel pakkusime nende teenuste kasutamiseks Pythoni koodinäidiseid ning demonstreerisime tekstiviipade põhjal piltide genereerimist ja nende piltide itereerimist; olemasolevate piltide redigeerimine, lisades, eemaldades või asendades maskipiltide või maski tekstiga määratud elemente; tekstist, piltidest või mõlemast multimodaalsete manustuste loomine; ja sarnaste multimodaalsete manuste otsimine päringule. Samuti demonstreerisime sünteetilist e-kaubanduse andmestikku, mis on indekseeritud ja otsitud Titan Multimodal Embeddingsi abil. Selle postituse eesmärk on võimaldada arendajatel hakata neid uusi tehisintellekti teenuseid oma rakendustes kasutama. Koodimustrid võivad olla kohandatud rakenduste mallideks.

Kogu kood on saadaval aadressil GitHubi hoidla. Lisateabe saamiseks vaadake Amazon Bedrocki kasutusjuhend.

Autoritest

Rohit Mittal on Amazon AI peamine tootejuht, kes ehitab multimodaalseid vundamendimudeleid. Ta juhtis hiljuti Amazon Titan Image Generatori mudeli käivitamist Amazon Bedrocki teenuse osana. AI/ML, NLP ja Search kogemusega on ta huvitatud toodete ehitamisest, mis lahendavad uuendusliku tehnoloogia abil klientide valupunkte.

Dr Ashwin Swaminathan on arvutivisiooni ja masinõppe teadur, insener ja juht, kellel on 12+ aastat kogemusi tööstuses ja 5+ aastat akadeemilise uurimistöö kogemust. Tugevad põhialused ja tõestatud võime kiiresti omandada teadmisi ning panustada uuematesse ja esilekerkivatesse valdkondadesse.

Dr Yusheng Xie on Amazon AGI peamine rakendusteadlane. Tema töö keskendub multimodaalsete vundamentide mudelite loomisele. Enne AGI-ga liitumist juhtis ta AWS-is erinevaid multimodaalseid tehisintellekti arendusi, nagu Amazon Titan Image Generator ja Amazon Textract Queries.

Dr Hao Yang on Amazoni juhtivteadlane. Tema peamised uurimisvaldkonnad on objektide tuvastamine ja piiratud annotatsioonidega õppimine. Väljaspool tööd naudib Hao filmide vaatamist, fotograafiat ja tegevusi väljas.

Dr Davide Modolo on Amazon AGI rakendusteaduste juht, kes töötab suurte multimodaalsete alusmudelite ehitamisel. Enne Amazon AGI-ga liitumist oli ta 7 aastat AWS AI Labsi (Amazon Bedrock ja Amazon Rekognition) juht/juht. Väljaspool tööd naudib ta reisimist ja igasuguste spordialade mängimist, eriti jalgpalli.

Dr Baichuan Sun, töötab praegu AWS-is Sr. AI/ML Solutions Architect, keskendudes generatiivsele AI-le ning rakendab oma teadmisi andmeteaduse ja masinõppe vallas, et pakkuda praktilisi pilvepõhiseid ärilahendusi. Omades kogemusi juhtimisnõustamise ja tehisintellekti lahenduste arhitektuuri alal, tegeleb ta paljude keerukate väljakutsetega, sealhulgas robootika arvutinägemise, aegridade prognoosimise ja ennustava hooldusega. Tema töö põhineb projektijuhtimise, tarkvara uurimis- ja arendustegevuse ning akadeemiliste tegevuste tugeval taustal. Väljaspool tööd naudib dr Sun reisimise ning pere ja sõpradega aja veetmise tasakaalu.

Dr Kai Zhu töötab praegu AWS-is pilve tugiinsenerina, aidates kliente AI/ML-iga seotud teenuste (nt SageMaker, Bedrock jne) probleemidega. Ta on SageMakeri teemaekspert. Andmeteaduse ja andmetehnika alal kogenud ta on huvitatud generatiivsete AI-põhiste projektide ehitamisest.

Kris Schultz on kulutanud üle 25 aasta, et tuua ellu kaasahaarav kasutajakogemus, kombineerides esilekerkivaid tehnoloogiaid maailmatasemel disainiga. Vanemtootejuhi rollis aitab Kris kavandada ja luua AWS-i teenuseid, mis toetavad meediat ja meelelahutust, mänge ja ruumilist andmetöötlust.

Lisa

Järgmistes jaotistes demonstreerime keerukaid näidiskasutusjuhtumeid, nagu teksti sisestamine, käed ja peegeldused, et tõsta esile Titan Image Generatori mudeli võimalusi. Lisame ka varasemates näidetes toodetud näidisväljundi kujutised.

Tekst

Titan Image Generator mudel sobib suurepäraselt keeruliste töövoogudega, nagu loetava teksti sisestamine piltidele. See näide demonstreerib Titani võimet selgelt renderdada suur- ja väiketähti pildi sees ühtses stiilis.

corgi kannab pesapallimütsi tekstiga "genai"	rõõmus poiss, kes hoiab pöidlaid püsti ja kannab särki tekstiga "generative AI"

Käed

Titan Image Generator mudelil on ka võimalus luua üksikasjalikke AI-pilte. Pilt näitab realistlikke käsi ja sõrmi koos nähtavate detailidega, ületades lihtsama AI-kujutise genereerimise, millel võib puududa selline spetsiifilisus. Järgmistes näidetes pange tähele poosi ja anatoomia täpset kujutamist.

inimese käsi ülalt vaadatuna	lähedalt pilk inimese kätele, mis hoiavad kohvikruusi

Peegel

Mudeli Titan Image Generator loodud kujutised paigutavad objekte ruumiliselt ja peegeldavad täpselt peegliefekte, nagu on näidatud järgmistes näidetes.

Armas kohev valge kass seisab tagajalgadel ja piilub uudishimulikult ehitud kuldsesse peeglisse. Peegelduses näeb kass iseennast	ilus taevajärv peegeldustega vees