Use Amazon Titan Models For Image Generation, Editing, And Searching

Újra kiadta Platón

Követő: 0

Amazon alapkőzet nagy teljesítményű alapozómodellek széles skáláját kínálja az Amazontól és más vezető AI-cégektől, beleértve Antropikus, AI21, meta, Összefüggés Stabilitás AI, és a felhasználási esetek széles skáláját fedi le, beleértve a szöveg- és képgenerálást, a keresést, a csevegést, az érvelést és az ügynököket stb. Az új Amazon Titan képgenerátor A modell lehetővé teszi a tartalomkészítők számára, hogy egyszerű angol szöveges promptok segítségével gyorsan jó minőségű, valósághű képeket hozzanak létre. A fejlett AI-modell megérti a több objektummal kapcsolatos összetett utasításokat, és stúdióminőségű képeket ad vissza hirdető, e-kereskedelem és szórakozás. A kulcsfontosságú funkciók közé tartozik a képek finomítása a promptok ismétlésével, az automatikus háttérszerkesztés, valamint ugyanannak a jelenetnek több változatának generálása. Az alkotók saját adataikkal is testreszabhatják a modellt, hogy a márkához tartozó képeket meghatározott stílusban jelenítsék meg. Fontos, hogy a Titan Image Generator beépített biztosítékokkal rendelkezik, például láthatatlan vízjelekkel minden mesterséges intelligencia által generált képen, hogy ösztönözze felelős használat és mérsékelje a dezinformáció terjedését. Ez az innovatív technológia lehetővé teszi egyedi képek készítését nagy mennyiségben bármely iparág elérhetőbb és hatékonyabb.

Az új Amazon Titan multimodális beágyazások modell segít pontosabb keresést és ajánlásokat létrehozni a szöveg, a képek vagy mindkettő megértésével. A képeket és az angol szöveget szemantikai vektorokká alakítja, rögzítve az adatok jelentését és összefüggéseit. Kombinálhat szöveget és képeket, például termékleírásokat és fényképeket a tételek hatékonyabb azonosítása érdekében. A vektorok gyors, pontos keresési élményt nyújtanak. A Titan Multimodal Embeddings rugalmas vektorméretekben, lehetővé téve a teljesítményigények optimalizálását. Egy aszinkron API és Amazon OpenSearch szolgáltatás csatlakozó segítségével könnyedén integrálhatja a modellt a neurális keresőalkalmazásokba.

Ebben a bejegyzésben végigvezetjük a Titan Image Generator és a Titan Multimodal Embeddings modellek használatát az AWS Python SDK-n keresztül.

Kép generálás és szerkesztés

Ebben a részben bemutatjuk az AWS SDK használatának alapvető kódolási mintáit új képek generálására és a meglévő képek mesterséges intelligenciával történő szerkesztésére. A kódpéldák Pythonban találhatók, és ebben a JavaScript (Node.js) is elérhető GitHub tárház.

Mielőtt az Amazon Bedrock API-t használó szkripteket írhatna, telepítenie kell az AWS SDK megfelelő verzióját a környezetében. Python szkriptekhez használhatja a AWS SDK Pythonhoz (Boto3). A Python-felhasználók esetleg telepíteni szeretnék a Párna modul, amely megkönnyíti az olyan képműveleteket, mint a képek betöltése és mentése. A beállítási utasításokat lásd a GitHub tárház.

Ezenkívül engedélyezze a hozzáférést az Amazon Titan Image Generator és a Titan Multimodal Embeddings modellekhez. További információkért lásd: Modell hozzáférés.

Segítő funkciók

A következő funkció beállítja az Amazon Bedrock Boto3 futásidejű klienst, és képeket generál különféle konfigurációk hasznos terheinek felvételével (amiről később ebben a bejegyzésben tárgyalunk):

import boto3
import json, base64, io
from random import randint
from PIL import Image bedrock_runtime_client = boto3.client("bedrock-runtime") def titan_image( payload: dict, num_image: int = 2, cfg: float = 10.0, seed: int = None, modelId: str = "amazon.titan-image-generator-v1",
) -> list: # ImageGenerationConfig Options: # - numberOfImages: Number of images to be generated # - quality: Quality of generated images, can be standard or premium # - height: Height of output image(s) # - width: Width of output image(s) # - cfgScale: Scale for classifier-free guidance # - seed: The seed to use for reproducibility seed = seed if seed is not None else randint(0, 214783647) body = json.dumps( { **payload, "imageGenerationConfig": { "numberOfImages": num_image, # Range: 1 to 5 "quality": "premium", # Options: standard/premium "height": 1024, # Supported height list above "width": 1024, # Supported width list above "cfgScale": cfg, # Range: 1.0 (exclusive) to 10.0 "seed": seed, # Range: 0 to 214783647 }, } ) response = bedrock_runtime_client.invoke_model( body=body, modelId=modelId, accept="application/json", contentType="application/json", ) response_body = json.loads(response.get("body").read()) images = [ Image.open(io.BytesIO(base64.b64decode(base64_image))) for base64_image in response_body.get("images") ] return images

Képet generál szövegből

A szöveges promptból új képet generáló szkriptek a következő megvalósítási mintát követik:

Szöveges prompt és opcionális negatív szöveges prompt konfigurálása.
Használja a BedrockRuntime klienst, hogy meghívja a Titan Image Generator modellt.
Elemezze és dekódolja a választ.
Mentse a kapott képeket lemezre.

Szöveg-kép

A következő egy tipikus képgeneráló szkript a Titan Image Generator modellhez:

# Text Variation
# textToImageParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "negativeText": "cars", # Optional }, }
)

Ez az alábbiakhoz hasonló képeket eredményez.

1. válaszkép	2. válaszkép

Képváltozatok

A képváltozatok lehetőséget biztosítanak egy meglévő kép finom változatainak létrehozására. A következő kódrészlet az előző példában generált képek egyikét használja változatos képek létrehozásához:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Image Variation
# ImageVariationParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
#   images: base64 string representation of the input image, only 1 is supported
images = titan_image( { "taskType": "IMAGE_VARIATION", "imageVariationParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "images": [input_image], # One image is required "negativeText": "cars", # Optional }, },
)

Ez az alábbiakhoz hasonló képeket eredményez.

Eredeti kép	1. válaszkép	2. válaszkép

Meglévő kép szerkesztése

A Titan Image Generator modell lehetővé teszi elemek vagy területek hozzáadását, eltávolítását vagy cseréjét egy meglévő képen belül. Megadhatja, hogy melyik területet érintse az alábbiak egyikének megadásával:

Maszk kép – A maszkkép egy bináris kép, amelyben a 0 értékű pixelek azt a területet jelölik, amelyet befolyásolni szeretnének, a 255 értékű képpontok pedig azt a területet, amelynek változatlannak kell maradnia.
Maszk prompt – A maszkprompt a befolyásolni kívánt elemek természetes nyelvű szöveges leírása, amely házon belüli szöveg-szegmentálási modellt használ.

További információ: Gyors mérnöki irányelvek.

A képre szerkesztést alkalmazó szkriptek a következő megvalósítási mintát követik:

Töltse be a szerkeszteni kívánt képet lemezről.
Alakítsa át a képet base64 kódolású karakterláncra.
Állítsa be a maszkot az alábbi módszerek egyikével:
1. Töltsön be egy maszkképet a lemezről, base64-ként kódolja és állítsa be a maskImage paraméter.
2. Állítsa be maskText paramétert az érintett elemek szöveges leírásához.
Adja meg a létrehozandó új tartalmat az alábbi lehetőségek egyikével:
1. Elem hozzáadásához vagy cseréjéhez állítsa be a text paramétert az új tartalom leírásához.
2. Egy elem eltávolításához hagyja ki a text paramétert teljesen.
Használja a BedrockRuntime klienst, hogy meghívja a Titan Image Generator modellt.
Elemezze és dekódolja a választ.
Mentse a kapott képeket lemezre.

Objektumszerkesztés: Befestés maszkképpel

Az alábbi egy tipikus képszerkesztő szkript a Titan Image Generator modellhez maskImage. A korábban generált képek egyikét vesszük, és egy maszkképet adunk, ahol a 0 értékű pixelek feketének, a 255 értékű pixelek pedig fehérnek jelennek meg. A képen látható egyik kutyát szöveges prompt segítségével macskára is cseréljük.

with open("<YOUR_MASK_IMAGE_FILE_PATH>", "rb") as image_file: mask_image = base64.b64encode(image_file.read()).decode("utf8") # Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_ORIGINAL_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Inpainting
# inPaintingParams Options:
#   text: prompt to guide inpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "text": "a cat", # Optional "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskImage": mask_image, }, }, num_image=3,
)

Ez az alábbiakhoz hasonló képeket eredményez.

Eredeti kép	Maszk kép	Szerkesztett kép

Objektum eltávolítása: Befestés maszk prompttal

Egy másik példában használjuk maskPrompt egy objektum megadása a képen, a korábbi lépésekből vett, szerkeszthető. A szöveges prompt kihagyásával az objektum törlődik:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskPrompt": "white dog", # One of "maskImage" or "maskPrompt" is required }, },
)

Ez az alábbiakhoz hasonló képeket eredményez.

Eredeti kép	Válasz kép

Háttérszerkesztés: Kifestés

A kifestés akkor hasznos, ha le szeretné cserélni egy kép hátterét. A kicsinyítési hatás érdekében a kép határait is kiterjesztheti. A következő példaszkriptben használjuk maskPrompt a megtartandó objektum megadása; is használhatod maskImage. A paraméter outPaintingMode megadja, hogy engedélyezhető-e a maszkon belüli képpontok módosítása. Ha úgy van beállítva DEFAULT, a maszk belsejében lévő pixelek módosíthatók, hogy a rekonstruált kép összességében egységes legyen. Ez a lehetőség akkor javasolt, ha a maskImage feltéve nem reprezentálja az objektumot pixel szintű pontossággal. Ha úgy van beállítva PRECISE, a maszk belsejében lévő pixelek módosulását megakadályozzák. Ez az opció akkor javasolt, ha a maskPrompt vagy maskImage amely pixel szintű pontossággal ábrázolja az objektumot.

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # OutPaintingParams Options:
#   text: prompt to guide outpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask
#   outPaintingMode: DEFAULT | PRECISE
images = titan_image( { "taskType": "OUTPAINTING", "outPaintingParams": { "text": "forest", # Required "image": input_image, # Required "maskPrompt": "dogs", # One of "maskImage" or "maskPrompt" is required "outPaintingMode": "PRECISE", # One of "PRECISE" or "DEFAULT" }, }, num_image=3,
)

Ez az alábbiakhoz hasonló képeket eredményez.

Eredeti kép	szöveg	Válasz kép
	"strand"
	"erdő"

Ezen kívül a különböző értékek hatásait outPaintingMode, Egy maskImage amelyek nem körvonalazzák az objektumot pixelszintű pontossággal, a következők.

Ez a rész áttekintést nyújt a Titan Image Generator modellel végrehajtható műveletekről. Pontosabban, ezek a szkriptek a szöveg-kép, a képváltoztatás, a befestés és a kifestés feladatokat mutatják be. Képesnek kell lennie a minták adaptálására saját alkalmazásaihoz, ha hivatkozik az adott feladattípusok paramétereinek részleteire Az Amazon Titan Image Generator dokumentációja.

Multimodális beágyazás és keresés

Használhatja az Amazon Titan Multimodal Embeddings modellt olyan vállalati feladatokhoz, mint a képkeresés és a hasonlóságon alapuló ajánlás, és beépített mérsékléssel rendelkezik, amely segít csökkenteni a keresési eredmények torzítását. Többféle beágyazási dimenzió áll rendelkezésre a legjobb késleltetési/pontossági kompromisszumokhoz a különböző igényekhez, és mindegyik testreszabható egy egyszerű API-val, hogy alkalmazkodjon a saját adataihoz, miközben megőrzi az adatbiztonságot és az adatvédelmet. Az Amazon Titan Multimodal Embeddings egyszerű API-kként érhető el a valós idejű vagy aszinkron kötegelt transzformációs keresési és ajánlási alkalmazásokhoz, és különféle vektoradatbázisokhoz csatlakoztatható, pl. Amazon OpenSearch szolgáltatás.

Segítő funkciók

A következő funkció egy képet és opcionálisan szöveget alakít át multimodális beágyazásokká:

def titan_multimodal_embedding( image_path: str = None, # maximum 2048 x 2048 pixels description: str = None, # English only and max input tokens 128 dimension: int = 1024, # 1,024 (default), 384, 256 model_id: str = "amazon.titan-embed-image-v1",
): payload_body = {} embedding_config: dict = {"embeddingConfig": {"outputEmbeddingLength": dimension}} # You can specify either text or image or both if image_path: # Maximum image size supported is 2048 x 2048 pixels with open(image_path, "rb") as image_file: payload_body["inputImage"] = base64.b64encode(image_file.read()).decode( "utf8" ) if description: payload_body["inputText"] = description assert payload_body, "please provide either an image and/or a text description" print("n".join(payload_body.keys())) response = bedrock_runtime_client.invoke_model( body=json.dumps({**payload_body, **embedding_config}), modelId=model_id, accept="application/json", contentType="application/json", ) return json.loads(response.get("body").read())

A következő függvény a legjobb hasonló multimodális beágyazásokat adja vissza, adott a multimodális beágyazások lekérdezésnek. Vegye figyelembe, hogy a gyakorlatban használhat felügyelt vektoradatbázist, például az OpenSearch szolgáltatást. Az alábbi példa illusztráció:

from scipy.spatial.distance import cdist
import numpy as np def search(query_emb: np.array, indexes: np.array, top_k: int = 1): dist = cdist(query_emb, indexes, metric="cosine") return dist.argsort(axis=-1)[0, :top_k], np.sort(dist, axis=-1)[:top_k]

Szintetikus adatkészlet

Illusztráció céljából használjuk Az Anthropic Claude 2.1 modellje az Amazon Bedrockban hogy véletlenszerűen generáljon hét különböző terméket, mindegyik három változattal, a következő prompt segítségével:

Generate a list of 7 items description for an online e-commerce shop, each comes with 3 variants of color or type. All with separate full sentence description.

A visszaadott kimenetek listája a következő:

1. T-shirt
- A red cotton t-shirt with a crew neck and short sleeves.
- A blue cotton t-shirt with a v-neck and short sleeves.
- A black polyester t-shirt with a scoop neck and cap sleeves. 2. Jeans
- Classic blue relaxed fit denim jeans with a mid-rise waist.
- Black skinny fit denim jeans with a high-rise waist and ripped details at the knees.
- Stonewash straight leg denim jeans with a standard waist and front pockets. 3. Sneakers
- White leather low-top sneakers with an almond toe cap and thick rubber outsole.
- Gray mesh high-top sneakers with neon green laces and a padded ankle collar.
- Tan suede mid-top sneakers with a round toe and ivory rubber cupsole. 4. Backpack
- A purple nylon backpack with padded shoulder straps, front zipper pocket and laptop sleeve.
- A gray canvas backpack with brown leather trims, side water bottle pockets and drawstring top closure.
- A black leather backpack with multiple interior pockets, top carry handle and adjustable padded straps. 5. Smartwatch
- A silver stainless steel smartwatch with heart rate monitor, GPS tracker and sleep analysis.
- A space gray aluminum smartwatch with step counter, phone notifications and calendar syncing.
- A rose gold smartwatch with activity tracking, music controls and customizable watch faces. 6. Coffee maker
- A 12-cup programmable coffee maker in brushed steel with removable water tank and keep warm plate.
- A compact 5-cup single serve coffee maker in matt black with travel mug auto-dispensing feature.
- A retro style stovetop percolator coffee pot in speckled enamel with stay-cool handle and glass knob lid. 7. Yoga mat
- A teal 4mm thick yoga mat made of natural tree rubber with moisture-wicking microfiber top.
- A purple 6mm thick yoga mat made of eco-friendly TPE material with integrated carrying strap.
- A patterned 5mm thick yoga mat made of PVC-free material with towel cover included.

Rendelje hozzá a fenti választ a változóhoz response_cat. Ezután a Titan Image Generator modellt használjuk termékképek létrehozásához minden egyes cikkhez:

import re def extract_text(input_string): pattern = r"- (.*?)($|n)" matches = re.findall(pattern, input_string) extracted_texts = [match[0] for match in matches] return extracted_texts product_description = extract_text(response_cat) titles = []
for prompt in product_description: images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": prompt, # Required }, }, num_image=1, ) title = "_".join(prompt.split()[:4]).lower() titles.append(title) images[0].save(f"{title}.png", format="png")

Az összes elkészített kép megtalálható a bejegyzés végén található mellékletben.

Multimodális adatkészlet indexelés

A multimodális adatkészlet indexeléséhez használja a következő kódot:

multimodal_embeddings = []
for image_filename, description in zip(titles, product_description): embedding = titan_multimodal_embedding(f"{image_filename}.png", dimension=1024)["embedding"] multimodal_embeddings.append(embedding)

Multimodális keresés

Multimodális kereséshez használja a következő kódot:

query_prompt = "<YOUR_QUERY_TEXT>"
query_embedding = titan_multimodal_embedding(description=query_prompt, dimension=1024)["embedding"]
# If searching via Image
# query_image_filename = "<YOUR_QUERY_IMAGE>"
# query_emb = titan_multimodal_embedding(image_path=query_image_filename, dimension=1024)["embedding"]
idx_returned, dist = search(np.array(query_embedding)[None], np.array(multimodal_embeddings))

Az alábbiakban néhány keresési eredmény látható.

Következtetés

A bejegyzés bemutatja az Amazon Titan Image Generator és az Amazon Titan Multimodal Embeddings modelleket. A Titan Image Generator segítségével egyedi, jó minőségű képeket hozhat létre szöveges promptokból. A legfontosabb funkciók közé tartozik a felszólítások ismétlése, az automatikus háttérszerkesztés és az adatok testreszabása. Olyan biztosítékokkal rendelkezik, mint a láthatatlan vízjelek, amelyek ösztönzik a felelősségteljes használatot. A Titan Multimodal Embeddings a szöveget, képeket vagy mindkettőt szemantikus vektorokká alakítja a pontos keresés és ajánlások érdekében. Ezután Python kódmintákat adtunk ezeknek a szolgáltatásoknak a használatához, és bemutattuk, hogy szöveges promptokból képeket generálunk, és ezeken a képeken iterálunk; meglévő képek szerkesztése maszkképek vagy maszkszöveg által meghatározott elemek hozzáadásával, eltávolításával vagy cseréjével; multimodális beágyazások létrehozása szövegből, képekből vagy mindkettőből; és hasonló multimodális beágyazások keresése egy lekérdezéshez. Szintetikus e-kereskedelmi adatkészlettel is demonstráltunk, amelyet a Titan Multimodal Embeddings segítségével indexeltünk és kerestünk. Ennek a bejegyzésnek az a célja, hogy a fejlesztők elkezdhessék használni ezeket az új AI-szolgáltatásokat alkalmazásaikban. A kódminták sablonként szolgálhatnak az egyéni megvalósításokhoz.

Az összes kód elérhető a GitHub tárház. További információkért tekintse meg a Amazon Bedrock felhasználói kézikönyv.

A szerzőkről

Rohit Mittal az Amazon AI fő termékmenedzsere, aki multimodális alapmodelleket épít. Nemrég ő vezette az Amazon Titan Image Generator modell bevezetését az Amazon Bedrock szolgáltatás részeként. Az AI/ML, az NLP és a keresés terén szerzett tapasztalattal olyan termékek építése iránt érdeklődik, amelyek innovatív technológiával oldják meg az ügyfelek fájdalmait.

Dr. Ashwin Swaminathan Számítógépes jövőkép és gépi tanulás kutató, mérnök és menedzser, több mint 12 éves iparági tapasztalattal és 5+ éves tudományos kutatási tapasztalattal. Erős alapok és bizonyított képesség a gyors tudás megszerzésére és az újabb és feltörekvő területeken való közreműködésre.

Dr. Yusheng Xie az Amazon AGI vezető alkalmazott tudósa. Munkája középpontjában a multimodális alapmodellek felépítése áll. Mielőtt csatlakozott volna az AGI-hez, különböző multimodális mesterséges intelligencia fejlesztéseket vezetett az AWS-nél, mint például az Amazon Titan Image Generator és az Amazon Textract Queries.

Dr. Hao Yang vezető alkalmazott tudós az Amazonnál. Fő kutatási területe a tárgyak észlelése és tanulása korlátozott megjegyzésekkel. A munkán kívül Hao szeret filmeket nézni, fényképezni és szabadtéri tevékenységeket végezni.

Dr. Davide Modolo az Amazon AGI alkalmazott tudományos menedzsere, nagy multimodális alapmodellek felépítésén dolgozik. Mielőtt csatlakozott volna az Amazon AGI-hoz, 7 évig menedzser/vezető volt az AWS AI Labs-nál (Amazon Bedrock és Amazon Rekognition). A munkán kívül szívesen utazik és bármilyen sportot űz, különösen a focit.

Dr. Baichuan Sun, jelenleg Sr. AI/ML Solutions Architectként dolgozik az AWS-nél, a generatív AI-ra összpontosítva, és tudását az adattudományban és a gépi tanulásban alkalmazza gyakorlati, felhő alapú üzleti megoldások kínálatában. Menedzsment tanácsadás és mesterséges intelligencia-megoldás architektúra terén szerzett tapasztalatával számos összetett kihívással foglalkozik, többek között a robotika számítógépes látásmódjával, az idősoros előrejelzéssel és a prediktív karbantartással. Munkája a projektmenedzsment, a szoftver-kutatás és -fejlesztés, valamint az akadémiai tevékenységek szilárd hátterére épül. A munkán kívül Dr. Sun élvezi az utazás és a családjával és barátaival töltött idő egyensúlyát.

Dr. Kai Zhu jelenleg felhőtámogatási mérnökként dolgozik az AWS-nél, és segít az ügyfeleknek az AI/ML-hez kapcsolódó szolgáltatások, például a SageMaker, a Bedrock stb. problémáiban. A SageMaker téma szakértője. Az adattudományban és adatmérnökségben szerzett tapasztalattal a generatív AI-alapú projektek építése iránt érdeklődik.

Kris Schultz több mint 25 évet töltött azzal, hogy a feltörekvő technológiák és a világszínvonalú dizájn kombinálásával életre keltse a lenyűgöző felhasználói élményt. Senior termékmenedzserként Kris segít megtervezni és felépíteni AWS-szolgáltatásokat a média és szórakoztatás, a játékok és a térbeli számítástechnika támogatására.

Függelék

A következő szakaszokban olyan kihívást jelentő használati eseteket mutatunk be, mint a szövegbeszúrás, a kezek és a tükrözések, hogy kiemeljük a Titan Image Generator modell képességeit. A korábbi példákban előállított minta kimeneti képeket is tartalmazzuk.

szöveg

A Titan Image Generator modell kiválóan teljesít az olyan összetett munkafolyamatokban, mint például az olvasható szöveg beszúrása a képekbe. Ez a példa bemutatja a Titán azon képességét, hogy a nagy- és kisbetűket egyértelműen egységes stílusban jelenítse meg egy képen belül.

egy corgi baseball sapkát viselő „genai” felirattal	egy boldog fiú, aki feltartja a hüvelykujját, „generative AI” feliratú pólót visel

kezek

A Titan Image Generator modell képes részletes AI-képek generálására is. A képen valósághű kezek és ujjak láthatók látható részletekkel, túlmutatva az egyszerűbb mesterséges intelligencia-képalkotáson, amelyből hiányozhat az ilyen specifikusság. A következő példákban figyelje meg a póz és az anatómia pontos ábrázolását.

egy ember keze felülről nézve	közelről egy kávésbögrét tartó személy kezére

Tükör

A Titan Image Generator modell által generált képek térben rendezik el az objektumokat, és pontosan tükrözik a tükörhatásokat, amint azt a következő példák is bemutatják.

Egy aranyos bolyhos fehér macska áll a hátsó lábain, és kíváncsian néz egy díszes arany tükörbe. A tükörképben a macska önmagát látja	gyönyörű ég tó gondolatok a vízen