Use Amazon Titan Models For Image Generation, Editing, And Searching

Ponovno objavil Platon

Spremljevalci: 0

Amazon Bedrock ponuja široko paleto visoko zmogljivih temeljnih modelov Amazona in drugih vodilnih podjetij AI, vključno z Antropično, AI21, Meta, Koherin Stabilnost AI, in pokriva široko paleto primerov uporabe, vključno z ustvarjanjem besedila in slik, iskanjem, klepetom, sklepanjem in delovanjem agentov ter več. Novi Amazon Titan Image Generator model omogoča ustvarjalcem vsebin, da hitro ustvarijo visokokakovostne, realistične slike z uporabo preprostih angleških besedilnih pozivov. Napredni model AI razume zapletena navodila z več predmeti in vrne slike studijske kakovosti, primerne za oglaševanje, e-trgovina in zabava. Ključne funkcije vključujejo možnost izboljšanja slik s ponavljanjem pozivov, samodejno urejanje ozadja in generiranje več različic iste scene. Ustvarjalci lahko tudi prilagodijo model s svojimi lastnimi podatki za izpis slik blagovne znamke v določenem slogu. Pomembno je, da ima Titan Image Generator vgrajene zaščitne ukrepe, kot so nevidni vodni žigi na vseh slikah, ustvarjenih z umetno inteligenco, za spodbujanje odgovorno uporabo in ublažiti širjenje dezinformacij. Ta inovativna tehnologija omogoča izdelavo slik po meri v velikem obsegu za katera koli industrija bolj dostopen in učinkovit.

Novi Multimodalne vgradnje Amazon Titan model pomaga ustvariti natančnejše iskanje in priporočila z razumevanjem besedila, slik ali obojega. Pretvori slike in angleško besedilo v semantične vektorje ter zajame pomen in razmerja v vaših podatkih. Kombinirate lahko besedilo in slike, kot so opisi izdelkov in fotografije, da učinkoviteje prepoznate predmete. Vektorji omogočajo hitro in natančno iskanje. Titan Multimodal Embeddings je prilagodljiv v vektorskih dimenzijah, kar omogoča optimizacijo za potrebe zmogljivosti. Asinhroni API in Storitev Amazon OpenSearch priključek olajša integracijo modela v vaše nevronske iskalne aplikacije.

V tej objavi se poglobimo v uporabo modelov Titan Image Generator in Titan Multimodal Embeddings prek AWS Python SDK.

Ustvarjanje in urejanje slik

V tem razdelku prikazujemo osnovne vzorce kodiranja za uporabo AWS SDK za ustvarjanje novih slik in izvajanje urejanj obstoječih slik, ki jih poganja AI. Primeri kode so na voljo v Pythonu, v tem pa je na voljo tudi JavaScript (Node.js). GitHub repozitorij.

Preden lahko pišete skripte, ki uporabljajo API Amazon Bedrock, morate v svoje okolje namestiti ustrezno različico AWS SDK. Za skripte Python lahko uporabite AWS SDK za Python (Boto3). Uporabniki Pythona bodo morda želeli namestiti tudi Modul blazine, ki olajša slikovne operacije, kot je nalaganje in shranjevanje slik. Za navodila za nastavitev glejte GitHub repozitorij.

Poleg tega omogočite dostop do modelov Amazon Titan Image Generator in Titan Multimodal Embeddings. Za več informacij glejte Dostop do modela.

Pomožne funkcije

Naslednja funkcija nastavi izvajalnega odjemalca Amazon Bedrock Boto3 in generira slike tako, da zavzame koristne obremenitve različnih konfiguracij (o katerih razpravljamo kasneje v tej objavi):

import boto3
import json, base64, io
from random import randint
from PIL import Image bedrock_runtime_client = boto3.client("bedrock-runtime") def titan_image( payload: dict, num_image: int = 2, cfg: float = 10.0, seed: int = None, modelId: str = "amazon.titan-image-generator-v1",
) -> list: # ImageGenerationConfig Options: # - numberOfImages: Number of images to be generated # - quality: Quality of generated images, can be standard or premium # - height: Height of output image(s) # - width: Width of output image(s) # - cfgScale: Scale for classifier-free guidance # - seed: The seed to use for reproducibility seed = seed if seed is not None else randint(0, 214783647) body = json.dumps( { **payload, "imageGenerationConfig": { "numberOfImages": num_image, # Range: 1 to 5 "quality": "premium", # Options: standard/premium "height": 1024, # Supported height list above "width": 1024, # Supported width list above "cfgScale": cfg, # Range: 1.0 (exclusive) to 10.0 "seed": seed, # Range: 0 to 214783647 }, } ) response = bedrock_runtime_client.invoke_model( body=body, modelId=modelId, accept="application/json", contentType="application/json", ) response_body = json.loads(response.get("body").read()) images = [ Image.open(io.BytesIO(base64.b64decode(base64_image))) for base64_image in response_body.get("images") ] return images

Ustvari slike iz besedila

Skripti, ki ustvarijo novo sliko iz besedilnega poziva, sledijo temu implementacijskemu vzorcu:

Konfigurirajte besedilni poziv in izbirni negativni besedilni poziv.
Uporaba BedrockRuntime odjemalec za priklic modela Titan Image Generator.
Razčlenite in dekodirajte odgovor.
Shranite nastale slike na disk.

Besedilo v sliko

Sledi tipičen skript za ustvarjanje slike za model Titan Image Generator:

# Text Variation
# textToImageParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "negativeText": "cars", # Optional }, }
)

To bo ustvarilo slike, podobne naslednjim.

Slika odgovora 1	Slika odgovora 2

Variante slike

Različica slike omogoča ustvarjanje subtilnih različic obstoječe slike. Naslednji delček kode uporablja eno od slik, ustvarjenih v prejšnjem primeru, za ustvarjanje različnih slik:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Image Variation
# ImageVariationParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
#   images: base64 string representation of the input image, only 1 is supported
images = titan_image( { "taskType": "IMAGE_VARIATION", "imageVariationParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "images": [input_image], # One image is required "negativeText": "cars", # Optional }, },
)

To bo ustvarilo slike, podobne naslednjim.

Izvirna slika	Slika odgovora 1	Slika odgovora 2

Uredite obstoječo sliko

Model Titan Image Generator vam omogoča dodajanje, odstranjevanje ali zamenjavo elementov ali območij znotraj obstoječe slike. Določite, na katero področje želite vplivati, tako da podate nekaj od naslednjega:

Slika maske – Slika maske je binarna slika, v kateri slikovne pike z vrednostjo 0 predstavljajo območje, na katerega želite vplivati, slikovne pike z vrednostjo 255 pa območje, ki naj ostane nespremenjeno.
Poziv za masko – Poziv za masko je besedilni opis elementov, na katere želite vplivati, v naravnem jeziku, ki uporablja interni model besedila v segmentacijo.

Za več informacij glejte Takojšnje inženirske smernice.

Skripti, ki uporabijo urejanje slike, sledijo temu implementacijskemu vzorcu:

Naložite sliko za urejanje z diska.
Pretvorite sliko v niz, kodiran z base64.
Konfigurirajte masko na enega od naslednjih načinov:
1. Naložite sliko maske z diska, jo kodirajte kot base64 in nastavite kot maskImage parameter.
2. Nastavite maskText parametra v besedilni opis elementov, na katere vpliva.
Določite novo vsebino, ki bo ustvarjena z eno od naslednjih možnosti:
1. Če želite dodati ali zamenjati element, nastavite text parameter za opis nove vsebine.
2. Če želite odstraniti element, izpustite text parameter popolnoma.
Uporaba BedrockRuntime odjemalec za priklic modela Titan Image Generator.
Razčlenite in dekodirajte odgovor.
Shranite nastale slike na disk.

Urejanje predmeta: Slikanje s sliko maske

Sledi tipičen skript za urejanje slik za model Titan Image Generator z uporabo maskImage. Vzamemo eno od prej ustvarjenih slik in zagotovimo sliko maske, kjer so slikovne pike z vrednostjo 0 upodobljene kot črne, slikovne pike z vrednostjo 255 pa kot bele. Prav tako enega od psov na sliki zamenjamo z mačko z uporabo besedilnega poziva.

with open("<YOUR_MASK_IMAGE_FILE_PATH>", "rb") as image_file: mask_image = base64.b64encode(image_file.read()).decode("utf8") # Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_ORIGINAL_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Inpainting
# inPaintingParams Options:
#   text: prompt to guide inpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "text": "a cat", # Optional "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskImage": mask_image, }, }, num_image=3,
)

To bo ustvarilo slike, podobne naslednjim.

Izvirna slika	Slika maske	Urejena slika

Odstranitev predmeta: Slikanje s pozivom za masko

V drugem primeru uporabljamo maskPrompt da določite predmet na sliki, vzeto iz prejšnjih korakov, za urejanje. Če izpustite besedilni poziv, bo predmet odstranjen:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskPrompt": "white dog", # One of "maskImage" or "maskPrompt" is required }, },
)

To bo ustvarilo slike, podobne naslednjim.

Izvirna slika	Odgovorna slika

Urejanje ozadja: prebarvanje

Preslikava je uporabna, ko želite zamenjati ozadje slike. Prav tako lahko razširite meje slike za učinek pomanjšave. V naslednjem primeru skripta uporabljamo maskPrompt določiti, kateri predmet obdržati; lahko uporabite tudi maskImage. Parameter outPaintingMode določa, ali naj se dovoli spreminjanje slikovnih pik znotraj maske. Če je nastavljeno kot DEFAULT, je dovoljeno spreminjati slikovne pike znotraj maske, tako da bo rekonstruirana slika na splošno skladna. Ta možnost je priporočljiva, če maskImage navedeno ne predstavlja predmeta z natančnostjo na ravni slikovnih pik. Če je nastavljeno kot PRECISE, je preprečeno spreminjanje slikovnih pik znotraj maske. Ta možnost je priporočljiva, če uporabljate a maskPrompt ali maskImage ki predstavlja predmet z natančnostjo na ravni pikslov.

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # OutPaintingParams Options:
#   text: prompt to guide outpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask
#   outPaintingMode: DEFAULT | PRECISE
images = titan_image( { "taskType": "OUTPAINTING", "outPaintingParams": { "text": "forest", # Required "image": input_image, # Required "maskPrompt": "dogs", # One of "maskImage" or "maskPrompt" is required "outPaintingMode": "PRECISE", # One of "PRECISE" or "DEFAULT" }, }, num_image=3,
)

To bo ustvarilo slike, podobne naslednjim.

Izvirna slika	Besedilo	Odgovorna slika
	“plaža”
	“gozd”

Poleg tega so učinki različnih vrednosti za outPaintingMode, S maskImage ki ne orisujejo predmeta z natančnostjo na ravni pikslov, so naslednji.

V tem razdelku je podan pregled operacij, ki jih lahko izvajate z modelom Titan Image Generator. Natančneje, ti skripti prikazujejo naloge pretvorbe besedila v sliko, variacije slik, in-painting in outpainting. Morali bi imeti možnost prilagoditi vzorce za svoje aplikacije tako, da se sklicujete na podrobnosti parametrov za tiste vrste opravil, ki so opisane v Dokumentacija Amazon Titan Image Generator.

Multimodalno vstavljanje in iskanje

Model Amazon Titan Multimodal Embeddings lahko uporabite za podjetniške naloge, kot sta iskanje slik in priporočila na podlagi podobnosti, in ima vgrajeno ublažitev, ki pomaga zmanjšati pristranskost v rezultatih iskanja. Na voljo je več velikosti dimenzij za vdelavo za najboljše kompromise med zakasnitvijo/natančnostjo za različne potrebe, vse pa je mogoče prilagoditi s preprostim API-jem za prilagajanje vašim lastnim podatkom, pri tem pa ohraniti varnost in zasebnost podatkov. Amazon Titan Multimodal Embeddings je na voljo kot preprosti API-ji za aplikacije za iskanje in priporočila v realnem času ali asinhrono paketno transformacijo in jih je mogoče povezati z različnimi vektorskimi zbirkami podatkov, vključno z Storitev Amazon OpenSearch.

Pomožne funkcije

Naslednja funkcija pretvori sliko in neobvezno besedilo v večmodalne vdelave:

def titan_multimodal_embedding( image_path: str = None, # maximum 2048 x 2048 pixels description: str = None, # English only and max input tokens 128 dimension: int = 1024, # 1,024 (default), 384, 256 model_id: str = "amazon.titan-embed-image-v1",
): payload_body = {} embedding_config: dict = {"embeddingConfig": {"outputEmbeddingLength": dimension}} # You can specify either text or image or both if image_path: # Maximum image size supported is 2048 x 2048 pixels with open(image_path, "rb") as image_file: payload_body["inputImage"] = base64.b64encode(image_file.read()).decode( "utf8" ) if description: payload_body["inputText"] = description assert payload_body, "please provide either an image and/or a text description" print("n".join(payload_body.keys())) response = bedrock_runtime_client.invoke_model( body=json.dumps({**payload_body, **embedding_config}), modelId=model_id, accept="application/json", contentType="application/json", ) return json.loads(response.get("body").read())

Naslednja funkcija vrne najvišje podobne multimodalne vdelave glede na poizvedbo multimodalne vdelave. Upoštevajte, da lahko v praksi uporabite upravljano vektorsko bazo podatkov, kot je OpenSearch Service. Naslednji primer je za ilustracijo:

from scipy.spatial.distance import cdist
import numpy as np def search(query_emb: np.array, indexes: np.array, top_k: int = 1): dist = cdist(query_emb, indexes, metric="cosine") return dist.argsort(axis=-1)[0, :top_k], np.sort(dist, axis=-1)[:top_k]

Sintetični nabor podatkov

Za ilustracijo uporabljamo Anthropicov model Claude 2.1 v Amazon Bedrocku da naključno ustvarite sedem različnih izdelkov, vsak s tremi različicami, z uporabo naslednjega poziva:

Generate a list of 7 items description for an online e-commerce shop, each comes with 3 variants of color or type. All with separate full sentence description.

Sledi seznam vrnjenih rezultatov:

1. T-shirt
- A red cotton t-shirt with a crew neck and short sleeves.
- A blue cotton t-shirt with a v-neck and short sleeves.
- A black polyester t-shirt with a scoop neck and cap sleeves. 2. Jeans
- Classic blue relaxed fit denim jeans with a mid-rise waist.
- Black skinny fit denim jeans with a high-rise waist and ripped details at the knees.
- Stonewash straight leg denim jeans with a standard waist and front pockets. 3. Sneakers
- White leather low-top sneakers with an almond toe cap and thick rubber outsole.
- Gray mesh high-top sneakers with neon green laces and a padded ankle collar.
- Tan suede mid-top sneakers with a round toe and ivory rubber cupsole. 4. Backpack
- A purple nylon backpack with padded shoulder straps, front zipper pocket and laptop sleeve.
- A gray canvas backpack with brown leather trims, side water bottle pockets and drawstring top closure.
- A black leather backpack with multiple interior pockets, top carry handle and adjustable padded straps. 5. Smartwatch
- A silver stainless steel smartwatch with heart rate monitor, GPS tracker and sleep analysis.
- A space gray aluminum smartwatch with step counter, phone notifications and calendar syncing.
- A rose gold smartwatch with activity tracking, music controls and customizable watch faces. 6. Coffee maker
- A 12-cup programmable coffee maker in brushed steel with removable water tank and keep warm plate.
- A compact 5-cup single serve coffee maker in matt black with travel mug auto-dispensing feature.
- A retro style stovetop percolator coffee pot in speckled enamel with stay-cool handle and glass knob lid. 7. Yoga mat
- A teal 4mm thick yoga mat made of natural tree rubber with moisture-wicking microfiber top.
- A purple 6mm thick yoga mat made of eco-friendly TPE material with integrated carrying strap.
- A patterned 5mm thick yoga mat made of PVC-free material with towel cover included.

Dodelite zgornji odgovor spremenljivki response_cat. Nato uporabimo model Titan Image Generator za ustvarjanje slik izdelkov za vsak artikel:

import re def extract_text(input_string): pattern = r"- (.*?)($|n)" matches = re.findall(pattern, input_string) extracted_texts = [match[0] for match in matches] return extracted_texts product_description = extract_text(response_cat) titles = []
for prompt in product_description: images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": prompt, # Required }, }, num_image=1, ) title = "_".join(prompt.split()[:4]).lower() titles.append(title) images[0].save(f"{title}.png", format="png")

Vse ustvarjene slike najdete v prilogi na koncu te objave.

Indeksiranje večmodalnih naborov podatkov

Uporabite naslednjo kodo za indeksiranje multimodalnega niza podatkov:

multimodal_embeddings = []
for image_filename, description in zip(titles, product_description): embedding = titan_multimodal_embedding(f"{image_filename}.png", dimension=1024)["embedding"] multimodal_embeddings.append(embedding)

Multimodalno iskanje

Za multimodalno iskanje uporabite naslednjo kodo:

query_prompt = "<YOUR_QUERY_TEXT>"
query_embedding = titan_multimodal_embedding(description=query_prompt, dimension=1024)["embedding"]
# If searching via Image
# query_image_filename = "<YOUR_QUERY_IMAGE>"
# query_emb = titan_multimodal_embedding(image_path=query_image_filename, dimension=1024)["embedding"]
idx_returned, dist = search(np.array(query_embedding)[None], np.array(multimodal_embeddings))

Sledi nekaj rezultatov iskanja.

zaključek

Objava predstavlja modela Amazon Titan Image Generator in Amazon Titan Multimodal Embeddings. Titan Image Generator vam omogoča ustvarjanje visokokakovostnih slik po meri iz besedilnih pozivov. Ključne funkcije vključujejo ponavljanje pozivov, samodejno urejanje ozadja in prilagajanje podatkov. Ima zaščitne ukrepe, kot so nevidni vodni žigi, ki spodbujajo odgovorno uporabo. Titan Multimodal Embeddings pretvori besedilo, slike ali oboje v semantične vektorje za omogočanje natančnega iskanja in priporočil. Nato smo zagotovili vzorce kode Python za uporabo teh storitev in prikazali ustvarjanje slik iz besedilnih pozivov ter ponavljanje teh slik; urejanje obstoječih slik z dodajanjem, odstranjevanjem ali zamenjavo elementov, določenih s slikami maske ali besedilom maske; ustvarjanje multimodalnih vdelav iz besedila, slik ali obojega; in iskanje podobnih multimodalnih vdelav v poizvedbo. Prikazali smo tudi uporabo sintetičnega nabora podatkov o e-trgovini, indeksiranega in iskanega z uporabo Titan Multimodal Embeddings. Namen te objave je omogočiti razvijalcem, da začnejo uporabljati te nove storitve AI v svojih aplikacijah. Vzorci kode lahko služijo kot predloge za implementacije po meri.

Vsa koda je na voljo na GitHub repozitorij. Za več informacij glejte Uporabniški priročnik za Amazon Bedrock.

O avtorjih

Rohit Mittal je glavni produktni vodja pri Amazon AI za gradnjo večmodalnih temeljnih modelov. Nedavno je vodil lansiranje modela Amazon Titan Image Generator kot del storitve Amazon Bedrock. Ima izkušnje z AI/ML, NLP in iskanjem, zanima ga izdelava izdelkov, ki z inovativno tehnologijo rešujejo boleče točke strank.

Dr. Ashwin Swaminathan je raziskovalec, inženir in vodja računalniškega vida in strojnega učenja z 12+ leti izkušenj v industriji in 5+ leti akademskih raziskovalnih izkušenj. Močne osnove in dokazana sposobnost hitrega pridobivanja znanja in prispevanja k novim in nastajajočim področjem.

Dr. Yusheng Xie je glavni aplikativni znanstvenik pri Amazon AGI. Njegovo delo se osredotoča na gradnjo večmodalnih modelov temeljev. Preden se je pridružil AGI, je pri AWS vodil različen multimodalni razvoj umetne inteligence, kot sta Amazon Titan Image Generator in Amazon Texttract Queries.

Dr. Hao Yang je glavni aplikativni znanstvenik pri Amazonu. Njegov glavni raziskovalni interes je zaznavanje predmetov in učenje z omejenimi opombami. Zunaj dela Hao uživa v gledanju filmov, fotografiranju in aktivnostih na prostem.

Davide Modolo je vodja uporabne znanosti pri Amazon AGI, ki dela na izgradnji velikih multimodalnih temeljnih modelov. Preden se je pridružil Amazon AGI, je bil 7 let vodja/vodilec v AWS AI Labs (Amazon Bedrock in Amazon Rekognition). Zunaj dela rad potuje in se ukvarja s kakršnimi koli športi, še posebej z nogometom.

Dr. Baichuan Sun, trenutno dela kot starejši arhitekt rešitev AI/ML pri AWS, osredotoča se na generativno umetno inteligenco in uporablja svoje znanje podatkovne znanosti in strojnega učenja za zagotavljanje praktičnih poslovnih rešitev v oblaku. Z izkušnjami pri svetovanju pri upravljanju in arhitekturi rešitev umetne inteligence obravnava vrsto zapletenih izzivov, vključno z robotskim računalniškim vidom, napovedovanjem časovnih vrst in prediktivnim vzdrževanjem, med drugim. Njegovo delo temelji na trdnem ozadju vodenja projektov, raziskav in razvoja programske opreme ter akademskega udejstvovanja. Zunaj službe dr. Sun uživa v ravnotežju med potovanji in preživljanjem časa z družino in prijatelji.

Dr. Kai Zhu trenutno dela kot inženir za podporo oblaku pri AWS in pomaga strankam pri težavah s storitvami, povezanimi z AI/ML, kot so SageMaker, Bedrock itd. Je strokovnjak za zadeve SageMaker. Ker ima izkušnje s podatkovno znanostjo in podatkovnim inženiringom, ga zanima izgradnja generativnih projektov, ki jih poganja AI.

Kris Schultz je več kot 25 let oživljal privlačne uporabniške izkušnje s kombiniranjem nastajajočih tehnologij z vrhunskim dizajnom. V vlogi višjega produktnega vodje Kris pomaga oblikovati in graditi storitve AWS za napajanje medijev in zabave, iger in prostorskega računalništva.

Dodatek

V naslednjih razdelkih prikazujemo zahtevne vzorčne primere uporabe, kot so vstavljanje besedila, roke in odsevi, da poudarimo zmogljivosti modela Titan Image Generator. Vključujemo tudi vzorčne izhodne slike, izdelane v prejšnjih primerih.

Besedilo

Model Titan Image Generator je odličen pri kompleksnih delovnih procesih, kot je vstavljanje berljivega besedila v slike. Ta primer prikazuje sposobnost Titana, da jasno upodablja velike in male črke v doslednem slogu znotraj slike.

korgi, ki nosi bejzbolsko kapo z napisom "genai"	srečen fant z dvignjenim palcem, oblečen v majico z napisom »generative AI«

roke

Model Titan Image Generator ima tudi možnost ustvarjanja podrobnih slik AI. Slika prikazuje realistične roke in prste z vidnimi podrobnostmi, ki presega bolj osnovno generiranje slik z umetno inteligenco, ki morda nima takšne specifičnosti. V naslednjih primerih bodite pozorni na natančen prikaz položaja in anatomije.

človekova roka, gledana od zgoraj	natančen pogled na roke osebe, ki drži skodelico kave

Mirror

Slike, ki jih ustvari model Titan Image Generator, prostorsko razporedijo predmete in natančno odražajo zrcalne učinke, kot je prikazano v naslednjih primerih.

Prikupna puhasta bela mačka stoji na zadnjih nogah in radovedno zre v okrašeno zlato ogledalo. V odsevu mačka vidi sebe	čudovito nebeško jezero z odsevi na vodi

Slike sintetičnih izdelkov

Sledijo slike izdelkov, ustvarjene prej v tej objavi za model Titan Multimodal Embeddings.

Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
PlatoESG. Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
vir: https://aws.amazon.com/blogs/machine-learning/use-amazon-titan-models-for-image-generation-editing-and-searching/

Časovni žig: Februar 19, 2024

Časovni žig: Maj 31, 2022

Ponovno objavil Platon

Predstavljamo vztrajnik Amazon Comprehend za MLOps

Identificirajte lokacijo anomalij z uporabo Amazon Lookout for Vision na robu brez uporabe GPE

Prepoznavanje shem obrambnega kritja v statistiki naslednje generacije NFL

Demokratizirajte zaznavanje napak računalniškega vida za kakovost izdelave z uporabo strojnega učenja brez kode s Canvas Amazon SageMaker | Spletne storitve Amazon

Predstavljamo nalaganje množičnih dokumentov Amazon Texttract za izboljšano vrednotenje in analizo | Spletne storitve Amazon

Nemoteno povežite Amazon Athena z Amazon Lookout for Metrics za odkrivanje anomalij

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun