Gunakan Model Amazon Titan Untuk Pembuatan, Pengeditan, dan Pencarian Gambar

Diterbitkan Ulang Oleh Plato

Followers: 0

Batuan Dasar Amazon menyediakan berbagai model fondasi berkinerja tinggi dari Amazon dan perusahaan AI terkemuka lainnya, termasuk Antropik, AI21, meta, Bersatu, dan Stabilitas AI, dan mencakup berbagai kasus penggunaan, termasuk pembuatan teks dan gambar, penelusuran, obrolan, agen penalaran dan tindakan, dan banyak lagi. Yang baru Pembuat Gambar Amazon Titan model ini memungkinkan pembuat konten dengan cepat menghasilkan gambar realistis berkualitas tinggi menggunakan perintah teks bahasa Inggris sederhana. Model AI tingkat lanjut memahami instruksi kompleks dengan banyak objek dan mengembalikan gambar berkualitas studio yang sesuai pengiklanan, e-niaga, dan hiburan. Fitur utama mencakup kemampuan untuk menyempurnakan gambar dengan mengulangi perintah, pengeditan latar belakang otomatis, dan menghasilkan beberapa variasi dari pemandangan yang sama. Pembuat konten juga dapat menyesuaikan model dengan data mereka sendiri untuk menghasilkan gambar merek dengan gaya tertentu. Yang terpenting, Titan Image Generator memiliki perlindungan bawaan, seperti tanda air yang tidak terlihat pada semua gambar yang dihasilkan AI, untuk mendorong penggunaan yang bertanggung jawab dan mengurangi penyebaran disinformasi. Teknologi inovatif ini memungkinkan produksi gambar khusus dalam volume besar industri apa pun lebih mudah diakses dan efisien.

Baru Penyematan Multimodal Amazon Titan model membantu membangun penelusuran dan rekomendasi yang lebih akurat dengan memahami teks, gambar, atau keduanya. Ini mengubah gambar dan teks bahasa Inggris menjadi vektor semantik, menangkap makna dan hubungan dalam data Anda. Anda dapat menggabungkan teks dan gambar seperti deskripsi produk dan foto untuk mengidentifikasi item dengan lebih efektif. Vektor mendukung pengalaman pencarian yang cepat dan akurat. Titan Multimodal Embeddings fleksibel dalam dimensi vektor, memungkinkan pengoptimalan untuk kebutuhan kinerja. API asinkron dan Layanan Pencarian Terbuka Amazon konektor memudahkan integrasi model ke dalam aplikasi penelusuran saraf Anda.

Dalam postingan ini, kita akan mempelajari cara menggunakan model Titan Image Generator dan Titan Multimodal Embeddings melalui AWS Python SDK.

Pembuatan dan pengeditan gambar

Di bagian ini, kami mendemonstrasikan pola pengkodean dasar untuk menggunakan AWS SDK untuk menghasilkan gambar baru dan melakukan pengeditan yang didukung AI pada gambar yang sudah ada. Contoh kode disediakan dengan Python, dan JavaScript (Node.js) juga tersedia di sini Repositori GitHub.

Sebelum Anda dapat menulis skrip yang menggunakan API Amazon Bedrock, Anda perlu menginstal versi AWS SDK yang sesuai di lingkungan Anda. Untuk skrip Python, Anda dapat menggunakan AWS SDK untuk Python (Boto3). Pengguna Python mungkin juga ingin menginstal Modul bantal, yang memfasilitasi pengoperasian gambar seperti memuat dan menyimpan gambar. Untuk petunjuk pengaturan, lihat Repositori GitHub.

Selain itu, aktifkan akses ke model Amazon Titan Image Generator dan Titan Multimodal Embeddings. Untuk informasi lebih lanjut, lihat Akses model.

Fungsi pembantu

Fungsi berikut menyiapkan klien runtime Amazon Bedrock Boto3 dan menghasilkan gambar dengan mengambil muatan konfigurasi berbeda (yang akan kita bahas nanti di postingan ini):

import boto3
import json, base64, io
from random import randint
from PIL import Image bedrock_runtime_client = boto3.client("bedrock-runtime") def titan_image( payload: dict, num_image: int = 2, cfg: float = 10.0, seed: int = None, modelId: str = "amazon.titan-image-generator-v1",
) -> list: # ImageGenerationConfig Options: # - numberOfImages: Number of images to be generated # - quality: Quality of generated images, can be standard or premium # - height: Height of output image(s) # - width: Width of output image(s) # - cfgScale: Scale for classifier-free guidance # - seed: The seed to use for reproducibility seed = seed if seed is not None else randint(0, 214783647) body = json.dumps( { **payload, "imageGenerationConfig": { "numberOfImages": num_image, # Range: 1 to 5 "quality": "premium", # Options: standard/premium "height": 1024, # Supported height list above "width": 1024, # Supported width list above "cfgScale": cfg, # Range: 1.0 (exclusive) to 10.0 "seed": seed, # Range: 0 to 214783647 }, } ) response = bedrock_runtime_client.invoke_model( body=body, modelId=modelId, accept="application/json", contentType="application/json", ) response_body = json.loads(response.get("body").read()) images = [ Image.open(io.BytesIO(base64.b64decode(base64_image))) for base64_image in response_body.get("images") ] return images

Hasilkan gambar dari teks

Skrip yang menghasilkan gambar baru dari prompt teks mengikuti pola implementasi berikut:

Konfigurasikan perintah teks dan perintah teks negatif opsional.
Gunakan BedrockRuntime klien untuk menjalankan model Titan Image Generator.
Parsing dan dekode responsnya.
Simpan gambar yang dihasilkan ke disk.

Teks-ke-gambar

Berikut ini adalah skrip pembuatan gambar yang umum untuk model Titan Image Generator:

# Text Variation
# textToImageParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "negativeText": "cars", # Optional }, }
)

Ini akan menghasilkan gambar seperti berikut.

Gambar Tanggapan 1	Gambar Tanggapan 2

Varian gambar

Variasi gambar menyediakan cara untuk menghasilkan varian halus dari gambar yang sudah ada. Cuplikan kode berikut menggunakan salah satu gambar yang dihasilkan pada contoh sebelumnya untuk membuat gambar varian:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Image Variation
# ImageVariationParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
#   images: base64 string representation of the input image, only 1 is supported
images = titan_image( { "taskType": "IMAGE_VARIATION", "imageVariationParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "images": [input_image], # One image is required "negativeText": "cars", # Optional }, },
)

Ini akan menghasilkan gambar seperti berikut.

Gambar asli	Gambar Tanggapan 1	Gambar Tanggapan 2

Edit gambar yang ada

Model Titan Image Generator memungkinkan Anda menambah, menghapus, atau mengganti elemen atau area dalam gambar yang sudah ada. Anda menentukan area mana yang akan terpengaruh dengan memberikan salah satu hal berikut:

Gambar topeng – Gambar topeng adalah gambar biner di mana piksel bernilai 0 mewakili area yang ingin Anda pengaruhi dan piksel bernilai 255 mewakili area yang tidak boleh diubah.
Perintah topeng – Prompt mask adalah deskripsi teks bahasa alami dari elemen yang ingin Anda pengaruhi, yang menggunakan model text-to-segmentasi internal.

Untuk informasi lebih lanjut, lihat Pedoman Rekayasa Cepat.

Skrip yang menerapkan pengeditan pada gambar mengikuti pola penerapan berikut:

Muat gambar yang akan diedit dari disk.
Konversikan gambar menjadi string berkode base64.
Konfigurasikan masker melalui salah satu metode berikut:
1. Muat gambar topeng dari disk, enkodekan sebagai base64 dan atur sebagai maskImage parameter.
2. Mengatur maskText parameter ke deskripsi teks dari elemen yang akan dipengaruhi.
Tentukan konten baru yang akan dibuat menggunakan salah satu opsi berikut:
1. Untuk menambah atau mengganti elemen, atur text parameter untuk deskripsi konten baru.
2. Untuk menghapus elemen, hilangkan text parameter sepenuhnya.
Gunakan BedrockRuntime klien untuk menjalankan model Titan Image Generator.
Parsing dan dekode responsnya.
Simpan gambar yang dihasilkan ke disk.

Pengeditan objek: Melukis dengan gambar topeng

Berikut ini adalah skrip pengeditan gambar khas untuk model Titan Image Generator yang menggunakan maskImage. Kami mengambil salah satu gambar yang dihasilkan sebelumnya dan menyediakan gambar topeng, di mana piksel bernilai 0 ditampilkan sebagai hitam dan piksel bernilai 255 ditampilkan sebagai putih. Kami juga mengganti salah satu anjing di gambar dengan kucing menggunakan perintah teks.

with open("<YOUR_MASK_IMAGE_FILE_PATH>", "rb") as image_file: mask_image = base64.b64encode(image_file.read()).decode("utf8") # Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_ORIGINAL_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Inpainting
# inPaintingParams Options:
#   text: prompt to guide inpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "text": "a cat", # Optional "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskImage": mask_image, }, }, num_image=3,
)

Ini akan menghasilkan gambar seperti berikut.

Gambar asli	Gambar Topeng	Gambar yang Diedit

Penghapusan objek: Melukis dengan prompt topeng

Dalam contoh lain, kami menggunakan maskPrompt untuk menentukan objek dalam gambar, diambil dari langkah sebelumnya, untuk diedit. Dengan menghilangkan prompt teks, objek akan dihapus:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskPrompt": "white dog", # One of "maskImage" or "maskPrompt" is required }, },
)

Ini akan menghasilkan gambar seperti berikut.

Gambar asli	Gambar Tanggapan

Pengeditan latar belakang: Pengecatan luar

Outpainting berguna ketika Anda ingin mengganti background suatu gambar. Anda juga dapat memperluas batas gambar untuk efek zoom-out. Dalam contoh skrip berikut, kami menggunakan maskPrompt untuk menentukan objek mana yang akan disimpan; Anda juga bisa menggunakan maskImage. Parameter outPaintingMode menentukan apakah akan mengizinkan modifikasi piksel di dalam topeng. Jika ditetapkan sebagai DEFAULT, piksel di dalam topeng diperbolehkan untuk dimodifikasi sehingga gambar yang direkonstruksi akan konsisten secara keseluruhan. Opsi ini direkomendasikan jika maskImage asalkan tidak mewakili objek dengan presisi tingkat piksel. Jika ditetapkan sebagai PRECISE, modifikasi piksel di dalam topeng dicegah. Opsi ini disarankan jika menggunakan a maskPrompt atau maskImage yang mewakili objek dengan presisi tingkat piksel.

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # OutPaintingParams Options:
#   text: prompt to guide outpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask
#   outPaintingMode: DEFAULT | PRECISE
images = titan_image( { "taskType": "OUTPAINTING", "outPaintingParams": { "text": "forest", # Required "image": input_image, # Required "maskPrompt": "dogs", # One of "maskImage" or "maskPrompt" is required "outPaintingMode": "PRECISE", # One of "PRECISE" or "DEFAULT" }, }, num_image=3,
)

Ini akan menghasilkan gambar seperti berikut.

Gambar asli	Teks	Gambar Tanggapan
	"pantai"
	"hutan"

Selain itu, pengaruh nilai yang berbeda-beda outPaintingMode, Dengan maskImage yang tidak menguraikan objek dengan presisi tingkat piksel, adalah sebagai berikut.

Bagian ini memberi Anda gambaran umum tentang pengoperasian yang dapat Anda lakukan dengan model Titan Image Generator. Secara khusus, skrip ini mendemonstrasikan tugas teks-ke-gambar, variasi gambar, pengecatan, dan pengecatan luar. Anda harus dapat mengadaptasi pola untuk aplikasi Anda sendiri dengan mereferensikan detail parameter untuk jenis tugas yang dirinci Dokumentasi Amazon Titan Image Generator.

Penyematan dan pencarian multimodal

Anda dapat menggunakan model Amazon Titan Multimodal Embeddings untuk tugas perusahaan seperti pencarian gambar dan rekomendasi berbasis kesamaan, dan model ini memiliki mitigasi bawaan yang membantu mengurangi bias dalam hasil pencarian. Ada beberapa ukuran dimensi penyematan untuk trade-off latensi/akurasi terbaik untuk berbagai kebutuhan, dan semuanya dapat disesuaikan dengan API sederhana untuk beradaptasi dengan data Anda sendiri sambil tetap menjaga keamanan dan privasi data. Amazon Titan Multimodal Embeddings disediakan sebagai API sederhana untuk aplikasi pencarian dan rekomendasi transformasi batch asinkron secara real-time atau asinkron, dan dapat dihubungkan ke database vektor yang berbeda, termasuk Layanan Pencarian Terbuka Amazon.

Fungsi pembantu

Fungsi berikut mengonversi gambar, dan teks opsional, menjadi penyematan multimodal:

def titan_multimodal_embedding( image_path: str = None, # maximum 2048 x 2048 pixels description: str = None, # English only and max input tokens 128 dimension: int = 1024, # 1,024 (default), 384, 256 model_id: str = "amazon.titan-embed-image-v1",
): payload_body = {} embedding_config: dict = {"embeddingConfig": {"outputEmbeddingLength": dimension}} # You can specify either text or image or both if image_path: # Maximum image size supported is 2048 x 2048 pixels with open(image_path, "rb") as image_file: payload_body["inputImage"] = base64.b64encode(image_file.read()).decode( "utf8" ) if description: payload_body["inputText"] = description assert payload_body, "please provide either an image and/or a text description" print("n".join(payload_body.keys())) response = bedrock_runtime_client.invoke_model( body=json.dumps({**payload_body, **embedding_config}), modelId=model_id, accept="application/json", contentType="application/json", ) return json.loads(response.get("body").read())

Fungsi berikut mengembalikan penyematan multimodal serupa teratas berdasarkan kueri penyematan multimodal. Perhatikan bahwa dalam praktiknya, Anda bisa menggunakan database vektor terkelola, seperti OpenSearch Service. Contoh berikut adalah untuk tujuan ilustrasi:

from scipy.spatial.distance import cdist
import numpy as np def search(query_emb: np.array, indexes: np.array, top_k: int = 1): dist = cdist(query_emb, indexes, metric="cosine") return dist.argsort(axis=-1)[0, :top_k], np.sort(dist, axis=-1)[:top_k]

Kumpulan data sintetis

Untuk tujuan ilustrasi, kami menggunakan Model Claude 2.1 Anthropic di Amazon Bedrock untuk menghasilkan tujuh produk berbeda secara acak, masing-masing dengan tiga varian, menggunakan perintah berikut:

Generate a list of 7 items description for an online e-commerce shop, each comes with 3 variants of color or type. All with separate full sentence description.

Berikut ini adalah daftar output yang dikembalikan:

1. T-shirt
- A red cotton t-shirt with a crew neck and short sleeves.
- A blue cotton t-shirt with a v-neck and short sleeves.
- A black polyester t-shirt with a scoop neck and cap sleeves. 2. Jeans
- Classic blue relaxed fit denim jeans with a mid-rise waist.
- Black skinny fit denim jeans with a high-rise waist and ripped details at the knees.
- Stonewash straight leg denim jeans with a standard waist and front pockets. 3. Sneakers
- White leather low-top sneakers with an almond toe cap and thick rubber outsole.
- Gray mesh high-top sneakers with neon green laces and a padded ankle collar.
- Tan suede mid-top sneakers with a round toe and ivory rubber cupsole. 4. Backpack
- A purple nylon backpack with padded shoulder straps, front zipper pocket and laptop sleeve.
- A gray canvas backpack with brown leather trims, side water bottle pockets and drawstring top closure.
- A black leather backpack with multiple interior pockets, top carry handle and adjustable padded straps. 5. Smartwatch
- A silver stainless steel smartwatch with heart rate monitor, GPS tracker and sleep analysis.
- A space gray aluminum smartwatch with step counter, phone notifications and calendar syncing.
- A rose gold smartwatch with activity tracking, music controls and customizable watch faces. 6. Coffee maker
- A 12-cup programmable coffee maker in brushed steel with removable water tank and keep warm plate.
- A compact 5-cup single serve coffee maker in matt black with travel mug auto-dispensing feature.
- A retro style stovetop percolator coffee pot in speckled enamel with stay-cool handle and glass knob lid. 7. Yoga mat
- A teal 4mm thick yoga mat made of natural tree rubber with moisture-wicking microfiber top.
- A purple 6mm thick yoga mat made of eco-friendly TPE material with integrated carrying strap.
- A patterned 5mm thick yoga mat made of PVC-free material with towel cover included.

Tetapkan respons di atas ke variabel response_cat. Kemudian kami menggunakan model Titan Image Generator untuk membuat gambar produk untuk setiap item:

import re def extract_text(input_string): pattern = r"- (.*?)($|n)" matches = re.findall(pattern, input_string) extracted_texts = [match[0] for match in matches] return extracted_texts product_description = extract_text(response_cat) titles = []
for prompt in product_description: images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": prompt, # Required }, }, num_image=1, ) title = "_".join(prompt.split()[:4]).lower() titles.append(title) images[0].save(f"{title}.png", format="png")

Semua gambar yang dihasilkan dapat ditemukan di lampiran di akhir posting ini.

Pengindeksan kumpulan data multimodal

Gunakan kode berikut untuk pengindeksan kumpulan data multimodal:

multimodal_embeddings = []
for image_filename, description in zip(titles, product_description): embedding = titan_multimodal_embedding(f"{image_filename}.png", dimension=1024)["embedding"] multimodal_embeddings.append(embedding)

Pencarian multimodal

Gunakan kode berikut untuk pencarian multimodal:

query_prompt = "<YOUR_QUERY_TEXT>"
query_embedding = titan_multimodal_embedding(description=query_prompt, dimension=1024)["embedding"]
# If searching via Image
# query_image_filename = "<YOUR_QUERY_IMAGE>"
# query_emb = titan_multimodal_embedding(image_path=query_image_filename, dimension=1024)["embedding"]
idx_returned, dist = search(np.array(query_embedding)[None], np.array(multimodal_embeddings))

Berikut beberapa hasil pencariannya.

Kesimpulan

Postingan tersebut memperkenalkan model Amazon Titan Image Generator dan Amazon Titan Multimodal Embeddings. Titan Image Generator memungkinkan Anda membuat gambar khusus dan berkualitas tinggi dari perintah teks. Fitur utama termasuk mengulangi perintah, pengeditan latar belakang otomatis, dan penyesuaian data. Ia memiliki perlindungan seperti tanda air yang tidak terlihat untuk mendorong penggunaan yang bertanggung jawab. Titan Multimodal Embeddings mengubah teks, gambar, atau keduanya menjadi vektor semantik untuk mendukung penelusuran dan rekomendasi yang akurat. Kami kemudian memberikan contoh kode Python untuk menggunakan layanan ini, dan mendemonstrasikan pembuatan gambar dari perintah teks dan mengulangi gambar tersebut; mengedit gambar yang ada dengan menambahkan, menghapus, atau mengganti elemen yang ditentukan oleh gambar topeng atau teks topeng; membuat penyematan multimodal dari teks, gambar, atau keduanya; dan mencari penyematan multimodal yang serupa dengan kueri. Kami juga mendemonstrasikan penggunaan kumpulan data e-commerce sintetis yang diindeks dan dicari menggunakan Titan Multimodal Embeddings. Tujuan dari postingan ini adalah untuk memungkinkan pengembang mulai menggunakan layanan AI baru ini dalam aplikasi mereka. Pola kode dapat berfungsi sebagai templat untuk penerapan khusus.

Semua kode tersedia di Repositori GitHub. Untuk informasi lebih lanjut, lihat Panduan Pengguna Batuan Dasar Amazon.

Tentang Penulis

Rohit Mital adalah Manajer Produk Utama di Amazon AI yang membangun model fondasi multimodal. Dia baru-baru ini memimpin peluncuran model Amazon Titan Image Generator sebagai bagian dari layanan Amazon Bedrock. Berpengalaman dalam AI/ML, NLP, dan Penelusuran, dia tertarik untuk membuat produk yang memecahkan masalah pelanggan dengan teknologi inovatif.

Dr adalah peneliti, insinyur, dan manajer Computer Vision dan Machine Learning dengan pengalaman industri lebih dari 12 tahun dan pengalaman penelitian akademis lebih dari 5 tahun. Fundamental yang kuat dan kemampuan yang terbukti untuk memperoleh pengetahuan dengan cepat dan berkontribusi pada bidang-bidang baru dan berkembang.

Dr adalah Ilmuwan Terapan Utama di Amazon AGI. Karyanya berfokus pada pembangunan model pondasi multimodal. Sebelum bergabung dengan AGI, ia memimpin berbagai pengembangan AI multi-modal di AWS seperti Amazon Titan Image Generator dan Amazon Textract Query.

Dr.Hao Yang adalah Ilmuwan Terapan Utama di Amazon. Minat penelitian utamanya adalah deteksi objek dan pembelajaran dengan anotasi terbatas. Di luar pekerjaan, Hao menikmati menonton film, fotografi, dan aktivitas luar ruangan.

Dr Davide Modolo adalah Manajer Sains Terapan di Amazon AGI, yang berupaya membangun model dasar multimodal yang besar. Sebelum bergabung dengan Amazon AGI, dia adalah manajer/pemimpin selama 7 tahun di AWS AI Labs (Amazon Bedrock dan Amazon Rekognition). Di luar pekerjaan, ia senang bepergian dan melakukan olahraga apa pun, terutama sepak bola.

Dr.Baichuan Sun, saat ini menjabat sebagai Sr. Arsitek Solusi AI/ML di AWS, dengan fokus pada AI generatif dan menerapkan pengetahuannya dalam ilmu data dan pembelajaran mesin untuk memberikan solusi bisnis praktis berbasis cloud. Dengan pengalaman dalam konsultasi manajemen dan arsitektur solusi AI, ia mengatasi berbagai tantangan kompleks, antara lain visi komputer robotik, perkiraan rangkaian waktu, dan pemeliharaan prediktif. Karyanya didasarkan pada latar belakang yang kuat dalam manajemen proyek, penelitian dan pengembangan perangkat lunak, dan kegiatan akademis. Di luar pekerjaan, Dr. Sun menikmati keseimbangan antara bepergian dan menghabiskan waktu bersama keluarga dan teman.

Dr.Kai Zhu saat ini bekerja sebagai Cloud Support Engineer di AWS, membantu pelanggan dengan masalah dalam layanan terkait AI/ML seperti SageMaker, Bedrock, dll. Dia adalah Pakar Materi Pelajaran SageMaker. Berpengalaman dalam ilmu data dan rekayasa data, dia tertarik untuk membangun proyek generatif yang didukung AI.

Kris Schultz telah menghabiskan lebih dari 25 tahun menghidupkan pengalaman pengguna yang menarik dengan menggabungkan teknologi baru dengan desain kelas dunia. Dalam perannya sebagai Manajer Produk Senior, Kris membantu merancang dan membangun layanan AWS untuk mendukung Media & Hiburan, Game, dan Komputasi Spasial.

Lampiran

Pada bagian berikut, kami mendemonstrasikan contoh kasus penggunaan yang menantang seperti penyisipan teks, tangan, dan refleksi untuk menyoroti kemampuan model Titan Image Generator. Kami juga menyertakan contoh gambar keluaran yang dihasilkan pada contoh sebelumnya.

Teks

Model Titan Image Generator unggul dalam alur kerja yang kompleks seperti memasukkan teks yang dapat dibaca ke dalam gambar. Contoh ini menunjukkan kemampuan Titan untuk menampilkan huruf besar dan kecil dengan jelas dalam gaya yang konsisten dalam sebuah gambar.

seekor corgi mengenakan topi baseball dengan tulisan “genai”	seorang anak laki-laki yang gembira mengacungkan jempolnya, mengenakan kaos bertuliskan “AI generatif”

tangan

Model Titan Image Generator juga memiliki kemampuan untuk menghasilkan gambar AI yang detail. Gambar tersebut menunjukkan tangan dan jari yang realistis dengan detail yang terlihat, melampaui pembuatan gambar AI yang lebih mendasar yang mungkin kurang spesifik. Pada contoh berikut, perhatikan penggambaran pose dan anatominya secara tepat.

tangan seseorang dilihat dari atas	melihat dari dekat tangan seseorang yang memegang cangkir kopi

Cermin

Gambar yang dihasilkan oleh model Titan Image Generator mengatur objek secara spasial dan mencerminkan efek cermin secara akurat, seperti yang ditunjukkan dalam contoh berikut.

Seekor kucing putih berbulu lucu berdiri dengan kaki belakangnya, menatap penuh rasa ingin tahu ke dalam cermin emas yang penuh hiasan. Dalam pantulan itu, kucing melihat dirinya sendiri	danau langit yang indah dengan pantulan di atas air

Gambar produk sintetis

Berikut adalah gambar produk yang dihasilkan sebelumnya dalam postingan ini untuk model Titan Multimodal Embeddings.

Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
PlatoData.Jaringan Vertikal Generatif Ai. Berdayakan Diri Anda. Akses Di Sini.
PlatoAiStream. Intelijen Web3. Pengetahuan Diperkuat. Akses Di Sini.
PlatoESG. Karbon, teknologi bersih, energi, Lingkungan Hidup, Tenaga surya, Penanganan limbah. Akses Di Sini.
PlatoHealth. Kecerdasan Uji Coba Biotek dan Klinis. Akses Di Sini.
Sumber: https://aws.amazon.com/blogs/machine-learning/use-amazon-titan-models-for-image-generation-editing-and-searching/

Stempel Waktu: Februari 19, 2024

Stempel Waktu: 31 Mei 2022

Diterbitkan Ulang Oleh Plato

Memperkenalkan flywheel Amazon Comprehend untuk MLOps

Identifikasi lokasi anomali menggunakan Amazon Lookout for Vision di edge tanpa menggunakan GPU

Mengidentifikasi skema cakupan pertahanan di NFL's Next Gen Stats

Mendemokratisasi deteksi cacat penglihatan komputer untuk kualitas manufaktur menggunakan pembelajaran mesin tanpa kode dengan Amazon SageMaker Canvas | Layanan Web Amazon

Memperkenalkan Pengunggah Dokumen Massal Amazon Texttract untuk evaluasi dan analisis yang disempurnakan | Layanan Web Amazon

Hubungkan Amazon Athena dengan mulus dengan Amazon Lookout for Metrics untuk mendeteksi anomali

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun