Sử dụng Mô hình Amazon Titan để tạo, chỉnh sửa và tìm kiếm hình ảnh

Được xuất bản lại bởi Plato

Người theo dõi: 0

nền tảng Amazon cung cấp nhiều mô hình nền tảng hiệu suất cao từ Amazon và các công ty AI hàng đầu khác, bao gồm nhân loại, AIX NUMX, Siêu dữ liệu, Mạch lạcvà AI ổn địnhvà bao gồm nhiều trường hợp sử dụng, bao gồm tạo văn bản và hình ảnh, tìm kiếm, trò chuyện, tác nhân lý luận và hành động, v.v. Cái mới Trình tạo hình ảnh Amazon Titan mô hình cho phép người tạo nội dung nhanh chóng tạo ra hình ảnh chân thực, chất lượng cao bằng cách sử dụng lời nhắc bằng văn bản tiếng Anh đơn giản. Mô hình AI tiên tiến hiểu được các hướng dẫn phức tạp với nhiều đối tượng và trả về hình ảnh chất lượng studio phù hợp với quảng cáo, thương mại điện tử và vui chơi. Các tính năng chính bao gồm khả năng tinh chỉnh hình ảnh bằng cách lặp lại các lời nhắc, chỉnh sửa nền tự động và tạo nhiều biến thể của cùng một cảnh. Người sáng tạo cũng có thể tùy chỉnh mô hình bằng dữ liệu của riêng họ để xuất ra hình ảnh thương hiệu theo một phong cách cụ thể. Điều quan trọng là Titan Image Generator có các biện pháp bảo vệ tích hợp, như hình mờ vô hình trên tất cả các hình ảnh do AI tạo ra, để khuyến khích sử dụng có trách nhiệm và giảm thiểu sự lan truyền của thông tin sai lệch. Công nghệ tiên tiến này giúp tạo ra các hình ảnh tùy chỉnh với số lượng lớn cho bất kỳ ngành nào dễ tiếp cận và hiệu quả hơn.

Mới Phần mềm nhúng đa phương thức của Amazon Titan mô hình giúp xây dựng tìm kiếm và đề xuất chính xác hơn bằng cách hiểu văn bản, hình ảnh hoặc cả hai. Nó chuyển đổi hình ảnh và văn bản tiếng Anh thành các vectơ ngữ nghĩa, nắm bắt ý nghĩa và mối quan hệ trong dữ liệu của bạn. Bạn có thể kết hợp văn bản và hình ảnh như mô tả sản phẩm và ảnh để xác định các mặt hàng hiệu quả hơn. Các vectơ cung cấp trải nghiệm tìm kiếm nhanh chóng và chính xác. Titan Multimodal Embeddings linh hoạt về kích thước vectơ, cho phép tối ưu hóa các nhu cầu về hiệu suất. API không đồng bộ và Dịch vụ Tìm kiếm Mở của Amazon Connector giúp bạn dễ dàng tích hợp mô hình vào các ứng dụng tìm kiếm thần kinh của mình.

Trong bài đăng này, chúng tôi sẽ hướng dẫn cách sử dụng các mô hình Titan Image Generator và Titan Multimodal Embeddings thông qua AWS Python SDK.

Tạo và chỉnh sửa hình ảnh

Trong phần này, chúng tôi trình bày các mẫu mã hóa cơ bản để sử dụng AWS SDK nhằm tạo hình ảnh mới và thực hiện các chỉnh sửa do AI cung cấp trên hình ảnh hiện có. Các ví dụ về mã được cung cấp bằng Python và JavaScript (Node.js) cũng có sẵn trong này Kho GitHub.

Trước khi có thể viết tập lệnh sử dụng API Amazon Bedrock, bạn cần cài đặt phiên bản AWS SDK thích hợp trong môi trường của mình. Đối với các tập lệnh Python, bạn có thể sử dụng AWS SDK cho Python (Boto3). Người dùng Python cũng có thể muốn cài đặt Mô-đun gối, tạo điều kiện thuận lợi cho các hoạt động hình ảnh như tải và lưu hình ảnh. Để biết hướng dẫn thiết lập, hãy tham khảo Kho GitHub.

Ngoài ra, hãy cho phép truy cập vào các mô hình Amazon Titan Image Generator và Titan Multimodal Embeddings. Để biết thêm thông tin, hãy tham khảo Truy cập mô hình.

Chức năng trợ giúp

Hàm sau đây thiết lập ứng dụng khách thời gian chạy Amazon Bedrock Boto3 và tạo hình ảnh bằng cách lấy tải trọng có các cấu hình khác nhau (chúng ta sẽ thảo luận sau trong bài đăng này):

import boto3
import json, base64, io
from random import randint
from PIL import Image bedrock_runtime_client = boto3.client("bedrock-runtime") def titan_image( payload: dict, num_image: int = 2, cfg: float = 10.0, seed: int = None, modelId: str = "amazon.titan-image-generator-v1",
) -> list: # ImageGenerationConfig Options: # - numberOfImages: Number of images to be generated # - quality: Quality of generated images, can be standard or premium # - height: Height of output image(s) # - width: Width of output image(s) # - cfgScale: Scale for classifier-free guidance # - seed: The seed to use for reproducibility seed = seed if seed is not None else randint(0, 214783647) body = json.dumps( { **payload, "imageGenerationConfig": { "numberOfImages": num_image, # Range: 1 to 5 "quality": "premium", # Options: standard/premium "height": 1024, # Supported height list above "width": 1024, # Supported width list above "cfgScale": cfg, # Range: 1.0 (exclusive) to 10.0 "seed": seed, # Range: 0 to 214783647 }, } ) response = bedrock_runtime_client.invoke_model( body=body, modelId=modelId, accept="application/json", contentType="application/json", ) response_body = json.loads(response.get("body").read()) images = [ Image.open(io.BytesIO(base64.b64decode(base64_image))) for base64_image in response_body.get("images") ] return images

Tạo hình ảnh từ văn bản

Các tập lệnh tạo hình ảnh mới từ lời nhắc văn bản sẽ tuân theo mẫu triển khai sau:

Định cấu hình lời nhắc văn bản và lời nhắc văn bản phủ định tùy chọn.
Sử dụng BedrockRuntime client để gọi mô hình Titan Image Generator.
Phân tích và giải mã phản hồi.
Lưu hình ảnh kết quả vào đĩa.

chuyển văn bản thành hình ảnh

Sau đây là tập lệnh tạo hình ảnh điển hình cho mô hình Titan Image Generator:

# Text Variation
# textToImageParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "negativeText": "cars", # Optional }, }
)

Điều này sẽ tạo ra hình ảnh tương tự như sau.

Hình ảnh phản hồi 1	Hình ảnh phản hồi 2

Các biến thể hình ảnh

Biến thể hình ảnh cung cấp một cách để tạo ra các biến thể tinh tế của hình ảnh hiện có. Đoạn mã sau sử dụng một trong các hình ảnh được tạo trong ví dụ trước để tạo các hình ảnh biến thể:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Image Variation
# ImageVariationParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
#   images: base64 string representation of the input image, only 1 is supported
images = titan_image( { "taskType": "IMAGE_VARIATION", "imageVariationParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "images": [input_image], # One image is required "negativeText": "cars", # Optional }, },
)

Điều này sẽ tạo ra hình ảnh tương tự như sau.

Ảnh gốc	Hình ảnh phản hồi 1	Hình ảnh phản hồi 2

Chỉnh sửa hình ảnh hiện có

Mô hình Titan Image Generator cho phép bạn thêm, xóa hoặc thay thế các thành phần hoặc vùng trong hình ảnh hiện có. Bạn chỉ định khu vực nào sẽ bị ảnh hưởng bằng cách cung cấp một trong những thông tin sau:

Hình ảnh mặt nạ – Hình ảnh mặt nạ là hình ảnh nhị phân trong đó các pixel có giá trị 0 biểu thị vùng bạn muốn tác động và các pixel có giá trị 255 biểu thị vùng không thay đổi.
Lời nhắc về mặt nạ – Lời nhắc mặt nạ là mô tả văn bản bằng ngôn ngữ tự nhiên của các thành phần bạn muốn tác động, sử dụng mô hình chuyển văn bản thành phân đoạn nội bộ.

Để biết thêm thông tin, tham khảo Hướng dẫn kỹ thuật nhanh chóng.

Các tập lệnh áp dụng chỉnh sửa cho hình ảnh tuân theo mẫu triển khai sau:

Tải hình ảnh cần chỉnh sửa từ đĩa.
Chuyển đổi hình ảnh thành chuỗi được mã hóa base64.
Định cấu hình mặt nạ thông qua một trong các phương pháp sau:
1. Tải hình ảnh mặt nạ từ đĩa, mã hóa nó thành base64 và đặt nó làm maskImage tham số.
2. Đặt maskText tham số cho một mô tả văn bản của các yếu tố ảnh hưởng.
Chỉ định nội dung mới sẽ được tạo bằng một trong các tùy chọn sau:
1. Để thêm hoặc thay thế một phần tử, hãy đặt text tham số cho phần mô tả nội dung mới.
2. Để loại bỏ một phần tử, hãy bỏ qua text tham số hoàn toàn.
Sử dụng BedrockRuntime client để gọi mô hình Titan Image Generator.
Phân tích và giải mã phản hồi.
Lưu hình ảnh kết quả vào đĩa.

Chỉnh sửa đối tượng: Inpainting bằng hình ảnh mặt nạ

Sau đây là tập lệnh chỉnh sửa hình ảnh điển hình cho mô hình Titan Image Generator bằng cách sử dụng maskImage. Chúng tôi lấy một trong những hình ảnh được tạo trước đó và cung cấp hình ảnh mặt nạ, trong đó các pixel có giá trị 0 được hiển thị dưới dạng màu đen và các pixel có giá trị 255 được hiển thị dưới dạng màu trắng. Chúng tôi cũng thay thế một trong những con chó trong ảnh bằng một con mèo bằng lời nhắc văn bản.

with open("<YOUR_MASK_IMAGE_FILE_PATH>", "rb") as image_file: mask_image = base64.b64encode(image_file.read()).decode("utf8") # Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_ORIGINAL_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Inpainting
# inPaintingParams Options:
#   text: prompt to guide inpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "text": "a cat", # Optional "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskImage": mask_image, }, }, num_image=3,
)

Điều này sẽ tạo ra hình ảnh tương tự như sau.

Ảnh gốc	Hình ảnh mặt nạ	Hình ảnh đã chỉnh sửa

Loại bỏ đối tượng: Inpainting bằng lời nhắc mặt nạ

Trong một ví dụ khác, chúng tôi sử dụng maskPrompt để chỉ định một đối tượng trong ảnh, được lấy từ các bước trước đó, để chỉnh sửa. Bằng cách bỏ qua lời nhắc văn bản, đối tượng sẽ bị xóa:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskPrompt": "white dog", # One of "maskImage" or "maskPrompt" is required }, },
)

Điều này sẽ tạo ra hình ảnh tương tự như sau.

Ảnh gốc	Hình ảnh phản hồi

Chỉnh sửa nền: Outpainting

Outpainting rất hữu ích khi bạn muốn thay thế nền của hình ảnh. Bạn cũng có thể mở rộng giới hạn của hình ảnh để có hiệu ứng thu nhỏ. Trong tập lệnh ví dụ sau, chúng tôi sử dụng maskPrompt để chỉ định đối tượng nào cần giữ; bạn cũng có thể dùng maskImage. Thông số outPaintingMode chỉ định xem có cho phép sửa đổi các pixel bên trong mặt nạ hay không. Nếu đặt là DEFAULT, các pixel bên trong mặt nạ được phép sửa đổi để hình ảnh được tái tạo sẽ nhất quán về tổng thể. Tùy chọn này được khuyến nghị nếu maskImage được cung cấp không đại diện cho đối tượng với độ chính xác ở mức pixel. Nếu đặt là PRECISE, việc sửa đổi các pixel bên trong mặt nạ sẽ bị ngăn chặn. Tùy chọn này được khuyên dùng nếu sử dụng maskPrompt hoặc một maskImage đại diện cho đối tượng với độ chính xác ở mức pixel.

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # OutPaintingParams Options:
#   text: prompt to guide outpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask
#   outPaintingMode: DEFAULT | PRECISE
images = titan_image( { "taskType": "OUTPAINTING", "outPaintingParams": { "text": "forest", # Required "image": input_image, # Required "maskPrompt": "dogs", # One of "maskImage" or "maskPrompt" is required "outPaintingMode": "PRECISE", # One of "PRECISE" or "DEFAULT" }, }, num_image=3,
)

Điều này sẽ tạo ra hình ảnh tương tự như sau.

Ảnh gốc	bản văn	Hình ảnh phản hồi
	"bãi biển"
	"rừng"

Ngoài ra, ảnh hưởng của các giá trị khác nhau đối với outPaintingMode, Với một maskImage không phác thảo đối tượng với độ chính xác ở mức pixel như sau.

Phần này đã cung cấp cho bạn cái nhìn tổng quan về các thao tác bạn có thể thực hiện với mô hình Titan Image Generator. Cụ thể, các tập lệnh này thể hiện các tác vụ chuyển văn bản thành hình ảnh, biến thể hình ảnh, inpainting và outpainting. Bạn sẽ có thể điều chỉnh các mẫu cho ứng dụng của riêng mình bằng cách tham khảo chi tiết tham số cho các loại tác vụ đó được nêu chi tiết trong Tài liệu về Trình tạo hình ảnh Amazon Titan.

Nhúng và tìm kiếm đa phương thức

Bạn có thể sử dụng mô hình Nhúng đa phương thức Amazon Titan cho các tác vụ của doanh nghiệp như tìm kiếm hình ảnh và đề xuất dựa trên sự tương đồng, đồng thời mô hình này có tính năng giảm thiểu tích hợp giúp giảm sai lệch trong kết quả tìm kiếm. Có nhiều kích thước kích thước nhúng để cân bằng độ trễ/độ chính xác tốt nhất cho các nhu cầu khác nhau và tất cả đều có thể được tùy chỉnh bằng một API đơn giản để thích ứng với dữ liệu của riêng bạn trong khi vẫn duy trì bảo mật và quyền riêng tư dữ liệu. Amazon Titan Multimodal Embeddings được cung cấp dưới dạng các API đơn giản cho các ứng dụng đề xuất và tìm kiếm chuyển đổi hàng loạt theo thời gian thực hoặc không đồng bộ, đồng thời có thể kết nối với các cơ sở dữ liệu vectơ khác nhau, bao gồm Dịch vụ Tìm kiếm Mở của Amazon.

Chức năng trợ giúp

Hàm sau chuyển đổi hình ảnh và văn bản tùy chọn thành các phần nhúng đa phương thức:

def titan_multimodal_embedding( image_path: str = None, # maximum 2048 x 2048 pixels description: str = None, # English only and max input tokens 128 dimension: int = 1024, # 1,024 (default), 384, 256 model_id: str = "amazon.titan-embed-image-v1",
): payload_body = {} embedding_config: dict = {"embeddingConfig": {"outputEmbeddingLength": dimension}} # You can specify either text or image or both if image_path: # Maximum image size supported is 2048 x 2048 pixels with open(image_path, "rb") as image_file: payload_body["inputImage"] = base64.b64encode(image_file.read()).decode( "utf8" ) if description: payload_body["inputText"] = description assert payload_body, "please provide either an image and/or a text description" print("n".join(payload_body.keys())) response = bedrock_runtime_client.invoke_model( body=json.dumps({**payload_body, **embedding_config}), modelId=model_id, accept="application/json", contentType="application/json", ) return json.loads(response.get("body").read())

Hàm sau trả về các phần nhúng đa phương thức tương tự hàng đầu dựa trên các phần nhúng đa phương thức truy vấn. Lưu ý rằng trong thực tế, bạn có thể sử dụng cơ sở dữ liệu vectơ được quản lý, chẳng hạn như Dịch vụ OpenSearch. Ví dụ sau đây nhằm mục đích minh họa:

from scipy.spatial.distance import cdist
import numpy as np def search(query_emb: np.array, indexes: np.array, top_k: int = 1): dist = cdist(query_emb, indexes, metric="cosine") return dist.argsort(axis=-1)[0, :top_k], np.sort(dist, axis=-1)[:top_k]

Tập dữ liệu tổng hợp

Với mục đích minh họa, chúng tôi sử dụng Mô hình Claude 2.1 của Anthropic trên Amazon Bedrock để tạo ngẫu nhiên bảy sản phẩm khác nhau, mỗi sản phẩm có ba biến thể, sử dụng lời nhắc sau:

Generate a list of 7 items description for an online e-commerce shop, each comes with 3 variants of color or type. All with separate full sentence description.

Sau đây là danh sách các kết quả đầu ra được trả về:

1. T-shirt
- A red cotton t-shirt with a crew neck and short sleeves.
- A blue cotton t-shirt with a v-neck and short sleeves.
- A black polyester t-shirt with a scoop neck and cap sleeves. 2. Jeans
- Classic blue relaxed fit denim jeans with a mid-rise waist.
- Black skinny fit denim jeans with a high-rise waist and ripped details at the knees.
- Stonewash straight leg denim jeans with a standard waist and front pockets. 3. Sneakers
- White leather low-top sneakers with an almond toe cap and thick rubber outsole.
- Gray mesh high-top sneakers with neon green laces and a padded ankle collar.
- Tan suede mid-top sneakers with a round toe and ivory rubber cupsole. 4. Backpack
- A purple nylon backpack with padded shoulder straps, front zipper pocket and laptop sleeve.
- A gray canvas backpack with brown leather trims, side water bottle pockets and drawstring top closure.
- A black leather backpack with multiple interior pockets, top carry handle and adjustable padded straps. 5. Smartwatch
- A silver stainless steel smartwatch with heart rate monitor, GPS tracker and sleep analysis.
- A space gray aluminum smartwatch with step counter, phone notifications and calendar syncing.
- A rose gold smartwatch with activity tracking, music controls and customizable watch faces. 6. Coffee maker
- A 12-cup programmable coffee maker in brushed steel with removable water tank and keep warm plate.
- A compact 5-cup single serve coffee maker in matt black with travel mug auto-dispensing feature.
- A retro style stovetop percolator coffee pot in speckled enamel with stay-cool handle and glass knob lid. 7. Yoga mat
- A teal 4mm thick yoga mat made of natural tree rubber with moisture-wicking microfiber top.
- A purple 6mm thick yoga mat made of eco-friendly TPE material with integrated carrying strap.
- A patterned 5mm thick yoga mat made of PVC-free material with towel cover included.

Gán phản hồi trên cho biến response_cat. Sau đó chúng ta sử dụng mô hình Titan Image Generator để tạo hình ảnh sản phẩm cho từng mặt hàng:

import re def extract_text(input_string): pattern = r"- (.*?)($|n)" matches = re.findall(pattern, input_string) extracted_texts = [match[0] for match in matches] return extracted_texts product_description = extract_text(response_cat) titles = []
for prompt in product_description: images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": prompt, # Required }, }, num_image=1, ) title = "_".join(prompt.split()[:4]).lower() titles.append(title) images[0].save(f"{title}.png", format="png")

Tất cả các hình ảnh được tạo có thể được tìm thấy trong phần phụ lục ở cuối bài này.

Lập chỉ mục tập dữ liệu đa phương thức

Sử dụng mã sau đây để lập chỉ mục tập dữ liệu đa phương thức:

multimodal_embeddings = []
for image_filename, description in zip(titles, product_description): embedding = titan_multimodal_embedding(f"{image_filename}.png", dimension=1024)["embedding"] multimodal_embeddings.append(embedding)

Tìm kiếm đa phương thức

Sử dụng đoạn mã sau để tìm kiếm đa phương thức:

query_prompt = "<YOUR_QUERY_TEXT>"
query_embedding = titan_multimodal_embedding(description=query_prompt, dimension=1024)["embedding"]
# If searching via Image
# query_image_filename = "<YOUR_QUERY_IMAGE>"
# query_emb = titan_multimodal_embedding(image_path=query_image_filename, dimension=1024)["embedding"]
idx_returned, dist = search(np.array(query_embedding)[None], np.array(multimodal_embeddings))

Sau đây là một số kết quả tìm kiếm.

Kết luận

Bài đăng giới thiệu các mô hình Amazon Titan Image Generator và Amazon Titan Multimodal Embeddings. Titan Image Generator cho phép bạn tạo hình ảnh tùy chỉnh, chất lượng cao từ lời nhắc văn bản. Các tính năng chính bao gồm lặp lại lời nhắc, chỉnh sửa nền tự động và tùy chỉnh dữ liệu. Nó có các biện pháp bảo vệ như hình mờ vô hình để khuyến khích việc sử dụng có trách nhiệm. Titan Multimodal Embeddings chuyển đổi văn bản, hình ảnh hoặc cả hai thành vectơ ngữ nghĩa để hỗ trợ tìm kiếm và đề xuất chính xác. Sau đó, chúng tôi đã cung cấp các mẫu mã Python để sử dụng các dịch vụ này và trình diễn việc tạo hình ảnh từ lời nhắc văn bản và lặp lại trên các hình ảnh đó; chỉnh sửa hình ảnh hiện có bằng cách thêm, xóa hoặc thay thế các phần tử được chỉ định bởi hình ảnh mặt nạ hoặc văn bản mặt nạ; tạo các phần nhúng đa phương thức từ văn bản, hình ảnh hoặc cả hai; và tìm kiếm các phần nhúng đa phương thức tương tự cho một truy vấn. Chúng tôi cũng đã trình diễn việc sử dụng tập dữ liệu thương mại điện tử tổng hợp được lập chỉ mục và tìm kiếm bằng cách sử dụng Titan Multimodal Embeddings. Mục đích của bài đăng này là cho phép các nhà phát triển bắt đầu sử dụng các dịch vụ AI mới này trong ứng dụng của họ. Các mẫu mã có thể dùng làm mẫu để triển khai tùy chỉnh.

Tất cả các mã có sẵn trên Kho GitHub. Để biết thêm thông tin, hãy tham khảo Hướng dẫn sử dụng Amazon Bedrock.

Về các tác giả

Rohit Mittal là Giám đốc sản phẩm chính tại Amazon AI xây dựng các mô hình nền tảng đa phương thức. Gần đây ông đã chủ trì buổi ra mắt mô hình Amazon Titan Image Generator như một phần của dịch vụ Amazon Bedrock. Có kinh nghiệm về AI/ML, NLP và Tìm kiếm, anh ấy quan tâm đến việc xây dựng các sản phẩm giải quyết được những khó khăn của khách hàng bằng công nghệ tiên tiến.

Tiến sĩ Ashwin Swaminathan là nhà nghiên cứu, kỹ sư và quản lý về Thị giác Máy tính và Máy học với hơn 12 năm kinh nghiệm trong ngành và hơn 5 năm kinh nghiệm nghiên cứu học thuật. Nền tảng cơ bản vững chắc và khả năng đã được chứng minh để nhanh chóng thu thập kiến thức và đóng góp cho các lĩnh vực mới hơn và mới nổi.

Tiến sĩ Yusheng Xie là Nhà khoa học ứng dụng chính tại Amazon AGI. Công việc của ông tập trung vào việc xây dựng các mô hình nền tảng đa phương thức. Trước khi gia nhập AGI, ông đã lãnh đạo nhiều hoạt động phát triển AI đa phương thức tại AWS như Amazon Titan Image Generator và Amazon Textract Queries.

Tiến sĩ Hạo Dương là Nhà khoa học ứng dụng chính tại Amazon. Mối quan tâm nghiên cứu chính của ông là phát hiện đối tượng và học tập với các chú thích hạn chế. Ngoài công việc, Hảo thích xem phim, chụp ảnh và tham gia các hoạt động ngoài trời.

Tiến sĩ Davide Modolo là Giám đốc khoa học ứng dụng tại Amazon AGI, làm việc trong việc xây dựng các mô hình nền tảng đa phương thức lớn. Trước khi gia nhập Amazon AGI, anh là người quản lý/lãnh đạo trong 7 năm tại AWS AI Labs (Amazon Bedrock và Amazon Rekognition). Ngoài công việc, anh thích đi du lịch và chơi bất kỳ môn thể thao nào, đặc biệt là bóng đá.

Tiến sĩ Bạch Xuyên Tôn, hiện đang giữ chức vụ Kiến trúc sư giải pháp AI/ML cấp cao tại AWS, tập trung vào AI tổng quát và áp dụng kiến thức của mình về khoa học dữ liệu và học máy để cung cấp các giải pháp kinh doanh thực tế, dựa trên đám mây. Với kinh nghiệm trong lĩnh vực tư vấn quản lý và kiến trúc giải pháp AI, ông giải quyết một loạt thách thức phức tạp, bao gồm tầm nhìn máy tính của robot, dự báo chuỗi thời gian và bảo trì dự đoán, cùng nhiều thách thức khác. Công việc của ông dựa trên nền tảng vững chắc về quản lý dự án, R&D phần mềm và theo đuổi học thuật. Ngoài công việc, Tiến sĩ Sun thích sự cân bằng giữa việc đi du lịch và dành thời gian cho gia đình và bạn bè.

Tiến sĩ Kai Zhu hiện đang làm Kỹ sư hỗ trợ đám mây tại AWS, giúp đỡ khách hàng giải quyết các vấn đề về các dịch vụ liên quan đến AI/ML như SageMaker, Bedrock, v.v. Anh ấy là Chuyên gia về chủ đề của SageMaker. Có kinh nghiệm về khoa học dữ liệu và kỹ thuật dữ liệu, anh ấy quan tâm đến việc xây dựng các dự án có tính sáng tạo dựa trên AI.

Kris Schultz đã dành hơn 25 năm để mang lại trải nghiệm hấp dẫn cho người dùng bằng cách kết hợp các công nghệ mới nổi với thiết kế đẳng cấp thế giới. Với vai trò là Giám đốc sản phẩm cấp cao, Kris giúp thiết kế và xây dựng các dịch vụ AWS để hỗ trợ Truyền thông & Giải trí, Trò chơi và Điện toán không gian.

Phụ lục

Trong các phần sau, chúng tôi trình bày các trường hợp sử dụng mẫu đầy thách thức như chèn văn bản, bàn tay và phản chiếu để làm nổi bật các khả năng của mô hình Trình tạo hình ảnh Titan. Chúng tôi cũng bao gồm các hình ảnh đầu ra mẫu được tạo trong các ví dụ trước đó.

bản văn

Mô hình Titan Image Generator vượt trội trong các quy trình công việc phức tạp như chèn văn bản có thể đọc được vào hình ảnh. Ví dụ này thể hiện khả năng của Titan trong việc hiển thị rõ ràng chữ hoa và chữ thường theo kiểu nhất quán trong một hình ảnh.

một chú chó corgi đội mũ bóng chày có dòng chữ “genai”	một cậu bé vui vẻ giơ ngón tay cái lên, mặc áo phông có dòng chữ “generative AI”

Tay bài

Mô hình Titan Image Generator còn có khả năng tạo ra hình ảnh AI chi tiết. Hình ảnh hiển thị bàn tay và ngón tay thực tế với chi tiết rõ ràng, vượt xa việc tạo hình ảnh AI cơ bản hơn có thể thiếu tính đặc hiệu như vậy. Trong các ví dụ sau, hãy chú ý mô tả chính xác về tư thế và giải phẫu.

bàn tay của một người nhìn từ trên cao	một cái nhìn cận cảnh về bàn tay của một người đang cầm cốc cà phê

Gương

Các hình ảnh do mô hình Titan Image Generator tạo ra sắp xếp các đối tượng theo không gian và phản ánh chính xác các hiệu ứng phản chiếu, như được minh họa trong các ví dụ sau.

Một con mèo trắng lông xù dễ thương đứng bằng hai chân sau, tò mò nhìn vào chiếc gương vàng trang trí công phu. Trong hình ảnh phản chiếu con mèo nhìn thấy chính nó	hồ trời tuyệt đẹp với sự phản chiếu trên mặt nước