از مدل های آمازون تایتان برای تولید، ویرایش و جستجوی تصویر استفاده کنید

بازنشر افلاطون

دنبال: 0

بستر آمازون طیف گسترده‌ای از مدل‌های پایه با کارایی بالا را از آمازون و سایر شرکت‌های پیشرو هوش مصنوعی از جمله ارائه می‌کند آنتروپیک, AI21, متا, منسجمو هوش مصنوعی پایداریو طیف وسیعی از موارد استفاده، از جمله تولید متن و تصویر، جستجو، چت، استدلال و عوامل بازیگری و غیره را پوشش می‌دهد. جدید مولد تصویر آمازون تایتان مدل به سازندگان محتوا اجازه می دهد تا با استفاده از دستورات متنی ساده انگلیسی، به سرعت تصاویر با کیفیت بالا و واقعی تولید کنند. مدل پیشرفته هوش مصنوعی دستورالعمل‌های پیچیده را با چندین شیء درک می‌کند و تصاویر با کیفیت استودیو مناسب را برمی‌گرداند تبلیغات، تجارت الکترونیک و سرگرمی. ویژگی‌های کلیدی شامل توانایی اصلاح تصاویر با تکرار در دستورات، ویرایش خودکار پس‌زمینه، و ایجاد تغییرات متعدد از یک صحنه است. سازندگان همچنین می‌توانند مدل را با داده‌های خود سفارشی کنند تا تصاویر برند را به سبک خاصی تولید کنند. نکته مهم این است که Titan Image Generator دارای محافظ های داخلی است، مانند واترمارک های نامرئی در تمام تصاویر تولید شده توسط هوش مصنوعی، برای تشویق استفاده مسئولانه و از انتشار اطلاعات نادرست بکاهند. این فناوری نوآورانه باعث تولید تصاویر سفارشی در حجم زیاد می شود هر صنعتی در دسترس تر و کارآمدتر است.

جدید آمازون Titan Multimodal Embeddings مدل به ایجاد جستجو و توصیه های دقیق تر با درک متن، تصاویر یا هر دو کمک می کند. این تصاویر و متن انگلیسی را به بردارهای معنایی تبدیل می کند و معنا و روابط را در داده های شما ثبت می کند. می توانید متن و تصاویری مانند توضیحات محصول و عکس ها را با هم ترکیب کنید تا موارد را به طور موثرتری شناسایی کنید. بردارها به تجارب جستجوی سریع و دقیق کمک می کنند. Titan Multimodal Embeddings در ابعاد برداری انعطاف‌پذیر است و بهینه‌سازی را برای نیازهای عملکرد ممکن می‌سازد. یک API ناهمزمان و سرویس جستجوی باز آمازون اتصال دهنده، ادغام مدل را در برنامه های جستجوی عصبی شما آسان می کند.

در این پست، نحوه استفاده از Titan Image Generator و Titan Multimodal Embeddings را از طریق AWS Python SDK توضیح می دهیم.

تولید و ویرایش تصویر

در این بخش، الگوهای کدگذاری اولیه برای استفاده از AWS SDK برای تولید تصاویر جدید و انجام ویرایش‌های مبتنی بر هوش مصنوعی بر روی تصاویر موجود را نشان می‌دهیم. نمونه کد در پایتون ارائه شده است و جاوا اسکریپت (Node.js) نیز در این موجود است مخزن GitHub.

قبل از اینکه بتوانید اسکریپت هایی بنویسید که از Amazon Bedrock API استفاده می کنند، باید نسخه مناسب AWS SDK را در محیط خود نصب کنید. برای اسکریپت های پایتون، می توانید از AWS SDK برای پایتون (Boto3). کاربران پایتون نیز ممکن است بخواهند آن را نصب کنند ماژول بالش، که عملیات تصویر مانند بارگیری و ذخیره تصاویر را تسهیل می کند. برای دستورالعمل های راه اندازی، به مخزن GitHub.

علاوه بر این، دسترسی به آمازون Titan Image Generator و Titan Multimodal Embeddings را فعال کنید. برای اطلاعات بیشتر مراجعه کنید دسترسی مدل.

توابع کمکی

تابع زیر کلاینت زمان اجرا Amazon Bedrock Boto3 را تنظیم می کند و با گرفتن بارهایی با پیکربندی های مختلف (که در ادامه در این پست به آن خواهیم پرداخت) تصاویر تولید می کند:

import boto3
import json, base64, io
from random import randint
from PIL import Image bedrock_runtime_client = boto3.client("bedrock-runtime") def titan_image( payload: dict, num_image: int = 2, cfg: float = 10.0, seed: int = None, modelId: str = "amazon.titan-image-generator-v1",
) -> list: # ImageGenerationConfig Options: # - numberOfImages: Number of images to be generated # - quality: Quality of generated images, can be standard or premium # - height: Height of output image(s) # - width: Width of output image(s) # - cfgScale: Scale for classifier-free guidance # - seed: The seed to use for reproducibility seed = seed if seed is not None else randint(0, 214783647) body = json.dumps( { **payload, "imageGenerationConfig": { "numberOfImages": num_image, # Range: 1 to 5 "quality": "premium", # Options: standard/premium "height": 1024, # Supported height list above "width": 1024, # Supported width list above "cfgScale": cfg, # Range: 1.0 (exclusive) to 10.0 "seed": seed, # Range: 0 to 214783647 }, } ) response = bedrock_runtime_client.invoke_model( body=body, modelId=modelId, accept="application/json", contentType="application/json", ) response_body = json.loads(response.get("body").read()) images = [ Image.open(io.BytesIO(base64.b64decode(base64_image))) for base64_image in response_body.get("images") ] return images

تولید تصاویر از متن

اسکریپت هایی که یک تصویر جدید از یک دستور متنی تولید می کنند از این الگوی پیاده سازی پیروی می کنند:

یک اعلان متنی و پیام متنی منفی اختیاری را پیکربندی کنید.
استفاده از BedrockRuntime مشتری برای فراخوانی مدل Titan Image Generator.
پاسخ را تجزیه و رمزگشایی کنید.
تصاویر به دست آمده را روی دیسک ذخیره کنید.

متن به تصویر

زیر یک اسکریپت تولید تصویر معمولی برای مدل Titan Image Generator است:

# Text Variation
# textToImageParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "negativeText": "cars", # Optional }, }
)

با این کار تصاویری مشابه تصویر زیر تولید می شود.

تصویر پاسخ 1	تصویر پاسخ 2

انواع تصویر

تنوع تصویر راهی برای تولید انواع ظریف از یک تصویر موجود فراهم می کند. قطعه کد زیر از یکی از تصاویر تولید شده در مثال قبلی برای ایجاد تصاویر متفاوت استفاده می کند:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Image Variation
# ImageVariationParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
#   images: base64 string representation of the input image, only 1 is supported
images = titan_image( { "taskType": "IMAGE_VARIATION", "imageVariationParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "images": [input_image], # One image is required "negativeText": "cars", # Optional }, },
)

با این کار تصاویری مشابه تصویر زیر تولید می شود.

تصویر اصلی	تصویر پاسخ 1	تصویر پاسخ 2

یک تصویر موجود را ویرایش کنید

مدل Titan Image Generator به شما این امکان را می دهد که عناصر یا مناطقی را در یک تصویر موجود اضافه، حذف یا جایگزین کنید. با ارائه یکی از موارد زیر مشخص می‌کنید که کدام ناحیه را تحت تأثیر قرار دهید:

تصویر ماسک – تصویر ماسک یک تصویر باینری است که در آن پیکسل‌های 0 نشان‌دهنده ناحیه‌ای هستند که می‌خواهید روی آن تأثیر بگذارید و پیکسل‌های 255 مقدار، ناحیه‌ای را نشان می‌دهند که باید بدون تغییر باقی بماند.
اعلان ماسک - دستور ماسک یک توصیف متنی به زبان طبیعی از عناصری است که می‌خواهید بر آن تأثیر بگذارید، که از یک مدل متن به بخش‌بندی داخلی استفاده می‌کند.

برای اطلاعات بیشتر به مراجعه کنید دستورالعمل های مهندسی سریع.

اسکریپت هایی که ویرایش را روی یک تصویر اعمال می کنند از این الگوی پیاده سازی پیروی می کنند:

تصویر مورد نظر برای ویرایش را از دیسک بارگیری کنید.
تصویر را به رشته ای با کد base64 تبدیل کنید.
ماسک را با یکی از روش های زیر پیکربندی کنید:
1. یک تصویر ماسک را از دیسک بارگیری کنید، آن را به عنوان base64 رمزگذاری کنید و آن را به عنوان تنظیم کنید maskImage پارامتر.
2. تنظیم کنید maskText پارامتر به یک توصیف متنی از عناصر برای تأثیرگذاری.
با استفاده از یکی از گزینه های زیر محتوای جدیدی را که باید تولید شود مشخص کنید:
1. برای افزودن یا جایگزینی یک عنصر، تنظیم کنید text پارامتر برای توصیف محتوای جدید.
2. برای حذف یک عنصر، آن را حذف کنید text پارامتر به طور کامل
استفاده از BedrockRuntime مشتری برای فراخوانی مدل Titan Image Generator.
پاسخ را تجزیه و رمزگشایی کنید.
تصاویر به دست آمده را روی دیسک ذخیره کنید.

ویرایش شی: نقاشی با تصویر ماسک

زیر یک اسکریپت ویرایش تصویر معمولی برای مدل Titan Image Generator با استفاده از آن است maskImage. یکی از تصاویر تولید شده قبلی را می گیریم و یک تصویر ماسک ارائه می دهیم، که در آن پیکسل های 0 مقدار به صورت سیاه و پیکسل های 255 مقدار به صورت سفید ارائه می شوند. ما همچنین با استفاده از یک پیام متنی، یکی از سگ های موجود در تصویر را با یک گربه جایگزین می کنیم.

with open("<YOUR_MASK_IMAGE_FILE_PATH>", "rb") as image_file: mask_image = base64.b64encode(image_file.read()).decode("utf8") # Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_ORIGINAL_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Inpainting
# inPaintingParams Options:
#   text: prompt to guide inpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "text": "a cat", # Optional "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskImage": mask_image, }, }, num_image=3,
)

با این کار تصاویری مشابه تصویر زیر تولید می شود.

تصویر اصلی	تصویر ماسک	تصویر ویرایش شده

حذف شی: نقاشی با یک دستور ماسک

در مثالی دیگر استفاده می کنیم maskPrompt برای تعیین یک شی در تصویر، برگرفته از مراحل قبلی، برای ویرایش. با حذف دستور متن، شی حذف خواهد شد:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskPrompt": "white dog", # One of "maskImage" or "maskPrompt" is required }, },
)

با این کار تصاویری مشابه تصویر زیر تولید می شود.

تصویر اصلی	تصویر پاسخ

ویرایش پس‌زمینه: نقاشی بیرونی

وقتی می خواهید پس زمینه یک تصویر را جایگزین کنید، نقاشی بیرونی مفید است. همچنین می‌توانید محدوده یک تصویر را برای جلوه‌های کوچک‌نمایی گسترش دهید. در مثال زیر از اسکریپت استفاده می کنیم maskPrompt برای تعیین اینکه کدام شی را نگه دارید. شما همچنین می توانید استفاده کنید maskImage. پارامتر outPaintingMode مشخص می کند که آیا اجازه تغییر پیکسل های داخل ماسک را می دهد یا خیر. اگر به عنوان تنظیم شود DEFAULT، پیکسل های داخل ماسک مجاز به تغییر هستند تا تصویر بازسازی شده به طور کلی سازگار باشد. این گزینه در صورتی توصیه می شود که maskImage ارائه شده، شی را با دقت در سطح پیکسل نشان نمی دهد. اگر به عنوان تنظیم شود PRECISEاز تغییر پیکسل های داخل ماسک جلوگیری می شود. این گزینه در صورت استفاده از a توصیه می شود maskPrompt یا یک maskImage که شی را با دقت در سطح پیکسل نشان می دهد.

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # OutPaintingParams Options:
#   text: prompt to guide outpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask
#   outPaintingMode: DEFAULT | PRECISE
images = titan_image( { "taskType": "OUTPAINTING", "outPaintingParams": { "text": "forest", # Required "image": input_image, # Required "maskPrompt": "dogs", # One of "maskImage" or "maskPrompt" is required "outPaintingMode": "PRECISE", # One of "PRECISE" or "DEFAULT" }, }, num_image=3,
)

با این کار تصاویری مشابه تصویر زیر تولید می شود.

تصویر اصلی	متن	تصویر پاسخ
	"ساحل دریا"
	"جنگل"

علاوه بر این، اثرات مقادیر مختلف برای outPaintingMode، با maskImage که شی را با دقت در سطح پیکسل ترسیم نمی کند، به شرح زیر است.

این بخش به شما یک نمای کلی از عملیاتی که می توانید با مدل Titan Image Generator انجام دهید، ارائه کرده است. به طور خاص، این اسکریپت ها وظایف متن به تصویر، تنوع تصویر، نقاشی داخلی و نقاشی بیرونی را نشان می دهند. شما باید بتوانید با ارجاع به جزئیات پارامتر برای آن دسته از وظایف که به تفصیل در مستندات آمازون Titan Image Generator.

تعبیه و جستجو چندوجهی

می‌توانید از مدل آمازون Titan Multimodal Embeddings برای کارهای سازمانی مانند جستجوی تصویر و توصیه‌های مبتنی بر شباهت استفاده کنید، و دارای کاهش‌های داخلی است که به کاهش تعصب در نتایج جستجو کمک می‌کند. چندین اندازه ابعاد تعبیه‌شده برای بهترین معاوضه تأخیر/دقت برای نیازهای مختلف وجود دارد، و همه را می‌توان با یک API ساده برای تطبیق با داده‌های خود و در عین حال حفظ امنیت و حریم خصوصی داده‌ها، سفارشی کرد. آمازون Titan Multimodal Embeddings به عنوان APIهای ساده برای برنامه های جستجو و توصیه تبدیل دسته ای بلادرنگ یا ناهمزمان ارائه می شود و می تواند به پایگاه های داده برداری مختلف از جمله متصل شود. سرویس جستجوی باز آمازون.

توابع کمکی

تابع زیر یک تصویر و در صورت تمایل متن را به تعبیه‌های چندوجهی تبدیل می‌کند:

def titan_multimodal_embedding( image_path: str = None, # maximum 2048 x 2048 pixels description: str = None, # English only and max input tokens 128 dimension: int = 1024, # 1,024 (default), 384, 256 model_id: str = "amazon.titan-embed-image-v1",
): payload_body = {} embedding_config: dict = {"embeddingConfig": {"outputEmbeddingLength": dimension}} # You can specify either text or image or both if image_path: # Maximum image size supported is 2048 x 2048 pixels with open(image_path, "rb") as image_file: payload_body["inputImage"] = base64.b64encode(image_file.read()).decode( "utf8" ) if description: payload_body["inputText"] = description assert payload_body, "please provide either an image and/or a text description" print("n".join(payload_body.keys())) response = bedrock_runtime_client.invoke_model( body=json.dumps({**payload_body, **embedding_config}), modelId=model_id, accept="application/json", contentType="application/json", ) return json.loads(response.get("body").read())

تابع زیر، تعبیه‌های چندوجهی مشابه بالا را با توجه به پرس و جوی تعبیه‌های چندوجهی برمی‌گرداند. توجه داشته باشید که در عمل می توانید از یک پایگاه داده برداری مدیریت شده مانند OpenSearch Service استفاده کنید. مثال زیر برای مصورسازی است:

from scipy.spatial.distance import cdist
import numpy as np def search(query_emb: np.array, indexes: np.array, top_k: int = 1): dist = cdist(query_emb, indexes, metric="cosine") return dist.argsort(axis=-1)[0, :top_k], np.sort(dist, axis=-1)[:top_k]

مجموعه داده مصنوعی

برای اهداف تصویری، ما استفاده می کنیم مدل کلود 2.1 آنتروپیک در آمازون بستر برای تولید تصادفی هفت محصول مختلف، هر کدام با سه نوع، با استفاده از اعلان زیر:

Generate a list of 7 items description for an online e-commerce shop, each comes with 3 variants of color or type. All with separate full sentence description.

لیست خروجی های برگشتی به شرح زیر است:

1. T-shirt
- A red cotton t-shirt with a crew neck and short sleeves.
- A blue cotton t-shirt with a v-neck and short sleeves.
- A black polyester t-shirt with a scoop neck and cap sleeves. 2. Jeans
- Classic blue relaxed fit denim jeans with a mid-rise waist.
- Black skinny fit denim jeans with a high-rise waist and ripped details at the knees.
- Stonewash straight leg denim jeans with a standard waist and front pockets. 3. Sneakers
- White leather low-top sneakers with an almond toe cap and thick rubber outsole.
- Gray mesh high-top sneakers with neon green laces and a padded ankle collar.
- Tan suede mid-top sneakers with a round toe and ivory rubber cupsole. 4. Backpack
- A purple nylon backpack with padded shoulder straps, front zipper pocket and laptop sleeve.
- A gray canvas backpack with brown leather trims, side water bottle pockets and drawstring top closure.
- A black leather backpack with multiple interior pockets, top carry handle and adjustable padded straps. 5. Smartwatch
- A silver stainless steel smartwatch with heart rate monitor, GPS tracker and sleep analysis.
- A space gray aluminum smartwatch with step counter, phone notifications and calendar syncing.
- A rose gold smartwatch with activity tracking, music controls and customizable watch faces. 6. Coffee maker
- A 12-cup programmable coffee maker in brushed steel with removable water tank and keep warm plate.
- A compact 5-cup single serve coffee maker in matt black with travel mug auto-dispensing feature.
- A retro style stovetop percolator coffee pot in speckled enamel with stay-cool handle and glass knob lid. 7. Yoga mat
- A teal 4mm thick yoga mat made of natural tree rubber with moisture-wicking microfiber top.
- A purple 6mm thick yoga mat made of eco-friendly TPE material with integrated carrying strap.
- A patterned 5mm thick yoga mat made of PVC-free material with towel cover included.

پاسخ بالا را به متغیر اختصاص دهید response_cat. سپس از مدل Titan Image Generator برای ایجاد تصاویر محصول برای هر مورد استفاده می کنیم:

import re def extract_text(input_string): pattern = r"- (.*?)($|n)" matches = re.findall(pattern, input_string) extracted_texts = [match[0] for match in matches] return extracted_texts product_description = extract_text(response_cat) titles = []
for prompt in product_description: images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": prompt, # Required }, }, num_image=1, ) title = "_".join(prompt.split()[:4]).lower() titles.append(title) images[0].save(f"{title}.png", format="png")

تمامی تصاویر تولید شده را می توانید در ضمیمه انتهای این پست مشاهده کنید.

نمایه سازی مجموعه داده چندوجهی

برای نمایه سازی مجموعه داده چندوجهی از کد زیر استفاده کنید:

multimodal_embeddings = []
for image_filename, description in zip(titles, product_description): embedding = titan_multimodal_embedding(f"{image_filename}.png", dimension=1024)["embedding"] multimodal_embeddings.append(embedding)

جستجوی چندوجهی

برای جستجوی چند وجهی از کد زیر استفاده کنید:

query_prompt = "<YOUR_QUERY_TEXT>"
query_embedding = titan_multimodal_embedding(description=query_prompt, dimension=1024)["embedding"]
# If searching via Image
# query_image_filename = "<YOUR_QUERY_IMAGE>"
# query_emb = titan_multimodal_embedding(image_path=query_image_filename, dimension=1024)["embedding"]
idx_returned, dist = search(np.array(query_embedding)[None], np.array(multimodal_embeddings))

در زیر برخی از نتایج جستجو آمده است.

نتیجه

در این پست، آمازون تایتان تصویر ژنراتور و مدل‌های آمازون تایتان چند وجهی تعبیه شده‌اند. Titan Image Generator شما را قادر می سازد تا تصاویر سفارشی و با کیفیت بالا را از پیام های متنی ایجاد کنید. ویژگی های کلیدی عبارتند از تکرار در دستورات، ویرایش خودکار پس زمینه، و سفارشی سازی داده ها. دارای محافظ هایی مانند واترمارک های نامرئی برای تشویق استفاده مسئولانه است. Titan Multimodal Embeddings متن، تصاویر یا هر دو را به بردارهای معنایی تبدیل می کند تا جستجو و توصیه های دقیق را تقویت کند. سپس نمونه‌های کد پایتون را برای استفاده از این سرویس‌ها ارائه کردیم، و تولید تصاویر از پیام‌های متنی و تکرار روی آن تصاویر را نشان دادیم. ویرایش تصاویر موجود با افزودن، حذف یا جایگزینی عناصر مشخص شده توسط تصاویر ماسک یا متن ماسک؛ ایجاد تعبیه‌های چندوجهی از متن، تصاویر یا هر دو. و جستجو برای تعبیه‌های چندوجهی مشابه در یک پرس و جو. ما همچنین با استفاده از مجموعه داده های تجارت الکترونیک مصنوعی نمایه شده و با استفاده از Titan Multimodal Embeddings جستجو کردیم. هدف این پست این است که توسعه دهندگان را قادر سازد تا از این خدمات جدید هوش مصنوعی در برنامه های خود استفاده کنند. الگوهای کد می توانند به عنوان الگوهایی برای پیاده سازی های سفارشی عمل کنند.

همه کدها در دسترس هستند مخزن GitHub. برای اطلاعات بیشتر به راهنمای کاربری Amazon Bedrock.

درباره نویسنده

روهیت میتال مدیر محصول اصلی در آمازون هوش مصنوعی ساخت مدل های پایه چند وجهی است. او اخیراً راه اندازی مدل Amazon Titan Image Generator را به عنوان بخشی از سرویس Amazon Bedrock رهبری کرد. او با تجربه در AI/ML، NLP و Search، علاقه مند به ساخت محصولاتی است که نقاط درد مشتری را با فناوری نوآورانه حل کند.

دکتر اشوین سوامیناتان یک محقق، مهندس و مدیر بینایی کامپیوتر و یادگیری ماشین با بیش از 12 سال سابقه صنعت و بیش از 5 سال تجربه تحقیقاتی آکادمیک است. مبانی قوی و توانایی اثبات شده برای به دست آوردن سریع دانش و کمک به مناطق جدیدتر و نوظهور.

دکتر یوشنگ زی یک دانشمند کاربردی اصلی در آمازون AGI است. کار او بر ساخت مدل های پایه چند وجهی متمرکز است. او قبل از پیوستن به AGI، توسعه هوش مصنوعی چندوجهی مختلف را در AWS مانند Amazon Titan Image Generator و Amazon Textract Queries رهبری می‌کرد.

دکتر هائو یانگ یک دانشمند کاربردی اصلی در آمازون است. علایق اصلی تحقیقاتی او تشخیص اشیا و یادگیری با حاشیه نویسی محدود است. هائو در خارج از محل کار، از تماشای فیلم، عکاسی و فعالیت های خارج از منزل لذت می برد.

دکتر دیوید مودولو یک مدیر علوم کاربردی در آمازون AGI است که بر روی ساخت مدل های بنیادی چندوجهی بزرگ کار می کند. قبل از پیوستن به آمازون AGI، او به مدت 7 سال در آزمایشگاه هوش مصنوعی AWS (Amazon Bedrock و Amazon Rekognition) مدیر/سرب بود. خارج از محل کار از مسافرت و انجام هر نوع ورزشی به خصوص فوتبال لذت می برد.

دکتر بایچوان سان، در حال حاضر به عنوان یک معمار راه حل های AI/ML Sr. در AWS فعالیت می کند، با تمرکز بر هوش مصنوعی مولد و دانش خود را در علم داده و یادگیری ماشین برای ارائه راه حل های تجاری عملی و مبتنی بر ابر استفاده می کند. او با تجربه در مشاوره مدیریت و معماری راه حل های هوش مصنوعی، به طیف وسیعی از چالش های پیچیده، از جمله بینایی کامپیوتری روباتیک، پیش بینی سری های زمانی، و تعمیر و نگهداری پیش بینی کننده، می پردازد. کار او در زمینه مدیریت پروژه، تحقیق و توسعه نرم افزار و فعالیت های آکادمیک استوار است. خارج از محل کار، دکتر سان از تعادل مسافرت و گذراندن وقت با خانواده و دوستان لذت می برد.

دکتر کای زو در حال حاضر به‌عنوان مهندس پشتیبانی ابری در AWS کار می‌کند و به مشتریان با مشکلات مربوط به سرویس‌های مرتبط با هوش مصنوعی مانند SageMaker، Bedrock و غیره کمک می‌کند. او یک متخصص موضوع SageMaker است. او با تجربه در علم داده و مهندسی داده، علاقه مند به ساخت پروژه های مولد مبتنی بر هوش مصنوعی است.

کریس شولتز بیش از 25 سال را صرف زنده کردن تجربیات کاربر جذاب با ترکیب فناوری های نوظهور با طراحی کلاس جهانی کرده است. کریس در نقش خود به عنوان مدیر ارشد محصول، به طراحی و ساخت سرویس‌های AWS برای تقویت رسانه و سرگرمی، بازی و محاسبات فضایی کمک می‌کند.

ضمیمه

در بخش‌های بعدی، موارد استفاده چالش‌برانگیز مانند درج متن، دست‌ها و بازتاب‌ها را برای برجسته کردن قابلیت‌های مدل Titan Image Generator نشان می‌دهیم. ما همچنین تصاویر خروجی نمونه تولید شده در نمونه های قبلی را شامل می کنیم.

متن

مدل Titan Image Generator در جریان های کاری پیچیده مانند درج متن قابل خواندن در تصاویر برتری دارد. این مثال توانایی Titan را در ارائه واضح حروف بزرگ و کوچک در یک سبک ثابت در یک تصویر نشان می دهد.

کورگی با کلاه بیسبال با متن "genai"	پسری شاد که شست را بالا می‌گیرد و تی شرتی با متن «هوش مصنوعی مولد» پوشیده است.

دست ها

مدل Titan Image Generator همچنین توانایی تولید تصاویر دقیق هوش مصنوعی را دارد. این تصویر دست‌ها و انگشتان واقعی را با جزئیات قابل مشاهده نشان می‌دهد، که فراتر از تولید تصویر اولیه هوش مصنوعی است که ممکن است فاقد چنین ویژگی‌هایی باشد. در مثال های زیر به تصویر دقیق ژست و آناتومی توجه کنید.

دست یک شخص از بالا مشاهده می شود	نگاهی دقیق به دست های فردی که یک لیوان قهوه در دست دارد

اینه

همانطور که در مثال های زیر نشان داده شده است، تصاویر تولید شده توسط مدل Titan Image Generator به صورت فضایی اشیا را مرتب می کنند و به طور دقیق جلوه های آینه ای را منعکس می کنند.

یک گربه سفید کرکی بامزه روی پاهای عقب خود ایستاده و با کنجکاوی به آینه طلایی پر زرق و برق نگاه می کند. در انعکاس گربه خود را می بیند	دریاچه آسمان زیبا با انعکاس روی آب

تصاویر محصولات مصنوعی

در زیر تصاویر محصولی است که قبلا در این پست برای مدل Titan Multimodal Embeddings ایجاد شده است.

محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
منبع: https://aws.amazon.com/blogs/machine-learning/use-amazon-titan-models-for-image-generation-editing-and-searching/

تمبر زمان: فوریه 19، 2024

تمبر زمان: نوامبر 14، 2022

بازنشر افلاطون

استقرار مدل دیاریزاسیون بلندگوی صورت در آغوش گرفته (PyAnnote) در Amazon SageMaker به عنوان نقطه پایانی ناهمزمان | خدمات وب آمازون

شروع با استقرار مدل‌های بلادرنگ در Amazon SageMaker

خودکار کردن پیش برچسب گذاری PDF برای Amazon Comprehend | خدمات وب آمازون

چگونه Getir مدت زمان آموزش مدل را با Amazon SageMaker و AWS Batch تا 90٪ کاهش داد خدمات وب آمازون

ویرایش داده های PII در The Very Group با Amazon Comprehend

بارهای کاری استنتاج یادگیری ماشین را روی نمونه های مبتنی بر AWS Graviton با Amazon SageMaker اجرا کنید

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب