امیج جنریشن، ایڈیٹنگ اور سرچنگ کے لیے Amazon Titan ماڈلز کا استعمال کریں۔ ایمیزون ویب سروسز

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

ایمیزون بیڈرک ایمیزون اور دیگر سرکردہ AI کمپنیوں سے اعلیٰ کارکردگی کا مظاہرہ کرنے والے فاؤنڈیشن ماڈلز کی ایک وسیع رینج فراہم کرتا ہے، بشمول بشری, AI21, میٹا, کوہیر، اور استحکام AI، اور استعمال کے معاملات کی ایک وسیع رینج کا احاطہ کرتا ہے، بشمول متن اور تصویر بنانا، تلاش کرنا، چیٹ کرنا، استدلال اور اداکاری کرنے والے ایجنٹس، اور بہت کچھ۔ نیا ایمیزون ٹائٹن امیج جنریٹر ماڈل مواد کے تخلیق کاروں کو آسان انگریزی ٹیکسٹ پرامپٹس کا استعمال کرتے ہوئے فوری طور پر اعلیٰ معیار کی، حقیقت پسندانہ تصاویر بنانے کی اجازت دیتا ہے۔ جدید AI ماڈل متعدد اشیاء کے ساتھ پیچیدہ ہدایات کو سمجھتا ہے اور اس کے لیے موزوں اسٹوڈیو کے معیار کی تصاویر واپس کرتا ہے۔ تشہیر، ای کامرس، اور تفریح. کلیدی خصوصیات میں اشارے پر اعادہ کرتے ہوئے، خودکار پس منظر میں ترمیم، اور ایک ہی منظر کے متعدد تغیرات پیدا کرنے کے ذریعے تصاویر کو بہتر کرنے کی صلاحیت شامل ہے۔ تخلیق کار ایک مخصوص انداز میں آن برانڈ امیجز کو آؤٹ پٹ کرنے کے لیے اپنے ڈیٹا کے ساتھ ماڈل کو بھی اپنی مرضی کے مطابق بنا سکتے ہیں۔ اہم بات یہ ہے کہ ٹائٹن امیج جنریٹر کی حوصلہ افزائی کے لیے ان بلٹ حفاظتی اقدامات ہیں، جیسے کہ تمام AI سے تیار کردہ تصاویر پر غیر مرئی واٹر مارکس ذمہ دار استعمال اور غلط معلومات کے پھیلاؤ کو کم کریں۔ یہ جدید ٹیکنالوجی بڑی مقدار میں اپنی مرضی کے مطابق تصاویر بناتی ہے۔ کسی بھی صنعت زیادہ قابل رسائی اور موثر۔

نیا ایمیزون ٹائٹن ملٹی موڈل ایمبیڈنگز ماڈل متن، تصاویر، یا دونوں کو سمجھ کر مزید درست تلاش اور سفارشات بنانے میں مدد کرتا ہے۔ یہ امیجز اور انگریزی ٹیکسٹ کو سیمنٹک ویکٹرز میں تبدیل کرتا ہے، آپ کے ڈیٹا میں معنی اور رشتوں کو پکڑتا ہے۔ آپ اشیاء کو زیادہ مؤثر طریقے سے شناخت کرنے کے لیے متن اور تصاویر جیسے پروڈکٹ کی تفصیل اور تصاویر کو یکجا کر سکتے ہیں۔ ویکٹر تیز رفتار، درست تلاش کے تجربات کو طاقت دیتے ہیں۔ ٹائٹن ملٹی موڈل ایمبیڈنگز ویکٹر کے طول و عرض میں لچکدار ہیں، جو کارکردگی کی ضروریات کے لیے اصلاح کو قابل بناتی ہیں۔ ایک غیر مطابقت پذیر API اور ایمیزون اوپن سرچ سروس کنیکٹر ماڈل کو آپ کے نیورل سرچ ایپلی کیشنز میں ضم کرنا آسان بناتا ہے۔

اس پوسٹ میں، ہم AWS Python SDK کے ذریعے ٹائٹن امیج جنریٹر اور ٹائٹن ملٹی موڈل ایمبیڈنگز ماڈلز کو استعمال کرنے کے طریقہ پر چلتے ہیں۔

امیج جنریشن اور ایڈیٹنگ

اس سیکشن میں، ہم AWS SDK کو نئی تصاویر بنانے اور موجودہ امیجز پر AI سے چلنے والی ترامیم کرنے کے لیے بنیادی کوڈنگ پیٹرن کا مظاہرہ کرتے ہیں۔ کوڈ کی مثالیں Python میں فراہم کی گئی ہیں، اور JavaScript (Node.js) بھی اس میں دستیاب ہے۔ GitHub ذخیرہ.

اس سے پہلے کہ آپ Amazon Bedrock API استعمال کرنے والے اسکرپٹ لکھ سکیں، آپ کو اپنے ماحول میں AWS SDK کا مناسب ورژن انسٹال کرنا ہوگا۔ ازگر اسکرپٹس کے لیے، آپ استعمال کر سکتے ہیں۔ AWS SDK برائے Python (Boto3). ازگر کے صارفین بھی انسٹال کرنا چاہتے ہیں۔ تکیا ماڈیول، جو امیج آپریشنز جیسے تصاویر کو لوڈ کرنے اور محفوظ کرنے میں سہولت فراہم کرتا ہے۔ سیٹ اپ کی ہدایات کے لیے، سے رجوع کریں۔ GitHub ذخیرہ.

مزید برآں، Amazon Titan Image Generator اور Titan Multimodal Embeddings ماڈلز تک رسائی کو فعال کریں۔ مزید معلومات کے لیے رجوع کریں۔ ماڈل تک رسائی.

مددگار کے افعال

مندرجہ ذیل فنکشن Amazon Bedrock Boto3 رن ٹائم کلائنٹ کو ترتیب دیتا ہے اور مختلف کنفیگریشنز کے پے لوڈ لے کر تصاویر تیار کرتا ہے (جس پر ہم بعد میں اس پوسٹ میں بات کریں گے):

import boto3
import json, base64, io
from random import randint
from PIL import Image bedrock_runtime_client = boto3.client("bedrock-runtime") def titan_image( payload: dict, num_image: int = 2, cfg: float = 10.0, seed: int = None, modelId: str = "amazon.titan-image-generator-v1",
) -> list: # ImageGenerationConfig Options: # - numberOfImages: Number of images to be generated # - quality: Quality of generated images, can be standard or premium # - height: Height of output image(s) # - width: Width of output image(s) # - cfgScale: Scale for classifier-free guidance # - seed: The seed to use for reproducibility seed = seed if seed is not None else randint(0, 214783647) body = json.dumps( { **payload, "imageGenerationConfig": { "numberOfImages": num_image, # Range: 1 to 5 "quality": "premium", # Options: standard/premium "height": 1024, # Supported height list above "width": 1024, # Supported width list above "cfgScale": cfg, # Range: 1.0 (exclusive) to 10.0 "seed": seed, # Range: 0 to 214783647 }, } ) response = bedrock_runtime_client.invoke_model( body=body, modelId=modelId, accept="application/json", contentType="application/json", ) response_body = json.loads(response.get("body").read()) images = [ Image.open(io.BytesIO(base64.b64decode(base64_image))) for base64_image in response_body.get("images") ] return images

متن سے تصاویر بنائیں

اسکرپٹ جو ٹیکسٹ پرامپٹ سے ایک نئی امیج تیار کرتی ہیں اس نفاذ کے پیٹرن پر عمل کرتی ہیں:

ٹیکسٹ پرامپٹ اور اختیاری منفی ٹیکسٹ پرامپٹ کو ترتیب دیں۔
استعمال کریں BedrockRuntime ٹائٹن امیج جنریٹر ماڈل کو طلب کرنے کے لیے کلائنٹ۔
جواب کو پارس اور ڈی کوڈ کریں۔
نتیجے میں آنے والی تصاویر کو ڈسک میں محفوظ کریں۔

متن سے تصویر

ٹائٹن امیج جنریٹر ماڈل کے لیے مندرجہ ذیل ایک عام امیج جنریشن اسکرپٹ ہے۔

# Text Variation
# textToImageParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "negativeText": "cars", # Optional }, }
)

یہ مندرجہ ذیل سے ملتی جلتی تصاویر تیار کرے گا۔

جوابی تصویر 1	جوابی تصویر 2

تصویری تغیرات

تصویری تغیر ایک موجودہ تصویر کے لطیف تغیرات پیدا کرنے کا ایک طریقہ فراہم کرتا ہے۔ درج ذیل کوڈ کا ٹکڑا مختلف امیجز بنانے کے لیے پچھلی مثال میں تیار کردہ تصاویر میں سے ایک کا استعمال کرتا ہے:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Image Variation
# ImageVariationParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
#   images: base64 string representation of the input image, only 1 is supported
images = titan_image( { "taskType": "IMAGE_VARIATION", "imageVariationParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "images": [input_image], # One image is required "negativeText": "cars", # Optional }, },
)

یہ مندرجہ ذیل سے ملتی جلتی تصاویر تیار کرے گا۔

اصل تصویر	جوابی تصویر 1	جوابی تصویر 2

موجودہ تصویر میں ترمیم کریں۔

ٹائٹن امیج جنریٹر ماڈل آپ کو موجودہ تصویر کے اندر عناصر یا علاقوں کو شامل کرنے، ہٹانے یا تبدیل کرنے کی اجازت دیتا ہے۔ آپ مندرجہ ذیل میں سے ایک فراہم کرکے بتاتے ہیں کہ کون سا علاقہ متاثر کرنا ہے:

ماسک تصویر - ایک ماسک امیج ایک بائنری امیج ہے جس میں 0- ویلیو پکسلز اس علاقے کی نمائندگی کرتے ہیں جس کو آپ متاثر کرنا چاہتے ہیں اور 255- ویلیو پکسلز اس علاقے کی نمائندگی کرتے ہیں جس میں کوئی تبدیلی نہیں ہونی چاہیے۔
ماسک پرامپٹ - ایک ماسک پرامپٹ ان عناصر کی فطری زبان کے متن کی تفصیل ہے جن پر آپ اثر انداز ہونا چاہتے ہیں، جو اندرون خانہ ٹیکسٹ ٹو سیگمنٹیشن ماڈل استعمال کرتا ہے۔

مزید معلومات کے لئے ملاحظہ کریں فوری انجینئرنگ کے رہنما خطوط.

اسکرپٹ جو کسی تصویر میں ترمیم کا اطلاق کرتے ہیں وہ اس نفاذ کے پیٹرن کی پیروی کرتے ہیں:

ڈسک سے ترمیم کرنے کے لیے تصویر لوڈ کریں۔
تصویر کو بیس 64 انکوڈ شدہ سٹرنگ میں تبدیل کریں۔
مندرجہ ذیل طریقوں میں سے ایک کے ذریعے ماسک کو ترتیب دیں:
1. ڈسک سے ایک ماسک امیج لوڈ کریں، اسے بیس 64 کے بطور انکوڈنگ کریں اور اسے سیٹ کریں۔ maskImage پیرامیٹر
2. مقرر maskText اثر کرنے والے عناصر کے متن کی وضاحت کا پیرامیٹر۔
درج ذیل اختیارات میں سے کسی ایک کا استعمال کرتے ہوئے تخلیق کیے جانے والے نئے مواد کی وضاحت کریں:
1. کسی عنصر کو شامل کرنے یا تبدیل کرنے کے لیے، سیٹ کریں۔ text نئے مواد کی وضاحت کا پیرامیٹر۔
2. کسی عنصر کو ہٹانے کے لیے، کو چھوڑ دیں۔ text پیرامیٹر مکمل طور پر.
استعمال کریں BedrockRuntime ٹائٹن امیج جنریٹر ماڈل کو طلب کرنے کے لیے کلائنٹ۔
جواب کو پارس اور ڈی کوڈ کریں۔
نتیجے میں آنے والی تصاویر کو ڈسک میں محفوظ کریں۔

آبجیکٹ ایڈیٹنگ: ماسک امیج کے ساتھ پینٹنگ

مندرجہ ذیل ٹائٹن امیج جنریٹر ماڈل کے لیے ایک عام امیج ایڈیٹنگ اسکرپٹ ہے۔ maskImage. ہم پہلے بنائی گئی تصاویر میں سے ایک لیتے ہیں اور ایک ماسک امیج فراہم کرتے ہیں، جہاں 0-ویلیو پکسلز کو سیاہ اور 255- ویلیو پکسلز کو سفید کے طور پر پیش کیا جاتا ہے۔ ہم تصویر میں موجود کتوں میں سے ایک کو ٹیکسٹ پرامپٹ کا استعمال کرتے ہوئے بلی سے بھی بدل دیتے ہیں۔

with open("<YOUR_MASK_IMAGE_FILE_PATH>", "rb") as image_file: mask_image = base64.b64encode(image_file.read()).decode("utf8") # Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_ORIGINAL_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Inpainting
# inPaintingParams Options:
#   text: prompt to guide inpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "text": "a cat", # Optional "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskImage": mask_image, }, }, num_image=3,
)

یہ مندرجہ ذیل سے ملتی جلتی تصاویر تیار کرے گا۔

اصل تصویر	ماسک امیج	ترمیم شدہ امیج

آبجیکٹ کو ہٹانا: ماسک پرامپٹ کے ساتھ پینٹنگ

ایک اور مثال میں، ہم استعمال کرتے ہیں maskPrompt تصویر میں کسی چیز کی وضاحت کرنے کے لیے، پہلے کے مراحل سے، ترمیم کرنے کے لیے۔ ٹیکسٹ پرامپٹ کو چھوڑ کر، آبجیکٹ کو ہٹا دیا جائے گا:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskPrompt": "white dog", # One of "maskImage" or "maskPrompt" is required }, },
)

یہ مندرجہ ذیل سے ملتی جلتی تصاویر تیار کرے گا۔

اصل تصویر	جوابی تصویر

پس منظر میں ترمیم: آؤٹ پینٹنگ

جب آپ کسی تصویر کے پس منظر کو تبدیل کرنا چاہتے ہیں تو آؤٹ پینٹنگ مفید ہے۔ آپ زوم آؤٹ اثر کے لیے تصویر کی حدود کو بھی بڑھا سکتے ہیں۔ درج ذیل مثال کے اسکرپٹ میں، ہم استعمال کرتے ہیں۔ maskPrompt یہ بتانے کے لیے کہ کون سی چیز رکھنا ہے؛ آپ بھی استعمال کر سکتے ہیں maskImage. پیرامیٹر outPaintingMode یہ بتاتا ہے کہ آیا ماسک کے اندر پکسلز میں ترمیم کی اجازت دی جائے۔ اگر کے طور پر سیٹ کیا گیا ہے۔ DEFAULT، ماسک کے اندر کے پکسلز میں ترمیم کرنے کی اجازت ہے تاکہ دوبارہ تعمیر شدہ تصویر مجموعی طور پر ایک جیسی ہو۔ اس اختیار کی سفارش کی جاتی ہے اگر maskImage فراہم کردہ پکسل سطح کی درستگی کے ساتھ آبجیکٹ کی نمائندگی نہیں کرتا ہے۔ اگر کے طور پر سیٹ کیا گیا ہے۔ PRECISE، ماسک کے اندر پکسلز کی ترمیم کو روک دیا گیا ہے۔ اس اختیار کی سفارش کی جاتی ہے اگر استعمال کرتے ہوئے a maskPrompt یا ایک maskImage جو پکسل لیول کی درستگی کے ساتھ آبجیکٹ کی نمائندگی کرتا ہے۔

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # OutPaintingParams Options:
#   text: prompt to guide outpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask
#   outPaintingMode: DEFAULT | PRECISE
images = titan_image( { "taskType": "OUTPAINTING", "outPaintingParams": { "text": "forest", # Required "image": input_image, # Required "maskPrompt": "dogs", # One of "maskImage" or "maskPrompt" is required "outPaintingMode": "PRECISE", # One of "PRECISE" or "DEFAULT" }, }, num_image=3,
)

یہ مندرجہ ذیل سے ملتی جلتی تصاویر تیار کرے گا۔

اصل تصویر	متن	جوابی تصویر
	"ساحل سمندر"
	"جنگل"

اس کے علاوہ، کے لئے مختلف اقدار کے اثرات outPaintingModeایک ساتھ maskImage جو پکسل لیول کی درستگی کے ساتھ آبجیکٹ کا خاکہ نہیں بناتا، درج ذیل ہیں۔

اس حصے نے آپ کو ان آپریشنز کا ایک جائزہ دیا ہے جو آپ Titan Image Generator ماڈل کے ساتھ انجام دے سکتے ہیں۔ خاص طور پر، یہ اسکرپٹ ٹیکسٹ ٹو امیج، تصویری تغیر، پینٹنگ، اور آؤٹ پینٹنگ کے کاموں کو ظاہر کرتی ہیں۔ آپ کو ان کام کی اقسام کے لیے پیرامیٹر کی تفصیلات کا حوالہ دے کر اپنی درخواستوں کے لیے پیٹرن کو اپنانے کے قابل ہونا چاہیے ایمیزون ٹائٹن امیج جنریٹر دستاویزات.

ملٹی موڈل سرایت اور تلاش

آپ Amazon Titan Multimodal Embeddings ماڈل کو انٹرپرائز کاموں کے لیے استعمال کر سکتے ہیں جیسے کہ تصویر کی تلاش اور مماثلت پر مبنی سفارش، اور اس میں بلٹ ان تخفیف ہے جو تلاش کے نتائج میں تعصب کو کم کرنے میں مدد کرتا ہے۔ مختلف ضروریات کے لیے بہترین لیٹنسی/ درستگی کے تجارتی معاہدوں کے لیے متعدد ایمبیڈنگ ڈائمینشن سائزز ہیں، اور ڈیٹا سیکیورٹی اور پرائیویسی کو برقرار رکھتے ہوئے آپ کے اپنے ڈیٹا کو اپنانے کے لیے سبھی کو ایک سادہ API کے ساتھ اپنی مرضی کے مطابق بنایا جا سکتا ہے۔ Amazon Titan Multimodal Embeddings کو ریئل ٹائم یا غیر مطابقت پذیر بیچ ٹرانسفارم سرچنگ اور سفارشی ایپلی کیشنز کے لیے سادہ APIs کے طور پر فراہم کیا جاتا ہے، اور مختلف ویکٹر ڈیٹا بیسز سے منسلک کیا جا سکتا ہے، بشمول ایمیزون اوپن سرچ سروس.

مددگار کے افعال

درج ذیل فنکشن ایک تصویر کو اور اختیاری طور پر متن کو ملٹی موڈل ایمبیڈنگز میں تبدیل کرتا ہے۔

def titan_multimodal_embedding( image_path: str = None, # maximum 2048 x 2048 pixels description: str = None, # English only and max input tokens 128 dimension: int = 1024, # 1,024 (default), 384, 256 model_id: str = "amazon.titan-embed-image-v1",
): payload_body = {} embedding_config: dict = {"embeddingConfig": {"outputEmbeddingLength": dimension}} # You can specify either text or image or both if image_path: # Maximum image size supported is 2048 x 2048 pixels with open(image_path, "rb") as image_file: payload_body["inputImage"] = base64.b64encode(image_file.read()).decode( "utf8" ) if description: payload_body["inputText"] = description assert payload_body, "please provide either an image and/or a text description" print("n".join(payload_body.keys())) response = bedrock_runtime_client.invoke_model( body=json.dumps({**payload_body, **embedding_config}), modelId=model_id, accept="application/json", contentType="application/json", ) return json.loads(response.get("body").read())

مندرجہ ذیل فنکشن ملٹی موڈل ایمبیڈنگز کے استفسار پر ملٹی موڈل ایمبیڈنگز کو لوٹاتا ہے۔ نوٹ کریں کہ عملی طور پر، آپ ایک منظم ویکٹر ڈیٹا بیس، جیسے OpenSearch سروس استعمال کر سکتے ہیں۔ مندرجہ ذیل مثال مثال کے مقاصد کے لیے ہے:

from scipy.spatial.distance import cdist
import numpy as np def search(query_emb: np.array, indexes: np.array, top_k: int = 1): dist = cdist(query_emb, indexes, metric="cosine") return dist.argsort(axis=-1)[0, :top_k], np.sort(dist, axis=-1)[:top_k]

مصنوعی ڈیٹاسیٹ

مثال کے مقاصد کے لیے، ہم استعمال کرتے ہیں۔ Amazon Bedrock میں Anthropic's Claude 2.1 ماڈل مندرجہ ذیل پرامپٹ کا استعمال کرتے ہوئے تصادفی طور پر سات مختلف پروڈکٹس، جن میں سے ہر ایک تین مختلف حالتوں کے ساتھ تیار کرتا ہے:

Generate a list of 7 items description for an online e-commerce shop, each comes with 3 variants of color or type. All with separate full sentence description.

مندرجہ ذیل واپسی آؤٹ پٹ کی فہرست ہے:

1. T-shirt
- A red cotton t-shirt with a crew neck and short sleeves.
- A blue cotton t-shirt with a v-neck and short sleeves.
- A black polyester t-shirt with a scoop neck and cap sleeves. 2. Jeans
- Classic blue relaxed fit denim jeans with a mid-rise waist.
- Black skinny fit denim jeans with a high-rise waist and ripped details at the knees.
- Stonewash straight leg denim jeans with a standard waist and front pockets. 3. Sneakers
- White leather low-top sneakers with an almond toe cap and thick rubber outsole.
- Gray mesh high-top sneakers with neon green laces and a padded ankle collar.
- Tan suede mid-top sneakers with a round toe and ivory rubber cupsole. 4. Backpack
- A purple nylon backpack with padded shoulder straps, front zipper pocket and laptop sleeve.
- A gray canvas backpack with brown leather trims, side water bottle pockets and drawstring top closure.
- A black leather backpack with multiple interior pockets, top carry handle and adjustable padded straps. 5. Smartwatch
- A silver stainless steel smartwatch with heart rate monitor, GPS tracker and sleep analysis.
- A space gray aluminum smartwatch with step counter, phone notifications and calendar syncing.
- A rose gold smartwatch with activity tracking, music controls and customizable watch faces. 6. Coffee maker
- A 12-cup programmable coffee maker in brushed steel with removable water tank and keep warm plate.
- A compact 5-cup single serve coffee maker in matt black with travel mug auto-dispensing feature.
- A retro style stovetop percolator coffee pot in speckled enamel with stay-cool handle and glass knob lid. 7. Yoga mat
- A teal 4mm thick yoga mat made of natural tree rubber with moisture-wicking microfiber top.
- A purple 6mm thick yoga mat made of eco-friendly TPE material with integrated carrying strap.
- A patterned 5mm thick yoga mat made of PVC-free material with towel cover included.

متغیر کو اوپر جواب تفویض کریں۔ response_cat. پھر ہم ہر آئٹم کے لیے پروڈکٹ کی تصاویر بنانے کے لیے ٹائٹن امیج جنریٹر ماڈل استعمال کرتے ہیں:

import re def extract_text(input_string): pattern = r"- (.*?)($|n)" matches = re.findall(pattern, input_string) extracted_texts = [match[0] for match in matches] return extracted_texts product_description = extract_text(response_cat) titles = []
for prompt in product_description: images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": prompt, # Required }, }, num_image=1, ) title = "_".join(prompt.split()[:4]).lower() titles.append(title) images[0].save(f"{title}.png", format="png")

تمام تیار کردہ تصاویر اس پوسٹ کے آخر میں ضمیمہ میں مل سکتی ہیں۔

ملٹی موڈل ڈیٹاسیٹ انڈیکسنگ

ملٹی موڈل ڈیٹاسیٹ انڈیکسنگ کے لیے درج ذیل کوڈ کا استعمال کریں:

multimodal_embeddings = []
for image_filename, description in zip(titles, product_description): embedding = titan_multimodal_embedding(f"{image_filename}.png", dimension=1024)["embedding"] multimodal_embeddings.append(embedding)

ملٹی موڈل سرچنگ

ملٹی موڈل تلاش کے لیے درج ذیل کوڈ کا استعمال کریں:

query_prompt = "<YOUR_QUERY_TEXT>"
query_embedding = titan_multimodal_embedding(description=query_prompt, dimension=1024)["embedding"]
# If searching via Image
# query_image_filename = "<YOUR_QUERY_IMAGE>"
# query_emb = titan_multimodal_embedding(image_path=query_image_filename, dimension=1024)["embedding"]
idx_returned, dist = search(np.array(query_embedding)[None], np.array(multimodal_embeddings))

کچھ تلاش کے نتائج درج ذیل ہیں۔

نتیجہ

پوسٹ میں ایمیزون ٹائٹن امیج جنریٹر اور ایمیزون ٹائٹن ملٹی موڈل ایمبیڈنگز ماڈلز متعارف کرائے گئے ہیں۔ ٹائٹن امیج جنریٹر آپ کو متن کے اشارے سے اپنی مرضی کے مطابق، اعلی معیار کی تصاویر بنانے کے قابل بناتا ہے۔ کلیدی خصوصیات میں اشارے پر تکرار کرنا، خودکار پس منظر میں ترمیم، اور ڈیٹا حسب ضرورت شامل ہیں۔ ذمہ دارانہ استعمال کی حوصلہ افزائی کے لیے اس میں غیر مرئی واٹر مارکس جیسے تحفظات ہیں۔ Titan Multimodal Embeddings درست تلاش اور سفارشات کو طاقت دینے کے لیے متن، تصاویر یا دونوں کو سیمنٹک ویکٹر میں تبدیل کرتا ہے۔ اس کے بعد ہم نے ان خدمات کو استعمال کرنے کے لیے Python کوڈ کے نمونے فراہم کیے، اور متن کے اشارے سے تصاویر بنانے اور ان تصاویر پر اعادہ کرنے کا مظاہرہ کیا۔ ماسک امیجز یا ماسک ٹیکسٹ کے ذریعے مخصوص عناصر کو شامل کرکے، ہٹا کر یا تبدیل کرکے موجودہ تصاویر میں ترمیم کرنا؛ متن، تصاویر، یا دونوں سے ملٹی موڈل ایمبیڈنگ بنانا؛ اور استفسار پر اسی طرح کی ملٹی موڈل ایمبیڈنگز تلاش کرنا۔ ہم نے ٹائٹن ملٹی موڈل ایمبیڈنگز کا استعمال کرتے ہوئے ایک مصنوعی ای کامرس ڈیٹاسیٹ کا اشاریہ اور تلاش کا بھی مظاہرہ کیا۔ اس پوسٹ کا مقصد ڈویلپرز کو ان نئی AI سروسز کو اپنی ایپلی کیشنز میں استعمال کرنا شروع کرنے کے قابل بنانا ہے۔ کوڈ پیٹرن حسب ضرورت نفاذ کے لیے ٹیمپلیٹس کے طور پر کام کر سکتے ہیں۔

تمام کوڈ پر دستیاب ہے۔ GitHub ذخیرہ. مزید معلومات کے لیے، سے رجوع کریں۔ ایمیزون بیڈرک صارف گائیڈ.

مصنفین کے بارے میں

روہت متل ملٹی موڈل فاؤنڈیشن ماڈل بنانے والے ایمیزون اے آئی میں پرنسپل پروڈکٹ مینیجر ہیں۔ انہوں نے حال ہی میں ایمیزون بیڈروک سروس کے حصے کے طور پر ایمیزون ٹائٹن امیج جنریٹر ماڈل کے اجراء کی قیادت کی۔ AI/ML، NLP، اور تلاش میں تجربہ کار، وہ ایسی مصنوعات بنانے میں دلچسپی رکھتا ہے جو جدید ٹیکنالوجی کے ساتھ کسٹمر کے درد کے مسائل کو حل کرتی ہیں۔

ڈاکٹر اشون سوامیناتھن ایک کمپیوٹر ویژن اور مشین لرننگ محقق، انجینئر، اور مینیجر ہے جس میں 12+ سال انڈسٹری کا تجربہ اور 5+ سال کا تعلیمی تحقیقی تجربہ ہے۔ تیزی سے علم حاصل کرنے اور نئے اور ابھرتے ہوئے شعبوں میں حصہ ڈالنے کی مضبوط بنیادی باتیں اور ثابت شدہ صلاحیت۔

ڈاکٹر یوشینگ زی Amazon AGI میں پرنسپل اپلائیڈ سائنٹسٹ ہیں۔ اس کا کام ملٹی ماڈل فاؤنڈیشن ماڈل بنانے پر مرکوز ہے۔ AGI میں شامل ہونے سے پہلے، وہ AWS میں مختلف ملٹی ماڈل AI ڈیولپمنٹ کی قیادت کر رہے تھے جیسے Amazon Titan Image Generator اور Amazon Textract Queries۔

ڈاکٹر ہاؤ یانگ ایمیزون میں پرنسپل اپلائیڈ سائنٹسٹ ہیں۔ اس کی بنیادی تحقیقی دلچسپیاں اعتراضات کا پتہ لگانا اور محدود تشریحات کے ساتھ سیکھنا ہیں۔ کام سے باہر، ہاؤ فلمیں، فوٹو گرافی اور بیرونی سرگرمیاں دیکھنے سے لطف اندوز ہوتے ہیں۔

ڈاکٹر ڈیوڈ موڈولو Amazon AGI میں ایک اپلائیڈ سائنس مینیجر ہے، بڑے ملٹی موڈل فاؤنڈیشنل ماڈلز بنانے پر کام کر رہا ہے۔ Amazon AGI میں شامل ہونے سے پہلے، وہ AWS AI Labs (Amazon Bedrock and Amazon Recognition) میں 7 سال تک منیجر/لیڈ تھے۔ کام سے باہر، وہ سفر کرنے اور کسی بھی قسم کا کھیل، خاص طور پر فٹ بال کھیلنے سے لطف اندوز ہوتا ہے۔

ڈاکٹر بائیچوان سن، فی الحال AWS میں ایک Sr. AI/ML سلوشنز آرکیٹیکٹ کے طور پر خدمات انجام دے رہا ہے، جنریٹیو AI پر توجہ مرکوز کرتا ہے اور عملی، کلاؤڈ بیسڈ کاروباری حل فراہم کرنے کے لیے ڈیٹا سائنس اور مشین لرننگ میں اپنے علم کا اطلاق کرتا ہے۔ مینجمنٹ کنسلٹنگ اور AI سلوشن آرکیٹیکچر کے تجربے کے ساتھ، وہ بہت سے پیچیدہ چیلنجوں سے نمٹتا ہے، جن میں روبوٹکس کمپیوٹر ویژن، ٹائم سیریز کی پیشن گوئی، اور پیشین گوئی کی دیکھ بھال شامل ہیں۔ اس کا کام پراجیکٹ مینجمنٹ، سافٹ ویئر آر اینڈ ڈی، اور تعلیمی حصول کے ٹھوس پس منظر پر مبنی ہے۔ کام سے باہر، ڈاکٹر سن کو سفر کرنے اور خاندان اور دوستوں کے ساتھ وقت گزارنے کے توازن سے لطف اندوز ہوتا ہے۔

ڈاکٹر کائی ژو فی الحال AWS میں کلاؤڈ سپورٹ انجینئر کے طور پر کام کرتا ہے، AI/ML سے متعلقہ خدمات جیسے SageMaker، Bedrock وغیرہ میں صارفین کی مدد کرتا ہے۔ وہ SageMaker سبجیکٹ میٹر کا ماہر ہے۔ ڈیٹا سائنس اور ڈیٹا انجینئرنگ میں تجربہ کار، وہ تخلیقی AI سے چلنے والے پروجیکٹس بنانے میں دلچسپی رکھتا ہے۔

کرس شلٹز عالمی معیار کے ڈیزائن کے ساتھ ابھرتی ہوئی ٹیکنالوجیز کو یکجا کر کے صارف کے پرکشش تجربات کو زندہ کرنے میں 25 سال سے زیادہ کا عرصہ گزارا ہے۔ سینئر پروڈکٹ مینیجر کے طور پر اپنے کردار میں، کرس میڈیا اور تفریح، گیمنگ، اور مقامی کمپیوٹنگ کو طاقت دینے کے لیے AWS سروسز کو ڈیزائن اور بنانے میں مدد کرتا ہے۔

معاہدہ

مندرجہ ذیل حصوں میں، ہم ٹائٹن امیج جنریٹر ماڈل کی صلاحیتوں کو اجاگر کرنے کے لیے متن کے اندراج، ہاتھ، اور عکاسی جیسے چیلنجنگ نمونے کے استعمال کا مظاہرہ کرتے ہیں۔ ہم پہلے کی مثالوں میں تیار کردہ نمونہ آؤٹ پٹ امیجز کو بھی شامل کرتے ہیں۔

متن

ٹائٹن امیج جنریٹر ماڈل پیچیدہ ورک فلو پر سبقت لے جاتا ہے جیسے امیجز میں پڑھنے کے قابل ٹیکسٹ داخل کرنا۔ یہ مثال ٹائٹن کی تصویر کے اندر ایک مستقل انداز میں بڑے اور چھوٹے حروف کو واضح طور پر پیش کرنے کی صلاحیت کو ظاہر کرتی ہے۔

ایک کورگی بیس بال کی ٹوپی پہنے ہوئے متن کے ساتھ "جینائی"	ایک خوش کن لڑکا انگوٹھا دے رہا ہے، ٹی شرٹ پہنے "جنریٹو اے آئی"

ہاتھوں

ٹائٹن امیج جنریٹر ماڈل میں تفصیلی AI امیجز بنانے کی صلاحیت بھی ہے۔ تصویر میں نظر آنے والی تفصیل کے ساتھ حقیقت پسندانہ ہاتھوں اور انگلیوں کو دکھایا گیا ہے، جو زیادہ بنیادی AI امیج جنریشن سے آگے جا کر اس طرح کی مخصوصیت کا فقدان ہو سکتا ہے۔ مندرجہ ذیل مثالوں میں، پوز اور اناٹومی کی قطعی عکاسی کو دیکھیں۔

ایک شخص کا ہاتھ اوپر سے دیکھا گیا۔	کافی کا مگ پکڑے ایک شخص کے ہاتھ پر گہری نظر

عکس

ٹائٹن امیج جنریٹر ماڈل کے ذریعہ تیار کردہ تصاویر جگہ جگہ اشیاء کو ترتیب دیتی ہیں اور عینک کے اثرات کی عکاسی کرتی ہیں، جیسا کہ درج ذیل مثالوں میں دکھایا گیا ہے۔

ایک خوبصورت فلفی سفید بلی اپنی پچھلی ٹانگوں پر کھڑی ہے، ایک آرائشی سنہری آئینے میں تجسس سے جھانک رہی ہے۔ عکاسی میں بلی خود کو دیکھتی ہے۔	پانی پر عکاسی کے ساتھ خوبصورت آسمانی جھیل

مصنوعی مصنوعات کی تصاویر

Titan Multimodal Embeddings ماڈل کے لیے اس پوسٹ میں پہلے تیار کردہ پروڈکٹ کی تصاویر درج ذیل ہیں۔

SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
ماخذ: https://aws.amazon.com/blogs/machine-learning/use-amazon-titan-models-for-image-generation-editing-and-searching/

ٹائم اسٹیمپ: 19 فروری 2024

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

Amazon SageMaker میں TensorFlow ٹیکسٹ کی درجہ بندی کے ماڈلز کے لیے سیکھنے کو منتقل کریں۔

پروٹوپیا AI کے ساتھ انٹرپرائز LLM ایکسلریشن کے لیے بنیادی ڈیٹا تحفظ | ایمیزون ویب سروسز

بڑے ماڈل انفرنس کنٹینرز کا استعمال کرتے ہوئے AWS Inferentia2 پر بڑے زبان کے ماڈلز تعینات کریں۔

AWS Media Intelligence اور Hugging Face BERT کا استعمال کرتے ہوئے درجہ بندی پر مبنی سیاق و سباق کی ٹارگٹنگ بنائیں

ایمیزون ریکگنیشن کسٹم لیبلز کے ساتھ نشانات کی نشاندہی کرنا

ایمیزون کمپریہنڈ ٹارگیٹڈ سینٹمنٹ ہم وقت ساز تعاون کا اضافہ کرتا ہے۔

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ