استخدم نماذج Amazon Titan لإنشاء الصور وتحريرها والبحث عنها

أعاد نشره أفلاطون

المتابعون: 0

أمازون بيدروك توفر مجموعة واسعة من نماذج الأساس عالية الأداء من Amazon وغيرها من شركات الذكاء الاصطناعي الرائدة، بما في ذلك أنثروبي, AI21, مييتااا, التحمو الاستقرار AI، ويغطي نطاقًا واسعًا من حالات الاستخدام، بما في ذلك إنشاء النصوص والصور والبحث والدردشة والتفكير والوكلاء التمثيليين والمزيد. الجديد أمازون تيتان مولد الصور يسمح النموذج لمنشئي المحتوى بإنشاء صور واقعية عالية الجودة بسرعة باستخدام مطالبات نصية بسيطة باللغة الإنجليزية. يفهم نموذج الذكاء الاصطناعي المتقدم التعليمات المعقدة ذات الكائنات المتعددة ويعيد صورًا مناسبة بجودة الاستوديو إعلانوالتجارة الإلكترونية و تسلية. تتضمن الميزات الرئيسية القدرة على تحسين الصور من خلال التكرار على المطالبات، والتحرير التلقائي للخلفية، وإنشاء أشكال متعددة لنفس المشهد. يمكن للمنشئين أيضًا تخصيص النموذج ببياناتهم الخاصة لإخراج صور العلامة التجارية بأسلوب معين. والأهم من ذلك، أن Titan Image Generator يحتوي على وسائل حماية مدمجة، مثل العلامات المائية غير المرئية على جميع الصور التي يتم إنشاؤها بواسطة الذكاء الاصطناعي، لتشجيع استخدام مسؤول والحد من انتشار المعلومات المضللة. تعمل هذه التقنية المبتكرة على إنتاج صور مخصصة بكميات كبيرة أي صناعة أكثر سهولة وكفاءة.

الجديد أمازون تيتان التضمين المتعدد الوسائط يساعد النموذج في إنشاء بحث وتوصيات أكثر دقة من خلال فهم النصوص أو الصور أو كليهما. فهو يحول الصور والنصوص الإنجليزية إلى متجهات دلالية، ويلتقط المعنى والعلاقات في بياناتك. يمكنك الجمع بين النصوص والصور مثل أوصاف المنتج والصور لتحديد العناصر بشكل أكثر فعالية. تعمل المتجهات على توفير تجارب بحث سريعة ودقيقة. تتميز Titan Multimodal Embeddings بالمرونة في أبعاد المتجهات، مما يتيح تحسين احتياجات الأداء. واجهة برمجة التطبيقات غير المتزامنة و خدمة Amazon OpenSearch يجعل الموصل من السهل دمج النموذج في تطبيقات البحث العصبية الخاصة بك.

في هذا المنشور، سنتعرف على كيفية استخدام نماذج Titan Image Generator وTitan Multimodal Embeddings عبر AWS Python SDK.

توليد الصور وتحريرها

في هذا القسم، نعرض أنماط الترميز الأساسية لاستخدام AWS SDK لإنشاء صور جديدة وإجراء تعديلات مدعومة بالذكاء الاصطناعي على الصور الموجودة. يتم توفير أمثلة التعليمات البرمجية في Python، كما تتوفر JavaScript (Node.js) في هذا أيضًا مستودع جيثب.

قبل أن تتمكن من كتابة البرامج النصية التي تستخدم Amazon Bedrock API، يتعين عليك تثبيت الإصدار المناسب من AWS SDK في بيئتك. بالنسبة لنصوص بايثون، يمكنك استخدام AWS SDK لـ Python (Boto3). قد يرغب مستخدمو Python أيضًا في تثبيت وحدة الوسادةمما يسهل عمليات الصور مثل تحميل الصور وحفظها. للحصول على تعليمات الإعداد، راجع مستودع جيثب.

بالإضافة إلى ذلك، قم بتمكين الوصول إلى نماذج Amazon Titan Image Generator وTitan Multimodal Embeddings. لمزيد من المعلومات، راجع الوصول إلى النموذج.

وظائف المساعدة

تقوم الوظيفة التالية بإعداد عميل وقت تشغيل Amazon Bedrock Boto3 وإنشاء الصور عن طريق أخذ حمولات من التكوينات المختلفة (والتي سنناقشها لاحقًا في هذا المنشور):

import boto3
import json, base64, io
from random import randint
from PIL import Image bedrock_runtime_client = boto3.client("bedrock-runtime") def titan_image( payload: dict, num_image: int = 2, cfg: float = 10.0, seed: int = None, modelId: str = "amazon.titan-image-generator-v1",
) -> list: # ImageGenerationConfig Options: # - numberOfImages: Number of images to be generated # - quality: Quality of generated images, can be standard or premium # - height: Height of output image(s) # - width: Width of output image(s) # - cfgScale: Scale for classifier-free guidance # - seed: The seed to use for reproducibility seed = seed if seed is not None else randint(0, 214783647) body = json.dumps( { **payload, "imageGenerationConfig": { "numberOfImages": num_image, # Range: 1 to 5 "quality": "premium", # Options: standard/premium "height": 1024, # Supported height list above "width": 1024, # Supported width list above "cfgScale": cfg, # Range: 1.0 (exclusive) to 10.0 "seed": seed, # Range: 0 to 214783647 }, } ) response = bedrock_runtime_client.invoke_model( body=body, modelId=modelId, accept="application/json", contentType="application/json", ) response_body = json.loads(response.get("body").read()) images = [ Image.open(io.BytesIO(base64.b64decode(base64_image))) for base64_image in response_body.get("images") ] return images

توليد الصور من النص

تتبع البرامج النصية التي تولد صورة جديدة من موجه نصي نمط التنفيذ هذا:

قم بتكوين مطالبة نصية ومطالبة نصية سلبية اختيارية.
استخدم BedrockRuntime العميل لاستدعاء نموذج Titan Image Generator.
تحليل وفك الرد.
احفظ الصور الناتجة على القرص.

نص إلى صورة

فيما يلي برنامج نصي نموذجي لإنشاء الصور لنموذج Titan Image Generator:

# Text Variation
# textToImageParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "negativeText": "cars", # Optional }, }
)

سيؤدي هذا إلى إنتاج صور مشابهة لما يلي.

صورة الرد 1	صورة الرد 2

متغيرات الصورة

يوفر تنوع الصورة طريقة لإنشاء متغيرات دقيقة لصورة موجودة. يستخدم مقتطف الكود التالي إحدى الصور التي تم إنشاؤها في المثال السابق لإنشاء صور متنوعة:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Image Variation
# ImageVariationParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
#   images: base64 string representation of the input image, only 1 is supported
images = titan_image( { "taskType": "IMAGE_VARIATION", "imageVariationParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "images": [input_image], # One image is required "negativeText": "cars", # Optional }, },
)

سيؤدي هذا إلى إنتاج صور مشابهة لما يلي.

الصورة الأصلية	صورة الرد 1	صورة الرد 2

تحرير صورة موجودة

يتيح لك نموذج Titan Image Generator إضافة أو إزالة أو استبدال عناصر أو مناطق داخل صورة موجودة. يمكنك تحديد المنطقة التي ستتأثر من خلال توفير أحد الإجراءات التالية:

صورة قناع - صورة القناع هي صورة ثنائية تمثل فيها وحدات البكسل ذات القيمة 0 المنطقة التي تريد التأثير عليها وتمثل وحدات البكسل ذات القيمة 255 المنطقة التي يجب أن تظل دون تغيير.
موجه القناع - مطالبة القناع عبارة عن وصف نصي باللغة الطبيعية للعناصر التي تريد التأثير عليها، ويستخدم نموذجًا داخليًا لتحويل النص إلى تجزئة.

لمزيد من المعلومات ، راجع المبادئ التوجيهية الهندسية السريعة.

تتبع البرامج النصية التي تطبق تعديلاً على الصورة نمط التنفيذ التالي:

قم بتحميل الصورة لتحريرها من القرص.
تحويل الصورة إلى سلسلة مشفرة base64.
قم بتكوين القناع من خلال إحدى الطرق التالية:
1. قم بتحميل صورة قناع من القرص، وقم بتشفيرها كـ base64 وتعيينها كـ maskImage المعلمة.
2. تعيين maskText معلمة لوصف نصي للعناصر التي تؤثر.
حدد المحتوى الجديد الذي سيتم إنشاؤه باستخدام أحد الخيارات التالية:
1. لإضافة عنصر أو استبداله، قم بتعيين text المعلمة لوصف المحتوى الجديد.
2. لإزالة عنصر، قم بحذف text المعلمة تماما
استخدم BedrockRuntime العميل لاستدعاء نموذج Titan Image Generator.
تحليل وفك الرد.
احفظ الصور الناتجة على القرص.

تحرير الكائنات: الرسم باستخدام صورة قناع

ما يلي هو برنامج نصي نموذجي لتحرير الصور لنموذج Titan Image Generator الذي يستخدمه maskImage. نحن نأخذ إحدى الصور التي تم إنشاؤها مسبقًا ونقدم صورة قناع، حيث يتم عرض وحدات البكسل ذات القيمة 0 باللون الأسود والبكسلات ذات القيمة 255 باللون الأبيض. نقوم أيضًا باستبدال أحد الكلاب الموجودة في الصورة بقطة باستخدام مطالبة نصية.

with open("<YOUR_MASK_IMAGE_FILE_PATH>", "rb") as image_file: mask_image = base64.b64encode(image_file.read()).decode("utf8") # Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_ORIGINAL_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Inpainting
# inPaintingParams Options:
#   text: prompt to guide inpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "text": "a cat", # Optional "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskImage": mask_image, }, }, num_image=3,
)

سيؤدي هذا إلى إنتاج صور مشابهة لما يلي.

الصورة الأصلية	صورة القناع	الصورة المحررة

إزالة الكائن: الطلاء باستخدام قناع موجه

وفي مثال آخر نستخدم maskPrompt لتحديد كائن في الصورة، مأخوذ من الخطوات السابقة، لتحريره. عن طريق حذف موجه النص، ستتم إزالة الكائن:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskPrompt": "white dog", # One of "maskImage" or "maskPrompt" is required }, },
)

سيؤدي هذا إلى إنتاج صور مشابهة لما يلي.

الصورة الأصلية	صورة الرد

تحرير الخلفية: Outpainting

يعد الطلاء الخارجي مفيدًا عندما تريد استبدال خلفية الصورة. يمكنك أيضًا توسيع حدود الصورة للحصول على تأثير التصغير. في المثال النصي التالي، نستخدم maskPrompt لتحديد الكائن الذي سيتم الاحتفاظ به؛ تستطيع ايضا استخذام maskImage. المعلمة outPaintingMode يحدد ما إذا كان سيتم السماح بتعديل وحدات البكسل داخل القناع. إذا تم تعيينها كـ DEFAULT، يُسمح بتعديل وحدات البكسل الموجودة داخل القناع بحيث تكون الصورة المعاد بناؤها متسقة بشكل عام. يوصى بهذا الخيار إذا كان maskImage بشرط ألا يمثل الكائن بدقة على مستوى البكسل. إذا تم تعيينها كـ PRECISE، يتم منع تعديل وحدات البكسل الموجودة داخل القناع. يوصى بهذا الخيار في حالة استخدام maskPrompt أو maskImage يمثل الكائن بدقة على مستوى البكسل.

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # OutPaintingParams Options:
#   text: prompt to guide outpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask
#   outPaintingMode: DEFAULT | PRECISE
images = titan_image( { "taskType": "OUTPAINTING", "outPaintingParams": { "text": "forest", # Required "image": input_image, # Required "maskPrompt": "dogs", # One of "maskImage" or "maskPrompt" is required "outPaintingMode": "PRECISE", # One of "PRECISE" or "DEFAULT" }, }, num_image=3,
)

سيؤدي هذا إلى إنتاج صور مشابهة لما يلي.

الصورة الأصلية	نص	صورة الرد
	"شاطئ بحر"
	"غابة"

وبالإضافة إلى ذلك، آثار قيم مختلفة ل outPaintingMode، مع maskImage التي لا تحدد الكائن بدقة على مستوى البكسل، هي كما يلي.

يقدم لك هذا القسم نظرة عامة على العمليات التي يمكنك إجراؤها باستخدام نموذج Titan Image Generator. على وجه التحديد، توضح هذه البرامج النصية مهام تحويل النص إلى صورة، وتنوع الصورة، والرسم الداخلي، والرسم الخارجي. يجب أن تكون قادرًا على تكييف الأنماط لتطبيقاتك الخاصة من خلال الرجوع إلى تفاصيل المعلمات الخاصة بأنواع المهام الموضحة بالتفصيل وثائق Amazon Titan Image Generator.

التضمين والبحث متعدد الوسائط

يمكنك استخدام نموذج Amazon Titan Multimodal Embeddings لمهام المؤسسة مثل البحث عن الصور والتوصيات القائمة على التشابه، كما أنه يحتوي على آلية تخفيف مدمجة تساعد في تقليل التحيز في نتائج البحث. توجد أحجام متعددة لأبعاد التضمين للحصول على أفضل مقايضات لزمن الاستجابة/الدقة لتلبية الاحتياجات المختلفة، ويمكن تخصيصها جميعًا باستخدام واجهة برمجة تطبيقات بسيطة للتكيف مع بياناتك الخاصة مع الحفاظ على أمان البيانات وخصوصيتها. يتم توفير Amazon Titan Multimodal Embeddings كواجهات برمجة تطبيقات بسيطة لتطبيقات البحث والتوصية بتحويل الدُفعات في الوقت الفعلي أو غير المتزامنة، ويمكن توصيلها بقواعد بيانات متجهة مختلفة، بما في ذلك خدمة Amazon OpenSearch.

وظائف المساعدة

تقوم الوظيفة التالية بتحويل الصورة والنص بشكل اختياري إلى تضمينات متعددة الوسائط:

def titan_multimodal_embedding( image_path: str = None, # maximum 2048 x 2048 pixels description: str = None, # English only and max input tokens 128 dimension: int = 1024, # 1,024 (default), 384, 256 model_id: str = "amazon.titan-embed-image-v1",
): payload_body = {} embedding_config: dict = {"embeddingConfig": {"outputEmbeddingLength": dimension}} # You can specify either text or image or both if image_path: # Maximum image size supported is 2048 x 2048 pixels with open(image_path, "rb") as image_file: payload_body["inputImage"] = base64.b64encode(image_file.read()).decode( "utf8" ) if description: payload_body["inputText"] = description assert payload_body, "please provide either an image and/or a text description" print("n".join(payload_body.keys())) response = bedrock_runtime_client.invoke_model( body=json.dumps({**payload_body, **embedding_config}), modelId=model_id, accept="application/json", contentType="application/json", ) return json.loads(response.get("body").read())

تقوم الدالة التالية بإرجاع أعلى عمليات تضمين الوسائط المتعددة المشابهة في ضوء عمليات تضمين الوسائط المتعددة للاستعلام. لاحظ أنه من الناحية العملية، يمكنك استخدام قاعدة بيانات متجهة مُدارة، مثل خدمة OpenSearch. المثال التالي هو لأغراض التوضيح:

from scipy.spatial.distance import cdist
import numpy as np def search(query_emb: np.array, indexes: np.array, top_k: int = 1): dist = cdist(query_emb, indexes, metric="cosine") return dist.argsort(axis=-1)[0, :top_k], np.sort(dist, axis=-1)[:top_k]

مجموعة البيانات الاصطناعية

لأغراض التوضيح، نستخدم نموذج Anthropic's Claude 2.1 في Amazon Bedrock لإنشاء سبعة منتجات مختلفة بشكل عشوائي، يحتوي كل منها على ثلاثة متغيرات، باستخدام الموجه التالي:

Generate a list of 7 items description for an online e-commerce shop, each comes with 3 variants of color or type. All with separate full sentence description.

فيما يلي قائمة المخرجات التي تم إرجاعها:

1. T-shirt
- A red cotton t-shirt with a crew neck and short sleeves.
- A blue cotton t-shirt with a v-neck and short sleeves.
- A black polyester t-shirt with a scoop neck and cap sleeves. 2. Jeans
- Classic blue relaxed fit denim jeans with a mid-rise waist.
- Black skinny fit denim jeans with a high-rise waist and ripped details at the knees.
- Stonewash straight leg denim jeans with a standard waist and front pockets. 3. Sneakers
- White leather low-top sneakers with an almond toe cap and thick rubber outsole.
- Gray mesh high-top sneakers with neon green laces and a padded ankle collar.
- Tan suede mid-top sneakers with a round toe and ivory rubber cupsole. 4. Backpack
- A purple nylon backpack with padded shoulder straps, front zipper pocket and laptop sleeve.
- A gray canvas backpack with brown leather trims, side water bottle pockets and drawstring top closure.
- A black leather backpack with multiple interior pockets, top carry handle and adjustable padded straps. 5. Smartwatch
- A silver stainless steel smartwatch with heart rate monitor, GPS tracker and sleep analysis.
- A space gray aluminum smartwatch with step counter, phone notifications and calendar syncing.
- A rose gold smartwatch with activity tracking, music controls and customizable watch faces. 6. Coffee maker
- A 12-cup programmable coffee maker in brushed steel with removable water tank and keep warm plate.
- A compact 5-cup single serve coffee maker in matt black with travel mug auto-dispensing feature.
- A retro style stovetop percolator coffee pot in speckled enamel with stay-cool handle and glass knob lid. 7. Yoga mat
- A teal 4mm thick yoga mat made of natural tree rubber with moisture-wicking microfiber top.
- A purple 6mm thick yoga mat made of eco-friendly TPE material with integrated carrying strap.
- A patterned 5mm thick yoga mat made of PVC-free material with towel cover included.

قم بتعيين الاستجابة أعلاه للمتغير response_cat. ثم نستخدم نموذج Titan Image Generator لإنشاء صور المنتج لكل عنصر:

import re def extract_text(input_string): pattern = r"- (.*?)($|n)" matches = re.findall(pattern, input_string) extracted_texts = [match[0] for match in matches] return extracted_texts product_description = extract_text(response_cat) titles = []
for prompt in product_description: images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": prompt, # Required }, }, num_image=1, ) title = "_".join(prompt.split()[:4]).lower() titles.append(title) images[0].save(f"{title}.png", format="png")

يمكن العثور على جميع الصور التي تم إنشاؤها في الملحق في نهاية هذا المنشور.

فهرسة مجموعة البيانات المتعددة الوسائط

استخدم الكود التالي لفهرسة مجموعة البيانات متعددة الوسائط:

multimodal_embeddings = []
for image_filename, description in zip(titles, product_description): embedding = titan_multimodal_embedding(f"{image_filename}.png", dimension=1024)["embedding"] multimodal_embeddings.append(embedding)

بحث متعدد الوسائط

استخدم الكود التالي للبحث متعدد الوسائط:

query_prompt = "<YOUR_QUERY_TEXT>"
query_embedding = titan_multimodal_embedding(description=query_prompt, dimension=1024)["embedding"]
# If searching via Image
# query_image_filename = "<YOUR_QUERY_IMAGE>"
# query_emb = titan_multimodal_embedding(image_path=query_image_filename, dimension=1024)["embedding"]
idx_returned, dist = search(np.array(query_embedding)[None], np.array(multimodal_embeddings))

وفيما يلي بعض نتائج البحث.

وفي الختام

يقدم المنشور نماذج Amazon Titan Image Generator وAmazon Titan Multimodal Embeddings. يمكّنك برنامج Titan Image Generator من إنشاء صور مخصصة وعالية الجودة من خلال المطالبات النصية. تتضمن الميزات الرئيسية التكرار على المطالبات، والتحرير التلقائي للخلفية، وتخصيص البيانات. لديها ضمانات مثل العلامات المائية غير المرئية لتشجيع الاستخدام المسؤول. تقوم Titan Multimodal Embeddings بتحويل النص أو الصور أو كليهما إلى متجهات دلالية لتشغيل البحث والتوصيات الدقيقة. بعد ذلك، قدمنا عينات من أكواد بايثون لاستخدام هذه الخدمات، وأظهرنا كيفية إنشاء صور من المطالبات النصية وتكرار تلك الصور؛ تحرير الصور الموجودة عن طريق إضافة أو إزالة أو استبدال العناصر المحددة بواسطة صور القناع أو نص القناع؛ إنشاء تضمينات متعددة الوسائط من النص أو الصور أو كليهما؛ والبحث عن عمليات تضمين متعددة الوسائط مماثلة للاستعلام. لقد أظهرنا أيضًا استخدام مجموعة بيانات التجارة الإلكترونية الاصطناعية المفهرسة والبحث فيها باستخدام Titan Multimodal Embeddings. الهدف من هذا المنشور هو تمكين المطورين من البدء في استخدام خدمات الذكاء الاصطناعي الجديدة هذه في تطبيقاتهم. يمكن أن تكون أنماط التعليمات البرمجية بمثابة قوالب للتطبيقات المخصصة.

كل الكود متاح على مستودع جيثب. لمزيد من المعلومات ، راجع دليل مستخدم أمازون بيدروك.

حول المؤلف

روهيت ميتال هو مدير المنتج الرئيسي في Amazon AI لبناء نماذج أساسية متعددة الوسائط. وقد قاد مؤخرًا عملية إطلاق نموذج Amazon Titan Image Generator كجزء من خدمة Amazon Bedrock. يتمتع بخبرة في الذكاء الاصطناعي/التعلم الآلي والبرمجة اللغوية العصبية والبحث، وهو مهتم ببناء منتجات تحل نقاط الضعف لدى العملاء باستخدام التكنولوجيا المبتكرة.

دكتور أشوين سواميناثان هو باحث ومهندس ومدير في الرؤية الحاسوبية والتعلم الآلي يتمتع بخبرة تزيد عن 12 عامًا في الصناعة وأكثر من 5 سنوات من الخبرة في البحث الأكاديمي. أساسيات قوية وقدرة مثبتة على اكتساب المعرفة بسرعة والمساهمة في المجالات الأحدث والناشئة.

الدكتور يوشينغ شيه هو عالم تطبيقي رئيسي في Amazon AGI. يركز عمله على بناء نماذج أساسية متعددة الوسائط. قبل انضمامه إلى AGI، كان يقود العديد من عمليات تطوير الذكاء الاصطناعي متعدد الوسائط في AWS مثل Amazon Titan Image Generator وAmazon Textract Queries.

الدكتور هاو يانغ هو عالم تطبيقي رئيسي في أمازون. اهتماماته البحثية الرئيسية هي اكتشاف الأشياء والتعلم باستخدام شروح محدودة. خارج العمل، يستمتع هاو بمشاهدة الأفلام والتصوير الفوتوغرافي والأنشطة الخارجية.

الدكتور دافيد مودولو هو مدير العلوم التطبيقية في Amazon AGI، ويعمل على بناء نماذج تأسيسية كبيرة متعددة الوسائط. قبل انضمامه إلى Amazon AGI، كان مديرًا/قائدًا لمدة 7 سنوات في AWS AI Labs (Amazon Bedrock وAmazon Rekognition). خارج العمل، يستمتع بالسفر وممارسة أي نوع من الرياضة، وخاصة كرة القدم.

الدكتور بايتشوان صن، يعمل حاليًا كمهندس أول لحلول الذكاء الاصطناعي/تعلم الآلة في AWS، مع التركيز على الذكاء الاصطناعي التوليدي ويطبق معرفته في علوم البيانات والتعلم الآلي لتوفير حلول أعمال عملية قائمة على السحابة. ومن خلال خبرته في الاستشارات الإدارية وهندسة حلول الذكاء الاصطناعي، فإنه يعالج مجموعة من التحديات المعقدة، بما في ذلك رؤية الكمبيوتر الروبوتية، والتنبؤ بالسلاسل الزمنية، والصيانة التنبؤية، من بين أمور أخرى. يرتكز عمله على خلفية قوية في إدارة المشاريع والبحث والتطوير في مجال البرمجيات والمساعي الأكاديمية. خارج العمل، يتمتع الدكتور صن بالتوازن بين السفر وقضاء الوقت مع العائلة والأصدقاء.

دكتور كاي تشو يعمل حاليًا كمهندس دعم سحابي في AWS، حيث يساعد العملاء في حل مشكلات الخدمات ذات الصلة بالذكاء الاصطناعي/تعلم الآلة مثل SageMaker وBedrock وما إلى ذلك. وهو خبير في موضوعات SageMaker. يتمتع بخبرة في علوم البيانات وهندسة البيانات، وهو مهتم ببناء مشاريع توليدية مدعومة بالذكاء الاصطناعي.

كريس شولتز أمضى أكثر من 25 عامًا في إحياء تجارب المستخدم الجذابة من خلال الجمع بين التقنيات الناشئة والتصميم العالمي. من خلال منصبه كمدير أول للمنتجات، يساعد كريس في تصميم وبناء خدمات AWS لتشغيل الوسائط والترفيه والألعاب والحوسبة المكانية.

الزائدة الدودية

في الأقسام التالية، نعرض حالات استخدام نموذجية صعبة مثل إدراج النص واليدين والانعكاسات لتسليط الضوء على إمكانيات نموذج Titan Image Generator. نقوم أيضًا بتضمين نماذج الصور الناتجة في الأمثلة السابقة.

نص

يتفوق نموذج Titan Image Generator في مهام سير العمل المعقدة مثل إدراج نص قابل للقراءة في الصور. يوضح هذا المثال قدرة Titan على عرض الأحرف الكبيرة والصغيرة بوضوح وبنمط متسق داخل الصورة.

فصيل كورجي يرتدي قبعة بيسبول مع النص "genai"	صبي سعيد يرفع إبهامه لأعلى، ويرتدي قميصًا مكتوبًا عليه عبارة "الذكاء الاصطناعي التوليدي"

العناية باليد

يتمتع نموذج Titan Image Generator أيضًا بالقدرة على إنشاء صور تفصيلية مدعومة بالذكاء الاصطناعي. تُظهر الصورة أيديًا وأصابعًا واقعية بتفاصيل مرئية، وتتجاوز إنشاء صور الذكاء الاصطناعي الأساسية التي قد تفتقر إلى مثل هذه الخصوصية. في الأمثلة التالية، لاحظ التصوير الدقيق للوضعية والتشريح.

يد الشخص ينظر إليها من أعلى	نظرة فاحصة على يدي شخص يحمل قدح القهوة

مرآة

تقوم الصور التي تم إنشاؤها بواسطة نموذج Titan Image Generator بترتيب الكائنات مكانيًا وتعكس تأثيرات المرآة بدقة، كما هو موضح في الأمثلة التالية.

يقف قط أبيض رقيق لطيف على رجليه الخلفيتين، وينظر بفضول إلى مرآة ذهبية مزخرفة. في الانعكاس ترى القطة نفسها	بحيرة السماء الجميلة مع انعكاسات على الماء

صور المنتجات الاصطناعية

فيما يلي صور المنتج التي تم إنشاؤها مسبقًا في هذا المنشور لنموذج Titan Multimodal Embeddings.

محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
أفلاطون كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
المصدر https://aws.amazon.com/blogs/machine-learning/use-amazon-titan-models-for-image-generation-editing-and-searching/

الطابع الزمني: 19 فبراير 2024

أعاد نشره أفلاطون

نقل التعلم لنماذج تصنيف نص TensorFlow في Amazon SageMaker

حماية البيانات الأساسية لتسريع LLM للمؤسسات باستخدام Protopia AI | خدمات الويب الأمازون

انشر نماذج اللغات الكبيرة على AWS Inferentia2 باستخدام حاويات استدلال كبيرة

أنشئ استهدافًا سياقيًا قائمًا على التصنيف باستخدام AWS Media Intelligence و Hugging Face BERT

تحديد المعالم باستخدام ملصقات Amazon Rekognition المخصصة

تضيف Amazon Comprehend Targeted Sentiment دعمًا متزامنًا

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي