Talk To Your Slide Deck Using Multimodal Foundation Models Hosted On Amazon Bedrock And Amazon SageMaker – Part 1

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

تخلیقی AI کی آمد کے ساتھ، آج کے فاؤنڈیشن ماڈل (FMs)، جیسے بڑے زبان کے ماڈل (LLMs) Claude 2 اور Llama 2، متنی ڈیٹا پر سوالوں کے جوابات، خلاصہ، اور مواد کی تخلیق جیسے متعدد تخلیقی کام انجام دے سکتے ہیں۔ تاہم، حقیقی دنیا کا ڈیٹا متعدد طریقوں میں موجود ہے، جیسے کہ متن، تصاویر، ویڈیو اور آڈیو۔ مثال کے طور پر پاورپوائنٹ سلائیڈ ڈیک لیں۔ یہ متن کی شکل میں معلومات پر مشتمل ہو سکتا ہے، یا گراف، میزوں اور تصویروں میں سرایت کر سکتا ہے۔

اس پوسٹ میں، ہم ایک ایسا حل پیش کرتے ہیں جو ملٹی موڈل ایف ایم استعمال کرتا ہے۔ ایمیزون ٹائٹن ملٹی موڈل ایمبیڈنگز ماڈل اور LLaVA 1.5 اور AWS خدمات بشمول ایمیزون بیڈرک اور ایمیزون سیج میکر ملٹی موڈل ڈیٹا پر اسی طرح کے تخلیقی کام انجام دینے کے لیے۔

حل جائزہ

یہ حل سلائیڈ ڈیک کے متن اور بصری عناصر میں موجود معلومات کا استعمال کرتے ہوئے سوالات کے جوابات کے لیے ایک نفاذ فراہم کرتا ہے۔ ڈیزائن Retrieval Augmented Generation (RAG) کے تصور پر انحصار کرتا ہے۔ روایتی طور پر، RAG کو متنی ڈیٹا سے منسلک کیا گیا ہے جس پر LLM کے ذریعے کارروائی کی جا سکتی ہے۔ اس پوسٹ میں، ہم تصاویر کو بھی شامل کرنے کے لیے RAG کو بڑھاتے ہیں۔ یہ متن کے ساتھ ٹیبل اور گراف جیسے بصری عناصر سے سیاق و سباق کے لحاظ سے متعلقہ مواد کو نکالنے کے لیے ایک طاقتور تلاش کی صلاحیت فراہم کرتا ہے۔

RAG حل کو ڈیزائن کرنے کے مختلف طریقے ہیں جن میں تصاویر شامل ہیں۔ ہم نے یہاں ایک نقطہ نظر پیش کیا ہے اور اس تین حصوں کی سیریز کی دوسری پوسٹ میں ایک متبادل نقطہ نظر کے ساتھ عمل کریں گے۔

اس حل میں درج ذیل اجزاء شامل ہیں:

ایمیزون ٹائٹن ملٹی موڈل ایمبیڈنگز ماڈل - اس ایف ایم کا استعمال اس پوسٹ میں استعمال ہونے والی سلائیڈ ڈیک میں موجود مواد کے لیے سرایت پیدا کرنے کے لیے کیا جاتا ہے۔ ایک ملٹی موڈل ماڈل کے طور پر، یہ ٹائٹن ماڈل ٹیکسٹ، امیجز، یا کسی امتزاج کو بطور ان پٹ پروسیس کر سکتا ہے اور ایمبیڈنگز بنا سکتا ہے۔ ٹائٹن ملٹی موڈل ایمبیڈنگز ماڈل 1,024 ڈائمینشنز کے ویکٹر (ایمبیڈنگز) تیار کرتا ہے اور اسے ایمیزون بیڈرک کے ذریعے حاصل کیا جاتا ہے۔
بڑی زبان اور وژن اسسٹنٹ (LLaVA) - LLaVA بصری اور زبان کی تفہیم کے لیے ایک اوپن سورس ملٹی موڈل ماڈل ہے اور اس کا استعمال سلائیڈز میں موجود ڈیٹا کی تشریح کے لیے کیا جاتا ہے، بشمول بصری عناصر جیسے گراف اور ٹیبل۔ ہم 7-بلین پیرامیٹر ورژن استعمال کرتے ہیں۔ LLaVA 1.5-7b اس حل میں.
ایمیزون سیج میکر - LLaVA ماڈل کو SageMaker ہوسٹنگ سروسز کا استعمال کرتے ہوئے SageMaker اینڈ پوائنٹ پر تعینات کیا گیا ہے، اور ہم LLaVA ماڈل کے خلاف نتائج کو چلانے کے لیے نتیجے کے اختتامی نقطہ کا استعمال کرتے ہیں۔ ہم سیج میکر نوٹ بکس کا بھی استعمال کرتے ہیں تاکہ اس حل کو آخر تک آرکیسٹریٹ کریں اور اس کا مظاہرہ کریں۔
ایمیزون اوپن سرچ سرور لیس - اوپن سرچ سرور لیس ایک آن ڈیمانڈ سرور لیس کنفیگریشن ہے۔ ایمیزون اوپن سرچ سروس. ٹائٹن ملٹی موڈل ایمبیڈنگز ماڈل کے ذریعے تیار کردہ ایمبیڈنگز کو ذخیرہ کرنے کے لیے ہم OpenSearch Serverless کو ویکٹر ڈیٹا بیس کے طور پر استعمال کرتے ہیں۔ OpenSearch Serverless مجموعہ میں تخلیق کردہ ایک انڈیکس ہمارے RAG حل کے لیے ویکٹر اسٹور کے طور پر کام کرتا ہے۔
Amazon OpenSearch Ingestion (OSI) - OSI ایک مکمل طور پر منظم، سرور لیس ڈیٹا جمع کرنے والا ہے جو OpenSearch سروس کے ڈومینز اور OpenSearch Serverless مجموعہ کو ڈیٹا فراہم کرتا ہے۔ اس پوسٹ میں، ہم OpenSearch Serverless ویکٹر اسٹور کو ڈیٹا فراہم کرنے کے لیے OSI پائپ لائن کا استعمال کرتے ہیں۔

حل فن تعمیر

حل ڈیزائن دو حصوں پر مشتمل ہے: ادخال اور صارف کی بات چیت۔ ادخال کے دوران، ہم ہر سلائیڈ کو ایک تصویر میں تبدیل کرکے ان پٹ سلائیڈ ڈیک پر کارروائی کرتے ہیں، ان امیجز کے لیے سرایت پیدا کرتے ہیں، اور پھر ویکٹر ڈیٹا اسٹور کو آباد کرتے ہیں۔ یہ مراحل صارف کے تعامل کے مراحل سے پہلے مکمل ہو جاتے ہیں۔

صارف کے تعامل کے مرحلے میں، صارف کے ایک سوال کو سرایت میں تبدیل کیا جاتا ہے اور ویکٹر ڈیٹا بیس پر ایک مماثلت کی تلاش چلائی جاتی ہے تاکہ ایک سلائیڈ تلاش کی جا سکے جس میں ممکنہ طور پر صارف کے سوال کے جوابات ہوں۔ اس کے بعد ہم یہ سلائیڈ (ایک تصویری فائل کی شکل میں) LLaVA ماڈل اور صارف کے سوال کو سوال کا جواب پیدا کرنے کے لیے فوری طور پر فراہم کرتے ہیں۔ اس پوسٹ کے تمام کوڈ میں دستیاب ہے۔ GitHub کے ریپو

درج ذیل خاکہ ادخال کے فن تعمیر کو واضح کرتا ہے۔

ادخال فن تعمیر کا خاکہ

ورک فلو کے مراحل درج ذیل ہیں:

سلائیڈز کو JPG فارمیٹ میں امیج فائلز (ایک فی سلائیڈ) میں تبدیل کیا جاتا ہے اور ایمبیڈنگز جنریٹ کرنے کے لیے ٹائٹن ملٹی موڈل ایمبیڈنگز ماڈل میں منتقل کیا جاتا ہے۔ اس پوسٹ میں، ہم سلائیڈ ڈیک کا عنوان استعمال کرتے ہیں۔ AWS Trainium اور AWS Inferentia کا استعمال کرتے ہوئے مستحکم بازی کو تربیت دیں اور تعینات کریں۔ ٹورنٹو میں AWS سمٹ سے، جون 2023، حل کا مظاہرہ کرنے کے لیے۔ سیمپل ڈیک میں 31 سلائیڈز ہیں، اس لیے ہم ویکٹر ایمبیڈنگز کے 31 سیٹ تیار کرتے ہیں، ہر ایک 1,024 ڈائمینشنز کے ساتھ۔ ہم ان تیار کردہ ویکٹر ایمبیڈنگز میں اضافی میٹا ڈیٹا فیلڈز شامل کرتے ہیں اور ایک JSON فائل بناتے ہیں۔ یہ اضافی میٹا ڈیٹا فیلڈز OpenSearch کی طاقتور تلاش کی صلاحیتوں کا استعمال کرتے ہوئے بھرپور تلاش کے سوالات کرنے کے لیے استعمال کیے جا سکتے ہیں۔
تیار کردہ ایمبیڈنگز کو ایک ہی JSON فائل میں ایک ساتھ رکھا جاتا ہے جس پر اپ لوڈ کیا جاتا ہے۔ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3)۔
ذریعے ایمیزون S3 ایونٹ کی اطلاعات، ایک واقعہ ایک میں ڈالا جاتا ہے۔ ایمیزون سادہ قطار سروس (ایمیزون SQS) قطار۔
SQS قطار میں یہ واقعہ OSI پائپ لائن کو چلانے کے لیے ایک محرک کے طور پر کام کرتا ہے، جس کے نتیجے میں ڈیٹا (JSON فائل) کو دستاویزات کے طور پر OpenSearch Serverless index میں شامل کیا جاتا ہے۔ نوٹ کریں کہ OpenSearch Serverless انڈیکس کو اس پائپ لائن کے لیے سنک کے طور پر ترتیب دیا گیا ہے اور اسے OpenSearch Serverless مجموعہ کے حصے کے طور پر بنایا گیا ہے۔

درج ذیل خاکہ صارف کے تعامل کے فن تعمیر کو واضح کرتا ہے۔

صارف کی بات چیت کا فن تعمیر

ورک فلو کے مراحل درج ذیل ہیں:

ایک صارف سلائیڈ ڈیک سے متعلق ایک سوال پیش کرتا ہے جسے کھایا گیا ہے۔
Amazon Bedrock کے ذریعے رسائی حاصل کرنے والے Titan Multimodal Embeddings ماڈل کا استعمال کرتے ہوئے صارف کے ان پٹ کو ایمبیڈنگز میں تبدیل کیا جاتا ہے۔ ایک OpenSearch ویکٹر کی تلاش ان ایمبیڈنگز کا استعمال کرتے ہوئے کی جاتی ہے۔ ہم صارف کے استفسار سے مماثل انتہائی متعلقہ ایمبیڈنگ کو بازیافت کرنے کے لیے k-قریب ترین پڑوسی (k=1) تلاش کرتے ہیں۔ k=1 سیٹ کرنا صارف کے سوال کے لیے سب سے زیادہ متعلقہ سلائیڈ کو بازیافت کرتا ہے۔
OpenSearch Serverless کے جواب کا میٹا ڈیٹا سب سے زیادہ متعلقہ سلائیڈ کے مطابق تصویر کا راستہ رکھتا ہے۔
صارف کے سوال اور تصویری راستے کو ملا کر ایک پرامپٹ بنایا جاتا ہے اور SageMaker پر میزبان LLaVA کو فراہم کیا جاتا ہے۔ LLaVA ماڈل صارف کے سوال کو سمجھنے اور تصویر میں موجود ڈیٹا کی جانچ کرکے اس کا جواب دینے کے قابل ہے۔
اس تخمینہ کا نتیجہ صارف کو واپس کر دیا جاتا ہے۔

مندرجہ ذیل حصوں میں ان اقدامات پر تفصیل سے بحث کی گئی ہے۔ دیکھیں نتائج کی نمائش آؤٹ پٹ پر اسکرین شاٹس اور تفصیلات کے لیے سیکشن۔

شرائط

اس پوسٹ میں فراہم کردہ حل کو نافذ کرنے کے لیے، آپ کے پاس ہونا چاہیے۔ AWS اکاؤنٹ اور FMs، Amazon Bedrock، SageMaker، اور OpenSearch سروس سے واقفیت۔

یہ حل Titan Multimodal Embeddings ماڈل کا استعمال کرتا ہے۔ یقینی بنائیں کہ یہ ماڈل Amazon Bedrock میں استعمال کے لیے فعال ہے۔ ایمیزون بیڈرک کنسول پر، منتخب کریں۔ ماڈل تک رسائی نیویگیشن پین میں۔ اگر ٹائٹن ملٹی موڈل ایمبیڈنگز کو فعال کیا گیا ہے، تو رسائی کی حیثیت بیان کی جائے گی۔ رسائی دی.

ایمیزون بیڈرک میں ماڈل تک رسائی کا نظم کریں۔

اگر ماڈل دستیاب نہیں ہے تو، منتخب کرکے ماڈل تک رسائی کو فعال کریں۔ ماڈل تک رسائی کا نظم کریں۔منتخب کریں ٹائٹن ملٹی موڈل ایمبیڈنگز G1، اور انتخاب کرنا ماڈل تک رسائی کی درخواست کریں۔. ماڈل کو فوری طور پر استعمال کے لیے فعال کر دیا گیا ہے۔

ایمیزون بیڈرک میں ماڈل تک رسائی کی درخواست کریں۔

حل اسٹیک بنانے کے لیے AWS CloudFormation ٹیمپلیٹ کا استعمال کریں۔

درج ذیل میں سے ایک استعمال کریں۔ AWS کلاؤڈ فارمیشن حل کے وسائل کو شروع کرنے کے لیے ٹیمپلیٹس (آپ کے علاقے پر منحصر ہے)۔

AWS علاقہ	لنک
`us-east-1`
`us-west-2`

اسٹیک کے کامیابی سے بننے کے بعد، اسٹیک پر جائیں۔ نتائج AWS CloudFormation کنسول پر ٹیب کریں اور قیمت نوٹ کریں۔ MultimodalCollectionEndpoint، جسے ہم بعد کے مراحل میں استعمال کرتے ہیں۔

CloudFormation ٹیمپلیٹ کے ذریعہ تخلیق کردہ وسائل

CloudFormation ٹیمپلیٹ درج ذیل وسائل تخلیق کرتا ہے:

IAM کے کردار - مندرجہ ذیل AWS شناخت اور رسائی کا انتظام (IAM) رولز بنائے جاتے ہیں۔ لاگو کرنے کے لیے ان کرداروں کو اپ ڈیٹ کریں۔ کم از کم استحقاق کی اجازت.
- SMExecutionRole Amazon S3، SageMaker، OpenSearch سروس، اور Bedrock مکمل رسائی کے ساتھ۔
- OSPipelineExecutionRole مخصوص Amazon SQS اور OSI کارروائیوں تک رسائی کے ساتھ۔
سیج میکر نوٹ بک - اس پوسٹ کے تمام کوڈ اس نوٹ بک کے ذریعے چلائے جاتے ہیں۔
اوپن سرچ سرور لیس مجموعہ - یہ ایمبیڈنگز کو ذخیرہ کرنے اور بازیافت کرنے کا ویکٹر ڈیٹا بیس ہے۔
OSI پائپ لائن - یہ OpenSearch Serverless میں ڈیٹا داخل کرنے کی پائپ لائن ہے۔
S3 بالٹی - اس پوسٹ کا تمام ڈیٹا اس بالٹی میں محفوظ ہے۔
SQS قطار - OSI پائپ لائن کو متحرک کرنے کے واقعات اس قطار میں رکھے گئے ہیں۔

CloudFormation ٹیمپلیٹ OSI پائپ لائن کو Amazon S3 اور Amazon SQS پروسیسنگ کے ساتھ بطور ذریعہ اور OpenSearch Serverless انڈیکس کو بطور سنک ترتیب دیتا ہے۔ مخصوص S3 بالٹی اور سابقہ میں تخلیق کردہ کوئی بھی اشیاء (multimodal/osi-embeddings-json) SQS اطلاعات کو متحرک کرے گا، جو OSI پائپ لائن کے ذریعے ڈیٹا کو OpenSearch Serverless میں داخل کرنے کے لیے استعمال کیا جاتا ہے۔

CloudFormation ٹیمپلیٹ بھی تخلیق کرتا ہے۔ نیٹ ورک, خفیہ کاری، اور ڈیٹا تک رسائی OpenSearch Serverless مجموعہ کے لیے درکار پالیسیاں۔ کم از کم استحقاق کی اجازتوں کو لاگو کرنے کے لیے ان پالیسیوں کو اپ ڈیٹ کریں۔

نوٹ کریں کہ CloudFormation ٹیمپلیٹ کا نام SageMaker نوٹ بک میں حوالہ دیا گیا ہے۔ اگر ڈیفالٹ ٹیمپلیٹ کا نام تبدیل کر دیا گیا ہے، تو یقینی بنائیں کہ آپ اسی کو اپ ڈیٹ کرتے ہیں۔ globals.py

حل کی جانچ کریں۔

لازمی اقدامات مکمل ہونے کے بعد اور CloudFormation اسٹیک کامیابی کے ساتھ تیار ہو گیا ہے، اب آپ حل کو جانچنے کے لیے تیار ہیں:

سیج میکر کنسول پر، منتخب کریں۔ نوٹ بک نیوی گیشن پین میں.
منتخب کریں MultimodalNotebookInstance نوٹ بک مثال کے طور پر اور منتخب کریں JupyterLab کھولیں۔.
In فائل براؤزرنوٹ بکس اور معاون فائلوں کو دیکھنے کے لیے نوٹ بک فولڈر میں جائیں۔

نوٹ بک کو اس ترتیب میں شمار کیا جاتا ہے جس میں وہ چلائی جاتی ہیں۔ ہر نوٹ بک میں ہدایات اور تبصرے اس نوٹ بک کے ذریعہ کئے گئے اعمال کی وضاحت کرتے ہیں۔ ہم ان نوٹ بکس کو ایک ایک کرکے چلاتے ہیں۔

میں سے انتخاب کریں 0_deploy_llava.ipynb اسے JupyterLab میں کھولنے کے لیے۔
پر رن مینو، منتخب کریں تمام سیل چلائیں۔ اس نوٹ بک میں کوڈ چلانے کے لیے۔

یہ نوٹ بک LLaVA-v1.5-7B ماڈل کو SageMaker اینڈ پوائنٹ پر تعینات کرتی ہے۔ اس نوٹ بک میں، ہم HuggingFace Hub سے LLaVA-v1.5-7B ماڈل ڈاؤن لوڈ کرتے ہیں، inference.py اسکرپٹ کی جگہ llava_inference.py، اور اس ماڈل کے لیے ایک model.tar.gz فائل بنائیں۔ model.tar.gz فائل کو Amazon S3 پر اپ لوڈ کیا جاتا ہے اور SageMaker اینڈ پوائنٹ پر ماڈل کی تعیناتی کے لیے استعمال کیا جاتا ہے۔ دی llava_inference.py اسکرپٹ میں اضافی کوڈ ہے جو ایمیزون S3 سے تصویری فائل کو پڑھنے اور اس پر اندازہ چلانے کی اجازت دیتا ہے۔

میں سے انتخاب کریں 1_data_prep.ipynb اسے JupyterLab میں کھولنے کے لیے۔
پر رن مینو، منتخب کریں تمام سیل چلائیں۔ اس نوٹ بک میں کوڈ چلانے کے لیے۔

یہ نوٹ بک ڈاؤن لوڈ کرتی ہے۔ سلائیڈ ڈیک، ہر سلائیڈ کو JPG فائل فارمیٹ میں تبدیل کرتا ہے، اور اس پوسٹ کے لیے استعمال ہونے والی S3 بالٹی پر اپ لوڈ کرتا ہے۔

میں سے انتخاب کریں 2_data_ingestion.ipynb اسے JupyterLab میں کھولنے کے لیے۔
پر رن مینو، منتخب کریں تمام سیل چلائیں۔ اس نوٹ بک میں کوڈ چلانے کے لیے۔

ہم اس نوٹ بک میں درج ذیل کام کرتے ہیں:

ہم OpenSearch Serverless مجموعہ میں ایک انڈیکس بناتے ہیں۔ یہ انڈیکس سلائیڈ ڈیک کے لیے ایمبیڈنگ ڈیٹا کو اسٹور کرتا ہے۔ درج ذیل کوڈ دیکھیں:

session = boto3.Session()
credentials = session.get_credentials()
auth = AWSV4SignerAuth(credentials, g.AWS_REGION, g.OS_SERVICE) os_client = OpenSearch( hosts = [{'host': host, 'port': 443}], http_auth = auth, use_ssl = True, verify_certs = True, connection_class = RequestsHttpConnection, pool_maxsize = 20
) index_body = """
{ "settings": { "index.knn": true }, "mappings": { "properties": { "vector_embedding": { "type": "knn_vector", "dimension": 1024, "method": { "name": "hnsw", "engine": "nmslib", "parameters": {} } }, "image_path": { "type": "text" }, "metadata": { "properties": { "slide_filename": { "type": "text" }, "model_id": { "type": "text" }, "slide_description": { "type": "text" } } } } }
} """
index_body = json.loads(index_body)
try: response = os_client.indices.create(index_name, body=index_body) logger.info(f"response received for the create index -> {response}")
except Exception as e: logger.error(f"error in creating index={index_name}, exception={e}")

ہم پچھلی نوٹ بک میں بنائی گئی JPG امیجز کو ویکٹر ایمبیڈنگز میں تبدیل کرنے کے لیے Titan Multimodal Embeddings ماڈل استعمال کرتے ہیں۔ یہ ایمبیڈنگز اور اضافی میٹا ڈیٹا (جیسے امیج فائل کا S3 پاتھ) JSON فائل میں اسٹور کیا جاتا ہے اور Amazon S3 پر اپ لوڈ کیا جاتا ہے۔ نوٹ کریں کہ ایک واحد JSON فائل بنائی گئی ہے، جس میں ایمبیڈنگز میں تبدیل ہونے والی تمام سلائیڈز (تصاویر) کے لیے دستاویزات شامل ہیں۔ درج ذیل کوڈ کا ٹکڑا دکھاتا ہے کہ کس طرح ایک تصویر (بیس 64 انکوڈ شدہ سٹرنگ کی شکل میں) ایمبیڈنگز میں تبدیل ہوتی ہے۔

def get_multimodal_embeddings(bedrock: botocore.client, image: str) -> np.ndarray: body = json.dumps(dict(inputImage=image)) try: response = bedrock.invoke_model( body=body, modelId=g.FMC_MODEL_ID, accept=g.ACCEPT_ENCODING, contentType=g.CONTENT_ENCODING ) response_body = json.loads(response.get("body").read()) embeddings = np.array([response_body.get("embedding")]).astype(np.float32) except Exception as e: logger.error(f"exception while image(truncated)={image[:10]}, exception={e}") embeddings = None return embeddings

یہ کارروائی OpenSearch Ingestion پائپ لائن کو متحرک کرتی ہے، جو فائل پر کارروائی کرتی ہے اور اسے OpenSearch Serverless index میں داخل کرتی ہے۔ ذیل میں بنائی گئی JSON فائل کا نمونہ ہے۔ (مثال کے کوڈ میں چار جہتوں والا ایک ویکٹر دکھایا گیا ہے۔ ٹائٹن ملٹی موڈل ایمبیڈنگز ماڈل 1,024 ڈائمینشنز تیار کرتا ہے۔)

[ { "image_path": "s3://<your-bucket-name>/path/to/file1.json", "metadata": { "slide_filename": "mypowerpoint1.pptx", "model_id": "amazon.titan-embed-image-v1", "slide_description": "This is a test slide deck" }, "vector_embedding": [ 657.6052386529958, 0.8865137233123771, 763.870264592026 ] }
]

میں سے انتخاب کریں 3_rag_inference.ipynb اسے JupyterLab میں کھولنے کے لیے۔
پر رن مینو، منتخب کریں تمام سیل چلائیں۔ اس نوٹ بک میں کوڈ چلانے کے لیے۔

یہ نوٹ بک RAG کے حل کو نافذ کرتی ہے: ہم صارف کے سوال کو ایمبیڈنگز میں تبدیل کرتے ہیں، ویکٹر ڈیٹا بیس سے ملتی جلتی تصویر (سلائیڈ) تلاش کرتے ہیں، اور صارف کے سوال کا جواب پیدا کرنے کے لیے بازیافت شدہ تصویر LLaVA کو فراہم کرتے ہیں۔ ہم درج ذیل پرامپٹ ٹیمپلیٹ استعمال کرتے ہیں:

prompt_template: str = """Pretend that you are a helpful assistant that answers questions about content in a slide deck. Using only the information in the provided slide image answer the following question. If you do not find the answer in the image then say I did not find the answer to this question in the slide deck. {question} """

درج ذیل کوڈ کا ٹکڑا RAG ورک فلو فراہم کرتا ہے:

# create prompt and convert to embeddings
question: str = "As per the AI/ML flywheel, what do the AWS AI/ML services provide?"
prompt = prompt_template.format(question=question)
text_embeddings = get_text_embeddings(bedrock, question) # vector db search
vector_db_response: Dict = find_similar_data(text_embeddings) # download image for local notebook display
s3_img_path = vector_db_response.get('hits', {}).get('hits')[0].get('_source').get('image_path')
logger.info(f"going to answer the question="{question}" using the image "{s3_img_path}"") !aws s3 cp {s3_img_path} .
local_img_path = os.path.basename(s3_img_path)
display(Image(filename=local_img_path)) # Ask LLaVA
data = { "image" : s3_img_path, "question" : prompt, "temperature" : 0.1,
}
output = predictor.predict(data)
logger.info(f"Image={s3_img_path}nQuestion: {question}nAnswer: {output}nn")

نتائج کی نمائش

مندرجہ ذیل کچھ صارف کے سوالات اور ہمارے نفاذ سے پیدا ہونے والے جوابات کا ایک مجموعہ ہے۔ دی س کالم صارف کے سوال کو پکڑتا ہے، اور کا جواب کالم LLaVA کے ذریعہ تیار کردہ متنی جواب ہے۔ تصویر K-قریب ترین (k=1) سلائیڈ میچ ہے جو OpenSearch Serverless vector search کے ذریعے واپس کیا گیا ہے۔ اس سلائیڈ کی تشریح LLaVA نے جواب فراہم کرنے کے لیے کی ہے۔

ملٹی موڈل آر اے جی کے نتائج

س	کا جواب	تصویر
Inf2 کارکردگی میں موازنہ EC2 مثالوں سے کیسے موازنہ کرتا ہے؟ مجھے نمبر چاہیے	سلائیڈ ڈیک کے مطابق، AWS Inferentia2 کی Inf2 مثالیں موازنہ EC4 مثالوں کے مقابلے میں 10x زیادہ تھرو پٹ اور 2x کم لیٹنسی پیش کرتی ہیں۔
AI/ML فلائی وہیل کے مطابق، AWS AI/ML خدمات کیا فراہم کرتی ہیں؟	AWS AI/ML سروسز بہتر $/perfer صلاحیتیں، نئی صلاحیتیں، اور جدت طرازی میں سرمایہ کاری فراہم کرتی ہیں۔
GPT-2 کے مقابلے، GPT-3 میں کتنے اور پیرامیٹرز ہیں؟ GPT-2 اور GPT-3 کے پیرامیٹر سائز کے درمیان عددی فرق کیا ہے؟	سلائیڈ کے مطابق، GPT-3 میں 175 بلین پیرامیٹرز ہیں، جبکہ GPT-2 میں 1.5 بلین پیرامیٹرز ہیں۔ GPT-2 اور GPT-3 کے پیرامیٹر سائز کے درمیان عددی فرق 173.5 بلین ہے۔
پارٹیکل فزکس میں کوارک کیا ہیں؟	مجھے اس سوال کا جواب سلائیڈ ڈیک میں نہیں ملا۔

اس حل کو اپنے سلائیڈ ڈیک تک بڑھانے کے لیے آزاد محسوس کریں۔ اپنے سلائیڈ ڈیک پر URL کے ساتھ globals.py میں بس SLIDE_DECK متغیر کو اپ ڈیٹ کریں اور پچھلے سیکشن میں تفصیل سے ادخال کے مراحل کو چلائیں۔

ٹپ

آپ OpenSearch API کے ساتھ تعامل کرنے کے لیے OpenSearch Dashboards کا استعمال کر سکتے ہیں تاکہ آپ اپنے انڈیکس اور داخل کردہ ڈیٹا پر فوری ٹیسٹ چلائیں۔ مندرجہ ذیل اسکرین شاٹ ایک OpenSearch ڈیش بورڈ GET مثال دکھاتا ہے۔

اوپن سرچ ڈیش بورڈز کا منظر

صاف کرو

مستقبل کے چارجز سے بچنے کے لیے، اپنے بنائے ہوئے وسائل کو حذف کریں۔ آپ CloudFormation کنسول کے ذریعے اسٹیک کو حذف کر کے ایسا کر سکتے ہیں۔

CloudFormation اسٹیک کو حذف کرنا

مزید برآں، LLaVA انفرنسنگ کے لیے بنائے گئے SageMaker انفرنس اینڈ پوائنٹ کو حذف کریں۔ آپ صفائی کے مرحلے پر تبصرہ کر کے ایسا کر سکتے ہیں۔ 3_rag_inference.ipynb اور سیل چلا رہے ہیں، یا SageMaker کنسول کے ذریعے اختتامی نقطہ کو حذف کر کے: کا انتخاب کریں۔ ارادہ اور اختتامی نکات نیویگیشن پین میں، پھر اختتامی نقطہ کو منتخب کریں اور اسے حذف کریں۔

نتیجہ

انٹرپرائزز ہر وقت نیا مواد تیار کرتے ہیں، اور سلائیڈ ڈیک ایک عام طریقہ کار ہے جو معلومات کو اندرونی طور پر تنظیم کے ساتھ اور بیرونی طور پر صارفین کے ساتھ یا کانفرنسوں میں بانٹنے اور پھیلانے کے لیے استعمال ہوتا ہے۔ وقت گزرنے کے ساتھ، بھرپور معلومات ان سلائیڈ ڈیکوں میں گراف اور ٹیبل جیسے غیر متنی طریقوں میں دفن اور پوشیدہ رہ سکتی ہیں۔ آپ اس حل اور ملٹی موڈل FMs کی طاقت جیسے Titan Multimodal Embeddings ماڈل اور LLaVA کو نئی معلومات دریافت کرنے یا سلائیڈ ڈیکس میں مواد پر نئے تناظر کو سامنے لانے کے لیے استعمال کر سکتے ہیں۔

ہم آپ کو دریافت کرکے مزید جاننے کی ترغیب دیتے ہیں۔ ایمیزون سیج میکر جمپ اسٹارٹ, ایمیزون ٹائٹن ماڈلز، Amazon Bedrock، اور OpenSearch سروس، اور اس پوسٹ میں فراہم کردہ نمونے کے نفاذ کا استعمال کرتے ہوئے ایک حل تیار کرنا۔

اس سلسلے کے حصے کے طور پر دو اضافی پوسٹس تلاش کریں۔ حصہ 2 ایک اور طریقہ کا احاطہ کرتا ہے جسے آپ اپنے سلائیڈ ڈیک سے بات کرنے کے لیے اختیار کر سکتے ہیں۔ یہ نقطہ نظر ایل ایل اے وی اے کے انفرنسز کو تیار اور اسٹور کرتا ہے اور صارف کے سوالات کا جواب دینے کے لیے ان ذخیرہ شدہ قیاسات کا استعمال کرتا ہے۔ حصہ 3 دونوں طریقوں کا موازنہ کرتا ہے۔

مصنفین کے بارے میں

Talk to your slide deck using multimodal foundation models hosted on Amazon Bedrock and Amazon SageMaker – Part 1 | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. امیت اروڑا ایمیزون ویب سروسز میں ایک AI اور ML ماہر آرکیٹیکٹ ہے، جو انٹرپرائز صارفین کو کلاؤڈ بیسڈ مشین لرننگ سروسز استعمال کرنے میں مدد کرتا ہے تاکہ وہ اپنی اختراعات کو تیزی سے پیمانہ کرسکیں۔ وہ واشنگٹن ڈی سی میں جارج ٹاؤن یونیورسٹی میں ایم ایس ڈیٹا سائنس اور تجزیاتی پروگرام میں منسلک لیکچرر بھی ہیں۔

Talk to your slide deck using multimodal foundation models hosted on Amazon Bedrock and Amazon SageMaker – Part 1 | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. منجو پرساد ایمیزون ویب سروسز میں اسٹریٹجک اکاؤنٹس کے اندر ایک سینئر حل آرکیٹیکٹ ہے۔ وہ متعدد ڈومینز میں تکنیکی رہنمائی فراہم کرنے پر توجہ مرکوز کرتی ہے، بشمول ایک مارکی M&E کسٹمر کو AI/ML۔ AWS میں شامل ہونے سے پہلے، اس نے مالیاتی خدمات کے شعبے میں کمپنیوں اور ایک اسٹارٹ اپ کے لیے بھی حل تیار کیے اور بنائے۔

Talk to your slide deck using multimodal foundation models hosted on Amazon Bedrock and Amazon SageMaker – Part 1 | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. ارچنا اناپڈی AWS میں ایک سینئر سولیوشن آرکیٹیکٹ ہے جو اسٹریٹجک صارفین کی حمایت کرتا ہے۔ اس کے پاس ایک دہائی سے زیادہ کا تجربہ ہے جس میں صارفین کو ڈیٹا اینالیٹکس اور ڈیٹا بیس سلوشنز ڈیزائن اور بنانے میں مدد ملتی ہے۔ وہ صارفین کو قدر فراہم کرنے اور کاروباری نتائج حاصل کرنے کے لیے ٹیکنالوجی کے استعمال کے بارے میں پرجوش ہے۔

Talk to your slide deck using multimodal foundation models hosted on Amazon Bedrock and Amazon SageMaker – Part 1 | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. اندرا رئیسہ ایمیزون ویب سروسز میں ایک AI اور ML سلوشنز آرکیٹیکٹ ہے جو ڈلاس، ٹیکساس سے باہر کے اسٹریٹجک صارفین کی مدد کرتا ہے۔ اس کے پاس AWS میں بڑے انٹرپرائز پارٹنرز کے ساتھ کام کرنے کا پچھلا تجربہ بھی ہے، جہاں اس نے ڈیجیٹل مقامی صارفین کے لیے ایک پارٹنر کامیابی کے حل آرکیٹیکٹ کے طور پر کام کیا۔

SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
ماخذ: https://aws.amazon.com/blogs/machine-learning/talk-to-your-slide-deck-using-multimodal-foundation-models-hosted-on-amazon-bedrock-and-amazon-sagemaker-part-1/

ٹائم اسٹیمپ: جنوری۳۱، ۲۰۱۹

ٹائم اسٹیمپ: جون 5، 2023

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

ایمیزون سیج میکر شیڈو ٹیسٹنگ کے ساتھ ایم ایل ماڈل اپ ڈیٹس کے پیداواری اثر کو کم سے کم کریں۔

فورٹونا کا تعارف: غیر یقینی صورتحال کی مقدار کے لیے ایک لائبریری

ڈویلپر کی پیداواری صلاحیت کو بڑھانا: ڈیلوئٹ ایمیزون سیج میکر کینوس کو بغیر کوڈ/لو کوڈ مشین لرننگ کے لیے کیسے استعمال کرتا ہے ایمیزون ویب سروسز

Amazon SageMaker کے ساتھ صحت کی دیکھ بھال کے لیے خلاصہ کے اختیارات کی تلاش | ایمیزون ویب سروسز

کس طرح Patsnap نے Amazon SageMaker پر GPT-2 کا اندازہ کم تاخیر اور لاگت کے ساتھ استعمال کیا۔ ایمیزون ویب سروسز

AWS Inferentia کا استعمال کرتے ہوئے پیمانے پر دماغ کے ٹیومر کی تقسیم

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ