خود مختار ڈرائیونگ ایپلی کیشنز کے لیے فاؤنڈیشنل وژن ماڈلز اور ویژول پرامپٹ انجینئرنگ | ایمیزون ویب سروسز

خود مختار ڈرائیونگ ایپلی کیشنز کے لیے فاؤنڈیشنل وژن ماڈلز اور ویژول پرامپٹ انجینئرنگ | ایمیزون ویب سروسز

پرامپٹ انجینئرنگ بڑے لینگویج ماڈلز (LLMs) کے ساتھ کام کرنے والے ہر فرد کے لیے اعلیٰ معیار اور متعلقہ تحریریں تیار کرنے کے لیے ایک لازمی مہارت بن گئی ہے۔ اگرچہ ٹیکسٹ پرامپٹ انجینئرنگ پر بڑے پیمانے پر بحث کی گئی ہے، بصری پرامپٹ انجینئرنگ ایک ابھرتا ہوا شعبہ ہے جس پر توجہ کی ضرورت ہے۔ بصری اشارے میں باؤنڈنگ بکس یا ماسک شامل ہو سکتے ہیں جو متعلقہ اور درست نتائج پیدا کرنے میں وژن ماڈلز کی رہنمائی کرتے ہیں۔ اس پوسٹ میں، ہم بصری پرامپٹ انجینئرنگ کی بنیادی باتوں، اس کے فوائد، اور اسے استعمال کرنے کے مخصوص کیس کو حل کرنے کے لیے کیسے استعمال کیا جا سکتا ہے: خود مختار ڈرائیونگ کے لیے تصویر کی تقسیم۔

حالیہ برسوں میں، کمپیوٹر وژن کے میدان نے تصویری تقسیم کے شعبے میں نمایاں پیش رفت دیکھی ہے۔ ایسی ہی ایک پیش رفت ہے۔ کسی بھی چیز کے ماڈل (SAM) کو سیگمنٹ کریں Meta AI کے ذریعے، جو زیرو شاٹ یا چند شاٹ ٹریننگ کے ساتھ آبجیکٹ لیول سیگمنٹیشن میں انقلاب لانے کی صلاحیت رکھتا ہے۔ اس پوسٹ میں، ہم SAM ماڈل کو بطور مثال فاؤنڈیشن وژن ماڈل استعمال کرتے ہیں اور اس کے اطلاق کو دریافت کرتے ہیں۔ BDD100K ڈیٹاسیٹمتضاد ملٹی ٹاسک سیکھنے کے لیے ایک متنوع خود مختار ڈرائیونگ ڈیٹاسیٹ۔ BDD100K کی طرف سے فراہم کردہ بھرپور ڈیٹا کے ساتھ SAM کی خوبیوں کو ملا کر، ہم SAM کے مختلف ورژن کے ساتھ بصری پرامپٹ انجینئرنگ کی صلاحیت کو ظاہر کرتے ہیں۔ کی طرف سے حوصلہ افزائی لینگ چین لینگویج ماڈلز کے لیے فریم ورک، ہم SAM کے ساتھ آبجیکٹ ڈٹیکشن ماڈلز کو ملا کر بصری پرامپٹنگ انجام دینے کے لیے ایک بصری سلسلہ تجویز کرتے ہیں۔

اگرچہ یہ پوسٹ خود مختار ڈرائیونگ پر توجہ مرکوز کرتی ہے، زیر بحث تصورات وسیع پیمانے پر ان ڈومینز پر لاگو ہوتے ہیں جن میں صحت کی دیکھ بھال اور لائف سائنسز، اور میڈیا اور تفریح ​​جیسی بھرپور وژن پر مبنی ایپلی کیشنز ہیں۔ آئیے اس بارے میں تھوڑا سا مزید سیکھنے سے شروع کریں کہ SAM جیسے بنیادی وژن ماڈل کے تحت کیا ہے۔ ہم نے استعمال کیا ایمیزون سیج میکر اسٹوڈیو اس پوسٹ کے لیے ایک ml.g5.16x بڑی مثال پر۔

کسی بھی چیز کے ماڈل (SAM) کو سیگمنٹ کریں

فاؤنڈیشن ماڈلز بڑے مشین لرننگ (ML) ماڈلز ہیں جنہیں ڈیٹا کی وسیع مقدار پر تربیت دی جاتی ہے اور انہیں کام کے مخصوص استعمال کے معاملات کے لیے اشارہ کیا جا سکتا ہے۔ یہاں، ہم Segment Anything Model (SAM) کو دریافت کرتے ہیں، جو بصارت کے لیے ایک بنیادی ماڈل ہے، خاص طور پر تصویر کی تقسیم۔ یہ 11 ملین امیجز اور 1.1 بلین ماسک کے بڑے ڈیٹاسیٹ پر پہلے سے تربیت یافتہ ہے، جو اسے تحریری طور پر سب سے بڑا سیگمنٹیشن ڈیٹاسیٹ بناتا ہے۔ یہ وسیع ڈیٹاسیٹ اشیاء اور زمروں کی ایک وسیع رینج کا احاطہ کرتا ہے، SAM کو متنوع اور بڑے پیمانے پر تربیتی ڈیٹا کا ذریعہ فراہم کرتا ہے۔

SAM ماڈل کو اشیاء کو سمجھنے کے لیے تربیت دی جاتی ہے اور وہ تصاویر یا ویڈیو فریموں میں کسی بھی چیز کے لیے سیگمنٹیشن ماسک آؤٹ پٹ کر سکتا ہے۔ ماڈل بصری پرامپٹ انجینئرنگ کی اجازت دیتا ہے، جو آپ کو متن، پوائنٹس، باؤنڈنگ باکسز، یا ماسک جیسے ان پٹ فراہم کرنے کے قابل بناتا ہے تاکہ اصل تصویر کو تبدیل کیے بغیر لیبل تیار کیا جا سکے۔ SAM تین سائزوں میں دستیاب ہے: بیس (ViT-B، 91 ملین پیرامیٹرز)، بڑے (ViT-L، 308 ملین پیرامیٹرز)، اور بہت بڑا (ViT-H، 636 ملین پیرامیٹرز)، مختلف کمپیوٹیشنل ضروریات اور استعمال کے معاملات کو پورا کرتا ہے۔

SAM کے پیچھے بنیادی محرک کسی بھی دلچسپی کی اشیاء کے لیے کم سے کم تربیتی نمونوں اور عہدوں کے ساتھ آبجیکٹ لیول سیگمنٹیشن کو بہتر بنانا ہے۔ SAM کی طاقت اس کی نئی تصویری تقسیم اور کاموں کو پیشگی معلومات کے بغیر ڈھالنے کی صلاحیت میں مضمر ہے، ایک خصوصیت جسے کہا جاتا ہے۔ صفر شاٹ کی منتقلی. یہ موافقت وسیع SA-1B ڈیٹاسیٹ پر اس کی تربیت کے ذریعے حاصل کی گئی ہے، جس نے زیرو شاٹ کی متاثر کن کارکردگی کا مظاہرہ کیا ہے، بہت سے پہلے مکمل طور پر زیر نگرانی نتائج کو پیچھے چھوڑ دیا ہے۔

جیسا کہ SAM کے لیے درج ذیل فن تعمیر میں دکھایا گیا ہے، سیگمنٹیشن ماسک بنانے کے عمل میں تین مراحل شامل ہیں:

  1. ایک امیج انکوڈر امیج کے لیے ایک بار ایمبیڈنگ کرتا ہے۔
  2. ایک پرامپٹ انکوڈر کسی بھی پرامپٹ کو پرامپٹ کے لیے ایمبیڈنگ ویکٹر میں بدل دیتا ہے۔
  3. ہلکا پھلکا ڈیکوڈر امیج انکوڈر اور پرامپٹ انکوڈر سے معلومات کو یکجا کرتا ہے تاکہ سیگمنٹیشن ماسک کی پیشن گوئی کی جا سکے۔

مثال کے طور پر، ہم اس تصویر میں دلچسپی کی کسی چیز کے ارد گرد ایک تصویر اور باؤنڈنگ باکس کے ساتھ ایک ان پٹ فراہم کر سکتے ہیں (مثلاً سلور کار یا ڈرائیونگ لین) اور SAM ماڈل اس چیز کے لیے سیگمنٹیشن ماسک تیار کرے گا۔

خود مختار ڈرائیونگ ایپلی کیشنز کے لیے فاؤنڈیشنل وژن ماڈلز اور ویژول پرامپٹ انجینئرنگ | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

بصری پرامپٹ انجینئرنگ

پرامپٹ انجینئرنگ سے مراد ایک ایسے ماڈل میں ان پٹ کی ساخت بنانا ہے جو ماڈل کو ارادے کو سمجھتا ہے اور مطلوبہ نتیجہ پیدا کرتا ہے۔ ٹیکسٹچوئل پرامپٹ انجینئرنگ کے ساتھ، آپ مطلوبہ آؤٹ پٹ حاصل کرنے کے لیے الفاظ کا انتخاب، فارمیٹنگ، آرڈرنگ، اور بہت کچھ میں ترمیم کے ذریعے ان پٹ ٹیکسٹ کی ساخت بنا سکتے ہیں۔ بصری پرامپٹ انجینئرنگ یہ فرض کرتی ہے کہ صارف بصری وضع (تصویر یا ویڈیو) میں کام کر رہا ہے، اور ان پٹ فراہم کرتا ہے۔ ذیل میں بصری ڈومین میں جنریٹیو AI ماڈل کو ان پٹ فراہم کرنے کے ممکنہ طریقوں کی ایک غیر مکمل فہرست ہے:

  • پوائنٹ - تصویری جہاز میں ایک واحد (x, y) کوآرڈینیٹ پوائنٹ
  • پوائنٹس - ایک سے زیادہ (x, y) کوآرڈینیٹ پوائنٹس، ضروری نہیں کہ ایک دوسرے سے متعلق ہوں۔
  • باؤنڈنگ باکس - چار اقدار کا ایک مجموعہ (x, y, w, h) جو تصویری جہاز میں مستطیل خطہ کی وضاحت کرتا ہے۔
  • کونٹور - تصویری جہاز میں (x, y) کوآرڈینیٹ پوائنٹس کا ایک سیٹ جو ایک بند شکل بناتا ہے۔
  • ماسک - دلچسپی کی چیز کے جزوی ماسک کے ساتھ تصویر کے برابر سائز کی ایک صف

بصری پرامپٹ انجینئرنگ تکنیک کو ذہن میں رکھتے ہوئے، آئیے یہ دریافت کریں کہ اسے SAM کے پہلے سے تربیت یافتہ ماڈل پر کیسے لاگو کیا جا سکتا ہے۔ ہم نے پہلے سے تربیت یافتہ ماڈل کا بنیادی ورژن استعمال کیا ہے۔

پہلے سے تربیت یافتہ SAM ماڈل کے ساتھ زیرو شاٹ پرامپٹنگ

شروع کرنے کے لیے، آئیے زیرو شاٹ اپروچ کو دریافت کریں۔ گاڑی کے فرنٹ کیمرہ سے لی گئی ٹریننگ ڈیٹاسیٹ کی ایک نمونہ تصویر درج ذیل ہے۔

خود مختار ڈرائیونگ ایپلی کیشنز کے لیے فاؤنڈیشنل وژن ماڈلز اور ویژول پرامپٹ انجینئرنگ | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

ہم تصویر سے تمام اشیاء کے لیے سیگمنٹیشن ماسک حاصل کر سکتے ہیں بغیر کسی واضح بصری اشارے کے خود بخود ماسک تیار کرنا صرف ایک ان پٹ امیج کے ساتھ۔ مندرجہ ذیل تصویر میں، ہم دیکھتے ہیں کہ کار کے پرزے، سڑک، ٹریفک کے نشان، لائسنس پلیٹس، فلائی اوور، ستون، نشانات اور بہت کچھ الگ الگ ہے۔

خود مختار ڈرائیونگ ایپلی کیشنز کے لیے فاؤنڈیشنل وژن ماڈلز اور ویژول پرامپٹ انجینئرنگ | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

تاہم، یہ آؤٹ پٹ درج ذیل وجوہات کی بنا پر فوری طور پر مفید نہیں ہے۔

  • کاروں کو مجموعی طور پر نہیں بلکہ حصوں میں تقسیم کیا گیا ہے۔ زیادہ تر پرسیپشن ماڈلز کے لیے، مثال کے طور پر، ہمیں ہر ایک ٹائر کے الگ الگ آؤٹ پٹ ماسک کی پرواہ نہیں ہے۔ یہ اس وقت درست ہے جب دلچسپی کی دیگر معروف اشیاء کو بھی تلاش کریں، جیسے سڑک، پودوں، نشانات وغیرہ۔
  • تصویر کے وہ حصے جو بہاو کے کاموں کے لیے کارآمد ہیں جیسے کہ ڈرائیو ایبل ایریا، بغیر کسی وضاحت کے تقسیم ہو گئے ہیں۔ دوسری طرف، اسی طرح کی مثالوں کی الگ الگ شناخت کی جاتی ہے، اور ہم ملتے جلتے اشیاء کو گروپ کرنے میں دلچسپی لے سکتے ہیں (پینوپٹک بمقابلہ مثال کی تقسیم)۔

پہلے سے تربیت یافتہ SAM ماڈل کے ساتھ بصری پرامپٹ انجینئرنگ

خوش قسمتی سے، SAM ان پٹ پرامپٹ فراہم کرنے کی حمایت کرتا ہے، اور ہم پوائنٹس، پوائنٹ اری، اور باؤنڈنگ بکس کو بطور ان پٹ استعمال کر سکتے ہیں۔ ان مخصوص ہدایات کے ساتھ، ہم توقع کرتے ہیں کہ SAM مخصوص پوائنٹس یا علاقوں پر فوکس کرتے ہوئے سیگمنٹیشنز کے ساتھ بہتر کام کرے گا۔ اس کا موازنہ لینگویج پرامپٹ ٹیمپلیٹ سے کیا جا سکتا ہے۔
"What is a good name for a company that makes {product}?"
جہاں صارف کی طرف سے اس پرامپٹ ٹیمپلیٹ کے ساتھ ان پٹ ہے۔ {product}. {product} ایک ان پٹ سلاٹ ہے۔ بصری اشارہ میں، باؤنڈنگ بکس، پوائنٹس، یا ماسک ان پٹ سلاٹ ہیں۔

مندرجہ ذیل تصویر گاڑیوں کے ارد گرد اصل زمینی سچائی باؤنڈنگ باکس اور BDD100K زمینی سچائی کے اعداد و شمار سے ڈرائیو ایبل ایریا پیچ فراہم کرتی ہے۔ تصویر سبز باؤنڈنگ باکس کے بیچ میں ایک ان پٹ پوائنٹ (ایک پیلا X) بھی دکھاتی ہے جس کا ہم اگلے چند حصوں میں حوالہ دیں گے۔

خود مختار ڈرائیونگ ایپلی کیشنز کے لیے فاؤنڈیشنل وژن ماڈلز اور ویژول پرامپٹ انجینئرنگ | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

آئیے SAM میں ان پٹ کے طور پر گرین باؤنڈنگ باکس کے ساتھ بائیں طرف کار کے لیے ایک ماسک بنانے کی کوشش کرتے ہیں۔ جیسا کہ مندرجہ ذیل مثال میں دکھایا گیا ہے، SAM کے بیس ماڈل کو واقعی کچھ نہیں ملتا ہے۔ یہ کم سیگمنٹیشن سکور میں بھی دیکھا جاتا ہے۔ جب ہم سیگمنٹیشن ماسکس کو زیادہ قریب سے دیکھتے ہیں، تو ہم دیکھتے ہیں کہ ماسک کے طور پر واپس آنے والے چھوٹے علاقے ہیں (سرخ تیروں کے استعمال کی طرف اشارہ کیا گیا ہے) جو کہ کسی بھی بہاو والے ایپلی کیشن کے لیے واقعی قابل استعمال نہیں ہیں۔

خود مختار ڈرائیونگ ایپلی کیشنز کے لیے فاؤنڈیشنل وژن ماڈلز اور ویژول پرامپٹ انجینئرنگ | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

آئیے ایک باؤنڈنگ باکس اور ایک پوائنٹ کو ان پٹ ویژول پرامپٹ کے طور پر ملانے کی کوشش کریں۔ پچھلی تصویر میں پیلا کراس باؤنڈنگ باکس کا مرکز ہے۔ باؤنڈنگ باکس کی رکاوٹ کے ساتھ پرامپٹ کے طور پر اس پوائنٹ (x,y) کوآرڈینیٹ فراہم کرنے سے ہمیں مندرجہ ذیل ماسک اور قدرے زیادہ سکور ملتا ہے۔ یہ اب بھی کسی بھی طرح سے قابل استعمال نہیں ہے۔

خود مختار ڈرائیونگ ایپلی کیشنز کے لیے فاؤنڈیشنل وژن ماڈلز اور ویژول پرامپٹ انجینئرنگ | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

آخر میں، پہلے سے تربیت یافتہ ماڈل کے ساتھ، ہم صرف ان پٹ پوائنٹ کو پرامپٹ کے طور پر فراہم کر سکتے ہیں (باؤنڈنگ باکس کے بغیر)۔ درج ذیل تصاویر میں سرفہرست تین میں سے دو ماسک دکھائے گئے ہیں جن کے بارے میں ہمارے خیال میں دلچسپ تھا۔

خود مختار ڈرائیونگ ایپلی کیشنز کے لیے فاؤنڈیشنل وژن ماڈلز اور ویژول پرامپٹ انجینئرنگ | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

ماسک 1 پوری کار کو سیگمنٹ کرتا ہے، جبکہ ماسک 3 ایک ایسے حصے کو الگ کرتا ہے جو کار کی نمبر پلیٹ کو پیلے رنگ کے کراس (ان پٹ پرامپٹ) کے قریب رکھتا ہے۔ ماسک 1 اب بھی کار کے ارد گرد ایک تنگ، صاف ماسک نہیں ہے؛ یہ ماڈل کے معیار کی طرف اشارہ کرتا ہے، جسے ہم ماڈل کے سائز کے ساتھ بڑھنے کا اندازہ لگا سکتے ہیں۔

ہم ایک ہی ان پٹ پرامپٹ کے ساتھ بڑے پہلے سے تربیت یافتہ ماڈل آزما سکتے ہیں۔ درج ذیل تصاویر ہمارے نتائج کو ظاہر کرتی ہیں۔ SAM کے پہلے سے تربیت یافتہ ماڈل کا استعمال کرتے وقت، ماسک 3 پوری کار ہے، جبکہ ماسک 1 اور 2 کو نمبر پلیٹ نکالنے کے لیے استعمال کیا جا سکتا ہے۔

خود مختار ڈرائیونگ ایپلی کیشنز کے لیے فاؤنڈیشنل وژن ماڈلز اور ویژول پرامپٹ انجینئرنگ | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

SAM ماڈل کا بڑا ورژن بھی اسی طرح کے آؤٹ پٹ فراہم کرتا ہے۔

ہم یہاں جس عمل سے گزرے ہیں وہ متن کے اشارے کے لیے مینوئل پرامپٹ انجینئرنگ جیسا ہے جس سے آپ پہلے سے واقف ہوں گے۔ نوٹ کریں کہ SAM ماڈل میں کسی بھی چیز کو اعلیٰ معیار میں تقسیم کرنے کے لیے حالیہ بہتری بہت بہتر آبجیکٹ اور سیاق و سباق سے متعلق مخصوص آؤٹ پٹ فراہم کرتی ہے۔ ہمارے معاملے میں، ہم دیکھتے ہیں کہ متن اور بصری اشارے (پوائنٹ، باکس، اور پوائنٹ اور باکس ان پٹ) کے ساتھ زیرو شاٹ پرامپٹنگ سے نتائج میں تیزی سے بہتری نہیں آتی جیسا کہ ہم نے اوپر دیکھا۔

فوری ٹیمپلیٹس اور بصری زنجیریں۔

جیسا کہ ہم سابقہ ​​زیرو شاٹ مثالوں سے دیکھ سکتے ہیں، SAM منظر میں موجود تمام اشیاء کی شناخت کے لیے جدوجہد کرتا ہے۔ یہ ایک اچھی مثال ہے جہاں ہم فوری ٹیمپلیٹس اور بصری زنجیروں سے فائدہ اٹھا سکتے ہیں۔ بصری سلسلہ زبان کے استعمال کے لیے مقبول LangChain فریم ورک میں چین کے تصور سے متاثر ہے۔ یہ اعداد و شمار کے ذرائع اور ایل ایل ایم کو آؤٹ پٹ تیار کرنے میں مدد کرتا ہے۔ مثال کے طور پر، ہم API کو کال کرنے کے لیے ایک API چین کا استعمال کر سکتے ہیں اور API کے جواب کی بنیاد پر سوال کا جواب دینے کے لیے LLM کی درخواست کر سکتے ہیں۔

LangChain سے متاثر ہو کر، ہم ایک ترتیب وار بصری سلسلہ تجویز کرتے ہیں جو کہ مندرجہ ذیل شکل کی طرح نظر آتی ہے۔ ہم ابتدائی باؤنڈنگ بکس حاصل کرنے کے لیے ایک ٹول (جیسے پہلے سے تربیت یافتہ آبجیکٹ کا پتہ لگانے والے ماڈل) کا استعمال کرتے ہیں، باؤنڈنگ باکس کے مرکز میں پوائنٹ کا حساب لگاتے ہیں، اور اس کا استعمال SAM ماڈل کو ان پٹ امیج کے ساتھ کرنے کے لیے کرتے ہیں۔

خود مختار ڈرائیونگ ایپلی کیشنز کے لیے فاؤنڈیشنل وژن ماڈلز اور ویژول پرامپٹ انجینئرنگ | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

مثال کے طور پر، مندرجہ ذیل تصویر اس سلسلہ کو چلانے کے نتیجے میں سیگمنٹیشن ماسک دکھاتی ہے۔

خود مختار ڈرائیونگ ایپلی کیشنز کے لیے فاؤنڈیشنل وژن ماڈلز اور ویژول پرامپٹ انجینئرنگ | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

ایک اور مثال کے سلسلے میں اس چیز کا ٹیکسٹ ان پٹ شامل ہوسکتا ہے جس کی شناخت کرنے میں صارف دلچسپی رکھتا ہے۔ اس کو نافذ کرنے کے لیے، ہم نے استعمال کرتے ہوئے ایک پائپ لائن بنائی DINO کو گراؤنڈ کرنا، ایک آبجیکٹ کا پتہ لگانے والا ماڈل جو SAM کو سیگمنٹیشن کے لیے پرامپٹ کرتا ہے۔

خود مختار ڈرائیونگ ایپلی کیشنز کے لیے فاؤنڈیشنل وژن ماڈلز اور ویژول پرامپٹ انجینئرنگ | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

گراؤنڈنگ DINO ایک زیرو شاٹ آبجیکٹ کا پتہ لگانے والا ماڈل ہے جو زمرہ کے نام (جیسے "ٹریفک لائٹس" یا "ٹرک") اور تاثرات (جیسے "پیلا ٹرک") فراہم کرنے والے متن کے ساتھ آبجیکٹ کا پتہ لگا سکتا ہے۔ یہ آبجیکٹ کا پتہ لگانے کے لیے متن اور تصویر کے جوڑے کو قبول کرتا ہے۔ یہ ایک ٹرانسفارمر فن تعمیر پر مبنی ہے اور متن اور تصویری ڈیٹا کے ساتھ کراس موڈیلیٹیز کو قابل بناتا ہے۔ Grounding DINO کے بارے میں مزید جاننے کے لیے، رجوع کریں۔ گراؤنڈنگ ڈائنو: اوپن سیٹ آبجیکٹ کا پتہ لگانے کے لیے گراؤنڈ پری ٹریننگ کے ساتھ ڈائنو سے شادی کرنا. یہ باؤنڈنگ باکسز اور لیبلز تیار کرتا ہے اور سینٹر پوائنٹس، لیبلز، تھریشولڈز اور مزید کی بنیاد پر فلٹر بنانے کے لیے مزید کارروائی کی جا سکتی ہے۔ اس کا استعمال (بکس یا پوائنٹس) کو سیگمنٹیشن کے لیے SAM کے پرامپٹ کے طور پر کیا جاتا ہے، جو ماسک کو آؤٹ پٹ کرتا ہے۔

درج ذیل کچھ مثالیں ہیں جو ان پٹ ٹیکسٹ، DINO آؤٹ پٹ (باؤنڈنگ بکس) اور فائنل SAM آؤٹ پٹ (سیگمنٹیشن ماسک) کو دکھاتی ہیں۔

مندرجہ ذیل تصاویر "پیلا ٹرک" کا آؤٹ پٹ دکھاتی ہیں۔

خود مختار ڈرائیونگ ایپلی کیشنز کے لیے فاؤنڈیشنل وژن ماڈلز اور ویژول پرامپٹ انجینئرنگ | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

مندرجہ ذیل تصاویر "سلور کار" کا آؤٹ پٹ دکھاتی ہیں۔

خود مختار ڈرائیونگ ایپلی کیشنز کے لیے فاؤنڈیشنل وژن ماڈلز اور ویژول پرامپٹ انجینئرنگ | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

مندرجہ ذیل تصویر "ڈرائیونگ لین" کا آؤٹ پٹ دکھاتی ہے۔

خود مختار ڈرائیونگ ایپلی کیشنز کے لیے فاؤنڈیشنل وژن ماڈلز اور ویژول پرامپٹ انجینئرنگ | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

ہم اس پائپ لائن کو بصری زنجیر بنانے کے لیے استعمال کر سکتے ہیں۔ درج ذیل کوڈ کا ٹکڑا اس تصور کی وضاحت کرتا ہے:

pipeline = [object_predictor, segment_predictor]
image_chain = ImageChain.from_visual_pipeline(pipeline, image_store, verbose=True)
image_chain.run('All silver cars', image_id='5X3349')

اگرچہ یہ ایک سادہ سی مثال ہے، اس تصور کو گاڑیوں کے کیمروں سے فیڈ پر کارروائی کرنے کے لیے بڑھایا جا سکتا ہے تاکہ آبجیکٹ ٹریکنگ، ذاتی طور پر قابل شناخت معلومات (PII) ڈیٹا ریڈیکشن اور مزید بہت کچھ کیا جا سکے۔ ہم چھوٹے ماڈلز سے، یا بعض صورتوں میں، معیاری کمپیوٹر ویژن ٹولز کا استعمال کرتے ہوئے باؤنڈنگ بکس بھی حاصل کر سکتے ہیں۔ اپنے پرامپٹ کے لیے ابتدائی (بصری) لیبل حاصل کرنے کے لیے پہلے سے تربیت یافتہ ماڈل یا Amazon Recognition جیسی سروس کا استعمال کرنا کافی سیدھا ہے۔ یہ لکھنے کے وقت، آبجیکٹ کا پتہ لگانے کے لیے Amazon SageMaker Jumpstart پر 70 سے زیادہ ماڈلز دستیاب ہیں، اور ایمیزون پہچان۔ پہلے سے ہی تصاویر میں اشیاء کی کئی مفید اقسام کی نشاندہی کرتا ہے، بشمول کاریں، پیدل چلنے والے، اور دیگر گاڑیاں۔

اگلا، ہم BDD100K ڈیٹا کے سب سیٹ کے ساتھ SAM ماڈلز کی کارکردگی سے متعلق کچھ مقداری نتائج کو دیکھتے ہیں۔

مقداری نتائج

ہمارا مقصد تین پہلے سے تربیت یافتہ ماڈلز کی کارکردگی کا موازنہ کرنا ہے جب ایک ہی بصری اشارہ دیا جائے۔ اس صورت میں، ہم بصری ان پٹ کے طور پر آبجیکٹ لوکیشن کے سینٹر پوائنٹ کو استعمال کرتے ہیں۔ ہم کارکردگی کا موازنہ آبجیکٹ کے سائز (تصویر کے سائز کے تناسب سے) — چھوٹے (رقبہ <0.11%)، درمیانے (0.11% <رقبہ <1%)، اور بڑے (رقبہ> 1%) کے حوالے سے کرتے ہیں۔ باؤنڈنگ باکس ایریا تھریشولڈز کی تعریف کامن آبجیکٹ ان سیاق و سباق (COCO) سے ہوتی ہے۔ تشخیص میٹرکس [لن وغیرہ، 2014]۔

تشخیص پکسل کی سطح پر ہے اور ہم درج ذیل تشخیصی میٹرکس استعمال کرتے ہیں:

  • درستگی = (متعلقہ اور بازیافت شدہ مثالوں کی تعداد) / (بازیافت شدہ مثالوں کی کل تعداد)
  • یاد کریں = (متعلقہ اور بازیافت مثالوں کی تعداد) / (متعلقہ مثالوں کی کل تعداد)
  • یہاں کی مثالیں دلچسپی کی چیز کے باؤنڈنگ باکس کے اندر ہر ایک پکسل ہیں۔

مندرجہ ذیل جدول SAM ماڈل کے تین مختلف ورژن (بیس، بڑا، اور بہت بڑا) کی کارکردگی کی رپورٹ کرتا ہے۔ ان ورژنز میں تین مختلف انکوڈرز ہیں: ViT-B (بیس)، ViT-L (بڑا)، ViT-H (بڑا)۔ انکوڈرز میں مختلف پیرامیٹر شمار ہوتے ہیں، جہاں بیس ماڈل میں بڑے سے کم پیرامیٹر ہوتے ہیں، اور بڑے بڑے سے کم ہوتے ہیں۔ اگرچہ پیرامیٹرز کی تعداد میں اضافہ بڑی اشیاء کے ساتھ بہتر کارکردگی کو ظاہر کرتا ہے، لیکن چھوٹی اشیاء کے لیے ایسا نہیں ہے۔

خود مختار ڈرائیونگ ایپلی کیشنز کے لیے فاؤنڈیشنل وژن ماڈلز اور ویژول پرامپٹ انجینئرنگ | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

آپ کے استعمال کے کیس کے لیے SAM کو ٹھیک کرنا

بہت سے معاملات میں، براہ راست پہلے سے تربیت یافتہ SAM ماڈل کا استعمال زیادہ مفید نہیں ہو سکتا۔ مثال کے طور پر، آئیے ٹریفک میں ایک عام منظر دیکھیں— درج ذیل تصویر SAM ماڈل کی آؤٹ پٹ ہے جس میں تصادفی طور پر نمونے والے پرامپٹ پوائنٹس بائیں جانب ان پٹ کے طور پر ہیں، اور دائیں جانب BDD100K سے سیمنٹک سیگمنٹیشن ٹاسک کے اصل لیبل ہیں۔ یہ ظاہر ہے بہت مختلف ہیں۔

خود مختار ڈرائیونگ ایپلی کیشنز کے لیے فاؤنڈیشنل وژن ماڈلز اور ویژول پرامپٹ انجینئرنگ | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

AVs میں پرسیپشن اسٹیکس دوسری تصویر کو آسانی سے استعمال کر سکتے ہیں، لیکن پہلی نہیں۔ دوسری طرف، پہلی تصویر سے کچھ مفید نتائج ہیں جو استعمال کیے جا سکتے ہیں، اور یہ کہ ماڈل کو واضح طور پر تربیت نہیں دی گئی تھی، مثال کے طور پر، لین کے نشانات، فٹ پاتھ کی تقسیم، لائسنس پلیٹ ماسک وغیرہ۔ ہم سیگمنٹیشن کے نتائج کو بہتر بنانے کے لیے SAM ماڈل کو ٹھیک کر سکتے ہیں۔ اس فائن ٹیوننگ کو انجام دینے کے لیے، ہم نے BDD500K ڈیٹاسیٹ سے ایک مثال سیگمنٹیشن سب سیٹ (10 امیجز) کا استعمال کرتے ہوئے ایک ٹریننگ ڈیٹاسیٹ بنایا۔ یہ تصاویر کا ایک بہت چھوٹا ذیلی سیٹ ہے، لیکن ہمارا مقصد یہ ثابت کرنا ہے کہ فاؤنڈیشنل وژن ماڈلز (جیسا کہ LLMs) حیرت انگیز طور پر چھوٹی تعداد میں تصاویر کے ساتھ آپ کے استعمال کے معاملے میں اچھی کارکردگی کا مظاہرہ کر سکتے ہیں۔ درج ذیل تصویر میں ان پٹ امیج، آؤٹ پٹ ماسک (نیلے رنگ میں، کار کے لیے بائیں جانب سرخ بارڈر کے ساتھ)، اور ممکنہ اشارے (باؤنڈنگ باکس سبز میں اور سینٹر پوائنٹ X پیلے رنگ میں) دکھاتا ہے۔

خود مختار ڈرائیونگ ایپلی کیشنز کے لیے فاؤنڈیشنل وژن ماڈلز اور ویژول پرامپٹ انجینئرنگ | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

ہم نے Hugging Face لائبریری آن کا استعمال کرتے ہوئے فائن ٹیوننگ کا مظاہرہ کیا۔ ایمیزون سیج میکر اسٹوڈیو. ہم نے SAM بیس ماڈل ٹیسٹوں کے لیے ml.g4dn.xlarge مثال اور SAM بڑے ماڈل ٹیسٹوں کے لیے ml.g4dn.2xlarge استعمال کیا۔ اپنے ابتدائی تجربات میں، ہم نے مشاہدہ کیا کہ بیس ماڈل کو صرف باؤنڈنگ بکس کے ساتھ ٹھیک کرنا کامیاب نہیں تھا۔ عمدہ اور پہلے سے تربیت یافتہ ماڈل اصل ڈیٹاسیٹس سے کار کے لیے مخصوص زمینی سچائی کے ماسک سیکھنے کے قابل نہیں تھے۔ فائن ٹیوننگ میں استفسار کے پوائنٹس کو شامل کرنے سے بھی تربیت میں بہتری نہیں آئی۔

اس کے بعد، ہم بہت چھوٹے ڈیٹاسیٹ (30 امیجز) کے ساتھ 500 دوروں کے لیے SAM کے بڑے ماڈل کو ٹھیک کرنے کی کوشش کر سکتے ہیں۔ اصل زمینی سچ کا ماسک لیبل قسم کی کار کے لیے درج ذیل تصویر کی طرح لگتا ہے۔

خود مختار ڈرائیونگ ایپلی کیشنز کے لیے فاؤنڈیشنل وژن ماڈلز اور ویژول پرامپٹ انجینئرنگ | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

جیسا کہ مندرجہ ذیل تصاویر میں دکھایا گیا ہے، ایک مخصوص باؤنڈنگ باکس پرامپٹ (سبز رنگ میں) کے ساتھ بڑے ماڈل کا اصل پہلے سے تربیت یافتہ ورژن کوئی آؤٹ پٹ نہیں دیتا، جب کہ فائن ٹیونڈ ورژن آؤٹ پٹ دیتا ہے (ابھی تک درست نہیں لیکن فائن ٹیوننگ کاٹ دی گئی تھی۔ 40 دوروں کے بعد، اور 500 امیجز کے بہت چھوٹے ٹریننگ ڈیٹاسیٹ کے ساتھ)۔ اصل، پہلے سے تربیت یافتہ بہت بڑا ماڈل ہماری جانچ کی گئی کسی بھی تصویر کے لیے ماسک کی پیش گوئی کرنے کے قابل نہیں تھا۔ ایک مثال کے طور پر ڈاؤن اسٹریم ایپلی کیشن، ٹھیک ٹیونڈ ماڈل کو پری لیبلنگ ورک فلو میں استعمال کیا جا سکتا ہے جیسا کہ اس میں بیان کیا گیا ہے۔ AWS پر ڈیپ لرننگ پر مبنی ایڈوانسڈ ڈرائیور اسسٹنس سسٹمز کے لیے آٹو لیبلنگ ماڈیول.

خود مختار ڈرائیونگ ایپلی کیشنز کے لیے فاؤنڈیشنل وژن ماڈلز اور ویژول پرامپٹ انجینئرنگ | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

نتیجہ

اس پوسٹ میں، ہم نے سیگمنٹ اینیتھنگ ماڈل (SAM) کے نام سے جانے والے بنیادی وژن ماڈل اور اس کے فن تعمیر پر تبادلہ خیال کیا۔ ہم نے SAM ماڈل کا استعمال بصری پرامپٹنگ اور بصری پرامپٹنگ انجینئرنگ کے مختلف آدانوں پر بحث کرنے کے لیے کیا۔ ہم نے دریافت کیا کہ مختلف بصری اشارے کیسے انجام دیتے ہیں اور ان کی حدود۔ ہم نے یہ بھی بتایا کہ کس طرح بصری زنجیریں لینگ چین API کی طرح صرف ایک پرامپٹ کے استعمال سے کارکردگی میں اضافہ کرتی ہیں۔ اگلا، ہم نے تین پہلے سے تربیت یافتہ ماڈلز کی مقداری تشخیص فراہم کی۔ آخر میں، ہم نے اصل بیس ماڈل کے مقابلے میں فائن ٹیونڈ SAM ماڈل اور اس کے نتائج پر تبادلہ خیال کیا۔ فاؤنڈیشن ماڈلز کی فائن ٹیوننگ مخصوص کاموں جیسے سیگمنٹیشن کے لیے ماڈل کی کارکردگی کو بہتر بنانے میں مدد کرتی ہے۔ واضح رہے کہ SAM ماڈل اپنے وسائل کی ضروریات کی وجہ سے، ریئل ٹائم استعمال کے کیسز کے لیے استعمال کو محدود کرتا ہے اور اپنی موجودہ حالت میں کنارے پر اندازہ لگاتا ہے۔ ہم امید کرتے ہیں کہ مستقبل کے اعادہ اور بہتر تکنیک کے ساتھ، کمپیوٹ کی ضروریات کو کم کریں گے اور تاخیر کو بہتر بنائیں گے۔

ہمیں امید ہے کہ یہ پوسٹ آپ کو اپنے استعمال کے معاملات کے لیے بصری اشارے تلاش کرنے کی ترغیب دے گی۔ چونکہ یہ اب بھی فوری انجینئرنگ کی ایک ابھرتی ہوئی شکل ہے، اس لیے بصری اشارے، بصری زنجیروں اور ان ٹولز کی کارکردگی کے لحاظ سے بہت کچھ دریافت کرنا ہے۔ ایمیزون سیج میکر ایک مکمل طور پر منظم ایم ایل پلیٹ فارم ہے جو بلڈرز کو بڑی زبان اور بصری ماڈلز کو دریافت کرنے اور تخلیقی AI ایپلی کیشنز بنانے کے قابل بناتا ہے۔ آج ہی AWS کے ساتھ مستقبل کی تعمیر شروع کریں۔


مصنفین کے بارے میں

خود مختار ڈرائیونگ ایپلی کیشنز کے لیے فاؤنڈیشنل وژن ماڈلز اور ویژول پرامپٹ انجینئرنگ | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عیگوپی کرشنامورتی۔ نیویارک شہر میں واقع Amazon ویب سروسز میں ایک سینئر AI/ML سلوشنز آرکیٹیکٹ ہیں۔ وہ بڑے آٹوموٹیو صارفین کے ساتھ ان کے مشین لرننگ کے کام کے بوجھ کو تبدیل کرنے اور کلاؤڈ پر منتقل کرنے کے لیے ان کے قابل اعتماد مشیر کے طور پر کام کرتا ہے۔ اس کی بنیادی دلچسپیوں میں گہری سیکھنے اور سرور کے بغیر ٹیکنالوجیز شامل ہیں۔ کام سے باہر، وہ اپنے خاندان کے ساتھ وقت گزارنا اور موسیقی کی وسیع رینج کو تلاش کرنا پسند کرتا ہے۔

خود مختار ڈرائیونگ ایپلی کیشنز کے لیے فاؤنڈیشنل وژن ماڈلز اور ویژول پرامپٹ انجینئرنگ | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عیشریاس سبرامنیم ایک پرنسپل AI/ML ماہر سولیوشن آرکیٹیکٹ ہے، اور AWS پلیٹ فارم کا استعمال کرتے ہوئے اپنے کاروباری چیلنجوں کو حل کرنے کے لیے مشین لرننگ کا استعمال کر کے صارفین کی مدد کرتا ہے۔ شریاس کا پس منظر بڑے پیمانے پر آپٹیمائزیشن اور مشین لرننگ، اور مشین لرننگ اور ری انفورسمنٹ لرننگ کے استعمال میں ہے تاکہ آپٹیمائزیشن کے کاموں کو تیز کیا جا سکے۔

 خود مختار ڈرائیونگ ایپلی کیشنز کے لیے فاؤنڈیشنل وژن ماڈلز اور ویژول پرامپٹ انجینئرنگ | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عیسوجیتا مارٹن جنریٹو AI انوویشن سینٹر (GAIIC) میں ایک اپلائیڈ سائنٹسٹ ہے۔ اس کی مہارت مختلف صنعتوں کے لیے کمپیوٹر ویژن اور قدرتی زبان کی پروسیسنگ پر مشتمل مشین لرننگ سلوشنز بنانے میں ہے۔ خاص طور پر، اس کے پاس انتہائی خودمختار نظاموں کے لیے انسانی مرکز میں حالات سے متعلق آگاہی اور علم سے متاثرہ سیکھنے پر کام کرنے کا وسیع تجربہ ہے۔

خود مختار ڈرائیونگ ایپلی کیشنز کے لیے فاؤنڈیشنل وژن ماڈلز اور ویژول پرامپٹ انجینئرنگ | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عیفرانسسکو کالڈرون جنریٹو AI انوویشن سینٹر (GAIIC) میں ڈیٹا سائنٹسٹ ہے۔ GAIIC کے ایک رکن کے طور پر، وہ جنریٹیو AI ٹیکنالوجیز کا استعمال کرتے ہوئے AWS صارفین کے ساتھ ممکنہ فن کو دریافت کرنے میں مدد کرتا ہے۔ اپنے فارغ وقت میں، فرانسسکو موسیقی اور گٹار بجانا، اپنی بیٹیوں کے ساتھ فٹ بال کھیلنا، اور اپنے خاندان کے ساتھ وقت گزارنا پسند کرتا ہے۔

ٹائم اسٹیمپ:

سے زیادہ AWS مشین لرننگ