سنیپر پکسل پرفیکٹ امیج آبجیکٹ کا پتہ لگانے کے لیے مشین لرننگ کی مدد سے لیبلنگ فراہم کرتا ہے۔

سنیپر پکسل پرفیکٹ امیج آبجیکٹ کا پتہ لگانے کے لیے مشین لرننگ کی مدد سے لیبلنگ فراہم کرتا ہے۔

باؤنڈنگ باکس تشریح ایک وقت طلب اور تھکا دینے والا کام ہے جس کے لیے تشریح کرنے والوں کو ایسی تشریحات بنانے کی ضرورت ہوتی ہے جو کسی چیز کی حدود کو مضبوطی سے فٹ کرتے ہوں۔ باؤنڈنگ باکس تشریحی کاموں کے لیے، مثال کے طور پر، تشریح کرنے والوں کی ضرورت ہوتی ہے تاکہ یہ یقینی بنایا جا سکے کہ تشریحی آبجیکٹ کے تمام کنارے تشریح میں بند ہیں۔ عملی طور پر، تشریحات بنانا جو عین مطابق ہوں اور آبجیکٹ کے کناروں سے اچھی طرح جڑے ہوئے ہوں ایک محنت طلب عمل ہے۔

اس پوسٹ میں، ہم ایک نیا انٹرایکٹو ٹول متعارف کراتے ہیں جسے Snapper کہا جاتا ہے، جو ایک مشین لرننگ (ML) ماڈل کے ذریعے تقویت یافتہ ہے جو تشریح کرنے والوں کے لیے درکار کوشش کو کم کرتا ہے۔ سنیپر ٹول خود بخود شور والی تشریحات کو ایڈجسٹ کرتا ہے، جس سے ڈیٹا کو اعلی معیار کی سطح پر تشریح کرنے کے لیے درکار وقت کو کم کیا جاتا ہے۔

سنیپر کا جائزہ

سنیپر ایک انٹرایکٹو اور ذہین نظام ہے جو خود بخود آبجیکٹ تشریحات کو امیج پر مبنی اشیاء کو حقیقی وقت میں "سنیپ" کرتا ہے۔ سنیپر کے ساتھ، تشریح کرنے والے باکسز ڈرائنگ کرکے باؤنڈنگ باکس تشریحات لگاتے ہیں، اور پھر باؤنڈڈ آبجیکٹ کو بہتر طور پر فٹ کرنے کے لیے اپنے باؤنڈنگ باکس میں فوری اور خودکار ایڈجسٹمنٹ دیکھیں۔

سنیپر سسٹم دو ذیلی نظاموں پر مشتمل ہے۔ پہلا سب سسٹم ایک فرنٹ اینڈ ری ایکٹ جے ایس جزو ہے جو تشریح سے متعلق ماؤس ایونٹس کو روکتا ہے اور ماڈل کی پیشین گوئیوں کی رینڈرنگ کو سنبھالتا ہے۔ ہم اس فرنٹ اینڈ کو اپنے ساتھ مربوط کرتے ہیں۔ ایمیزون سیج میکر گراؤنڈ ٹروتھ تشریح UI دوسرا سب سسٹم ماڈل بیک اینڈ پر مشتمل ہوتا ہے، جو فرنٹ اینڈ کلائنٹ سے درخواستیں وصول کرتا ہے، ایڈجسٹ باؤنڈنگ باکس کوآرڈینیٹس پیدا کرنے کے لیے درخواستوں کو ایم ایل ماڈل تک پہنچاتا ہے، اور ڈیٹا کو واپس کلائنٹ کو بھیجتا ہے۔

سنیپر پکسل پرفیکٹ امیج آبجیکٹ کا پتہ لگانے کے لیے مشین لرننگ کی مدد سے لیبلنگ فراہم کرتا ہے PlatoBlockchain ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

ML ماڈل تشریح کاروں کے لیے موزوں ہے۔

حالیہ برسوں میں کمپیوٹر ویژن کمیونٹی کی طرف سے اعلی کارکردگی کا مظاہرہ کرنے والے آبجیکٹ کا پتہ لگانے والے ماڈلز کی ایک بہت بڑی تعداد تجویز کی گئی ہے۔ تاہم، یہ جدید ترین ماڈل عام طور پر غیر رہنمائی آبجیکٹ کا پتہ لگانے کے لیے بہتر بنائے جاتے ہیں۔ صارفین کی تشریحات کو ایڈجسٹ کرنے کے لیے Snapper کی "snapping" فعالیت کو آسان بنانے کے لیے، ہمارے ماڈل کا ان پٹ ایک ابتدائی باؤنڈنگ باکس ہے، جو تشریح کنندہ کے ذریعے فراہم کیا جاتا ہے، جو کسی چیز کی موجودگی کے لیے مارکر کے طور پر کام کر سکتا ہے۔ مزید برآں، چونکہ سسٹم میں کوئی مطلوبہ آبجیکٹ کلاس نہیں ہے جس کا مقصد اس کو سپورٹ کرنا ہے، اس لیے سنیپر کا ایڈجسٹمنٹ ماڈل آبجیکٹ-ایگنوسٹک ہونا چاہیے کہ سسٹم آبجیکٹ کلاسز کی ایک رینج پر اچھی کارکردگی کا مظاہرہ کرے۔

عام طور پر، یہ تقاضے عام ML آبجیکٹ کا پتہ لگانے والے ماڈلز کے استعمال کے معاملات سے کافی حد تک ہٹ جاتے ہیں۔ ہم نوٹ کرتے ہیں کہ روایتی آبجیکٹ کا پتہ لگانے کا مسئلہ "آبجیکٹ کے مرکز کا پتہ لگائیں، پھر طول و عرض کو ریگرس کریں" کے طور پر تیار کیا گیا ہے۔ یہ متضاد ہے، کیونکہ باؤنڈنگ باکس کناروں کی درست پیشین گوئیاں سب سے پہلے ایک درست باکس سینٹر تلاش کرنے، اور پھر کناروں تک اسکیلر فاصلے قائم کرنے کی کوشش کرنے پر بہت زیادہ انحصار کرتی ہیں۔ مزید یہ کہ، یہ اچھے اعتماد کے تخمینے فراہم نہیں کرتا ہے جو کنارے کے مقامات کی غیر یقینی صورتحال پر توجہ مرکوز کرتے ہیں، کیونکہ صرف درجہ بندی کا سکور استعمال کے لیے دستیاب ہے۔

اپنے سنیپر ماڈل کو صارفین کی تشریحات کو ایڈجسٹ کرنے کی اہلیت دینے کے لیے، ہم باؤنڈنگ باکس ایڈجسٹمنٹ کے لیے ڈیزائن کردہ ML ماڈل اپنی مرضی کے مطابق ڈیزائن اور نافذ کرتے ہیں۔ ان پٹ کے طور پر، ماڈل ایک تصویر لیتا ہے اور ایک متعلقہ باؤنڈنگ باکس تشریح لیتا ہے۔ ماڈل ایک convolutional عصبی نیٹ ورک کا استعمال کرتے ہوئے تصویر سے خصوصیات نکالتا ہے۔ فیچر نکالنے کے بعد، دشاتمک مقامی پولنگ کا اطلاق ہر ایک جہت پر کیا جاتا ہے تاکہ کسی مناسب کنارے کی جگہ کی شناخت کے لیے درکار معلومات کو جمع کیا جا سکے۔

ہم مختلف مقامات پر درجہ بندی کے مسئلے کے طور پر باؤنڈنگ بکس کے لیے محل وقوع کی پیشن گوئی تیار کرتے ہیں۔ پوری آبجیکٹ کو دیکھتے ہوئے، ہم مشین سے درجہ بندی کے کام کے طور پر ہر پکسل کے مقام پر براہ راست کنارے کی موجودگی یا غیر موجودگی کے بارے میں وجہ پوچھتے ہیں۔ یہ درستگی کو بہتر بناتا ہے، کیونکہ ہر کنارے کے لیے استدلال فوری مقامی محلے کی تصویری خصوصیات کا استعمال کرتا ہے۔ مزید برآں، اسکیم مختلف کناروں کے درمیان استدلال کو جوڑتی ہے، جو غیر مبہم کنارے والے مقامات کو غیر یقینی کناروں سے متاثر ہونے سے روکتی ہے۔ مزید برآں، یہ ہمیں کنارے کے لحاظ سے بدیہی اعتماد کا تخمینہ فراہم کرتا ہے، جیسا کہ ہمارا ماڈل آبجیکٹ کے ہر کنارے کو آزادانہ طور پر سمجھتا ہے (جیسے انسانی تشریح کرنے والے کریں گے) اور ہر کنارے کے مقام کے لیے قابل تشریح تقسیم (یا غیر یقینی کا تخمینہ) فراہم کرتا ہے۔ یہ ہمیں زیادہ موثر اور درست انسانی جائزے کے لیے کم پر اعتماد کناروں کو نمایاں کرنے کی اجازت دیتا ہے۔

بینچ مارکنگ اور سنیپر ٹول کا اندازہ لگانا

عملی طور پر، ہمیں معلوم ہوتا ہے کہ سنیپر ٹول باؤنڈنگ باکس تشریحی کام کو ہموار کرتا ہے اور صارفین کے لیے اسے اٹھانا بہت آسان ہے۔ ہم نے اسنیپر کا ایک مقداری تجزیہ بھی کیا تاکہ آلے کو معروضی طور پر نمایاں کیا جا سکے۔ ہم نے اسنیپر کے ایڈجسٹمنٹ ماڈل کا جائزہ لیا جس میں آبجیکٹ کا پتہ لگانے والے ماڈلز کے لیے تشخیصی معیار کی ایک قسم کا استعمال کیا گیا ہے جو درستگی کی جانچ کرنے کے لیے دو اقدامات کا استعمال کرتا ہے: انٹرسیکشن اوور یونین (IoU)، اور کنارے اور کونے کا انحراف۔ IoU تشریحات کے اوورلیپ کے علاقے کو انوٹیشنز کے اتحاد کے علاقے سے تقسیم کر کے دو تشریحات کے درمیان سیدھ کا حساب لگاتا ہے، ایک میٹرک حاصل کرتا ہے جو 0–1 تک ہوتا ہے۔ کنارے کے انحراف اور کونے کے انحراف کا حساب ان کناروں اور کونوں کے حصے کو لے کر کیا جاتا ہے جو زمینی سچائی سے پکسل کی قدر سے انحراف کرتے ہیں۔

Snapper کا اندازہ لگانے کے لیے، ہم نے متحرک طور پر تصادفی طور پر ایڈجسٹ کرکے شور والا تشریحی ڈیٹا تیار کیا COCO زمینی سچائی باؤنڈنگ باکس جٹر کے ساتھ کوآرڈینیٹ کرتا ہے۔ جٹر کو شامل کرنے کا ہمارا طریقہ کار پہلے باؤنڈنگ باکس کے مرکز کو ہر ایک محور پر متعلقہ باؤنڈنگ باکس کے طول و عرض کے 10% تک منتقل کرتا ہے اور پھر باؤنڈنگ باکس کے طول و عرض کو 0.9–1.1 کے درمیان تصادفی نمونے کے تناسب سے دوبارہ اسکیل کرتا ہے۔ یہاں، ہم ان میٹرکس کو آفیشل سے توثیق کے سیٹ پر لاگو کرتے ہیں۔ MS-COCO ڈیٹاسیٹ تربیت کے لیے استعمال کیا جاتا ہے۔ ہم خاص طور پر کناروں کے انحراف اور کونے کے انحراف کے کسر کے ساتھ ساتھ IoU کے 90% سے زیادہ والے باؤنڈنگ بکس کے کسر کا حساب لگاتے ہیں جو متعلقہ زمینی سچائی سے ایک یا تین پکسلز سے کم انحراف کرتے ہیں۔ مندرجہ ذیل جدول ہمارے نتائج کا خلاصہ کرتا ہے۔

سنیپر پکسل پرفیکٹ امیج آبجیکٹ کا پتہ لگانے کے لیے مشین لرننگ کی مدد سے لیبلنگ فراہم کرتا ہے PlatoBlockchain ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

جیسا کہ پچھلے جدول میں دکھایا گیا ہے، سنیپر کے ایڈجسٹمنٹ ماڈل نے تین میٹرکس میں سے ہر ایک میں شور والے ڈیٹا کے دو ذرائع کو نمایاں طور پر بہتر کیا۔ اعلی درستگی کی تشریحات پر زور دینے کے ساتھ، ہم مشاہدہ کرتے ہیں کہ MS COCO ڈیٹاسیٹ پر Snapper لاگو کرنے سے IoU کے ساتھ باؤنڈنگ بکس کا حصہ 90% سے 40% تک بڑھ جاتا ہے۔

نتیجہ

اس پوسٹ میں، ہم نے ایک نیا ML سے چلنے والا تشریحی ٹول متعارف کرایا ہے جسے Snapper کہتے ہیں۔ Snapper SageMaker ماڈل بیک اینڈ کے ساتھ ساتھ ایک فرنٹ اینڈ جزو پر مشتمل ہوتا ہے جسے ہم گراؤنڈ ٹروتھ لیبلنگ UI میں ضم کرتے ہیں۔ ہم نے Snapper کا مصنوعی شور والے باؤنڈنگ باکس تشریحات پر جائزہ لیا اور پایا کہ یہ نامکمل باؤنڈنگ باکسز کو کامیابی کے ساتھ بہتر کر سکتا ہے۔ لیبلنگ کے کاموں میں سنیپر کا استعمال لاگت میں نمایاں کمی اور درستگی میں اضافہ کر سکتا ہے۔

مزید جاننے کے لئے، ملاحظہ کریں ایمیزون سیج میکر ڈیٹا لیبلنگ اور آج ایک مشاورت کا شیڈول بنائیں۔


مصنفین کے بارے میں

سنیپر پکسل پرفیکٹ امیج آبجیکٹ کا پتہ لگانے کے لیے مشین لرننگ کی مدد سے لیبلنگ فراہم کرتا ہے PlatoBlockchain ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عیجوناتھن بک ایمیزون ویب سروسز میں ایک سافٹ ویئر انجینئر ہے جو مشین لرننگ اور تقسیم شدہ نظاموں کے چوراہے پر کام کر رہا ہے۔ اس کے کام میں مشین لرننگ کے ماڈلز تیار کرنا اور جدید ترین صلاحیتوں کو صارفین کے ہاتھ میں رکھنے کے لیے مشین لرننگ کے ذریعے طاقتور سافٹ ویئر ایپلی کیشنز تیار کرنا شامل ہے۔

سنیپر پکسل پرفیکٹ امیج آبجیکٹ کا پتہ لگانے کے لیے مشین لرننگ کی مدد سے لیبلنگ فراہم کرتا ہے PlatoBlockchain ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عیالیکس ولیمز AWS AI میں ہیومن-ان-دی-لوپ سائنس ٹیم میں ایک قابل اطلاق سائنس دان ہے جہاں وہ انسانی-کمپیوٹر انٹریکشن (HCI) اور مشین لرننگ کے چوراہے پر انٹرایکٹو سسٹمز کی تحقیق کرتا ہے۔ ایمیزون میں شامل ہونے سے پہلے، وہ ٹینیسی یونیورسٹی میں الیکٹریکل انجینئرنگ اور کمپیوٹر سائنس کے شعبہ میں پروفیسر تھے جہاں انہوں نے لوگوں، ایجنٹوں، تعاملات، اور نظاموں (PAIRS) کی تحقیقی لیبارٹری کی مشترکہ ہدایت کی۔ وہ مائیکروسافٹ ریسرچ، موزیلا ریسرچ، اور آکسفورڈ یونیورسٹی میں تحقیقی عہدوں پر بھی فائز رہ چکے ہیں۔ وہ باقاعدگی سے پریم میں اپنا کام شائع کرتا ہے۔

سنیپر پکسل پرفیکٹ امیج آبجیکٹ کا پتہ لگانے کے لیے مشین لرننگ کی مدد سے لیبلنگ فراہم کرتا ہے PlatoBlockchain ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عیمن بائی AWS میں ایک قابل اطلاق سائنسدان ہے، 2D / 3D کمپیوٹر وژن میں موجودہ مہارت کے ساتھ، خود مختار ڈرائیونگ اور صارف دوست AI ٹولز کے شعبوں پر توجہ مرکوز کرنے کے ساتھ۔ جب کام پر نہیں ہوتا ہے، تو وہ فطرت کی کھوج سے لطف اندوز ہوتا ہے، خاص طور پر پیٹے ہوئے ٹریک سے دور۔

سنیپر پکسل پرفیکٹ امیج آبجیکٹ کا پتہ لگانے کے لیے مشین لرننگ کی مدد سے لیبلنگ فراہم کرتا ہے PlatoBlockchain ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عیکمار چیلاپیلا ایمیزون ویب سروسز میں ایک جنرل مینیجر اور ڈائریکٹر ہیں اور ML/AI سروسز جیسے ہیومن ان لوپ سسٹمز، AI DevOps، Geospatial ML، اور ADAS/خودکار گاڑیوں کی ترقی کی رہنمائی کرتے ہیں۔ AWS سے پہلے، کمار Uber ATG اور Lyft Level 5 میں انجینئرنگ کے ڈائریکٹر تھے اور مشین لرننگ کا استعمال کرتے ہوئے ٹیموں کی قیادت کرتے تھے تاکہ پرسیپشن اور میپنگ جیسی سیلف ڈرائیونگ صلاحیتوں کو فروغ دیا جا سکے۔ اس نے LinkedIn، Twitter، Bing، اور Microsoft Research پر تلاش، سفارشات، اور اشتہاری مصنوعات کو بہتر بنانے کے لیے مشین لرننگ تکنیکوں کو لاگو کرنے پر بھی کام کیا۔

سنیپر پکسل پرفیکٹ امیج آبجیکٹ کا پتہ لگانے کے لیے مشین لرننگ کی مدد سے لیبلنگ فراہم کرتا ہے PlatoBlockchain ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عیپیٹرک ہافنر اے ڈبلیو ایس سیج میکر گراؤنڈ ٹروتھ ٹیم کے ساتھ ایک پرنسپل اپلائیڈ سائنٹسٹ ہے۔ وہ 1995 سے ہیومن ان دی لوپ آپٹیمائزیشن پر کام کر رہا ہے، جب اس نے شناخت چیک کرنے کے لیے LeNet Convolutional Neural Network کا اطلاق کیا۔ وہ ان جامع طریقوں میں دلچسپی رکھتا ہے جہاں ML الگورتھم اور لیبلنگ UIs کو ایک ساتھ بہتر بنایا جاتا ہے تاکہ لیبلنگ کی لاگت کو کم کیا جا سکے۔

سنیپر پکسل پرفیکٹ امیج آبجیکٹ کا پتہ لگانے کے لیے مشین لرننگ کی مدد سے لیبلنگ فراہم کرتا ہے PlatoBlockchain ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عیایرن لی ہیومین ان دی لوپ سروسز، AWS AI، Amazon میں اپلائیڈ سائنس مینیجر ہے۔ اس کی تحقیقی دلچسپیاں 3D گہری تعلیم، اور وژن اور زبان کی نمائندگی کی تعلیم ہیں۔ اس سے پہلے وہ Alexa AI میں سینئر سائنسدان، Scale AI میں مشین لرننگ کے سربراہ اور Pony.ai کے چیف سائنٹسٹ تھے۔ اس سے پہلے، وہ Uber ATG میں پرسیپشن ٹیم اور Uber میں مشین لرننگ پلیٹ فارم ٹیم کے ساتھ تھا جو خود مختار ڈرائیونگ، مشین لرننگ سسٹمز اور AI کے اسٹریٹجک اقدامات کے لیے مشین لرننگ پر کام کر رہی تھی۔ انہوں نے اپنا کیریئر بیل لیبز سے شروع کیا اور کولمبیا یونیورسٹی میں منسلک پروفیسر رہے۔ اس نے ICML'17 اور ICCV'19 میں ٹیوٹوریلز کو مشترکہ طور پر پڑھایا، اور NeurIPS، ICML، CVPR، ICCV میں خود مختار ڈرائیونگ، 3D ویژن اور روبوٹکس، مشین لرننگ سسٹم اور ایڈورسریل مشین لرننگ کے لیے مشین لرننگ پر متعدد ورکشاپس کا مشترکہ اہتمام کیا۔ انہوں نے کارنیل یونیورسٹی میں کمپیوٹر سائنس میں پی ایچ ڈی کی ہے۔ وہ ACM فیلو اور IEEE فیلو ہے۔

ٹائم اسٹیمپ:

سے زیادہ AWS مشین لرننگ