OCR PlatoBlockchain ڈیٹا انٹیلی جنس کے لیے امیج پروسیسنگ اور باؤنڈنگ بکس۔ عمودی تلاش۔ عی

OCR کے لیے امیج پروسیسنگ اور باؤنڈنگ بکس

ٹیکنالوجی ترقی کرتی رہتی ہے، اور ہم بھی۔ مصنوعی ذہانت اور مشین لرننگ کے ظہور کے ساتھ، توجہ آٹومیشن کی طرف مبذول ہو گئی ہے۔ یہ کہا جا رہا ہے، کمپیوٹر سائنس کے مختلف شعبوں کو ان ابھرتے ہوئے رجحانات کے اطلاق کا مطالعہ اور دریافت کرنے کے لیے متعارف کرایا گیا ہے۔

ایسی ہی ایک مثال ہے تصویری پروسیسنگ. سادہ زبان میں، یہ معنی خیز معلومات کو اپنی طرف متوجہ کرنے کے لیے تصاویر کی تلاش سے مراد ہے۔ اگرچہ اس کو حاصل کرنے کے لیے کئی تکنیکیں دستیاب ہیں، لیکن سب سے زیادہ استعمال کیا جاتا ہے - باؤنڈنگ بکس.

یہ بلاگ باؤنڈنگ بکس کے مختلف پہلوؤں پر روشنی ڈالتا ہے۔ اس میں یہ شامل ہیں کہ وہ کیا ہیں، وہ امیج پروسیسنگ میں کیسے کام کرتے ہیں، پیرامیٹرز جو ان کی وضاحت کرتے ہیں، کنونشنز جو ان کی وضاحت کرتے ہیں، عام استعمال کے معاملات، احتیاطی تدابیر اور بہترین طریقہ کار، اور بہت کچھ۔

چلتے ہیں.

امیج پروسیسنگ سے مراد کسی تصویر پر کچھ آپریشن کرنا ہے یا تو اسے بہتر بنانا ہے یا اس سے وابستہ خصوصیات یا صفات سے کچھ قیمتی بصیرت نکالنا ہے۔ آج، امیج پروسیسنگ انجینئرنگ اور کمپیوٹر ٹیکنالوجی کے مطالعہ میں تحقیق کا ایک بنیادی شعبہ ہے۔

امیج پروسیسنگ دو طریقوں سے کی جا سکتی ہے - اینالاگ امیج پروسیسنگ اور ڈیجیٹل امیج پروسیسنگ۔

اینالاگ امیج پروسیسنگ میں تصاویر کا تجزیہ کرنے اور ان میں ہیرا پھیری کرنے کے لیے پرنٹ آؤٹ اور تصویروں کی ہارڈ کاپیاں استعمال کرنا شامل ہے۔ تصویری تجزیہ کار ان تصویری کاپیوں کی تشریح اور معنی خیز نتائج نکالنے کے لیے مختلف طریقے استعمال کرتے ہیں۔

ڈیجیٹل امیج پروسیسنگ ڈیجیٹل امیجز کا استعمال کرتی ہے اور کمپیوٹر کے ذریعے ان کی ترجمانی کرتی ہے۔ یہ ڈیجیٹل سگنل پروسیسنگ کا ایک ذیلی زمرہ ہے اور ڈیجیٹل امیجز پر کارروائی کرنے کے لیے الگورتھم استعمال کرتا ہے۔ یہ اینالاگ امیج پروسیسنگ پر فوائد فراہم کرتا ہے، جیسے کہ پروسیسنگ میں شور اور بگاڑ کو روکنے کے لیے الگورتھم۔

ڈیجیٹل امیج پروسیسنگ میں میڈیسن، مینوفیکچرنگ، ای کامرس اور بہت کچھ کے شعبوں میں کئی ایپلی کیشنز ہیں۔


تصویری پروسیسنگ میں باؤنڈنگ بکس

شروع میں، باؤنڈنگ باکس ایک خیالی مستطیل خانہ ہے جس میں ایک آبجیکٹ اور ڈیٹا پوائنٹس کا سیٹ شامل ہوتا ہے۔ ڈیجیٹل امیج پروسیسنگ کے تناظر میں، باؤنڈنگ باکس X اور Y محور پر بارڈر کے نقاط کو ظاہر کرتا ہے جو تصویر کو گھیرے ہوئے ہیں۔ ان کا استعمال کسی ہدف کی نشاندہی کرنے اور آبجیکٹ کا پتہ لگانے کے لیے ایک حوالہ کے طور پر کام کرنے اور آبجیکٹ کے لیے ایک تصادم خانہ بنانے کے لیے کیا جاتا ہے۔

باؤنڈنگ بکس کیا ہیں؟

باؤنڈنگ بکس کلیدی عناصر ہیں اور ویڈیو تشریحی پروجیکٹس کے لیے بنیادی تصویری پروسیسنگ ٹولز میں سے ایک ہیں۔ جوہر میں، ایک باؤنڈنگ باکس ایک خیالی مستطیل ہے جو مشین لرننگ پروجیکٹ کی ضرورت کے ایک حصے کے طور پر تصویر میں آبجیکٹ کا خاکہ پیش کرتا ہے۔ خیالی مستطیل فریم تصویر میں آبجیکٹ کو گھیرے ہوئے ہے۔

باؤنڈنگ باکسز آبجیکٹ کی پوزیشن، اس کی کلاس، اور اعتماد کی وضاحت کرتے ہیں جو اس امکان کی ڈگری کو بتاتا ہے کہ شے اصل میں باؤنڈنگ باکس میں موجود ہے۔

کمپیوٹر وژن حیرت انگیز ایپلی کیشنز پیش کرتا ہے – خود چلانے والی کاروں سے لے کر چہرے کی شناخت تک اور بہت کچھ۔ اور یہ، بدلے میں، امیج پروسیسنگ سے ممکن ہوا ہے۔

تو، کیا امیج پروسیسنگ اتنی ہی آسان ہے جتنا کہ اشیاء کے گرد مستطیل یا پیٹرن کھینچنا؟ نہیں، یہ کہا جا رہا ہے، باؤنڈنگ بکس کیا کرتے ہیں؟

آئیے سمجھتے ہیں۔

تصویری پروسیسنگ میں باؤنڈنگ بکس کیسے کام کرتے ہیں؟

جیسا کہ ذکر کیا گیا ہے، باؤنڈنگ باکس ایک خیالی مستطیل ہے جو آبجیکٹ کا پتہ لگانے کے لیے ایک حوالہ نقطہ کے طور پر کام کرتا ہے اور آبجیکٹ کے لیے تصادم کا خانہ تیار کرتا ہے۔

تو، یہ ڈیٹا تشریح کرنے والوں کی کیسے مدد کرتا ہے؟ ٹھیک ہے، پیشہ ور افراد تصویروں پر خیالی مستطیل کھینچنے کے لیے باؤنڈنگ بکس کا خیال استعمال کرتے ہیں۔ وہ ہر تصویر کے اندر زیر بحث اشیاء کی خاکہ بناتے ہیں اور اس کے X اور Y نقاط کی وضاحت کرتے ہیں۔ یہ مشین لرننگ الگورتھم کے کام کو آسان بناتا ہے، تصادم کے راستے تلاش کرنے میں ان کی مدد کرتا ہے اور اس طرح کمپیوٹنگ کے وسائل کو بچاتا ہے۔

مثال کے طور پر، نیچے دی گئی تصویر میں، ہر گاڑی ایک اہم چیز ہے جس کی پوزیشن اور مقام مشین لرننگ ماڈلز کی تربیت کے لیے ضروری ہے۔ ڈیٹا اینوٹیٹرز باؤنڈنگ بکس تکنیک کا استعمال کرتے ہیں تاکہ ان اشیاء میں سے ہر ایک کے ارد گرد مستطیل کھینچ سکیں - گاڑیاں، اس معاملے میں۔

OCR PlatoBlockchain ڈیٹا انٹیلی جنس کے لیے امیج پروسیسنگ اور باؤنڈنگ بکس۔ عمودی تلاش۔ عی

ماخذ: keymakr

پھر، وہ ہر چیز کی پوزیشن اور مقام کو سمجھنے کے لیے نقاط کا استعمال کرتے ہیں، جو مشین لرننگ ماڈلز کو تربیت دینے کے لیے مفید ہے۔ ایک سنگل باؤنڈنگ باکس اچھی پیشن گوئی کی شرح فراہم نہیں کرتا ہے۔ بہتر آبجیکٹ کا پتہ لگانے کے لیے، ڈیٹا کو بڑھانے کے طریقوں کے ساتھ مل کر ایک سے زیادہ باؤنڈنگ بکس کا استعمال کیا جانا چاہیے۔

باؤنڈنگ بکس انتہائی موثر اور مضبوط تصویری تشریحی تکنیک ہیں جو لاگت کو کافی حد تک کم کرتی ہیں۔

ایک باؤنڈنگ باکس کی وضاحت کرنے والے پیرامیٹرز

پیرامیٹرز باؤنڈنگ باکس کی وضاحت کے لیے استعمال ہونے والے کنونشنز پر مبنی ہیں۔ استعمال ہونے والے کلیدی پیرامیٹرز میں شامل ہیں:

  • کلاس: یہ باؤنڈنگ باکس کے اندر موجود چیز کو ظاہر کرتا ہے - مثال کے طور پر، کاریں، مکانات، عمارتیں وغیرہ۔
  • (X1, Y1): اس سے مراد مستطیل کے اوپری بائیں کونے کے X اور Y نقاط ہیں۔
  • (X2, Y2): اس سے مراد مستطیل کے نیچے دائیں کونے کے X اور Y نقاط ہیں۔
  • (Xc, Yc): یہ باؤنڈنگ باکس کے مرکز کے X اور Y کوآرڈینیٹ سے مراد ہے۔
  • چوڑائی: یہ باؤنڈنگ باکس کی چوڑائی کو ظاہر کرتا ہے۔
  • اونچائی: یہ باؤنڈنگ باکس کی اونچائی کو ظاہر کرتا ہے۔
  • اعتماد: یہ باکس میں چیز کے ہونے کے امکان کی نمائندگی کرتا ہے۔ کہو، اعتماد 0.9 ہے۔ اس کا مطلب ہے کہ 90% امکان ہے کہ چیز اصل میں باکس کے اندر موجود ہوگی۔

ایک باؤنڈنگ باکس کی وضاحت کرنے والے کنونشنز

باؤنڈنگ باکس کی وضاحت کرتے وقت، عام طور پر، دو اہم کنونشنز کو شامل کرنے کی ضرورت ہوتی ہے۔ یہ ہیں:

  • مستطیل کے اوپری بائیں اور نیچے دائیں پوائنٹس کے X اور Y کوآرڈینیٹ۔
  • باؤنڈنگ باکس کے مرکز کے X اور Y نقاط، اس کی چوڑائی اور اونچائی کے ساتھ۔

آئیے ایک کار کی مثال سے اس کی وضاحت کرتے ہیں۔

a پہلے کنونشن کے حوالے سے، باؤنڈنگ باکس کو اوپر بائیں اور نیچے دائیں پوائنٹس کے نقاط کے مطابق بیان کیا گیا ہے۔

ماخذ: تجزیات ودھیا

ب دوسرے کنونشن کے حوالے سے، باؤنڈنگ باکس کو مرکز کے نقاط، چوڑائی اور اونچائی کے مطابق بیان کیا گیا ہے۔

OCR PlatoBlockchain ڈیٹا انٹیلی جنس کے لیے امیج پروسیسنگ اور باؤنڈنگ بکس۔ عمودی تلاش۔ عی

ماخذ: تجزیات ودھیا

استعمال کے معاملے پر منحصر ہے، مختلف کنونشن کی اقسام کے درمیان تبدیل کرنا ممکن ہے۔

  • Xc = (X1 + X2)/2
  • Yc = (Y1 + Y2)/2
  • چوڑائی = (X2 - X1)
  • اونچائی = (Y2 - Y1)

باؤنڈنگ بکس پروگرامنگ کوڈ کے ساتھ بیان کیے گئے ہیں۔

آئیے کوڈ کے ٹکڑوں کے ساتھ کسی چیز کے مقام یا پوزیشن کے بارے میں ایک اور مثال دیکھتے ہیں۔

OCR PlatoBlockchain ڈیٹا انٹیلی جنس کے لیے امیج پروسیسنگ اور باؤنڈنگ بکس۔ عمودی تلاش۔ عی

ماخذ: d2i

ہم اس مثال کے لیے استعمال ہونے والی تصویر کو لوڈ کرتے ہیں۔ تصویر میں بائیں طرف کتا اور دائیں طرف بلی ہے۔ تصویر میں دو چیزیں ہیں - ایک کتا اور ایک بلی۔

OCR PlatoBlockchain ڈیٹا انٹیلی جنس کے لیے امیج پروسیسنگ اور باؤنڈنگ بکس۔ عمودی تلاش۔ عی

ماخذ: d2i

OCR PlatoBlockchain ڈیٹا انٹیلی جنس کے لیے امیج پروسیسنگ اور باؤنڈنگ بکس۔ عمودی تلاش۔ عی

ماخذ: d2i

آئیے باؤنڈنگ باکس کے اوپری بائیں اور نیچے دائیں کونوں کے لیے x اور y کو کوآرڈینیٹ کے طور پر لیں۔ بولیں، (x1,y1) اور (x2,y2)۔ اسی طرح، آئیے باؤنڈنگ باکس کے مرکز کے لیے اس کی چوڑائی اور اونچائی کے ساتھ (x,y) – محور کوآرڈینیٹ پر غور کریں۔

اگلا، ہم ان شکلوں کو تبدیل کرنے کے لیے دو فنکشنز کی وضاحت کرتے ہیں: box_corner_to_center دو کونوں کی نمائندگی کو مرکز-اونچائی-چوڑائی کی نمائندگی میں تبدیل کرتا ہے اور box_center_to_corner اس کے برعکس کرتا ہے۔

ان پٹ آرگیومنٹ بکس کو شکل کا دو جہتی ٹینسر ہونا ضروری ہے (n,4)، جہاں n باؤنڈنگ بکس کی تعداد ہے۔

OCR PlatoBlockchain ڈیٹا انٹیلی جنس کے لیے امیج پروسیسنگ اور باؤنڈنگ بکس۔ عمودی تلاش۔ عی

ماخذ: d2i

اگلا، آئیے کوآرڈینیٹس ڈیٹا کی بنیاد پر تصویر پر کتے اور بلی کے باؤنڈنگ باکسز کی وضاحت کرتے ہیں۔

OCR PlatoBlockchain ڈیٹا انٹیلی جنس کے لیے امیج پروسیسنگ اور باؤنڈنگ بکس۔ عمودی تلاش۔ عی

ماخذ: d2i

دو باؤنڈنگ بکس کنورژن فنکشنز کی درستگی کی تصدیق کرنے کے لیے، ہم دو بار تبدیل کر سکتے ہیں۔

OCR PlatoBlockchain ڈیٹا انٹیلی جنس کے لیے امیج پروسیسنگ اور باؤنڈنگ بکس۔ عمودی تلاش۔ عی

ماخذ: d2i

OCR PlatoBlockchain ڈیٹا انٹیلی جنس کے لیے امیج پروسیسنگ اور باؤنڈنگ بکس۔ عمودی تلاش۔ عی

ماخذ: d2i

اگلا، ہم تصویر پر اشیاء کے باؤنڈنگ باکسز کو کھینچ سکتے ہیں تاکہ یہ چیک کیا جا سکے کہ آیا وہ درست ہیں۔ اس سے پہلے، ہم ایک فنکشن bbox_t_rect کی وضاحت کرتے ہیں جو matplotlib پیکیج کے متعلقہ فارمیٹ میں باؤنڈنگ باکس کی نمائندگی کرتا ہے۔

OCR PlatoBlockchain ڈیٹا انٹیلی جنس کے لیے امیج پروسیسنگ اور باؤنڈنگ بکس۔ عمودی تلاش۔ عی

ماخذ: d2i

اب، تصویر میں کتے اور بلی کی اشیاء کے باؤنڈنگ بکس کو شامل کرنے کے بعد، ہم دیکھتے ہیں کہ ان اشیاء کا مرکزی خاکہ دو خانوں کے اندر ہے۔

OCR PlatoBlockchain ڈیٹا انٹیلی جنس کے لیے امیج پروسیسنگ اور باؤنڈنگ بکس۔ عمودی تلاش۔ عی

ماخذ: d2i

OCR PlatoBlockchain ڈیٹا انٹیلی جنس کے لیے امیج پروسیسنگ اور باؤنڈنگ بکس۔ عمودی تلاش۔ عی

ماخذ: d2i


بار بار دستی کاموں کو خودکار کرنا چاہتے ہیں؟ ہمارا Nanonets ورک فلو پر مبنی دستاویز پروسیسنگ سافٹ ویئر چیک کریں۔ انوائسز، شناختی کارڈز، یا آٹو پائلٹ پر کسی بھی دستاویز سے ڈیٹا نکالیں!


باؤنڈنگ بکس کے عام استعمال کے کیسز

سیلف ڈرائیونگ گاڑیوں کی آبجیکٹ لوکلائزیشن

باؤنڈنگ باکسز خود ڈرائیونگ یا خود مختار گاڑیوں کو سڑک پر موجود اشیاء جیسے عمارتوں، ٹریفک سگنلز، کسی بھی رکاوٹ وغیرہ کی شناخت کرنے کی تربیت دینے کے لیے لازمی ہیں۔ وہ کسی بھی رکاوٹ کو بیان کرنے میں مدد کرتے ہیں اور روبوٹ کو گاڑی کو محفوظ طریقے سے چلانے اور حادثات کو روکنے کے قابل بناتے ہیں، یہاں تک کہ بھیڑ کی صورت میں۔

روبوٹکس امیجری

تصویری تشریح کی تکنیکیں جیسے باؤنڈنگ بکس روبوٹ اور ڈرون کے نقطہ نظر کو نشان زد کرنے کے لیے بڑے پیمانے پر استعمال ہوتی ہیں۔ یہ خود مختار گاڑیاں اس تشریح کے طریقہ سے حاصل کردہ تصاویر کا استعمال کرتے ہوئے زمین پر موجود اشیاء کی درجہ بندی میں مدد کرتی ہیں۔

ای کامرس اور ریٹیل کے لیے امیج ٹیگنگ

باؤنڈنگ باکس تشریحات پروڈکٹ کے تصور کو بہتر بنانے میں مدد کرتی ہیں، جو ای کامرس اور ریٹیل میں ایک بڑا پلس ہے۔ اسی طرح کی اشیاء پر تربیت یافتہ ماڈلز فیشن کے ملبوسات، لوازمات، فرنیچر، کاسمیٹکس وغیرہ جیسی اشیاء کی تشریح کر سکتے ہیں، جب مناسب طریقے سے لیبل لگایا گیا ہو۔ ریٹیل میں باؤنڈنگ بکس تشریحات کے ذریعے حل کیے جانے والے چند چیلنجز ذیل میں ہیں:

  • غلط تلاش کے نتائج

اگر تلاش ہی واحد طریقہ ہے جس سے صارفین ای کامرس سائٹ پر ٹھوکر کھا سکتے ہیں، تو غلط کیٹلاگ ڈیٹا کے نتیجے میں تلاش کے غلط نتائج برآمد ہو سکتے ہیں، اس طرح کسٹمر ٹریفک کو سائٹ پر نہیں لے جا سکتے۔

  • غیر منظم سپلائی چینز

ان لوگوں کے لیے جو اپنے خوردہ کاروبار کو بڑھانا چاہتے ہیں تاکہ سالانہ لاکھوں پروڈکٹس بھیجے جا سکیں، یہ ضروری ہو جاتا ہے کہ آف لائن اور آن لائن ڈیٹا کا مطابقت پذیر ہو۔

  • مسلسل ڈیجیٹلائزیشن

یہ بہت اہم ہے کہ تمام مصنوعات کو ڈیجیٹائز کیا جائے اور اسے منظم طریقے سے اور فوری طور پر ٹیگ کیا جائے تاکہ یہ یقینی بنایا جا سکے کہ صارفین کسی نئے مواقع سے محروم نہ ہوں۔ اس کے علاوہ، ٹیگز سیاق و سباق میں ہونے چاہئیں، جس پر عمل کرنا مشکل ہو جاتا ہے کیونکہ خوردہ کاروبار پھیلتا ہے اور مزید مصنوعات شامل ہوتی ہیں۔

بیمہ کے دعووں کے لیے کار کے نقصان کا پتہ لگاتا ہے۔

باؤنڈنگ بکس کی تکنیک کاروں، بائکوں، یا حادثے میں خراب ہونے والی دوسری گاڑیوں کو ٹریک کرنے میں مدد کرتی ہے۔ مشین لرننگ ماڈل نقصانات کی پوزیشن اور شدت کو سمجھنے کے لیے باؤنڈنگ بکس سے ان تصاویر کا استعمال کرتے ہیں۔ اس سے ہونے والے نقصانات کی قیمت کا اندازہ لگانے میں مدد ملتی ہے، جس کی بنیاد پر کلائنٹ مقدمہ کرنے سے پہلے اپنا تخمینہ پیش کر سکتے ہیں۔

OCR PlatoBlockchain ڈیٹا انٹیلی جنس کے لیے امیج پروسیسنگ اور باؤنڈنگ بکس۔ عمودی تلاش۔ عی

ماخذ: سپر اینوٹیٹ

اندرونی اشیاء کا پتہ لگانا

باؤنڈنگ بکس کمپیوٹر کو اندرونی اشیاء جیسے بستر، صوفے، ڈیسک، الماریاں، یا برقی آلات کا پتہ لگانے میں مدد کرتے ہیں۔ اس سے کمپیوٹرز کو ان کے طول و عرض اور مقام کے ساتھ جگہ اور موجود اشیاء کی اقسام کا احساس ہوتا ہے۔ اس کے نتیجے میں، مشین لرننگ ماڈلز کو حقیقی زندگی کی صورت حال میں ان اشیاء کی شناخت کرنے میں مدد ملتی ہے۔

باؤنڈنگ بکس کو تصویروں میں وسیع پیمانے پر استعمال کیا جاتا ہے جو کہ مختلف قسم کی اشیاء کو سمجھنے اور اس کی تشریح کرنے کے لیے ایک گہری سیکھنے کے آلے کے طور پر استعمال ہوتا ہے۔

زراعت میں بیماری اور پودوں کی ترقی کی شناخت

پودوں کی بیماریوں کا جلد پتہ لگانے سے کسانوں کو شدید نقصانات سے بچنے میں مدد ملتی ہے۔ سمارٹ فارمنگ کے ظہور کے ساتھ، چیلنج پلانٹ کی بیماریوں کا پتہ لگانے کے لیے مشین لرننگ ماڈلز کو سکھانے کے لیے ڈیٹا کو تربیت دینے میں ہے۔ باؤنڈنگ بکس ایک اہم ڈرائیور ہیں جو مشینوں کو ضروری وژن فراہم کرتے ہیں۔

پیداواری صنعت

صنعتوں میں اشیاء کا پتہ لگانا اور شناخت کرنا مینوفیکچرنگ کا ایک لازمی پہلو ہے۔ AI سے چلنے والے روبوٹس اور کمپیوٹرز کے ساتھ، دستی مداخلت کا کردار کم ہو جاتا ہے۔ اس نے کہا، باؤنڈنگ بکس مشین لرننگ ماڈلز کو صنعتی اجزاء کا پتہ لگانے اور ان کا پتہ لگانے کی تربیت دینے میں ایک اہم کردار ادا کرتے ہیں۔ اس کے علاوہ، کوالٹی کنٹرول، چھانٹنا، اور اسمبلی لائن آپریشنز جیسے عمل جو کوالٹی مینجمنٹ کا حصہ ہیں، کو آبجیکٹ کا پتہ لگانے کی ضرورت ہے۔

طبی عکس زنی

باؤنڈنگ بکس صحت کی دیکھ بھال کی صنعت میں بھی درخواستیں تلاش کرتے ہیں، جیسے میڈیکل امیجنگ میں۔ میڈیکل امیجنگ کی تکنیک دل جیسی جسمانی اشیاء کا پتہ لگانے سے متعلق ہے اور اس کے لیے تیز اور درست تجزیہ کی ضرورت ہوتی ہے۔ باؤنڈنگ بکس کو مشین لرننگ ماڈلز کو تربیت دینے کے لیے استعمال کیا جا سکتا ہے، جو اس کے بعد دل یا دیگر اعضاء کا جلد اور درست طریقے سے پتہ لگا سکیں گے۔

خودکار سی سی ٹی وی

خودکار CCTVs زیادہ تر رہائشی، تجارتی اور دیگر اداروں میں ایک مینڈیٹ ہیں۔ اکثر، پکڑے گئے CCTV فوٹیج کو زیادہ دیر تک رکھنے کے لیے ہائی میموری اسٹوریج کی ضرورت ہوتی ہے۔ آبجیکٹ کا پتہ لگانے کی تکنیک جیسے باؤنڈنگ بکس کے ساتھ، اس بات کو یقینی بنایا جا سکتا ہے کہ فوٹیج صرف اس وقت ریکارڈ کی جاتی ہے جب مخصوص اشیاء کی شناخت کی جائے۔ باؤنڈنگ بکس مشین لرننگ ماڈلز کو تربیت دے سکتے ہیں، جو صرف ان چیزوں کا پتہ لگائے گا اور، اسی وقت، فوٹیج کو پکڑا جا سکتا ہے۔ اس سے سی سی ٹی وی کے لیے درکار اسٹوریج کی حد کو کم کرنے اور لاگت کو کم کرنے میں بھی مدد ملے گی۔

چہرے کی پہچان اور پتہ لگانا

چہرے کی شناخت متعدد ایپلی کیشنز پیش کرتی ہے، جیسے کہ یہ بائیو میٹرک نگرانی میں استعمال ہوتی ہے۔ اس کے علاوہ، مختلف ایجنسیاں جیسے بینک، ہوائی اڈے، پرچون کی دکانیں، اسٹیڈیم، اور دیگر ادارے جرائم اور تشدد کو روکنے کے لیے چہرے کی شناخت کا استعمال کرتے ہیں۔ اس نے کہا، چہرے کا پتہ لگانا کمپیوٹر وژن کا ایک اہم عنصر ہے جس میں امیج پروسیسنگ شامل ہے۔ اور یہاں ایک بار پھر، باؤنڈنگ باکسز کو کردار کی شناخت کے لیے ایک موثر ٹول کے طور پر استعمال کیا جا سکتا ہے۔


روبوٹک عمل آٹومیشن استعمال کرنا چاہتے ہیں؟ Nanonets ورک فلو پر مبنی دستاویز پروسیسنگ سافٹ ویئر کو چیک کریں۔ کوئی کوڈ نہیں۔ کوئی پریشانی کا پلیٹ فارم۔


کریکٹر ریکگنیشن کے لیے باؤنڈنگ بکس

آبجیکٹ کا پتہ لگانے پر مشتمل ہے - تصویر کی درجہ بندی اور آبجیکٹ لوکلائزیشن۔ اس کا مطلب ہے کہ کمپیوٹر کے لیے کسی شے کا پتہ لگانے کے لیے، اسے یہ جاننے کی ضرورت ہے کہ سوال میں موجود شے کیا ہے اور وہ کہاں واقع ہے۔ تصویر کی درجہ بندی کسی تصویر کو کلاس لیبل تفویض کرتی ہے۔ آبجیکٹ لوکلائزیشن کا تعلق تصویر میں زیربحث آبجیکٹ کے گرد باؤنڈنگ باکس کھینچنے سے ہے۔

اس عمل میں ایک اینوٹیٹر شامل ہوتا ہے جو اشیاء کے گرد باؤنڈنگ بکس کھینچتا ہے اور ان پر لیبل لگاتا ہے۔ یہ الگورتھم کو تربیت دینے میں مدد کرتا ہے اور اسے یہ سمجھنے کی اجازت دیتا ہے کہ شے کیسی دکھتی ہے۔ آبجیکٹ کا پتہ لگانے کے پہلے قدم کے طور پر، تصویری ڈیٹاسیٹ میں لیبلز ہونے چاہئیں۔

کسی تصویر کو لیبل کرنے کے لیے، درج ذیل مراحل پر عمل کریں:

  • وہ ڈیٹاسیٹ منتخب کریں جس کی آپ تربیت اور جانچ کرنا چاہتے ہیں۔ اس کا ایک فولڈر بنائیں۔
  • آئیے چہرے کا پتہ لگانے والے پروجیکٹ کی مثال لیتے ہیں جیسے: BTS، Avenger، وغیرہ۔
  • فولڈر کے نام کا ڈیٹا بنائیں۔
  • گوگل ڈرائیو میں، FaceDetection کے نام سے ایک فولڈر بنائیں۔
  • FaceDetection فولڈر میں، تصویر کا فولڈر بنائیں۔
  • امیج فولڈر میں، ٹیسٹ امیج، ٹیسٹ XML، ٹرین امیج، اور ٹرین XML کے فولڈرز بنائیں۔
OCR PlatoBlockchain ڈیٹا انٹیلی جنس کے لیے امیج پروسیسنگ اور باؤنڈنگ بکس۔ عمودی تلاش۔ عی

ماخذ:صنعتی

اب، ٹرین امیج فولڈر میں، JPEG فارمیٹ میں BTS اور Avengers کی 10-15 تصاویر ڈاؤن لوڈ اور اپ لوڈ کریں۔ اسی طرح، ٹیسٹ امیج فولڈر میں، 5-6 امیجز کے لیے بھی ایسا ہی کریں۔ درست نتائج کے لیے ڈیٹاسیٹ میں مزید تصاویر رکھنے کی سفارش کی جاتی ہے۔

OCR PlatoBlockchain ڈیٹا انٹیلی جنس کے لیے امیج پروسیسنگ اور باؤنڈنگ بکس۔ عمودی تلاش۔ عی

ماخذ: صنعتی

OCR PlatoBlockchain ڈیٹا انٹیلی جنس کے لیے امیج پروسیسنگ اور باؤنڈنگ بکس۔ عمودی تلاش۔ عی

ماخذ: صنعتی

اگلا، ٹیسٹ امیج کی ہر تصویر کے لیے ایک XML فائل بنائیں اور امیج فولڈرز کو ٹرین کریں۔

ڈاؤن لوڈ کریں اور ونڈوز v_1.8.0 پر کلک کریں۔ GitHub سے .exe فائل پر کلک کریں اور رن کو دبائیں۔

اگلا، تصویر کے فولڈر کو منتخب کرنے کے لیے کھلی ڈائرکٹری پر کلک کریں۔ آپ وہ تصویر دیکھیں گے جس پر لیبل لگانا ہے۔ لیبل لگانے کے لیے، کی بورڈ پر W دبائیں اور دائیں کلک کریں اور کرسر کو گھسیٹ کر آبجیکٹ کے گرد باکس کھینچیں۔ اسے ایک نام دیں اور ٹھیک ہے پر کلک کریں۔

OCR PlatoBlockchain ڈیٹا انٹیلی جنس کے لیے امیج پروسیسنگ اور باؤنڈنگ بکس۔ عمودی تلاش۔ عی

ماخذ: صنعتی

اگلا، تصویر کے فولڈر میں تصویر کی XML فائل بنانے کے لیے تصویر کو محفوظ کریں، جیسا کہ نیچے دکھایا گیا ہے۔

OCR PlatoBlockchain ڈیٹا انٹیلی جنس کے لیے امیج پروسیسنگ اور باؤنڈنگ بکس۔ عمودی تلاش۔ عی

ماخذ: صنعتی

کوآرڈینیٹ دیکھنے کے لیے XML فائل کھولیں۔

OCR PlatoBlockchain ڈیٹا انٹیلی جنس کے لیے امیج پروسیسنگ اور باؤنڈنگ بکس۔ عمودی تلاش۔ عی

ماخذ: صنعتی

XML فائلیں بنانے اور کوآرڈینیٹ تلاش کرنے کے لیے تمام امیجز کے لیے طریقہ کار کو دہرائیں۔


اگر آپ رسیدوں، اور رسیدوں کے ساتھ کام کرتے ہیں یا شناختی تصدیق کے بارے میں فکر مند ہیں، تو Nanonets چیک کریں۔ آن لائن OCR or پی ڈی ایف ٹیکسٹ ایکسٹریکٹر پی ڈی ایف دستاویزات سے متن نکالنے کے لیے مفت میں. کے بارے میں مزید جاننے کے لیے نیچے کلک کریں۔ Nanonets انٹرپرائز آٹومیشن حل.


باؤنڈنگ باکسز میں استعمال ہونے والے مختلف تشریحی فارمیٹس

بنیادی طور پر، ایک باؤنڈنگ باکس میں کونوں کی نمائندگی کرنے والے (x,y) محور میں 4 پوائنٹس ہوتے ہیں:

اوپر بائیں: (x_min، y_min)

اوپر دائیں: (x_max, y_min)

نیچے سے بائیں:(x_min، y_max)

نیچے دائیں: (x_max، y_max)

باؤنڈنگ باکس کے نقاط کا حساب تصویر کے اوپری بائیں کونے کے حوالے سے کیا جاتا ہے۔

کئی باؤنڈنگ باکس تشریحی فارمیٹس ہیں، ہر ایک باؤنڈنگ باکس کوآرڈینیٹ کی اپنی نمائندگی کا استعمال کرتا ہے۔

a البمینٹیشنز

وہ باؤنڈنگ باکس کی نمائندگی کرنے کے لیے چار اقدار کا استعمال کرتے ہیں - [x_min, y_min, x_max, y_max] - جنہیں x-axis کے لیے پکسلز میں نقاط کو چوڑائی اور y-axis کو تصویر کی اونچائی سے تقسیم کر کے معمول بنایا جاتا ہے۔

کہتے ہیں کہ باؤنڈنگ باکس کے نقاط ہیں: x1 = 678، y1 = 24؛ x2 = 543، y2 = 213۔

چوڑائی = 870، اونچائی = 789 مانیں۔

پھر، [678/870, 24/789, 543/870, 213/789] = [ 0.779310, 0.030418, 0.624137]

البمینٹیشن ان اقدار کو باؤنڈنگ بکس کے ساتھ اندرونی طور پر استعمال اور تشریح کرتی ہے اور ان میں اضافہ کرتی ہے۔

ب کوکو

یہ سیاق و سباق COCO ڈیٹاسیٹ میں کامن آبجیکٹ کے ذریعہ استعمال ہونے والا فارمیٹ ہے۔ COCO فارمیٹ میں، ایک باؤنڈنگ باکس کو چار اقدار سے ظاہر کیا جاتا ہے: (x_min، y_min، چوڑائی، اونچائی)۔ بنیادی طور پر، وہ اوپری بائیں کونے اور باؤنڈنگ باکس کی چوڑائی اور اونچائی کا حوالہ دیتے ہیں۔

c یولو

اس فارمیٹ میں، ایک باؤنڈنگ باکس چار اقدار کے ساتھ پیش کیا گیا ہے: (x_center, y_center, width, height)۔ یہاں، x_center اور y_center باؤنڈنگ باکس کے مرکز کے نارملائزڈ x اور y کوآرڈینیٹ کو ظاہر کرتے ہیں۔ نارمل کرنے کے لیے، تصویر کی چوڑائی کے حساب سے مرکز کا x کوآرڈینیٹ اور تصویر کی اونچائی کے حساب سے مرکز کا y کوآرڈینیٹ۔ چوڑائی اور اونچائی کی قدریں بھی معمول کی جاتی ہیں۔

d پاسکل

پاسکل فارمیٹ میں، باؤنڈنگ باکس کو اوپر سے بائیں اور نیچے دائیں کوآرڈینیٹس سے ظاہر کیا جاتا ہے۔ لہذا، پکسلز میں انکوڈ کردہ اقدار ہیں: [x_min، y_min، x_max، y_max]۔ یہاں، [x_min, y_min] اوپری بائیں کونے کا ہے، جبکہ [x_max, y_max] باؤنڈنگ باکس کے نیچے دائیں کونے کو ظاہر کرتا ہے۔


بار بار دستی کاموں کو خودکار کرنا چاہتے ہیں؟ کارکردگی میں اضافہ کرتے ہوئے وقت، کوشش اور پیسہ بچائیں!


باؤنڈنگ بکس کے استعمال میں احتیاطی تدابیر اور بہترین طریقے

امیج پروسیسنگ میں باؤنڈنگ بکس کے زیادہ سے زیادہ استعمال کے لیے کچھ احتیاطی تدابیر اور بہترین طریقوں کی سفارش کی جاتی ہے۔ ان میں شامل ہیں:

باکس کے سائز میں تغیرات

ایک ہی سائز کے تمام باؤنڈنگ باکسز کا استعمال درست نتائج نہیں دے گا۔ اپنے ماڈلز کو ایک ہی سائز کے باؤنڈنگ بکس پر تربیت دینے سے ماڈل کی کارکردگی بدتر ہو جائے گی۔ مثال کے طور پر، اگر وہی چیز سائز میں چھوٹی دکھائی دیتی ہے، تو ماڈل اس کا پتہ لگانے میں ناکام ہو سکتا ہے۔ اشیاء کی توقع سے زیادہ ظاہر ہونے کی صورت میں، یہ پکسلز کی زیادہ تعداد لے سکتا ہے اور آبجیکٹ کی درست پوزیشن اور مقام فراہم نہیں کرتا ہے۔ بنیادی مقصد مطلوبہ نتائج حاصل کرنے کے لیے آبجیکٹ کے سائز اور حجم میں فرق کو ذہن میں رکھنا ہے۔

Pixel-Perfect Tightness

تنگی ایک اہم عنصر ہے۔ اس کا مطلب ہے کہ باؤنڈنگ باکس کے کناروں کو درست نتائج کے لیے زیربحث شے کے اتنا قریب ہونا چاہیے۔ مستقل فرق ماڈل کی پیشین گوئی اور حقیقی چیز کے درمیان اوورلیپ کے علاقے کا تعین کرنے میں درستگی کو متاثر کر سکتا ہے، اس طرح مسائل پیدا ہوتے ہیں۔

باؤنڈنگ خانوں میں رکھی ترچھی اشیاء

باؤنڈنگ باکس کے اندر ترچھی طور پر رکھی گئی اشیاء کے ساتھ درپیش مسئلہ یہ ہے کہ وہ پس منظر کے مقابلے میں باکس کے اندر کافی کم جگہ لیتے ہیں۔ تاہم، اگر لمبے عرصے تک بے نقاب کیا جائے تو، ماڈل یہ فرض کر سکتا ہے کہ ہدف پس منظر ہے کیونکہ اس میں زیادہ جگہ استعمال ہوتی ہے۔ لہذا، ایک بہترین عمل کے طور پر، یہ تجویز کیا جاتا ہے کہ کثیر الاضلاع استعمال کریں اور اخترن اشیاء کے لیے مثال کے طور پر تقسیم کریں۔ پھر بھی، یہ ممکن ہے کہ ماڈلز کو باؤنڈنگ باکس کے ساتھ تربیتی ڈیٹا کی اچھی مقدار کے ساتھ سکھایا جائے۔

باکس اوورلیپ کو کم کریں۔

تمام منظرناموں میں تشریح کے اوورلیپ سے بچنا ہمیشہ محفوظ ہے۔ بعض اوقات، یہ اتنی بے ترتیبی کا سبب بن سکتا ہے کہ آخر میں صرف کچھ اوورلیپنگ بکس ہی نظر آسکتے ہیں۔ ایسی اشیاء جن کا لیبلنگ دیگر اداروں کے ساتھ اوورلیپ ہوتا ہے نسبتاً بدتر نتائج پیدا کرتا ہے۔ ضرورت سے زیادہ اوورلیپنگ کی وجہ سے ماڈل ہدف آبجیکٹ اور دیگر اشیاء کے درمیان فرق کرنے میں ناکام رہے گا۔ ایسی صورتوں میں، کثیر الاضلاع کو زیادہ درستگی کے لیے استعمال کیا جا سکتا ہے۔

نتیجہ

امیج پروسیسنگ ٹیکنالوجی کا ایک ابھرتا ہوا دائرہ ہے جو وسیع گنجائش پیش کرتا ہے۔ اس نے کہا، باؤنڈنگ بکس سب سے زیادہ لاگو امیج پروسیسنگ تکنیک کی تشکیل کرتے ہیں۔

خلاصہ یہ کہ باؤنڈنگ بکس AI پر مبنی مشین لرننگ ماڈلز کو تربیت دینے کے لیے تصویری تشریح کا طریقہ ہے۔ یہ روبوٹ، ڈرون، خود مختار گاڑیاں، نگرانی کے کیمرے، اور دیگر مشینی وژن آلات سمیت ایپلی کیشنز کی ایک وسیع رینج میں آبجیکٹ کا پتہ لگانے اور ہدف کی شناخت کے لیے استعمال ہوتا ہے۔

تجویز کردہ وسائل:

https://www.kdnuggets.com/2022/07/bounding-box-deep-learning-future-video-annotation.html#:~:text=A%20bounding%20box%20is%20a,location%2C%20size%2C%20and%20orientation.

https://www.v7labs.com/blog/bounding-box-annotation

https://towardsdatascience.com/image-data-labelling-and-annotation-everything-you-need-to-know-86ede6c684b1


نانونٹس آن لائن OCR اور OCR API بہت سے دلچسپ ہیں مقدمات کا استعمال کریں tٹوپی آپ کی کاروباری کارکردگی کو بہتر بنا سکتی ہے، اخراجات کو بچا سکتی ہے اور ترقی کو بڑھا سکتی ہے۔ پتہ چلانا Nanonets کے استعمال کے معاملات آپ کی مصنوعات پر کیسے لاگو ہوسکتے ہیں۔


ٹائم اسٹیمپ:

سے زیادہ اے آئی اور مشین لرننگ