OCR PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ইমেজ প্রসেসিং এবং বাউন্ডিং বক্স। উল্লম্ব অনুসন্ধান. আ.

OCR এর জন্য ইমেজ প্রসেসিং এবং বাউন্ডিং বক্স

প্রযুক্তি বিকশিত হতে থাকে, এবং আমরা তাই করি। কৃত্রিম বুদ্ধিমত্তা এবং মেশিন লার্নিংয়ের আবির্ভাবের সাথে, ফোকাস অটোমেশনের দিকে সরে গেছে। বলা হচ্ছে, এই উদীয়মান প্রবণতাগুলির প্রয়োগগুলি অধ্যয়ন এবং অন্বেষণ করার জন্য বিভিন্ন কম্পিউটার বিজ্ঞান শাখা চালু করা হয়েছে।

এরকম একটি উদাহরণ হল চিত্র প্রক্রিয়াজাতকরণ. সহজ ভাষায়, এটি অর্থপূর্ণ তথ্য আঁকতে চিত্রগুলি অন্বেষণকে বোঝায়। যদিও এটি অর্জনের জন্য বেশ কয়েকটি কৌশল উপলব্ধ, সবচেয়ে বেশি ব্যবহৃত হয় - আবদ্ধ বাক্স.

এই ব্লগটি বাউন্ডিং বাক্সের বিভিন্ন দিক নিয়ে আলোচনা করে। এটিতে তারা কী, তারা কীভাবে চিত্র প্রক্রিয়াকরণে কাজ করে, সেগুলিকে সংজ্ঞায়িত করে এমন পরামিতিগুলি, সেগুলিকে নির্দিষ্ট করে এমন নিয়ম, সাধারণ ব্যবহারের ক্ষেত্রে, সতর্কতা এবং সর্বোত্তম অনুশীলনগুলি এবং আরও অনেক কিছু অন্তর্ভুক্ত করে৷

এর মধ্যে ডুব যাক।

ইমেজ প্রসেসিং বলতে বোঝায় একটি ইমেজকে উন্নত করার জন্য বা এর সাথে সম্পর্কিত বৈশিষ্ট্য বা গুণাবলী থেকে কিছু মূল্যবান অন্তর্দৃষ্টি বের করার জন্য কিছু ক্রিয়াকলাপ সম্পাদন করা। আজ, ইমেজ প্রসেসিং ইঞ্জিনিয়ারিং এবং কম্পিউটার প্রযুক্তি অধ্যয়নের গবেষণার একটি প্রাথমিক ক্ষেত্র।

ইমেজ প্রসেসিং দুটি পদ্ধতি ব্যবহার করে করা যেতে পারে - এনালগ ইমেজ প্রসেসিং এবং ডিজিটাল ইমেজ প্রসেসিং।

অ্যানালগ ইমেজ প্রসেসিং এর মধ্যে প্রিন্ট আউট এবং ফটোগ্রাফের হার্ড কপি ব্যবহার করে ছবি বিশ্লেষণ এবং ম্যানিপুলেট করা হয়। চিত্র বিশ্লেষকরা এই চিত্রের অনুলিপিগুলিকে ব্যাখ্যা করতে এবং অর্থপূর্ণ ফলাফলগুলি বের করতে বিভিন্ন পদ্ধতি ব্যবহার করে।

ডিজিটাল ইমেজ প্রসেসিং ডিজিটাল ইমেজ ব্যবহার করে এবং কম্পিউটার ব্যবহার করে তাদের ব্যাখ্যা করে। এটি ডিজিটাল সিগন্যাল প্রসেসিংয়ের একটি উপ-শ্রেণি এবং ডিজিটাল ছবিগুলি প্রক্রিয়া করার জন্য অ্যালগরিদম ব্যবহার করে। এটি অ্যানালগ চিত্র প্রক্রিয়াকরণের উপর সুবিধা প্রদান করে, যেমন অ্যালগরিদম প্রক্রিয়াকরণে শব্দ এবং বিকৃতি রোধ করতে।

ডিজিটাল ইমেজ প্রসেসিং-এর মেডিসিন, ম্যানুফ্যাকচারিং, ইকমার্স এবং আরও অনেক কিছুর ক্ষেত্রে বেশ কিছু অ্যাপ্লিকেশন রয়েছে।


ছবি প্রক্রিয়াকরণে বাউন্ডিং বক্স

শুরুতে, বাউন্ডিং বক্স হল একটি কাল্পনিক আয়তক্ষেত্রাকার বাক্স যাতে একটি বস্তু এবং ডেটা পয়েন্টের একটি সেট থাকে। ডিজিটাল ইমেজ প্রসেসিং এর প্রেক্ষাপটে, বাউন্ডিং বক্স X এবং Y অক্ষের সীমানার স্থানাঙ্কগুলিকে নির্দেশ করে যা একটি চিত্রকে ঘিরে রাখে। এগুলি একটি লক্ষ্য সনাক্ত করতে এবং বস্তু সনাক্তকরণের জন্য একটি রেফারেন্স হিসাবে পরিবেশন করতে এবং বস্তুর জন্য একটি সংঘর্ষ বাক্স তৈরি করতে ব্যবহৃত হয়।

বাউন্ডিং বক্স কি?

বাউন্ডিং বাক্সগুলি হল মূল উপাদান এবং ভিডিও টীকা প্রকল্পগুলির জন্য প্রাথমিক চিত্র প্রক্রিয়াকরণ সরঞ্জামগুলির মধ্যে একটি৷ সারমর্মে, একটি বাউন্ডিং বক্স হল একটি কাল্পনিক আয়তক্ষেত্র যা একটি মেশিন লার্নিং প্রকল্পের প্রয়োজনীয়তার একটি অংশ হিসাবে একটি ছবিতে বস্তুর রূপরেখা দেয়৷ কাল্পনিক আয়তক্ষেত্রাকার ফ্রেম ছবিটিতে বস্তুটিকে ঘিরে রাখে।

বাউন্ডিং বাক্সগুলি বস্তুর অবস্থান, এর শ্রেণী এবং আত্মবিশ্বাস নির্দিষ্ট করে যা সম্ভাব্যতার মাত্রা বলে যে বস্তুটি আসলে বাউন্ডিং বাক্সে উপস্থিত রয়েছে।

কম্পিউটার ভিশন আশ্চর্যজনক অ্যাপ্লিকেশন অফার করে - স্ব-চালিত গাড়ি থেকে মুখের স্বীকৃতি এবং আরও অনেক কিছু। এবং এটি, ঘুরে, ইমেজ প্রক্রিয়াকরণের মাধ্যমে সম্ভব হয়েছে।

সুতরাং, চিত্র প্রক্রিয়াকরণ কি বস্তুর চারপাশে আয়তক্ষেত্র বা নিদর্শন আঁকার মতো সহজ? না। বলা হচ্ছে, বাউন্ডিং বাক্সগুলো কি করে?

আসুন বুঝতে পারি।

কিভাবে বাউন্ডিং বক্স ইমেজ প্রসেসিং এ কাজ করে?

উল্লিখিত হিসাবে, বাউন্ডিং বক্স একটি কাল্পনিক আয়তক্ষেত্র যা বস্তু সনাক্তকরণের জন্য একটি রেফারেন্স পয়েন্ট হিসাবে কাজ করে এবং বস্তুর জন্য একটি সংঘর্ষ বাক্স তৈরি করে।

সুতরাং, এটি কীভাবে ডেটা টীকাকারীদের সাহায্য করে? ঠিক আছে, পেশাদাররা চিত্রের উপর কাল্পনিক আয়তক্ষেত্র আঁকতে বাউন্ডিং বাক্সের ধারণা ব্যবহার করে। তারা প্রতিটি চিত্রের মধ্যে প্রশ্নবিদ্ধ বস্তুর রূপরেখা তৈরি করে এবং এর X এবং Y স্থানাঙ্ক সংজ্ঞায়িত করে। এটি মেশিন লার্নিং অ্যালগরিদমগুলির কাজকে সহজ করে তোলে, তাদের সংঘর্ষের পথ খুঁজে পেতে সাহায্য করে এবং এর ফলে কম্পিউটিং সংস্থানগুলি সংরক্ষণ করে৷

উদাহরণস্বরূপ, নীচের চিত্রে, প্রতিটি যান একটি মূল বস্তু যার অবস্থান এবং অবস্থান মেশিন লার্নিং মডেল প্রশিক্ষণের জন্য অপরিহার্য। ডেটা অ্যানোটেটররা এই ক্ষেত্রে প্রতিটি বস্তুর চারপাশে আয়তক্ষেত্র আঁকতে বাউন্ডিং বাক্স কৌশল ব্যবহার করে - যানবাহন, এই ক্ষেত্রে।

OCR PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ইমেজ প্রসেসিং এবং বাউন্ডিং বক্স। উল্লম্ব অনুসন্ধান. আ.

উত্স: keymakr

তারপর, তারা প্রতিটি বস্তুর অবস্থান এবং অবস্থান বোঝার জন্য স্থানাঙ্ক ব্যবহার করে, যা মেশিন লার্নিং মডেলগুলিকে প্রশিক্ষণের জন্য দরকারী। একটি একক আবদ্ধ বাক্স একটি ভাল ভবিষ্যদ্বাণী হার প্রদান করে না। বর্ধিত বস্তু সনাক্তকরণের জন্য, একাধিক বাউন্ডিং বাক্স অবশ্যই ডেটা বৃদ্ধির পদ্ধতির সাথে একত্রে ব্যবহার করতে হবে।

বাউন্ডিং বাক্সগুলি অত্যন্ত দক্ষ এবং শক্তিশালী ইমেজ টীকা কৌশল যা খরচ যথেষ্ট কমিয়ে দেয়।

একটি আবদ্ধ বাক্স সংজ্ঞায়িত পরামিতি

প্যারামিটারগুলি বাউন্ডিং বাক্স নির্দিষ্ট করতে ব্যবহৃত নিয়মগুলির উপর ভিত্তি করে। ব্যবহৃত মূল পরামিতিগুলির মধ্যে রয়েছে:

  • শ্রেণী: এটি বাউন্ডিং বাক্সের ভিতরের বস্তুকে বোঝায় — উদাহরণস্বরূপ, গাড়ি, বাড়ি, ভবন ইত্যাদি।
  • (X1, Y1): এটি আয়তক্ষেত্রের উপরের বাম কোণে X এবং Y স্থানাঙ্ককে বোঝায়।
  • (X2, Y2): এটি আয়তক্ষেত্রের নীচের ডানদিকের কোণায় X এবং Y স্থানাঙ্কগুলিকে বোঝায়।
  • (Xc, Yc): এটি বাউন্ডিং বাক্সের কেন্দ্রের X এবং Y স্থানাঙ্ককে বোঝায়।
  • প্রস্থ: এটি বাউন্ডিং বাক্সের প্রস্থকে বোঝায়।
  • উচ্চতা: এটি বাউন্ডিং বাক্সের উচ্চতা নির্দেশ করে।
  • আত্মবিশ্বাস: এটি বাক্সে থাকা বস্তুর সম্ভাবনাকে প্রতিনিধিত্ব করে। বলুন, আত্মবিশ্বাস 0.9। এর মানে 90% সম্ভাবনা যে বস্তুটি আসলে বাক্সের ভিতরে উপস্থিত থাকবে।

একটি বাউন্ডিং বক্স নির্দিষ্ট করে নিয়মাবলী

একটি আবদ্ধ বাক্স নির্দিষ্ট করার সময়, সাধারণত, দুটি প্রধান নিয়ম অন্তর্ভুক্ত করা প্রয়োজন। এইগুলো:

  • আয়তক্ষেত্রের উপরের বাম এবং নীচের ডান বিন্দুগুলির X এবং Y স্থানাঙ্ক।
  • বাউন্ডিং বাক্সের কেন্দ্রের X এবং Y স্থানাঙ্ক, এর প্রস্থ এবং উচ্চতা সহ।

একটি গাড়ির উদাহরণ দিয়ে এটি ব্যাখ্যা করা যাক।

ক প্রথম কনভেনশনের সাপেক্ষে, বাউন্ডিং বাক্সটি উপরের বাম এবং নীচের ডানদিকের বিন্দুগুলির স্থানাঙ্ক অনুসারে নির্দিষ্ট করা হয়েছে।

উত্স: বিশ্লেষণবিদ্যা

খ. দ্বিতীয় কনভেনশনের সাপেক্ষে, কেন্দ্রের স্থানাঙ্ক, প্রস্থ এবং উচ্চতা অনুসারে বাউন্ডিং বাক্সটি বর্ণনা করা হয়েছে।

OCR PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ইমেজ প্রসেসিং এবং বাউন্ডিং বক্স। উল্লম্ব অনুসন্ধান. আ.

উত্স: বিশ্লেষণবিদ্যা

ব্যবহারের ক্ষেত্রের উপর নির্ভর করে, বিভিন্ন কনভেনশন প্রকারের মধ্যে রূপান্তর করা সম্ভব।

  • Xc = (X1 + X2)/2
  • Yc = (Y1 + Y2)/2
  • প্রস্থ = (X2 – X1)
  • উচ্চতা = (Y2 – Y1)

বাউন্ডিং বক্স প্রোগ্রামিং কোড দিয়ে ব্যাখ্যা করা হয়েছে

কোড স্নিপেট সহ একটি বস্তুর অবস্থান বা অবস্থান সম্পর্কে আরেকটি উদাহরণ দেখা যাক।

OCR PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ইমেজ প্রসেসিং এবং বাউন্ডিং বক্স। উল্লম্ব অনুসন্ধান. আ.

উত্স: d2i

আমরা এই চিত্রের জন্য ব্যবহার করার জন্য ইমেজ লোড. ছবিটির বামে একটি কুকুর এবং ডানদিকে একটি বিড়াল রয়েছে। ছবিতে দুটি বস্তু রয়েছে - একটি কুকুর এবং একটি বিড়াল।

OCR PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ইমেজ প্রসেসিং এবং বাউন্ডিং বক্স। উল্লম্ব অনুসন্ধান. আ.

উত্স: d2i

OCR PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ইমেজ প্রসেসিং এবং বাউন্ডিং বক্স। উল্লম্ব অনুসন্ধান. আ.

উত্স: d2i

বাউন্ডিং বাক্সের উপরের বাম এবং নীচের-ডান কোণগুলির জন্য স্থানাঙ্ক হিসাবে x এবং y নেওয়া যাক। বলুন, (x1,y1) এবং (x2,y2)। একইভাবে, এর প্রস্থ এবং উচ্চতা সহ বাউন্ডিং বাক্সের কেন্দ্রের জন্য (x,y) – অক্ষ স্থানাঙ্কগুলি বিবেচনা করা যাক।

এর পরে, আমরা এই ফর্মগুলিকে রূপান্তর করার জন্য দুটি ফাংশন সংজ্ঞায়িত করি: box_corner_to_center দুই-কোনার প্রতিনিধিত্বকে কেন্দ্র-উচ্চতা-প্রস্থ উপস্থাপনায় রূপান্তর করে এবং box_center_to_corner এর বিপরীতে করে।

ইনপুট আর্গুমেন্ট বাক্সগুলি আকৃতির একটি দ্বি-মাত্রিক টেনসর (n,4), যেখানে n হল বাউন্ডিং বাক্সের সংখ্যা।

OCR PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ইমেজ প্রসেসিং এবং বাউন্ডিং বক্স। উল্লম্ব অনুসন্ধান. আ.

উত্স: d2i

এর পরে, স্থানাঙ্ক ডেটার উপর ভিত্তি করে ছবিতে কুকুর এবং বিড়ালের আবদ্ধ বাক্সগুলি সংজ্ঞায়িত করা যাক।

OCR PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ইমেজ প্রসেসিং এবং বাউন্ডিং বক্স। উল্লম্ব অনুসন্ধান. আ.

উত্স: d2i

দুটি বাউন্ডিং বাক্সের রূপান্তর ফাংশনের সঠিকতা যাচাই করতে, আমরা দুইবার রূপান্তর করতে পারি।

OCR PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ইমেজ প্রসেসিং এবং বাউন্ডিং বক্স। উল্লম্ব অনুসন্ধান. আ.

উত্স: d2i

OCR PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ইমেজ প্রসেসিং এবং বাউন্ডিং বক্স। উল্লম্ব অনুসন্ধান. আ.

উত্স: d2i

এর পরে, আমরা ইমেজের উপর বস্তুর বাউন্ডিং বাক্সগুলি আঁকতে পারি যেগুলি সঠিক কিনা তা পরীক্ষা করতে। তার আগে, আমরা একটি ফাংশন bbox_t_rect সংজ্ঞায়িত করি যা matplotlib প্যাকেজের প্রাসঙ্গিক বিন্যাসে বাউন্ডিং বক্সকে উপস্থাপন করে।

OCR PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ইমেজ প্রসেসিং এবং বাউন্ডিং বক্স। উল্লম্ব অনুসন্ধান. আ.

উত্স: d2i

এখন, ছবিতে কুকুর এবং বিড়াল বস্তুর বাউন্ডিং বক্স যোগ করার পর, আমরা দেখতে পাচ্ছি যে এই বস্তুর মূল রূপরেখা দুটি বাক্সের মধ্যে রয়েছে।

OCR PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ইমেজ প্রসেসিং এবং বাউন্ডিং বক্স। উল্লম্ব অনুসন্ধান. আ.

উত্স: d2i

OCR PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ইমেজ প্রসেসিং এবং বাউন্ডিং বক্স। উল্লম্ব অনুসন্ধান. আ.

উত্স: d2i


পুনরাবৃত্তিমূলক ম্যানুয়াল কাজগুলি স্বয়ংক্রিয় করতে চান? আমাদের Nanonets ওয়ার্কফ্লো-ভিত্তিক নথি প্রক্রিয়াকরণ সফ্টওয়্যার পরীক্ষা করুন। চালান, পরিচয়পত্র বা অটোপাইলটের যেকোনো নথি থেকে ডেটা বের করুন!


বাউন্ডিং বক্সের সাধারণ ব্যবহারের ক্ষেত্রে

স্ব-ড্রাইভিং যানবাহন অবজেক্ট স্থানীয়করণ

বাউন্ডিং বক্সগুলি স্ব-ড্রাইভিং বা স্বায়ত্তশাসিত যানবাহনগুলিকে রাস্তার উপর থাকা বস্তুগুলি যেমন বিল্ডিং, ট্র্যাফিক সিগন্যাল, যে কোনও বাধা এবং আরও অনেক কিছু শনাক্ত করতে প্রশিক্ষণের ক্ষেত্রে অবিচ্ছেদ্য। তারা যেকোনো বাধা টীকা করতে সাহায্য করে এবং রোবটকে নিরাপদে গাড়ি চালাতে এবং দুর্ঘটনা প্রতিরোধ করতে সক্ষম করে, এমনকি যানজটের ক্ষেত্রেও।

রোবোটিক্স ইমেজরি

রোবট এবং ড্রোনের দৃষ্টিভঙ্গি চিহ্নিত করতে বাউন্ডিং বাক্সের মতো চিত্রের টীকা কৌশলগুলি ব্যাপকভাবে ব্যবহৃত হয়। এই স্বায়ত্তশাসিত যানগুলি এই টীকা পদ্ধতি থেকে প্রাপ্ত ফটোগ্রাফ ব্যবহার করে পৃথিবীর বস্তুকে শ্রেণিবদ্ধ করতে সহায়তা করে।

ইকমার্স এবং খুচরা জন্য ইমেজ ট্যাগিং

বাউন্ডিং বক্স টীকা পণ্যের ভিজ্যুয়ালাইজেশন উন্নত করতে সাহায্য করে, যা ইকমার্স এবং খুচরা ক্ষেত্রে একটি বড় প্লাস। অনুরূপ আইটেমগুলিতে প্রশিক্ষিত মডেলগুলি ফ্যাশন পোশাক, আনুষাঙ্গিক, আসবাবপত্র, প্রসাধনী ইত্যাদির মতো বস্তুগুলিকে টীকা করতে পারে, যখন সঠিকভাবে লেবেল করা হয়। নীচে খুচরোতে বাউন্ডিং বক্স টীকা দ্বারা সমাধান করা কিছু চ্যালেঞ্জ রয়েছে:

  • ভুল অনুসন্ধান ফলাফল

যদি অনুসন্ধান করাই একমাত্র উপায় যা গ্রাহকরা ই-কমার্স সাইটে হোঁচট খেতে পারে, তাহলে ভুল ক্যাটালগ ডেটার ফলে ভুল অনুসন্ধানের ফলাফল হতে পারে, যার ফলে গ্রাহক ট্রাফিক সাইটের দিকে চালিত হবে না।

  • অসংগঠিত সরবরাহ চেইন

যারা তাদের খুচরা ব্যবসা প্রসারিত করতে চান যাতে লক্ষ লক্ষ পণ্য বার্ষিক পাঠানো যায়, তাদের জন্য অফলাইন এবং অনলাইন ডেটা সিঙ্কে থাকা অপরিহার্য হয়ে ওঠে।

  • ক্রমাগত ডিজিটাইজেশন

গ্রাহকরা যাতে কোনো নতুন সুযোগ হাতছাড়া না করেন তা নিশ্চিত করার জন্য সব পণ্যকে ডিজিটাইজ করা এবং পদ্ধতিগতভাবে এবং দ্রুত ট্যাগ করা খুবই গুরুত্বপূর্ণ। এছাড়াও, ট্যাগগুলি অবশ্যই প্রেক্ষাপটে হতে হবে, যা মেনে চলা কঠিন হয়ে পড়ে কারণ খুচরা ব্যবসার প্রসারিত হয় এবং আরও পণ্য যুক্ত হয়।

বীমা দাবির জন্য গাড়ির ক্ষতি সনাক্ত করে

বাউন্ডিং বাক্সের কৌশলটি দুর্ঘটনায় ক্ষতিগ্রস্ত গাড়ি, বাইক বা অন্যান্য যানবাহন ট্র্যাক করতে সাহায্য করে। মেশিন লার্নিং মডেলগুলি ক্ষতির অবস্থান এবং তীব্রতা বোঝার জন্য বাউন্ডিং বাক্স থেকে এই চিত্রগুলি ব্যবহার করে। এটি ক্ষতির খরচের পূর্বাভাস দিতে সাহায্য করে, যার ভিত্তিতে ক্লায়েন্টরা মামলা করার আগে তাদের অনুমান উপস্থাপন করতে পারে।

OCR PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ইমেজ প্রসেসিং এবং বাউন্ডিং বক্স। উল্লম্ব অনুসন্ধান. আ.

উত্স: সুপারঅ্যানোটেট

ইনডোর আইটেম সনাক্তকরণ

বাউন্ডিং বক্স কম্পিউটারগুলিকে বিছানা, সোফা, ডেস্ক, ক্যাবিনেট বা বৈদ্যুতিক যন্ত্রপাতির মতো অন্দর আইটেমগুলি সনাক্ত করতে সহায়তা করে। এটি কম্পিউটারগুলিকে তাদের মাত্রা এবং অবস্থান সহ স্থান এবং উপস্থিত বস্তুর ধরন সম্পর্কে ধারণা পেতে দেয়। এটি, পরিবর্তে, বাস্তব জীবনের পরিস্থিতিতে এই আইটেমগুলি সনাক্ত করতে মেশিন লার্নিং মডেলগুলিকে সহায়তা করে।

বাউন্ডিং বাক্সগুলি বিভিন্ন ধরণের বস্তু বোঝা এবং ব্যাখ্যা করার জন্য গভীর শিক্ষার সরঞ্জাম হিসাবে ফটোগ্রাফগুলিতে ব্যাপকভাবে ব্যবহৃত হয়।

কৃষিতে রোগ ও উদ্ভিদের বৃদ্ধি সনাক্তকরণ

উদ্ভিদ রোগের প্রাথমিক সনাক্তকরণ কৃষকদের মারাত্মক ক্ষতি প্রতিরোধে সহায়তা করে। স্মার্ট ফার্মিং এর উত্থানের সাথে সাথে, গাছের রোগ শনাক্ত করতে মেশিন লার্নিং মডেল শেখানোর জন্য ডেটা প্রশিক্ষণের মধ্যে চ্যালেঞ্জ রয়েছে। বাউন্ডিং বাক্সগুলি একটি প্রধান চালক যা মেশিনে প্রয়োজনীয় দৃষ্টি প্রদান করে।

প্রস্তুতকারী প্রতিষ্ঠান

শিল্পে বস্তু সনাক্তকরণ এবং আইটেম সনাক্তকরণ উত্পাদনের একটি অপরিহার্য দিক। এআই-সক্ষম রোবট এবং কম্পিউটারের সাথে, ম্যানুয়াল হস্তক্ষেপের ভূমিকা হ্রাস করা হয়। এটি বলেছে, বাউন্ডিং বাক্সগুলি মেশিন লার্নিং মডেলগুলিকে শিল্প উপাদানগুলি সনাক্ত করতে এবং সনাক্ত করতে প্রশিক্ষণ দিয়ে একটি গুরুত্বপূর্ণ ভূমিকা পালন করে। উপরন্তু, মান নিয়ন্ত্রণ, বাছাই, এবং সমাবেশ লাইন অপারেশনগুলির মতো প্রক্রিয়াগুলি যা সমস্ত গুণমান ব্যবস্থাপনার একটি অংশ, বস্তু সনাক্তকরণের প্রয়োজন।

মেডিকেল ইমেজিং

বাউন্ডিং বক্সগুলি স্বাস্থ্যসেবা শিল্পে অ্যাপ্লিকেশনগুলিও খুঁজে পায়, যেমন মেডিকেল ইমেজিংয়ে। মেডিকেল ইমেজিংয়ের কৌশলটি হৃৎপিণ্ডের মতো শারীরবৃত্তীয় বস্তু সনাক্তকরণের সাথে সম্পর্কিত এবং দ্রুত এবং সঠিক বিশ্লেষণের প্রয়োজন। বাউন্ডিং বক্সগুলি মেশিন লার্নিং মডেলগুলিকে প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে, যা তারপরে দ্রুত এবং নির্ভুলভাবে হৃদয় বা অন্যান্য অঙ্গ সনাক্ত করতে সক্ষম হবে।

স্বয়ংক্রিয় সিসিটিভি

বেশিরভাগ আবাসিক, বাণিজ্যিক এবং অন্যান্য প্রতিষ্ঠানে স্বয়ংক্রিয় সিসিটিভি একটি বাধ্যতামূলক। প্রায়শই, ক্যাপচার করা সিসিটিভি ফুটেজ দীর্ঘ সময়ের জন্য রাখার জন্য উচ্চ মেমরি স্টোরেজ প্রয়োজন। বাউন্ডিং বাক্সের মতো বস্তু সনাক্তকরণ কৌশলগুলির মাধ্যমে, এটি নিশ্চিত করা যেতে পারে যে ফুটেজটি তখনই রেকর্ড করা হয়েছে যখন নির্দিষ্ট বস্তু সনাক্ত করা হয়। বাউন্ডিং বাক্সগুলি মেশিন লার্নিং মডেলগুলিকে প্রশিক্ষণ দিতে পারে, যা শুধুমাত্র সেই বস্তুগুলি সনাক্ত করবে এবং সেই মুহূর্তে, ফুটেজগুলি ক্যাপচার করা যেতে পারে। এটি সিসিটিভির জন্য প্রয়োজনীয় স্টোরেজের পরিমাণ কমাতে এবং খরচ কমাতেও সাহায্য করবে।

ফেসিয়াল রিকগনিশন এবং ডিটেকশন

মুখের স্বীকৃতি একাধিক অ্যাপ্লিকেশন অফার করে, যেমন এটি বায়োমেট্রিক নজরদারিতে ব্যবহৃত হয়। এছাড়াও, বিভিন্ন সংস্থা যেমন ব্যাংক, বিমানবন্দর, খুচরা দোকান, স্টেডিয়াম এবং অন্যান্য প্রতিষ্ঠান অপরাধ ও সহিংসতা প্রতিরোধে মুখের স্বীকৃতি ব্যবহার করে। এটি বলেছে, মুখের সনাক্তকরণ কম্পিউটার দৃষ্টির একটি গুরুত্বপূর্ণ উপাদান যা চিত্র প্রক্রিয়াকরণ জড়িত। এবং এখানে আবার, বাউন্ডিং বাক্সগুলি চরিত্র সনাক্তকরণের জন্য একটি কার্যকর সরঞ্জাম হিসাবে ব্যবহার করা যেতে পারে।


রোবোটিক প্রক্রিয়া অটোমেশন ব্যবহার করতে চান? Nanonets ওয়ার্কফ্লো-ভিত্তিক নথি প্রক্রিয়াকরণ সফ্টওয়্যার দেখুন। কোনো সংকেত নেই. কোন ঝামেলা প্ল্যাটফর্ম.


অক্ষর স্বীকৃতির জন্য বাউন্ডিং বক্স

অবজেক্ট সনাক্তকরণের মধ্যে রয়েছে - চিত্র শ্রেণীবিভাগ এবং বস্তু স্থানীয়করণ। এর অর্থ হল একটি কম্পিউটারকে একটি বস্তু সনাক্ত করতে, এটিকে জানতে হবে যে প্রশ্নে থাকা বস্তুটি কী এবং এটি কোথায় অবস্থিত। চিত্র শ্রেণীবিভাগ একটি চিত্রকে একটি শ্রেণী লেবেল বরাদ্দ করে। অবজেক্ট লোকালাইজেশন একটি চিত্রের প্রশ্নে থাকা বস্তুর চারপাশে বাউন্ডিং বক্স আঁকার সাথে সম্পর্কিত।

প্রক্রিয়াটির মধ্যে একটি টীকাকারী বস্তুর চারপাশে বাউন্ডিং বাক্সগুলি আঁকতে এবং সেগুলিকে লেবেল করে। এটি অ্যালগরিদমকে প্রশিক্ষণ দিতে সাহায্য করে এবং বস্তুটি দেখতে কেমন তা বোঝার অনুমতি দেয়। বস্তু সনাক্তকরণের প্রথম ধাপ হিসাবে, চিত্র ডেটাসেটে অবশ্যই লেবেল থাকতে হবে।

একটি ইমেজ লেবেল করতে, নিচের ধাপগুলি অনুসরণ করুন:

  • আপনি যে ডেটাসেটটি প্রশিক্ষণ এবং পরীক্ষা করতে চান তা চয়ন করুন। এটির একটি ফোল্ডার তৈরি করুন।
  • আসুন একটি মুখ সনাক্তকরণ প্রকল্পের উদাহরণ নেওয়া যাক যেমন: বিটিএস, অ্যাভেঞ্জার ইত্যাদি।
  • ফোল্ডারের নাম ডেটা তৈরি করুন।
  • Google Drive-এ, FaceDetection নামে একটি ফোল্ডার তৈরি করুন।
  • FaceDetection ফোল্ডারে, ছবির একটি ফোল্ডার তৈরি করুন।
  • ইমেজ ফোল্ডারে, টেস্ট ইমেজ, টেস্ট এক্সএমএল, ট্রেন ইমেজ এবং ট্রেন এক্সএমএলের ফোল্ডার তৈরি করুন।
OCR PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ইমেজ প্রসেসিং এবং বাউন্ডিং বক্স। উল্লম্ব অনুসন্ধান. আ.

উত্স:indusmic

এখন, ট্রেনের ছবি ফোল্ডারে, JPEG ফরম্যাটে BTS এবং Avengers-এর 10-15টি ছবি ডাউনলোড এবং আপলোড করুন। একইভাবে, টেস্ট ইমেজ ফোল্ডারে, 5-6টি ছবির জন্য একই কাজ করুন। সঠিক ফলাফলের জন্য ডেটাসেটে আরও ছবি রাখার পরামর্শ দেওয়া হয়।

OCR PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ইমেজ প্রসেসিং এবং বাউন্ডিং বক্স। উল্লম্ব অনুসন্ধান. আ.

উত্স: indusmic

OCR PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ইমেজ প্রসেসিং এবং বাউন্ডিং বক্স। উল্লম্ব অনুসন্ধান. আ.

উত্স: indusmic

এরপরে, টেস্ট ইমেজ এবং ট্রেন ইমেজ ফোল্ডারের প্রতিটি ইমেজের জন্য একটি XML ফাইল তৈরি করুন

উইন্ডোজ v_1.8.0 ডাউনলোড করুন এবং ক্লিক করুন। GitHub থেকে .exe ফাইলটিতে ক্লিক করুন এবং রান টিপুন।

এরপরে, ছবির ফোল্ডার নির্বাচন করতে খোলা ডিরেক্টরিতে ক্লিক করুন। আপনি যে ছবিটি লেবেল করতে হবে তা দেখতে পাবেন। লেবেল করতে, কীবোর্ডে W টিপুন এবং বস্তুর চারপাশে বাক্সটি আঁকতে কার্সারটিকে ডান-ক্লিক করুন এবং টেনে আনুন। এটি একটি নাম দিন এবং ঠিক আছে ক্লিক করুন.

OCR PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ইমেজ প্রসেসিং এবং বাউন্ডিং বক্স। উল্লম্ব অনুসন্ধান. আ.

উত্স: indusmic

এরপরে, চিত্র ফোল্ডারে চিত্রটির XML ফাইল তৈরি করতে ছবিটি সংরক্ষণ করুন, যেমনটি নীচে দেখানো হয়েছে।

OCR PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ইমেজ প্রসেসিং এবং বাউন্ডিং বক্স। উল্লম্ব অনুসন্ধান. আ.

উত্স: indusmic

স্থানাঙ্কগুলি দেখতে XML ফাইলটি খুলুন।

OCR PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ইমেজ প্রসেসিং এবং বাউন্ডিং বক্স। উল্লম্ব অনুসন্ধান. আ.

উত্স: indusmic

XML ফাইলগুলি তৈরি করতে এবং স্থানাঙ্কগুলি সন্ধান করতে সমস্ত চিত্রের পদ্ধতিটি পুনরাবৃত্তি করুন।


আপনি যদি চালান, এবং রসিদ নিয়ে কাজ করেন বা আইডি যাচাইকরণের বিষয়ে উদ্বিগ্ন হন, তাহলে Nanonets দেখুন অনলাইন ওসিআর or পিডিএফ টেক্সট এক্সট্র্যাক্টর PDF নথি থেকে পাঠ্য বের করতে বিনামূল্যে জন্য. সম্পর্কে আরও জানতে নীচে ক্লিক করুন Nanonets এন্টারপ্রাইজ অটোমেশন সমাধান.


বাউন্ডিং বক্সে ব্যবহৃত বিভিন্ন টীকা বিন্যাস

মূলত, একটি বাউন্ডিং বাক্সে (x,y) অক্ষে 4টি পয়েন্ট থাকে যা কোণগুলিকে উপস্থাপন করে:

উপরে-বাম: (x_min, y_min)

উপরে-ডান: (x_max, y_min)

নীচে-বাম:(x_min, y_max)

নীচে-ডান: (x_max, y_max)

বাউন্ডিং বাক্সের স্থানাঙ্কগুলি চিত্রের উপরের-বাম কোণে সাপেক্ষে গণনা করা হয়।

বেশ কয়েকটি বাউন্ডিং বক্স টীকা বিন্যাস রয়েছে, প্রতিটি বাউন্ডিং বক্স স্থানাঙ্কের নিজস্ব উপস্থাপনা ব্যবহার করে।

ক অ্যালবমেন্টেশন

তারা বাউন্ডিং বাক্সের প্রতিনিধিত্ব করার জন্য চারটি মান ব্যবহার করে – [x_min, y_min, x_max, y_max] – যেগুলিকে চিত্রের উচ্চতা দ্বারা x-অক্ষের জন্য পিক্সেলে স্থানাঙ্কগুলিকে প্রস্থ এবং y-অক্ষ দ্বারা বিভক্ত করে স্বাভাবিক করা হয়।

বলুন বাউন্ডিং বাক্সের স্থানাঙ্কগুলি হল: x1 = 678, y1 = 24; x2 = 543, y2= 213।

ধরুন প্রস্থ = 870, উচ্চতা = 789

তারপর, [678/870, 24/789, 543/870, 213/789] = [ 0.779310, 0.030418 ,0.624137, 0.269961]

অ্যালবামেন্টেশন বাউন্ডিং বাক্সের সাথে অভ্যন্তরীণভাবে এই মানগুলি ব্যবহার করে এবং ব্যাখ্যা করে এবং সেগুলিকে উন্নত করে।

খ. কোকো

এটি কনটেক্সট COCO ডেটাসেটে সাধারণ বস্তু দ্বারা ব্যবহৃত একটি বিন্যাস। COCO বিন্যাসে, একটি বাউন্ডিং বাক্স চারটি মান দ্বারা উপস্থাপিত হয়: (x_min, y_min, প্রস্থ, উচ্চতা)। মূলত, তারা উপরের-বাম কোণে এবং বাউন্ডিং বাক্সের প্রস্থ এবং উচ্চতা উল্লেখ করে।

গ. ইওলো

এই বিন্যাসে, একটি বাউন্ডিং বক্স চারটি মান সহ উপস্থাপন করা হয়েছে :(x_center, y_center, width, height)। এখানে, x_center এবং y_center বাউন্ডিং বাক্সের কেন্দ্রের স্বাভাবিককৃত x এবং y স্থানাঙ্কগুলিকে নির্দেশ করে। স্বাভাবিক করার জন্য, ছবির প্রস্থ দ্বারা কেন্দ্রের x স্থানাঙ্ক এবং চিত্রের উচ্চতা দ্বারা কেন্দ্রের y স্থানাঙ্ক। প্রস্থ এবং উচ্চতার মানগুলিও স্বাভাবিক করা হয়।

d প্যাসকেল

প্যাসকেল বিন্যাসে, বাউন্ডিং বাক্সটি উপরের-বাম এবং নীচে-ডান স্থানাঙ্ক দ্বারা উপস্থাপিত হয়। সুতরাং, পিক্সেলে এনকোড করা মানগুলি হল: [x_min, y_min, x_max, y_max]। এখানে, [x_min, y_min] হল উপরের-বাম কোণে, যখন [x_max, y_max] বাউন্ডিং বাক্সের নীচে-ডানদিকের কোণে বোঝায়।


পুনরাবৃত্তিমূলক ম্যানুয়াল কাজগুলি স্বয়ংক্রিয় করতে চান? দক্ষতা বাড়ানোর সময় সময়, প্রচেষ্টা এবং অর্থ সাশ্রয় করুন!


বাউন্ডিং বক্স ব্যবহার করার ক্ষেত্রে সতর্কতা এবং সর্বোত্তম অভ্যাস

ছবি প্রক্রিয়াকরণে বাউন্ডিং বাক্সের সর্বোত্তম ব্যবহারের জন্য কিছু সতর্কতা এবং সর্বোত্তম অনুশীলনের সুপারিশ করা হয়। তারা সহ:

বক্স সাইজ বৈচিত্র্য

একই আকারের সমস্ত বাউন্ডিং বাক্স ব্যবহার করলে সঠিক ফলাফল পাওয়া যাবে না। আপনার মডেলগুলিকে একই আকারের বাউন্ডিং বাক্সগুলিতে প্রশিক্ষণ দেওয়া মডেলটিকে আরও খারাপ করে তুলবে৷ উদাহরণস্বরূপ, যদি একই বস্তু আকারে ছোট দেখায়, মডেলটি এটি সনাক্ত করতে ব্যর্থ হতে পারে। প্রত্যাশিত থেকে বড় আকারের বস্তুর ক্ষেত্রে, এটি একটি বৃহত্তর সংখ্যক পিক্সেল নিতে পারে এবং বস্তুর সঠিক অবস্থান এবং অবস্থান প্রদান করতে পারে না। কাঙ্খিত ফলাফল অর্জনের জন্য বস্তুর আকার এবং আয়তনের তারতম্যকে মনে রাখাই মূল বিষয়।

পিক্সেল-পারফেক্ট টাইটনেস

নিবিড়তা একটি গুরুত্বপূর্ণ ফ্যাক্টর। এর মানে নির্ভুল ফলাফলের জন্য বাউন্ডিং বাক্সের প্রান্তগুলি যতটা সম্ভব প্রশ্নবিদ্ধ বস্তুর কাছাকাছি হতে হবে। সামঞ্জস্যপূর্ণ ফাঁক মডেলের ভবিষ্যদ্বাণী এবং বাস্তব বস্তুর মধ্যে ওভারল্যাপের ক্ষেত্র নির্ধারণে নির্ভুলতাকে প্রভাবিত করতে পারে, যার ফলে সমস্যা তৈরি হয়।

তির্যক আইটেমগুলি বাউন্ডিং বাক্সে স্থাপন করা হয়েছে

একটি বাউন্ডিং বাক্সের মধ্যে তির্যকভাবে রাখা আইটেমগুলির সাথে সমস্যাটি হল যে তারা পটভূমির তুলনায় বাক্সের ভিতরে যথেষ্ট কম জায়গা নেয়। যাইহোক, যদি বেশি সময় ধরে উন্মুক্ত করা হয়, তাহলে মডেলটি অনুমান করতে পারে যে লক্ষ্যটি পটভূমি কারণ এটি বেশি স্থান খরচ করে। সুতরাং, একটি সর্বোত্তম অনুশীলন হিসাবে, বহুভুজ এবং তির্যক বস্তুর জন্য ইনস্ট্যান্স সেগমেন্টেশন ব্যবহার করার পরামর্শ দেওয়া হয়। তবুও, একটি ভাল পরিমাণ প্রশিক্ষণের ডেটা সহ একটি বাউন্ডিং বক্স সহ মডেলগুলি শেখানো সম্ভব।

বক্স ওভারল্যাপ হ্রাস করুন

সমস্ত পরিস্থিতিতে টীকা ওভারল্যাপ এড়ানো সবসময় নিরাপদ। কখনও কখনও, এটি এত বেশি বিশৃঙ্খল হতে পারে যে শুধুমাত্র কিছু ওভারল্যাপিং বাক্স শেষ পর্যন্ত দৃশ্যমান হতে পারে। অন্যান্য সত্তার সাথে লেবেলিং ওভারল্যাপ থাকা বস্তুগুলি তুলনামূলকভাবে খারাপ ফলাফল তৈরি করে। অত্যধিক ওভারল্যাপিংয়ের কারণে মডেলটি লক্ষ্য বস্তু এবং অন্যান্য আইটেমের মধ্যে পার্থক্য করতে ব্যর্থ হবে। এই ধরনের ক্ষেত্রে, বহুভুজ উচ্চ নির্ভুলতার জন্য ব্যবহার করা যেতে পারে।

উপসংহার

চিত্র প্রক্রিয়াকরণ প্রযুক্তির একটি উদীয়মান ক্ষেত্র যা বিস্তৃত সুযোগ প্রদান করে। এটি বলেছিল, বাউন্ডিং বাক্সগুলি সবচেয়ে বেশি প্রয়োগ করা চিত্র প্রক্রিয়াকরণ কৌশল গঠন করে।

সংক্ষেপে, বাউন্ডিং বাক্সগুলি এআই-ভিত্তিক মেশিন লার্নিং মডেলগুলিকে প্রশিক্ষণ দেওয়ার জন্য একটি চিত্র টীকা পদ্ধতি। এটি রোবট, ড্রোন, স্বায়ত্তশাসিত যানবাহন, নজরদারি ক্যামেরা এবং অন্যান্য মেশিন ভিশন ডিভাইস সহ বিস্তৃত অ্যাপ্লিকেশনগুলিতে বস্তু সনাক্তকরণ এবং লক্ষ্য শনাক্তকরণের জন্য ব্যবহৃত হয়।

প্রস্তাবিত সম্পদ:

https://www.kdnuggets.com/2022/07/bounding-box-deep-learning-future-video-annotation.html#:~:text=A%20bounding%20box%20is%20a,location%2C%20size%2C%20and%20orientation.

https://www.v7labs.com/blog/bounding-box-annotation

https://towardsdatascience.com/image-data-labelling-and-annotation-everything-you-need-to-know-86ede6c684b1


ন্যানোনেটস অনলাইন ওসিআর এবং ওসিআর এপিআই অনেক আকর্ষণীয় আছে ক্ষেত্রে ব্যবহার করুন tটুপি আপনার ব্যবসায়ের পারফরম্যান্সকে অনুকূল করতে পারে, ব্যয় বাঁচায় এবং বৃদ্ধি বাড়াতে পারে। খুঁজে বের কর Nanonets- এর ব্যবহারের ক্ষেত্রে কীভাবে আপনার পণ্য প্রয়োগ করতে পারে।


সময় স্ট্যাম্প:

থেকে আরো এআই এবং মেশিন লার্নিং