OCR प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के लिए इमेज प्रोसेसिंग और बाउंडिंग बॉक्स। लंबवत खोज। ऐ.

ओसीआर के लिए इमेज प्रोसेसिंग और बाउंडिंग बॉक्स

प्रौद्योगिकी विकसित होती रहती है, और हम भी ऐसा ही करते हैं। आर्टिफिशियल इंटेलिजेंस और मशीन लर्निंग के उद्भव के साथ, ऑटोमेशन की ओर ध्यान केंद्रित हो गया है। कहा जा रहा है कि, इन उभरते रुझानों के अनुप्रयोगों का अध्ययन और पता लगाने के लिए विभिन्न कंप्यूटर विज्ञान विषयों को पेश किया गया है।

ऐसा ही एक उदाहरण है इमेज प्रोसेसिंग. सरल भाषा में, इसका अर्थ है अर्थपूर्ण जानकारी प्राप्त करने के लिए छवियों की खोज करना। हालांकि इसे प्राप्त करने के लिए कई तकनीकें उपलब्ध हैं, लेकिन सबसे अधिक इस्तेमाल की जाने वाली तकनीक है - बाउंडिंग बॉक्स.

यह ब्लॉग बाउंडिंग बॉक्स के विभिन्न पहलुओं पर प्रकाश डालता है। इसमें शामिल हैं कि वे क्या हैं, वे इमेज प्रोसेसिंग में कैसे काम करते हैं, पैरामीटर जो उन्हें परिभाषित करते हैं, कन्वेंशन जो उन्हें निर्दिष्ट करते हैं, सामान्य उपयोग के मामले, सावधानियां और सर्वोत्तम अभ्यास, और बहुत कुछ।

चलो अंदर चलो

इमेज प्रोसेसिंग से तात्पर्य किसी छवि पर कुछ संचालन करने के लिए या तो इसे बढ़ाने के लिए या इससे जुड़ी विशेषताओं या विशेषताओं से कुछ मूल्यवान अंतर्दृष्टि निकालने के लिए है। आज, इमेज प्रोसेसिंग इंजीनियरिंग और कंप्यूटर प्रौद्योगिकी अध्ययन में अनुसंधान का एक प्राथमिक क्षेत्र है।

इमेज प्रोसेसिंग दो तरीकों से की जा सकती है - एनालॉग इमेज प्रोसेसिंग और डिजिटल इमेज प्रोसेसिंग।

एनालॉग इमेज प्रोसेसिंग में छवियों का विश्लेषण और हेरफेर करने के लिए प्रिंट आउट और तस्वीरों की हार्ड कॉपी का उपयोग करना शामिल है। छवि विश्लेषक इन छवि प्रतियों की व्याख्या करने और सार्थक परिणाम निकालने के लिए विभिन्न तरीकों का उपयोग करते हैं।

डिजिटल इमेज प्रोसेसिंग डिजिटल इमेज का उपयोग करती है और कंप्यूटर का उपयोग करके उनकी व्याख्या करती है। यह डिजिटल सिग्नल प्रोसेसिंग की एक उप-श्रेणी है और डिजिटल छवियों को संसाधित करने के लिए एल्गोरिदम का उपयोग करता है। यह एनालॉग इमेज प्रोसेसिंग पर लाभ प्रदान करता है, जैसे कि शोर और प्रसंस्करण में विरूपण को रोकने के लिए एल्गोरिदम।

डिजिटल इमेज प्रोसेसिंग में दवा, निर्माण, ईकामर्स और अन्य क्षेत्रों में कई अनुप्रयोग हैं।


इमेज प्रोसेसिंग में बाउंडिंग बॉक्स

प्रारंभ में, बाउंडिंग बॉक्स एक काल्पनिक आयताकार बॉक्स होता है जिसमें एक ऑब्जेक्ट और डेटा बिंदुओं का एक सेट शामिल होता है। डिजिटल इमेज प्रोसेसिंग के संदर्भ में, बाउंडिंग बॉक्स X और Y अक्षों पर बॉर्डर के निर्देशांक को दर्शाता है जो एक छवि को संलग्न करते हैं। उनका उपयोग लक्ष्य की पहचान करने के लिए किया जाता है और वस्तु का पता लगाने के लिए एक संदर्भ के रूप में कार्य करता है और वस्तु के लिए टकराव बॉक्स उत्पन्न करता है।

बाउंडिंग बॉक्स क्या हैं?

बाउंडिंग बॉक्स मुख्य तत्व हैं और वीडियो एनोटेशन प्रोजेक्ट के लिए प्राथमिक इमेज प्रोसेसिंग टूल में से एक हैं। संक्षेप में, एक बाउंडिंग बॉक्स एक काल्पनिक आयत है जो एक मशीन लर्निंग प्रोजेक्ट आवश्यकता के एक भाग के रूप में एक छवि में वस्तु को रेखांकित करता है। काल्पनिक आयताकार फ्रेम छवि में वस्तु को घेरता है।

बाउंडिंग बॉक्स ऑब्जेक्ट की स्थिति, उसके वर्ग और आत्मविश्वास को निर्दिष्ट करते हैं जो संभावना की डिग्री बताता है कि ऑब्जेक्ट वास्तव में बाउंडिंग बॉक्स में मौजूद है।

कंप्यूटर विज़न अद्भुत एप्लिकेशन प्रदान करता है - सेल्फ-ड्राइविंग कारों से लेकर चेहरे की पहचान और बहुत कुछ। और यह, बदले में, इमेज प्रोसेसिंग के साथ संभव हो गया है।

तो, क्या छवि प्रसंस्करण वस्तुओं के चारों ओर आयत या पैटर्न बनाने जितना सरल है? नहीं, कहा जा रहा है, बाउंडिंग बॉक्स क्या करते हैं?

आइए समझते हैं।

इमेज प्रोसेसिंग में बाउंडिंग बॉक्स कैसे काम करते हैं?

जैसा कि उल्लेख किया गया है, बाउंडिंग बॉक्स एक काल्पनिक आयत है जो वस्तु का पता लगाने के लिए एक संदर्भ बिंदु के रूप में कार्य करता है और वस्तु के लिए एक टकराव बॉक्स विकसित करता है।

तो, यह डेटा एनोटेटर्स की मदद कैसे करता है? खैर, पेशेवर छवियों पर काल्पनिक आयतों को खींचने के लिए बाउंडिंग बॉक्स के विचार का उपयोग करते हैं। वे प्रत्येक छवि के भीतर विचाराधीन वस्तुओं की रूपरेखा बनाते हैं और इसके X और Y निर्देशांक को परिभाषित करते हैं। यह मशीन लर्निंग एल्गोरिदम के काम को सरल बनाता है, जिससे उन्हें टकराव के रास्ते खोजने में मदद मिलती है और इस तरह कंप्यूटिंग संसाधनों की बचत होती है।

उदाहरण के लिए, नीचे दी गई छवि में, प्रत्येक वाहन एक प्रमुख वस्तु है जिसकी स्थिति और स्थान मशीन लर्निंग मॉडल के प्रशिक्षण के लिए आवश्यक हैं। डेटा एनोटेटर इस मामले में इन वस्तुओं में से प्रत्येक के चारों ओर आयतों को खींचने के लिए बाउंडिंग बॉक्स तकनीक का उपयोग करते हैं - वाहन, इस मामले में।

OCR प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के लिए इमेज प्रोसेसिंग और बाउंडिंग बॉक्स। लंबवत खोज। ऐ.

स्रोत: कीमाक्र

फिर, वे प्रत्येक वस्तु की स्थिति और स्थान को समझने के लिए निर्देशांक का उपयोग करते हैं, जो मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए उपयोगी है। एक एकल बाउंडिंग बॉक्स एक अच्छी भविष्यवाणी दर प्रदान नहीं करता है। उन्नत ऑब्जेक्ट डिटेक्शन के लिए, डेटा वृद्धि विधियों के संयोजन में एकाधिक बाउंडिंग बॉक्स का उपयोग किया जाना चाहिए।

बाउंडिंग बॉक्स अत्यधिक कुशल और मजबूत छवि एनोटेशन तकनीक हैं जो लागत को काफी कम करती हैं।

एक बाउंडिंग बॉक्स को परिभाषित करने वाले पैरामीटर

पैरामीटर बाउंडिंग बॉक्स को निर्दिष्ट करने के लिए उपयोग किए जाने वाले सम्मेलनों पर आधारित होते हैं। उपयोग किए जाने वाले प्रमुख मापदंडों में शामिल हैं:

  • वर्ग: यह बाउंडिंग बॉक्स के अंदर की वस्तु को दर्शाता है - उदाहरण के लिए, कार, घर, भवन, आदि।
  • (X1, Y1): यह आयत के ऊपरी बाएँ कोने के X और Y निर्देशांक को दर्शाता है।
  • (X2, Y2): यह आयत के निचले दाएं कोने के X और Y निर्देशांक को दर्शाता है।
  • (एक्ससी, वाईसी): यह बाउंडिंग बॉक्स के केंद्र के एक्स और वाई निर्देशांक को संदर्भित करता है।
  • चौड़ाई: यह बाउंडिंग बॉक्स की चौड़ाई को दर्शाता है।
  • ऊँचाई: यह बाउंडिंग बॉक्स की ऊँचाई को दर्शाता है।
  • आत्मविश्वास: यह वस्तु के बॉक्स में होने की संभावना का प्रतिनिधित्व करता है। कहो, आत्मविश्वास 0.9 है। इसका मतलब है कि 90% संभावना है कि वस्तु वास्तव में बॉक्स के अंदर मौजूद होगी।

एक बाउंडिंग बॉक्स निर्दिष्ट करने वाले सम्मेलन

बाउंडिंग बॉक्स निर्दिष्ट करते समय, आमतौर पर, दो मुख्य सम्मेलनों को शामिल करने की आवश्यकता होती है। य़े हैं:

  • X और Y आयत के ऊपरी बाएँ और निचले दाएँ बिंदुओं के निर्देशांक हैं।
  • एक्स और वाई इसकी चौड़ाई और ऊंचाई के साथ, बाउंडिंग बॉक्स के केंद्र के निर्देशांक हैं।

आइए इसे एक कार के उदाहरण से स्पष्ट करते हैं।

एक। पहले सम्मेलन के संबंध में, ऊपरी बाएँ और नीचे दाएँ बिंदुओं के निर्देशांक के अनुसार बाउंडिंग बॉक्स निर्दिष्ट किया गया है।

स्रोत: विश्लेषिकीविद्या

बी। दूसरे सम्मेलन के संबंध में, बाउंडिंग बॉक्स को केंद्र निर्देशांक, चौड़ाई और ऊंचाई के अनुसार वर्णित किया गया है।

OCR प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के लिए इमेज प्रोसेसिंग और बाउंडिंग बॉक्स। लंबवत खोज। ऐ.

स्रोत: विश्लेषिकीविद्या

उपयोग के मामले के आधार पर, विभिन्न सम्मेलन प्रकारों के बीच परिवर्तित करना संभव है।

  • एक्ससी = (एक्स1 + एक्स2)/2
  • वाईसी = (वाई1 + वाई2)/2
  • चौड़ाई = (X2 - X1)
  • ऊँचाई = (Y2 - Y1)

प्रोग्रामिंग कोड के साथ समझाया गया बाउंडिंग बॉक्स

आइए कोड स्निपेट के साथ किसी ऑब्जेक्ट के स्थान या स्थिति के बारे में एक और उदाहरण देखें।

OCR प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के लिए इमेज प्रोसेसिंग और बाउंडिंग बॉक्स। लंबवत खोज। ऐ.

स्रोत: d2i

हम इस चित्रण के लिए उपयोग की जाने वाली छवि को लोड करते हैं। छवि में बाईं ओर एक कुत्ता और दाईं ओर एक बिल्ली है। छवि में दो वस्तुएं हैं - एक कुत्ता और एक बिल्ली।

OCR प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के लिए इमेज प्रोसेसिंग और बाउंडिंग बॉक्स। लंबवत खोज। ऐ.

स्रोत: d2i

OCR प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के लिए इमेज प्रोसेसिंग और बाउंडिंग बॉक्स। लंबवत खोज। ऐ.

स्रोत: d2i

आइए x और y को बाउंडिंग बॉक्स के ऊपरी बाएँ और निचले-दाएँ कोनों के निर्देशांक के रूप में लें। कहो, (x1,y1) और (x2,y2)। इसी तरह, बाउंडिंग बॉक्स के केंद्र के लिए (x, y) - अक्ष निर्देशांक पर विचार करें, साथ ही इसकी चौड़ाई और ऊंचाई भी।

इसके बाद, हम इन रूपों को बदलने के लिए दो कार्यों को परिभाषित करते हैं: box_corner_to_center दो-कोने के प्रतिनिधित्व को केंद्र-ऊंचाई-चौड़ाई प्रतिनिधित्व में परिवर्तित करता है और box_center_to_corner इसके विपरीत करता है।

इनपुट तर्क बॉक्स को आकार का द्वि-आयामी टेंसर (n,4) होना चाहिए, जहां n बाउंडिंग बॉक्स की संख्या है।

OCR प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के लिए इमेज प्रोसेसिंग और बाउंडिंग बॉक्स। लंबवत खोज। ऐ.

स्रोत: d2i

अगला, आइए निर्देशांक डेटा के आधार पर छवि पर कुत्ते और बिल्ली के बाउंडिंग बॉक्स को परिभाषित करें।

OCR प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के लिए इमेज प्रोसेसिंग और बाउंडिंग बॉक्स। लंबवत खोज। ऐ.

स्रोत: d2i

दो बाउंडिंग बॉक्स रूपांतरण फ़ंक्शन की शुद्धता को सत्यापित करने के लिए, हम दो बार कनवर्ट कर सकते हैं।

OCR प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के लिए इमेज प्रोसेसिंग और बाउंडिंग बॉक्स। लंबवत खोज। ऐ.

स्रोत: d2i

OCR प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के लिए इमेज प्रोसेसिंग और बाउंडिंग बॉक्स। लंबवत खोज। ऐ.

स्रोत: d2i

इसके बाद, हम यह जांचने के लिए छवि पर वस्तुओं के बाउंडिंग बॉक्स बना सकते हैं कि क्या वे सटीक हैं। इससे पहले, हम एक फ़ंक्शन bbox_t_rect को परिभाषित करते हैं जो matplotlib पैकेज के प्रासंगिक प्रारूप में बाउंडिंग बॉक्स का प्रतिनिधित्व करता है।

OCR प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के लिए इमेज प्रोसेसिंग और बाउंडिंग बॉक्स। लंबवत खोज। ऐ.

स्रोत: d2i

अब, कुत्ते और बिल्ली की वस्तुओं के बाउंडिंग बॉक्स को छवि में जोड़ने के बाद, हम देखते हैं कि इन वस्तुओं की मुख्य रूपरेखा दो बॉक्स के भीतर है।

OCR प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के लिए इमेज प्रोसेसिंग और बाउंडिंग बॉक्स। लंबवत खोज। ऐ.

स्रोत: d2i

OCR प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के लिए इमेज प्रोसेसिंग और बाउंडिंग बॉक्स। लंबवत खोज। ऐ.

स्रोत: d2i


दोहराए जाने वाले मैन्युअल कार्यों को स्वचालित करना चाहते हैं? हमारे नैनोनेट्स वर्कफ़्लो-आधारित दस्तावेज़ संसाधन सॉफ़्टवेयर की जाँच करें। ऑटोपायलट पर इनवॉइस, पहचान पत्र, या किसी दस्तावेज़ से डेटा निकालें!


बाउंडिंग बॉक्स के सामान्य उपयोग के मामले

स्व-ड्राइविंग वाहनों का वस्तु स्थानीयकरण

बाउंडिंग बॉक्स सेल्फ-ड्राइविंग या स्वायत्त वाहनों को सड़क पर वस्तुओं की पहचान करने के लिए इमारतों, ट्रैफिक सिग्नल, किसी भी अवरोध, और बहुत कुछ के प्रशिक्षण में अभिन्न अंग हैं। वे किसी भी बाधा को एनोटेट करने में मदद करते हैं और रोबोट को वाहन को सुरक्षित रूप से चलाने और दुर्घटनाओं को रोकने में सक्षम बनाते हैं, यहां तक ​​कि भीड़भाड़ की स्थिति में भी।

रोबोटिक्स इमेजरी

रोबोट और ड्रोन के दृष्टिकोण को चिह्नित करने के लिए बाउंडिंग बॉक्स जैसी छवि एनोटेशन तकनीकों का व्यापक रूप से उपयोग किया जाता है। ये स्वायत्त वाहन इस एनोटेशन पद्धति से प्राप्त तस्वीरों का उपयोग करके पृथ्वी पर वस्तुओं को वर्गीकृत करने में मदद करते हैं।

ईकामर्स और रिटेल के लिए इमेज टैगिंग

बाउंडिंग बॉक्स एनोटेशन उत्पाद विज़ुअलाइज़ेशन को बेहतर बनाने में मदद करते हैं, जो ईकामर्स और रिटेल में एक बड़ा प्लस है। समान वस्तुओं पर प्रशिक्षित मॉडल फैशन परिधान, सहायक उपकरण, फर्नीचर, सौंदर्य प्रसाधन आदि जैसी वस्तुओं की व्याख्या कर सकते हैं, जब ठीक से लेबल किया जाता है। रिटेल में बाउंडिंग बॉक्स एनोटेशन द्वारा संबोधित कुछ चुनौतियाँ नीचे दी गई हैं:

  • गलत खोज परिणाम

यदि खोज ही एकमात्र तरीका है जिससे ग्राहक ईकामर्स साइट पर ठोकर खा सकते हैं, तो गलत कैटलॉग डेटा के परिणामस्वरूप गलत खोज परिणाम हो सकते हैं, जिससे साइट पर ग्राहक ट्रैफ़िक नहीं आ सकता है।

  • असंगठित आपूर्ति श्रृंखला

जो लोग अपने खुदरा कारोबार का विस्तार करना चाहते हैं, ताकि सालाना लाखों उत्पादों को शिप किया जा सके, उनके लिए ऑफ़लाइन और ऑनलाइन डेटा को सिंक करना अनिवार्य हो जाता है।

  • सतत डिजिटलीकरण

यह सुनिश्चित करने के लिए कि ग्राहक कोई नया अवसर न चूकें, सभी उत्पादों को व्यवस्थित और त्वरित रूप से डिजीटल और टैग करना महत्वपूर्ण है। इसके अलावा, टैग संदर्भ में होने चाहिए, जिनका पालन करना मुश्किल हो जाता है क्योंकि खुदरा व्यापार का विस्तार होता है और अधिक उत्पाद जोड़े जाते हैं।

बीमा दावों के लिए कार के नुकसान का पता लगाता है

बाउंडिंग बॉक्स की तकनीक दुर्घटना में क्षतिग्रस्त कारों, बाइक या अन्य वाहनों को ट्रैक करने में मदद करती है। मशीन लर्निंग मॉडल नुकसान की स्थिति और तीव्रता को समझने के लिए इन छवियों का उपयोग बाउंडिंग बॉक्स से करते हैं। इससे होने वाले नुकसान की लागत का अनुमान लगाने में मदद मिलती है, जिसके आधार पर ग्राहक मुकदमा करने से पहले अपना अनुमान प्रस्तुत कर सकते हैं।

OCR प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के लिए इमेज प्रोसेसिंग और बाउंडिंग बॉक्स। लंबवत खोज। ऐ.

स्रोत: सुपरएनोटेट

इंडोर आइटम का पता लगाना

बाउंडिंग बॉक्स कंप्यूटर को बेड, सोफा, डेस्क, कैबिनेट या बिजली के उपकरणों जैसी इनडोर वस्तुओं का पता लगाने में मदद करते हैं। इससे कंप्यूटर को उनके आयामों और स्थान के साथ अंतरिक्ष और मौजूद वस्तुओं के प्रकार का बोध हो जाता है। यह बदले में, मशीन लर्निंग मॉडल को वास्तविक जीवन की स्थिति में इन वस्तुओं की पहचान करने में मदद करता है।

विभिन्न प्रकार की वस्तुओं को समझने और उनकी व्याख्या करने के लिए एक गहन शिक्षण उपकरण के रूप में तस्वीरों में बाउंडिंग बॉक्स का व्यापक रूप से उपयोग किया जाता है।

कृषि में रोग और पौधों की वृद्धि की पहचान

पौधों की बीमारियों का शीघ्र पता लगाने से किसानों को गंभीर नुकसान से बचने में मदद मिलती है। स्मार्ट खेती के उद्भव के साथ, पौधों की बीमारियों का पता लगाने के लिए मशीन लर्निंग मॉडल सिखाने के लिए प्रशिक्षण डेटा में चुनौती है। बाउंडिंग बॉक्स एक प्रमुख चालक हैं जो मशीनों को आवश्यक दृष्टि प्रदान करते हैं।

निर्माण उद्योग

उद्योगों में वस्तुओं का पता लगाना और उनकी पहचान करना विनिर्माण का एक अनिवार्य पहलू है। एआई-सक्षम रोबोट और कंप्यूटर के साथ, मैनुअल हस्तक्षेप की भूमिका कम हो जाती है। उस ने कहा, बाउंडिंग बॉक्स औद्योगिक घटकों का पता लगाने और उनका पता लगाने के लिए मशीन लर्निंग मॉडल को प्रशिक्षित करने में मदद करके महत्वपूर्ण भूमिका निभाते हैं। इसके अलावा, गुणवत्ता नियंत्रण, छँटाई और असेंबली लाइन संचालन जैसी प्रक्रियाएँ जो सभी गुणवत्ता प्रबंधन का एक हिस्सा हैं, उन्हें वस्तु का पता लगाने की आवश्यकता होती है।

चिकित्सीय इमेजिंग

बाउंडिंग बॉक्स स्वास्थ्य देखभाल उद्योग में भी आवेदन पाते हैं, जैसे कि मेडिकल इमेजिंग में। चिकित्सा इमेजिंग की तकनीक हृदय जैसी शारीरिक वस्तुओं का पता लगाने से संबंधित है और इसके लिए तीव्र और सटीक विश्लेषण की आवश्यकता होती है। मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए बाउंडिंग बॉक्स का उपयोग किया जा सकता है, जो तब हृदय या अन्य अंगों का जल्दी और सटीक पता लगाने में सक्षम होगा।

स्वचालित सीसीटीवी

अधिकांश आवासीय, वाणिज्यिक और अन्य प्रतिष्ठानों में स्वचालित सीसीटीवी अनिवार्य हैं। अक्सर, कैप्चर किए गए सीसीटीवी फुटेज को लंबे समय तक रखने के लिए उच्च मेमोरी स्टोरेज की आवश्यकता होती है। बाउंडिंग बॉक्स जैसी ऑब्जेक्ट डिटेक्शन तकनीकों के साथ, यह सुनिश्चित किया जा सकता है कि फ़ुटेज केवल तभी रिकॉर्ड किया जाता है जब कुछ वस्तुओं की पहचान की जाती है। बाउंडिंग बॉक्स मशीन लर्निंग मॉडल को प्रशिक्षित कर सकते हैं, जो केवल उन वस्तुओं का पता लगाएगा और उस पल में, फुटेज को कैप्चर किया जा सकता है। यह सीसीटीवी के लिए आवश्यक भंडारण की सीमा को कम करने और लागत को कम करने में भी मदद करेगा।

चेहरे की पहचान और पहचान

चेहरे की पहचान कई अनुप्रयोगों की पेशकश करती है, जैसे कि इसका उपयोग बायोमेट्रिक निगरानी में किया जाता है। इसके अलावा, विभिन्न एजेंसियां ​​जैसे बैंक, हवाई अड्डे, खुदरा दुकानें, स्टेडियम और अन्य संस्थान अपराधों और हिंसा को रोकने के लिए चेहरे की पहचान का उपयोग करते हैं। उस ने कहा, चेहरे का पता लगाना कंप्यूटर विज़न का एक महत्वपूर्ण तत्व है जिसमें इमेज प्रोसेसिंग शामिल है। और यहाँ फिर से, बाउंडिंग बॉक्स का उपयोग चरित्र पहचान के लिए एक प्रभावी उपकरण के रूप में किया जा सकता है।


रोबोटिक प्रक्रिया स्वचालन का उपयोग करना चाहते हैं? नैनोनेट्स वर्कफ़्लो-आधारित दस्तावेज़ प्रोसेसिंग सॉफ़्टवेयर देखें। कोई कोड नहीं। कोई परेशानी मंच नहीं।


चरित्र पहचान के लिए बाउंडिंग बॉक्स

वस्तु का पता लगाने में शामिल हैं - छवि वर्गीकरण और वस्तु स्थानीयकरण। इसका मतलब है कि कंप्यूटर को किसी वस्तु का पता लगाने के लिए, उसे यह जानना होगा कि प्रश्न में वस्तु क्या है और वह कहाँ स्थित है। छवि वर्गीकरण एक छवि को एक वर्ग लेबल प्रदान करता है। वस्तु स्थानीयकरण एक छवि में प्रश्न में वस्तु के चारों ओर बाउंडिंग बॉक्स को खींचने से संबंधित है।

इस प्रक्रिया में एक व्याख्याकार शामिल होता है जो वस्तुओं के चारों ओर बाउंडिंग बॉक्स खींचता है और उन्हें लेबल करता है। यह एल्गोरिथम को प्रशिक्षित करने में मदद करता है और यह समझने की अनुमति देता है कि वस्तु कैसी दिखती है। ऑब्जेक्ट डिटेक्शन के पहले चरण के रूप में, छवि डेटासेट में लेबल होना चाहिए।

किसी छवि को लेबल करने के लिए, निम्न चरणों का पालन करें:

  • वह डेटासेट चुनें जिसे आप प्रशिक्षित और परीक्षण करना चाहते हैं। इसका एक फोल्डर बनाएं।
  • आइए एक फेस डिटेक्शन प्रोजेक्ट का उदाहरण लें जैसे: बीटीएस, एवेंजर, आदि।
  • फ़ोल्डर का नाम डेटा बनाएं।
  • गूगल ड्राइव में फेस डिटेक्शन नाम का फोल्डर बनाएं।
  • फेस डिटेक्शन फोल्डर में इमेज का फोल्डर बनाएं।
  • छवि फ़ोल्डर में, परीक्षण छवि के फ़ोल्डर बनाएं, एक्सएमएल का परीक्षण करें, छवि को प्रशिक्षित करें, और एक्सएमएल को प्रशिक्षित करें।
OCR प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के लिए इमेज प्रोसेसिंग और बाउंडिंग बॉक्स। लंबवत खोज। ऐ.

स्रोत:औद्योगिक

अब ट्रेन इमेज फोल्डर में जेपीईजी फॉर्मेट में बीटीएस और एवेंजर्स की 10-15 इमेज डाउनलोड करें और अपलोड करें। इसी तरह टेस्ट इमेज फोल्डर में भी 5-6 इमेज के लिए ऐसा ही करें। सटीक परिणामों के लिए डेटासेट में अधिक छवियां रखने की अनुशंसा की जाती है।

OCR प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के लिए इमेज प्रोसेसिंग और बाउंडिंग बॉक्स। लंबवत खोज। ऐ.

स्रोत: औद्योगिक

OCR प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के लिए इमेज प्रोसेसिंग और बाउंडिंग बॉक्स। लंबवत खोज। ऐ.

स्रोत: औद्योगिक

अगला, परीक्षण छवि की प्रत्येक छवि के लिए एक XML फ़ाइल उत्पन्न करें और छवि फ़ोल्डरों को प्रशिक्षित करें

डाउनलोड करें और विंडोज़ v_1.8.0 पर क्लिक करें। GitHub से .exe फ़ाइल पर क्लिक करें और रन दबाएं।

इसके बाद, छवि के फ़ोल्डर का चयन करने के लिए खुली निर्देशिका पर क्लिक करें। आपको वह छवि दिखाई देगी जिसे लेबल करना है। लेबल करने के लिए, कीबोर्ड पर W दबाएं और ऑब्जेक्ट के चारों ओर बॉक्स खींचने के लिए कर्सर को राइट-क्लिक करें और खींचें। इसे एक नाम दें और OK पर क्लिक करें।

OCR प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के लिए इमेज प्रोसेसिंग और बाउंडिंग बॉक्स। लंबवत खोज। ऐ.

स्रोत: औद्योगिक

इसके बाद, इमेज फोल्डर में इमेज की एक्सएमएल फाइल जेनरेट करने के लिए इमेज को सेव करें, जैसा कि नीचे दिखाया गया है।

OCR प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के लिए इमेज प्रोसेसिंग और बाउंडिंग बॉक्स। लंबवत खोज। ऐ.

स्रोत: औद्योगिक

निर्देशांक देखने के लिए XML फ़ाइल खोलें।

OCR प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के लिए इमेज प्रोसेसिंग और बाउंडिंग बॉक्स। लंबवत खोज। ऐ.

स्रोत: औद्योगिक

सभी छवियों के लिए XML फ़ाइलों को उत्पन्न करने और निर्देशांक देखने के लिए प्रक्रिया को दोहराएं।


यदि आप इनवॉइस और रसीदों के साथ काम करते हैं या आईडी सत्यापन के बारे में चिंतित हैं, तो नैनोनेट देखें ऑनलाइन ओसीआर or पीडीएफ टेक्स्ट एक्सट्रैक्टर PDF दस्तावेज़ों से टेक्स्ट निकालने के लिए मुक्त करने के लिए. के बारे में अधिक जानने के लिए नीचे क्लिक करें नैनोनेट्स एंटरप्राइज ऑटोमेशन सॉल्यूशन.


बाउंडिंग बॉक्स में प्रयुक्त विभिन्न एनोटेशन प्रारूप

अनिवार्य रूप से, एक बाउंडिंग बॉक्स में कोनों का प्रतिनिधित्व करने वाले (x, y) कुल्हाड़ियों में 4 बिंदु होते हैं:

ऊपर-बाएँ : (x_min, y_min)

ऊपर-दाएं: (x_max, y_min)

नीचे-बाएं:(x_min, y_max)

नीचे-दाएं: (x_max, y_max)

बाउंडिंग बॉक्स के निर्देशांक की गणना छवि के ऊपरी-बाएँ कोने के संबंध में की जाती है।

कई बाउंडिंग बॉक्स एनोटेशन प्रारूप हैं, जिनमें से प्रत्येक बाउंडिंग बॉक्स निर्देशांक के अपने स्वयं के प्रतिनिधित्व का उपयोग करता है।

एक। अलबमेन्टेशन

वे बाउंडिंग बॉक्स का प्रतिनिधित्व करने के लिए चार मानों का उपयोग करते हैं - [x_min, y_min, x_max, y_max] - जिन्हें x-अक्ष के लिए पिक्सेल में निर्देशांक को चौड़ाई और y-अक्ष को छवि की ऊंचाई से विभाजित करके सामान्यीकृत किया जाता है।

मान लें कि बाउंडिंग बॉक्स के निर्देशांक हैं: x1 = 678, y1 = 24; x2 = 543, y2= 213।

माना चौड़ाई = 870, ऊँचाई = 789

फिर, [678/870, 24/789, 543/870, 213/789] = [0.779310, 0.030418, 0.624137, 0.269961]

अल्बमेन्टेशन इन मूल्यों का आंतरिक रूप से बाउंडिंग बॉक्स के साथ उपयोग और व्याख्या करता है और उन्हें बढ़ाता है।

बी। कोको

यह कॉन्टेक्स्ट COCO डेटासेट में कॉमन ऑब्जेक्ट्स द्वारा इस्तेमाल किया जाने वाला फॉर्मेट है। COCO प्रारूप में, एक बाउंडिंग बॉक्स को चार मानों द्वारा दर्शाया जाता है: (x_min, y_min, चौड़ाई, ऊंचाई)। अनिवार्य रूप से, वे ऊपरी-बाएँ कोने और बाउंडिंग बॉक्स की चौड़ाई और ऊँचाई को संदर्भित करते हैं।

सी। योलो

इस प्रारूप में, चार मानों के साथ एक बाउंडिंग बॉक्स प्रस्तुत किया जाता है: (x_center, y_center, चौड़ाई, ऊंचाई)। यहां, x_center और y_center बाउंडिंग बॉक्स के केंद्र के सामान्यीकृत x और y निर्देशांक को दर्शाते हैं। सामान्य करने के लिए, छवि की चौड़ाई से केंद्र का x समन्वय और छवि की ऊंचाई से केंद्र का y समन्वय। चौड़ाई और ऊंचाई के मान भी सामान्यीकृत होते हैं।

डी। पास्कल

पास्कल प्रारूप में, बाउंडिंग बॉक्स को ऊपर-बाएँ और नीचे-दाएँ निर्देशांक द्वारा दर्शाया जाता है। तो, पिक्सेल में एन्कोड किए गए मान हैं: [x_min, y_min, x_max, y_max]। यहाँ, [x_min, y_min] ऊपरी-बाएँ कोने का है, जबकि [x_max, y_max] बाउंडिंग बॉक्स के निचले-दाएँ कोने को दर्शाता है।


दोहराए जाने वाले मैन्युअल कार्यों को स्वचालित करना चाहते हैं? दक्षता बढ़ाते हुए समय, प्रयास और धन बचाएं!


बाउंडिंग बॉक्स का उपयोग करने में सावधानियां और सर्वोत्तम अभ्यास

इमेज प्रोसेसिंग में बाउंडिंग बॉक्स के इष्टतम उपयोग के लिए कुछ सावधानियों और सर्वोत्तम प्रथाओं की सिफारिश की जाती है। वे सम्मिलित करते हैं:

बॉक्स आकार विविधताएं

एक ही आकार के सभी बाउंडिंग बॉक्स का उपयोग करने से सटीक परिणाम नहीं मिलेंगे। अपने मॉडल को समान आकार के बाउंडिंग बॉक्स पर प्रशिक्षण देने से मॉडल का प्रदर्शन खराब हो जाएगा। उदाहरण के लिए, यदि वही वस्तु आकार में छोटी दिखाई देती है, तो मॉडल उसका पता लगाने में विफल हो सकता है। वस्तुओं के अपेक्षा से बड़े दिखाई देने की स्थिति में, यह अधिक संख्या में पिक्सेल ले सकता है और वस्तु की सटीक स्थिति और स्थान प्रदान नहीं कर सकता है। उद्देश्य वांछित परिणाम प्राप्त करने के लिए वस्तु के आकार और आयतन में भिन्नता को ध्यान में रखना है।

पिक्सेल-परफेक्ट टाइटनेस

जकड़न एक महत्वपूर्ण कारक है। इसका मतलब है कि बाउंडिंग बॉक्स के किनारों को सटीक परिणामों के लिए जितना संभव हो सके वस्तु के करीब होना चाहिए। लगातार अंतराल मॉडल की भविष्यवाणी और वास्तविक वस्तु के बीच ओवरलैप के क्षेत्र को निर्धारित करने में सटीकता को प्रभावित कर सकते हैं, जिससे समस्याएं पैदा हो सकती हैं।

विकर्ण आइटम बाउंडिंग बॉक्स में रखे गए हैं

एक बाउंडिंग बॉक्स के भीतर तिरछे रखे गए आइटम के साथ समस्या यह है कि वे पृष्ठभूमि की तुलना में बॉक्स के अंदर काफी कम जगह लेते हैं। हालाँकि, यदि लंबे समय तक खुला रहता है, तो मॉडल यह मान सकता है कि लक्ष्य पृष्ठभूमि है क्योंकि यह अधिक स्थान लेता है। इसलिए, सर्वोत्तम अभ्यास के रूप में, विकर्ण वस्तुओं के लिए बहुभुज और उदाहरण विभाजन का उपयोग करने की अनुशंसा की जाती है। फिर भी, अच्छी मात्रा में प्रशिक्षण डेटा के साथ बाउंडिंग बॉक्स वाले मॉडल को पढ़ाना संभव है।

बॉक्स ओवरलैप कम करें

सभी परिदृश्यों में एनोटेशन ओवरलैप से बचना हमेशा सुरक्षित होता है। कभी-कभी, यह इतनी अधिक अव्यवस्था का कारण बन सकता है कि अंत में केवल कुछ अतिव्यापी बक्से ही दिखाई दे सकते हैं। जिन वस्तुओं पर अन्य संस्थाओं के साथ लेबलिंग ओवरलैप होता है, वे अपेक्षाकृत खराब परिणाम देते हैं। मॉडल अत्यधिक ओवरलैपिंग के कारण लक्ष्य वस्तु और अन्य वस्तुओं के बीच अंतर करने में विफल हो जाएगा। ऐसे मामलों में, उच्च सटीकता के लिए बहुभुज का उपयोग किया जा सकता है।

निष्कर्ष

इमेज प्रोसेसिंग तकनीक का एक उभरता हुआ क्षेत्र है जो व्यापक दायरा प्रदान करता है। उस ने कहा, बाउंडिंग बॉक्स सबसे अधिक लागू छवि प्रसंस्करण तकनीक बनाते हैं।

संक्षेप में, बाउंडिंग बॉक्स एआई-आधारित मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए एक छवि एनोटेशन विधि है। इसका उपयोग रोबोट, ड्रोन, स्वायत्त वाहन, निगरानी कैमरे और अन्य मशीन दृष्टि उपकरणों सहित अनुप्रयोगों की एक विस्तृत श्रृंखला में ऑब्जेक्ट डिटेक्शन और लक्ष्य पहचान के लिए किया जाता है।

सुझाए गए संसाधन:

https://www.kdnuggets.com/2022/07/bounding-box-deep-learning-future-video-annotation.html#:~:text=A%20bounding%20box%20is%20a,location%2C%20size%2C%20and%20orientation.

https://www.v7labs.com/blog/bounding-box-annotation

https://towardsdatascience.com/image-data-labelling-and-annotation-everything-you-need-to-know-86ede6c684b1


नैनोनेट्स ऑनलाइन ओसीआर और ओसीआर एपीआई कई दिलचस्प हैं बक्सों का इस्तेमाल करें tटोपी आपके व्यवसाय के प्रदर्शन को अनुकूलित कर सकती है, लागतों को बचा सकती है और विकास को बढ़ावा दे सकती है। मालूम करना नैनोनेट्स के उपयोग के मामले आपके उत्पाद पर कैसे लागू हो सकते हैं।


समय टिकट:

से अधिक एअर इंडिया और मशीन लर्निंग