معالجة الصور والمربعات المحيطة بالتعرّف البصري على الأحرف (OCR)

أعاد نشره أفلاطون

المتابعون: 0

تستمر التكنولوجيا في التطور ، وكذلك نحن. مع ظهور الذكاء الاصطناعي والتعلم الآلي ، تحول التركيز نحو الأتمتة. ومع ذلك ، يتم تقديم تخصصات علوم الكمبيوتر المختلفة لدراسة واستكشاف تطبيقات هذه الاتجاهات الناشئة.

أحد الأمثلة على ذلك معالجة الصورة. في لغة بسيطة ، يشير إلى استكشاف الصور لرسم معلومات ذات معنى. على الرغم من توفر العديد من التقنيات لتحقيق ذلك ، فإن الأكثر شيوعًا هي - مربعات تحيط.

تتعمق هذه المدونة في جوانب مختلفة من المربعات المحيطة. وهي تشمل ما هي عليه ، وكيف تعمل في معالجة الصور ، والمعلمات التي تحددها ، والاتفاقيات التي تحددها ، وحالات الاستخدام الشائعة ، والاحتياطات وأفضل الممارسات ، والمزيد.

دعونا الغوص في.

تشير معالجة الصور إلى إجراء عمليات معينة على صورة ما إما لتحسينها أو لاستخراج بعض الأفكار القيمة من الميزات أو السمات المرتبطة بها. اليوم ، تعد معالجة الصور مجالًا أساسيًا للبحث في دراسات الهندسة وتكنولوجيا الكمبيوتر.

يمكن إجراء معالجة الصور باستخدام طريقتين - معالجة الصور التناظرية ومعالجة الصور الرقمية.

تتضمن معالجة الصور التناظرية استخدام نسخ ورقية من المطبوعات والصور الفوتوغرافية لتحليل الصور ومعالجتها. يستخدم محللو الصور طرقًا مختلفة لتفسير نسخ الصور هذه واستخراج نتائج ذات مغزى.

تستخدم معالجة الصور الرقمية الصور الرقمية وتفسرها باستخدام أجهزة الكمبيوتر. إنها فئة فرعية من معالجة الإشارات الرقمية وتستخدم الخوارزميات لمعالجة الصور الرقمية. يوفر مزايا مقارنة بمعالجة الصور التناظرية ، مثل الخوارزميات لمنع التشويش والتشويه في المعالجة.

معالجة الصور الرقمية لها العديد من التطبيقات في مجالات الطب والتصنيع والتجارة الإلكترونية والمزيد.

المربعات المحيطة في معالجة الصور

في البداية ، يكون المربع المحيط عبارة عن مربع مستطيل تخيلي يتضمن كائنًا ومجموعة من نقاط البيانات. في سياق معالجة الصور الرقمية ، يشير المربع المحيط إلى إحداثيات الحدود على المحورين X و Y اللذين يحيطان بالصورة. يتم استخدامها لتحديد الهدف وتكون بمثابة مرجع لاكتشاف الكائن وإنشاء مربع تصادم للكائن.

ما هي المربعات المحيطة؟

المربعات المحيطة هي العناصر الأساسية وإحدى أدوات معالجة الصور الأساسية لمشاريع التعليقات التوضيحية للفيديو. في جوهره ، الصندوق المحيط هو مستطيل وهمي يحدد الكائن في صورة كجزء من متطلبات مشروع التعلم الآلي. يحيط الإطار المستطيل التخيلي الكائن في الصورة.

تحدد المربعات المحيطة موضع الكائن وفئته والثقة التي تخبر درجة احتمالية وجود الكائن بالفعل في المربع المحيط.

تقدم رؤية الكمبيوتر تطبيقات مذهلة - من السيارات ذاتية القيادة إلى التعرف على الوجه والمزيد. وهذا بدوره أصبح ممكنًا من خلال معالجة الصور.

إذن ، هل معالجة الصور بسيطة مثل رسم المستطيلات أو الأنماط حول الكائنات؟ رقم ومع ذلك ، ماذا تفعل الصناديق المحيطة؟

دعونا نفهم.

كيف تعمل المربعات المحيطة في معالجة الصور؟

كما ذكرنا ، الصندوق المحيط هو مستطيل تخيلي يعمل كنقطة مرجعية لاكتشاف الكائن ويطور مربع تصادم للكائن.

لذا ، كيف تساعد المعلقين على البيانات؟ حسنًا ، يستخدم المحترفون فكرة المربعات المحيطة لرسم مستطيلات خيالية على الصور. يقومون بإنشاء مخططات للكائنات المعنية داخل كل صورة وتحديد إحداثيات X و Y الخاصة بها. هذا يجعل مهمة خوارزميات التعلم الآلي أبسط ، مما يساعدهم في العثور على مسارات التصادم وما إلى ذلك ، وبالتالي توفير موارد الحوسبة.

على سبيل المثال ، في الصورة أدناه ، تعتبر كل مركبة كائنًا رئيسيًا يعد موضعه وموقعه ضروريين لتدريب نماذج التعلم الآلي. يستخدم المعلقون على البيانات تقنية المربعات المحيطة لرسم المستطيلات حول كل من هذه الكائنات - المركبات ، في هذه الحالة.

مربعات معالجة الصور وإطارها لـ OCR PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

المصدر com.keymakr

بعد ذلك ، يستخدمون الإحداثيات لفهم موضع وموقع كل كائن ، وهو أمر مفيد لتدريب نماذج التعلم الآلي. لا يوفر المربع المحيط الفردي معدل تنبؤ جيد. لاكتشاف الكائن المحسن ، يجب استخدام مربعات إحاطة متعددة مع طرق زيادة البيانات.

المربعات المحيطة هي تقنيات تعليقات توضيحية للصور عالية الكفاءة وقوية تعمل على تقليل التكاليف إلى حد كبير.

المعلمات التي تحدد المربع المحيط

تستند المعلمات إلى الاصطلاحات المستخدمة لتحديد المربع المحيط. تشمل المعلمات الرئيسية المستخدمة ما يلي:

الفئة: تشير إلى الكائن داخل المربع المحيط - على سبيل المثال ، السيارات والمنازل والمباني وما إلى ذلك.
(X1، Y1): يشير هذا إلى إحداثيات X و Y في الزاوية اليسرى العليا من المستطيل.
(X2، Y2): يشير هذا إلى إحداثيات X و Y للركن الأيمن السفلي من المستطيل.
(Xc، Yc): يشير هذا إلى إحداثيات X و Y لمركز المربع المحيط.
العرض: يشير إلى عرض الصندوق المحيط.
الارتفاع: يشير هذا إلى ارتفاع الصندوق المحيط.
الثقة: هذا يمثل إمكانية وجود الكائن في المربع. لنفترض أن الثقة 0.9. هذا يعني أن هناك احتمال 90٪ أن الكائن سيكون موجودًا بالفعل داخل الصندوق.

الاصطلاحات التي تحدد الصندوق المحيط

عند تحديد المربع المحيط ، عادة ، يجب تضمين اصطلاحين رئيسيين. هؤلاء هم:

إحداثيات X و Y للنقطتين اليمنى واليسرى العلوية للمستطيل.
إحداثيات X و Y لمركز المربع المحيط مع عرضه وارتفاعه.

دعنا نوضح هذا بمثال سيارة.

أ. فيما يتعلق بالاتفاقية الأولى ، يتم تحديد المربع المحيط وفقًا لإحداثيات أعلى اليسار ونقاط أسفل اليمين.

المصدر تحليلات

ب. فيما يتعلق بالاتفاقية الثانية ، يتم وصف المربع المحيط وفقًا لإحداثيات المركز والعرض والارتفاع.

المصدر تحليلات

اعتمادًا على حالة الاستخدام ، من الممكن التحويل بين أنواع الاصطلاحات المختلفة.

Xc = (X1 + X2) / 2
Yc = (Y1 + Y2) / 2
العرض = (X2 - X1)
الارتفاع = (ص 2 - ص 1)

شرح المربعات المحيطة برمز البرمجة

دعنا نرى مثالًا آخر حول موقع أو موضع كائن مع مقتطفات التعليمات البرمجية.

المصدر d2i

نقوم بتحميل الصورة لاستخدامها في هذا الرسم التوضيحي. الصورة بها كلب على اليسار وقطة على اليمين. هناك نوعان من الأشياء - كلب وقطة في الصورة.

المصدر d2i

لنأخذ x و y كإحداثيين للزوايا العلوية اليسرى والسفلية اليمنى من المربع المحيط. قل ، (x1 ، y1) و (x2 ، y2). وبالمثل ، دعنا نفكر في إحداثيات المحور (س ، ص) لمركز المربع المحيط ، جنبًا إلى جنب مع عرضه وارتفاعه.

بعد ذلك ، نحدد وظيفتين لتحويل هذه النماذج: يحول box_corner_to_center التمثيل ذي الزاوية المزدوجة إلى تمثيل عرض ارتفاع الوسط و box_center_to_corner يقوم بذلك بالعكس.

يجب أن تكون مربعات وسيطة الإدخال موترًا ثنائي الأبعاد للشكل (n ، 4) ، حيث n هو عدد المربعات المحيطة.

المصدر d2i

بعد ذلك ، دعنا نحدد المربعات المحيطة بالكلب والقط على الصورة بناءً على بيانات الإحداثيات.

المصدر d2i

للتحقق من صحة وظيفتي تحويل الصندوقين المحيطين ، يمكننا التحويل مرتين.

المصدر d2i

بعد ذلك ، يمكننا رسم المربعات المحيطة بالكائنات الموجودة في الصورة للتحقق مما إذا كانت دقيقة. قبل ذلك ، نحدد دالة bbox_t_rect والتي تمثل المربع المحيط بالتنسيق المناسب لحزمة matplotlib.

المصدر d2i

الآن ، بعد إضافة المربعات المحيطة بكائنات الكلب والقط إلى الصورة ، نرى أن المخطط التفصيلي الرئيسي لهذه الكائنات موجود داخل المربعين.

المصدر d2i

هل تريد أتمتة المهام اليدوية المتكررة؟ تحقق من برنامج معالجة المستندات المستند إلى سير العمل Nanonets. استخرج البيانات من الفواتير أو بطاقات الهوية أو أي مستند على الطيار الآلي!

حالات الاستخدام الشائعة للمربعات المحيطة

توطين الكائن للمركبات ذاتية القيادة

تعد الصناديق المحيطة جزءًا لا يتجزأ من تدريب المركبات ذاتية القيادة أو ذاتية القيادة لتحديد الأشياء على الطريق مثل المباني وإشارات المرور وأي عوائق وغير ذلك. فهي تساعد في وضع تعليقات توضيحية على أي عقبات وتمكين الروبوتات من قيادة السيارة بأمان ومنع وقوع الحوادث ، حتى في حالة الازدحام.

صور الروبوتات

تُستخدم تقنيات التعليق التوضيحي للصور مثل المربعات المحيطة على نطاق واسع لتمييز وجهات نظر الروبوتات والطائرات بدون طيار. تساعد هذه المركبات المستقلة في تصنيف الكائنات على الأرض باستخدام الصور التي تم الحصول عليها من طريقة التعليق التوضيحي هذه.

وضع علامات على الصور للتجارة الإلكترونية والتجزئة

تساعد التعليقات التوضيحية للمربع المحيط في تحسين تصور المنتج ، وهو ميزة كبيرة في التجارة الإلكترونية وتجارة التجزئة. يمكن للنماذج المدربة على عناصر مماثلة أن تعلق على أشياء مثل ملابس الموضة ، والإكسسوارات ، والأثاث ، ومستحضرات التجميل ، وما إلى ذلك ، بشكل أكثر دقة عند تسميتها بشكل صحيح. فيما يلي بعض التحديات التي تم تناولها من خلال ربط التعليقات التوضيحية للمربعات في البيع بالتجزئة:

نتائج البحث غير صحيحة

إذا كان البحث هو الطريقة الوحيدة التي يمكن للعملاء من خلالها التعثر في موقع التجارة الإلكترونية ، فإن بيانات الكتالوج غير الصحيحة يمكن أن تؤدي إلى نتائج بحث غير دقيقة ، وبالتالي لا تدفع حركة مرور العملاء إلى الموقع.

سلاسل التوريد غير المنظمة

بالنسبة لأولئك الذين يرغبون في توسيع أعمال البيع بالتجزئة الخاصة بهم بحيث يمكن شحن ملايين المنتجات سنويًا ، يصبح من الضروري مزامنة البيانات غير المتصلة بالإنترنت وعبر الإنترنت.

الرقمنة المستمرة

من الأهمية بمكان أن يتم رقمنة جميع المنتجات ووسمها بشكل منهجي وسريع لضمان عدم تفويت العملاء لأي فرص جديدة. بالإضافة إلى ذلك ، يجب أن تكون العلامات في السياق ، حيث يصبح الالتزام بها صعبًا مع توسع تجارة التجزئة وإضافة المزيد من المنتجات.

بالكشف عن فقدان السيارة لمطالبات التأمين

تساعد تقنية الصناديق المحيطة في تتبع السيارات أو الدراجات أو المركبات الأخرى التي تضررت في حادث. تستخدم نماذج التعلم الآلي هذه الصور من المربعات المحيطة لفهم موضع الخسائر وشدتها. يساعد ذلك في التنبؤ بتكلفة الخسائر المتكبدة ، بناءً على ما يمكن للعملاء تقديم تقديراتهم قبل رفع دعوى قضائية.

المصدر علق

كشف العناصر الداخلية

تساعد الصناديق المحيطة أجهزة الكمبيوتر في اكتشاف العناصر الداخلية مثل الأسرة أو الأرائك أو المكاتب أو الخزائن أو الأجهزة الكهربائية. يتيح ذلك لأجهزة الكمبيوتر الإحساس بالمساحة وأنواع الكائنات الموجودة ، بأبعادها وموقعها. وهذا بدوره يساعد نماذج التعلم الآلي في تحديد هذه العناصر في مواقف الحياة الواقعية.

تُستخدم المربعات المحيطة على نطاق واسع في الصور الفوتوغرافية كأداة تعليمية عميقة لفهم وتفسير أنواع مختلفة من الكائنات.

تحديد المرض ونمو النبات في الزراعة

يساعد الاكتشاف المبكر لأمراض النبات المزارعين على منع الخسائر الفادحة. مع ظهور الزراعة الذكية ، يكمن التحدي في تدريب البيانات لتعليم نماذج التعلم الآلي للكشف عن أمراض النبات. تعد الصناديق المحيطة محركًا رئيسيًا يوفر الرؤية اللازمة للآلات.

الصناعة التحويلية

يعد اكتشاف الكائنات وتحديد العناصر في الصناعات جانبًا أساسيًا من جوانب التصنيع. مع الروبوتات وأجهزة الكمبيوتر التي تدعم الذكاء الاصطناعي ، يتم تقليل دور التدخل اليدوي. ومع ذلك ، تلعب الصناديق المحيطة دورًا مهمًا من خلال المساعدة في تدريب نماذج التعلم الآلي لتحديد موقع المكونات الصناعية واكتشافها. بالإضافة إلى ذلك ، فإن العمليات مثل مراقبة الجودة ، والفرز ، وعمليات خط التجميع ، والتي تعد جميعها جزءًا من إدارة الجودة ، تحتاج إلى اكتشاف الكائنات.

التصوير الطبي

تجد الصناديق المحيطة أيضًا تطبيقات في صناعة الرعاية الصحية ، مثل التصوير الطبي. تتعامل تقنية التصوير الطبي مع الكشف عن الأجسام التشريحية مثل القلب وتتطلب تحليلاً سريعًا ودقيقًا. يمكن استخدام الصناديق المحيطة لتدريب نماذج التعلم الآلي ، والتي ستتمكن بعد ذلك من اكتشاف القلب أو الأعضاء الأخرى بسرعة وبدقة.

كاميرات المراقبة الآلية

تعد كاميرات الدوائر التلفزيونية المغلقة الآلية مهمة في معظم المؤسسات السكنية والتجارية وغيرها. في كثير من الأحيان ، يلزم تخزين ذاكرة عالية للحفاظ على لقطات الدوائر التلفزيونية المغلقة التي تم التقاطها لفترة طويلة. باستخدام تقنيات اكتشاف الكائنات مثل المربعات المحيطة ، يمكن التأكد من أن اللقطات يتم تسجيلها فقط عند تحديد كائنات معينة. يمكن للمربعات المحيطة تدريب نماذج التعلم الآلي ، والتي ستكتشف فقط تلك الكائنات ، وفي تلك اللحظة ، يمكن التقاط اللقطات. سيساعد هذا أيضًا في تقليل حجم التخزين المطلوب للدوائر التلفزيونية المغلقة وتقليل التكاليف.

التعرف على الوجه واكتشافه

يقدم التعرف على الوجه تطبيقات متعددة ، مثل استخدامه في المراقبة الحيوية. إلى جانب ذلك ، تستخدم وكالات مختلفة مثل البنوك والمطارات ومحلات البيع بالتجزئة والملاعب وغيرها من المؤسسات التعرف على الوجوه لمنع الجرائم والعنف. ومع ذلك ، يعد اكتشاف الوجه عنصرًا مهمًا في رؤية الكمبيوتر يتضمن معالجة الصور. وهنا مرة أخرى ، يمكن استخدام المربعات المحيطة كأداة فعالة للتعرف على الأحرف.

هل تريد استخدام أتمتة العمليات الآلية؟ تحقق من برنامج معالجة المستندات المستند إلى سير العمل Nanonets. لا رمز. منصة خالية من المتاعب.

المربعات المحيطة للتعرف على الأحرف

يشمل اكتشاف الكائن - تصنيف الصور وتوطين الكائن. هذا يعني أن الكمبيوتر لاكتشاف كائن ما ، فإنه يحتاج إلى معرفة ما هو الكائن المعني ومكانه. يعين تصنيف الصورة تسمية فئة للصورة. يرتبط توطين الكائن برسم المربع المحيط حول الكائن المعني في الصورة.

تتضمن العملية مضيفًا يقوم برسم المربعات المحيطة حول الكائنات ووضع علامات عليها. يساعد هذا في تدريب الخوارزمية ويسمح لها بفهم شكل الكائن. كخطوة أولى لاكتشاف الكائن ، يجب أن تحتوي مجموعة بيانات الصورة على تسميات.

لتسمية صورة ، اتبع الخطوات التالية:

اختر مجموعة البيانات التي تريد تدريبها واختبارها. اصنع مجلدًا منه.
لنأخذ مثالاً على مشروع اكتشاف الوجه مثل: BTS ، Avenger ، إلخ.
جعل بيانات اسم المجلد.
في Google Drive ، أنشئ مجلدًا باسم FaceDetection.
في مجلد FaceDetection ، أنشئ مجلدًا للصورة.
في مجلد الصورة ، قم بإنشاء مجلدات من صورة الاختبار ، واختبر XML ، وقم بتدريب الصورة ، وقم بتدريب XML.

المصدرصناعى

الآن ، في مجلد صورة القطار ، قم بتنزيل وتحميل 10-15 صورة من BTS و Avengers بتنسيق JPEG. وبالمثل ، في مجلد صورة الاختبار ، افعل الشيء نفسه مع 5-6 صور. يوصى بالحصول على المزيد من الصور في مجموعة البيانات للحصول على نتائج دقيقة.

المصدر صناعى

بعد ذلك ، قم بإنشاء ملف XML لكل صورة من صورة الاختبار وقم بتدريب مجلدات الصور

قم بتنزيل وانقر فوق windows v_1.8.0. انقر فوق ملف exe. من GitHub واضغط على تشغيل.

بعد ذلك ، انقر فوق الدليل المفتوح لتحديد مجلد الصورة. سترى الصورة التي يجب تسميتها. للتسمية ، اضغط W على لوحة المفاتيح وانقر بزر الماوس الأيمن واسحب المؤشر لرسم المربع حول الكائن. قم بتسميته وانقر فوق "موافق".

المصدر صناعى

بعد ذلك ، احفظ الصورة لإنشاء ملف XML للصورة في مجلد الصورة ، كما هو موضح أدناه.

المصدر صناعى

افتح ملف XML لرؤية الإحداثيات.

المصدر صناعى

كرر الإجراء لجميع الصور لإنشاء ملفات XML وابحث عن الإحداثيات.

إذا كنت تعمل مع الفواتير والإيصالات أو كنت تقلق بشأن التحقق من الهوية ، فتحقق من شبكات Nanonets التعرف الضوئي على الحروف عبر الإنترنت or مستخرج نص PDF لاستخراج نص من مستندات PDF مجانا. انقر أدناه لمعرفة المزيد عن حلول أتمتة المؤسسات النانونية.

تنسيقات التعليقات المختلفة المستخدمة في المربعات المحيطة

بشكل أساسي ، يحتوي المربع المحيط على 4 نقاط في محاور (س ، ص) تمثل الزوايا:

أعلى اليسار: (x_min، y_min)

أعلى اليمين: (x_max، y_min)

أسفل اليسار: (x_min، y_max)

أسفل اليمين: (x_max ، y_max)

يتم حساب إحداثيات المربع المحيط بالنسبة إلى الزاوية العلوية اليسرى من الصورة.

هناك العديد من تنسيقات التعليقات التوضيحية للمربع المحيط ، كل منها يستخدم تمثيله الخاص لإحداثيات المربع المحيط.

أ. البومات

يستخدمون أربع قيم لتمثيل المربع المحيط - [x_min، y_min، x_max، y_max] - والتي يتم معايرتها بقسمة الإحداثيات بالبكسل للمحور x على العرض والمحور y على ارتفاع الصورة.

لنفترض أن إحداثيات المربع المحيط هي: x1 = 678 ، y1 = 24 ؛ س 2 = 543 ، ص 2 = 213.

دع العرض = 870 ، الارتفاع = 789

ثم ، [678/870 ، 24/789 ، 543/870 ، 213/789] = [0.779310 ، 0.030418 ، 0.624137 ، 0.269961]

تستخدم Albumentations هذه القيم وتفسرها داخليًا مع مربعات إحاطة وتعززها.

ب. كوكو

هذا هو التنسيق الذي تستخدمه الكائنات المشتركة في مجموعة بيانات السياق COCO. في تنسيق COCO ، يتم تمثيل المربع المحيط بأربع قيم: (x_min ، y_min ، العرض ، الارتفاع). بشكل أساسي ، يشيرون إلى الزاوية العلوية اليسرى وعرض وارتفاع الصندوق المحيط.

ج. يولو

في هذا التنسيق ، يتم تقديم المربع المحيط بأربع قيم: (x_center ، y_center ، العرض ، الارتفاع). هنا ، يشير x_center و y_center إلى إحداثيات x و y المقيسة لمركز المربع المحيط. للتطبيع ، الإحداثي x للمركز بعرض الصورة والإحداثي y للمركز بارتفاع الصورة. يتم أيضًا تسوية قيم العرض والارتفاع.

د. باسكال

في تنسيق باسكال ، يتم تمثيل المربع المحيط بالإحداثيات العلوية اليسرى والسفلية اليمنى. إذن ، القيم المشفرة بالبكسل هي: [x_min، y_min، x_max، y_max]. هنا ، [x_min، y_min] هي الزاوية العلوية اليسرى ، بينما تشير [x_max، y_max] إلى الركن الأيمن السفلي من المربع المحيط.

هل تريد أتمتة المهام اليدوية المتكررة؟ وفر الوقت والجهد والمال مع تحسين الكفاءة!

الاحتياطات وأفضل الممارسات في استخدام المربعات المحيطة

يوصى ببعض الاحتياطات وأفضل الممارسات للاستخدام الأمثل للمربعات المحيطة في معالجة الصور. يشملوا:

تنويعات حجم الصندوق

لن يؤدي استخدام كل المربعات المحيطة من نفس الحجم إلى عرض نتائج دقيقة. قد يؤدي تدريب النماذج الخاصة بك على مربعات إحاطة من نفس الأحجام إلى جعل أداء النموذج أسوأ. على سبيل المثال ، إذا ظهر نفس الكائن أصغر حجمًا ، فقد يفشل النموذج في اكتشافه. في حالة ظهور كائنات أكبر من المتوقع ، فقد تشغل عددًا أكبر من وحدات البكسل ولا توفر موضعًا وموقعًا دقيقًا للكائن. الجوهر هو أن تضع في اعتبارك التباين في حجم وحجم الكائن لتحقيق النتائج المرجوة.

ضيق بكسل مثالي

ضيق هو عامل حاسم. هذا يعني أن حواف المربع المحيط يجب أن تكون قريبة من الكائن المعني قدر الإمكان للحصول على نتائج دقيقة. قد تؤثر الثغرات المتسقة على الدقة في تحديد منطقة التداخل بين تنبؤ النموذج والشيء الحقيقي ، مما يؤدي إلى حدوث مشكلات.

العناصر القطرية الموضوعة في الصناديق المحيطة

المشكلة التي تواجه العناصر الموضوعة قطريًا داخل المربع المحيط هي أنها تشغل مساحة أقل بكثير داخل الصندوق مقارنة بالخلفية. ومع ذلك ، إذا تم الكشف عنه لفترة أطول ، فقد يفترض النموذج أن الهدف هو الخلفية لأن ذلك يستهلك مساحة أكبر. لذلك ، كأفضل ممارسة ، يوصى باستخدام المضلعات وتجزئة المثيل للكائنات القطرية. ومع ذلك ، من الممكن تعليم النماذج بمربع إحاطة بكمية جيدة من بيانات التدريب.

تقليل مربع التداخل

من الآمن دائمًا تجنب تداخل التعليقات التوضيحية في جميع السيناريوهات. في بعض الأحيان ، قد يتسبب هذا في حدوث الكثير من الفوضى بحيث لا تظهر في النهاية سوى بعض الصناديق المتداخلة. الكائنات التي لها تسمية متداخلة مع كيانات أخرى تنتج نتائج أسوأ نسبيًا. سيفشل النموذج في التمييز بين الكائن الهدف والعناصر الأخرى بسبب التداخل المفرط. في مثل هذه الحالات ، يمكن استخدام المضلعات للحصول على دقة أعلى.

وفي الختام

تعد معالجة الصور مجالًا ناشئًا للتكنولوجيا يوفر نطاقًا واسعًا. ومع ذلك ، تشكل المربعات المحيطة تقنية معالجة الصور الأكثر شيوعًا.

باختصار ، المربعات المحيطة هي طريقة للتعليق التوضيحي للصور لتدريب نماذج التعلم الآلي القائمة على الذكاء الاصطناعي. يتم استخدامه لاكتشاف الأشياء والتعرف على الهدف في مجموعة واسعة من التطبيقات ، بما في ذلك الروبوتات والطائرات بدون طيار والمركبات المستقلة وكاميرات المراقبة وأجهزة رؤية الماكينة الأخرى.

الموارد المقترحة:

https://www.kdnuggets.com/2022/07/bounding-box-deep-learning-future-video-annotation.html#:~:text=A%20bounding%20box%20is%20a,location%2C%20size%2C%20and%20orientation.

https://www.v7labs.com/blog/bounding-box-annotation

https://towardsdatascience.com/image-data-labelling-and-annotation-everything-you-need-to-know-86ede6c684b1

النانو OCR و OCR عبر الإنترنت لديها الكثير من الاهتمام استخدم حالات tيمكن أن تحسن أداء عملك ، وتوفر التكاليف وتعزز النمو. اكتشف كيف يمكن تطبيق حالات استخدام Nanonets على منتجك.

الطابع الزمني: 25 أغسطس 202225 أغسطس 2022

الطابع الزمني: يناير 23، 2024

مربعات معالجة الصور وإطارها لـ OCR

أعاد نشره أفلاطون