پردازش تصویر و جعبه‌های مرزبندی برای هوش داده‌های OCR PlatoBlockchain. جستجوی عمودی Ai.

پردازش تصویر و جعبه های محدود کننده برای OCR

فناوری همچنان در حال تکامل است و ما نیز همینطور. با ظهور هوش مصنوعی و یادگیری ماشینی، تمرکز به سمت اتوماسیون تغییر کرده است. همانطور که گفته شد، رشته های مختلف علوم کامپیوتر برای مطالعه و بررسی کاربردهای این گرایش های نوظهور معرفی شده اند.

یکی از این نمونه هاست پردازش تصویر. به زبان ساده، به کاوش در تصاویر برای ترسیم اطلاعات معنادار اشاره دارد. در حالی که چندین تکنیک برای دستیابی به این امر در دسترس است، رایج ترین آنها این است: جعبه های مرزبندی.

این وبلاگ به جنبه های مختلف جعبه های مرزی می پردازد. این شامل چیستی آنها، نحوه عملکرد آنها در پردازش تصویر، پارامترهایی است که آنها را تعریف می کند، قراردادهایی که آنها را مشخص می کند، موارد استفاده رایج، اقدامات احتیاطی و بهترین شیوه ها و موارد دیگر.

بیایید شیرجه برویم

پردازش تصویر به انجام عملیات خاصی بر روی یک تصویر برای بهبود آن یا استخراج برخی بینش های ارزشمند از ویژگی ها یا ویژگی های مرتبط با آن اشاره دارد. امروزه پردازش تصویر یکی از حوزه‌های اولیه تحقیقات در مطالعات مهندسی و فناوری کامپیوتر است.

پردازش تصویر را می توان با استفاده از دو روش پردازش تصویر آنالوگ و پردازش تصویر دیجیتال انجام داد.

پردازش تصویر آنالوگ شامل استفاده از نسخه های چاپی و عکس ها برای تجزیه و تحلیل و دستکاری تصاویر است. تحلیلگران تصویر از روش های مختلفی برای تفسیر این کپی های تصویر و استخراج نتایج معنی دار استفاده می کنند.

پردازش تصویر دیجیتال از تصاویر دیجیتال استفاده می کند و آنها را با استفاده از رایانه تفسیر می کند. این یک زیر مجموعه از پردازش سیگنال دیجیتال است و از الگوریتم هایی برای پردازش تصاویر دیجیتال استفاده می کند. مزایایی را نسبت به پردازش تصویر آنالوگ، مانند الگوریتم هایی برای جلوگیری از نویز و اعوجاج در پردازش، ارائه می دهد.

پردازش تصویر دیجیتال کاربردهای متعددی در زمینه های پزشکی، تولید، تجارت الکترونیک و غیره دارد.


جعبه های محدود در پردازش تصویر

در ابتدا، جعبه مرزی یک جعبه مستطیلی خیالی است که شامل یک شی و مجموعه ای از نقاط داده است. در زمینه پردازش تصویر دیجیتال، کادر محدود کننده مختصات مرز را در محورهای X و Y نشان می دهد که یک تصویر را در بر می گیرد. آنها برای شناسایی یک هدف استفاده می شوند و به عنوان مرجع برای تشخیص شی و ایجاد جعبه برخورد برای جسم استفاده می شوند.

جعبه های محدود کننده چیست؟

جعبه های محدود کننده عناصر کلیدی و یکی از ابزارهای اصلی پردازش تصویر برای پروژه های حاشیه نویسی ویدیویی هستند. در اصل، جعبه مرزی یک مستطیل خیالی است که شی را در یک تصویر به عنوان بخشی از نیاز پروژه یادگیری ماشین مشخص می کند. قاب مستطیلی خیالی شیء موجود در تصویر را محصور می کند.

جعبه‌های مرزی موقعیت شی، کلاس و اطمینان آن را مشخص می‌کنند که میزان احتمال وجود واقعی شی در کادر محدود را نشان می‌دهد.

بینایی کامپیوتر برنامه های شگفت انگیزی را ارائه می دهد - از ماشین های خودران گرفته تا تشخیص چهره و موارد دیگر. و این به نوبه خود با پردازش تصویر امکان پذیر می شود.

بنابراین، آیا پردازش تصویر به سادگی کشیدن مستطیل یا الگوهای اطراف اشیا است؟ خیر. با این حال، جعبه‌های مرزبندی چه کار می‌کنند؟

بیایید درک کنیم.

جعبه های محدود کننده در پردازش تصویر چگونه کار می کنند؟

همانطور که گفته شد، جعبه مرزی یک مستطیل خیالی است که به عنوان یک نقطه مرجع برای تشخیص جسم عمل می کند و یک جعبه برخورد برای جسم ایجاد می کند.

بنابراین، چگونه به حاشیه نویسان داده کمک می کند؟ خوب، حرفه ای ها از ایده جعبه های محدود برای کشیدن مستطیل های خیالی روی تصاویر استفاده می کنند. آنها خطوط کلی اشیاء مورد نظر را در هر تصویر ایجاد می کنند و مختصات X و Y آن را مشخص می کنند. این کار الگوریتم‌های یادگیری ماشین را ساده‌تر می‌کند و به آنها کمک می‌کند مسیرهای برخورد و مواردی از این قبیل را پیدا کنند و در نتیجه منابع محاسباتی را ذخیره کنند.

به عنوان مثال، در تصویر زیر، هر وسیله نقلیه یک شی کلیدی است که موقعیت و مکان آن برای آموزش مدل‌های یادگیری ماشین ضروری است. حاشیه نویسان داده ها از تکنیک جعبه های مرزی برای ترسیم مستطیل های اطراف هر یک از این اشیاء استفاده می کنند - در این مورد وسایل نقلیه.

پردازش تصویر و جعبه‌های مرزبندی برای هوش داده‌های OCR PlatoBlockchain. جستجوی عمودی Ai.

منبع: keymakr

سپس، آنها از مختصات برای درک موقعیت و مکان هر شی استفاده می کنند که برای آموزش مدل های یادگیری ماشین مفید است. یک جعبه محدود کننده نرخ پیش بینی خوبی را ارائه نمی دهد. برای تشخیص شیء پیشرفته، جعبه‌های محدودکننده چندگانه باید در ترکیب با روش‌های تقویت داده‌ها استفاده شوند.

جعبه‌های مرزبندی تکنیک‌های حاشیه‌نویسی تصویر بسیار کارآمد و قوی هستند که هزینه‌ها را به میزان قابل توجهی کاهش می‌دهند.

پارامترهایی که یک جعبه مرزی را تعریف می کنند

پارامترها بر اساس قراردادهای مورد استفاده برای مشخص کردن جعبه مرزی هستند. پارامترهای کلیدی مورد استفاده عبارتند از:

  • کلاس: نشان دهنده شیء داخل جعبه مرزی است - به عنوان مثال، اتومبیل، خانه، ساختمان و غیره.
  • (X1, Y1): این به مختصات X و Y گوشه سمت چپ بالای مستطیل اشاره دارد.
  • (X2, Y2): این به مختصات X و Y گوشه سمت راست پایین مستطیل اشاره دارد.
  • (Xc, Yc): این به مختصات X و Y مرکز جعبه مرزی اشاره دارد.
  • Width: این نشان دهنده عرض جعبه مرزی است.
  • Height: این نشان دهنده ارتفاع جعبه مرزی است.
  • Confidence: این نشان دهنده احتمال بودن جسم در جعبه است. بگویید، اطمینان 0.9 است. این به این معنی است که احتمال 90٪ وجود دارد که شی واقعاً در داخل جعبه وجود داشته باشد.

کنوانسیون هایی که یک جعبه مرزی را مشخص می کنند

معمولاً هنگام تعیین یک جعبه مرزی، دو قرارداد اصلی باید گنجانده شود. اینها هستند:

  • مختصات X و Y از سمت چپ و پایین سمت راست مستطیل.
  • مختصات X و Y مرکز جعبه مرزی به همراه عرض و ارتفاع آن.

بیایید این را با مثالی از یک ماشین نشان دهیم.

آ. با توجه به قرارداد اول، جعبه مرزی بر اساس مختصات نقاط بالا سمت چپ و پایین سمت راست مشخص می شود.

منبع: AnalyticsVidhya

ب با توجه به قرارداد دوم، جعبه مرزی بر اساس مختصات مرکزی، عرض و ارتفاع توصیف می شود.

پردازش تصویر و جعبه‌های مرزبندی برای هوش داده‌های OCR PlatoBlockchain. جستجوی عمودی Ai.

منبع: AnalyticsVidhya

بسته به مورد استفاده، امکان تبدیل بین انواع مختلف قرارداد وجود دارد.

  • Xc = (X1 + X2)/2
  • Yc = (Y1 + Y2)/2
  • عرض = (X2 - X1)
  • ارتفاع = (Y2 - Y1)

جعبه های محدود کننده با کد برنامه نویسی توضیح داده شده است

بیایید مثال دیگری در مورد مکان یا موقعیت یک شی با قطعه کد ببینیم.

پردازش تصویر و جعبه‌های مرزبندی برای هوش داده‌های OCR PlatoBlockchain. جستجوی عمودی Ai.

منبع: d2i

ما تصویر را بارگذاری می کنیم تا برای این تصویر استفاده شود. تصویر یک سگ در سمت چپ و یک گربه در سمت راست دارد. دو شی وجود دارد - یک سگ و یک گربه در تصویر.

پردازش تصویر و جعبه‌های مرزبندی برای هوش داده‌های OCR PlatoBlockchain. جستجوی عمودی Ai.

منبع: d2i

پردازش تصویر و جعبه‌های مرزبندی برای هوش داده‌های OCR PlatoBlockchain. جستجوی عمودی Ai.

منبع: d2i

بیایید x و y را به عنوان مختصاتی برای گوشه های سمت چپ و پایین سمت راست کادر محدود در نظر بگیریم. بگویید، (x1,y1) و (x2,y2). به طور مشابه، اجازه دهید مختصات محور (x,y) – را برای مرکز جعبه مرزی، همراه با عرض و ارتفاع آن در نظر بگیریم.

در مرحله بعد، دو تابع برای تبدیل این فرم ها تعریف می کنیم: box_corner_to_center نمایش دو گوشه را به نمایش ارتفاع مرکز و عرض box_center_to_corner این کار را برعکس انجام می دهد.

جعبه‌های آرگومان ورودی باید یک تانسور دو بعدی شکل (n,4) باشند، که در آن n تعداد جعبه‌های کران‌کننده است.

پردازش تصویر و جعبه‌های مرزبندی برای هوش داده‌های OCR PlatoBlockchain. جستجوی عمودی Ai.

منبع: d2i

در مرحله بعد، بیایید جعبه های مرزی سگ و گربه را بر اساس داده های مختصات روی تصویر تعریف کنیم.

پردازش تصویر و جعبه‌های مرزبندی برای هوش داده‌های OCR PlatoBlockchain. جستجوی عمودی Ai.

منبع: d2i

برای تأیید صحت توابع تبدیل دو جعبه محدود، می‌توانیم دو بار تبدیل کنیم.

پردازش تصویر و جعبه‌های مرزبندی برای هوش داده‌های OCR PlatoBlockchain. جستجوی عمودی Ai.

منبع: d2i

پردازش تصویر و جعبه‌های مرزبندی برای هوش داده‌های OCR PlatoBlockchain. جستجوی عمودی Ai.

منبع: d2i

در مرحله بعد، می‌توانیم جعبه‌های مرزی اشیا را روی تصویر بکشیم تا بررسی کنیم که آیا دقیق هستند یا خیر. قبل از آن، ما یک تابع bbox_t_rect تعریف می کنیم که کادر محدود کننده را در قالب مربوطه بسته matplotlib نشان می دهد.

پردازش تصویر و جعبه‌های مرزبندی برای هوش داده‌های OCR PlatoBlockchain. جستجوی عمودی Ai.

منبع: d2i

حال پس از افزودن جعبه های مرزی اجسام سگ و گربه به تصویر، می بینیم که طرح اصلی این اشیا در داخل دو کادر قرار دارد.

پردازش تصویر و جعبه‌های مرزبندی برای هوش داده‌های OCR PlatoBlockchain. جستجوی عمودی Ai.

منبع: d2i

پردازش تصویر و جعبه‌های مرزبندی برای هوش داده‌های OCR PlatoBlockchain. جستجوی عمودی Ai.

منبع: d2i


آیا می خواهید کارهای دستی تکراری را خودکار کنید؟ نرم افزار پردازش اسناد مبتنی بر گردش کار نانوشبکه ما را بررسی کنید. استخراج داده ها از فاکتورها، کارت های شناسایی، یا هر سندی در خلبان خودکار!


موارد استفاده رایج از جعبه های محدود کننده

بومی سازی اشیاء وسایل نقلیه خودران

جعبه‌های مرزی در آموزش وسایل نقلیه خودران یا خودمختار برای شناسایی اشیاء روی جاده مانند ساختمان‌ها، علائم راهنمایی و رانندگی، هرگونه مانع و موارد دیگر ضروری هستند. آنها به حاشیه نویسی هر گونه مانع کمک می کنند و ربات ها را قادر می سازند تا وسیله نقلیه را ایمن برانند و از تصادفات حتی در صورت ازدحام جلوگیری کنند.

تصاویر رباتیک

تکنیک‌های حاشیه‌نویسی تصویر مانند جعبه‌های مرزی به طور گسترده برای علامت‌گذاری دیدگاه روبات‌ها و هواپیماهای بدون سرنشین استفاده می‌شوند. این وسایل نقلیه خودمختار با استفاده از عکس های به دست آمده از این روش حاشیه نویسی به طبقه بندی اشیاء روی زمین کمک می کنند.

برچسب گذاری تصویر برای تجارت الکترونیک و خرده فروشی

حاشیه نویسی جعبه محدود به بهبود تجسم محصول کمک می کند، که یک مزیت بزرگ در تجارت الکترونیک و خرده فروشی است. مدل‌هایی که روی موارد مشابه آموزش داده می‌شوند، می‌توانند اشیایی مانند پوشاک مد، اکسسوری‌ها، مبلمان، لوازم آرایشی و غیره را به‌طور دقیق‌تر در صورت برچسب‌گذاری مناسب، حاشیه‌نویسی کنند. در زیر برخی از چالش‌هایی که با حاشیه‌نویسی جعبه‌های محدود در خرده‌فروشی برطرف می‌شوند آورده شده است:

  • نتایج جستجوی نادرست

اگر جستجو تنها راهی است که مشتریان می توانند به سایت تجارت الکترونیک برخورد کنند، داده های کاتالوگ نادرست می تواند منجر به نتایج جستجوی نادرست شود و در نتیجه ترافیک مشتری را به سایت هدایت نکند.

  • زنجیره های تامین سازمان نیافته

برای کسانی که می‌خواهند تجارت خرده‌فروشی خود را گسترش دهند تا بتوان سالانه میلیون‌ها محصول را ارسال کرد، همگام‌سازی داده‌های آفلاین و آنلاین ضروری است.

  • دیجیتال سازی مداوم

برای اطمینان از اینکه مشتریان هیچ فرصت جدیدی را از دست نمی دهند، دیجیتالی شدن و برچسب گذاری سیستماتیک و سریع همه محصولات بسیار مهم است. علاوه بر این، برچسب‌ها باید در زمینه باشند، که با گسترش تجارت خرده‌فروشی و افزودن محصولات بیشتر، رعایت آن‌ها دشوار می‌شود.

تشخیص خسارت خودرو برای مطالبات بیمه

تکنیک محدود کردن جعبه ها به ردیابی اتومبیل ها، دوچرخه ها یا سایر وسایل نقلیه آسیب دیده در تصادف کمک می کند. مدل‌های یادگیری ماشین از این تصاویر از جعبه‌های مرزی برای درک موقعیت و شدت تلفات استفاده می‌کنند. این به پیش بینی هزینه زیان های متحمل شده کمک می کند که بر اساس آن مشتریان می توانند برآورد خود را قبل از طرح دعوی ارائه دهند.

پردازش تصویر و جعبه‌های مرزبندی برای هوش داده‌های OCR PlatoBlockchain. جستجوی عمودی Ai.

منبع: سوپر حاشیه نویسی

تشخیص اقلام داخلی

جعبه‌های مرزبندی به رایانه‌ها کمک می‌کنند اقلام داخلی مانند تختخواب، مبل، میز، کابینت یا لوازم الکتریکی را شناسایی کنند. این به رایانه‌ها اجازه می‌دهد تا حسی از فضا و انواع اشیاء موجود، با ابعاد و مکانشان داشته باشند. این به نوبه خود به مدل های یادگیری ماشینی در شناسایی این موارد در یک موقعیت واقعی کمک می کند.

جعبه های مرزبندی به طور گسترده در عکس ها به عنوان یک ابزار یادگیری عمیق برای درک و تفسیر انواع مختلف اشیاء استفاده می شود.

شناسایی بیماری و رشد گیاه در کشاورزی

تشخیص زودهنگام بیماری های گیاهی به کشاورزان کمک می کند تا از تلفات شدید جلوگیری کنند. با ظهور کشاورزی هوشمند، چالش در آموزش داده ها برای آموزش مدل های یادگیری ماشینی برای تشخیص بیماری های گیاهی نهفته است. جعبه های محدود کننده محرک اصلی هستند که دید لازم را برای ماشین ها فراهم می کنند.

صنعت تولید

تشخیص اشیاء و شناسایی اقلام در صنایع یکی از جنبه های اساسی تولید است. با روبات ها و رایانه های مجهز به هوش مصنوعی، نقش مداخله دستی کاهش می یابد. با این حال، جعبه‌های مرزبندی با کمک به آموزش مدل‌های یادگیری ماشین برای مکان‌یابی و شناسایی اجزای صنعتی، نقش مهمی ایفا می‌کنند. علاوه بر این، فرآیندهایی مانند کنترل کیفیت، مرتب‌سازی و عملیات خط مونتاژ که همگی بخشی از مدیریت کیفیت هستند، نیاز به تشخیص شی دارند.

تصویربرداری پزشکی

جعبه‌های مرزبندی نیز در صنعت مراقبت‌های بهداشتی مانند تصویربرداری پزشکی کاربرد دارند. تکنیک تصویربرداری پزشکی با تشخیص اجسام تشریحی مانند قلب سروکار دارد و نیاز به تجزیه و تحلیل سریع و دقیق دارد. از جعبه‌های مرزی می‌توان برای آموزش مدل‌های یادگیری ماشینی استفاده کرد که سپس می‌توانند قلب یا سایر اندام‌ها را سریع و دقیق تشخیص دهند.

دوربین های مدار بسته اتوماتیک

دوربین های مداربسته خودکار در اکثر موسسات مسکونی، تجاری و غیره امری ضروری است. اغلب، برای نگهداری طولانی مدت فیلم دوربین مداربسته ضبط شده، حافظه بالایی لازم است. با تکنیک‌های تشخیص اشیاء مانند جعبه‌های مرزبندی، می‌توان مطمئن شد که فیلم فقط زمانی ضبط می‌شود که اشیاء خاصی شناسایی شوند. جعبه‌های مرزی می‌توانند مدل‌های یادگیری ماشینی را آموزش دهند که فقط آن اشیاء را شناسایی می‌کنند و در آن لحظه می‌توان فیلم را ضبط کرد. این همچنین به حداقل رساندن فضای ذخیره سازی مورد نیاز برای دوربین مدار بسته و کاهش هزینه ها کمک می کند.

تشخیص و تشخیص چهره

تشخیص چهره کاربردهای متعددی را ارائه می دهد، مانند استفاده از آن در نظارت بیومتریک. علاوه بر این، آژانس‌های مختلف مانند بانک‌ها، فرودگاه‌ها، فروشگاه‌های خرده‌فروشی، استادیوم‌ها و سایر موسسات از تشخیص چهره برای جلوگیری از جرایم و خشونت استفاده می‌کنند. با این حال، تشخیص چهره یک عنصر مهم بینایی کامپیوتری است که شامل پردازش تصویر است. و در اینجا دوباره، جعبه های محدود می تواند به عنوان یک ابزار موثر برای تشخیص شخصیت استفاده شود.


آیا می خواهید از اتوماسیون فرآیند رباتیک استفاده کنید؟ نرم افزار پردازش اسناد مبتنی بر گردش کار نانو شبکه را بررسی کنید. بدون کد. بدون پلت فرم دردسر.


جعبه های محدود کننده برای تشخیص کاراکتر

تشخیص شی شامل طبقه بندی تصویر و محلی سازی شی است. این بدان معناست که کامپیوتر برای شناسایی یک شی، باید بداند که شی مورد نظر چیست و در کجا قرار دارد. طبقه بندی تصویر یک برچسب کلاس را به یک تصویر اختصاص می دهد. محلی سازی شی مربوط به ترسیم کادر محدود کننده در اطراف شی مورد نظر در یک تصویر است.

این فرآیند شامل حاشیه‌نویسی است که جعبه‌های مرزی اطراف اشیا را ترسیم می‌کند و آنها را برچسب‌گذاری می‌کند. این به آموزش الگوریتم کمک می‌کند و به آن اجازه می‌دهد تا بفهمد شی به چه شکل است. به عنوان اولین مرحله برای تشخیص شی، مجموعه داده تصویر باید دارای برچسب باشد.

برای برچسب گذاری یک تصویر، مراحل زیر را دنبال کنید:

  • مجموعه داده ای را که می خواهید آموزش دهید و آزمایش کنید، انتخاب کنید. یک پوشه از آن بسازید.
  • بیایید یک پروژه تشخیص چهره مانند: BTS، Avenger و غیره را مثال بزنیم.
  • داده های نام پوشه را بسازید.
  • در Google Drive، یک پوشه با نام FaceDetection ایجاد کنید.
  • در پوشه FaceDetection، یک پوشه از تصویر بسازید.
  • در پوشه تصویر، پوشه هایی از تصویر آزمایشی، XML را تست کنید، تصویر آموزش و XML را آموزش دهید.
پردازش تصویر و جعبه‌های مرزبندی برای هوش داده‌های OCR PlatoBlockchain. جستجوی عمودی Ai.

منبع:صنعتی

اکنون در پوشه تصویر قطار 10-15 تصویر از BTS و Avengers را با فرمت JPEG دانلود و آپلود کنید. به همین ترتیب، در پوشه تصویر آزمایشی، همین کار را برای 5-6 تصویر انجام دهید. برای نتایج دقیق توصیه می شود تصاویر بیشتری در مجموعه داده داشته باشید.

پردازش تصویر و جعبه‌های مرزبندی برای هوش داده‌های OCR PlatoBlockchain. جستجوی عمودی Ai.

منبع: صنعتی

پردازش تصویر و جعبه‌های مرزبندی برای هوش داده‌های OCR PlatoBlockchain. جستجوی عمودی Ai.

منبع: صنعتی

در مرحله بعد، یک فایل XML برای هر تصویر از تصویر آزمایشی ایجاد کنید و پوشه های تصویر را آموزش دهید

دانلود کنید و روی windows v_1.8.0 کلیک کنید. روی فایل exe از GitHub کلیک کنید و Run را فشار دهید.

سپس روی پوشه باز شده کلیک کنید تا پوشه تصویر انتخاب شود. تصویری را خواهید دید که باید برچسب گذاری شود. برای برچسب زدن، W را در صفحه کلید فشار دهید و کلیک راست کرده و مکان نما را بکشید تا کادر اطراف شی را بکشید. اسمش را بگذارید و OK کنید.

پردازش تصویر و جعبه‌های مرزبندی برای هوش داده‌های OCR PlatoBlockchain. جستجوی عمودی Ai.

منبع: صنعتی

در مرحله بعد، تصویر را ذخیره کنید تا فایل XML تصویر در پوشه تصویر ایجاد شود، همانطور که در زیر نشان داده شده است.

پردازش تصویر و جعبه‌های مرزبندی برای هوش داده‌های OCR PlatoBlockchain. جستجوی عمودی Ai.

منبع: صنعتی

فایل XML را باز کنید تا مختصات را ببینید.

پردازش تصویر و جعبه‌های مرزبندی برای هوش داده‌های OCR PlatoBlockchain. جستجوی عمودی Ai.

منبع: صنعتی

این روش را برای همه تصاویر تکرار کنید تا فایل های XML تولید شوند و مختصات را جستجو کنید.


اگر با فاکتورها و رسیدها کار می کنید یا نگران تأیید هویت هستید، Nanonets را بررسی کنید OCR آنلاین or استخراج کننده متن PDF برای استخراج متن از اسناد PDF رایگان. برای کسب اطلاعات بیشتر در مورد زیر کلیک کنید راه حل اتوماسیون سازمانی نانوشبکه ها.


فرمت های حاشیه نویسی مختلفی که در جعبه های محدود استفاده می شود

در اصل، یک جعبه مرزی دارای 4 نقطه در محورهای (x,y) است که گوشه ها را نشان می دهد:

بالا سمت چپ: (x_min، y_min)

بالا سمت راست: (x_max، y_min)

پایین سمت چپ: (x_min، y_max)

پایین سمت راست: (x_max، y_max)

مختصات کادر مرزی با توجه به گوشه سمت چپ بالای تصویر محاسبه می شود.

چندین قالب حاشیه نویسی جعبه مرزی وجود دارد که هر کدام از نمایش مختصات جعبه مرزی استفاده می کنند.

آ. آلبوم ها

آنها از چهار مقدار برای نشان دادن کادر محدود استفاده می کنند - [x_min، y_min، x_max، y_max] - که با تقسیم مختصات پیکسلی برای محور x بر عرض و محور y بر ارتفاع تصویر نرمال می شوند.

فرض کنید مختصات کادر محدود عبارتند از: x1 = 678، y1 = 24; x2 = 543، y2 = 213.

عرض = 870، ارتفاع = 789

سپس، [678/870، 24/789، 543/870، 213/789] = [ 0.779310, 0.030418 ,0.624137, 0.269961]

Albumentations از این مقادیر به صورت داخلی با جعبه‌های محدودکننده استفاده و تفسیر می‌کند و آنها را افزایش می‌دهد.

ب COCO

این قالبی است که توسط مجموعه داده های Common Objects in Context COCO استفاده می شود. در قالب COCO، یک کادر محدود با چهار مقدار نشان داده می شود: (x_min، y_min، عرض، ارتفاع). در اصل، آنها به گوشه بالا سمت چپ و عرض و ارتفاع جعبه مرزی اشاره دارند.

ج یولو

در این قالب، یک کادر محدود با چهار مقدار (x_center، y_center، عرض، ارتفاع) ارائه می‌شود. در اینجا، x_center و y_center مختصات نرمال شده x و y مرکز جعبه کران را نشان می دهند. برای نرمال کردن، مختصات x مرکز با عرض تصویر و مختصات y مرکز با ارتفاع تصویر. مقادیر عرض و ارتفاع نیز نرمال می شوند.

د پاسکال

در قالب پاسکال، کادر محدود با مختصات بالا به چپ و پایین سمت راست نشان داده می شود. بنابراین، مقادیر کدگذاری شده در پیکسل عبارتند از: [x_min، y_min، x_max، y_max]. در اینجا، [x_min، y_min] گوشه بالا سمت چپ است، در حالی که [x_max، y_max] نشان‌دهنده گوشه سمت راست پایین کادر محدود است.


آیا می خواهید کارهای دستی تکراری را خودکار کنید؟ صرفه جویی در زمان، تلاش و پول در حالی که افزایش بهره وری!


اقدامات احتیاطی و بهترین روش ها در استفاده از جعبه های محدود کننده

برخی اقدامات احتیاطی و بهترین شیوه ها برای استفاده بهینه از جعبه های محدود کننده در پردازش تصویر توصیه می شود. آنها عبارتند از:

تغییرات اندازه جعبه

استفاده از تمام جعبه های محدود کننده با اندازه یکسان نتایج دقیقی را ارائه نمی دهد. آموزش مدل‌های خود بر روی جعبه‌های هم اندازه، عملکرد مدل را بدتر می‌کند. برای مثال، اگر همان شی از نظر اندازه کوچکتر به نظر برسد، مدل ممکن است آن را تشخیص ندهد. در مورد اجسام بزرگتر از حد انتظار ظاهر می شوند، ممکن است تعداد پیکسل های بیشتری را اشغال کند و موقعیت و مکان دقیق شی را ارائه نکند. نکته اصلی این است که برای دستیابی به نتایج دلخواه، تنوع در اندازه و حجم جسم را در نظر داشته باشید.

تنگی کامل پیکسل

سفتی یک عامل مهم است. این بدان معناست که لبه‌های جعبه مرزی باید تا حد امکان به جسم مورد نظر نزدیک باشد تا نتایج دقیق به دست آید. شکاف‌های ثابت ممکن است بر دقت در تعیین ناحیه همپوشانی بین پیش‌بینی مدل و شی واقعی تأثیر بگذارد و در نتیجه مشکلاتی ایجاد کند.

اقلام مورب قرار داده شده در جعبه های مرزی

مشکلی که در مورد مواردی که به صورت مورب در یک جعبه مرزی قرار می گیرند این است که فضای کمتری را در داخل جعبه در مقایسه با پس زمینه اشغال می کنند. با این حال، اگر بیشتر در معرض قرار گیرد، مدل ممکن است فرض کند که هدف پس‌زمینه است زیرا فضای بیشتری مصرف می‌کند. بنابراین، به عنوان بهترین روش، استفاده از چند ضلعی و تقسیم‌بندی نمونه برای اشیاء مورب توصیه می‌شود. با این حال، می توان مدل ها را با یک جعبه محدود با مقدار مناسبی از داده های آموزشی آموزش داد.

همپوشانی جعبه را کاهش دهید

اجتناب از همپوشانی حاشیه نویسی در همه سناریوها همیشه ایمن است. گاهی اوقات، این ممکن است باعث به هم ریختگی زیادی شود که در نهایت فقط برخی از جعبه‌های همپوشانی دیده شوند. اشیایی که دارای برچسب همپوشانی با سایر نهادها هستند، نتایج نسبتاً بدتری تولید می کنند. به دلیل همپوشانی بیش از حد، مدل نمی تواند بین شی مورد نظر و سایر موارد تمایز قائل شود. در چنین مواردی ممکن است از چند ضلعی برای دقت بالاتر استفاده شود.

نتیجه

پردازش تصویر قلمرو نوظهوری از فناوری است که دامنه وسیعی را ارائه می دهد. گفته می شود، جعبه های محدود کننده رایج ترین تکنیک پردازش تصویر را تشکیل می دهند.

به طور خلاصه، جعبه های مرزبندی یک روش حاشیه نویسی تصویر برای آموزش مدل های یادگیری ماشین مبتنی بر هوش مصنوعی هستند. برای تشخیص اشیا و شناسایی هدف در طیف وسیعی از کاربردها، از جمله روبات‌ها، هواپیماهای بدون سرنشین، وسایل نقلیه خودران، دوربین‌های نظارتی و سایر دستگاه‌های بینایی ماشین استفاده می‌شود.

منابع پیشنهادی:

https://www.kdnuggets.com/2022/07/bounding-box-deep-learning-future-video-annotation.html#:~:text=A%20bounding%20box%20is%20a,location%2C%20size%2C%20and%20orientation.

https://www.v7labs.com/blog/bounding-box-annotation

https://towardsdatascience.com/image-data-labelling-and-annotation-everything-you-need-to-know-86ede6c684b1


نانوت OCR و OCR API آنلاین بسیاری از جالب است موارد استفاده tکلاه می تواند عملکرد کسب و کار شما را بهینه کند، در هزینه ها صرفه جویی کند و رشد را تقویت کند. پیدا کردن چگونه موارد استفاده نانوشبکه ها می تواند برای محصول شما اعمال شود.


تمبر زمان:

بیشتر از هوش مصنوعی و یادگیری ماشین