עיבוד תמונה ותיבות תוחמות עבור OCR PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

עיבוד תמונה ותיבות תוחמות עבור OCR

הטכנולוגיה ממשיכה להתפתח, וכך גם אנחנו. עם הופעת הבינה המלאכותית ולמידת מכונה, הפוקוס עבר לעבר אוטומציה. עם זאת, תחומים שונים של מדעי המחשב מוצגים כדי ללמוד ולחקור את היישומים של מגמות מתעוררות אלה.

דוגמא אחת כזו היא עיבוד תמונה. בשפה פשוטה, זה מתייחס לחקר תמונות כדי לצייר מידע משמעותי. בעוד שמספר טכניקות זמינות להשיג זאת, הנפוצה ביותר היא - תיבות תוחמות.

בלוג זה מתעמק בהיבטים שונים של תיבות תוחמות. זה כולל מה הם, איך הם עובדים בעיבוד תמונה, פרמטרים המגדירים אותם, מוסכמות שמפרטות אותם, מקרי שימוש נפוצים, אמצעי זהירות ושיטות עבודה מומלצות ועוד.

בואו לצלול פנימה.

עיבוד תמונה מתייחס לביצוע פעולות מסוימות בתמונה כדי לשפר אותה או לחלץ כמה תובנות חשובות מהתכונות או התכונות הקשורות אליה. כיום, עיבוד תמונה הוא תחום מחקר עיקרי בלימודי הנדסה וטכנולוגיית מחשבים.

עיבוד תמונה יכול להתבצע בשתי שיטות - עיבוד תמונה אנלוגי ועיבוד תמונה דיגיטלי.

עיבוד תמונה אנלוגי כולל שימוש בעותקים קשיחים של הדפסה ותצלומים כדי לנתח ולתפעל תמונות. מנתחי תמונה משתמשים בשיטות שונות כדי לפרש את עותקי התמונות הללו ולחלץ תוצאות משמעותיות.

עיבוד תמונה דיגיטלי משתמש בתמונות דיגיטליות ומפרש אותן באמצעות מחשבים. זוהי תת-קטגוריה של עיבוד אותות דיגיטלי ומשתמשת באלגוריתמים לעיבוד תמונות דיגיטליות. הוא מספק יתרונות על פני עיבוד תמונה אנלוגי, כגון אלגוריתמים למניעת רעש ועיוות בעיבוד.

לעיבוד תמונה דיגיטלי מספר יישומים בתחומי הרפואה, הייצור, המסחר האלקטרוני ועוד.


תיבות תוחמות בעיבוד תמונה

בהתחלה, התיבה התוחמת היא תיבה מלבנית דמיונית הכוללת אובייקט ומערכת של נקודות נתונים. בהקשר של עיבוד תמונה דיגיטלי, התיבה התוחמת מציינת את הקואורדינטות של הגבול על צירי X ו-Y המקיפים תמונה. הם משמשים לזיהוי מטרה ומשמשים אסמכתא לזיהוי אובייקט ויצירת תיבת התנגשות עבור האובייקט.

מהן תיבות תוחמות?

תיבות תוחמות הן מרכיבי המפתח ואחד מכלי עיבוד התמונה העיקריים עבור פרויקטים של הערות וידאו. במהותה, תיבה תוחמת היא מלבן דמיוני המתאר את האובייקט בתמונה כחלק מדרישת פרויקט למידת מכונה. המסגרת המלבנית הדמיונית סוגרת את האובייקט בתמונה.

תיבות תוחמות מציינות את מיקומו של האובייקט, המחלקה והביטחון שלו, מה שמציין את מידת ההסתברות שהאובייקט אכן נמצא בתיבה התוחמת.

ראייה ממוחשבת מציעה יישומים מדהימים - ממכוניות בנהיגה עצמית ועד לזיהוי פנים ועוד. וזה, בתורו, מתאפשר עם עיבוד תמונה.

אז האם עיבוד תמונה פשוט כמו ציור מלבנים או דפוסים סביב אובייקטים? לא. עם זאת, מה עושות תיבות תוחמות?

בואו נבין.

כיצד פועלות תיבות תוחמות בעיבוד תמונה?

כאמור, התיבה התוחמת היא מלבן דמיוני המשמש כנקודת ייחוס לזיהוי אובייקט ומפתח תיבת התנגשות עבור האובייקט.

אז איך זה עוזר למגיבי נתונים? ובכן, אנשי מקצוע משתמשים ברעיון של תיבות תוחמות כדי לצייר מלבנים דמיוניים על התמונות. הם יוצרים קווי מתאר של האובייקטים המדוברים בתוך כל תמונה ומגדירים את קואורדינטות ה-X וה-Y שלה. זה הופך את העבודה של אלגוריתמי למידת מכונה לפשוטה יותר, עוזר להם למצוא נתיבי התנגשות וכאלה, ובכך חוסך משאבי מחשוב.

לדוגמה, בתמונה למטה, כל רכב הוא אובייקט מפתח שמיקומו ומיקומו חיוניים לאימון דגמי למידת המכונה. מחברי נתונים משתמשים בטכניקת התיבות התוחמות כדי לצייר את המלבנים סביב כל אחד מהאובייקטים הללו - כלי רכב, במקרה זה.

עיבוד תמונה ותיבות תוחמות עבור OCR PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מקור: keymakr

לאחר מכן, הם משתמשים בקואורדינטות כדי להבין את המיקום והמיקום של כל אובייקט, דבר שימושי לאימון מודלים של למידת מכונה. תיבה תוחמת אחת לא מספקת קצב חיזוי טוב. לזיהוי אובייקט משופר, יש להשתמש במספר תיבות תוחמות בשילוב עם שיטות הגדלת נתונים.

תיבות תוחמות הן טכניקות ביאור תמונה יעילות וחזקות ביותר שמפחיתות עלויות באופן ניכר.

פרמטרים המגדירים תיבה תוחמת

הפרמטרים מבוססים על המוסכמות המשמשות לציון התיבה התוחמת. הפרמטרים העיקריים שבהם נעשה שימוש כוללים:

  • מחלקה: זה מציין את האובייקט בתוך התיבה התוחמת - לדוגמה, מכוניות, בתים, בניינים וכו'.
  • (X1, Y1): זה מתייחס לקואורדינטות X ו-Y של הפינה השמאלית העליונה של המלבן.
  • (X2, Y2): זה מתייחס לקואורדינטות X ו-Y של הפינה הימנית התחתונה של המלבן.
  • (Xc, Yc): זה מתייחס לקואורדינטות X ו-Y של מרכז התיבה התוחמת.
  • רוחב: זה מציין את רוחב התיבה התוחמת.
  • גובה: זה מציין את גובה התיבה התוחמת.
  • ביטחון: זה מייצג את האפשרות שהאובייקט נמצא בתיבה. נגיד, הביטחון הוא 0.9. זה אומר שיש סבירות של 90% שהאובייקט אכן יהיה קיים בתוך הקופסה.

מוסכמות המציינות תיבה תוחמת

כאשר מציינים תיבה תוחמת, בדרך כלל, יש לכלול שתי מוסכמות עיקריות. אלו הם:

  • קואורדינטות X ו-Y של הנקודות השמאלית העליונה והימנית התחתונה של המלבן.
  • קואורדינטות X ו-Y של מרכז התיבה התוחמת, יחד עם הרוחב והגובה שלה.

בואו נמחיש זאת בדוגמה של מכונית.

א. ביחס למוסכמה הראשונה, התיבה התוחמת מצוינת לפי הקואורדינטות של הנקודות השמאלית העליונה והימנית התחתונה.

מקור: AnalyticsVidhya

ב. ביחס למוסכמה השנייה, התיבה התוחמת מתוארת לפי קואורדינטות המרכז, הרוחב והגובה.

עיבוד תמונה ותיבות תוחמות עבור OCR PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מקור: AnalyticsVidhya

בהתאם למקרה השימוש, ניתן להמיר בין סוגי האמנה השונים.

  • Xc = (X1 + X2)/2
  • Yc = (Y1 + Y2)/2
  • רוחב = (X2 - X1)
  • גובה = (Y2 - Y1)

תיבות תוחמות מוסבר עם קוד תכנות

בוא נראה דוגמה נוספת לגבי המיקום או המיקום של אובייקט עם קטעי קוד.

עיבוד תמונה ותיבות תוחמות עבור OCR PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מקור: d2i

אנו טוענים את התמונה שתשמש להמחשה זו. בתמונה יש כלב משמאל וחתול מימין. יש שני אובייקטים - כלב וחתול בתמונה.

עיבוד תמונה ותיבות תוחמות עבור OCR PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מקור: d2i

עיבוד תמונה ותיבות תוחמות עבור OCR PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מקור: d2i

ניקח את ה-x וה-y כקואורדינטות לפינה השמאלית העליונה והימנית התחתונה של התיבה התוחמת. נגיד, (x1,y1) ו-(x2,y2). באופן דומה, ניקח בחשבון את קואורדינטות הציר (x,y) – למרכז התיבה התוחמת, יחד עם הרוחב והגובה שלה.

לאחר מכן, אנו מגדירים שתי פונקציות להמרת צורות אלו: box_corner_to_center ממיר את ייצוג שתי הפינות לייצוג מרכז גובה-רוחב ו-box_center_to_corner עושה זאת להיפך.

תיבות ארגומנט הקלט צריכות להיות טנזור דו מימדי של צורה (n,4), כאשר n הוא מספר התיבות התוחמות.

עיבוד תמונה ותיבות תוחמות עבור OCR PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מקור: d2i

לאחר מכן, הבה נגדיר את התיבות התוחמות של הכלב והחתול בתמונה בהתבסס על נתוני הקואורדינטות.

עיבוד תמונה ותיבות תוחמות עבור OCR PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מקור: d2i

כדי לוודא את נכונות פונקציות ההמרה של שתי התיבות התוחמות, נוכל להמיר פעמיים.

עיבוד תמונה ותיבות תוחמות עבור OCR PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מקור: d2i

עיבוד תמונה ותיבות תוחמות עבור OCR PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מקור: d2i

לאחר מכן, נוכל לצייר את התיבות התוחמות של האובייקטים על התמונה כדי לבדוק אם הם מדויקים. לפני כן, אנו מגדירים פונקציה bbox_t_rect המייצגת את התיבה התוחמת בפורמט הרלוונטי של חבילת matplotlib.

עיבוד תמונה ותיבות תוחמות עבור OCR PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מקור: d2i

כעת, לאחר הוספת התיבות התוחמות של חפצי הכלב והחתול לתמונה, אנו רואים שהמתאר הראשי של העצמים הללו נמצא בתוך שתי התיבות.

עיבוד תמונה ותיבות תוחמות עבור OCR PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מקור: d2i

עיבוד תמונה ותיבות תוחמות עבור OCR PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מקור: d2i


רוצה לבצע אוטומציה של משימות ידניות שחוזרות על עצמן? בדוק את תוכנת עיבוד המסמכים המבוססת על Nanonets שלנו. חלץ נתונים מחשבוניות, תעודות זהות או כל מסמך בטייס אוטומטי!


מקרי שימוש נפוצים של תיבות תוחמות

לוקליזציה של אובייקטים של כלי רכב בנהיגה עצמית

תיבות תוחמות הן חלק בלתי נפרד באימון כלי רכב נהיגה עצמית או אוטונומית לזיהוי עצמים על הכביש כמו מבנים, תמרורי תנועה, כל מכשול ועוד. הם מסייעים בביאור כל מכשול ומאפשרים לרובוטים לנהוג ברכב בבטחה ולמנוע תאונות, גם במקרה של עומס.

תמונות רובוטיקה

טכניקות ביאור תמונה כמו תיבות תוחמות נמצאות בשימוש נרחב כדי לסמן את נקודות המבט של רובוטים ומזל"טים. כלי רכב אוטונומיים אלו מסייעים לסווג עצמים על פני כדור הארץ באמצעות התצלומים המתקבלים משיטת הביאור הזו.

תיוג תמונות עבור מסחר אלקטרוני וקמעונאות

הערות תיבות תוחמות עוזרות לשפר את הדמיית המוצר, וזה יתרון גדול במסחר אלקטרוני ובקמעונאות. דוגמניות שהוכשרו על פריטים דומים יכולים להוסיף הערות על חפצים כמו ביגוד אופנה, אביזרים, רהיטים, קוסמטיקה וכו', ליתר דיוק כשהם מסומנים כראוי. להלן כמה מהאתגרים שעומדים בפני הערות תיבות תוחמות בקמעונאות:

  • תוצאות חיפוש שגויות

אם חיפוש הוא הדרך היחידה שבה לקוחות יכולים להיתקל באתר המסחר האלקטרוני, אז נתוני קטלוג שגויים עלולים לגרום לתוצאות חיפוש לא מדויקות, ובכך לא להניע את תנועת הלקוחות לאתר.

  • שרשראות אספקה ​​לא מאורגנות

למי שרוצה להרחיב את העסק הקמעונאי שלהם כך שניתן יהיה לשלוח מיליוני מוצרים מדי שנה, זה הופך להיות הכרחי לסנכרן את הנתונים הלא מקוונים והמקוונים.

  • דיגיטציה מתמשכת

זה קריטי לדיגיטל ולתייג את כל המוצרים באופן שיטתי ומהיר כדי להבטיח שהלקוחות לא יחמיצו שום הזדמנויות חדשות. בנוסף, התגיות חייבות להיות בהקשר, וההצמדה אליה הופכת לקשה ככל שהעסק הקמעונאי מתרחב ומוצרים נוספים.

מזהה אובדן רכב עבור תביעות ביטוח

הטכניקה של תיבול תיבות מסייעת לעקוב אחר מכוניות, אופניים או כלי רכב אחרים שניזוקו בתאונה. מודלים של למידת מכונה משתמשים בתמונות אלה מתיבות תוחמות כדי להבין את המיקום והעוצמה של ההפסדים. זה עוזר לחזות את עלות ההפסדים שנגרמו, בהתבסס על כך שהלקוחות יכולים להציג את הערכתם לפני הגשת תביעה משפטית.

עיבוד תמונה ותיבות תוחמות עבור OCR PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מקור: הערות-על

זיהוי פריטים פנימיים

תיבות תוחמות עוזרות למחשבים לזהות פריטים פנימיים כמו מיטות, ספות, שולחנות עבודה, ארונות או מכשירי חשמל. זה מאפשר למחשבים לקבל תחושה של מרחב וסוגי החפצים הקיימים, עם מידותיהם ומיקומם. זה, בתורו, עוזר למודלים של למידת מכונה בזיהוי פריטים אלה במצב של חיים אמיתיים.

תיבות תוחמות נמצאות בשימוש נרחב בצילומים ככלי למידה עמוקה להבנה ולפרשת סוגים שונים של אובייקטים.

זיהוי מחלות וגידול צמחים בחקלאות

גילוי מוקדם של מחלות צמחים מסייע לחקלאים למנוע הפסדים חמורים. עם הופעתה של חקלאות חכמה, האתגר טמון בהכשרת נתונים ללמד מודלים של למידת מכונה לאיתור מחלות צמחים. תיבות תוחמות הן מניע מרכזי המספקים את הראייה הדרושה למכונות.

תעשיית ייצור

זיהוי אובייקטים וזיהוי פריטים בתעשיות הוא היבט חיוני של ייצור. עם רובוטים ומחשבים התומכים בבינה מלאכותית, תפקיד ההתערבות הידנית מצטמצם. עם זאת, תיבות תוחמות ממלאות תפקיד מכריע בכך שהם עוזרים להכשיר את המודלים של למידת מכונה כדי לאתר ולזהות רכיבים תעשייתיים. בנוסף, תהליכים כמו בקרת איכות, מיון ופעולות פס ייצור אשר כולם חלק מניהול האיכות, זקוקים לאיתור אובייקטים.

הדמיה רפואית

תיבות תוחמות מוצאות גם יישומים בתעשיית הבריאות, כגון בהדמיה רפואית. טכניקת ההדמיה הרפואית עוסקת באיתור עצמים אנטומיים כמו הלב ודורשת ניתוח מהיר ומדויק. ניתן להשתמש בקופסאות תוחמות לאימון מודלים של למידת מכונה, אשר לאחר מכן יוכלו לזהות את הלב או איברים אחרים במהירות ובדייקנות.

טלוויזיות במעגל סגור אוטומטיות

טלוויזיות במעגל סגור אוטומטיות הן מנדט ברוב מפעלי המגורים, המסחר ואחרים. לעתים קרובות, נדרש אחסון זיכרון גבוה כדי לשמור את צילומי הטלוויזיה במעגל סגור לאורך זמן. עם טכניקות זיהוי אובייקטים כמו תיבות תוחמות, ניתן להבטיח שהצילומים יוקלטו רק כאשר מזוהים אובייקטים מסוימים. תיבות תוחמות יכולות לאמן את המודלים של למידת מכונה, שיזהו רק את אותם אובייקטים, וברגע זה ניתן ללכוד את הצילומים. זה גם יעזור למזער את היקף האחסון הנדרש עבור טלוויזיה במעגל סגור ולהפחית עלויות.

זיהוי וזיהוי פנים

זיהוי פנים מציע יישומים מרובים, כמו למשל הוא משמש במעקב ביומטרי. חוץ מזה, סוכנויות שונות כמו בנקים, שדות תעופה, חנויות קמעונאיות, אצטדיונים ומוסדות אחרים משתמשות בזיהוי פנים כדי למנוע פשעים ואלימות. עם זאת, זיהוי פנים הוא מרכיב חשוב בראייה ממוחשבת הכרוך בעיבוד תמונה. והנה שוב, תיבות תוחמות יכולות לשמש ככלי יעיל לזיהוי תווים.


רוצה להשתמש באוטומציה רובוטית של תהליכים? בדוק את תוכנת עיבוד מסמכים מבוססת זרימת עבודה של Nanonets. אין קוד. אין פלטפורמה טרחה.


תיבות תוחמות לזיהוי תווים

זיהוי אובייקטים כולל - סיווג תמונה ולוקליזציה של אובייקטים. זה אומר שמחשב יזהה אובייקט, הוא צריך לדעת מהו האובייקט המדובר והיכן הוא נמצא. סיווג תמונה מקצה תווית כיתה לתמונה. לוקליזציה של אובייקט קשורה לציור התיבה התוחמת סביב האובייקט המדובר בתמונה.

התהליך כרוך במעריך שמצייר את התיבות התוחמות מסביב לאובייקטים ומתייג אותם. זה עוזר לאמן את האלגוריתם ומאפשר לו להבין איך האובייקט נראה. כשלב הראשון לזיהוי אובייקטים, על מערך הנתונים של התמונה להיות תוויות.

כדי לתייג תמונה, בצע את השלבים הבאים:

  • בחר את מערך הנתונים שברצונך לאמן ולבדוק. תעשה מזה תיקייה.
  • בואו ניקח דוגמה של פרויקט זיהוי פנים כמו: BTS, Avenger וכו'.
  • צור נתוני שם תיקייה.
  • ב-Google Drive, צור תיקייה בשם FaceDetection.
  • בתיקיית FaceDetection, צור תיקיה של התמונה.
  • בתיקיית התמונות, צור תיקיות של תמונת הבדיקה, בדוק את ה-XML, התקן את התמונה ואימון ה-XML.
עיבוד תמונה ותיבות תוחמות עבור OCR PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מקור:אינדוסטי

כעת, בתיקיית תמונות הרכבת, הורד והעלה 10-15 תמונות של BTS ו-Avengers בפורמט JPEG. באופן דומה, בתיקיית תמונת הבדיקה, בצע את אותו הדבר עבור 5-6 תמונות. מומלץ לכלול יותר תמונות במערך הנתונים לקבלת תוצאות מדויקות.

עיבוד תמונה ותיבות תוחמות עבור OCR PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מקור: אינדוסטי

עיבוד תמונה ותיבות תוחמות עבור OCR PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מקור: אינדוסטי

לאחר מכן, צור קובץ XML עבור כל תמונה של תמונת הבדיקה והרכבת תיקיות תמונות

הורד ולחץ על windows v_1.8.0. לחץ על קובץ ה-.exe מ-GitHub ולחץ על הפעלה.

לאחר מכן, לחץ על הספרייה הפתוחה כדי לבחור את התיקיה של התמונה. תראה את התמונה שיש לסמן. לתווית, הקש W במקלדת ולחץ לחיצה ימנית וגרור את הסמן כדי לצייר את התיבה סביב האובייקט. תן לזה שם ולחץ על אישור.

עיבוד תמונה ותיבות תוחמות עבור OCR PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מקור: אינדוסטי

לאחר מכן, שמור את התמונה כדי ליצור את קובץ ה-XML של התמונה בתיקיית התמונות, כפי שמוצג להלן.

עיבוד תמונה ותיבות תוחמות עבור OCR PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מקור: אינדוסטי

פתח את קובץ ה-XML כדי לראות את הקואורדינטות.

עיבוד תמונה ותיבות תוחמות עבור OCR PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מקור: אינדוסטי

חזור על ההליך עבור כל התמונות כדי ליצור את קובצי ה-XML ולחפש את הקואורדינטות.


אם אתה עובד עם חשבוניות וקבלות או דואג לאימות מזהה, בדוק את Nanonets OCR מקוון or מחלץ טקסט PDF כדי לחלץ טקסט ממסמכי PDF בחינם. לחץ למטה למידע נוסף על Nanonets Enterprise Automation Solution.


פורמטים שונים של הערות בשימוש בתיבות תוחמות

בעיקרו של דבר, לתיבה תוחמת יש 4 נקודות בצירים (x,y) המייצגים את הפינות:

שמאל למעלה : (x_min, y_min)

מימין למעלה: (x_max, y_min)

שמאל למטה:(x_min, y_max)

ימין למטה: (x_max, y_max)

הקואורדינטות של התיבה התוחמת מחושבות ביחס לפינה השמאלית העליונה של התמונה.

ישנם מספר פורמטים של הערות של תיבה תוחמת, כל אחד משתמש בייצוג משלו של קואורדינטות התיבה התוחמת.

א. אלבומים

הם משתמשים בארבעה ערכים כדי לייצג את התיבה התוחמת - [x_min, y_min, x_max, y_max] - אשר מנורמלים על ידי חלוקת הקואורדינטות בפיקסלים של ציר ה-x ברוחב וציר y בגובה התמונה.

נניח שהקואורדינטות של התיבה התוחמת הן: x1 = 678, y1 = 24; x2 = 543, y2= 213.

רוחב תן = 870, גובה = 789

לאחר מכן, [678/870, 24/789, 543/870, 213/789] = [ 0.779310, 0.030418 ,0.624137, 0.269961]

אלבומנטציות משתמשת ומפרשת את הערכים הללו באופן פנימי עם תיבות תוחמות ומשפרת אותם.

ב. COCO

זהו פורמט המשמש את מערך הנתונים Common Objects in Context COCO. בפורמט COCO, תיבה תוחמת מיוצגת על ידי ארבעה ערכים: (x_min, y_min, width, height). בעיקרו של דבר, הם מתייחסים לפינה השמאלית העליונה ולרוחב והגובה של התיבה התוחמת.

ג. אתה חי רק פעם אחת

בפורמט זה מוצגת תיבה תוחמת עם ארבעה ערכים :(x_center, y_center, width, height). כאן, x_center ו-y_center מציינים את קואורדינטות ה-x וה-y המנורמלות של מרכז התיבה התוחמת. כדי לנרמל, קואורדינטת x של המרכז לפי רוחב התמונה וקואורדינטת y של המרכז לפי גובה התמונה. גם ערכי הרוחב והגובה מנורמלים.

ד. פסקל

בפורמט פסקל, התיבה התוחמת מיוצגת על ידי הקואורדינטות השמאלית העליונה והימנית התחתונה. אז, הערכים המקודדים בפיקסלים הם: [x_min, y_min, x_max, y_max]. כאן, [x_min, y_min] הוא זה של הפינה השמאלית העליונה, בעוד [x_max, y_max] מציין את הפינה הימנית התחתונה של התיבה התוחמת.


רוצה לבצע אוטומציה של משימות ידניות שחוזרות על עצמן? חסוך זמן, מאמץ וכסף תוך שיפור היעילות!


אמצעי זהירות ושיטות עבודה מומלצות בשימוש בקופסאות תוחמות

כמה אמצעי זהירות ושיטות עבודה מומלצות מומלצים לשימוש מיטבי בתיבות תוחמות בעיבוד תמונה. הם כוללים:

וריאציות של גודל קופסא

שימוש בכל התיבות התוחמות בגודל זהה לא יציג תוצאות מדויקות. אימון הדגמים שלך על תיבות תוחמות באותם גדלים יגרום לביצועים גרועים יותר של הדגם. לדוגמה, אם אותו אובייקט נראה קטן יותר בגודלו, ייתכן שהדגם לא יצליח לזהות אותו. במקרה של אובייקטים שנראים גדולים מהצפוי, הוא עשוי לתפוס מספר גדול יותר של פיקסלים ולא לספק את המיקום והמיקום המדויקים של האובייקט. העיקר הוא לזכור את השונות בגודל ובנפח של האובייקט כדי להשיג את התוצאות הרצויות.

צמידות פיקסלים מושלמת

אטימות היא גורם מכריע. המשמעות היא שהקצוות של התיבה התוחמת חייבים להיות קרובים ככל האפשר לאובייקט המדובר כדי לקבל תוצאות מדויקות. פערים עקביים עשויים להשפיע על הדיוק בקביעת אזור החפיפה בין חיזוי המודל לבין האובייקט האמיתי, ובכך ליצור בעיות.

פריטים אלכסוניים מונחים בקופסאות תוחמות

הבעיה העומדת בפני פריטים הממוקמים באלכסון בתוך תיבה תוחמת היא שהם תופסים הרבה פחות מקום בתוך הקופסה בהשוואה לרקע. עם זאת, אם הוא נחשף זמן רב יותר, הדגם עשוי להניח שהמטרה היא הרקע שכן זה גוזל יותר מקום. לכן, כתרגול מומלץ, מומלץ להשתמש במצולעים ובפילוח מופעים עבור אובייקטים אלכסוניים. עם זאת, אפשר ללמד את המודלים עם תיבה תוחמת עם כמות טובה של נתוני אימון.

צמצום חפיפת קופסאות

תמיד בטוח להימנע מחפיפות הערות בכל התרחישים. לפעמים זה עלול לגרום לכל כך הרבה עומס שרק כמה קופסאות חופפות עשויות להיראות לבסוף. אובייקטים שיש להם חפיפה של תיוג עם ישויות אחרות מייצרים תוצאות גרועות יותר יחסית. המודל לא יצליח להבדיל בין אובייקט היעד לפריטים אחרים עקב חפיפה מוגזמת. במקרים כאלה, ניתן להשתמש במצולעים לדיוק גבוה יותר.

סיכום

עיבוד תמונה הוא תחום מתפתח של טכנולוגיה המציע טווח רחב. עם זאת, תיבות תוחמות יוצרות את טכניקת עיבוד התמונה הנפוצה ביותר.

לסיכום, תיבות תוחמות הן שיטת ביאור תמונה לאימון מודלים של למידת מכונה מבוססי AI. הוא משמש לזיהוי עצמים וזיהוי מטרות במגוון רחב של יישומים, כולל רובוטים, רחפנים, כלי רכב אוטונומיים, מצלמות מעקב ומכשירי ראייה מכונה אחרים.

משאבים מוצעים:

https://www.kdnuggets.com/2022/07/bounding-box-deep-learning-future-video-annotation.html#:~:text=A%20bounding%20box%20is%20a,location%2C%20size%2C%20and%20orientation.

https://www.v7labs.com/blog/bounding-box-annotation

https://towardsdatascience.com/image-data-labelling-and-annotation-everything-you-need-to-know-86ede6c684b1


ננונטים מקוון OCR ו- OCR API מקוון יש הרבה מעניינים להשתמש במקרים that יכול לייעל את ביצועי העסק שלך, לחסוך בעלויות ולהגדיל את הצמיחה. תגלה כיצד מקרי השימוש של Nanonets יכולים לחול על המוצר שלך.


בול זמן:

עוד מ AI & Machine Learning