การประมวลผลภาพและกล่องขอบเขตสำหรับ OCR PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

การประมวลผลภาพและกล่องขอบเขตสำหรับ OCR

เทคโนโลยีมีการพัฒนาอย่างต่อเนื่อง และเราเองก็เช่นกัน ด้วยการเกิดขึ้นของปัญญาประดิษฐ์และการเรียนรู้ของเครื่อง โฟกัสได้เปลี่ยนไปสู่ระบบอัตโนมัติ ดังที่กล่าวไปแล้ว สาขาวิชาวิทยาการคอมพิวเตอร์ต่างๆ ได้รับการแนะนำเพื่อศึกษาและสำรวจการใช้งานของแนวโน้มที่เกิดขึ้นใหม่เหล่านี้

ตัวอย่างหนึ่งคือ การประมวลผลภาพ. ในภาษาที่เรียบง่าย หมายถึงการสำรวจรูปภาพเพื่อดึงข้อมูลที่มีความหมาย แม้ว่าจะมีเทคนิคหลายอย่างเพื่อให้บรรลุเป้าหมายนี้ แต่ที่ใช้บ่อยที่สุดคือ - ขอบกล่อง.

บล็อกนี้เจาะลึกในแง่มุมต่างๆ ของกรอบล้อมรอบ ซึ่งรวมถึงสิ่งที่เป็น วิธีทำงานในการประมวลผลภาพ พารามิเตอร์ที่กำหนด ข้อตกลงที่ระบุ กรณีการใช้งานทั่วไป ข้อควรระวังและแนวทางปฏิบัติที่ดีที่สุด และอื่นๆ

ลองมาดูกันเถอะ

การประมวลผลภาพหมายถึงการดำเนินการบางอย่างกับรูปภาพเพื่อปรับปรุงหรือดึงข้อมูลเชิงลึกอันมีค่าจากคุณลักษณะหรือแอตทริบิวต์ที่เกี่ยวข้อง ปัจจุบัน การประมวลผลภาพเป็นงานวิจัยหลักด้านวิศวกรรมและเทคโนโลยีคอมพิวเตอร์

การประมวลผลภาพสามารถทำได้สองวิธี - การประมวลผลภาพแอนะล็อกและการประมวลผลภาพดิจิทัล

การประมวลผลภาพแอนะล็อกเกี่ยวข้องกับการใช้สำเนาของงานพิมพ์และภาพถ่ายเพื่อวิเคราะห์และจัดการภาพ นักวิเคราะห์รูปภาพใช้วิธีการต่างๆ ในการตีความสำเนารูปภาพเหล่านี้และดึงผลลัพธ์ที่มีความหมาย

การประมวลผลภาพดิจิทัลใช้ภาพดิจิทัลและตีความโดยใช้คอมพิวเตอร์ เป็นหมวดหมู่ย่อยของการประมวลผลสัญญาณดิจิทัลและใช้อัลกอริธึมในการประมวลผลภาพดิจิทัล โดยให้ข้อดีเหนือการประมวลผลภาพอะนาล็อก เช่น อัลกอริธึมเพื่อป้องกันสัญญาณรบกวนและการบิดเบือนในการประมวลผล

การประมวลผลภาพดิจิทัลมีการใช้งานที่หลากหลายในด้านการแพทย์ การผลิต อีคอมเมิร์ซ และอื่นๆ


ขอบเขตของกล่องในการประมวลผลภาพ

ในตอนแรก bounding box เป็นกล่องสี่เหลี่ยมจินตภาพที่มีวัตถุและชุดของจุดข้อมูล ในบริบทของการประมวลผลภาพดิจิทัล กรอบขอบเขตหมายถึงพิกัดของเส้นขอบบนแกน X และ Y ที่ล้อมรอบรูปภาพ ใช้เพื่อระบุเป้าหมายและใช้เป็นข้อมูลอ้างอิงสำหรับการตรวจจับวัตถุและสร้างกล่องการชนกันของวัตถุ

Bounding Boxes คืออะไร?

กล่องที่มีขอบเขตเป็นองค์ประกอบหลักและเป็นหนึ่งในเครื่องมือประมวลผลภาพหลักสำหรับโครงการคำอธิบายประกอบวิดีโอ โดยพื้นฐานแล้ว bounding box คือสี่เหลี่ยมจินตภาพที่กำหนดโครงร่างวัตถุในภาพซึ่งเป็นส่วนหนึ่งของข้อกำหนดของโปรเจ็กต์การเรียนรู้ของเครื่อง กรอบสี่เหลี่ยมจินตภาพล้อมรอบวัตถุในภาพ

กล่องขอบเขตระบุตำแหน่งของวัตถุ ระดับของวัตถุ และความมั่นใจ ซึ่งบอกระดับของความน่าจะเป็นที่วัตถุมีอยู่จริงในกล่องขอบเขต

คอมพิวเตอร์วิชั่นนำเสนอแอพพลิเคชั่นที่น่าทึ่ง ตั้งแต่รถยนต์ที่ขับด้วยตนเองไปจนถึงการจดจำใบหน้าและอีกมากมาย และสิ่งนี้ก็เกิดขึ้นได้ด้วยการประมวลผลภาพ

การประมวลผลภาพทำได้ง่ายเพียงแค่วาดรูปสี่เหลี่ยมผืนผ้าหรือลวดลายรอบๆ วัตถุหรือไม่? ไม่ ที่ถูกกล่าวว่า bounding Boxes ทำอะไร?

มาทำความเข้าใจกันเถอะ

Bounding Boxes ทำงานอย่างไรในการประมวลผลภาพ?

ดังที่ได้กล่าวมาแล้ว bounding box เป็นสี่เหลี่ยมจินตภาพซึ่งทำหน้าที่เป็นจุดอ้างอิงสำหรับการตรวจจับวัตถุและพัฒนากล่องการชนกันของวัตถุ

แล้วมันช่วยผู้ใส่คำอธิบายประกอบข้อมูลได้อย่างไร? ผู้เชี่ยวชาญมักใช้แนวคิดเรื่องกรอบล้อมรอบเพื่อวาดสี่เหลี่ยมในจินตนาการเหนือรูปภาพ พวกเขาสร้างโครงร่างของวัตถุที่เป็นปัญหาภายในแต่ละภาพและกำหนดพิกัด X และ Y สิ่งนี้ทำให้งานของอัลกอริธึมแมชชีนเลิร์นนิงง่ายขึ้น ช่วยให้พวกเขาค้นหาเส้นทางการชนกัน ดังนั้นจึงช่วยประหยัดทรัพยากรการคำนวณ

ตัวอย่างเช่น ในภาพด้านล่าง ยานพาหนะแต่ละคันเป็นวัตถุหลักที่มีตำแหน่งและตำแหน่งที่จำเป็นสำหรับการฝึกโมเดลการเรียนรู้ของเครื่อง ผู้อธิบายข้อมูลใช้เทคนิค bounding Boxes เพื่อวาดสี่เหลี่ยมรอบ ๆ แต่ละอ็อบเจ็กต์ - ยานพาหนะ ในกรณีนี้

การประมวลผลภาพและกล่องขอบเขตสำหรับ OCR PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ที่มา: คีย์แมคโคร

จากนั้นจึงใช้พิกัดเพื่อทำความเข้าใจตำแหน่งและตำแหน่งของวัตถุแต่ละชิ้น ซึ่งจะเป็นประโยชน์ในการฝึกโมเดลการเรียนรู้ของเครื่อง กล่องขอบเขตเดียวไม่ได้ให้อัตราการทำนายที่ดี สำหรับการตรวจจับวัตถุขั้นสูง ต้องใช้กล่องขอบเขตหลายกล่องร่วมกับวิธีการเสริมข้อมูล

Bounding box เป็นเทคนิคการใส่คำอธิบายประกอบรูปภาพที่มีประสิทธิภาพสูงและมีประสิทธิภาพ ซึ่งช่วยลดต้นทุนได้มาก

พารามิเตอร์ที่กำหนดกล่องที่มีขอบเขต

พารามิเตอร์เป็นไปตามข้อตกลงที่ใช้ในการระบุขอบเขตกล่อง พารามิเตอร์หลักที่ใช้ ได้แก่ :

  • คลาส: หมายถึงวัตถุที่อยู่ในกรอบล้อมรอบ เช่น รถยนต์ บ้าน อาคาร ฯลฯ
  • (X1, Y1): หมายถึงพิกัด X และ Y ของมุมบนซ้ายของสี่เหลี่ยม
  • (X2, Y2): หมายถึงพิกัด X และ Y ที่มุมล่างขวาของรูปสี่เหลี่ยมผืนผ้า
  • (Xc, Yc): นี่หมายถึงพิกัด X และ Y ของศูนย์กลางของกรอบล้อมรอบ
  • ความกว้าง: นี่แสดงถึงความกว้างของกรอบล้อมรอบ
  • ความสูง: นี่แสดงถึงความสูงของกล่องล้อมรอบ
  • ความมั่นใจ: สิ่งนี้แสดงถึงความเป็นไปได้ของวัตถุที่อยู่ในกล่อง สมมติว่าความเชื่อมั่นคือ 0.9 ซึ่งหมายความว่ามีความเป็นไปได้ 90% ที่วัตถุจะอยู่ในกล่อง

อนุสัญญาระบุกล่องที่มีขอบเขต

เมื่อระบุขอบเขตกล่อง โดยปกติแล้ว จะต้องรวมข้อตกลงหลักสองประการ เหล่านี้คือ:

  • พิกัด X และ Y ของจุดบนซ้ายและล่างขวาของสี่เหลี่ยม
  • พิกัด X และ Y ของจุดศูนย์กลางของกรอบขอบพร้อมกับความกว้างและความสูง

มาอธิบายเรื่องนี้ด้วยตัวอย่างรถยนต์

ก. ในส่วนที่เกี่ยวกับการประชุมครั้งแรก กล่องขอบเขตจะถูกระบุตามพิกัดของจุดซ้ายบนและจุดขวาล่าง

ที่มา: วิเคราะห์วิทยา

ข. ในส่วนที่เกี่ยวกับแบบแผนที่สอง กรอบขอบเขตจะอธิบายตามพิกัดศูนย์กลาง ความกว้าง และความสูง

การประมวลผลภาพและกล่องขอบเขตสำหรับ OCR PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ที่มา: วิเคราะห์วิทยา

ขึ้นอยู่กับกรณีการใช้งาน เป็นไปได้ที่จะแปลงระหว่างประเภทการประชุมที่แตกต่างกัน

  • Xc = (X1 + X2)/2
  • Yc = (Y1 + Y2)/2
  • ความกว้าง = (X2 – X1)
  • ความสูง = (Y2 – Y1)

Bounding Boxes อธิบายด้วยรหัสการเขียนโปรแกรม

มาดูตัวอย่างอื่นเกี่ยวกับตำแหน่งหรือตำแหน่งของวัตถุที่มีข้อมูลโค้ด

การประมวลผลภาพและกล่องขอบเขตสำหรับ OCR PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ที่มา: ดีทูไอ

เราโหลดรูปภาพที่จะใช้สำหรับภาพประกอบนี้ ภาพมีสุนัขอยู่ทางซ้ายและแมวอยู่ทางขวา มีสองวัตถุ - สุนัขและแมวในภาพ

การประมวลผลภาพและกล่องขอบเขตสำหรับ OCR PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ที่มา: ดีทูไอ

การประมวลผลภาพและกล่องขอบเขตสำหรับ OCR PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ที่มา: ดีทูไอ

ลองหา x กับ y เป็นพิกัดสำหรับมุมซ้ายบนและขวาล่างของกรอบขอบ พูด (x1,y1) และ (x2,y2) ในทำนองเดียวกัน ลองพิจารณาพิกัดแกน (x,y) – สำหรับศูนย์กลางของกรอบขอบพร้อมกับความกว้างและความสูง

ต่อไป เรากำหนดสองฟังก์ชันเพื่อแปลงรูปแบบเหล่านี้: box_corner_to_center แปลงการแสดงสองมุมเป็นการแสดงความสูงกึ่งกลางความกว้าง และ box_center_to_corner ทำในทางกลับกัน

กล่องอาร์กิวเมนต์อินพุตต้องเป็นเมตริกซ์สองมิติของรูปร่าง (n,4) โดยที่ n คือจำนวนกล่องที่มีขอบเขต

การประมวลผลภาพและกล่องขอบเขตสำหรับ OCR PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ที่มา: ดีทูไอ

ต่อไป มากำหนดขอบเขตของสุนัขและแมวบนรูปภาพตามข้อมูลพิกัด

การประมวลผลภาพและกล่องขอบเขตสำหรับ OCR PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ที่มา: ดีทูไอ

ในการตรวจสอบความถูกต้องของฟังก์ชันการแปลงกรอบสองกล่อง เราสามารถแปลงสองครั้ง

การประมวลผลภาพและกล่องขอบเขตสำหรับ OCR PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ที่มา: ดีทูไอ

การประมวลผลภาพและกล่องขอบเขตสำหรับ OCR PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ที่มา: ดีทูไอ

ต่อไป เราสามารถวาดกรอบของวัตถุบนรูปภาพเพื่อตรวจสอบว่าถูกต้องหรือไม่ ก่อนหน้านั้น เรากำหนดฟังก์ชัน bbox_t_rect ซึ่งแสดงถึงกล่องขอบเขตในรูปแบบที่เกี่ยวข้องของแพ็คเกจ matplotlib

การประมวลผลภาพและกล่องขอบเขตสำหรับ OCR PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ที่มา: ดีทูไอ

ตอนนี้ หลังจากเพิ่มกรอบของวัตถุสุนัขและแมวลงในรูปภาพแล้ว เราจะเห็นว่าโครงร่างหลักของวัตถุเหล่านี้อยู่ภายในสองกล่อง

การประมวลผลภาพและกล่องขอบเขตสำหรับ OCR PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ที่มา: ดีทูไอ

การประมวลผลภาพและกล่องขอบเขตสำหรับ OCR PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ที่มา: ดีทูไอ


ต้องการทำให้งานที่ทำด้วยตนเองซ้ำๆ เป็นแบบอัตโนมัติหรือไม่ ตรวจสอบซอฟต์แวร์ประมวลผลเอกสารตามเวิร์กโฟลว์ Nanonets ของเรา ดึงข้อมูลจากใบแจ้งหนี้ บัตรประจำตัวประชาชน หรือเอกสารใดๆ บนระบบอัตโนมัติ!


กรณีใช้งานทั่วไปของ Bounding Boxes

การแปลวัตถุของยานพาหนะที่ขับด้วยตนเอง

ฉากกั้นประตูเป็นส่วนสำคัญในการฝึกรถยนต์ไร้คนขับหรือขับเคลื่อนอัตโนมัติเพื่อระบุวัตถุบนท้องถนน เช่น อาคาร สัญญาณไฟจราจร สิ่งกีดขวาง และอื่นๆ สิ่งเหล่านี้ช่วยอธิบายสิ่งกีดขวางและทำให้หุ่นยนต์สามารถขับยานพาหนะได้อย่างปลอดภัยและป้องกันอุบัติเหตุแม้ในกรณีที่มีการจราจรคับคั่ง

จินตภาพหุ่นยนต์

เทคนิคการใส่คำอธิบายประกอบรูปภาพ เช่น bounding box ถูกใช้อย่างกว้างขวางเพื่อทำเครื่องหมายมุมมองของหุ่นยนต์และโดรน ยานพาหนะอิสระเหล่านี้ช่วยจำแนกวัตถุบนโลกโดยใช้ภาพถ่ายที่ได้จากวิธีการใส่คำอธิบายประกอบนี้

การติดแท็กรูปภาพสำหรับอีคอมเมิร์ซและการค้าปลีก

คำอธิบายประกอบแบบ Bounding Box ช่วยปรับปรุงการแสดงภาพผลิตภัณฑ์ ซึ่งเป็นข้อดีอย่างมากในอีคอมเมิร์ซและการค้าปลีก โมเดลที่ได้รับการฝึกฝนเกี่ยวกับสิ่งของที่คล้ายคลึงกันสามารถใส่คำอธิบายประกอบให้กับวัตถุ เช่น เสื้อผ้าแฟชั่น เครื่องประดับ เฟอร์นิเจอร์ เครื่องสำอาง ฯลฯ ได้อย่างแม่นยำยิ่งขึ้นเมื่อติดฉลากอย่างเหมาะสม ด้านล่างนี้คือความท้าทายบางประการที่แก้ไขโดยคำอธิบายประกอบที่มีขอบเขตในการขายปลีก:

  • ผลการค้นหาไม่ถูกต้อง

หากการค้นหาเป็นวิธีเดียวที่ลูกค้าจะสะดุดกับไซต์อีคอมเมิร์ซ ข้อมูลแค็ตตาล็อกที่ไม่ถูกต้องอาจส่งผลให้ผลการค้นหาไม่ถูกต้อง จึงไม่ดึงดูดการเข้าชมของลูกค้ามายังไซต์

  • ห่วงโซ่อุปทานที่ไม่มีการรวบรวมกัน

สำหรับผู้ที่ต้องการขยายธุรกิจค้าปลีกเพื่อให้สามารถจัดส่งผลิตภัณฑ์ได้หลายล้านรายการต่อปี จำเป็นต้องซิงค์ข้อมูลออฟไลน์และออนไลน์

  • การแปลงเป็นดิจิทัลอย่างต่อเนื่อง

จำเป็นอย่างยิ่งที่จะต้องแปลงผลิตภัณฑ์ทั้งหมดให้เป็นดิจิทัลและติดแท็กอย่างเป็นระบบและรวดเร็ว เพื่อให้แน่ใจว่าลูกค้าจะไม่พลาดโอกาสใหม่ๆ นอกจากนี้ แท็กจะต้องอยู่ในบริบท การปฏิบัติตามนั้นจะยากขึ้นเมื่อธุรกิจค้าปลีกขยายตัวและมีการเพิ่มผลิตภัณฑ์มากขึ้น

ตรวจจับรถหายจากการเคลมประกัน

เทคนิคของขอบกล่องช่วยติดตามรถยนต์ จักรยาน หรือยานพาหนะอื่น ๆ ที่ได้รับความเสียหายจากอุบัติเหตุ โมเดลแมชชีนเลิร์นนิงใช้รูปภาพเหล่านี้จากกรอบล้อมรอบเพื่อทำความเข้าใจตำแหน่งและความรุนแรงของการสูญเสีย ซึ่งจะช่วยคาดการณ์ต้นทุนของการสูญเสียที่เกิดขึ้น โดยพิจารณาจากข้อมูลที่ลูกค้าสามารถแสดงประมาณการก่อนดำเนินการฟ้องร้อง

การประมวลผลภาพและกล่องขอบเขตสำหรับ OCR PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ที่มา: คำอธิบายประกอบขั้นสูง

การตรวจจับรายการในร่ม

กล่องกั้นช่วยให้คอมพิวเตอร์ตรวจจับสิ่งของในร่ม เช่น เตียง โซฟา โต๊ะทำงาน ตู้ หรือเครื่องใช้ไฟฟ้า ซึ่งช่วยให้คอมพิวเตอร์เข้าใจถึงพื้นที่และประเภทของวัตถุที่มีอยู่ด้วยขนาดและตำแหน่ง ในทางกลับกัน ช่วยให้โมเดลการเรียนรู้ของเครื่องสามารถระบุรายการเหล่านี้ในสถานการณ์จริงได้

กล่อง Bounding box ถูกใช้อย่างแพร่หลายในภาพถ่ายเป็นเครื่องมือการเรียนรู้เชิงลึกเพื่อทำความเข้าใจและตีความวัตถุประเภทต่างๆ

การระบุโรคและการเจริญเติบโตของพืชในการเกษตร

การตรวจหาโรคพืชตั้งแต่เนิ่นๆ ช่วยให้เกษตรกรป้องกันการสูญเสียอย่างรุนแรง ด้วยการเกิดขึ้นของการทำฟาร์มอัจฉริยะ ความท้าทายอยู่ที่ข้อมูลการฝึกอบรมเพื่อสอนแบบจำลองการเรียนรู้ของเครื่องเพื่อตรวจหาโรคพืช Bounding box เป็นตัวขับเคลื่อนหลักที่ให้วิสัยทัศน์ที่จำเป็นแก่เครื่องจักร

อุตสาหกรรมการผลิต

การตรวจจับวัตถุและการระบุรายการในอุตสาหกรรมเป็นส่วนสำคัญของการผลิต ด้วยหุ่นยนต์และคอมพิวเตอร์ที่เปิดใช้งาน AI บทบาทของการแทรกแซงด้วยตนเองจะลดลง ที่กล่าวว่า bounding box มีบทบาทสำคัญในการช่วยฝึกโมเดลแมชชีนเลิร์นนิงเพื่อระบุตำแหน่งและตรวจจับส่วนประกอบทางอุตสาหกรรม นอกจากนี้ กระบวนการต่างๆ เช่น การควบคุมคุณภาพ การคัดแยก และการปฏิบัติงานในสายการประกอบ ซึ่งทั้งหมดเป็นส่วนหนึ่งของการจัดการคุณภาพ จำเป็นต้องมีการตรวจจับวัตถุ

การถ่ายภาพทางการแพทย์

ขอบเขตกล่องยังพบการใช้งานในอุตสาหกรรมการดูแลสุขภาพ เช่น ในการถ่ายภาพทางการแพทย์ เทคนิคการถ่ายภาพทางการแพทย์เกี่ยวข้องกับการตรวจจับวัตถุทางกายวิภาค เช่น หัวใจ และต้องการการวิเคราะห์ที่รวดเร็วและแม่นยำ สามารถใช้ Bounding box เพื่อฝึกโมเดลการเรียนรู้ของเครื่อง ซึ่งจะทำให้สามารถตรวจจับหัวใจหรืออวัยวะอื่นๆ ได้อย่างรวดเร็วและแม่นยำ

กล้องวงจรปิดอัตโนมัติ

กล้องวงจรปิดอัตโนมัติเป็นข้อบังคับในสถานประกอบการที่อยู่อาศัย พาณิชยกรรมและอื่น ๆ ส่วนใหญ่ บ่อยครั้ง ต้องใช้ที่เก็บข้อมูลหน่วยความจำสูงเพื่อเก็บภาพวิดีโอวงจรปิดที่บันทึกไว้ได้นาน ด้วยเทคนิคการตรวจจับวัตถุ เช่น bounding Boxes ช่วยให้มั่นใจได้ว่าฟุตเทจจะถูกบันทึกเฉพาะเมื่อมีการระบุวัตถุบางอย่างเท่านั้น Bounding box สามารถฝึกโมเดลการเรียนรู้ของเครื่อง ซึ่งจะตรวจจับเฉพาะวัตถุเหล่านั้น และในขณะนั้นก็สามารถจับภาพฟุตเทจได้ นอกจากนี้ยังช่วยลดขอบเขตของการจัดเก็บที่จำเป็นสำหรับกล้องวงจรปิดและลดต้นทุนอีกด้วย

การจดจำใบหน้าและการตรวจจับ

การจดจำใบหน้ามีการใช้งานที่หลากหลาย เช่น ใช้ในการเฝ้าระวังไบโอเมตริกซ์ นอกจากนี้ หน่วยงานต่างๆ เช่น ธนาคาร สนามบิน ร้านค้าปลีก สนามกีฬา และสถาบันอื่นๆ ใช้การจดจำใบหน้าเพื่อป้องกันการก่ออาชญากรรมและความรุนแรง ที่กล่าวว่าการตรวจจับใบหน้าเป็นองค์ประกอบสำคัญของการมองเห็นด้วยคอมพิวเตอร์ที่เกี่ยวข้องกับการประมวลผลภาพ และที่นี่อีกครั้ง ขอบกล่องสามารถใช้เป็นเครื่องมือที่มีประสิทธิภาพสำหรับการจดจำอักขระ


ต้องการใช้กระบวนการอัตโนมัติของหุ่นยนต์หรือไม่? ตรวจสอบซอฟต์แวร์ประมวลผลเอกสารตามเวิร์กโฟลว์ Nanonets ไม่มีรหัส ไม่มีแพลตฟอร์มที่ยุ่งยาก


Bounding Boxes สำหรับการจดจำตัวละคร

การตรวจจับวัตถุประกอบด้วย – การจำแนกรูปภาพและการแปลวัตถุ ซึ่งหมายความว่าคอมพิวเตอร์จะตรวจจับวัตถุได้ จำเป็นต้องรู้ว่าวัตถุที่เป็นปัญหาคืออะไรและอยู่ที่ไหน การจัดประเภทรูปภาพกำหนดป้ายกำกับคลาสให้กับรูปภาพ การแปลวัตถุเกี่ยวข้องกับการวาดกรอบล้อมรอบวัตถุที่เป็นปัญหาในภาพ

กระบวนการนี้เกี่ยวข้องกับผู้ใส่คำอธิบายประกอบที่วาดกรอบล้อมรอบวัตถุและติดป้ายกำกับ วิธีนี้ช่วยฝึกอัลกอริทึมและช่วยให้เข้าใจว่าออบเจ็กต์มีลักษณะอย่างไร เป็นขั้นตอนแรกสำหรับการตรวจจับวัตถุ ชุดข้อมูลรูปภาพต้องมีป้ายกำกับ

หากต้องการติดป้ายกำกับรูปภาพ ให้ทำตามขั้นตอนด้านล่าง:

  • เลือกชุดข้อมูลที่คุณต้องการฝึกและทดสอบ สร้างโฟลเดอร์ของมัน
  • มาดูตัวอย่างโครงการตรวจจับใบหน้า เช่น BTS, Avenger เป็นต้น
  • สร้างข้อมูลชื่อโฟลเดอร์
  • ใน Google Drive ให้สร้างโฟลเดอร์ชื่อ FaceDetection
  • ในโฟลเดอร์ FaceDetection ให้สร้างโฟลเดอร์ของรูปภาพ
  • ในโฟลเดอร์รูปภาพ ให้สร้างโฟลเดอร์ของรูปภาพทดสอบ ทดสอบ XML ฝึกรูปภาพ และฝึก XML
การประมวลผลภาพและกล่องขอบเขตสำหรับ OCR PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ที่มา:อุตสาหกรรม

ตอนนี้ ในโฟลเดอร์รูปภาพรถไฟ ให้ดาวน์โหลดและอัปโหลดรูปภาพ 10-15 รูปของ BTS และ Avengers ในรูปแบบ JPEG ในทำนองเดียวกัน ในโฟลเดอร์ภาพทดสอบ ให้ทำเช่นเดียวกันกับ 5-6 ภาพ ขอแนะนำให้มีรูปภาพเพิ่มเติมในชุดข้อมูลเพื่อผลลัพธ์ที่แม่นยำ

การประมวลผลภาพและกล่องขอบเขตสำหรับ OCR PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ที่มา: อุตสาหกรรม

การประมวลผลภาพและกล่องขอบเขตสำหรับ OCR PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ที่มา: อุตสาหกรรม

ถัดไป สร้างไฟล์ XML สำหรับแต่ละรูปภาพของรูปภาพทดสอบและฝึกโฟลเดอร์รูปภาพ

ดาวน์โหลดและคลิก windows v_1.8.0 คลิกที่ไฟล์ .exe จาก GitHub แล้วกด Run

ถัดไป คลิกไดเร็กทอรีเปิดเพื่อเลือกโฟลเดอร์ของรูปภาพ คุณจะเห็นภาพที่มีป้ายกำกับ หากต้องการติดป้ายกำกับ ให้กด W บนแป้นพิมพ์แล้วคลิกขวาแล้วลากเคอร์เซอร์เพื่อวาดกล่องรอบๆ วัตถุ ตั้งชื่อแล้วคลิกตกลง

การประมวลผลภาพและกล่องขอบเขตสำหรับ OCR PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ที่มา: อุตสาหกรรม

ถัดไป ให้บันทึกรูปภาพเพื่อสร้างไฟล์ XML ของรูปภาพในโฟลเดอร์รูปภาพดังที่แสดงด้านล่าง

การประมวลผลภาพและกล่องขอบเขตสำหรับ OCR PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ที่มา: อุตสาหกรรม

เปิดไฟล์ XML เพื่อดูพิกัด

การประมวลผลภาพและกล่องขอบเขตสำหรับ OCR PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ที่มา: อุตสาหกรรม

ทำซ้ำขั้นตอนสำหรับรูปภาพทั้งหมดเพื่อสร้างไฟล์ XML และค้นหาพิกัด


หากคุณทำงานกับใบแจ้งหนี้และใบเสร็จรับเงินหรือกังวลเกี่ยวกับการตรวจสอบ ID ให้ตรวจสอบ Nanonets OCR ออนไลน์ or โปรแกรมแยกข้อความ PDF เพื่อแยกข้อความจากเอกสาร PDF ฟรี. คลิกด้านล่างเพื่อเรียนรู้เพิ่มเติมเกี่ยวกับ นาโนเน็ตส์ เอ็นเตอร์ไพรส์ ออโตเมชั่น โซลูชั่น.


รูปแบบคำอธิบายประกอบต่างๆ ที่ใช้ในกล่องที่มีขอบเขต

โดยพื้นฐานแล้ว bounding box มี 4 จุดในแกน (x,y) ที่แสดงมุม:

ซ้ายบน : (x_min, y_min)

บนขวา: (x_max, y_min)

ล่างซ้าย:(x_min, y_max)

ล่างขวา: (x_max, y_max)

พิกัดของกรอบกรอบจะคำนวณจากมุมซ้ายบนของภาพ

มีรูปแบบคำอธิบายประกอบของกล่องที่มีขอบเขตหลายรูปแบบ โดยแต่ละรูปแบบจะใช้การแสดงพิกัดของกล่องที่มีขอบเขตของตัวเอง

ก. อัลบั้ม

พวกเขาใช้ค่าสี่ค่าเพื่อแสดงกรอบขอบเขต – [x_min, y_min, x_max, y_max] – ซึ่งถูกทำให้เป็นมาตรฐานโดยการหารพิกัดเป็นพิกเซลสำหรับแกน x ด้วยความกว้างและแกน y ด้วยความสูงของภาพ

สมมติว่าพิกัดของกรอบคือ: x1 = 678, y1 = 24; x2 = 543, y2= 213.

ให้ความกว้าง = 870 ความสูง = 789

จากนั้น [678/870, 24/789, 543/870, 213/789] = [ 0.779310, 0.030418 ,0.624137, 0.269961]

Albumentations ใช้และตีความค่าเหล่านี้ภายในด้วยกรอบล้อมรอบและปรับปรุงค่าเหล่านี้

ข. COCO

นี่คือรูปแบบที่ใช้โดย Common Objects ในชุดข้อมูล COCO ของบริบท ในรูปแบบ COCO กล่องขอบเขตจะแสดงด้วยค่าสี่ค่า: (x_min, y_min, width, height) โดยพื้นฐานแล้วจะอ้างอิงถึงมุมบนซ้ายและความกว้างและความสูงของกล่องขอบ

ค. โยโล

ในรูปแบบนี้ กรอบขอบเขตจะแสดงด้วยค่าสี่ค่า :(x_center, y_center, width, height) ในที่นี้ x_center และ y_center หมายถึงพิกัด x และ y ที่ปรับให้เป็นมาตรฐานของจุดศูนย์กลางของกล่องขอบเขต ในการทำให้เป็นมาตรฐาน พิกัด x ของจุดศูนย์กลางโดยความกว้างของภาพและพิกัด y ของจุดศูนย์กลางด้วยความสูงของภาพ ค่าความกว้างและความสูงยังถูกทำให้เป็นมาตรฐานอีกด้วย

ง. ปาสคาล

ในรูปแบบ Pascal กรอบขอบเขตจะแสดงด้วยพิกัดบนซ้ายและล่างขวา ดังนั้น ค่าที่เข้ารหัสเป็นพิกเซลคือ: [x_min, y_min, x_max, y_max] ในที่นี้ [x_min, y_min] คือมุมบนซ้าย ขณะที่ [x_max, y_max] หมายถึงมุมล่างขวาของกรอบขอบ


ต้องการทำให้งานที่ทำด้วยตนเองซ้ำๆ เป็นแบบอัตโนมัติหรือไม่ ประหยัดเวลา ความพยายาม และเงิน พร้อมเพิ่มประสิทธิภาพ!


ข้อควรระวังและแนวทางปฏิบัติในการใช้ Bounding Boxes

ขอแนะนำให้ใช้ข้อควรระวังและแนวทางปฏิบัติที่ดีที่สุดบางประการเพื่อการใช้งานขอบกล่องในการประมวลผลภาพอย่างเหมาะสมที่สุด พวกเขารวมถึง:

รูปแบบขนาดกล่อง

การใช้กรอบที่มีขนาดเท่ากันทั้งหมดจะไม่แสดงผลลัพธ์ที่ถูกต้อง การฝึกโมเดลของคุณบนกล่องที่มีขนาดเท่ากันจะทำให้โมเดลทำงานได้แย่ลง ตัวอย่างเช่น หากวัตถุเดียวกันมีขนาดเล็กลง แบบจำลองอาจตรวจไม่พบ ในกรณีที่วัตถุมีขนาดใหญ่กว่าที่คาดไว้ อาจใช้จำนวนพิกเซลมากกว่าและไม่ได้ระบุตำแหน่งและตำแหน่งของวัตถุที่แม่นยำ ประเด็นสำคัญคือต้องคำนึงถึงความผันแปรของขนาดและปริมาตรของวัตถุเพื่อให้ได้ผลลัพธ์ที่ต้องการ

ความแน่นของพิกเซลที่สมบูรณ์แบบ

ความรัดกุมเป็นปัจจัยสำคัญ ซึ่งหมายความว่าขอบของกรอบขอบต้องอยู่ใกล้กับวัตถุที่ต้องการมากที่สุดเพื่อให้ได้ผลลัพธ์ที่แม่นยำ ช่องว่างที่สม่ำเสมออาจส่งผลต่อความแม่นยำในการกำหนดพื้นที่ทับซ้อนระหว่างการคาดคะเนของแบบจำลองกับวัตถุจริง ทำให้เกิดปัญหาขึ้น

รายการแนวทแยงที่วางในกล่องล้อมรอบ

ปัญหาที่พบกับสิ่งของที่วางขวางภายในกล่องที่มีขอบคือ สินค้าเหล่านี้ใช้พื้นที่ภายในกล่องน้อยกว่ามากเมื่อเทียบกับพื้นหลัง อย่างไรก็ตาม หากเปิดรับแสงนานขึ้น โมเดลอาจสันนิษฐานว่าเป้าหมายคือพื้นหลังเนื่องจากใช้พื้นที่มากกว่า ดังนั้น ตามแนวทางปฏิบัติที่ดีที่สุด ขอแนะนำให้ใช้รูปหลายเหลี่ยมและการแบ่งส่วนอินสแตนซ์สำหรับวัตถุในแนวทแยง อย่างไรก็ตาม เป็นไปได้ที่จะสอนแบบจำลองด้วยกรอบที่มีข้อมูลการฝึกอบรมจำนวนมาก

ลดการทับซ้อนกันของกล่อง

การหลีกเลี่ยงคำอธิบายประกอบทับซ้อนในทุกสถานการณ์จะปลอดภัยเสมอ บางครั้งสิ่งนี้อาจทำให้เกิดความยุ่งเหยิงมากจนอาจมองเห็นกล่องที่ทับซ้อนกันได้ในที่สุด ออบเจ็กต์ที่มีการติดป้ายกำกับทับซ้อนกับเอนทิตีอื่นๆ ให้ผลลัพธ์ที่ค่อนข้างแย่ โมเดลจะไม่สามารถแยกความแตกต่างระหว่างวัตถุเป้าหมายกับรายการอื่นๆ เนื่องจากการทับซ้อนกันมากเกินไป ในกรณีดังกล่าว อาจใช้รูปหลายเหลี่ยมเพื่อความแม่นยำที่สูงขึ้น

สรุป

การประมวลผลภาพเป็นขอบเขตของเทคโนโลยีที่เกิดขึ้นใหม่ซึ่งมีขอบเขตกว้าง ที่กล่าวว่า bounding box เป็นเทคนิคการประมวลผลภาพที่ใช้บ่อยที่สุด

โดยสรุป bounding box เป็นวิธีการใส่คำอธิบายประกอบรูปภาพเพื่อฝึกโมเดลการเรียนรู้ของเครื่องที่ใช้ AI ใช้สำหรับการตรวจจับวัตถุและการจดจำเป้าหมายในการใช้งานที่หลากหลาย รวมถึงหุ่นยนต์ โดรน ยานพาหนะอัตโนมัติ กล้องวงจรปิด และอุปกรณ์วิชันซิสเต็มอื่นๆ

ทรัพยากรที่แนะนำ:

https://www.kdnuggets.com/2022/07/bounding-box-deep-learning-future-video-annotation.html#:~:text=A%20bounding%20box%20is%20a,location%2C%20size%2C%20and%20orientation.

https://www.v7labs.com/blog/bounding-box-annotation

https://towardsdatascience.com/image-data-labelling-and-annotation-everything-you-need-to-know-86ede6c684b1


นาโนเน็ต OCR & OCR API ออนไลน์ มีความน่าสนใจมากมาย กรณีใช้ tหมวกสามารถเพิ่มประสิทธิภาพธุรกิจของคุณ ประหยัดต้นทุน และเพิ่มการเติบโต ค้นพบ กรณีการใช้งานของ Nanonets สามารถนำไปใช้กับผลิตภัณฑ์ของคุณได้อย่างไร


ประทับเวลา:

เพิ่มเติมจาก AI และการเรียนรู้ของเครื่อง

การปฏิบัติตามข้อกำหนด RPA: ทุกสิ่งที่คุณต้องการทราบเกี่ยวกับการทำงานอัตโนมัติของกระบวนการหุ่นยนต์ในการปฏิบัติตามข้อกำหนด

โหนดต้นทาง: 1485143
ประทับเวลา: มิถุนายน 20, 2022