เทคโนโลยีมีการพัฒนาอย่างต่อเนื่อง และเราเองก็เช่นกัน ด้วยการเกิดขึ้นของปัญญาประดิษฐ์และการเรียนรู้ของเครื่อง โฟกัสได้เปลี่ยนไปสู่ระบบอัตโนมัติ ดังที่กล่าวไปแล้ว สาขาวิชาวิทยาการคอมพิวเตอร์ต่างๆ ได้รับการแนะนำเพื่อศึกษาและสำรวจการใช้งานของแนวโน้มที่เกิดขึ้นใหม่เหล่านี้
ตัวอย่างหนึ่งคือ การประมวลผลภาพ. ในภาษาที่เรียบง่าย หมายถึงการสำรวจรูปภาพเพื่อดึงข้อมูลที่มีความหมาย แม้ว่าจะมีเทคนิคหลายอย่างเพื่อให้บรรลุเป้าหมายนี้ แต่ที่ใช้บ่อยที่สุดคือ - ขอบกล่อง.
บล็อกนี้เจาะลึกในแง่มุมต่างๆ ของกรอบล้อมรอบ ซึ่งรวมถึงสิ่งที่เป็น วิธีทำงานในการประมวลผลภาพ พารามิเตอร์ที่กำหนด ข้อตกลงที่ระบุ กรณีการใช้งานทั่วไป ข้อควรระวังและแนวทางปฏิบัติที่ดีที่สุด และอื่นๆ
ลองมาดูกันเถอะ
การประมวลผลภาพหมายถึงการดำเนินการบางอย่างกับรูปภาพเพื่อปรับปรุงหรือดึงข้อมูลเชิงลึกอันมีค่าจากคุณลักษณะหรือแอตทริบิวต์ที่เกี่ยวข้อง ปัจจุบัน การประมวลผลภาพเป็นงานวิจัยหลักด้านวิศวกรรมและเทคโนโลยีคอมพิวเตอร์
การประมวลผลภาพสามารถทำได้สองวิธี - การประมวลผลภาพแอนะล็อกและการประมวลผลภาพดิจิทัล
การประมวลผลภาพแอนะล็อกเกี่ยวข้องกับการใช้สำเนาของงานพิมพ์และภาพถ่ายเพื่อวิเคราะห์และจัดการภาพ นักวิเคราะห์รูปภาพใช้วิธีการต่างๆ ในการตีความสำเนารูปภาพเหล่านี้และดึงผลลัพธ์ที่มีความหมาย
การประมวลผลภาพดิจิทัลใช้ภาพดิจิทัลและตีความโดยใช้คอมพิวเตอร์ เป็นหมวดหมู่ย่อยของการประมวลผลสัญญาณดิจิทัลและใช้อัลกอริธึมในการประมวลผลภาพดิจิทัล โดยให้ข้อดีเหนือการประมวลผลภาพอะนาล็อก เช่น อัลกอริธึมเพื่อป้องกันสัญญาณรบกวนและการบิดเบือนในการประมวลผล
การประมวลผลภาพดิจิทัลมีการใช้งานที่หลากหลายในด้านการแพทย์ การผลิต อีคอมเมิร์ซ และอื่นๆ
ขอบเขตของกล่องในการประมวลผลภาพ
ในตอนแรก bounding box เป็นกล่องสี่เหลี่ยมจินตภาพที่มีวัตถุและชุดของจุดข้อมูล ในบริบทของการประมวลผลภาพดิจิทัล กรอบขอบเขตหมายถึงพิกัดของเส้นขอบบนแกน X และ Y ที่ล้อมรอบรูปภาพ ใช้เพื่อระบุเป้าหมายและใช้เป็นข้อมูลอ้างอิงสำหรับการตรวจจับวัตถุและสร้างกล่องการชนกันของวัตถุ
Bounding Boxes คืออะไร?
กล่องที่มีขอบเขตเป็นองค์ประกอบหลักและเป็นหนึ่งในเครื่องมือประมวลผลภาพหลักสำหรับโครงการคำอธิบายประกอบวิดีโอ โดยพื้นฐานแล้ว bounding box คือสี่เหลี่ยมจินตภาพที่กำหนดโครงร่างวัตถุในภาพซึ่งเป็นส่วนหนึ่งของข้อกำหนดของโปรเจ็กต์การเรียนรู้ของเครื่อง กรอบสี่เหลี่ยมจินตภาพล้อมรอบวัตถุในภาพ
กล่องขอบเขตระบุตำแหน่งของวัตถุ ระดับของวัตถุ และความมั่นใจ ซึ่งบอกระดับของความน่าจะเป็นที่วัตถุมีอยู่จริงในกล่องขอบเขต
คอมพิวเตอร์วิชั่นนำเสนอแอพพลิเคชั่นที่น่าทึ่ง ตั้งแต่รถยนต์ที่ขับด้วยตนเองไปจนถึงการจดจำใบหน้าและอีกมากมาย และสิ่งนี้ก็เกิดขึ้นได้ด้วยการประมวลผลภาพ
การประมวลผลภาพทำได้ง่ายเพียงแค่วาดรูปสี่เหลี่ยมผืนผ้าหรือลวดลายรอบๆ วัตถุหรือไม่? ไม่ ที่ถูกกล่าวว่า bounding Boxes ทำอะไร?
มาทำความเข้าใจกันเถอะ
Bounding Boxes ทำงานอย่างไรในการประมวลผลภาพ?
ดังที่ได้กล่าวมาแล้ว bounding box เป็นสี่เหลี่ยมจินตภาพซึ่งทำหน้าที่เป็นจุดอ้างอิงสำหรับการตรวจจับวัตถุและพัฒนากล่องการชนกันของวัตถุ
แล้วมันช่วยผู้ใส่คำอธิบายประกอบข้อมูลได้อย่างไร? ผู้เชี่ยวชาญมักใช้แนวคิดเรื่องกรอบล้อมรอบเพื่อวาดสี่เหลี่ยมในจินตนาการเหนือรูปภาพ พวกเขาสร้างโครงร่างของวัตถุที่เป็นปัญหาภายในแต่ละภาพและกำหนดพิกัด X และ Y สิ่งนี้ทำให้งานของอัลกอริธึมแมชชีนเลิร์นนิงง่ายขึ้น ช่วยให้พวกเขาค้นหาเส้นทางการชนกัน ดังนั้นจึงช่วยประหยัดทรัพยากรการคำนวณ
ตัวอย่างเช่น ในภาพด้านล่าง ยานพาหนะแต่ละคันเป็นวัตถุหลักที่มีตำแหน่งและตำแหน่งที่จำเป็นสำหรับการฝึกโมเดลการเรียนรู้ของเครื่อง ผู้อธิบายข้อมูลใช้เทคนิค bounding Boxes เพื่อวาดสี่เหลี่ยมรอบ ๆ แต่ละอ็อบเจ็กต์ - ยานพาหนะ ในกรณีนี้
ที่มา: คีย์แมคโคร
จากนั้นจึงใช้พิกัดเพื่อทำความเข้าใจตำแหน่งและตำแหน่งของวัตถุแต่ละชิ้น ซึ่งจะเป็นประโยชน์ในการฝึกโมเดลการเรียนรู้ของเครื่อง กล่องขอบเขตเดียวไม่ได้ให้อัตราการทำนายที่ดี สำหรับการตรวจจับวัตถุขั้นสูง ต้องใช้กล่องขอบเขตหลายกล่องร่วมกับวิธีการเสริมข้อมูล
Bounding box เป็นเทคนิคการใส่คำอธิบายประกอบรูปภาพที่มีประสิทธิภาพสูงและมีประสิทธิภาพ ซึ่งช่วยลดต้นทุนได้มาก
พารามิเตอร์ที่กำหนดกล่องที่มีขอบเขต
พารามิเตอร์เป็นไปตามข้อตกลงที่ใช้ในการระบุขอบเขตกล่อง พารามิเตอร์หลักที่ใช้ ได้แก่ :
- คลาส: หมายถึงวัตถุที่อยู่ในกรอบล้อมรอบ เช่น รถยนต์ บ้าน อาคาร ฯลฯ
- (X1, Y1): หมายถึงพิกัด X และ Y ของมุมบนซ้ายของสี่เหลี่ยม
- (X2, Y2): หมายถึงพิกัด X และ Y ที่มุมล่างขวาของรูปสี่เหลี่ยมผืนผ้า
- (Xc, Yc): นี่หมายถึงพิกัด X และ Y ของศูนย์กลางของกรอบล้อมรอบ
- ความกว้าง: นี่แสดงถึงความกว้างของกรอบล้อมรอบ
- ความสูง: นี่แสดงถึงความสูงของกล่องล้อมรอบ
- ความมั่นใจ: สิ่งนี้แสดงถึงความเป็นไปได้ของวัตถุที่อยู่ในกล่อง สมมติว่าความเชื่อมั่นคือ 0.9 ซึ่งหมายความว่ามีความเป็นไปได้ 90% ที่วัตถุจะอยู่ในกล่อง
อนุสัญญาระบุกล่องที่มีขอบเขต
เมื่อระบุขอบเขตกล่อง โดยปกติแล้ว จะต้องรวมข้อตกลงหลักสองประการ เหล่านี้คือ:
- พิกัด X และ Y ของจุดบนซ้ายและล่างขวาของสี่เหลี่ยม
- พิกัด X และ Y ของจุดศูนย์กลางของกรอบขอบพร้อมกับความกว้างและความสูง
มาอธิบายเรื่องนี้ด้วยตัวอย่างรถยนต์
ก. ในส่วนที่เกี่ยวกับการประชุมครั้งแรก กล่องขอบเขตจะถูกระบุตามพิกัดของจุดซ้ายบนและจุดขวาล่าง
ที่มา: วิเคราะห์วิทยา
ข. ในส่วนที่เกี่ยวกับแบบแผนที่สอง กรอบขอบเขตจะอธิบายตามพิกัดศูนย์กลาง ความกว้าง และความสูง
ที่มา: วิเคราะห์วิทยา
อนุสัญญาเกี่ยวข้องกันอย่างไร?
ขึ้นอยู่กับกรณีการใช้งาน เป็นไปได้ที่จะแปลงระหว่างประเภทการประชุมที่แตกต่างกัน
- Xc = (X1 + X2)/2
- Yc = (Y1 + Y2)/2
- ความกว้าง = (X2 – X1)
- ความสูง = (Y2 – Y1)
Bounding Boxes อธิบายด้วยรหัสการเขียนโปรแกรม
มาดูตัวอย่างอื่นเกี่ยวกับตำแหน่งหรือตำแหน่งของวัตถุที่มีข้อมูลโค้ด
ที่มา: ดีทูไอ
เราโหลดรูปภาพที่จะใช้สำหรับภาพประกอบนี้ ภาพมีสุนัขอยู่ทางซ้ายและแมวอยู่ทางขวา มีสองวัตถุ - สุนัขและแมวในภาพ
ที่มา: ดีทูไอ
ที่มา: ดีทูไอ
ลองหา x กับ y เป็นพิกัดสำหรับมุมซ้ายบนและขวาล่างของกรอบขอบ พูด (x1,y1) และ (x2,y2) ในทำนองเดียวกัน ลองพิจารณาพิกัดแกน (x,y) – สำหรับศูนย์กลางของกรอบขอบพร้อมกับความกว้างและความสูง
ต่อไป เรากำหนดสองฟังก์ชันเพื่อแปลงรูปแบบเหล่านี้: box_corner_to_center แปลงการแสดงสองมุมเป็นการแสดงความสูงกึ่งกลางความกว้าง และ box_center_to_corner ทำในทางกลับกัน
กล่องอาร์กิวเมนต์อินพุตต้องเป็นเมตริกซ์สองมิติของรูปร่าง (n,4) โดยที่ n คือจำนวนกล่องที่มีขอบเขต
ที่มา: ดีทูไอ
ต่อไป มากำหนดขอบเขตของสุนัขและแมวบนรูปภาพตามข้อมูลพิกัด
ที่มา: ดีทูไอ
ในการตรวจสอบความถูกต้องของฟังก์ชันการแปลงกรอบสองกล่อง เราสามารถแปลงสองครั้ง
ที่มา: ดีทูไอ
ที่มา: ดีทูไอ
ต่อไป เราสามารถวาดกรอบของวัตถุบนรูปภาพเพื่อตรวจสอบว่าถูกต้องหรือไม่ ก่อนหน้านั้น เรากำหนดฟังก์ชัน bbox_t_rect ซึ่งแสดงถึงกล่องขอบเขตในรูปแบบที่เกี่ยวข้องของแพ็คเกจ matplotlib
ที่มา: ดีทูไอ
ตอนนี้ หลังจากเพิ่มกรอบของวัตถุสุนัขและแมวลงในรูปภาพแล้ว เราจะเห็นว่าโครงร่างหลักของวัตถุเหล่านี้อยู่ภายในสองกล่อง
ที่มา: ดีทูไอ
ที่มา: ดีทูไอ
ต้องการทำให้งานที่ทำด้วยตนเองซ้ำๆ เป็นแบบอัตโนมัติหรือไม่ ตรวจสอบซอฟต์แวร์ประมวลผลเอกสารตามเวิร์กโฟลว์ Nanonets ของเรา ดึงข้อมูลจากใบแจ้งหนี้ บัตรประจำตัวประชาชน หรือเอกสารใดๆ บนระบบอัตโนมัติ!
กรณีใช้งานทั่วไปของ Bounding Boxes
การแปลวัตถุของยานพาหนะที่ขับด้วยตนเอง
ฉากกั้นประตูเป็นส่วนสำคัญในการฝึกรถยนต์ไร้คนขับหรือขับเคลื่อนอัตโนมัติเพื่อระบุวัตถุบนท้องถนน เช่น อาคาร สัญญาณไฟจราจร สิ่งกีดขวาง และอื่นๆ สิ่งเหล่านี้ช่วยอธิบายสิ่งกีดขวางและทำให้หุ่นยนต์สามารถขับยานพาหนะได้อย่างปลอดภัยและป้องกันอุบัติเหตุแม้ในกรณีที่มีการจราจรคับคั่ง
จินตภาพหุ่นยนต์
เทคนิคการใส่คำอธิบายประกอบรูปภาพ เช่น bounding box ถูกใช้อย่างกว้างขวางเพื่อทำเครื่องหมายมุมมองของหุ่นยนต์และโดรน ยานพาหนะอิสระเหล่านี้ช่วยจำแนกวัตถุบนโลกโดยใช้ภาพถ่ายที่ได้จากวิธีการใส่คำอธิบายประกอบนี้
การติดแท็กรูปภาพสำหรับอีคอมเมิร์ซและการค้าปลีก
คำอธิบายประกอบแบบ Bounding Box ช่วยปรับปรุงการแสดงภาพผลิตภัณฑ์ ซึ่งเป็นข้อดีอย่างมากในอีคอมเมิร์ซและการค้าปลีก โมเดลที่ได้รับการฝึกฝนเกี่ยวกับสิ่งของที่คล้ายคลึงกันสามารถใส่คำอธิบายประกอบให้กับวัตถุ เช่น เสื้อผ้าแฟชั่น เครื่องประดับ เฟอร์นิเจอร์ เครื่องสำอาง ฯลฯ ได้อย่างแม่นยำยิ่งขึ้นเมื่อติดฉลากอย่างเหมาะสม ด้านล่างนี้คือความท้าทายบางประการที่แก้ไขโดยคำอธิบายประกอบที่มีขอบเขตในการขายปลีก:
- ผลการค้นหาไม่ถูกต้อง
หากการค้นหาเป็นวิธีเดียวที่ลูกค้าจะสะดุดกับไซต์อีคอมเมิร์ซ ข้อมูลแค็ตตาล็อกที่ไม่ถูกต้องอาจส่งผลให้ผลการค้นหาไม่ถูกต้อง จึงไม่ดึงดูดการเข้าชมของลูกค้ามายังไซต์
- ห่วงโซ่อุปทานที่ไม่มีการรวบรวมกัน
สำหรับผู้ที่ต้องการขยายธุรกิจค้าปลีกเพื่อให้สามารถจัดส่งผลิตภัณฑ์ได้หลายล้านรายการต่อปี จำเป็นต้องซิงค์ข้อมูลออฟไลน์และออนไลน์
- การแปลงเป็นดิจิทัลอย่างต่อเนื่อง
จำเป็นอย่างยิ่งที่จะต้องแปลงผลิตภัณฑ์ทั้งหมดให้เป็นดิจิทัลและติดแท็กอย่างเป็นระบบและรวดเร็ว เพื่อให้แน่ใจว่าลูกค้าจะไม่พลาดโอกาสใหม่ๆ นอกจากนี้ แท็กจะต้องอยู่ในบริบท การปฏิบัติตามนั้นจะยากขึ้นเมื่อธุรกิจค้าปลีกขยายตัวและมีการเพิ่มผลิตภัณฑ์มากขึ้น
ตรวจจับรถหายจากการเคลมประกัน
เทคนิคของขอบกล่องช่วยติดตามรถยนต์ จักรยาน หรือยานพาหนะอื่น ๆ ที่ได้รับความเสียหายจากอุบัติเหตุ โมเดลแมชชีนเลิร์นนิงใช้รูปภาพเหล่านี้จากกรอบล้อมรอบเพื่อทำความเข้าใจตำแหน่งและความรุนแรงของการสูญเสีย ซึ่งจะช่วยคาดการณ์ต้นทุนของการสูญเสียที่เกิดขึ้น โดยพิจารณาจากข้อมูลที่ลูกค้าสามารถแสดงประมาณการก่อนดำเนินการฟ้องร้อง
ที่มา: คำอธิบายประกอบขั้นสูง
การตรวจจับรายการในร่ม
กล่องกั้นช่วยให้คอมพิวเตอร์ตรวจจับสิ่งของในร่ม เช่น เตียง โซฟา โต๊ะทำงาน ตู้ หรือเครื่องใช้ไฟฟ้า ซึ่งช่วยให้คอมพิวเตอร์เข้าใจถึงพื้นที่และประเภทของวัตถุที่มีอยู่ด้วยขนาดและตำแหน่ง ในทางกลับกัน ช่วยให้โมเดลการเรียนรู้ของเครื่องสามารถระบุรายการเหล่านี้ในสถานการณ์จริงได้
กล่อง Bounding box ถูกใช้อย่างแพร่หลายในภาพถ่ายเป็นเครื่องมือการเรียนรู้เชิงลึกเพื่อทำความเข้าใจและตีความวัตถุประเภทต่างๆ
การระบุโรคและการเจริญเติบโตของพืชในการเกษตร
การตรวจหาโรคพืชตั้งแต่เนิ่นๆ ช่วยให้เกษตรกรป้องกันการสูญเสียอย่างรุนแรง ด้วยการเกิดขึ้นของการทำฟาร์มอัจฉริยะ ความท้าทายอยู่ที่ข้อมูลการฝึกอบรมเพื่อสอนแบบจำลองการเรียนรู้ของเครื่องเพื่อตรวจหาโรคพืช Bounding box เป็นตัวขับเคลื่อนหลักที่ให้วิสัยทัศน์ที่จำเป็นแก่เครื่องจักร
อุตสาหกรรมการผลิต
การตรวจจับวัตถุและการระบุรายการในอุตสาหกรรมเป็นส่วนสำคัญของการผลิต ด้วยหุ่นยนต์และคอมพิวเตอร์ที่เปิดใช้งาน AI บทบาทของการแทรกแซงด้วยตนเองจะลดลง ที่กล่าวว่า bounding box มีบทบาทสำคัญในการช่วยฝึกโมเดลแมชชีนเลิร์นนิงเพื่อระบุตำแหน่งและตรวจจับส่วนประกอบทางอุตสาหกรรม นอกจากนี้ กระบวนการต่างๆ เช่น การควบคุมคุณภาพ การคัดแยก และการปฏิบัติงานในสายการประกอบ ซึ่งทั้งหมดเป็นส่วนหนึ่งของการจัดการคุณภาพ จำเป็นต้องมีการตรวจจับวัตถุ
การถ่ายภาพทางการแพทย์
ขอบเขตกล่องยังพบการใช้งานในอุตสาหกรรมการดูแลสุขภาพ เช่น ในการถ่ายภาพทางการแพทย์ เทคนิคการถ่ายภาพทางการแพทย์เกี่ยวข้องกับการตรวจจับวัตถุทางกายวิภาค เช่น หัวใจ และต้องการการวิเคราะห์ที่รวดเร็วและแม่นยำ สามารถใช้ Bounding box เพื่อฝึกโมเดลการเรียนรู้ของเครื่อง ซึ่งจะทำให้สามารถตรวจจับหัวใจหรืออวัยวะอื่นๆ ได้อย่างรวดเร็วและแม่นยำ
กล้องวงจรปิดอัตโนมัติ
กล้องวงจรปิดอัตโนมัติเป็นข้อบังคับในสถานประกอบการที่อยู่อาศัย พาณิชยกรรมและอื่น ๆ ส่วนใหญ่ บ่อยครั้ง ต้องใช้ที่เก็บข้อมูลหน่วยความจำสูงเพื่อเก็บภาพวิดีโอวงจรปิดที่บันทึกไว้ได้นาน ด้วยเทคนิคการตรวจจับวัตถุ เช่น bounding Boxes ช่วยให้มั่นใจได้ว่าฟุตเทจจะถูกบันทึกเฉพาะเมื่อมีการระบุวัตถุบางอย่างเท่านั้น Bounding box สามารถฝึกโมเดลการเรียนรู้ของเครื่อง ซึ่งจะตรวจจับเฉพาะวัตถุเหล่านั้น และในขณะนั้นก็สามารถจับภาพฟุตเทจได้ นอกจากนี้ยังช่วยลดขอบเขตของการจัดเก็บที่จำเป็นสำหรับกล้องวงจรปิดและลดต้นทุนอีกด้วย
การจดจำใบหน้าและการตรวจจับ
การจดจำใบหน้ามีการใช้งานที่หลากหลาย เช่น ใช้ในการเฝ้าระวังไบโอเมตริกซ์ นอกจากนี้ หน่วยงานต่างๆ เช่น ธนาคาร สนามบิน ร้านค้าปลีก สนามกีฬา และสถาบันอื่นๆ ใช้การจดจำใบหน้าเพื่อป้องกันการก่ออาชญากรรมและความรุนแรง ที่กล่าวว่าการตรวจจับใบหน้าเป็นองค์ประกอบสำคัญของการมองเห็นด้วยคอมพิวเตอร์ที่เกี่ยวข้องกับการประมวลผลภาพ และที่นี่อีกครั้ง ขอบกล่องสามารถใช้เป็นเครื่องมือที่มีประสิทธิภาพสำหรับการจดจำอักขระ
ต้องการใช้กระบวนการอัตโนมัติของหุ่นยนต์หรือไม่? ตรวจสอบซอฟต์แวร์ประมวลผลเอกสารตามเวิร์กโฟลว์ Nanonets ไม่มีรหัส ไม่มีแพลตฟอร์มที่ยุ่งยาก
Bounding Boxes สำหรับการจดจำตัวละคร
การตรวจจับวัตถุประกอบด้วย – การจำแนกรูปภาพและการแปลวัตถุ ซึ่งหมายความว่าคอมพิวเตอร์จะตรวจจับวัตถุได้ จำเป็นต้องรู้ว่าวัตถุที่เป็นปัญหาคืออะไรและอยู่ที่ไหน การจัดประเภทรูปภาพกำหนดป้ายกำกับคลาสให้กับรูปภาพ การแปลวัตถุเกี่ยวข้องกับการวาดกรอบล้อมรอบวัตถุที่เป็นปัญหาในภาพ
กระบวนการนี้เกี่ยวข้องกับผู้ใส่คำอธิบายประกอบที่วาดกรอบล้อมรอบวัตถุและติดป้ายกำกับ วิธีนี้ช่วยฝึกอัลกอริทึมและช่วยให้เข้าใจว่าออบเจ็กต์มีลักษณะอย่างไร เป็นขั้นตอนแรกสำหรับการตรวจจับวัตถุ ชุดข้อมูลรูปภาพต้องมีป้ายกำกับ
หากต้องการติดป้ายกำกับรูปภาพ ให้ทำตามขั้นตอนด้านล่าง:
- เลือกชุดข้อมูลที่คุณต้องการฝึกและทดสอบ สร้างโฟลเดอร์ของมัน
- มาดูตัวอย่างโครงการตรวจจับใบหน้า เช่น BTS, Avenger เป็นต้น
- สร้างข้อมูลชื่อโฟลเดอร์
- ใน Google Drive ให้สร้างโฟลเดอร์ชื่อ FaceDetection
- ในโฟลเดอร์ FaceDetection ให้สร้างโฟลเดอร์ของรูปภาพ
- ในโฟลเดอร์รูปภาพ ให้สร้างโฟลเดอร์ของรูปภาพทดสอบ ทดสอบ XML ฝึกรูปภาพ และฝึก XML
ที่มา:อุตสาหกรรม
ตอนนี้ ในโฟลเดอร์รูปภาพรถไฟ ให้ดาวน์โหลดและอัปโหลดรูปภาพ 10-15 รูปของ BTS และ Avengers ในรูปแบบ JPEG ในทำนองเดียวกัน ในโฟลเดอร์ภาพทดสอบ ให้ทำเช่นเดียวกันกับ 5-6 ภาพ ขอแนะนำให้มีรูปภาพเพิ่มเติมในชุดข้อมูลเพื่อผลลัพธ์ที่แม่นยำ
ที่มา: อุตสาหกรรม
ที่มา: อุตสาหกรรม
ถัดไป สร้างไฟล์ XML สำหรับแต่ละรูปภาพของรูปภาพทดสอบและฝึกโฟลเดอร์รูปภาพ
ดาวน์โหลดและคลิก windows v_1.8.0 คลิกที่ไฟล์ .exe จาก GitHub แล้วกด Run
ถัดไป คลิกไดเร็กทอรีเปิดเพื่อเลือกโฟลเดอร์ของรูปภาพ คุณจะเห็นภาพที่มีป้ายกำกับ หากต้องการติดป้ายกำกับ ให้กด W บนแป้นพิมพ์แล้วคลิกขวาแล้วลากเคอร์เซอร์เพื่อวาดกล่องรอบๆ วัตถุ ตั้งชื่อแล้วคลิกตกลง
ที่มา: อุตสาหกรรม
ถัดไป ให้บันทึกรูปภาพเพื่อสร้างไฟล์ XML ของรูปภาพในโฟลเดอร์รูปภาพดังที่แสดงด้านล่าง
ที่มา: อุตสาหกรรม
เปิดไฟล์ XML เพื่อดูพิกัด
ที่มา: อุตสาหกรรม
ทำซ้ำขั้นตอนสำหรับรูปภาพทั้งหมดเพื่อสร้างไฟล์ XML และค้นหาพิกัด
หากคุณทำงานกับใบแจ้งหนี้และใบเสร็จรับเงินหรือกังวลเกี่ยวกับการตรวจสอบ ID ให้ตรวจสอบ Nanonets OCR ออนไลน์ or โปรแกรมแยกข้อความ PDF เพื่อแยกข้อความจากเอกสาร PDF ฟรี. คลิกด้านล่างเพื่อเรียนรู้เพิ่มเติมเกี่ยวกับ นาโนเน็ตส์ เอ็นเตอร์ไพรส์ ออโตเมชั่น โซลูชั่น.
รูปแบบคำอธิบายประกอบต่างๆ ที่ใช้ในกล่องที่มีขอบเขต
โดยพื้นฐานแล้ว bounding box มี 4 จุดในแกน (x,y) ที่แสดงมุม:
ซ้ายบน : (x_min, y_min)
บนขวา: (x_max, y_min)
ล่างซ้าย:(x_min, y_max)
ล่างขวา: (x_max, y_max)
พิกัดของกรอบกรอบจะคำนวณจากมุมซ้ายบนของภาพ
มีรูปแบบคำอธิบายประกอบของกล่องที่มีขอบเขตหลายรูปแบบ โดยแต่ละรูปแบบจะใช้การแสดงพิกัดของกล่องที่มีขอบเขตของตัวเอง
ก. อัลบั้ม
พวกเขาใช้ค่าสี่ค่าเพื่อแสดงกรอบขอบเขต – [x_min, y_min, x_max, y_max] – ซึ่งถูกทำให้เป็นมาตรฐานโดยการหารพิกัดเป็นพิกเซลสำหรับแกน x ด้วยความกว้างและแกน y ด้วยความสูงของภาพ
สมมติว่าพิกัดของกรอบคือ: x1 = 678, y1 = 24; x2 = 543, y2= 213.
ให้ความกว้าง = 870 ความสูง = 789
จากนั้น [678/870, 24/789, 543/870, 213/789] = [ 0.779310, 0.030418 ,0.624137, 0.269961]
Albumentations ใช้และตีความค่าเหล่านี้ภายในด้วยกรอบล้อมรอบและปรับปรุงค่าเหล่านี้
ข. COCO
นี่คือรูปแบบที่ใช้โดย Common Objects ในชุดข้อมูล COCO ของบริบท ในรูปแบบ COCO กล่องขอบเขตจะแสดงด้วยค่าสี่ค่า: (x_min, y_min, width, height) โดยพื้นฐานแล้วจะอ้างอิงถึงมุมบนซ้ายและความกว้างและความสูงของกล่องขอบ
ค. โยโล
ในรูปแบบนี้ กรอบขอบเขตจะแสดงด้วยค่าสี่ค่า :(x_center, y_center, width, height) ในที่นี้ x_center และ y_center หมายถึงพิกัด x และ y ที่ปรับให้เป็นมาตรฐานของจุดศูนย์กลางของกล่องขอบเขต ในการทำให้เป็นมาตรฐาน พิกัด x ของจุดศูนย์กลางโดยความกว้างของภาพและพิกัด y ของจุดศูนย์กลางด้วยความสูงของภาพ ค่าความกว้างและความสูงยังถูกทำให้เป็นมาตรฐานอีกด้วย
ง. ปาสคาล
ในรูปแบบ Pascal กรอบขอบเขตจะแสดงด้วยพิกัดบนซ้ายและล่างขวา ดังนั้น ค่าที่เข้ารหัสเป็นพิกเซลคือ: [x_min, y_min, x_max, y_max] ในที่นี้ [x_min, y_min] คือมุมบนซ้าย ขณะที่ [x_max, y_max] หมายถึงมุมล่างขวาของกรอบขอบ
ต้องการทำให้งานที่ทำด้วยตนเองซ้ำๆ เป็นแบบอัตโนมัติหรือไม่ ประหยัดเวลา ความพยายาม และเงิน พร้อมเพิ่มประสิทธิภาพ!
ข้อควรระวังและแนวทางปฏิบัติในการใช้ Bounding Boxes
ขอแนะนำให้ใช้ข้อควรระวังและแนวทางปฏิบัติที่ดีที่สุดบางประการเพื่อการใช้งานขอบกล่องในการประมวลผลภาพอย่างเหมาะสมที่สุด พวกเขารวมถึง:
รูปแบบขนาดกล่อง
การใช้กรอบที่มีขนาดเท่ากันทั้งหมดจะไม่แสดงผลลัพธ์ที่ถูกต้อง การฝึกโมเดลของคุณบนกล่องที่มีขนาดเท่ากันจะทำให้โมเดลทำงานได้แย่ลง ตัวอย่างเช่น หากวัตถุเดียวกันมีขนาดเล็กลง แบบจำลองอาจตรวจไม่พบ ในกรณีที่วัตถุมีขนาดใหญ่กว่าที่คาดไว้ อาจใช้จำนวนพิกเซลมากกว่าและไม่ได้ระบุตำแหน่งและตำแหน่งของวัตถุที่แม่นยำ ประเด็นสำคัญคือต้องคำนึงถึงความผันแปรของขนาดและปริมาตรของวัตถุเพื่อให้ได้ผลลัพธ์ที่ต้องการ
ความแน่นของพิกเซลที่สมบูรณ์แบบ
ความรัดกุมเป็นปัจจัยสำคัญ ซึ่งหมายความว่าขอบของกรอบขอบต้องอยู่ใกล้กับวัตถุที่ต้องการมากที่สุดเพื่อให้ได้ผลลัพธ์ที่แม่นยำ ช่องว่างที่สม่ำเสมออาจส่งผลต่อความแม่นยำในการกำหนดพื้นที่ทับซ้อนระหว่างการคาดคะเนของแบบจำลองกับวัตถุจริง ทำให้เกิดปัญหาขึ้น
รายการแนวทแยงที่วางในกล่องล้อมรอบ
ปัญหาที่พบกับสิ่งของที่วางขวางภายในกล่องที่มีขอบคือ สินค้าเหล่านี้ใช้พื้นที่ภายในกล่องน้อยกว่ามากเมื่อเทียบกับพื้นหลัง อย่างไรก็ตาม หากเปิดรับแสงนานขึ้น โมเดลอาจสันนิษฐานว่าเป้าหมายคือพื้นหลังเนื่องจากใช้พื้นที่มากกว่า ดังนั้น ตามแนวทางปฏิบัติที่ดีที่สุด ขอแนะนำให้ใช้รูปหลายเหลี่ยมและการแบ่งส่วนอินสแตนซ์สำหรับวัตถุในแนวทแยง อย่างไรก็ตาม เป็นไปได้ที่จะสอนแบบจำลองด้วยกรอบที่มีข้อมูลการฝึกอบรมจำนวนมาก
ลดการทับซ้อนกันของกล่อง
การหลีกเลี่ยงคำอธิบายประกอบทับซ้อนในทุกสถานการณ์จะปลอดภัยเสมอ บางครั้งสิ่งนี้อาจทำให้เกิดความยุ่งเหยิงมากจนอาจมองเห็นกล่องที่ทับซ้อนกันได้ในที่สุด ออบเจ็กต์ที่มีการติดป้ายกำกับทับซ้อนกับเอนทิตีอื่นๆ ให้ผลลัพธ์ที่ค่อนข้างแย่ โมเดลจะไม่สามารถแยกความแตกต่างระหว่างวัตถุเป้าหมายกับรายการอื่นๆ เนื่องจากการทับซ้อนกันมากเกินไป ในกรณีดังกล่าว อาจใช้รูปหลายเหลี่ยมเพื่อความแม่นยำที่สูงขึ้น
สรุป
การประมวลผลภาพเป็นขอบเขตของเทคโนโลยีที่เกิดขึ้นใหม่ซึ่งมีขอบเขตกว้าง ที่กล่าวว่า bounding box เป็นเทคนิคการประมวลผลภาพที่ใช้บ่อยที่สุด
โดยสรุป bounding box เป็นวิธีการใส่คำอธิบายประกอบรูปภาพเพื่อฝึกโมเดลการเรียนรู้ของเครื่องที่ใช้ AI ใช้สำหรับการตรวจจับวัตถุและการจดจำเป้าหมายในการใช้งานที่หลากหลาย รวมถึงหุ่นยนต์ โดรน ยานพาหนะอัตโนมัติ กล้องวงจรปิด และอุปกรณ์วิชันซิสเต็มอื่นๆ
ทรัพยากรที่แนะนำ:
https://www.v7labs.com/blog/bounding-box-annotation
นาโนเน็ต OCR & OCR API ออนไลน์ มีความน่าสนใจมากมาย กรณีใช้ tหมวกสามารถเพิ่มประสิทธิภาพธุรกิจของคุณ ประหยัดต้นทุน และเพิ่มการเติบโต ค้นพบ กรณีการใช้งานของ Nanonets สามารถนำไปใช้กับผลิตภัณฑ์ของคุณได้อย่างไร
- AI
- AI และการเรียนรู้ของเครื่อง
- ไอ อาร์ต
- เครื่องกำเนิดไออาร์ท
- หุ่นยนต์ไอ
- ปัญญาประดิษฐ์
- ใบรับรองปัญญาประดิษฐ์
- ปัญญาประดิษฐ์ในการธนาคาร
- หุ่นยนต์ปัญญาประดิษฐ์
- หุ่นยนต์ปัญญาประดิษฐ์
- ซอฟต์แวร์ปัญญาประดิษฐ์
- blockchain
- การประชุม blockchain ai
- เหรียญอัจฉริยะ
- ปัญญาประดิษฐ์สนทนา
- การประชุม crypto ai
- ดัล-อี
- การเรียนรู้ลึก ๆ
- google ai
- เรียนรู้เครื่อง
- เพลโต
- เพลโตไอ
- เพลโตดาต้าอินเทลลิเจนซ์
- เกมเพลโต
- เพลโตดาต้า
- เพลโตเกม
- ขนาดไอ
- วากยสัมพันธ์
- ลมทะเล