การใช้ Amazon SageMaker กับ Point Clouds: ตอนที่ 1- ความจริงพื้นฐานสำหรับการติดป้ายกำกับ 3D

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ในซีรีส์สองส่วนนี้ เราจะสาธิตวิธีการติดฉลากและฝึกโมเดลสำหรับงานตรวจหาวัตถุ 3 มิติ ในส่วนที่ 1 เราจะหารือเกี่ยวกับชุดข้อมูลที่เรากำลังใช้ ตลอดจนขั้นตอนก่อนการประมวลผลใดๆ เพื่อทำความเข้าใจและติดป้ายกำกับข้อมูล ในตอนที่ 2 เราจะแนะนำวิธีฝึกโมเดลในชุดข้อมูลของคุณและปรับใช้กับการผลิต

LiDAR (การตรวจจับแสงและการจัดระยะ) เป็นวิธีการกำหนดช่วงโดยการกำหนดเป้าหมายวัตถุหรือพื้นผิวด้วยเลเซอร์ และการวัดเวลาที่แสงสะท้อนจะย้อนกลับมาที่ตัวรับ โดยทั่วไปแล้ว บริษัทยานยนต์ไร้คนขับจะใช้เซ็นเซอร์ LiDAR เพื่อสร้างความเข้าใจแบบ 3 มิติเกี่ยวกับสภาพแวดล้อมรอบๆ ยานพาหนะของตน

เนื่องจากเซ็นเซอร์ LiDAR สามารถเข้าถึงได้มากขึ้นและประหยัดค่าใช้จ่าย ลูกค้าจึงใช้ข้อมูลพอยต์คลาวด์ในพื้นที่ใหม่ๆ มากขึ้น เช่น วิทยาการหุ่นยนต์ การทำแผนที่สัญญาณ และความเป็นจริงเสริม อุปกรณ์เคลื่อนที่รุ่นใหม่บางรุ่นมีเซ็นเซอร์ LiDAR อยู่ด้วย ความพร้อมใช้งานที่เพิ่มขึ้นของเซ็นเซอร์ LiDAR ได้เพิ่มความสนใจในข้อมูลพอยต์คลาวด์สำหรับงานแมชชีนเลิร์นนิง (ML) เช่น การตรวจจับและติดตามวัตถุ 3 มิติ การแบ่งส่วน 3 มิติ การสังเคราะห์และการสร้างวัตถุ 3 มิติใหม่ และการใช้ข้อมูล 3 มิติเพื่อตรวจสอบความถูกต้องของการประมาณเชิงลึก 2 มิติ

ในซีรีส์นี้ เราจะแสดงวิธีฝึกโมเดลการตรวจจับวัตถุที่ทำงานบนข้อมูลพอยต์คลาวด์เพื่อทำนายตำแหน่งของยานพาหนะในฉาก 3 มิติ โพสต์นี้เรามุ่งเน้นที่การติดฉลากข้อมูล LiDAR โดยเฉพาะ เอาต์พุตเซ็นเซอร์ LiDAR มาตรฐานคือลำดับของเฟรมพอยต์คลาวด์ 3 มิติ โดยมีอัตราการจับภาพทั่วไปที่ 10 เฟรมต่อวินาที ในการติดฉลากเอาต์พุตเซ็นเซอร์นี้ คุณต้องใช้เครื่องมือติดฉลากที่สามารถจัดการข้อมูล 3 มิติได้ ความจริงของ Amazon SageMaker ทำให้ง่ายต่อการติดฉลากวัตถุในเฟรม 3 มิติเดียวหรือข้ามลำดับของเฟรมคลาวด์พอยต์ 3 มิติสำหรับการสร้างชุดข้อมูลการฝึกอบรม ML Ground Truth ยังรองรับการรวมเซ็นเซอร์ของกล้องและข้อมูล LiDAR ด้วยอินพุตกล้องวิดีโอสูงสุดแปดตัว

ข้อมูลมีความสำคัญต่อโครงการ ML ใดๆ โดยเฉพาะอย่างยิ่งข้อมูล 3 มิติอาจเป็นเรื่องยากที่จะจัดหา แสดงภาพ และติดป้ายกำกับ เราใช้ ชุดข้อมูล A2D2 ในโพสต์นี้และแนะนำคุณตลอดขั้นตอนในการแสดงภาพและติดป้ายกำกับ

A2D2 ประกอบด้วย 40,000 เฟรมพร้อมการแบ่งส่วนความหมายและป้ายกำกับ point cloud รวมถึง 12,499 เฟรมพร้อมป้ายกำกับ 3D bounding box เนื่องจากเรามุ่งเน้นไปที่การตรวจจับวัตถุ เราจึงสนใจเฟรม 12,499 เฟรมที่มีป้ายกำกับกล่องขอบ 3 มิติ คำอธิบายประกอบเหล่านี้ประกอบด้วย 14 คลาสที่เกี่ยวข้องกับการขับขี่ เช่น รถยนต์ คนเดินถนน รถบรรทุก รถบัส ฯลฯ

ตารางต่อไปนี้แสดงรายชื่อชั้นเรียนทั้งหมด:

ดัชนี	รายชื่อชั้นเรียน
1	สัตว์
2	รถจักรยาน
3	รถบัส
4	รถ
5	คาราวานขนย้าย
6	นักขี่รถจักรยาน
7	ยานพาหนะฉุกเฉิน
8	นักขี่จักรยานยนต์
9	รถจักรยานยนต์
10	คนเดินเท้า
11	รถพ่วง
12	รถบรรทุก
13	รถเอนกประสงค์
14	รถตู้/SUV

เราจะฝึกเครื่องตรวจจับของเราให้ตรวจจับรถยนต์โดยเฉพาะ เนื่องจากเป็นคลาสที่พบมากที่สุดในชุดข้อมูลของเรา (วัตถุทั้งหมด 32616 จากทั้งหมด 42816 ชิ้นในชุดข้อมูลถูกระบุว่าเป็นรถยนต์)

ภาพรวมโซลูชัน

ในซีรีส์นี้ เราจะอธิบายวิธีแสดงภาพและติดป้ายกำกับข้อมูลของคุณด้วย Amazon SageMaker Ground Truth และสาธิตวิธีใช้ข้อมูลนี้ในงานฝึกอบรม Amazon SageMaker เพื่อสร้างแบบจำลองการตรวจจับวัตถุ ซึ่งปรับใช้กับ Amazon SageMaker Endpoint โดยเฉพาะอย่างยิ่ง เราจะใช้โน้ตบุ๊ก Amazon SageMaker เพื่อใช้งานโซลูชันและเปิดใช้การติดฉลากหรืองานฝึกอบรมใดๆ

แผนภาพต่อไปนี้แสดงโฟลว์ข้อมูลเซ็นเซอร์โดยรวม ตั้งแต่การติดฉลาก การฝึกอบรม ไปจนถึงการปรับใช้:

สถาปัตยกรรม

คุณจะได้เรียนรู้วิธีฝึกฝนและปรับใช้โมเดลการตรวจจับวัตถุ 3 มิติแบบเรียลไทม์ด้วย อเมซอน SageMaker ความจริงพื้นฐานโดยมีขั้นตอนดังนี้

ดาวน์โหลดและแสดงภาพชุดข้อมูลพอยต์คลาวด์
เตรียมข้อมูลที่จะติดป้ายกำกับด้วย เครื่องมือคลาวด์ Amazon SageMaker Ground Truth point
เปิดตัวงานฝึกอบรม Amazon SageMaker Ground Truth แบบกระจายด้วย MMDการตรวจจับ3D
ประเมินผลงานการฝึกอบรมของคุณและจัดทำโปรไฟล์การใช้ทรัพยากรของคุณด้วย ดีบักเกอร์ Amazon SageMaker
ปรับใช้แบบอะซิงโครนัส ปลายทาง SageMaker
เรียกจุดสิ้นสุดและแสดงภาพการคาดการณ์วัตถุ 3 มิติ

บริการของ AWS ที่ใช้ในการปรับใช้โซลูชันนี้

เบื้องต้น

ไดอะแกรมต่อไปนี้สาธิตวิธีสร้างพนักงานส่วนตัว สำหรับคำแนะนำทีละขั้นตอนที่เป็นลายลักษณ์อักษร โปรดดูที่ สร้าง Amazon Cognito Workforce โดยใช้หน้า Labeling Workforces.

การใช้ Amazon SageMaker กับ Point Clouds: ตอนที่ 1- ความจริงพื้นฐานสำหรับการติดป้ายกำกับ 3D PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

เปิดใช้งาน AWS CloudFormation stack

ตอนนี้คุณได้เห็นโครงสร้างของโซลูชันแล้ว คุณปรับใช้ในบัญชีของคุณเพื่อให้คุณสามารถเรียกใช้เวิร์กโฟลว์ตัวอย่างได้ ขั้นตอนการปรับใช้ทั้งหมดที่เกี่ยวข้องกับไปป์ไลน์การติดฉลากได้รับการจัดการโดย AWS CloudFormation ซึ่งหมายความว่า AWS Cloudformation จะสร้างอินสแตนซ์โน้ตบุ๊กของคุณ ตลอดจนบทบาทใดๆ หรือ Amazon S3 Buckets เพื่อรองรับการเรียกใช้โซลูชัน

คุณสามารถเปิดใช้สแต็กในภูมิภาค AWS ได้ us-east-1 บนคอนโซล AWS CloudFormation โดยใช้คำสั่ง เรียกใช้ Stack
ปุ่ม. ในการเปิดใช้สแต็กในภูมิภาคอื่น ให้ใช้คำแนะนำที่พบใน README ของ พื้นที่เก็บข้อมูล GitHub.

สร้างกอง

ใช้เวลาประมาณ 20 นาทีในการสร้างทรัพยากรทั้งหมด คุณสามารถติดตามความคืบหน้าได้จากอินเทอร์เฟซผู้ใช้ (UI) ของ AWS CloudFormation

เมื่อเทมเพลต CloudFormation ทำงานเสร็จแล้ว ให้กลับไปที่คอนโซล AWS

การเปิดโน๊ตบุ๊ค

อินสแตนซ์โน้ตบุ๊ก Amazon SageMaker เป็นอินสแตนซ์การประมวลผล ML ที่ทำงานบนแอพ Jupyter Notebook Amazon SageMaker จัดการการสร้างอินสแตนซ์และทรัพยากรที่เกี่ยวข้อง ใช้สมุดบันทึก Jupyter ในอินสแตนซ์สมุดบันทึกของคุณเพื่อเตรียมและประมวลผลข้อมูล เขียนโค้ดเพื่อฝึกโมเดล ปรับใช้โมเดลกับโฮสต์ของ Amazon SageMaker และทดสอบหรือตรวจสอบโมเดลของคุณ

ทำตามขั้นตอนถัดไปเพื่อเข้าถึงสภาพแวดล้อม Amazon SageMaker Notebook:

ภายใต้บริการค้นหา อเมซอน SageMaker.
ภายใต้ สมุดบันทึกให้เลือก อินสแตนซ์โน้ตบุ๊ก.
ควรเตรียมใช้งานอินสแตนซ์ Notebook เลือกเปิด จูปิเตอร์แล็บซึ่งอยู่ทางด้านขวาของอินสแตนซ์ Notebook ที่เตรียมใช้งานล่วงหน้าภายใต้ สถานะ.
คุณจะเห็นไอคอนแบบนี้เมื่อหน้าโหลด:
คุณจะถูกนำไปยังแท็บใหม่ของเบราว์เซอร์ที่มีลักษณะดังแผนภาพต่อไปนี้:
เมื่อคุณอยู่ใน UI ของ Amazon SageMaker Notebook Instance Launcher จากแถบด้านข้างซ้าย ให้เลือก ไป ไอคอนดังแสดงในแผนภาพต่อไปนี้
เลือก โคลนที่เก็บ ตัวเลือก
ป้อน GitHub URL(https://github.com/aws-samples/end-2-end-3d-ml) ในหน้าต่างป๊อปอัปแล้วเลือก โคลน.
เลือก ไฟล์เบราว์เซอร์ เพื่อดูโฟลเดอร์ GitHub
เปิดสมุดบันทึกชื่อ 1_visualization.ipynb.

การใช้งานโน๊ตบุ๊ค

ขององค์กร

สองสามเซลล์แรกของสมุดบันทึกในส่วนชื่อ ไฟล์ที่ดาวน์โหลด แนะนำวิธีการดาวน์โหลดชุดข้อมูลและตรวจสอบไฟล์ภายในชุดข้อมูล หลังจากดำเนินการเซลล์แล้ว จะใช้เวลาสองสามนาทีในการดาวน์โหลดข้อมูลให้เสร็จสิ้น

เมื่อดาวน์โหลดแล้ว คุณสามารถตรวจสอบโครงสร้างไฟล์ของ A2D2 ซึ่งเป็นรายการของฉากหรือไดรฟ์ ฉากคือการบันทึกข้อมูลเซ็นเซอร์สั้นๆ จากรถของเรา A2D2 มีฉากเหล่านี้ 18 ฉากให้เราฝึกฝน ซึ่งทั้งหมดจะระบุตามวันที่ที่ไม่ซ้ำกัน แต่ละฉากประกอบด้วยข้อมูลกล้อง 2 มิติ ป้ายชื่อ 2 มิติ คำอธิบายประกอบลูกบาศก์ 3 มิติ และพอยต์คลาวด์ 3 มิติ

คุณสามารถดูโครงสร้างไฟล์สำหรับชุดข้อมูล A2D2 ได้ดังต่อไปนี้:

├── 20180807_145028
├── 20180810_142822
│   ├── camera
│   │   ├── cam_front_center
│   │   │   ├── 20180807145028_lidar_frontcenter_000000091.png
│   │   │   ├── 20180807145028_lidar_frontcenter_000000091.json
│   │   │   ├── 20180807145028_lidar_frontcenter_000000380.png
│   │   │   ├── 20180807145028_lidar_frontcenter_000000380.json
│   │   │   ├── ...
│   ├── label
│   │   ├── cam_front_center
│   │   │   ├── 20180807145028_lidar_frontcenter_000000091.png
│   │   │   ├── 20180807145028_lidar_frontcenter_000000380.png
│   │   │   ├── ...
│   ├── label3D
│   │   ├── cam_front_center
│   │   │   ├── 20180807145028_lidar_frontcenter_000000091.json
│   │   │   ├── 20180807145028_lidar_frontcenter_000000380.json
│   │   │   ├── ...
│   ├── lidar
│   │   ├── cam_front_center
│   │   │   ├── 20180807145028_lidar_frontcenter_000000091.npz
│   │   │   ├── 20180807145028_lidar_frontcenter_000000380.npz
│   │   │   ├── ...

การตั้งค่าเซ็นเซอร์ A2D2

ส่วนถัดไปจะแนะนำการอ่านข้อมูลพอยต์คลาวด์บางส่วนเพื่อให้แน่ใจว่าเราตีความอย่างถูกต้องและแสดงภาพข้อมูลในสมุดบันทึกได้ก่อนที่จะพยายามแปลงเป็นรูปแบบที่พร้อมสำหรับการติดฉลากข้อมูล

สำหรับการตั้งค่าการขับขี่อัตโนมัติทุกประเภทที่เรามีข้อมูลเซ็นเซอร์ 2D และ 3D การบันทึกข้อมูลการสอบเทียบเซ็นเซอร์ถือเป็นสิ่งจำเป็น นอกจากข้อมูลดิบแล้ว เรายังดาวน์โหลด cams_lidar.json. ไฟล์นี้ประกอบด้วยการแปลและการวางแนวของเซ็นเซอร์แต่ละตัวที่สัมพันธ์กับเฟรมพิกัดของยานพาหนะ ซึ่งเรียกอีกอย่างว่าตำแหน่งของเซ็นเซอร์หรือตำแหน่งในอวกาศ นี่เป็นสิ่งสำคัญสำหรับการแปลงจุดจากกรอบพิกัดของเซนเซอร์ไปยังกรอบพิกัดของรถ กล่าวอีกนัยหนึ่ง สิ่งสำคัญคือการแสดงภาพเซ็นเซอร์ 2 มิติและ 3 มิติขณะที่รถขับเคลื่อน กรอบพิกัดของยานพาหนะถูกกำหนดให้เป็นจุดคงที่ที่กึ่งกลางของยานพาหนะ โดยมีแกน x ในทิศทางของการเคลื่อนที่ไปข้างหน้าของยานพาหนะ แกน y หมายถึงซ้ายและขวาโดยซ้ายเป็นบวก และ z- แกนชี้ผ่านหลังคารถ จุด (X,Y,Z) ของ (5,2,1) หมายถึงจุดนี้อยู่ข้างหน้ารถของเรา 5 เมตร ไปทางซ้าย 2 เมตร และเหนือรถของเรา 1 เมตร การปรับเทียบเหล่านี้ยังช่วยให้เราฉายจุด 3 มิติลงบนภาพ 2 มิติของเราได้ ซึ่งเป็นประโยชน์อย่างยิ่งสำหรับงานติดฉลากบนคลาวด์

หากต้องการดูการตั้งค่าเซ็นเซอร์บนรถ ให้ตรวจสอบแผนภาพต่อไปนี้

ข้อมูลพอยต์คลาวด์ที่เรากำลังฝึกนั้นสอดคล้องเป็นพิเศษกับกล้องหน้าหรือแคมฟรอนท์เซ็นเตอร์:
รถ-เซนเซอร์-กล้อง

สิ่งนี้ตรงกับการสร้างภาพของเซ็นเซอร์กล้องในแบบ 3 มิติ:
เซนเซอร์-การแสดงภาพ

ส่วนนี้ของโน้ตบุ๊กจะตรวจสอบความถูกต้องว่าชุดข้อมูล A2D2 ตรงกับความคาดหวังของเราเกี่ยวกับตำแหน่งเซ็นเซอร์ และเราสามารถจัดตำแหน่งข้อมูลจากเซ็นเซอร์ point cloud ลงในเฟรมกล้องได้ อย่าลังเลที่จะเรียกใช้เซลล์ทั้งหมดผ่านช่องที่มีชื่อเรื่อง การฉายภาพจาก 3D เป็น 2D เพื่อดูข้อมูลพอยต์คลาวด์ของคุณซ้อนทับบนภาพจากกล้องต่อไปนี้

การแปลงเป็น Amazon SageMaker Ground Truth

กล้อง SMGT

หลังจากแสดงภาพข้อมูลของเราในโน้ตบุ๊กแล้ว เราสามารถแปลงพอยต์คลาวด์เป็น Amazon ได้อย่างมั่นใจ รูปแบบ 3 มิติของ SageMaker Ground Truth เพื่อตรวจสอบและปรับฉลากของเรา ส่วนนี้จะแนะนำการแปลงจากรูปแบบข้อมูลของ A2D2 เป็น Amazon ไฟล์ลำดับความจริงของ SageMakerด้วยรูปแบบการป้อนข้อมูลที่ใช้โดยวิธีการติดตามวัตถุ

รูปแบบไฟล์ลำดับประกอบด้วยรูปแบบ point cloud รูปภาพที่เกี่ยวข้องกับ point cloud แต่ละจุด และข้อมูลตำแหน่งเซนเซอร์และการวางแนวทั้งหมดที่จำเป็นในการจัดตำแหน่งภาพด้วย point clouds การแปลงเหล่านี้เสร็จสิ้นโดยใช้ข้อมูลเซ็นเซอร์ที่อ่านได้จากส่วนก่อนหน้า ตัวอย่างต่อไปนี้เป็นรูปแบบไฟล์ลำดับจาก Amazon SageMaker Ground Truth ซึ่งอธิบายลำดับที่มีขั้นตอนเวลาเดียวเท่านั้น

คลาวด์พอยต์สำหรับขั้นตอนเวลานี้อยู่ที่ s3://sagemaker-us-east-1-322552456788/a2d2_smgt/20180807_145028_out/20180807145028_lidar_frontcenter_000000091.txt และมีรูปแบบของ <x coordinate> <y coordinate> <z coordinate>.

เชื่อมโยงกับ point cloud คือภาพจากกล้องเดียวที่ s3://sagemaker-us-east-1-322552456788/a2d2_smgt/20180807_145028_out/undistort_20180807145028_camera_frontcenter_000000091.png. ขอให้สังเกตว่าเราใช้ไฟล์ลำดับที่กำหนดพารามิเตอร์ของกล้องทั้งหมดเพื่อให้สามารถฉายภาพจากพอยต์คลาวด์ไปยังกล้องและด้านหลังได้

 { "seq-no": 1, "prefix": "s3://sagemaker-us-east-1-322552456788/a2d2_smgt/20180807_145028_out/", "number-of-frames": 1, "frames": [ { "frame-no": 0, "unix-timestamp": 0.091, "frame": "20180807145028_lidar_frontcenter_000000091.txt", "format": "text/xyz", "ego-vehicle-pose": { "position": { "x": 0, "y": 0, "z": 0}, "heading": { "qw": 1, "qx": 0, "qy": 0, "qz": 0}}, "images": [ { "image-path": "undistort_20180807145028_camera_frontcenter_000000091.png", "unix-timestamp": 0.091, "fx": 1687.3369140625, "fy": 1783.428466796875, "cx": 965.4341405582381, "cy": 684.4193604186803, "position": { "x": 1.711045726422736, "y": -5.735179668849011e-09, "z": 0.9431449279047172}, "heading": { "qw": -0.4981871970275329, "qx": 0.5123971466375787, "qy": -0.4897950939891415, "qz": 0.4993590359047143}, "camera-model": "pinhole"}]}, } ]
}

การแปลงเป็นรูปแบบอินพุตนี้ทำให้เราต้องเขียนการแปลงจากรูปแบบข้อมูลของ A2D2 เป็นรูปแบบข้อมูลที่ Amazon SageMaker Ground Truth รองรับ นี่เป็นกระบวนการเดียวกับที่ทุกคนต้องดำเนินการเมื่อนำข้อมูลของตนเองมาติดฉลาก เราจะแนะนำวิธีการทำงานของ Conversion ทีละขั้นตอน ถ้าทำตามในสมุดโน้ตดูที่ฟังก์ชันชื่อ a2d2_scene_to_smgt_sequence_and_seq_label.

จุดแปลงคลาวด์

ขั้นตอนแรกคือการแปลงข้อมูลจากไฟล์รูปแบบ Numpy ที่ถูกบีบอัด (NPZ) ซึ่งสร้างด้วย numpyรู้ว่า วิธีการเพื่อ ยอมรับรูปแบบ 3 มิติดิบ สำหรับ Amazon SageMaker Ground Truth โดยเฉพาะอย่างยิ่ง เราสร้างไฟล์ที่มีหนึ่งแถวต่อจุด แต่ละจุด 3 มิติถูกกำหนดโดยพิกัด X, Y และ Z สามจุด เมื่อเราระบุรูปแบบของเราในไฟล์ลำดับ เราจะใช้สตริง text/xyz เพื่อแสดงรูปแบบนี้ Amazon SageMaker Ground Truth ยังรองรับการเพิ่มค่าความเข้มหรือจุด Red Green Blue (RGB)

ไฟล์ NPZ ของ A2D2 มีอาร์เรย์ Numpy หลายชุด แต่ละชุดมีชื่อของตัวเอง ในการแปลง เราโหลดไฟล์ NPZ โดยใช้ Numpy's โหลด วิธีการเข้าถึงอาร์เรย์ที่เรียกว่า จุด (เช่น อาร์เรย์ Nx3 โดยที่ N คือจำนวนจุดในพอยต์คลาวด์) และบันทึกเป็นข้อความไปยังไฟล์ใหม่โดยใช้ Numpy's savetxt วิธี

# input.npz is an A2D2 PointCloud file
lidar_frame_contents = np.load("a2d2_input.npz")
points = lidar_frame_contents["points"]
# output.txt is a text/xyz formatted SMGT file
np.savetxt("output.txt", points)

การประมวลผลภาพล่วงหน้า

ต่อไป เราเตรียมไฟล์ภาพของเรา A2D2 มีภาพ PNG และ Amazon SageMaker Ground Truth รองรับภาพ PNG; อย่างไรก็ตาม ภาพเหล่านี้บิดเบี้ยว ความผิดเพี้ยนมักเกิดขึ้นเนื่องจากเลนส์ถ่ายภาพไม่ได้อยู่ในแนวขนานกับระนาบภาพ ซึ่งทำให้บางพื้นที่ในภาพดูใกล้กว่าที่คาดไว้ การบิดเบือนนี้อธิบายถึงความแตกต่างระหว่างกล้องจริงและ รุ่นกล้องรูเข็มในอุดมคติ. หากไม่คำนึงถึงความผิดเพี้ยน Amazon SageMaker Ground Truth จะไม่สามารถแสดงจุด 3 มิติของเราเหนือมุมมองกล้องได้ ซึ่งทำให้การติดฉลากทำได้ยากขึ้น สำหรับบทช่วยสอนเกี่ยวกับการปรับเทียบกล้อง โปรดดูเอกสารนี้จาก OpenCV.

แม้ว่า Amazon SageMaker Ground Truth จะรองรับค่าสัมประสิทธิ์การบิดเบือนในไฟล์อินพุต คุณยังสามารถดำเนินการประมวลผลล่วงหน้าก่อนงานติดฉลากได้อีกด้วย เนื่องจาก A2D2 ให้รหัสตัวช่วยเพื่อดำเนินการแก้ไขความผิดเพี้ยน เราจึงนำโค้ดดังกล่าวไปใช้กับภาพและปล่อยให้ฟิลด์ที่เกี่ยวข้องกับการบิดเบือนออกจากไฟล์ลำดับของเรา โปรดทราบว่าฟิลด์ที่เกี่ยวข้องกับการบิดเบือนรวมถึง k1, k2, k3, k4, p1, p2 และเบ้.

from a2d2_helpers import undistort_image
# distorted_input.png comes from the A2D2 dataset
image_frame = cv2.imread("distorted_input.png")
# we undistort the front_center camera, and pass the cams_lidars dictionary
# which contains all camera distortion coefficients.
undistorted_image = undistort_image(image_frame, "front_center", cams_lidars)
# undistorted_output.png goes into SMGT's output path
cv2.imwrite("undistorted_output.png", undistorted_image)

ตำแหน่งกล้อง การวางแนว และการแปลงการฉายภาพ

นอกเหนือจากไฟล์ข้อมูลดิบที่จำเป็นสำหรับการติดฉลาก ไฟล์ลำดับยังต้องการข้อมูลตำแหน่งกล้องและการวางแนวเพื่อทำการฉายจุด 3 มิติในมุมมองกล้อง 2 มิติ เราจำเป็นต้องรู้ว่ากล้องกำลังมองหาที่ใดในพื้นที่ 3 มิติ เพื่อหาวิธีแสดงฉลากลูกบาศก์ 3 มิติและจุด 3 มิติบนภาพของเรา

เนื่องจากเราได้โหลดตำแหน่งเซ็นเซอร์ของเราไว้ในเครื่องมือจัดการการแปลงทั่วไปในส่วนการตั้งค่าเซ็นเซอร์ A2D2 เราจึงสามารถสอบถามเครื่องมือจัดการการแปลงสำหรับข้อมูลที่เราต้องการได้อย่างง่ายดาย ในกรณีของเรา เราปฏิบัติต่อตำแหน่งยานพาหนะเป็น (0, 0, 0) ในแต่ละเฟรม เนื่องจากเราไม่มีข้อมูลตำแหน่งของเซ็นเซอร์ที่มาจากชุดข้อมูลการตรวจจับวัตถุของ A2D2 เมื่อเทียบกับยานพาหนะของเรา การวางแนวและตำแหน่งของกล้องอธิบายด้วยรหัสต่อไปนี้:

# The format of pq = [x, y, z, qw, qx, qy, qz] where (x, y, z) refer to object
# position while the remaining (qw, qx, qy, qz) correspond to camera orientation.
pq = transform_manager.get_transform("cam_front_center_ext", "vehicle")
# pq can then be extracted into SMGT's sequence file format as below:
{
... "position": {"x": pq[0],"y": pq[1],"z": pq[2]}, "heading": {"qw": pq[3],"qx": pq[4],"qy": pq[5],"qz": pq[6],}
}

เมื่อแปลงตำแหน่งและการวางแนวแล้ว เรายังต้องระบุค่าสำหรับ fx, fy, cx และ cy ซึ่งเป็นพารามิเตอร์ทั้งหมดสำหรับกล้องแต่ละตัวในรูปแบบไฟล์ลำดับ

พารามิเตอร์เหล่านี้อ้างถึงค่าในเมทริกซ์ของกล้อง แม้ว่าตำแหน่งและการวางแนวจะอธิบายถึงทิศทางที่กล้องหันเข้าหา เมทริกซ์ของกล้องจะอธิบายขอบเขตของมุมมองของกล้องและวิธีที่จุด 3 มิติที่สัมพันธ์กับกล้องถูกแปลงเป็นตำแหน่งพิกเซล 2 มิติในภาพ

A2D2 ให้เมทริกซ์ของกล้อง เมทริกซ์ของกล้องอ้างอิงแสดงในโค้ดต่อไปนี้ พร้อมกับวิธีที่สมุดบันทึกของเราทำดัชนีเมทริกซ์นี้เพื่อให้ได้ฟิลด์ที่เหมาะสม

# [[fx,  0, cx]
#  [ 0, fy, cy]
#  [ 0,  0,  1]]
{
... "fx": camera_matrix[0, 0], "fy": camera_matrix[1, 1], "cx": camera_matrix[0, 2], "cy": camera_matrix[1, 2]
}

เมื่อแยกวิเคราะห์ฟิลด์ทั้งหมดจากรูปแบบของ A2D2 เราสามารถบันทึกไฟล์ลำดับและใช้ใน Amazon ไฟล์รายการอินพุต SageMaker Ground Truth เพื่อเริ่มงานติดฉลาก งานการติดฉลากนี้ช่วยให้เราสามารถสร้างฉลากกล่องขอบ 3 มิติเพื่อใช้ดาวน์สตรีมสำหรับการฝึกอบรมโมเดล 3 มิติ

เรียกใช้เซลล์ทั้งหมดจนถึงจุดสิ้นสุดของโน้ตบุ๊ก และตรวจสอบให้แน่ใจว่าคุณได้แทนที่เซลล์ workteam ARN กับ Amazon SageMaker Ground Truth workteam ARN คุณสร้างข้อกำหนดเบื้องต้น หลังจากเวลาสร้างงานติดป้ายกำกับประมาณ 10 นาที คุณควรจะสามารถเข้าสู่ระบบพอร์ทัลผู้ปฏิบัติงานและใช้ ส่วนต่อประสานผู้ใช้ติดฉลาก เพื่อให้เห็นภาพฉากของคุณ

ทำความสะอาด

ลบ AWS CloudFormation stack ที่คุณปรับใช้โดยใช้ เรียกใช้ Stack ปุ่มชื่อ ThreeD ในคอนโซล AWS CloudFormation เพื่อลบทรัพยากรทั้งหมดที่ใช้ในโพสต์นี้ รวมถึงอินสแตนซ์ที่กำลังทำงานอยู่

ค่าใช้จ่ายโดยประมาณ

ค่าใช้จ่ายโดยประมาณคือ $5 ต่อ 2 ชั่วโมง

สรุป

ในโพสต์นี้ เราได้สาธิตวิธีรับข้อมูล 3 มิติและแปลงเป็นแบบฟอร์มพร้อมติดป้ายกำกับใน Amazon SageMaker Ground Truth ด้วยขั้นตอนเหล่านี้ คุณสามารถติดป้ายกำกับข้อมูล 3D ของคุณเองสำหรับฝึกโมเดลการตรวจจับวัตถุ ในโพสต์ถัดไปในซีรีส์นี้ เราจะแสดงวิธีนำ A2D2 และฝึกโมเดลเครื่องตรวจจับวัตถุบนฉลากที่อยู่ในชุดข้อมูลแล้ว

สร้างความสุข!

เกี่ยวกับผู้เขียน

ไอแซค พริวิเทร่า เป็นนักวิทยาศาสตร์ข้อมูลอาวุโสที่ ห้องปฏิบัติการโซลูชันแมชชีนเลิร์นนิงของ Amazonที่ซึ่งเขาพัฒนาการเรียนรู้ของเครื่องและการเรียนรู้เชิงลึกเพื่อตอบสนองปัญหาทางธุรกิจของลูกค้า เขาทำงานด้านคอมพิวเตอร์วิทัศน์เป็นหลัก โดยมุ่งเน้นที่การช่วยให้ลูกค้า AWS ได้รับการฝึกอบรมแบบกระจายและการเรียนรู้เชิงรุก

วิทยาสาคร รวิปาติ เป็นผู้จัดการที่ ห้องปฏิบัติการโซลูชันแมชชีนเลิร์นนิงของ Amazonซึ่งเขาใช้ประสบการณ์มากมายในระบบแบบกระจายขนาดใหญ่และความหลงใหลในการเรียนรู้ของเครื่องเพื่อช่วยลูกค้า AWS ในอุตสาหกรรมต่างๆ เร่งการนำ AI และระบบคลาวด์ไปใช้ ก่อนหน้านี้ เขาเป็นวิศวกรแมชชีนเลิร์นนิ่งใน Connectivity Services ที่ Amazon ซึ่งช่วยสร้างแพลตฟอร์มส่วนบุคคลและการบำรุงรักษาเชิงคาดการณ์

เจเรมี เฟลแทรคโก เป็น Software Development Engineer ที่ th ห้องปฏิบัติการโซลูชันแมชชีนเลิร์นนิงของ Amazon ที่ Amazon Web Services เขาใช้ภูมิหลังด้านคอมพิวเตอร์วิทัศน์ หุ่นยนต์ และแมชชีนเลิร์นนิงเพื่อช่วยลูกค้า AWS เร่งการนำ AI ไปใช้

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
เพลโตบล็อคเชน Web3 Metaverse ข่าวกรอง ขยายความรู้. เข้าถึงได้ที่นี่.
ที่มา: https://aws.amazon.com/blogs/machine-learning/using-amazon-sagemaker-with-point-clouds-part-1-ground-truth-for-3d-labeling/

ประทับเวลา: March 10, 2023

ประทับเวลา: ตุลาคม 30, 2023

เผยแพร่ซ้ำโดยเพลโต

ประสิทธิภาพการปลดล็อก: การควบคุมพลังของ Selective Execution ใน Amazon SageMaker Pipelines | บริการเว็บอเมซอน

ขอแนะนำการฝึกอบรมอัตโนมัติสำหรับโซลูชันใน Amazon Personalize | อเมซอนเว็บเซอร์วิส

ตรวจจับรูปแบบในข้อมูลข้อความด้วย Amazon SageMaker Data Wrangler

การจัดการทีมและผู้ใช้ด้วย Amazon SageMaker และ AWS SSO

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้