प्वाइंट क्लाउड्स के साथ अमेज़ॅन सेजमेकर का उपयोग करना: भाग 1- 3डी लेबलिंग के लिए जमीनी सच्चाई

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

इस दो-भाग की श्रृंखला में, हम प्रदर्शित करते हैं कि 3D ऑब्जेक्ट डिटेक्शन कार्यों के लिए मॉडल को कैसे लेबल और प्रशिक्षित किया जाए। भाग 1 में, हम उस डेटासेट पर चर्चा करते हैं जिसका हम उपयोग कर रहे हैं, साथ ही डेटा को समझने और लेबल करने के लिए किसी भी प्रीप्रोसेसिंग चरणों की भी। भाग 2 में, हम आपके डेटासेट पर किसी मॉडल को प्रशिक्षित करने और उसे उत्पादन में परिनियोजित करने का तरीका जानेंगे।

LIDAR का (लाइट डिटेक्शन एंड रेंजिंग) एक लेजर के साथ किसी वस्तु या सतह को लक्षित करके और परावर्तित प्रकाश के रिसीवर पर लौटने के समय को मापने के लिए रेंज निर्धारित करने की एक विधि है। स्वायत्त वाहन कंपनियां आमतौर पर अपने वाहनों के आसपास के वातावरण की 3डी समझ उत्पन्न करने के लिए LiDAR सेंसर का उपयोग करती हैं।

जैसा कि LiDAR सेंसर अधिक सुलभ और लागत प्रभावी हो गए हैं, ग्राहक रोबोटिक्स, सिग्नल मैपिंग और संवर्धित वास्तविकता जैसे नए स्थानों में पॉइंट क्लाउड डेटा का तेजी से उपयोग कर रहे हैं। कुछ नए मोबाइल उपकरणों में LiDAR सेंसर भी शामिल हैं। LiDAR सेंसर की बढ़ती उपलब्धता ने मशीन लर्निंग (ML) कार्यों के लिए पॉइंट क्लाउड डेटा में रुचि बढ़ाई है, जैसे 3D ऑब्जेक्ट डिटेक्शन और ट्रैकिंग, 3D सेगमेंटेशन, 3D ऑब्जेक्ट सिंथेसिस और पुनर्निर्माण, और 3D गहराई अनुमान को मान्य करने के लिए 2D डेटा का उपयोग करना।

इस श्रृंखला में, हम आपको दिखाते हैं कि एक ऑब्जेक्ट डिटेक्शन मॉडल को कैसे प्रशिक्षित किया जाए जो 3डी दृश्य में वाहनों के स्थान की भविष्यवाणी करने के लिए पॉइंट क्लाउड डेटा पर चलता है। यह पोस्ट, हम विशेष रूप से LiDAR डेटा की लेबलिंग पर ध्यान केंद्रित करते हैं। मानक LiDAR सेंसर आउटपुट 3D पॉइंट क्लाउड फ़्रेम का एक अनुक्रम है, जिसमें 10 फ़्रेम प्रति सेकंड की विशिष्ट कैप्चर दर होती है। इस सेंसर आउटपुट को लेबल करने के लिए आपको एक लेबलिंग टूल की आवश्यकता होती है जो 3D डेटा को हैंडल कर सके। अमेज़ॅन सैजमेकर ग्राउंड ट्रुथ एमएल प्रशिक्षण डेटासेट के निर्माण के लिए वस्तुओं को एकल 3डी फ्रेम में या 3डी पॉइंट क्लाउड फ्रेम के अनुक्रम में लेबल करना आसान बनाता है। ग्राउंड ट्रूथ आठ वीडियो कैमरा इनपुट तक कैमरा और LiDAR डेटा के सेंसर फ्यूजन का भी समर्थन करता है।

डेटा किसी भी एमएल परियोजना के लिए आवश्यक है। विशेष रूप से 3D डेटा को स्रोत, विज़ुअलाइज़ और लेबल करना मुश्किल हो सकता है। हम उपयोग करते हैं A2D2 डेटासेट इस पोस्ट में देखें और इसे विज़ुअलाइज़ करने और लेबल करने के चरणों के माध्यम से आपका मार्गदर्शन करें।

A2D2 में सिमेंटिक सेगमेंटेशन और पॉइंट क्लाउड लेबल के साथ 40,000 फ़्रेम हैं, जिसमें 12,499D बाउंडिंग बॉक्स लेबल वाले 3 फ़्रेम शामिल हैं। चूंकि हम ऑब्जेक्ट डिटेक्शन पर ध्यान केंद्रित कर रहे हैं, इसलिए हम 12,499डी बाउंडिंग बॉक्स लेबल वाले 3 फ्रेम में रुचि रखते हैं। इन एनोटेशन में कार, पैदल यात्री, ट्रक, बस आदि जैसे ड्राइविंग से संबंधित 14 वर्ग शामिल हैं।

निम्न तालिका पूरी कक्षा सूची दिखाती है:

सूची	वर्ग सूची
1	जानवर
2	साइकिल
3	बस
4	कार
5	कारवां ट्रांसपोर्टर
6	साइकिल-सवार
7	आपातकालीन वाहन
8	मोटर बाइकर
9	मोटरसाइकिल
10	पैदल यात्री
11	ट्रेलर
12	ट्रक
13	उपयोगिता वाहन
14	वैन/एसयूवी

हम अपने डिटेक्टर को विशेष रूप से कारों का पता लगाने के लिए प्रशिक्षित करेंगे क्योंकि यह हमारे डेटासेट में सबसे आम वर्ग है (डेटासेट में 32616 कुल वस्तुओं में से 42816 को कारों के रूप में लेबल किया गया है)।

समाधान अवलोकन

इस श्रृंखला में, हम अमेज़ॅन सैजमेकर ग्राउंड ट्रूथ के साथ अपने डेटा को विज़ुअलाइज़ और लेबल करने के तरीके को कवर करते हैं और यह प्रदर्शित करते हैं कि अमेज़ॅन सैजमेकर प्रशिक्षण कार्य में इस डेटा का उपयोग कैसे करें ताकि ऑब्जेक्ट डिटेक्शन मॉडल बनाया जा सके, जिसे अमेज़ॅन सैजमेकर एंडपॉइंट पर तैनात किया गया हो। विशेष रूप से, हम समाधान संचालित करने और किसी भी लेबलिंग या प्रशिक्षण कार्य को लॉन्च करने के लिए Amazon SageMaker नोटबुक का उपयोग करेंगे।

निम्नलिखित आरेख में सेंसर डेटा के समग्र प्रवाह को लेबलिंग से लेकर प्रशिक्षण तक परिनियोजन तक दर्शाया गया है:

आर्किटेक्चर

आप सीखेंगे कि रीयल-टाइम 3D ऑब्जेक्ट डिटेक्शन मॉडल को कैसे प्रशिक्षित और तैनात किया जाए अमेज़न SageMaker जमीनी सच्चाई निम्नलिखित कदमों के साथ:

पॉइंट क्लाउड डेटासेट को डाउनलोड और विज़ुअलाइज़ करें
तैयारी डेटा के साथ लेबल किया जाना है अमेज़न सैजमेकर ग्राउंड ट्रूथ पॉइंट क्लाउड टूल
के साथ एक वितरित Amazon SageMaker ग्राउंड ट्रूथ ट्रेनिंग जॉब लॉन्च करें एमएमडिटेक्शन3डी
अपने प्रशिक्षण नौकरी के परिणामों का मूल्यांकन करें और अपने संसाधन उपयोग की रूपरेखा तैयार करें अमेज़न SageMaker डिबगर
एक अतुल्यकालिक तैनात करें SageMaker समापन बिंदु
समापन बिंदु पर कॉल करें और 3D ऑब्जेक्ट भविष्यवाणियों की कल्पना करें

इस समाधान को लागू करने के लिए उपयोग की जाने वाली AWS सेवाएँ

.. पूर्वापेक्षाएँ

निम्नलिखित आरेख दर्शाता है कि एक निजी कार्यबल कैसे बनाया जाए। लिखित, चरण-दर-चरण निर्देशों के लिए, देखें लेबलिंग वर्कफोर्स पेज का उपयोग करके अमेज़ॅन कॉग्निटो वर्कफोर्स बनाएं.

प्वाइंट क्लाउड्स के साथ अमेज़ॅन सेजमेकर का उपयोग करना: भाग 1- 3डी लेबलिंग प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के लिए जमीनी सच्चाई। लंबवत खोज. ऐ.

AWS CloudFormation स्टैक लॉन्च करना

अब जब आपने समाधान की संरचना देख ली है, तो आप इसे अपने खाते में लागू कर सकते हैं ताकि आप एक उदाहरण कार्यप्रवाह चला सकें। लेबलिंग पाइपलाइन से संबंधित सभी परिनियोजन चरण AWS CloudFormation द्वारा प्रबंधित किए जाते हैं। इसका मतलब है कि एडब्ल्यूएस क्लाउडफॉर्मेशन आपके नोटबुक इंस्टेंस के साथ-साथ समाधान चलाने में सहायता के लिए कोई भूमिका या अमेज़ॅन एस 3 बाल्टी बनाता है।

आप स्टैक को AWS क्षेत्र में लॉन्च कर सकते हैं us-east-1 AWS CloudFormation कंसोल का उपयोग कर स्टैक लॉन्च करें
बटन। स्टैक को किसी भिन्न क्षेत्र में लॉन्च करने के लिए, के README में मिले निर्देशों का उपयोग करें गिटहब भंडार.

स्टैक बनाएँ

सभी संसाधनों को बनाने में लगभग 20 मिनट लगते हैं। आप AWS CloudFormation यूजर इंटरफेस (UI) से प्रगति की निगरानी कर सकते हैं।

एक बार जब आपका CloudFormation टेम्प्लेट चालू हो जाता है, तो AWS कंसोल पर वापस जाएं।

नोटबुक खोल रहा हूँ

अमेज़ॅन सैजमेकर नोटबुक इंस्टेंस एमएल कंप्यूट इंस्टेंसेस हैं जो ज्यूपिटर नोटबुक ऐप पर चलते हैं। Amazon SageMaker उदाहरणों और संबंधित संसाधनों के निर्माण का प्रबंधन करता है। डेटा तैयार करने और संसाधित करने, मॉडल को प्रशिक्षित करने के लिए कोड लिखने, अमेज़ॅन सैजमेकर होस्टिंग के लिए मॉडल तैनात करने और अपने मॉडल का परीक्षण या सत्यापन करने के लिए अपने नोटबुक उदाहरण में ज्यूपिटर नोटबुक का उपयोग करें।

अमेज़न सैजमेकर नोटबुक वातावरण तक पहुँचने के लिए अगले चरणों का पालन करें:

सेवाओं के तहत खोजें अमेज़न SageMaker.
के अंतर्गत नोटबुक, चुनते हैं नोटबंदी के उदाहरण.
एक नोटबुक उदाहरण का प्रावधान किया जाना चाहिए। ओपन का चयन करें जपयटरलब, जो नीचे पूर्व-प्रावधान किए गए नोटबुक उदाहरण के दाईं ओर स्थित है क्रियाएँ.
पेज लोड होते ही आपको इस तरह का एक आइकन दिखाई देगा:
आपको एक नए ब्राउज़र टैब पर पुनर्निर्देशित किया जाएगा जो निम्न आरेख जैसा दिखता है:
एक बार जब आप अमेज़ॅन सैजमेकर नोटबुक इंस्टेंस लॉन्चर यूआई में हों। बाएं साइडबार से, का चयन करें जाना आइकन जैसा कि निम्नलिखित आरेख में दिखाया गया है।
चुनते हैं एक रिपॉजिटरी क्लोन करें विकल्प.
गिटहब URL दर्ज करें(https://github.com/aws-samples/end-2-end-3d-ml) पॉप-अप विंडो में और चुनें क्लोन.
चुनते हैं फ़ाइल ब्राउज़र GitHub फ़ोल्डर देखने के लिए।
शीर्षक वाली नोटबुक खोलें 1_visualization.ipynb.

नोटबुक का संचालन

अवलोकन

शीर्षक वाले अनुभाग में नोटबुक के पहले कुछ कक्ष डाउनलोड की गई फ़ाइलें डेटासेट को डाउनलोड करने और उसमें मौजूद फाइलों का निरीक्षण करने का तरीका बताता है। कोशिकाओं के निष्पादन के बाद, डेटा को डाउनलोड करने में कुछ मिनट लगते हैं।

एक बार डाउनलोड हो जाने के बाद, आप A2D2 की फ़ाइल संरचना की समीक्षा कर सकते हैं, जो दृश्यों या ड्राइव की एक सूची है। एक दृश्य हमारे वाहन से संवेदक डेटा की एक छोटी रिकॉर्डिंग है। A2D2 हमें प्रशिक्षित करने के लिए इनमें से 18 दृश्य प्रदान करता है, जो सभी अद्वितीय तिथियों द्वारा पहचाने जाते हैं। प्रत्येक दृश्य में 2D कैमरा डेटा, 2D लेबल, 3D क्यूबॉइड एनोटेशन और 3D पॉइंट क्लाउड शामिल हैं।

आप निम्न के साथ A2D2 डेटासेट के लिए फ़ाइल संरचना देख सकते हैं:

├── 20180807_145028
├── 20180810_142822
│   ├── camera
│   │   ├── cam_front_center
│   │   │   ├── 20180807145028_lidar_frontcenter_000000091.png
│   │   │   ├── 20180807145028_lidar_frontcenter_000000091.json
│   │   │   ├── 20180807145028_lidar_frontcenter_000000380.png
│   │   │   ├── 20180807145028_lidar_frontcenter_000000380.json
│   │   │   ├── ...
│   ├── label
│   │   ├── cam_front_center
│   │   │   ├── 20180807145028_lidar_frontcenter_000000091.png
│   │   │   ├── 20180807145028_lidar_frontcenter_000000380.png
│   │   │   ├── ...
│   ├── label3D
│   │   ├── cam_front_center
│   │   │   ├── 20180807145028_lidar_frontcenter_000000091.json
│   │   │   ├── 20180807145028_lidar_frontcenter_000000380.json
│   │   │   ├── ...
│   ├── lidar
│   │   ├── cam_front_center
│   │   │   ├── 20180807145028_lidar_frontcenter_000000091.npz
│   │   │   ├── 20180807145028_lidar_frontcenter_000000380.npz
│   │   │   ├── ...

A2D2 सेंसर सेटअप

अगला खंड इस पॉइंट क्लाउड डेटा में से कुछ को पढ़ने के माध्यम से चलता है ताकि यह सुनिश्चित हो सके कि हम इसे सही ढंग से व्याख्या कर रहे हैं और इसे डेटा लेबलिंग के लिए तैयार प्रारूप में बदलने की कोशिश करने से पहले नोटबुक में देख सकते हैं।

किसी भी तरह के स्वायत्त ड्राइविंग सेटअप के लिए जहां हमारे पास 2डी और 3डी सेंसर डेटा है, सेंसर अंशांकन डेटा कैप्चर करना आवश्यक है। कच्चे डेटा के अलावा, हमने डाउनलोड भी किया cams_lidar.json. इस फ़ाइल में वाहन के समन्वय फ्रेम से संबंधित प्रत्येक सेंसर का अनुवाद और अभिविन्यास शामिल है, इसे सेंसर की मुद्रा या अंतरिक्ष में स्थान के रूप में भी संदर्भित किया जा सकता है। सेंसर के समन्वय फ्रेम से वाहन के समन्वय फ्रेम में बिंदुओं को परिवर्तित करने के लिए यह महत्वपूर्ण है। दूसरे शब्दों में, वाहन ड्राइव के रूप में 2डी और 3डी सेंसर की कल्पना करना महत्वपूर्ण है। वाहन के समन्वय फ्रेम को वाहन के केंद्र में एक स्थिर बिंदु के रूप में परिभाषित किया गया है, वाहन के आगे की गति की दिशा में एक्स-अक्ष के साथ, वाई-अक्ष बाएं और दाएं को इंगित करता है, बाएं सकारात्मक है, और जेड- वाहन की छत के माध्यम से इंगित करने वाली धुरी। (5,2,1) के एक बिंदु (X,Y,Z) का मतलब है कि यह बिंदु हमारे वाहन से 5 मीटर आगे, बाईं ओर 2 मीटर और हमारे वाहन से 1 मीटर ऊपर है। इन अंशांकनों के होने से हमें अपनी 3D छवि पर 2D बिंदुओं को प्रोजेक्ट करने की भी अनुमति मिलती है, जो बिंदु क्लाउड लेबलिंग कार्यों के लिए विशेष रूप से सहायक है।

वाहन पर सेंसर सेटअप देखने के लिए, निम्न आरेख की जाँच करें।

हम जिस बिंदु क्लाउड डेटा पर प्रशिक्षण ले रहे हैं, वह विशेष रूप से फ्रंट फेसिंग कैमरा या कैम फ्रंट-सेंटर के साथ संरेखित है:
कार-सेंसर-कैमरा

यह 3D में कैमरा सेंसर के हमारे विज़ुअलाइज़ेशन से मेल खाता है:
सेंसर-विज़ुअलाइज़ेशन

नोटबुक का यह भाग यह पुष्टि करता है कि A2D2 डेटासेट सेंसर की स्थिति के बारे में हमारी अपेक्षाओं से मेल खाता है, और हम पॉइंट क्लाउड सेंसर से डेटा को कैमरे के फ्रेम में संरेखित करने में सक्षम हैं। बेझिझक सभी सेल को शीर्षक वाले सेल से चलाएं 3डी से 2डी में प्रोजेक्शन निम्न कैमरा छवि पर अपना पॉइंट क्लाउड डेटा ओवरले देखने के लिए।

अमेज़ॅन सैजमेकर ग्राउंड ट्रुथ में रूपांतरण

एसएमजीटी कैमरा

अपनी नोटबुक में अपने डेटा को विज़ुअलाइज़ करने के बाद, हम आत्मविश्वास से अपने पॉइंट क्लाउड को अमेज़न में बदल सकते हैं सेजमेकर ग्राउंड ट्रुथ का 3डी फॉर्मेट हमारे लेबल को सत्यापित और समायोजित करने के लिए। यह खंड A2D2 के डेटा प्रारूप से Amazon में परिवर्तित होने के माध्यम से चलता है सेजमेकर ग्राउंड ट्रूथ अनुक्रम फ़ाइल, ऑब्जेक्ट ट्रैकिंग मोडैलिटी द्वारा उपयोग किए जाने वाले इनपुट प्रारूप के साथ।

अनुक्रम फ़ाइल स्वरूप में पॉइंट क्लाउड फ़ॉर्मेट, प्रत्येक पॉइंट क्लाउड से जुड़ी छवियां, और पॉइंट क्लाउड के साथ छवियों को संरेखित करने के लिए आवश्यक सभी सेंसर स्थिति और ओरिएंटेशन डेटा शामिल हैं। ये रूपांतरण पिछले अनुभाग से पढ़ी गई सेंसर जानकारी का उपयोग करके किया जाता है। निम्नलिखित उदाहरण अमेज़ॅन सैजमेकर ग्राउंड ट्रूथ से एक अनुक्रम फ़ाइल प्रारूप है, जो केवल एक ही समय के साथ एक अनुक्रम का वर्णन करता है।

इस टाइमस्टेप के लिए पॉइंट क्लाउड स्थित है s3://sagemaker-us-east-1-322552456788/a2d2_smgt/20180807_145028_out/20180807145028_lidar_frontcenter_000000091.txt और इसका एक प्रारूप है <x coordinate> <y coordinate> <z coordinate>.

बिंदु बादल के साथ संबद्ध, स्थित एक एकल कैमरा छवि है s3://sagemaker-us-east-1-322552456788/a2d2_smgt/20180807_145028_out/undistort_20180807145028_camera_frontcenter_000000091.png. ध्यान दें कि हम अनुक्रम फ़ाइल लेते हैं जो पॉइंट क्लाउड से कैमरे और पीछे प्रक्षेपण की अनुमति देने के लिए सभी कैमरा पैरामीटर को परिभाषित करता है।

 { "seq-no": 1, "prefix": "s3://sagemaker-us-east-1-322552456788/a2d2_smgt/20180807_145028_out/", "number-of-frames": 1, "frames": [ { "frame-no": 0, "unix-timestamp": 0.091, "frame": "20180807145028_lidar_frontcenter_000000091.txt", "format": "text/xyz", "ego-vehicle-pose": { "position": { "x": 0, "y": 0, "z": 0}, "heading": { "qw": 1, "qx": 0, "qy": 0, "qz": 0}}, "images": [ { "image-path": "undistort_20180807145028_camera_frontcenter_000000091.png", "unix-timestamp": 0.091, "fx": 1687.3369140625, "fy": 1783.428466796875, "cx": 965.4341405582381, "cy": 684.4193604186803, "position": { "x": 1.711045726422736, "y": -5.735179668849011e-09, "z": 0.9431449279047172}, "heading": { "qw": -0.4981871970275329, "qx": 0.5123971466375787, "qy": -0.4897950939891415, "qz": 0.4993590359047143}, "camera-model": "pinhole"}]}, } ]
}

इस इनपुट प्रारूप में रूपांतरण के लिए हमें A2D2 के डेटा प्रारूप से Amazon SageMaker ग्राउंड ट्रूथ द्वारा समर्थित डेटा प्रारूपों में रूपांतरण लिखने की आवश्यकता है। यह वही प्रक्रिया है जिससे किसी को भी लेबलिंग के लिए अपना डेटा लाते समय गुजरना पड़ता है। हम देखेंगे कि यह रूपांतरण कैसे काम करता है, चरण-दर-चरण। यदि नोटबुक में अनुसरण कर रहे हैं, तो नामित फ़ंक्शन को देखें a2d2_scene_to_smgt_sequence_and_seq_label.

बिंदु बादल रूपांतरण

पहला कदम डेटा को एक संपीड़ित Numpy-स्वरूपित फ़ाइल (NPZ) से परिवर्तित करना है, जो कि numpy के साथ उत्पन्न हुई थी।जानना विधि, एक करने के लिए कच्चे 3D प्रारूप को स्वीकार किया अमेज़न सैजमेकर ग्राउंड ट्रुथ के लिए। विशेष रूप से, हम एक पंक्ति प्रति बिंदु के साथ एक फ़ाइल उत्पन्न करते हैं। प्रत्येक 3D बिंदु को तीन फ़्लोटिंग बिंदु X, Y और Z निर्देशांक द्वारा परिभाषित किया गया है। जब हम अनुक्रम फ़ाइल में अपना प्रारूप निर्दिष्ट करते हैं, तो हम स्ट्रिंग का उपयोग करते हैं text/xyz इस प्रारूप का प्रतिनिधित्व करने के लिए। Amazon SageMaker ग्राउंड ट्रूथ भी इंटेंसिटी वैल्यू या रेड ग्रीन ब्लू (RGB) पॉइंट जोड़ने का समर्थन करता है।

A2D2 की NPZ फ़ाइलों में कई Numpy सरणियाँ होती हैं, जिनमें से प्रत्येक का अपना नाम होता है। रूपांतरण करने के लिए, हम Numpy's का उपयोग करके NPZ फ़ाइल लोड करते हैं भार विधि, बुलाए गए सरणी तक पहुंचें अंक (अर्थात्, एक Nx3 सरणी, जहां N बिंदु क्लाउड में बिंदुओं की संख्या है), और Numpy's का उपयोग करके एक नई फ़ाइल में पाठ के रूप में सहेजें savetxt विधि.

# input.npz is an A2D2 PointCloud file
lidar_frame_contents = np.load("a2d2_input.npz")
points = lidar_frame_contents["points"]
# output.txt is a text/xyz formatted SMGT file
np.savetxt("output.txt", points)

छवि प्रीप्रोसेसिंग

अगला, हम अपनी छवि फ़ाइलें तैयार करते हैं। A2D2 PNG छवियां प्रदान करता है, और Amazon SageMaker ग्राउंड ट्रूथ PNG छवियों का समर्थन करता है; हालाँकि, ये चित्र विकृत हैं। विरूपण अक्सर इसलिए होता है क्योंकि छवि लेने वाले लेंस को इमेजिंग प्लेन के समानांतर संरेखित नहीं किया जाता है, जिससे छवि में कुछ क्षेत्र अपेक्षा से अधिक करीब दिखते हैं। यह विरूपण एक भौतिक कैमरा और एक के बीच अंतर का वर्णन करता है आदर्श पिनहोल कैमरा मॉडल. यदि विरूपण को ध्यान में नहीं रखा जाता है, तो Amazon SageMaker ग्राउंड ट्रूथ हमारे 3D बिंदुओं को कैमरे के दृश्यों के शीर्ष पर प्रस्तुत करने में सक्षम नहीं होगा, जिससे लेबलिंग करना अधिक चुनौतीपूर्ण हो जाता है। कैमरा कैलिब्रेशन पर एक ट्यूटोरियल के लिए, इस दस्तावेज़ को देखें OpenCV.

जबकि अमेज़ॅन सैजमेकर ग्राउंड ट्रुथ अपनी इनपुट फ़ाइल में विरूपण गुणांक का समर्थन करता है, आप लेबलिंग कार्य से पहले प्रीप्रोसेसिंग भी कर सकते हैं। चूँकि A2D2 अविरूपण करने के लिए सहायक कोड प्रदान करता है, हम इसे छवि पर लागू करते हैं, और विरूपण से संबंधित क्षेत्रों को हमारी अनुक्रम फ़ाइल से बाहर छोड़ देते हैं। ध्यान दें कि विरूपण संबंधित क्षेत्रों में शामिल हैं k1, k2, k3, k4, p1, p2, और तिरछा.

from a2d2_helpers import undistort_image
# distorted_input.png comes from the A2D2 dataset
image_frame = cv2.imread("distorted_input.png")
# we undistort the front_center camera, and pass the cams_lidars dictionary
# which contains all camera distortion coefficients.
undistorted_image = undistort_image(image_frame, "front_center", cams_lidars)
# undistorted_output.png goes into SMGT's output path
cv2.imwrite("undistorted_output.png", undistorted_image)

कैमरा स्थिति, अभिविन्यास और प्रक्षेपण रूपांतरण

लेबलिंग के लिए आवश्यक अपरिष्कृत डेटा फ़ाइलों के अलावा, अनुक्रम फ़ाइल को 3डी कैमरे के दृश्यों में 2डी बिंदुओं के प्रक्षेपण को निष्पादित करने के लिए कैमरे की स्थिति और अभिविन्यास जानकारी की भी आवश्यकता होती है। हमें यह जानने की जरूरत है कि कैमरा 3डी स्पेस में कहां देख रहा है ताकि यह पता लगाया जा सके कि हमारी छवियों के शीर्ष पर 3डी क्यूबॉइड लेबल और 3डी पॉइंट कैसे प्रस्तुत किए जाने चाहिए।

क्योंकि हमने अपने सेंसर की स्थिति को A2D2 सेंसर सेटअप सेक्शन में एक सामान्य ट्रांसफ़ॉर्म मैनेजर में लोड कर दिया है, इसलिए हम अपनी इच्छित जानकारी के लिए ट्रांसफ़ॉर्म मैनेजर से आसानी से क्वेरी कर सकते हैं। हमारे मामले में, हम प्रत्येक फ्रेम में वाहन की स्थिति को (0, 0, 0) मानते हैं क्योंकि हमारे पास A2D2 के ऑब्जेक्ट डिटेक्शन डेटासेट द्वारा प्रदान किए गए सेंसर की स्थिति की जानकारी नहीं है। तो हमारे वाहन के सापेक्ष, कैमरे का अभिविन्यास और स्थिति निम्नलिखित कोड द्वारा वर्णित है:

# The format of pq = [x, y, z, qw, qx, qy, qz] where (x, y, z) refer to object
# position while the remaining (qw, qx, qy, qz) correspond to camera orientation.
pq = transform_manager.get_transform("cam_front_center_ext", "vehicle")
# pq can then be extracted into SMGT's sequence file format as below:
{
... "position": {"x": pq[0],"y": pq[1],"z": pq[2]}, "heading": {"qw": pq[3],"qx": pq[4],"qy": pq[5],"qz": pq[6],}
}

अब वह स्थिति और अभिविन्यास परिवर्तित हो गया है, हमें fx, fy, cx, और cy के लिए मूल्यों की आपूर्ति करने की भी आवश्यकता है, अनुक्रम फ़ाइल प्रारूप में प्रत्येक कैमरे के लिए सभी पैरामीटर।

ये पैरामीटर कैमरा मैट्रिक्स में मानों को संदर्भित करते हैं। जबकि स्थिति और अभिविन्यास वर्णन करता है कि कैमरा किस तरह का सामना कर रहा है, कैमरा मैट्रिक्स कैमरे के दृश्य के क्षेत्र का वर्णन करता है और कैमरे के सापेक्ष एक 3D बिंदु एक छवि में 2D पिक्सेल स्थान में कैसे परिवर्तित हो जाता है।

A2D2 एक कैमरा मैट्रिक्स प्रदान करता है। निम्नलिखित कोड में एक संदर्भ कैमरा मैट्रिक्स दिखाया गया है, साथ ही उपयुक्त फ़ील्ड प्राप्त करने के लिए हमारी नोटबुक इस मैट्रिक्स को कैसे अनुक्रमित करती है।

# [[fx,  0, cx]
#  [ 0, fy, cy]
#  [ 0,  0,  1]]
{
... "fx": camera_matrix[0, 0], "fy": camera_matrix[1, 1], "cx": camera_matrix[0, 2], "cy": camera_matrix[1, 2]
}

A2D2 के प्रारूप से पार्स किए गए सभी क्षेत्रों के साथ, हम अनुक्रम फ़ाइल को सहेज सकते हैं और इसे अमेज़ॅन में उपयोग कर सकते हैं SageMaker ग्राउंड ट्रूथ इनपुट मेनिफ़ेस्ट फ़ाइल लेबलिंग का काम शुरू करने के लिए। यह लेबलिंग कार्य हमें 3D मॉडल प्रशिक्षण के लिए डाउनस्ट्रीम का उपयोग करने के लिए 3D बाउंडिंग बॉक्स लेबल बनाने की अनुमति देता है।

नोटबुक के अंत तक सभी सेल चलाएँ, और सुनिश्चित करें कि आपने workteam अमेज़ॅन सैजमेकर ग्राउंड ट्रुथ के साथ एआरएन workteam ARN आपने एक शर्त बनाई है। जॉब क्रिएशन टाइम को लेबल करने के लगभग 10 मिनट के बाद, आपको वर्कर पोर्टल पर लॉग इन करने और इसका उपयोग करने में सक्षम होना चाहिए लेबलिंग यूजर इंटरफेस अपने दृश्य की कल्पना करने के लिए।

क्लीन अप

आपके द्वारा तैनात किए गए AWS CloudFormation स्टैक को हटाएं स्टैक लॉन्च करें बटन नामित ThreeD AWS CloudFormation कंसोल में इस पोस्ट में उपयोग किए गए सभी संसाधनों को हटाने के लिए, जिसमें कोई भी रनिंग इंस्टेंस शामिल है।

अनुमानित लागत

अनुमानित लागत 5 घंटे के लिए $2 है।

निष्कर्ष

इस पोस्ट में, हमने प्रदर्शित किया कि कैसे 3D डेटा लिया जाए और इसे Amazon SageMaker ग्राउंड ट्रुथ में लेबलिंग के लिए तैयार फॉर्म में परिवर्तित किया जाए। इन चरणों के साथ, आप ऑब्जेक्ट डिटेक्शन मॉडल के प्रशिक्षण के लिए अपने स्वयं के 3D डेटा को लेबल कर सकते हैं। इस श्रृंखला की अगली पोस्ट में, हम आपको दिखाएंगे कि कैसे A2D2 लें और डेटासेट में पहले से मौजूद लेबल पर ऑब्जेक्ट डिटेक्टर मॉडल को प्रशिक्षित करें।

हैप्पी बिल्डिंग!

लेखक के बारे में

इसहाक प्रिविटेरा में एक वरिष्ठ डेटा वैज्ञानिक हैं अमेज़न मशीन लर्निंग सॉल्यूशंस लैब, जहां वह ग्राहकों की व्यावसायिक समस्याओं को दूर करने के लिए मशीन लर्निंग और डीप लर्निंग समाधान विकसित करता है। वह वितरित प्रशिक्षण और सक्रिय शिक्षण के साथ AWS ग्राहकों को सक्षम करने पर ध्यान केंद्रित करते हुए मुख्य रूप से कंप्यूटर विज़न स्पेस में काम करता है।

विद्या सागर रविपति में मैनेजर है अमेज़न मशीन लर्निंग सॉल्यूशंस लैब, जहां वह बड़े पैमाने पर वितरित प्रणालियों में अपने विशाल अनुभव का लाभ उठाता है और विभिन्न उद्योग कार्यक्षेत्रों में AWS ग्राहकों की मदद करने के लिए मशीन लर्निंग के लिए उनका जुनून उनके AI और क्लाउड अपनाने में तेजी लाता है। पहले, वह अमेज़ॅन में कनेक्टिविटी सर्विसेज में मशीन लर्निंग इंजीनियर थे, जिन्होंने निजीकरण और भविष्य कहनेवाला रखरखाव प्लेटफार्मों का निर्माण करने में मदद की।

जेरेमी फेल्टरको वें के साथ एक सॉफ्टवेयर डेवलपमेंट इंजीनियर है अमेज़न मशीन लर्निंग सॉल्यूशंस लैब अमेज़न वेब सेवाओं पर। वह AWS ग्राहकों को उनके AI अपनाने में तेजी लाने में मदद करने के लिए कंप्यूटर विज़न, रोबोटिक्स और मशीन लर्निंग में अपनी पृष्ठभूमि का उपयोग करता है।

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
प्लेटोब्लॉकचैन। Web3 मेटावर्स इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
स्रोत: https://aws.amazon.com/blogs/machine-learning/using-amazon-sagemaker-with-point-clouds-part-1-ground-truth-for-3d-labeling/

समय टिकट: मार्च २०,२०२१

समय टिकट: अगस्त 22, 2023

प्लेटो द्वारा पुनर्प्रकाशित

AWS उद्देश्य से निर्मित त्वरक के साथ अपने मशीन लर्निंग वर्कलोड की ऊर्जा खपत को 90% तक कम करें | अमेज़न वेब सेवाएँ

अमेज़ॅन कॉम्प्रिहेंड टारगेटेड सेंटीमेंट सिंक्रोनस सपोर्ट जोड़ता है

अमेज़ॅन बेडरॉक | का उपयोग करके जेनरेटिव एआई के साथ कोड समीक्षा और अनुमोदन दक्षता बढ़ाएं अमेज़न वेब सेवाएँ

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा