Χρήση του Amazon SageMaker με Point Cloud: Μέρος 1- Βασική αλήθεια για τρισδιάστατη ετικέτα

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Σε αυτήν τη σειρά δύο μερών, δείχνουμε πώς να επισημαίνουμε και να εκπαιδεύουμε μοντέλα για εργασίες ανίχνευσης αντικειμένων 3D. Στο μέρος 1, συζητάμε το σύνολο δεδομένων που χρησιμοποιούμε, καθώς και τυχόν βήματα προεπεξεργασίας, για την κατανόηση και την επισήμανση δεδομένων. Στο μέρος 2, περιγράφουμε πώς να εκπαιδεύσετε ένα μοντέλο στο σύνολο δεδομένων σας και να το αναπτύξετε στην παραγωγή.

LiDAR (ανίχνευση φωτός και εμβέλεια) είναι μια μέθοδος για τον προσδιορισμό των περιοχών στοχεύοντας ένα αντικείμενο ή επιφάνεια με λέιζερ και μετρώντας το χρόνο για να επιστρέψει το ανακλώμενο φως στον δέκτη. Οι εταιρείες αυτόνομων οχημάτων χρησιμοποιούν συνήθως αισθητήρες LiDAR για να δημιουργήσουν μια τρισδιάστατη κατανόηση του περιβάλλοντος γύρω από τα οχήματά τους.

Καθώς οι αισθητήρες LiDAR γίνονται πιο προσιτοί και οικονομικά αποδοτικοί, οι πελάτες χρησιμοποιούν ολοένα και περισσότερο δεδομένα cloud σε νέους χώρους όπως η ρομποτική, η χαρτογράφηση σημάτων και η επαυξημένη πραγματικότητα. Ορισμένες νέες κινητές συσκευές περιλαμβάνουν ακόμη και αισθητήρες LiDAR. Η αυξανόμενη διαθεσιμότητα αισθητήρων LiDAR έχει αυξήσει το ενδιαφέρον για δεδομένα σύννεφου σημείου για εργασίες μηχανικής μάθησης (ML), όπως ανίχνευση και παρακολούθηση αντικειμένων 3D, τμηματοποίηση 3D, σύνθεση και ανακατασκευή τρισδιάστατων αντικειμένων και χρήση τρισδιάστατων δεδομένων για την επικύρωση δισδιάστατης εκτίμησης βάθους.

Σε αυτήν τη σειρά, σας δείχνουμε πώς να εκπαιδεύσετε ένα μοντέλο ανίχνευσης αντικειμένων που εκτελείται σε δεδομένα νέφους σημείου για να προβλέψετε τη θέση των οχημάτων σε μια τρισδιάστατη σκηνή. Αυτή η ανάρτηση, εστιάζουμε ειδικά στην επισήμανση δεδομένων LiDAR. Η τυπική έξοδος αισθητήρα LiDAR είναι μια ακολουθία τρισδιάστατων σημείων σύννεφων πλαισίων, με τυπικό ρυθμό λήψης 3 καρέ ανά δευτερόλεπτο. Για να επισημάνετε αυτήν την έξοδο αισθητήρα χρειάζεστε ένα εργαλείο σήμανσης που μπορεί να χειριστεί τρισδιάστατα δεδομένα. Amazon SageMaker Ground Αλήθεια διευκολύνει την επισήμανση αντικειμένων σε ένα μόνο τρισδιάστατο πλαίσιο ή σε μια ακολουθία τρισδιάστατων πλαισίων σύννεφων σημείων για τη δημιουργία συνόλων δεδομένων εκπαίδευσης ML. Το Ground Truth υποστηρίζει επίσης τη σύντηξη αισθητήρων κάμερας και δεδομένων LiDAR με έως και οκτώ εισόδους βιντεοκάμερας.

Τα δεδομένα είναι απαραίτητα για κάθε έργο ML. Τα τρισδιάστατα δεδομένα ειδικότερα μπορεί να είναι δύσκολο να προέρχονται, να απεικονιστούν και να επισημανθούν. Χρησιμοποιούμε το Δεδομένα A2D2 σε αυτήν την ανάρτηση και θα σας καθοδηγήσει στα βήματα για να την οπτικοποιήσετε και να την χαρακτηρίσετε.

Το A2D2 περιέχει 40,000 πλαίσια με σημασιολογική τμηματοποίηση και ετικέτες νέφους σημείου, συμπεριλαμβανομένων 12,499 πλαισίων με ετικέτες πλαισίου οριοθέτησης 3D. Δεδομένου ότι εστιάζουμε στην ανίχνευση αντικειμένων, μας ενδιαφέρουν τα 12,499 καρέ με τρισδιάστατες ετικέτες οριοθέτησης. Αυτοί οι σχολιασμοί περιλαμβάνουν 3 κατηγορίες σχετικές με την οδήγηση, όπως αυτοκίνητο, πεζός, φορτηγό, λεωφορείο κ.λπ.

Ο παρακάτω πίνακας δείχνει την πλήρη λίστα των τάξεων:

Περιεχόμενα	Κατάλογος τάξεων
1	ζώο
2	ποδήλατο
3	λεωφορείο
4	αυτοκίνητο
5	μεταφορέας τροχόσπιτου
6	ποδηλάτης
7	έκτακτης ανάγκης
8	ποδηλάτης
9	μοτοσυκλέτα
10	πεζός
11	τροχόσπιτο
12	φορτηγό
13	όχημα κοινής ωφελείας
14	van/SUV

Θα εκπαιδεύσουμε τον ανιχνευτή μας να εντοπίζει συγκεκριμένα αυτοκίνητα, καθώς αυτή είναι η πιο κοινή κατηγορία στο σύνολο δεδομένων μας (32616 από τα 42816 συνολικά αντικείμενα στο σύνολο δεδομένων επισημαίνονται ως αυτοκίνητα).

Επισκόπηση λύσεων

Σε αυτήν τη σειρά, καλύπτουμε τον τρόπο οπτικοποίησης και επισήμανσης των δεδομένων σας με το Amazon SageMaker Ground Truth και δείχνουμε πώς να χρησιμοποιείτε αυτά τα δεδομένα σε μια εργασία εκπαίδευσης του Amazon SageMaker για τη δημιουργία ενός μοντέλου ανίχνευσης αντικειμένων, που θα αναπτυχθεί σε ένα Endpoint του Amazon SageMaker. Συγκεκριμένα, θα χρησιμοποιήσουμε ένα σημειωματάριο Amazon SageMaker για να λειτουργήσουμε τη λύση και να ξεκινήσουμε τυχόν εργασίες επισήμανσης ή εκπαίδευσης.

Το ακόλουθο διάγραμμα απεικονίζει τη συνολική ροή δεδομένων αισθητήρων από την επισήμανση στην εκπαίδευση έως την ανάπτυξη:

Αρχιτεκτονική

Θα μάθετε πώς να εκπαιδεύετε και να αναπτύσσετε ένα τρισδιάστατο μοντέλο ανίχνευσης αντικειμένων σε πραγματικό χρόνο Amazon Sage Maker Βασική Αλήθεια με τα ακόλουθα βήματα:

Κατεβάστε και οπτικοποιήστε ένα σύνολο δεδομένων σύννεφων σημείων
Προετοιμάστε δεδομένα που θα επισημανθούν με το Εργαλείο cloud του Amazon SageMaker Ground Truth
Ξεκινήστε μια διανεμημένη εργασία εκπαίδευσης στο Amazon SageMaker Ground Truth με MMDection3D
Αξιολογήστε τα αποτελέσματα της εργασίας εκπαίδευσης και διαμορφώστε το προφίλ χρήσης των πόρων σας με Debugger Amazon SageMaker
Αναπτύξτε μια ασύγχρονη Το τελικό σημείο του SageMaker
Καλέστε το τελικό σημείο και οπτικοποιήστε προβλέψεις 3D αντικειμένων

Οι υπηρεσίες AWS που χρησιμοποιούνται για την υλοποίηση αυτής της λύσης

Προϋποθέσεις

Το παρακάτω διάγραμμα δείχνει πώς να δημιουργήσετε ένα ιδιωτικό εργατικό δυναμικό. Για γραπτές, βήμα προς βήμα οδηγίες, βλ Δημιουργία εργατικού δυναμικού Cognito Amazon χρησιμοποιώντας τη σελίδα επισήμανσης εργατικού δυναμικού.

Χρήση του Amazon SageMaker με Point Cloud: Μέρος 1- Βασική αλήθεια για την τρισδιάστατη επισήμανση PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Εκκίνηση της στοίβας AWS CloudFormation

Τώρα που έχετε δει τη δομή της λύσης, την αναπτύσσετε στον λογαριασμό σας, ώστε να μπορείτε να εκτελέσετε ένα παράδειγμα ροής εργασίας. Όλα τα βήματα ανάπτυξης που σχετίζονται με τη διοχέτευση ετικετών διαχειρίζονται από το AWS CloudFormation. Αυτό σημαίνει ότι το AWS Cloudformation δημιουργεί την παρουσία του φορητού υπολογιστή σας καθώς και τυχόν ρόλους ή κάδους Amazon S3 για να υποστηρίζει την εκτέλεση της λύσης.

Μπορείτε να ξεκινήσετε τη στοίβα στην περιοχή AWS us-east-1 στην κονσόλα AWS CloudFormation χρησιμοποιώντας το Εκκίνηση στοίβας
κουμπί. Για να εκκινήσετε τη στοίβα σε διαφορετική Περιοχή, χρησιμοποιήστε τις οδηγίες που βρίσκονται στο README του Αποθετήριο GitHub.

Δημιουργία στοίβας

Αυτό διαρκεί περίπου 20 λεπτά για να δημιουργηθούν όλοι οι πόροι. Μπορείτε να παρακολουθείτε την πρόοδο από τη διεπαφή χρήστη (UI) του AWS CloudFormation.

Μόλις ολοκληρωθεί η εκτέλεση του προτύπου CloudFormation, επιστρέψτε στην Κονσόλα AWS.

Άνοιγμα του Σημειωματάριου

Τα Amazon SageMaker Notebook Instances είναι παρουσίες υπολογισμού ML που εκτελούνται στην εφαρμογή Jupyter Notebook. Το Amazon SageMaker διαχειρίζεται τη δημιουργία παρουσιών και σχετικών πόρων. Χρησιμοποιήστε σημειωματάρια Jupyter στην παρουσία του σημειωματάριου σας για να προετοιμάσετε και να επεξεργαστείτε δεδομένα, να γράψετε κώδικα για να εκπαιδεύσετε μοντέλα, να αναπτύξετε μοντέλα στη φιλοξενία Amazon SageMaker και να δοκιμάσετε ή να επικυρώσετε τα μοντέλα σας.

Ακολουθήστε τα επόμενα βήματα για πρόσβαση στο περιβάλλον του Amazon SageMaker Notebook:

Κάτω από υπηρεσίες αναζήτηση για Amazon Sage Maker.
Κάτω από σημειωματάριο, Επιλέξτε Υποδείγματα σημειωματάριου.
Θα πρέπει να παρέχεται μια παρουσία Σημειωματάριου. Επιλέξτε Άνοιγμα εργαστήριο jupyter, το οποίο βρίσκεται στη δεξιά πλευρά της προκαθορισμένης παρουσίας του Notebook κάτω από Δράσεις.
Θα δείτε ένα εικονίδιο όπως αυτό καθώς φορτώνει η σελίδα:
Θα ανακατευθυνθείτε σε μια νέα καρτέλα του προγράμματος περιήγησης που μοιάζει με το ακόλουθο διάγραμμα:
Μόλις βρεθείτε στη διεπαφή χρήστη του Amazon SageMaker Notebook Instance Launcher. Από την αριστερή πλαϊνή γραμμή, επιλέξτε το Git εικονίδιο όπως φαίνεται στο παρακάτω διάγραμμα.
Αγορά Κλωνοποιήστε ένα αποθετήριο επιλογή.
Εισαγάγετε τη διεύθυνση URL του GitHub(https://github.com/aws-samples/end-2-end-3d-ml) στο αναδυόμενο παράθυρο και επιλέξτε κλωνοποίηση.
Αγορά Αρχείο περιήγησης αρχείων για να δείτε το φάκελο GitHub.
Ανοίξτε το σημειωματάριο με τίτλο 1_visualization.ipynb.

Λειτουργία του Notebook

Επισκόπηση

Τα πρώτα κελιά του σημειωματάριου στην ενότητα με τίτλο Λήψη αρχείων περιγράφει τον τρόπο λήψης του συνόλου δεδομένων και επιθεώρησης των αρχείων μέσα σε αυτό. Μετά την εκτέλεση των κελιών, χρειάζονται λίγα λεπτά για να ολοκληρωθεί η λήψη των δεδομένων.

Μετά τη λήψη, μπορείτε να ελέγξετε τη δομή του αρχείου του A2D2, που είναι μια λίστα με σκηνές ή μονάδες δίσκου. Μια σκηνή είναι μια σύντομη καταγραφή δεδομένων αισθητήρα από το όχημά μας. Το A2D2 παρέχει 18 από αυτές τις σκηνές για εκπαίδευση, οι οποίες προσδιορίζονται όλες με μοναδικές ημερομηνίες. Κάθε σκηνή περιέχει δεδομένα κάμερας 2D, ετικέτες 2D, τρισδιάστατους κυβοειδείς σχολιασμούς και τρισδιάστατα σύννεφα σημείων.

Μπορείτε να προβάλετε τη δομή του αρχείου για το σύνολο δεδομένων A2D2 με τα εξής:

├── 20180807_145028
├── 20180810_142822
│   ├── camera
│   │   ├── cam_front_center
│   │   │   ├── 20180807145028_lidar_frontcenter_000000091.png
│   │   │   ├── 20180807145028_lidar_frontcenter_000000091.json
│   │   │   ├── 20180807145028_lidar_frontcenter_000000380.png
│   │   │   ├── 20180807145028_lidar_frontcenter_000000380.json
│   │   │   ├── ...
│   ├── label
│   │   ├── cam_front_center
│   │   │   ├── 20180807145028_lidar_frontcenter_000000091.png
│   │   │   ├── 20180807145028_lidar_frontcenter_000000380.png
│   │   │   ├── ...
│   ├── label3D
│   │   ├── cam_front_center
│   │   │   ├── 20180807145028_lidar_frontcenter_000000091.json
│   │   │   ├── 20180807145028_lidar_frontcenter_000000380.json
│   │   │   ├── ...
│   ├── lidar
│   │   ├── cam_front_center
│   │   │   ├── 20180807145028_lidar_frontcenter_000000091.npz
│   │   │   ├── 20180807145028_lidar_frontcenter_000000380.npz
│   │   │   ├── ...

Ρύθμιση αισθητήρα A2D2

Η επόμενη ενότητα περιγράφει την ανάγνωση ορισμένων από αυτά τα σημεία δεδομένων cloud για να βεβαιωθούμε ότι τα ερμηνεύουμε σωστά και μπορούμε να τα οπτικοποιήσουμε στο σημειωματάριο πριν προσπαθήσουμε να τα μετατρέψουμε σε μορφή έτοιμη για επισήμανση δεδομένων.

Για κάθε είδους ρύθμιση αυτόνομης οδήγησης όπου έχουμε δεδομένα αισθητήρα 2D και 3D, η καταγραφή δεδομένων βαθμονόμησης αισθητήρα είναι απαραίτητη. Εκτός από τα ακατέργαστα δεδομένα, κατεβάσαμε και cams_lidar.json. Αυτό το αρχείο περιέχει τη μετάφραση και τον προσανατολισμό κάθε αισθητήρα σε σχέση με το πλαίσιο συντεταγμένων του οχήματος, αυτό μπορεί επίσης να αναφέρεται ως στάση του αισθητήρα ή θέση στο διάστημα. Αυτό είναι σημαντικό για τη μετατροπή σημείων από το πλαίσιο συντεταγμένων ενός αισθητήρα στο πλαίσιο συντεταγμένων του οχήματος. Με άλλα λόγια, είναι σημαντικό για την οπτικοποίηση των 2D και 3D αισθητήρων καθώς το όχημα οδηγεί. Το πλαίσιο συντεταγμένων του οχήματος ορίζεται ως ένα στατικό σημείο στο κέντρο του οχήματος, με τον άξονα x προς την κατεύθυνση της κίνησης του οχήματος προς τα εμπρός, τον άξονα y να δηλώνει αριστερά και δεξιά με το αριστερό να είναι θετικό και το z- άξονα που δείχνει μέσα από την οροφή του οχήματος. Ένα σημείο (X,Y,Z) των (5,2,1) σημαίνει ότι αυτό το σημείο είναι 5 μέτρα μπροστά από το όχημά μας, 2 μέτρα προς τα αριστερά και 1 μέτρο πάνω από το όχημά μας. Η κατοχή αυτών των βαθμονομήσεων μας επιτρέπει επίσης να προβάλλουμε τρισδιάστατα σημεία στη δισδιάστατη εικόνα μας, κάτι που είναι ιδιαίτερα χρήσιμο για εργασίες επισήμανσης σημείων cloud.

Για να δείτε τη ρύθμιση του αισθητήρα στο όχημα, ελέγξτε το παρακάτω διάγραμμα.

Τα δεδομένα νέφους σημείου στα οποία εκπαιδευόμαστε είναι ειδικά ευθυγραμμισμένα με την μπροστινή κάμερα ή την κάμερα στο μπροστινό μέρος:
Αυτοκίνητο-Αισθητήρας-Κάμερες

Αυτό ταιριάζει με την οπτικοποίηση των αισθητήρων κάμερας σε 3D:
Αισθητήρας-Οπτικοποίηση

Αυτό το τμήμα του σημειωματαρίου ακολουθεί την επικύρωση ότι το σύνολο δεδομένων A2D2 ταιριάζει με τις προσδοκίες μας σχετικά με τις θέσεις των αισθητήρων και ότι είμαστε σε θέση να ευθυγραμμίσουμε τα δεδομένα από τους αισθητήρες σημείου νέφους στο πλαίσιο της κάμερας. Μη διστάσετε να εκτελέσετε όλα τα κελιά μέσα από αυτό με τον τίτλο Προβολή από 3D σε 2D για να δείτε την επικάλυψη δεδομένων νέφους σημείου στην ακόλουθη εικόνα κάμερας.

Μετατροπή σε Amazon SageMaker Ground Truth

Κάμερα SMGT

Αφού οπτικοποιήσουμε τα δεδομένα μας στο σημειωματάριό μας, μπορούμε με σιγουριά να μετατρέψουμε τα σύννεφα σημείων μας σε Amazon Τρισδιάστατη μορφή του SageMaker Ground Truth για να επαληθεύσουμε και να προσαρμόσουμε τις ετικέτες μας. Αυτή η ενότητα περιγράφει τη μετατροπή από τη μορφή δεδομένων του A2D2 σε ένα Amazon Αρχείο ακολουθίας SageMaker Ground Truth, με τη μορφή εισόδου που χρησιμοποιείται από τη μέθοδο παρακολούθησης αντικειμένων.

Η μορφή αρχείου ακολουθίας περιλαμβάνει τις μορφές νέφους σημείου, τις εικόνες που σχετίζονται με κάθε νέφος σημείων και όλα τα δεδομένα θέσης και προσανατολισμού του αισθητήρα που απαιτούνται για την ευθυγράμμιση των εικόνων με τα σύννεφα σημείων. Αυτές οι μετατροπές γίνονται χρησιμοποιώντας τις πληροφορίες αισθητήρα που διαβάστηκαν από την προηγούμενη ενότητα. Το ακόλουθο παράδειγμα είναι μια μορφή αρχείου ακολουθίας από το Amazon SageMaker Ground Truth, η οποία περιγράφει μια ακολουθία με ένα μόνο χρονικό βήμα.

Το νέφος σημείων για αυτό το χρονικό βήμα βρίσκεται στο s3://sagemaker-us-east-1-322552456788/a2d2_smgt/20180807_145028_out/20180807145028_lidar_frontcenter_000000091.txt και έχει μια μορφή <x coordinate> <y coordinate> <z coordinate>.

Σχετίζεται με το νέφος σημείων, είναι μια εικόνα μεμονωμένης κάμερας που βρίσκεται στο s3://sagemaker-us-east-1-322552456788/a2d2_smgt/20180807_145028_out/undistort_20180807145028_camera_frontcenter_000000091.png. Παρατηρήστε ότι παίρνουμε το αρχείο ακολουθίας που καθορίζει όλες τις παραμέτρους της κάμερας για να επιτρέπεται η προβολή από το νέφος σημείων προς την κάμερα και πίσω.

 { "seq-no": 1, "prefix": "s3://sagemaker-us-east-1-322552456788/a2d2_smgt/20180807_145028_out/", "number-of-frames": 1, "frames": [ { "frame-no": 0, "unix-timestamp": 0.091, "frame": "20180807145028_lidar_frontcenter_000000091.txt", "format": "text/xyz", "ego-vehicle-pose": { "position": { "x": 0, "y": 0, "z": 0}, "heading": { "qw": 1, "qx": 0, "qy": 0, "qz": 0}}, "images": [ { "image-path": "undistort_20180807145028_camera_frontcenter_000000091.png", "unix-timestamp": 0.091, "fx": 1687.3369140625, "fy": 1783.428466796875, "cx": 965.4341405582381, "cy": 684.4193604186803, "position": { "x": 1.711045726422736, "y": -5.735179668849011e-09, "z": 0.9431449279047172}, "heading": { "qw": -0.4981871970275329, "qx": 0.5123971466375787, "qy": -0.4897950939891415, "qz": 0.4993590359047143}, "camera-model": "pinhole"}]}, } ]
}

Η μετατροπή σε αυτήν τη μορφή εισόδου απαιτεί να γράψουμε μια μετατροπή από τη μορφή δεδομένων του A2D2 σε μορφές δεδομένων που υποστηρίζονται από το Amazon SageMaker Ground Truth. Αυτή είναι η ίδια διαδικασία που πρέπει να υποβληθεί σε οποιονδήποτε όταν φέρει τα δικά του δεδομένα για επισήμανση. Θα δούμε πώς λειτουργεί αυτή η μετατροπή, βήμα προς βήμα. Αν ακολουθείτε στο σημειωματάριο, δείτε τη συνάρτηση που ονομάζεται a2d2_scene_to_smgt_sequence_and_seq_label.

Μετατροπή σημείων cloud

Το πρώτο βήμα είναι να μετατρέψετε τα δεδομένα από ένα συμπιεσμένο αρχείο με μορφή Numpy (NPZ), το οποίο δημιουργήθηκε με το numpy.γνωρίζω μέθοδος, σε ένα αποδεκτή ακατέργαστη μορφή 3D για το Amazon SageMaker Ground Truth. Συγκεκριμένα, δημιουργούμε ένα αρχείο με μία σειρά ανά σημείο. Κάθε τρισδιάστατο σημείο ορίζεται από τρεις συντεταγμένες κινητής υποδιαστολής X, Y και Z. Όταν καθορίζουμε τη μορφή μας στο αρχείο ακολουθίας, χρησιμοποιούμε τη συμβολοσειρά text/xyz για την αναπαράσταση αυτής της μορφής. Το Amazon SageMaker Ground Truth υποστηρίζει επίσης την προσθήκη τιμών έντασης ή Red Green Blue (RGB) σημείων.

Τα αρχεία NPZ του A2D2 περιέχουν πολλαπλούς πίνακες Numpy, ο καθένας με το δικό του όνομα. Για να πραγματοποιήσουμε μια μετατροπή, φορτώνουμε το αρχείο NPZ χρησιμοποιώντας το Numpy's φορτίο μέθοδο, πρόσβαση στον πίνακα που ονομάζεται σημεία (δηλαδή, ένας πίνακας Nx3, όπου N είναι ο αριθμός των σημείων στο σύννεφο σημείων) και αποθηκεύστε ως κείμενο σε ένα νέο αρχείο χρησιμοποιώντας το Numpy's savetxt μέθοδος.

# input.npz is an A2D2 PointCloud file
lidar_frame_contents = np.load("a2d2_input.npz")
points = lidar_frame_contents["points"]
# output.txt is a text/xyz formatted SMGT file
np.savetxt("output.txt", points)

Προεπεξεργασία εικόνας

Στη συνέχεια, ετοιμάζουμε τα αρχεία εικόνας μας. Το A2D2 παρέχει εικόνες PNG και το Amazon SageMaker Ground Truth υποστηρίζει εικόνες PNG. Ωστόσο, αυτές οι εικόνες είναι παραμορφωμένες. Συχνά εμφανίζεται παραμόρφωση επειδή ο φακός λήψης εικόνας δεν είναι ευθυγραμμισμένος παράλληλα με το επίπεδο απεικόνισης, γεγονός που κάνει ορισμένες περιοχές στην εικόνα να φαίνονται πιο κοντά από το αναμενόμενο. Αυτή η παραμόρφωση περιγράφει τη διαφορά μεταξύ μιας φυσικής κάμερας και μιας εξιδανικευμένο μοντέλο κάμερας pinhole. Εάν δεν ληφθεί υπόψη η παραμόρφωση, τότε το Amazon SageMaker Ground Truth δεν θα μπορεί να αποδώσει τα τρισδιάστατα σημεία μας πάνω από τις προβολές της κάμερας, γεγονός που καθιστά πιο δύσκολη την εκτέλεση ετικετών. Για ένα σεμινάριο σχετικά με τη βαθμονόμηση κάμερας, δείτε αυτήν την τεκμηρίωση από OpenCV.

Ενώ το Amazon SageMaker Ground Truth υποστηρίζει συντελεστές παραμόρφωσης στο αρχείο εισόδου του, μπορείτε επίσης να εκτελέσετε προεπεξεργασία πριν από την εργασία επισήμανσης. Εφόσον το A2D2 παρέχει βοηθητικό κώδικα για την εκτέλεση μη παραμόρφωσης, τον εφαρμόζουμε στην εικόνα και αφήνουμε τα πεδία που σχετίζονται με την παραμόρφωση εκτός του αρχείου ακολουθίας μας. Σημειώστε ότι τα πεδία που σχετίζονται με παραμόρφωση περιλαμβάνουν k1, k2, k3, k4, p1, p2 και λοξή.

from a2d2_helpers import undistort_image
# distorted_input.png comes from the A2D2 dataset
image_frame = cv2.imread("distorted_input.png")
# we undistort the front_center camera, and pass the cams_lidars dictionary
# which contains all camera distortion coefficients.
undistorted_image = undistort_image(image_frame, "front_center", cams_lidars)
# undistorted_output.png goes into SMGT's output path
cv2.imwrite("undistorted_output.png", undistorted_image)

Μετατροπή θέσης, προσανατολισμού και προβολής κάμερας

Πέρα από τα ακατέργαστα αρχεία δεδομένων που απαιτούνται για την επισήμανση, το αρχείο αλληλουχίας απαιτεί επίσης πληροφορίες θέσης και προσανατολισμού της κάμερας για την εκτέλεση της προβολής τρισδιάστατων σημείων στις προβολές της κάμερας 3D. Πρέπει να γνωρίζουμε πού κοιτάζει η κάμερα στον τρισδιάστατο χώρο για να καταλάβουμε πώς οι τρισδιάστατες κυβοειδείς ετικέτες και τα τρισδιάστατα σημεία πρέπει να αποδίδονται πάνω από τις εικόνες μας.

Επειδή έχουμε φορτώσει τις θέσεις των αισθητήρων μας σε έναν κοινό διαχειριστή μετασχηματισμών στην ενότητα ρύθμισης αισθητήρα A2D2, μπορούμε εύκολα να ρωτήσουμε τον διαχειριστή μετασχηματισμών για τις πληροφορίες που θέλουμε. Στην περίπτωσή μας, αντιμετωπίζουμε τη θέση του οχήματος ως (0, 0, 0) σε κάθε πλαίσιο, επειδή δεν έχουμε πληροφορίες θέσης του αισθητήρα που παρέχονται από το σύνολο δεδομένων ανίχνευσης αντικειμένων του A2D2. Σε σχέση λοιπόν με το όχημά μας, ο προσανατολισμός και η θέση της κάμερας περιγράφονται από τον ακόλουθο κώδικα:

# The format of pq = [x, y, z, qw, qx, qy, qz] where (x, y, z) refer to object
# position while the remaining (qw, qx, qy, qz) correspond to camera orientation.
pq = transform_manager.get_transform("cam_front_center_ext", "vehicle")
# pq can then be extracted into SMGT's sequence file format as below:
{
... "position": {"x": pq[0],"y": pq[1],"z": pq[2]}, "heading": {"qw": pq[3],"qx": pq[4],"qy": pq[5],"qz": pq[6],}
}

Τώρα που η θέση και ο προσανατολισμός έχουν μετατραπεί, πρέπει επίσης να δώσουμε τιμές για fx, fy, cx και cy, όλες τις παραμέτρους για κάθε κάμερα στη μορφή αρχείου ακολουθίας.

Αυτές οι παράμετροι αναφέρονται σε τιμές στη μήτρα της κάμερας. Ενώ η θέση και ο προσανατολισμός περιγράφουν την πλευρά που βλέπει μια κάμερα, η μήτρα κάμερας περιγράφει το οπτικό πεδίο της κάμερας και πώς ακριβώς ένα σημείο 3D σε σχέση με την κάμερα μετατρέπεται σε μια θέση εικονοστοιχείων 2D σε μια εικόνα.

Το A2D2 παρέχει μια μήτρα κάμερας. Μια μήτρα κάμερας αναφοράς εμφανίζεται στον ακόλουθο κώδικα, μαζί με τον τρόπο με τον οποίο το σημειωματάριό μας ευρετηριάζει αυτήν τη μήτρα για να λάβει τα κατάλληλα πεδία.

# [[fx,  0, cx]
#  [ 0, fy, cy]
#  [ 0,  0,  1]]
{
... "fx": camera_matrix[0, 0], "fy": camera_matrix[1, 1], "cx": camera_matrix[0, 2], "cy": camera_matrix[1, 2]
}

Με όλα τα πεδία αναλυμένα από τη μορφή του A2D2, μπορούμε να αποθηκεύσουμε το αρχείο ακολουθίας και να το χρησιμοποιήσουμε σε ένα Amazon Αρχείο δήλωσης εισαγωγής SageMaker Ground Truth για να ξεκινήσετε μια δουλειά ετικετών. Αυτή η εργασία επισήμανσης μας επιτρέπει να δημιουργήσουμε ετικέτες 3D οριοθέτησης για να τις χρησιμοποιήσουμε κατάντη για εκπαίδευση τρισδιάστατων μοντέλων.

Εκτελέστε όλα τα κελιά μέχρι το τέλος του σημειωματάριου και βεβαιωθείτε ότι έχετε αντικαταστήσει workteam ARN με το Amazon SageMaker Ground Truth workteam ARN δημιουργήσατε προαπαιτούμενο. Μετά από περίπου 10 λεπτά της επισήμανσης του χρόνου δημιουργίας θέσεων εργασίας, θα πρέπει να μπορείτε να συνδεθείτε στην πύλη των εργαζομένων και να χρησιμοποιήσετε το διεπαφή χρήστη επισήμανσης για να οπτικοποιήσετε τη σκηνή σας.

εκκαθάριση

Διαγράψτε τη στοίβα AWS CloudFormation που αναπτύξατε χρησιμοποιώντας το Εκκίνηση στοίβας κουμπί με όνομα ThreeD στην κονσόλα AWS CloudFormation για να καταργήσετε όλους τους πόρους που χρησιμοποιούνται σε αυτήν την ανάρτηση, συμπεριλαμβανομένων τυχόν εμφανίσεων που εκτελούνται.

Εκτιμώμενο κόστος

Το κατά προσέγγιση κόστος είναι 5 $ για 2 ώρες.

Συμπέρασμα

Σε αυτήν την ανάρτηση, δείξαμε πώς να λαμβάνετε τρισδιάστατα δεδομένα και να τα μετατρέπετε σε μια φόρμα έτοιμη για επισήμανση στο Amazon SageMaker Ground Truth. Με αυτά τα βήματα, μπορείτε να επισημάνετε τα δικά σας τρισδιάστατα δεδομένα για μοντέλα εκπαίδευσης ανίχνευσης αντικειμένων. Στην επόμενη ανάρτηση αυτής της σειράς, θα σας δείξουμε πώς να πάρετε το A3D3 και να εκπαιδεύσετε ένα μοντέλο ανιχνευτή αντικειμένων στις ετικέτες που υπάρχουν ήδη στο σύνολο δεδομένων.

Καλό κτίριο!

Σχετικά με τους Συγγραφείς

Ισαάκ Πριβιτέρα είναι Senior Data Scientist στο Εργαστήριο Amazon Machine Learning Solutions, όπου αναπτύσσει εξατομικευμένες λύσεις μηχανικής μάθησης και βαθιάς μάθησης για την αντιμετώπιση των επιχειρηματικών προβλημάτων των πελατών. Εργάζεται κυρίως στον χώρο της υπολογιστικής όρασης, εστιάζοντας στο να παρέχει στους πελάτες AWS κατανεμημένη εκπαίδευση και ενεργή μάθηση.

Βίντια Σαγκάρ Ραβιπάτι είναι Διευθυντής στο Εργαστήριο Amazon Machine Learning Solutions, όπου αξιοποιεί την τεράστια εμπειρία του σε κατανεμημένα συστήματα μεγάλης κλίμακας και το πάθος του για μηχανική εκμάθηση για να βοηθήσει τους πελάτες AWS σε διαφορετικούς κλάδους της βιομηχανίας να επιταχύνουν την υιοθεσία AI και cloud. Προηγουμένως, ήταν Μηχανικός Μηχανικής Μάθησης στις Υπηρεσίες Συνδεσιμότητας στο Amazon που βοήθησε στην κατασκευή εξατομικευμένων και προβλέψιμων πλατφορμών συντήρησης.

Τζέρεμι Φελτράκο είναι Μηχανικός Ανάπτυξης Λογισμικού με th Εργαστήριο Amazon Machine Learning Solutions στο Amazon Web Services. Χρησιμοποιεί το υπόβαθρό του στην όραση υπολογιστών, τη ρομποτική και τη μηχανική μάθηση για να βοηθήσει τους πελάτες του AWS να επιταχύνουν την υιοθέτηση της τεχνητής νοημοσύνης τους.

SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
Platoblockchain. Web3 Metaverse Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
πηγή: https://aws.amazon.com/blogs/machine-learning/using-amazon-sagemaker-with-point-clouds-part-1-ground-truth-for-3d-labeling/

Σφραγίδα ώρας: Μαρτίου 10, 2023

Σφραγίδα ώρας: 22 Αυγούστου 2023

Αναδημοσίευση από τον Πλάτωνα

Μειώστε την κατανάλωση ενέργειας των φόρτων εργασίας μηχανικής εκμάθησης έως και 90% με ειδικά κατασκευασμένους επιταχυντές AWS | Υπηρεσίες Ιστού της Amazon

Το Amazon Comprehend Targeted Sentiment προσθέτει σύγχρονη υποστήριξη

Βελτιώστε την αποτελεσματικότητα της αναθεώρησης και της έγκρισης κώδικα με τη γενετική τεχνητή νοημοσύνη χρησιμοποιώντας το Amazon Bedrock | Υπηρεσίες Ιστού της Amazon

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός