Μοντέλα θεμελιώδους όρασης και μηχανική οπτικής άμεσης οδήγησης για εφαρμογές αυτόνομης οδήγησης | Υπηρεσίες Ιστού της Amazon

Μοντέλα θεμελιώδους όρασης και μηχανική οπτικής άμεσης οδήγησης για εφαρμογές αυτόνομης οδήγησης | Υπηρεσίες Ιστού της Amazon

Η άμεση μηχανική έχει γίνει μια βασική δεξιότητα για οποιονδήποτε εργάζεται με μεγάλα γλωσσικά μοντέλα (LLM) για τη δημιουργία υψηλής ποιότητας και συναφών κειμένων. Παρόλο που η μηχανική προτροπής κειμένου έχει συζητηθεί ευρέως, η μηχανική οπτικής προτροπής είναι ένα αναδυόμενο πεδίο που απαιτεί προσοχή. Τα οπτικά μηνύματα μπορεί να περιλαμβάνουν πλαίσια οριοθέτησης ή μάσκες που καθοδηγούν τα μοντέλα όρασης στη δημιουργία σχετικών και ακριβών αποτελεσμάτων. Σε αυτήν την ανάρτηση, εξερευνούμε τα βασικά της μηχανικής οπτικής προτροπής, τα οφέλη της και πώς μπορεί να χρησιμοποιηθεί για την επίλυση μιας συγκεκριμένης περίπτωσης χρήσης: τμηματοποίηση εικόνας για αυτόνομη οδήγηση.

Τα τελευταία χρόνια, το πεδίο της υπολογιστικής όρασης έχει σημειώσει σημαντικές προόδους στον τομέα της τμηματοποίησης εικόνας. Μια τέτοια σημαντική ανακάλυψη είναι η Τμήμα οποιουδήποτε μοντέλου (SAM) από το Meta AI, το οποίο έχει τη δυνατότητα να φέρει επανάσταση στην κατάτμηση σε επίπεδο αντικειμένου με εκπαίδευση μηδενικής ή λίγων βολών. Σε αυτήν την ανάρτηση, χρησιμοποιούμε το μοντέλο SAM ως παράδειγμα θεμελιώδους μοντέλου όρασης και διερευνούμε την εφαρμογή του στο BDD100K σύνολο δεδομένων, ένα ποικίλο σύνολο δεδομένων αυτόνομης οδήγησης για ετερογενή εκμάθηση πολλαπλών εργασιών. Συνδυάζοντας τα δυνατά σημεία του SAM με τα πλούσια δεδομένα που παρέχει το BDD100K, παρουσιάζουμε τις δυνατότητες της οπτικής μηχανικής άμεσης τεχνολογίας με διαφορετικές εκδόσεις του SAM. Εμπνευσμένο από το LangChain πλαίσιο για γλωσσικά μοντέλα, προτείνουμε μια οπτική αλυσίδα για την εκτέλεση οπτικών προτροπών συνδυάζοντας μοντέλα ανίχνευσης αντικειμένων με SAM.

Αν και αυτή η ανάρτηση εστιάζει στην αυτόνομη οδήγηση, οι έννοιες που συζητήθηκαν ισχύουν ευρέως σε τομείς που έχουν πλούσιες εφαρμογές βασισμένες στην όραση, όπως η υγειονομική περίθαλψη και οι επιστήμες της ζωής, τα μέσα ενημέρωσης και η ψυχαγωγία. Ας ξεκινήσουμε μαθαίνοντας λίγο περισσότερα για το τι κρύβεται κάτω από την κουκούλα ενός θεμελιώδους μοντέλου όρασης όπως η SAM. Συνηθίζαμε Στούντιο Amazon SageMaker σε ένα ml.g5.16xlarge παράδειγμα για αυτήν την ανάρτηση.

Τμήμα οποιουδήποτε μοντέλου (SAM)

Τα βασικά μοντέλα είναι μοντέλα μεγάλης μηχανικής εκμάθησης (ML) που εκπαιδεύονται σε τεράστια ποσότητα δεδομένων και μπορούν να προτρέπονται ή να ρυθμίζονται με ακρίβεια για περιπτώσεις χρήσης που αφορούν συγκεκριμένες εργασίες. Εδώ, εξερευνούμε το Segment Anything Model (SAM), το οποίο είναι ένα θεμελιώδες μοντέλο για την όραση, συγκεκριμένα την τμηματοποίηση εικόνας. Είναι προεκπαιδευμένο σε ένα τεράστιο σύνολο δεδομένων 11 εκατομμυρίων εικόνων και 1.1 δισεκατομμυρίων μάσκες, καθιστώντας το το μεγαλύτερο σύνολο δεδομένων τμηματοποίησης μέχρι στιγμής. Αυτό το εκτεταμένο σύνολο δεδομένων καλύπτει ένα ευρύ φάσμα αντικειμένων και κατηγοριών, παρέχοντας στη SAM μια διαφορετική και μεγάλης κλίμακας πηγή δεδομένων εκπαίδευσης.

Το μοντέλο SAM είναι εκπαιδευμένο στην κατανόηση αντικειμένων και μπορεί να παράγει μάσκες τμηματοποίησης για οποιοδήποτε αντικείμενο σε εικόνες ή καρέ βίντεο. Το μοντέλο επιτρέπει την οπτική μηχανική άμεσης επεξεργασίας, δίνοντάς σας τη δυνατότητα να παρέχετε εισόδους όπως κείμενο, σημεία, πλαίσια οριοθέτησης ή μάσκες για τη δημιουργία ετικετών χωρίς να τροποποιήσετε την αρχική εικόνα. Το SAM διατίθεται σε τρία μεγέθη: βασικό (ViT-B, 91 εκατομμύρια παράμετροι), μεγάλο (ViT-L, 308 εκατομμύρια παράμετροι) και τεράστιο (ViT-H, 636 εκατομμύρια παράμετροι), καλύπτοντας διαφορετικές υπολογιστικές απαιτήσεις και περιπτώσεις χρήσης.

Το κύριο κίνητρο πίσω από το SAM είναι η βελτίωση της τμηματοποίησης σε επίπεδο αντικειμένου με ελάχιστα δείγματα εκπαίδευσης και εποχές για οποιοδήποτε αντικείμενο ενδιαφέροντος. Η δύναμη του SAM έγκειται στην ικανότητά του να προσαρμόζεται σε νέες διανομές εικόνας και εργασίες χωρίς προηγούμενη γνώση, ένα χαρακτηριστικό γνωστό ως μεταφορά μηδενικής βολής. Αυτή η προσαρμοστικότητα επιτυγχάνεται μέσω της εκπαίδευσής του στο εκτεταμένο σύνολο δεδομένων SA-1B, το οποίο έχει επιδείξει εντυπωσιακή απόδοση μηδενικής βολής, ξεπερνώντας πολλά προηγούμενα πλήρως εποπτευόμενα αποτελέσματα.

Όπως φαίνεται στην ακόλουθη αρχιτεκτονική για το SAM, η διαδικασία δημιουργίας μασκών τμηματοποίησης περιλαμβάνει τρία βήματα:

  1. Ένας κωδικοποιητής εικόνας παράγει μια εφάπαξ ενσωμάτωση για την εικόνα.
  2. Ένας κωδικοποιητής προτροπής μετατρέπει οποιαδήποτε προτροπή σε διάνυσμα ενσωμάτωσης για την προτροπή.
  3. Ο ελαφρύς αποκωδικοποιητής συνδυάζει τις πληροφορίες από τον κωδικοποιητή εικόνας και τον κωδικοποιητή προτροπής για να προβλέψει τις μάσκες τμηματοποίησης.

Για παράδειγμα, μπορούμε να παρέχουμε μια είσοδο με μια εικόνα και ένα πλαίσιο οριοθέτησης γύρω από ένα αντικείμενο ενδιαφέροντος σε αυτήν την εικόνα (π.χ. Silver car ή λωρίδα οδήγησης) και το μοντέλο SAM θα ​​παράγει μάσκες κατάτμησης για αυτό το αντικείμενο.

Μοντέλα θεμελιώδους όρασης και μηχανική οπτικής άμεσης οδήγησης για εφαρμογές αυτόνομης οδήγησης | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Οπτική άμεση μηχανική

Το Prompt Engineering αναφέρεται στη δόμηση των εισροών σε ένα μοντέλο που κάνει το μοντέλο να κατανοήσει την πρόθεση και παράγει το επιθυμητό αποτέλεσμα. Με το textual prompt engineering, μπορείτε να δομήσετε το κείμενο εισόδου μέσω τροποποιήσεων όπως η επιλογή λέξεων, η μορφοποίηση, η παραγγελία και άλλα, για να λάβετε την επιθυμητή έξοδο. Το Visual Prompt Engineering υποθέτει ότι ο χρήστης εργάζεται σε μια οπτική μορφή (εικόνα ή βίντεο) και παρέχει εισόδους. Ακολουθεί μια μη εξαντλητική λίστα πιθανών τρόπων παροχής δεδομένων στο μοντέλο παραγωγής τεχνητής νοημοσύνης στον οπτικό τομέα:

  • Σημείο – Ένα ενικό (x, y) σημείο συντεταγμένων στο επίπεδο της εικόνας
  • Σημεία – Πολλαπλά (x, y) σημεία συντεταγμένων, που δεν σχετίζονται απαραίτητα μεταξύ τους
  • Πλαίσιο οριοθέτησης – Ένα σύνολο τεσσάρων τιμών (x, y, w, h) που ορίζουν μια ορθογώνια περιοχή στο επίπεδο εικόνας
  • Περίγραμμα – Ένα σύνολο σημείων συντεταγμένων (x, y) στο επίπεδο εικόνας που σχηματίζουν ένα κλειστό σχήμα
  • Μάσκα – Πίνακας ίδιου μεγέθους με την εικόνα με μερική μάσκα του αντικειμένου ενδιαφέροντος

Έχοντας υπόψη τις τεχνικές οπτικής άμεσης μηχανικής, ας διερευνήσουμε πώς μπορεί να εφαρμοστεί αυτό στο προεκπαιδευμένο μοντέλο SAM. Έχουμε χρησιμοποιήσει τη βασική έκδοση του προεκπαιδευμένου μοντέλου.

Προτροπή μηδενικής βολής με το προεκπαιδευμένο μοντέλο SAM

Αρχικά, ας εξερευνήσουμε την προσέγγιση μηδενικής βολής. Το παρακάτω είναι ένα δείγμα εικόνας από το σύνολο δεδομένων εκπαίδευσης που λαμβάνεται από την μπροστινή κάμερα ενός οχήματος.

Μοντέλα θεμελιώδους όρασης και μηχανική οπτικής άμεσης οδήγησης για εφαρμογές αυτόνομης οδήγησης | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Μπορούμε να λάβουμε μάσκες τμηματοποίησης για όλα τα αντικείμενα από την εικόνα χωρίς καμία ρητή οπτική προτροπή δημιουργώντας αυτόματα μάσκες μόνο με μια εικόνα εισαγωγής. Στην παρακάτω εικόνα, βλέπουμε τμήματα του αυτοκινήτου, δρόμος, πινακίδα κυκλοφορίας, πινακίδες κυκλοφορίας, αερογέφυρα, κολώνες, πινακίδες και άλλα να είναι τμηματοποιημένα.

Μοντέλα θεμελιώδους όρασης και μηχανική οπτικής άμεσης οδήγησης για εφαρμογές αυτόνομης οδήγησης | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Ωστόσο, αυτή η έξοδος δεν είναι άμεσα χρήσιμη για τους ακόλουθους λόγους:

  • Τα αυτοκίνητα δεν είναι τμηματικά στο σύνολό τους, αλλά σε μέρη. Για τα περισσότερα μοντέλα αντίληψης, για παράδειγμα, δεν μας ενδιαφέρει πραγματικά κάθε ελαστικό να έχει ξεχωριστές μάσκες εξόδου. Αυτό ισχύει όταν αναζητάτε και άλλα γνωστά αντικείμενα ενδιαφέροντος, όπως δρόμος, βλάστηση, πινακίδες και ούτω καθεξής.
  • Τα μέρη της εικόνας που είναι χρήσιμα για εργασίες κατάντη, όπως η περιοχή οδήγησης, χωρίζονται, χωρίς εξήγηση. Από την άλλη πλευρά, παρόμοιες περιπτώσεις προσδιορίζονται ξεχωριστά και μπορεί να μας ενδιαφέρει να ομαδοποιήσουμε παρόμοια αντικείμενα (πανοπτική έναντι τμηματοποίησης παρουσίας).

Οπτική άμεση μηχανική με το προεκπαιδευμένο μοντέλο SAM

Ευτυχώς, η SAM υποστηρίζει την παροχή προτροπών εισόδου και μπορούμε να χρησιμοποιήσουμε σημεία, πίνακες σημείων και πλαίσια οριοθέτησης ως εισόδους. Με αυτές τις συγκεκριμένες οδηγίες, αναμένουμε ότι η SAM θα ​​τα πάει καλύτερα με τμηματοποιήσεις που εστιάζουν σε συγκεκριμένα σημεία ή περιοχές. Αυτό μπορεί να συγκριθεί με το πρότυπο προτροπής γλώσσας
"What is a good name for a company that makes {product}?"
όπου η είσοδος μαζί με αυτό το πρότυπο προτροπής από τον χρήστη είναι το {product}. {product} είναι μια υποδοχή εισόδου. Στην οπτική προτροπή, τα πλαίσια οριοθέτησης, τα σημεία ή οι μάσκες είναι οι υποδοχές εισόδου.

Η ακόλουθη εικόνα παρέχει το αρχικό πλαίσιο οριοθέτησης αλήθειας εδάφους γύρω από τα οχήματα και την ενημερωμένη έκδοση κώδικα περιοχής οδήγησης από τα δεδομένα αλήθειας εδάφους BDD100K. Η εικόνα δείχνει επίσης ένα σημείο εισόδου (ένα κίτρινο X) στο κέντρο του πράσινου πλαισίου οριοθέτησης στο οποίο θα αναφερθούμε στις επόμενες ενότητες.

Μοντέλα θεμελιώδους όρασης και μηχανική οπτικής άμεσης οδήγησης για εφαρμογές αυτόνομης οδήγησης | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Ας προσπαθήσουμε να δημιουργήσουμε μια μάσκα για το αυτοκίνητο στα αριστερά με το πράσινο πλαίσιο οριοθέτησης ως είσοδο στο SAM. Όπως φαίνεται στο παρακάτω παράδειγμα, το βασικό μοντέλο της SAM δεν βρίσκει πραγματικά τίποτα. Αυτό φαίνεται επίσης στη χαμηλή βαθμολογία τμηματοποίησης. Όταν κοιτάμε πιο προσεκτικά τις μάσκες τμηματοποίησης, βλέπουμε ότι υπάρχουν μικρές περιοχές που επιστρέφονται ως μάσκες (που επισημαίνονται με τη χρήση κόκκινων βελών) που δεν μπορούν πραγματικά να χρησιμοποιηθούν για καμία κατάντη εφαρμογή.

Μοντέλα θεμελιώδους όρασης και μηχανική οπτικής άμεσης οδήγησης για εφαρμογές αυτόνομης οδήγησης | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Ας δοκιμάσουμε έναν συνδυασμό ενός πλαισίου οριοθέτησης και ενός σημείου ως οπτική προτροπή εισόδου. Ο κίτρινος σταυρός στην προηγούμενη εικόνα είναι το κέντρο του πλαισίου οριοθέτησης. Η παροχή των συντεταγμένων αυτού του σημείου (x,y) ως προτροπή μαζί με τον περιορισμό του πλαισίου οριοθέτησης μας δίνει την ακόλουθη μάσκα και μια ελαφρώς υψηλότερη βαθμολογία. Αυτό εξακολουθεί να μην μπορεί να χρησιμοποιηθεί με κανένα τρόπο.

Μοντέλα θεμελιώδους όρασης και μηχανική οπτικής άμεσης οδήγησης για εφαρμογές αυτόνομης οδήγησης | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Τέλος, με το βασικό προ-εκπαιδευμένο μοντέλο, μπορούμε να παρέχουμε μόνο το σημείο εισόδου ως προτροπή (χωρίς το πλαίσιο οριοθέτησης). Οι παρακάτω εικόνες δείχνουν δύο από τις τρεις κορυφαίες μάσκες που πιστεύαμε ότι ήταν ενδιαφέρουσες.

Μοντέλα θεμελιώδους όρασης και μηχανική οπτικής άμεσης οδήγησης για εφαρμογές αυτόνομης οδήγησης | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Η μάσκα 1 τμηματοποιεί το πλήρες αυτοκίνητο, ενώ η μάσκα 3 χωρίζει μια περιοχή που κρατά την πινακίδα του αυτοκινήτου κοντά στον κίτρινο σταυρό (προτροπή εισαγωγής). Η μάσκα 1 δεν είναι ακόμα μια σφιχτή, καθαρή μάσκα γύρω από το αυτοκίνητο. Αυτό δείχνει την ποιότητα του μοντέλου, η οποία μπορούμε να υποθέσουμε ότι αυξάνεται με το μέγεθος του μοντέλου.

Μπορούμε να δοκιμάσουμε μεγαλύτερα προεκπαιδευμένα μοντέλα με την ίδια προτροπή εισαγωγής. Οι παρακάτω εικόνες δείχνουν τα αποτελέσματά μας. Όταν χρησιμοποιείτε το τεράστιο προεκπαιδευμένο μοντέλο SAM, η Μάσκα 3 είναι ολόκληρο το αυτοκίνητο, ενώ η Μάσκα 1 και 2 μπορούν να χρησιμοποιηθούν για την εξαγωγή της πινακίδας κυκλοφορίας.

Μοντέλα θεμελιώδους όρασης και μηχανική οπτικής άμεσης οδήγησης για εφαρμογές αυτόνομης οδήγησης | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Η μεγάλη έκδοση του μοντέλου SAM παρέχει επίσης παρόμοιες εξόδους.

Η διαδικασία που περάσαμε εδώ είναι παρόμοια με τη μη αυτόματη μηχανική προτροπής για μηνύματα κειμένου που μπορεί να γνωρίζετε ήδη. Σημειώστε ότι μια πρόσφατη βελτίωση στο μοντέλο SAM για την τμηματοποίηση οτιδήποτε σε υψηλή ποιότητα παρέχει πολύ καλύτερες εξόδους για συγκεκριμένα αντικείμενα και περιβάλλοντα. Στην περίπτωσή μας, διαπιστώνουμε ότι οι προτροπές μηδενικής λήψης με κείμενο και οπτικές προτροπές (εισαγωγές σημείου, πλαισίου και σημείου και πλαισίου) δεν βελτιώνουν δραστικά τα αποτελέσματα όπως είδαμε παραπάνω.

Πρότυπα προτροπής και οπτικές αλυσίδες

Όπως μπορούμε να δούμε από τα προηγούμενα παραδείγματα μηδενικής λήψης, η SAM αγωνίζεται να αναγνωρίσει όλα τα αντικείμενα στη σκηνή. Αυτό είναι ένα καλό παράδειγμα όπου μπορούμε να εκμεταλλευτούμε τα πρότυπα προτροπών και τις οπτικές αλυσίδες. Το Visual Chain είναι εμπνευσμένο από την ιδέα της αλυσίδας στο δημοφιλές πλαίσιο LangChain για γλωσσικές εφαρμογές. Βοηθά στην αλυσίδα των πηγών δεδομένων και ενός LLM για την παραγωγή της εξόδου. Για παράδειγμα, μπορούμε να χρησιμοποιήσουμε μια αλυσίδα API για να καλέσουμε ένα API και να καλέσουμε ένα LLM για να απαντήσουμε στην ερώτηση με βάση την απάντηση API.

Εμπνευσμένοι από το LangChain, προτείνουμε μια διαδοχική οπτική αλυσίδα που μοιάζει με το παρακάτω σχήμα. Χρησιμοποιούμε ένα εργαλείο (όπως ένα προεκπαιδευμένο μοντέλο ανίχνευσης αντικειμένων) για να λάβουμε αρχικά πλαίσια οριοθέτησης, να υπολογίσουμε το σημείο στο κέντρο του πλαισίου οριοθέτησης και να το χρησιμοποιήσουμε για να ζητήσουμε από το μοντέλο SAM την εικόνα εισόδου.

Μοντέλα θεμελιώδους όρασης και μηχανική οπτικής άμεσης οδήγησης για εφαρμογές αυτόνομης οδήγησης | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Για παράδειγμα, η παρακάτω εικόνα δείχνει τις μάσκες τμηματοποίησης ως αποτέλεσμα της εκτέλεσης αυτής της αλυσίδας.

Μοντέλα θεμελιώδους όρασης και μηχανική οπτικής άμεσης οδήγησης για εφαρμογές αυτόνομης οδήγησης | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Ένα άλλο παράδειγμα αλυσίδας μπορεί να περιλαμβάνει μια εισαγωγή κειμένου του αντικειμένου που ενδιαφέρεται να αναγνωρίσει ο χρήστης. Για να το εφαρμόσουμε αυτό, κατασκευάσαμε έναν αγωγό χρησιμοποιώντας Γείωση DINO, ένα μοντέλο ανίχνευσης αντικειμένου για να ζητήσει από τη SAM να τμηματοποιήσει.

Μοντέλα θεμελιώδους όρασης και μηχανική οπτικής άμεσης οδήγησης για εφαρμογές αυτόνομης οδήγησης | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Το Grounding DINO είναι ένα μοντέλο ανίχνευσης αντικειμένων μηδενικής βολής που μπορεί να εκτελέσει ανίχνευση αντικειμένων με κείμενο που παρέχει ονόματα κατηγοριών (όπως «φανάρια» ή «φορτηγό») και εκφράσεις (όπως «κίτρινο φορτηγό»). Δέχεται ζεύγη κειμένου και εικόνας για να εκτελέσει την ανίχνευση αντικειμένων. Βασίζεται σε μια αρχιτεκτονική μετασχηματιστή και επιτρέπει διασταυρούμενες διαδικασίες με δεδομένα κειμένου και εικόνας. Για να μάθετε περισσότερα σχετικά με το Grounding DINO, ανατρέξτε στο Grounding DINO: Marrying DINO with Grounded Pre-training for Open-Set Object Detection. Αυτό δημιουργεί πλαίσια οριοθέτησης και ετικέτες και μπορεί να υποβληθεί σε περαιτέρω επεξεργασία για τη δημιουργία κεντρικών σημείων, φίλτρου με βάση ετικέτες, κατώφλια και άλλα. Αυτό χρησιμοποιείται (πλαίσια ή σημεία) ως προτροπή στο SAM για τμηματοποίηση, η οποία εξάγει μάσκες.

Τα παρακάτω είναι μερικά παραδείγματα που δείχνουν το κείμενο εισόδου, την έξοδο DINO (πλαίσια οριοθέτησης) και την τελική έξοδο SAM (μάσκες τμηματοποίησης).

Οι παρακάτω εικόνες δείχνουν την έξοδο για "κίτρινο φορτηγό".

Μοντέλα θεμελιώδους όρασης και μηχανική οπτικής άμεσης οδήγησης για εφαρμογές αυτόνομης οδήγησης | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Οι παρακάτω εικόνες δείχνουν την έξοδο για "ασημί αυτοκίνητο".

Μοντέλα θεμελιώδους όρασης και μηχανική οπτικής άμεσης οδήγησης για εφαρμογές αυτόνομης οδήγησης | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Η παρακάτω εικόνα δείχνει την έξοδο για "λωρίδα οδήγησης".

Μοντέλα θεμελιώδους όρασης και μηχανική οπτικής άμεσης οδήγησης για εφαρμογές αυτόνομης οδήγησης | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Μπορούμε να χρησιμοποιήσουμε αυτόν τον αγωγό για να δημιουργήσουμε μια οπτική αλυσίδα. Το ακόλουθο απόσπασμα κώδικα εξηγεί αυτήν την έννοια:

pipeline = [object_predictor, segment_predictor]
image_chain = ImageChain.from_visual_pipeline(pipeline, image_store, verbose=True)
image_chain.run('All silver cars', image_id='5X3349')

Αν και αυτό είναι ένα απλό παράδειγμα, αυτή η ιδέα μπορεί να επεκταθεί στην επεξεργασία ροών από κάμερες σε οχήματα για παρακολούθηση αντικειμένων, επεξεργασία δεδομένων προσωπικής ταυτοποίησης (PII) και πολλά άλλα. Μπορούμε επίσης να λάβουμε τα κουτιά οριοθέτησης από μικρότερα μοντέλα ή σε ορισμένες περιπτώσεις, χρησιμοποιώντας τυπικά εργαλεία υπολογιστικής όρασης. Είναι αρκετά απλό να χρησιμοποιήσετε ένα προεκπαιδευμένο μοντέλο ή μια υπηρεσία όπως το Amazon Rekognition για να λάβετε αρχικές (οπτικές) ετικέτες για την προτροπή σας. Τη στιγμή που γράφουμε αυτό το άρθρο, υπάρχουν πάνω από 70 μοντέλα διαθέσιμα στο Amazon SageMaker Jumpstart για ανίχνευση αντικειμένων και Αναγνώριση Amazon προσδιορίζει ήδη πολλές χρήσιμες κατηγορίες αντικειμένων στις εικόνες, συμπεριλαμβανομένων των αυτοκινήτων, των πεζών και άλλων οχημάτων.

Στη συνέχεια, εξετάζουμε ορισμένα ποσοτικά αποτελέσματα που σχετίζονται με την απόδοση των μοντέλων SAM με ένα υποσύνολο δεδομένων BDD100K.

Ποσοτικά αποτελέσματα

Ο στόχος μας είναι να συγκρίνουμε την απόδοση τριών προεκπαιδευμένων μοντέλων όταν δίνεται η ίδια οπτική προτροπή. Σε αυτήν την περίπτωση, χρησιμοποιούμε το κεντρικό σημείο της θέσης του αντικειμένου ως οπτική είσοδο. Συγκρίνουμε την απόδοση σε σχέση με τα μεγέθη των αντικειμένων (αναλογικά με το μέγεθος της εικόνας) — μικρό (εμβαδόν <0.11%), μεσαίο (0.11% < περιοχή < 1%) και μεγάλο (εμβαδόν > 1%). Τα κατώφλια της περιοχής οριοθέτησης πλαισίων ορίζονται από τα Κοινά αντικείμενα σε περιβάλλον (COCO) μετρήσεις αξιολόγησης [Lin et al., 2014].

Η αξιολόγηση είναι σε επίπεδο pixel και χρησιμοποιούμε τις ακόλουθες μετρήσεις αξιολόγησης:

  • Ακρίβεια = (αριθμός σχετικών και ανακτημένων παρουσιών) / (συνολικός αριθμός ανακτημένων παρουσιών)
  • Ανάκληση = (αριθμός σχετικών παρουσιών και ανάκτησης) / (συνολικός αριθμός σχετικών παρουσιών)
  • Οι περιπτώσεις εδώ είναι κάθε pixel μέσα στο πλαίσιο οριοθέτησης του αντικειμένου ενδιαφέροντος

Ο παρακάτω πίνακας αναφέρει την απόδοση τριών διαφορετικών εκδόσεων του μοντέλου SAM (βασική, μεγάλη και τεράστια). Αυτές οι εκδόσεις έχουν τρεις διαφορετικούς κωδικοποιητές: ViT-B (βάση), ViT-L (μεγάλο), ViT-H (τεράστιο). Οι κωδικοποιητές έχουν διαφορετικούς αριθμούς παραμέτρων, όπου το βασικό μοντέλο έχει λιγότερες παραμέτρους από το μεγάλο και το large είναι λιγότερο από τεράστιο. Αν και η αύξηση του αριθμού των παραμέτρων δείχνει βελτιωμένη απόδοση με μεγαλύτερα αντικείμενα, αυτό δεν ισχύει για τα μικρότερα αντικείμενα.

Μοντέλα θεμελιώδους όρασης και μηχανική οπτικής άμεσης οδήγησης για εφαρμογές αυτόνομης οδήγησης | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Βελτιστοποιήστε το SAM για την περίπτωση χρήσης σας

Σε πολλές περιπτώσεις, η απευθείας χρήση ενός προεκπαιδευμένου μοντέλου SAM μπορεί να μην είναι πολύ χρήσιμη. Για παράδειγμα, ας δούμε μια τυπική σκηνή στην κυκλοφορία—η ακόλουθη εικόνα είναι η έξοδος από το μοντέλο SAM με τυχαία δειγματοληπτικά σημεία προτροπής ως είσοδο στα αριστερά και τις πραγματικές ετικέτες από την εργασία σημασιολογικής τμηματοποίησης από το BDD100K στα δεξιά. Αυτά είναι προφανώς πολύ διαφορετικά.

Μοντέλα θεμελιώδους όρασης και μηχανική οπτικής άμεσης οδήγησης για εφαρμογές αυτόνομης οδήγησης | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Οι στοίβες αντίληψης στα AV μπορούν εύκολα να χρησιμοποιήσουν τη δεύτερη εικόνα, αλλά όχι την πρώτη. Από την άλλη πλευρά, υπάρχουν ορισμένα χρήσιμα αποτελέσματα από την πρώτη εικόνα που μπορούν να χρησιμοποιηθούν και ότι το μοντέλο δεν ήταν ρητά εκπαιδευμένο, για παράδειγμα, σήμανση λωρίδας, τμηματοποίηση πεζοδρομίων, μάσκες πινακίδων κυκλοφορίας και ούτω καθεξής. Μπορούμε να βελτιστοποιήσουμε το μοντέλο SAM για να βελτιώσουμε τα αποτελέσματα τμηματοποίησης. Για να εκτελέσουμε αυτήν τη λεπτομέρεια, δημιουργήσαμε ένα σύνολο δεδομένων εκπαίδευσης χρησιμοποιώντας ένα υποσύνολο τμηματοποίησης παρουσίας (500 εικόνες) από το σύνολο δεδομένων BDD10K. Αυτό είναι ένα πολύ μικρό υποσύνολο εικόνων, αλλά ο σκοπός μας είναι να αποδείξουμε ότι τα θεμελιώδη μοντέλα όρασης (όπως τα LLM) μπορούν να έχουν καλή απόδοση για την περίπτωση χρήσης σας με έναν εκπληκτικά μικρό αριθμό εικόνων. Η ακόλουθη εικόνα δείχνει την εικόνα εισόδου, τη μάσκα εξόδου (με μπλε, με κόκκινο περίγραμμα για το αυτοκίνητο στα αριστερά) και πιθανές προτροπές (πλαίσιο οριοθέτησης με πράσινο και το κεντρικό σημείο X με κίτρινο).

Μοντέλα θεμελιώδους όρασης και μηχανική οπτικής άμεσης οδήγησης για εφαρμογές αυτόνομης οδήγησης | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Πραγματοποιήσαμε τελειοποίηση χρησιμοποιώντας τη βιβλιοθήκη Hugging Face Στούντιο Amazon SageMaker. Χρησιμοποιήσαμε το παράδειγμα ml.g4dn.xlarge για τις δοκιμές βασικού μοντέλου SAM και το ml.g4dn.2xlarge για τις δοκιμές τεράστιου μοντέλου SAM. Στα αρχικά μας πειράματα, παρατηρήσαμε ότι η λεπτομέρεια του βασικού μοντέλου με απλά πλαίσια οριοθέτησης δεν ήταν επιτυχής. Τα καλά συντονισμένα και προεκπαιδευμένα μοντέλα δεν μπόρεσαν να μάθουν επίγειες μάσκες αλήθειας για συγκεκριμένα αυτοκίνητα από τα αρχικά σύνολα δεδομένων. Η προσθήκη σημείων ερωτήματος στη λεπτομερή ρύθμιση δεν βελτίωσε επίσης την εκπαίδευση.

Στη συνέχεια, μπορούμε να δοκιμάσουμε να βελτιώσουμε το τεράστιο μοντέλο SAM για 30 εποχές, με ένα πολύ μικρό σύνολο δεδομένων (500 εικόνες). Η αρχική μάσκα αλήθειας εδάφους μοιάζει με την παρακάτω εικόνα για το αυτοκίνητο τύπου ετικέτας.

Μοντέλα θεμελιώδους όρασης και μηχανική οπτικής άμεσης οδήγησης για εφαρμογές αυτόνομης οδήγησης | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Όπως φαίνεται στις παρακάτω εικόνες, η αρχική προ-εκπαιδευμένη έκδοση του τεράστιου μοντέλου με μια συγκεκριμένη προτροπή πλαίσιο οριοθέτησης (με πράσινο) δεν δίνει έξοδο, ενώ η τελειοποιημένη έκδοση δίνει έξοδο (ακόμα δεν είναι ακριβής, αλλά η λεπτομέρεια κόπηκε off μετά από 40 εποχές, και με ένα πολύ μικρό σύνολο δεδομένων εκπαίδευσης 500 εικόνων). Το αρχικό, προεκπαιδευμένο τεράστιο μοντέλο δεν ήταν σε θέση να προβλέψει μάσκες για καμία από τις εικόνες που δοκιμάσαμε. Ως παράδειγμα κατάντη εφαρμογής, το βελτιστοποιημένο μοντέλο μπορεί να χρησιμοποιηθεί σε ροές εργασιών προεπισήμανσης όπως αυτή που περιγράφεται στο Μονάδα αυτόματης επισήμανσης για προηγμένα συστήματα υποστήριξης οδηγού που βασίζονται σε βαθιά μάθηση στο AWS.

Μοντέλα θεμελιώδους όρασης και μηχανική οπτικής άμεσης οδήγησης για εφαρμογές αυτόνομης οδήγησης | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Συμπέρασμα

Σε αυτήν την ανάρτηση, συζητήσαμε το θεμελιώδες μοντέλο όρασης γνωστό ως Segment Anything Model (SAM) και την αρχιτεκτονική του. Χρησιμοποιήσαμε το μοντέλο SAM για να συζητήσουμε την οπτική προτροπή και τις διάφορες εισόδους στη μηχανική οπτικών προτροπών. Εξερευνήσαμε τον τρόπο απόδοσης των διαφορετικών οπτικών προτροπών και τους περιορισμούς τους. Περιγράψαμε επίσης πώς οι οπτικές αλυσίδες αυξάνουν την απόδοση χρησιμοποιώντας μόνο μία προτροπή, παρόμοια με το LangChain API. Στη συνέχεια, δώσαμε μια ποσοτική αξιολόγηση τριών προεκπαιδευμένων μοντέλων. Τέλος, συζητήσαμε το βελτιωμένο μοντέλο SAM και τα αποτελέσματά του σε σύγκριση με το αρχικό βασικό μοντέλο. Η λεπτομερής ρύθμιση των μοντέλων θεμελίωσης συμβάλλει στη βελτίωση της απόδοσης του μοντέλου για συγκεκριμένες εργασίες, όπως η τμηματοποίηση. Θα πρέπει να σημειωθεί ότι το μοντέλο SAM λόγω των απαιτήσεων πόρων του, περιορίζει τη χρήση για περιπτώσεις χρήσης σε πραγματικό χρόνο και την εξαγωγή συμπερασμάτων στο όριο στην τρέχουσα κατάστασή του. Ελπίζουμε με μελλοντικές επαναλήψεις και βελτιωμένες τεχνικές, να μειώσουμε τις υπολογιστικές απαιτήσεις και να βελτιώσουμε την καθυστέρηση.

Ελπίζουμε αυτή η ανάρτηση να σας ενθαρρύνει να εξερευνήσετε οπτικές προτροπές για τις περιπτώσεις χρήσης σας. Επειδή αυτή είναι ακόμα μια αναδυόμενη μορφή άμεσης μηχανικής, υπάρχουν πολλά να ανακαλύψουμε όσον αφορά τις οπτικές προτροπές, τις οπτικές αλυσίδες και την απόδοση αυτών των εργαλείων. Amazon Sage Maker είναι μια πλήρως διαχειριζόμενη πλατφόρμα ML που επιτρέπει στους κατασκευαστές να εξερευνούν μεγάλα γλωσσικά και οπτικά μοντέλα και να δημιουργούν εφαρμογές τεχνητής νοημοσύνης. Ξεκινήστε να χτίζετε το μέλλον με το AWS σήμερα.


Σχετικά με τους συγγραφείς

Μοντέλα θεμελιώδους όρασης και μηχανική οπτικής άμεσης οδήγησης για εφαρμογές αυτόνομης οδήγησης | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Γκόπι Κρισναμούρθυ είναι ανώτερος αρχιτέκτονας λύσεων AI/ML στην Amazon Web Services με έδρα τη Νέα Υόρκη. Συνεργάζεται με μεγάλους πελάτες της Automotive ως έμπιστος σύμβουλός τους για να μεταμορφώσει τους φόρτους εργασίας Machine Learning και να μεταβεί στο cloud. Τα βασικά του ενδιαφέροντα περιλαμβάνουν τη βαθιά μάθηση και τις τεχνολογίες χωρίς διακομιστή. Εκτός δουλειάς, του αρέσει να περνά χρόνο με την οικογένειά του και να εξερευνά ένα ευρύ φάσμα μουσικής.

Μοντέλα θεμελιώδους όρασης και μηχανική οπτικής άμεσης οδήγησης για εφαρμογές αυτόνομης οδήγησης | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Σρέγιας Σουμπραμανιάν είναι Κύριος αρχιτέκτονας λύσεων, ειδικός σε AI/ML και βοηθά τους πελάτες χρησιμοποιώντας τη Μηχανική Μάθηση να λύσουν τις επιχειρηματικές τους προκλήσεις χρησιμοποιώντας την πλατφόρμα AWS. Η Shreyas έχει ένα υπόβαθρο στη βελτιστοποίηση μεγάλης κλίμακας και στη Μηχανική μάθηση, καθώς και στη χρήση της Μηχανικής Μάθησης και Ενίσχυσης Εκμάθησης για την επιτάχυνση των εργασιών βελτιστοποίησης.

 Μοντέλα θεμελιώδους όρασης και μηχανική οπτικής άμεσης οδήγησης για εφαρμογές αυτόνομης οδήγησης | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Σουτζίθα Μάρτιν είναι Εφαρμοσμένος Επιστήμονας στο Generative AI Innovation Center (GAIIC). Η τεχνογνωσία της είναι στην κατασκευή λύσεων μηχανικής εκμάθησης που περιλαμβάνουν όραση υπολογιστή και επεξεργασία φυσικής γλώσσας για διάφορους κλάδους της βιομηχανίας. Ειδικότερα, έχει εκτεταμένη εμπειρία σε θέματα ανθρωποκεντρικής επίγνωσης της κατάστασης και μάθησης με εμποτισμένη γνώση για εξαιρετικά αυτόνομα συστήματα.

Μοντέλα θεμελιώδους όρασης και μηχανική οπτικής άμεσης οδήγησης για εφαρμογές αυτόνομης οδήγησης | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Φρανσίσκο Καλντερόν είναι Επιστήμονας Δεδομένων στο Generative AI Innovation Center (GAIIC). Ως μέλος του GAIIC, βοηθά στην ανακάλυψη της τέχνης του δυνατού με τους πελάτες AWS που χρησιμοποιούν τεχνολογίες Generative AI. Στον ελεύθερο χρόνο του, ο Francisco του αρέσει να παίζει μουσική και κιθάρα, να παίζει ποδόσφαιρο με τις κόρες του και να απολαμβάνει χρόνο με την οικογένειά του.

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS