Παρουσίαση μιας εφαρμογής Generative AI που μετατρέπεται σε εικόνα σε ομιλία χρησιμοποιώντας το Amazon SageMaker και το Hugging Face | Υπηρεσίες Ιστού της Amazon

Παρουσίαση μιας εφαρμογής Generative AI που μετατρέπεται σε εικόνα σε ομιλία χρησιμοποιώντας το Amazon SageMaker και το Hugging Face | Υπηρεσίες Ιστού της Amazon

Η απώλεια όρασης εμφανίζεται με διάφορες μορφές. Για κάποιους, είναι από τη γέννηση, για άλλους, είναι μια αργή κάθοδος με την πάροδο του χρόνου που συνοδεύεται από πολλές ημερομηνίες λήξης: Την ημέρα που δεν μπορείτε να δείτε φωτογραφίες, να αναγνωρίσετε τον εαυτό σας ή τα πρόσωπα των αγαπημένων σας ή ακόμα και να διαβάσετε την αλληλογραφία σας. Στην προηγούμενη ανάρτησή μας στο blog Ενεργοποιήστε τα έγγραφα για άτομα με προβλήματα όρασης με χρήση του Amazon Textract και του Amazon Polly, σας δείξαμε την εφαρμογή Text to Speech που ονομάζεται «Διαβάστε για μένα». Η προσβασιμότητα έχει προχωρήσει πολύ, αλλά τι γίνεται με τις εικόνες;

Στο συνέδριο AWS re:Invent 2022 στο Λας Βέγκας, δείξαμε «Περίγραψε για μένα» στην Έκθεση AWS Builders' Fair, έναν ιστότοπο που βοηθά τα άτομα με προβλήματα όρασης να κατανοούν τις εικόνες μέσω λεζάντας εικόνας, αναγνώρισης προσώπου και μετατροπής κειμένου σε ομιλία, μια τεχνολογία που αναφέρουμε ως "Εικόνα σε Ομιλία". Μέσω της χρήσης πολλαπλών υπηρεσιών AI/ML, το "Describe For Me" δημιουργεί μια λεζάντα μιας εικόνας εισόδου και θα την διαβάσει με μια καθαρή, φυσική φωνή σε διάφορες γλώσσες και διαλέκτους.

Σε αυτήν την ανάρτηση ιστολογίου σας καθοδηγούμε στην Αρχιτεκτονική Λύσεων πίσω από το "Describe For Me" και τις σχεδιαστικές σκέψεις της λύσης μας.

Επισκόπηση λύσεων

Η ακόλουθη Αρχιτεκτονική Αναφοράς δείχνει τη ροή εργασιών ενός χρήστη που τραβάει μια φωτογραφία με ένα τηλέφωνο και αναπαράγει ένα MP3 με τη λεζάντα της εικόνας.

Αρχιτεκτονική αναφοράς για την περιγραφόμενη λύση.

Η ροή εργασίας περιλαμβάνει τα παρακάτω βήματα:

  1. Ενίσχυση AWS διανέμει την εφαρμογή ιστού DescribeForMe που αποτελείται από HTML, JavaScript και CSS στις κινητές συσκευές των τελικών χρηστών.
  2. Η Amazon Cognito Η ομάδα ταυτότητας παρέχει προσωρινή πρόσβαση στο Amazon S3 κάδος.
  3. Ο χρήστης ανεβάζει ένα αρχείο εικόνας στο Amazon S3 κουβά χρησιμοποιώντας AWS SDK μέσω της διαδικτυακής εφαρμογής.
  4. Η εφαρμογή Ιστού DescribeForMe καλεί τις υπηρεσίες τεχνητής νοημοσύνης backend στέλνοντας το Amazon S3 αντικείμενο Πληκτρολογήστε το ωφέλιμο φορτίο για να Amazon API Gateway
  5. Amazon API Gateway στιγματίζει ένα Λειτουργίες βημάτων AWS ροή εργασιών. Η κρατική Μηχανή ενορχηστρώνει τις υπηρεσίες Τεχνητής Νοημοσύνης/Μηχανικής Μάθησης (AI/ML). Αναγνώριση Amazon, Amazon Sage MakerTextract Amazon, Μετάφραση Amazon, και Amazon Polly  χρησιμοποιώντας AWS λάμδα λειτουργίες.
  6. Η Λειτουργίες βημάτων AWS Η ροή εργασίας δημιουργεί ένα αρχείο ήχου ως έξοδο και το αποθηκεύει Amazon S3 σε μορφή MP3.
  7. Μια προ-υπογεγραμμένη διεύθυνση URL με τη θέση του αρχείου ήχου που είναι αποθηκευμένο Amazon S3 αποστέλλεται πίσω στο πρόγραμμα περιήγησης του χρήστη μέσω Amazon API Gateway. Η κινητή συσκευή του χρήστη αναπαράγει το αρχείο ήχου χρησιμοποιώντας την προϋπογεγραμμένη διεύθυνση URL.

Λύση Walkthrough

Σε αυτήν την ενότητα, εστιάζουμε στις σχεδιαστικές εκτιμήσεις για τους λόγους που επιλέξαμε

  1. παράλληλη επεξεργασία εντός ενός Λειτουργίες βημάτων AWS ροής εργασίας
  2. ενοποιημένο προεκπαιδευμένο μοντέλο μηχανικής εκμάθησης σειράς σε ακολουθία OFA (One For All) από Αγκαλιάζοντας το πρόσωπο προς την Amazon Sage Maker για λεζάντα εικόνας
  3. Αναγνώριση Amazon για αναγνώριση προσώπου

Για μια πιο λεπτομερή επισκόπηση του γιατί επιλέξαμε μια αρχιτεκτονική χωρίς διακομιστή, σύγχρονη ροή εργασίας, ροή εργασιών με λειτουργίες express step, αρχιτεκτονική χωρίς κεφαλή και τα οφέλη που αποκομίσαμε, διαβάστε την προηγούμενη ανάρτηση ιστολογίου μας Ενεργοποιήστε τα έγγραφα για άτομα με προβλήματα όρασης με χρήση του Amazon Textract και του Amazon Polly

Παράλληλη επεξεργασία

Η χρήση παράλληλης επεξεργασίας εντός της ροής εργασιών του Step Functions μείωσε τον υπολογιστικό χρόνο έως και 48%. Μόλις ο χρήστης ανεβάσει την εικόνα στον κάδο S3, το Amazon API Gateway εγκαινιάζει μια ροή εργασίας AWS Step Functions. Στη συνέχεια, οι παρακάτω τρεις συναρτήσεις Lambda επεξεργάζονται παράλληλα την εικόνα εντός της ροής εργασίας Step Functions.

  • Η πρώτη συνάρτηση λάμδα που καλείται describe_image αναλύει την εικόνα χρησιμοποιώντας το μοντέλο OFA_IMAGE_CAPTION φιλοξενείται σε τελικό σημείο του SageMaker σε πραγματικό χρόνο για την παροχή λεζάντας εικόνας.
  • Η δεύτερη συνάρτηση λάμδα που καλείται describe_faces πρώτα ελέγχει αν υπάρχουν πρόσωπα που χρησιμοποιούν το Amazon Rekognition API εντοπισμού προσώπων, και αν αληθεύει, καλεί το Compare Faces API. Ο λόγος για αυτό είναι ότι το Compare Faces θα εμφανίσει σφάλμα εάν δεν υπάρχουν πρόσωπα στην εικόνα. Επίσης, η κλήση πρώτα στο Detect Faces είναι πιο γρήγορη από την απλή εκτέλεση της σύγκρισης προσώπων και τον χειρισμό σφαλμάτων, επομένως για εικόνες χωρίς πρόσωπα, ο χρόνος επεξεργασίας θα είναι ταχύτερος.
  • Η τρίτη συνάρτηση λάμδα καλείται extract_text χειρίζεται τη μετατροπή κειμένου σε ομιλία χρησιμοποιώντας το Amazon Textract και το Amazon Comprehend.

Η διαδοχική εκτέλεση των συναρτήσεων Λάμδα είναι κατάλληλη, αλλά ο ταχύτερος και αποτελεσματικότερος τρόπος για να γίνει αυτό είναι η παράλληλη επεξεργασία. Ο παρακάτω πίνακας δείχνει τον υπολογιστικό χρόνο που αποθηκεύτηκε για τρία δείγματα εικόνων.

Εικόνα People Διαδοχικός χρόνος Παράλληλος Χρόνος Εξοικονόμηση χρόνου (%) Λεζάντα
Παρουσιάζοντας μια εφαρμογή Generative AI που μετατρέπεται σε ομιλία χρησιμοποιώντας το Amazon SageMaker και το Hugging Face | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. 0 1869ms 1702ms 8% Μια τιγρέ γάτα κουλουριασμένη σε ένα χνουδωτό λευκό κρεβάτι.
Παρουσιάζοντας μια εφαρμογή Generative AI που μετατρέπεται σε ομιλία χρησιμοποιώντας το Amazon SageMaker και το Hugging Face | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. 1 4277ms 2197ms 48% Μια γυναίκα με πράσινη μπλούζα και μαύρη ζακέτα χαμογελά στην κάμερα. Αναγνωρίζω ένα άτομο: τον Kanbo.
Παρουσιάζοντας μια εφαρμογή Generative AI που μετατρέπεται σε ομιλία χρησιμοποιώντας το Amazon SageMaker και το Hugging Face | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. 4 6603ms 3904ms 40% Άνθρωποι που στέκονται μπροστά από τις σφαίρες του Αμαζονίου. Αναγνωρίζω 3 άτομα: Kanbo, Jack και Ayman.

Λεζάντα εικόνας

Το Hugging Face είναι μια κοινότητα ανοιχτού κώδικα και πλατφόρμα επιστήμης δεδομένων που επιτρέπει στους χρήστες να μοιράζονται, να δημιουργούν, να εκπαιδεύουν και να αναπτύσσουν μοντέλα μηχανικής εκμάθησης. Αφού εξερευνήσαμε μοντέλα που είναι διαθέσιμα στο Hugging Face model hub, επιλέξαμε να χρησιμοποιήσουμε το Μοντέλο ΟΦΑ επειδή, όπως περιγράφεται από τους συγγραφείς, είναι «ένα εργασιακό αγνωστικιστικό πλαίσιο και τροπικό-αγνωστικό πλαίσιο που υποστηρίζει την πληρότητα εργασιών».

Το OFA είναι ένα βήμα προς το «One For All», καθώς είναι ένα ενοποιημένο πολυτροπικό προεκπαιδευμένο μοντέλο που μπορεί να μεταφερθεί αποτελεσματικά σε μια σειρά από εργασίες κατάντη. Ενώ το μοντέλο OFA υποστηρίζει πολλές εργασίες, όπως οπτική γείωση, κατανόηση γλώσσας και δημιουργία εικόνων, χρησιμοποιήσαμε το Μοντέλο OFA για λεζάντες εικόνων στο έργο Describe For Me για να εκτελέσετε το τμήμα εικόνας σε κείμενο της εφαρμογής. Δείτε το επίσημο αποθετήριο του OFA (ICML 2022), χαρτί για να μάθετε για τις Ενοποιητικές Αρχιτεκτονικές, Καθήκοντα και Τρόπους του OFA μέσω ενός απλού πλαισίου μάθησης αλληλουχίας σε ακολουθία.

Για να ενσωματώσουμε το OFA στην εφαρμογή μας, κλωνοποιήσαμε το repo από το Hugging Face και δεσμεύσαμε το μοντέλο για να το αναπτύξουμε σε ένα τελικό σημείο του SageMaker. ο σημειωματάριο σε αυτό το αποθετήριο είναι ένας εξαιρετικός οδηγός για την ανάπτυξη του μεγάλου μοντέλου OFA σε ένα σημειωματάριο Jupyter στο SageMaker. Μετά την αποθήκευση του σεναρίου συμπερασμάτων σας, το μοντέλο είναι έτοιμο να αναπτυχθεί πίσω από ένα τελικό σημείο του SageMaker όπως περιγράφεται στο SageMaker τεκμηρίωση. Μόλις αναπτυχθεί το μοντέλο, δημιουργήστε ένα τελικό σημείο HTTPS το οποίο μπορεί να ενσωματωθεί με τη συνάρτηση λάμδα "describe_image" που αναλύει την εικόνα για να δημιουργήσει τη λεζάντα της εικόνας. Αναπτύξαμε το μικροσκοπικό μοντέλο OFA επειδή είναι μικρότερο μοντέλο και μπορεί να αναπτυχθεί σε μικρότερο χρονικό διάστημα επιτυγχάνοντας παρόμοια απόδοση.

Παραδείγματα περιεχομένου εικόνας σε ομιλία που δημιουργήθηκε από το "Describe For Me" εμφανίζονται παρακάτω:

Το βόρειο σέλας, ή το βόρειο σέλας, γεμίζουν τον νυχτερινό ουρανό πάνω από μια σιλουέτα ενός σπιτιού..

Το βόρειο σέλας, ή το βόρειο σέλας, γεμίζουν τον νυχτερινό ουρανό πάνω από μια σιλουέτα ενός σπιτιού..

Ένας σκύλος κοιμάται σε μια κόκκινη κουβέρτα σε ένα ξύλινο πάτωμα, δίπλα σε μια ανοιχτή βαλίτσα γεμάτη παιχνίδια..

Ένας σκύλος κοιμάται σε μια κόκκινη κουβέρτα σε ένα ξύλινο πάτωμα, δίπλα σε μια ανοιχτή βαλίτσα γεμάτη παιχνίδια..

Μια τιγρέ γάτα κουλουριασμένη σε ένα χνουδωτό λευκό κρεβάτι.

Μια τιγρέ γάτα κουλουριασμένη σε ένα χνουδωτό λευκό κρεβάτι.

Αναγνώριση προσώπου

Η εικόνα αναγνώρισης του Amazon παρέχει το DetectFaces λειτουργία που αναζητά βασικά χαρακτηριστικά του προσώπου, όπως μάτια, μύτη και στόμα για να ανιχνεύσει πρόσωπα σε μια εικόνα εισόδου. Στη λύση μας αξιοποιούμε αυτή τη λειτουργία για να ανιχνεύσουμε τυχόν άτομα στην εικόνα εισόδου. Εάν εντοπιστεί ένα άτομο, τότε χρησιμοποιούμε το Συγκρίνετε Πρόσωπα λειτουργία σύγκρισης του προσώπου στην εικόνα εισόδου με τα πρόσωπα με τα οποία έχει εκπαιδευτεί το "Describe For Me" και περιγραφή του ατόμου με το όνομα. Επιλέξαμε να χρησιμοποιήσουμε το Rekognition για ανίχνευση προσώπου λόγω της υψηλής ακρίβειας και του πόσο απλός ήταν να ενσωματωθεί στην εφαρμογή μας με τις out of the box δυνατότητες.

Μια ομάδα ανθρώπων που ποζάρουν για μια φωτογραφία σε ένα δωμάτιο. Αναγνωρίζω 4 άτομα: Jack, Kanbo, Alak και Trac. Βρέθηκε κείμενο και στην εικόνα. Διαβάζει: AWS re: Invent

Μια ομάδα ανθρώπων που ποζάρουν για μια φωτογραφία σε ένα δωμάτιο. Αναγνωρίζω 4 άτομα: Jack, Kanbo, Alak και Trac. Βρέθηκε κείμενο και στην εικόνα. Διαβάζει: AWS re: Invent

Πιθανές περιπτώσεις χρήσης

Εναλλακτική δημιουργία κειμένου για εικόνες web

Όλες οι εικόνες σε έναν ιστότοπο απαιτείται να έχουν ένα εναλλακτικό κείμενο, ώστε οι αναγνώστες οθόνης να μπορούν να τις εκφωνούν σε άτομα με προβλήματα όρασης. Είναι επίσης καλό για τη βελτιστοποίηση μηχανών αναζήτησης (SEO). Η δημιουργία υπότιτλων εναλλακτικών μπορεί να είναι χρονοβόρα καθώς ένας κειμενογράφος αναλαμβάνει να τους παρέχει σε ένα έγγραφο σχεδίασης. Το Describe For Me API θα μπορούσε να δημιουργήσει αυτόματα εναλλακτικό κείμενο για εικόνες. Θα μπορούσε επίσης να χρησιμοποιηθεί ως πρόσθετο προγράμματος περιήγησης για την αυτόματη προσθήκη λεζάντας εικόνας σε εικόνες που λείπουν εναλλακτικό κείμενο σε οποιονδήποτε ιστότοπο.

Ηχητική περιγραφή για βίντεο

Η Περιγραφή ήχου παρέχει ένα κομμάτι αφήγησης για περιεχόμενο βίντεο που βοηθά τα άτομα με προβλήματα όρασης να ακολουθούν μαζί με ταινίες. Καθώς η λεζάντα της εικόνας γίνεται πιο ισχυρή και ακριβής, θα μπορούσε να είναι δυνατή μια ροή εργασίας που περιλαμβάνει τη δημιουργία ενός ηχητικού κομματιού με βάση τις περιγραφές για βασικά μέρη μιας σκηνής. Το Amazon Rekognition μπορεί ήδη να ανιχνεύσει αλλαγές σκηνών, λογότυπα και ακολουθίες πιστώσεων και ανίχνευση διασημοτήτων. Μια μελλοντική έκδοση της περιγραφής θα επέτρεπε την αυτοματοποίηση αυτού του βασικού χαρακτηριστικού για ταινίες και βίντεο.

Συμπέρασμα

Σε αυτήν την ανάρτηση, συζητήσαμε πώς να χρησιμοποιήσουμε τις υπηρεσίες AWS, συμπεριλαμβανομένων των υπηρεσιών τεχνητής νοημοσύνης και χωρίς διακομιστή, για να βοηθήσουμε τα άτομα με προβλήματα όρασης να δουν εικόνες. Μπορείτε να μάθετε περισσότερα για το έργο Describe For Me και να το χρησιμοποιήσετε επισκεπτόμενοι describeforme.com. Μάθετε περισσότερα για τα μοναδικά χαρακτηριστικά του Amazon Sage MakerΑναγνώριση Amazon και την Συνεργασία AWS με το Hugging Face.

Αποποίηση ευθυνών για το μοντέλο ML τρίτων

Αυτή η καθοδήγηση είναι μόνο για ενημερωτικούς σκοπούς. Θα πρέπει ακόμα να πραγματοποιήσετε τη δική σας ανεξάρτητη αξιολόγηση και να λάβετε μέτρα για να διασφαλίσετε ότι συμμορφώνεστε με τις δικές σας συγκεκριμένες πρακτικές και πρότυπα ποιοτικού ελέγχου, καθώς και με τους τοπικούς κανόνες, νόμους, κανονισμούς, άδειες και όρους χρήσης που ισχύουν για εσάς, το περιεχόμενό σας και το μοντέλο μηχανικής εκμάθησης τρίτου κατασκευαστή που αναφέρεται σε αυτήν την καθοδήγηση. Η AWS δεν έχει κανέναν έλεγχο ή εξουσία επί του μοντέλου Machine Learning τρίτου κατασκευαστή που αναφέρεται σε αυτήν την καθοδήγηση και δεν παρέχει καμία δήλωση ή εγγύηση ότι το μοντέλο Machine Learning τρίτου κατασκευαστή είναι ασφαλές, απαλλαγμένο από ιούς, λειτουργικό ή συμβατό με το περιβάλλον παραγωγής σας και πρότυπα. Η AWS δεν προβαίνει σε δηλώσεις, εγγυήσεις ή εγγυήσεις ότι οποιαδήποτε πληροφορία σε αυτήν την καθοδήγηση θα έχει ως αποτέλεσμα ένα συγκεκριμένο αποτέλεσμα ή αποτέλεσμα.


Σχετικά με τους Συγγραφείς

Τζακ ΜαρκέτιΤζακ Μαρκέτι είναι αρχιτέκτονας Senior Solutions στην AWS που επικεντρώνεται στο να βοηθά τους πελάτες να εκσυγχρονίσουν και να εφαρμόσουν αρχιτεκτονικές χωρίς διακομιστές, βασισμένες σε εκδηλώσεις. Ο Τζακ είναι νομικά τυφλός και μένει στο Σικάγο με τη γυναίκα του Έριν και τη γάτα Μίνου. Είναι επίσης σεναριογράφος και σκηνοθέτης με κύριο άξονα τις χριστουγεννιάτικες ταινίες και τον τρόμο. Δείτε τη φιλμογραφία του Jack στο δικό του Σελίδα IMDb.

Alak EswaradassAlak Eswaradass είναι Senior Solutions Architect στην AWS με έδρα το Σικάγο του Ιλινόις. Είναι παθιασμένη να βοηθά τους πελάτες να σχεδιάζουν αρχιτεκτονικές cloud χρησιμοποιώντας υπηρεσίες AWS για την επίλυση επιχειρηματικών προκλήσεων. Ο Alak είναι ενθουσιασμένος με τη χρήση του SageMaker για την επίλυση μιας ποικιλίας περιπτώσεων χρήσης ML για πελάτες AWS. Όταν δεν εργάζεται, η Alak απολαμβάνει να περνά χρόνο με τις κόρες της και να εξερευνά την ύπαιθρο με τα σκυλιά της.

Kandyce BohannonKandyce Bohannon είναι Senior Solutions Architect με έδρα τη Minneapolis, MN. Σε αυτόν τον ρόλο, ο Kandyce εργάζεται ως τεχνικός σύμβουλος σε πελάτες AWS, καθώς εκσυγχρονίζουν τεχνολογικές στρατηγικές ειδικά που σχετίζονται με δεδομένα και DevOps για την εφαρμογή βέλτιστων πρακτικών στο AWS. Επιπλέον, η Kandyce είναι παθιασμένη με την καθοδήγηση των μελλοντικών γενεών τεχνολόγων και την προβολή γυναικών στην τεχνολογία μέσω του προγράμματος AWS She Builds Tech Skills.

Trac DoTrac Do είναι αρχιτέκτονας λύσεων στην AWS. Στο ρόλο του, ο Trac συνεργάζεται με εταιρικούς πελάτες για να υποστηρίξει τις μετακινήσεις τους στο cloud και τις πρωτοβουλίες εκσυγχρονισμού εφαρμογών. Είναι παθιασμένος με την εκμάθηση των προκλήσεων των πελατών και την επίλυσή τους με ισχυρές και επεκτάσιμες λύσεις χρησιμοποιώντας υπηρεσίες AWS. Ο Trac αυτή τη στιγμή ζει στο Σικάγο με τη γυναίκα του και τα 3 αγόρια του. Είναι μεγάλος λάτρης της αεροπορίας και βρίσκεται στη διαδικασία ολοκλήρωσης της Ιδιωτικής του άδειας πιλότου.

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS