Εντοπίστε συμβάντα ήχου με το Amazon Rekognition PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Εντοπίστε συμβάντα ήχου με το Amazon Rekognition

Όταν οι περισσότεροι άνθρωποι σκέφτονται τη χρήση μηχανικής εκμάθησης (ML) με δεδομένα ήχου, η περίπτωση χρήσης που συνήθως έρχεται στο μυαλό είναι μεταγραφή, γνωστό και ως ομιλία σε κείμενο. Ωστόσο, υπάρχουν και άλλες χρήσιμες εφαρμογές, συμπεριλαμβανομένης της χρήσης ML για την ανίχνευση ήχων.

Η χρήση λογισμικού για την ανίχνευση ήχου ονομάζεται ανίχνευση συμβάντων ήχου, και έχει μια σειρά από εφαρμογές. Για παράδειγμα, ας υποθέσουμε ότι θέλετε να παρακολουθείτε τους ήχους από ένα θορυβώδες εργοστασιακό πάτωμα, ακούγοντας ένα κουδούνι συναγερμού που υποδεικνύει πρόβλημα με ένα μηχάνημα. Σε ένα περιβάλλον υγειονομικής περίθαλψης, μπορείτε να χρησιμοποιήσετε την ανίχνευση συμβάντων ήχου για να ακούτε παθητικά ήχους από έναν ασθενή που υποδεικνύουν οξύ πρόβλημα υγείας. Ο φόρτος εργασίας πολυμέσων είναι κατάλληλος για αυτήν την τεχνική, για παράδειγμα για τον εντοπισμό πότε η σφυρίχτρα ενός διαιτητή ακούγεται σε ένα αθλητικό βίντεο. Και φυσικά, μπορείτε να χρησιμοποιήσετε αυτήν την τεχνική σε διάφορους φόρτους εργασίας επιτήρησης, όπως να ακούτε έναν πυροβολισμό ή τον ήχο ενός τροχαίου ατυχήματος από ένα μικρόφωνο που είναι τοποθετημένο πάνω από έναν δρόμο της πόλης.

Αυτή η ανάρτηση περιγράφει πώς να ανιχνεύσετε ήχους σε ένα αρχείο ήχου ακόμα κι αν υπάρχουν σημαντικοί ήχοι φόντου που συμβαίνουν ταυτόχρονα. Επιπλέον, ίσως παραδόξως, χρησιμοποιούμε τεχνικές που βασίζονται στην όραση υπολογιστή για να κάνουμε την ανίχνευση, χρησιμοποιώντας Αναγνώριση Amazon.

Χρήση δεδομένων ήχου με μηχανική εκμάθηση

Το πρώτο βήμα για τον εντοπισμό συμβάντων ήχου είναι η κατανόηση του τρόπου με τον οποίο αναπαρίστανται τα δεδομένα ήχου. Για τους σκοπούς αυτής της ανάρτησης, ασχολούμαστε μόνο με ηχογραφημένο ήχο, αν και αυτές οι τεχνικές λειτουργούν με ροή ήχου.

Ο ηχογραφημένος ήχος συνήθως αποθηκεύεται ως μια ακολουθία δειγμάτων ήχου, τα οποία μετρούν την ένταση των ηχητικών κυμάτων που χτύπησαν το μικρόφωνο κατά την εγγραφή, με την πάροδο του χρόνου. Υπάρχει μεγάλη ποικιλία μορφών με τις οποίες αποθηκεύονται αυτά τα δείγματα, αλλά μια κοινή προσέγγιση είναι η αποθήκευση 10,000, 20,000 ή ακόμα και 40,000 δειγμάτων ανά δευτερόλεπτο, με κάθε δείγμα να είναι ένας ακέραιος από 0–65535 (δύο byte). Επειδή κάθε δείγμα μετρά μόνο την ένταση των ηχητικών κυμάτων σε μια συγκεκριμένη στιγμή, τα δεδομένα ήχου γενικά δεν είναι χρήσιμα για τις διεργασίες ML επειδή δεν έχουν χρήσιμα χαρακτηριστικά στην ακατέργαστη κατάσταση.

Για να γίνουν χρήσιμα αυτά τα δεδομένα, το δείγμα ήχου μετατρέπεται σε μια εικόνα που ονομάζεται a φασματογράφημα, το οποίο είναι μια αναπαράσταση των δεδομένων ήχου που δείχνει την ένταση των διαφορετικών ζωνών συχνοτήτων με την πάροδο του χρόνου. Η παρακάτω εικόνα δείχνει ένα παράδειγμα.

Ο άξονας Χ αυτής της εικόνας αντιπροσωπεύει το χρόνο, που σημαίνει ότι το αριστερό άκρο της εικόνας είναι η αρχή του ήχου και η δεξιά άκρη της εικόνας είναι το τέλος. Κάθε στήλη δεδομένων μέσα στην εικόνα αντιπροσωπεύει διαφορετικές ζώνες συχνοτήτων (που υποδεικνύονται από την κλίμακα στην αριστερή πλευρά της εικόνας) και το χρώμα σε κάθε σημείο αντιπροσωπεύει την ένταση αυτής της συχνότητας τη συγκεκριμένη χρονική στιγμή.

Η κατακόρυφη κλίμακα για τα φασματογράμματα μπορεί να αλλάξει σε άλλες αναπαραστάσεις. Για παράδειγμα, η γραμμική κλίμακα σημαίνει ότι ο άξονας Υ είναι ομοιόμορφα διαιρεμένος σε συχνότητες, η λογαριθμική κλίμακα χρησιμοποιεί μια κλίμακα καταγραφής και ούτω καθεξής. Το πρόβλημα με τη χρήση αυτών των αναπαραστάσεων είναι ότι οι συχνότητες σε ένα αρχείο ήχου συνήθως δεν είναι ομοιόμορφα κατανεμημένες, επομένως οι περισσότερες από τις πληροφορίες που μπορεί να μας ενδιαφέρουν καταλήγουν να συγκεντρώνονται κοντά στο κάτω μέρος της εικόνας (τις χαμηλότερες συχνότητες).

Για να λύσουμε αυτό το πρόβλημα, το δείγμα εικόνας μας είναι ένα παράδειγμα α Φασματογράφημα Mel, το οποίο έχει κλιμακωθεί ώστε να προσεγγίζει τον τρόπο με τον οποίο αντιλαμβάνονται τον ήχο τα ανθρώπινα όντα. Παρατηρήστε τους δείκτες συχνότητας κατά μήκος της αριστερής πλευράς της εικόνας — δίνουν μια ιδέα για το πώς κατανέμονται κάθετα και είναι σαφές ότι πρόκειται για μια μη γραμμική κλίμακα.

Επιπλέον, μπορούμε να τροποποιήσουμε τη μέτρηση της έντασης ανά συχνότητα ανά χρόνο για να βελτιώσουμε διάφορες λειτουργίες του ήχου που μετράται. Όπως και με την κλιμάκωση του άξονα Υ που υλοποιείται από ένα φασματόγραμμα Mel, άλλοι τονίζουν χαρακτηριστικά όπως η ένταση των 12 διακριτών τάξεων τόνου που χρησιμοποιούνται για τη μελέτη της μουσικής (χρώμα). Μια άλλη τάξη δίνει έμφαση σε οριζόντια (αρμονικά) χαρακτηριστικά ή κάθετα (κρουστά) χαρακτηριστικά. Ο τύπος του ήχου που ανιχνεύεται θα πρέπει να οδηγεί τον τύπο του φασματογράμματος που χρησιμοποιείται για το σύστημα ανίχνευσης.

Το προηγούμενο παράδειγμα φασματογράμματος αντιπροσωπεύει ένα μουσικό κλιπ που διαρκεί λίγο περισσότερο από 2 λεπτά. Το ζουμ αποκαλύπτει περισσότερες λεπτομέρειες, όπως φαίνεται στην παρακάτω εικόνα.

Εντοπίστε συμβάντα ήχου με το Amazon Rekognition PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Οι αριθμοί στο επάνω μέρος της εικόνας δείχνουν τον αριθμό των δευτερολέπτων από την έναρξη του αρχείου ήχου. Μπορείτε να δείτε καθαρά μια ακολουθία ήχων που φαίνεται να επαναλαμβάνονται περισσότερες από τέσσερις φορές το δευτερόλεπτο, υποδεικνύεται από τα φωτεινά χρώματα κοντά στο κάτω μέρος της εικόνας.

Όπως μπορείτε να δείτε, αυτό είναι ένα από τα πλεονεκτήματα της μετατροπής του ήχου σε φασματόγραμμα—οι ευδιάκριτοι ήχοι είναι συχνά εύκολα ορατοί με γυμνό μάτι και ακόμη κι αν δεν είναι, μπορούν συχνά να ανιχνευθούν χρησιμοποιώντας αλγόριθμους ανίχνευσης αντικειμένων όρασης υπολογιστή. Μάλιστα, αυτή ακριβώς είναι η διαδικασία που ακολουθούμε για να ανιχνεύσουμε ήχους.

Αναζητώντας διακριτούς ήχους σε ένα φασματόγραμμα

Ανάλογα με τη διάρκεια του αρχείου ήχου που αναζητούμε, η εύρεση ενός διακριτού ήχου που διαρκεί μόλις ένα ή δύο δευτερόλεπτα είναι μια πρόκληση. Ανατρέξτε στο πρώτο φασματόγραμμα που μοιραστήκαμε—επειδή προβάλλουμε ολόκληρα δεδομένα 3:30 λεπτών, οι λεπτομέρειες που διαρκούν μόνο ένα δευτερόλεπτο περίπου δεν είναι ορατές. Μεγεθύναμε πολύ για να δούμε τον ρυθμό που φαίνεται στη δεύτερη εικόνα. Σαφώς, με μεγαλύτερα αρχεία ήχου (και επομένως πολύ μεγαλύτερα φασματογράμματα), αντιμετωπίζουμε γρήγορα προβλήματα εκτός και αν χρησιμοποιήσουμε διαφορετική προσέγγιση. Αυτή η προσέγγιση ονομάζεται παράθυρο.

Το παράθυρο αναφέρεται στη χρήση ενός συρόμενου παραθύρου που κινείται σε ολόκληρο το φασματογράφημα, απομονώνοντας μερικά δευτερόλεπτα (ή λιγότερα) τη φορά. Με την επανειλημμένη απομόνωση τμημάτων της συνολικής εικόνας, λαμβάνουμε μικρότερες εικόνες που μπορούν να αναζητηθούν για την παρουσία του ήχου που πρέπει να εντοπιστεί. Επειδή κάθε παράθυρο θα μπορούσε να έχει ως αποτέλεσμα μόνο ένα μέρος της εικόνας που αναζητούμε (όπως στην περίπτωση αναζήτησης ήχου που δεν ξεκινά ακριβώς στην αρχή ενός παραθύρου), η δημιουργία παραθύρων συχνά εκτελείται με τα επόμενα παράθυρα να επικαλύπτονται. Για παράδειγμα, το πρώτο παράθυρο ξεκινά από το 0:00 και εκτείνεται 2 δευτερόλεπτα, μετά το δεύτερο παράθυρο ξεκινά στο 0:01 και εκτείνεται για 2 δευτερόλεπτα και το τρίτο παράθυρο ξεκινά στο 0:02 και εκτείνεται 2 δευτερόλεπτα κ.ο.κ.

Το παράθυρο διαχωρίζει μια εικόνα φασματογράμματος οριζόντια. Μπορούμε να βελτιώσουμε την αποτελεσματικότητα της διαδικασίας ανίχνευσης απομονώνοντας ορισμένες ζώνες συχνοτήτων περικόπτοντας ή αναζητώντας μόνο ορισμένα κατακόρυφα μέρη της εικόνας. Για παράδειγμα, εάν γνωρίζετε ότι το κουδούνι συναγερμού που θέλετε να ανιχνεύσετε δημιουργεί ήχους που κυμαίνονται από μια συγκεκριμένη συχνότητα σε άλλη, μπορείτε να τροποποιήσετε το τρέχον παράθυρο ώστε να λαμβάνει υπόψη μόνο αυτές τις περιοχές συχνοτήτων. Αυτό μειώνει κατά πολύ τον όγκο των δεδομένων προς χειρισμό και οδηγεί σε πολύ πιο γρήγορη αναζήτηση. Βελτιώνει επίσης την ακρίβεια, επειδή εξαλείφει πιθανές αντιστοιχίσεις ψευδών θετικών που συμβαίνουν σε ζώνες συχνοτήτων εκτός του επιθυμητού εύρους. Οι παρακάτω εικόνες συγκρίνουν έναν πλήρη άξονα Υ (αριστερά) με έναν περιορισμένο άξονα Υ (δεξιά).

Πλήρης άξονας Υ

Πλήρης άξονας Υ

Περιορισμένος άξονας Υ

Περιορισμένος άξονας Υ

Τώρα που ξέρουμε πώς να επαναλαμβάνουμε ένα φασματόγραμμα με προσέγγιση παραθύρου και φιλτράρισμα σε συγκεκριμένες ζώνες συχνοτήτων, το επόμενο βήμα είναι να κάνουμε την πραγματική αναζήτηση του ήχου. Για αυτό χρησιμοποιούμε Προσαρμοσμένες ετικέτες αναγνώρισης Amazon. Η λειτουργία προσαρμοσμένων ετικετών αναγνώρισης βασίζεται στις υπάρχουσες δυνατότητες του Amazon Rekognition, το οποίο έχει ήδη εκπαιδευτεί σε δεκάδες εκατομμύρια εικόνες σε πολλές κατηγορίες. Αντί για χιλιάδες εικόνες, χρειάζεται απλώς να ανεβάσετε ένα μικρό σύνολο εικόνων εκπαίδευσης (συνήθως μερικές εκατοντάδες εικόνες, αλλά το βέλτιστο μέγεθος δεδομένων εκπαίδευσης θα πρέπει να επιτευχθεί πειραματικά με βάση τη συγκεκριμένη περίπτωση χρήσης για να αποφευχθεί η υποεκπαίδευση ή η υπερβολική εκπαίδευση του μοντέλου ) που είναι ειδικά για την περίπτωση χρήσης σας μέσω της κονσόλας Rekognition Custom Labels.

Εάν οι εικόνες σας έχουν ήδη επισημανθεί, η εκπαίδευση στο Amazon Rekognition είναι προσβάσιμη με λίγα μόνο κλικ. Εναλλακτικά, μπορείτε να προσθέσετε ετικέτες στις εικόνες απευθείας μέσα στη διεπαφή ετικετών Amazon Rekognition ή να χρησιμοποιήσετε Amazon SageMaker Ground Αλήθεια για να σου τα χαρίσω. Όταν το Amazon Rekognition ξεκινά την εκπαίδευση από το σύνολο εικόνων σας, παράγει ένα προσαρμοσμένο μοντέλο ανάλυσης εικόνας για εσάς μέσα σε λίγες μόνο ώρες. Στα παρασκήνια, το Rekognition Custom Labels φορτώνει και επιθεωρεί αυτόματα τα δεδομένα εκπαίδευσης, επιλέγει τους σωστούς αλγόριθμους ML, εκπαιδεύει ένα μοντέλο και παρέχει μετρήσεις απόδοσης μοντέλου. Στη συνέχεια, μπορείτε να χρησιμοποιήσετε το προσαρμοσμένο μοντέλο σας μέσω του API προσαρμοσμένων ετικετών αναγνώρισης και ενσωματώστε το στις εφαρμογές σας.

Συγκέντρωση δεδομένων εκπαίδευσης και εκπαίδευση μοντέλου προσαρμοσμένων ετικετών αναγνώρισης

Στο Το αποθετήριο GitHub σχετίζεται με αυτήν την ανάρτηση, θα βρείτε κώδικα που δείχνει πώς να ακούτε τον ήχο ενός συναγερμού καπνού που ανάβει, ανεξάρτητα από το θόρυβο του περιβάλλοντος. Σε αυτήν την περίπτωση, το μοντέλο Προσαρμοσμένων Ετικετών Αναγνώρισης είναι ένα δυαδικό μοντέλο ταξινόμησης, που σημαίνει ότι τα αποτελέσματα είναι είτε "ανιχνεύτηκε ήχος συναγερμού καπνού" είτε "δεν εντοπίστηκε ήχος συναγερμού καπνού".

Για να δημιουργήσουμε ένα προσαρμοσμένο μοντέλο, χρειαζόμαστε δεδομένα εκπαίδευσης. Αυτά τα δεδομένα εκπαίδευσης αποτελούνται από δύο βασικούς τύπους: τους ήχους του περιβάλλοντος και τους ήχους που θέλετε να ανιχνεύσετε (όπως ένας συναγερμός καπνού που χτυπάει).

Τα περιβαλλοντικά δεδομένα πρέπει να αντιπροσωπεύουν μια μεγάλη ποικιλία ηχητικών τοπίων που είναι τυπικά για το περιβάλλον στο οποίο θέλετε να ανιχνεύσετε τον ήχο. Για παράδειγμα, εάν θέλετε να ανιχνεύσετε έναν ήχο συναγερμού καπνού σε ένα εργοστασιακό περιβάλλον, ξεκινήστε με ήχους που έχουν εγγραφεί σε αυτό το εργοστασιακό περιβάλλον στο διάφορες καταστάσεις (χωρίς να ηχήσει ο συναγερμός καπνού, φυσικά).

Οι ήχοι που θέλετε να ανιχνεύσετε θα πρέπει να απομονώνονται εάν είναι δυνατόν, πράγμα που σημαίνει ότι οι εγγραφές θα πρέπει να είναι απλώς ο ίδιος ο ήχος χωρίς ήχους περιβάλλοντος περιβάλλοντος. Για το παράδειγμά μας, αυτός είναι ένας ήχος ενός συναγερμού καπνού που χτυπάει.

Αφού συλλέξετε αυτούς τους ήχους, ο κώδικας στο αποθετήριο GitHub δείχνει πώς να συνδυάσετε τους περιβαλλοντικούς ήχους με τους ήχους συναγερμού καπνού με διάφορους τρόπους (και στη συνέχεια να τους μετατρέψετε σε φασματογράμματα) προκειμένου να δημιουργήσετε έναν αριθμό εικόνων που αντιπροσωπεύουν τους περιβαλλοντικούς ήχους με και χωρίς τους ήχους συναγερμού καπνού που επικαλύπτονται πάνω τους. Η ακόλουθη εικόνα είναι ένα παράδειγμα ορισμένων περιβαλλοντικών ήχων με έναν ήχο συναγερμού καπνού (οι φωτεινές οριζόντιες ράβδοι) που επικαλύπτονται από πάνω.

Εντοπίστε συμβάντα ήχου με το Amazon Rekognition PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Τα δεδομένα εκπαίδευσης και δοκιμής αποθηκεύονται σε ένα Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) κάδος. Η ακόλουθη δομή καταλόγου είναι ένα καλό σημείο εκκίνησης για την οργάνωση δεδομένων εντός του κάδου.

Εντοπίστε συμβάντα ήχου με το Amazon Rekognition PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Το δείγμα κώδικα στο αποθετήριο GitHub σάς επιτρέπει να επιλέξετε πόσες εικόνες εκπαίδευσης θα δημιουργήσετε. Οι προσαρμοσμένες ετικέτες αναγνώρισης δεν απαιτούν μεγάλο αριθμό εικόνων εκπαίδευσης. Ένα σετ εκπαίδευσης 200–500 εικόνων θα πρέπει να είναι αρκετό.

Η δημιουργία ενός έργου προσαρμοσμένων ετικετών αναγνώρισης απαιτεί να καθορίσετε τα URI του φακέλου S3 που περιέχει τα δεδομένα εκπαίδευσης και (προαιρετικά) δεδομένα δοκιμής. Κατά τον καθορισμό των πηγών δεδομένων για την εργασία εκπαίδευσης, μία από τις επιλογές είναι Αυτόματη επισήμανση, όπως φαίνεται στο παρακάτω στιγμιότυπο οθόνης.

Εντοπίστε συμβάντα ήχου με το Amazon Rekognition PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Η χρήση αυτής της επιλογής σημαίνει ότι το Amazon Rekognition χρησιμοποιεί τα ονόματα των φακέλων ως ονόματα ετικετών. Για την περίπτωση χρήσης ανίχνευσης συναγερμού καπνού, η δομή του φακέλου στο εσωτερικό του τρένου και των φακέλων δοκιμής μοιάζει με το ακόλουθο στιγμιότυπο οθόνης.

Εντοπίστε συμβάντα ήχου με το Amazon Rekognition PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Οι εικόνες των δεδομένων εκπαίδευσης μπαίνουν σε αυτούς τους φακέλους, με φασματογράμματα που περιέχουν τον ήχο του συναγερμού καπνού στον φάκελο συναγερμού και φασματογράμματα που δεν περιέχουν τον ήχο συναγερμού καπνού στο no_alarm ντοσιέ. Το Amazon Rekognition χρησιμοποιεί αυτά τα ονόματα ως ονόματα κλάσεων εξόδου για το μοντέλο προσαρμοσμένων ετικετών.

Η εκπαίδευση ενός μοντέλου προσαρμοσμένης ετικέτας συνήθως διαρκεί 30–90 λεπτά. Στο τέλος αυτής της εκπαίδευσης, πρέπει να ξεκινήσετε το εκπαιδευμένο μοντέλο ώστε να είναι διαθέσιμο για χρήση.

Αρχιτεκτονική από άκρο σε άκρο για ανίχνευση ήχου

Αφού δημιουργήσουμε το μοντέλο μας, το επόμενο βήμα είναι να δημιουργήσουμε έναν αγωγό συμπερασμάτων, ώστε να μπορούμε να χρησιμοποιήσουμε το μοντέλο για να εντοπίσουμε εάν υπάρχει ήχος συναγερμού καπνού σε ένα αρχείο ήχου. Για να γίνει αυτό, ο ήχος εισόδου πρέπει να μετατραπεί σε φασματόγραμμα και στη συνέχεια να παραθύρου και να φιλτραριστεί κατά συχνότητα, όπως έγινε για τη διαδικασία εκπαίδευσης. Κάθε παράθυρο του φασματογράμματος δίνεται στο μοντέλο, το οποίο επιστρέφει μια ταξινόμηση που υποδεικνύει εάν ο συναγερμός καπνού ακούστηκε ή όχι.

Το παρακάτω διάγραμμα δείχνει ένα παράδειγμα αρχιτεκτονικής που υλοποιεί αυτόν τον αγωγό συμπερασμάτων.

Εντοπίστε συμβάντα ήχου με το Amazon Rekognition PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Αυτή η αρχιτεκτονική περιμένει να τοποθετηθεί ένα αρχείο ήχου σε έναν κάδο S3, το οποίο στη συνέχεια προκαλεί ένα AWS Lambda λειτουργία που θα κληθεί. Το Lambda είναι μια υπηρεσία υπολογισμού χωρίς διακομιστές, βασισμένη σε συμβάντα, η οποία σας επιτρέπει να εκτελείτε κώδικα για σχεδόν οποιοδήποτε τύπο εφαρμογής ή υπηρεσία υποστήριξης χωρίς παροχή ή διαχείριση διακομιστών. Μπορείτε να ενεργοποιήσετε μια λειτουργία Lambda από περισσότερες από 200 υπηρεσίες AWS και εφαρμογές λογισμικού ως υπηρεσία (SaaS) και να πληρώσετε μόνο για ό,τι χρησιμοποιείτε.

Η συνάρτηση Lambda λαμβάνει το όνομα του κάδου και το όνομα του κλειδιού (ή του ονόματος αρχείου) του αρχείου ήχου. Το αρχείο μεταφορτώνεται από το Amazon S3 στη μνήμη της συνάρτησης, η οποία στη συνέχεια το μετατρέπει σε φασματόγραμμα και εκτελεί παράθυρα και φιλτράρισμα συχνότητας. Κάθε τμήμα του φασματογράμματος με παράθυρο αποστέλλεται στη συνέχεια στο Amazon Rekognition, το οποίο χρησιμοποιεί το προηγουμένως εκπαιδευμένο μοντέλο Amazon Custom Labels για να ανιχνεύσει τον ήχο. Εάν βρεθεί αυτός ο ήχος, η συνάρτηση Λάμδα σηματοδοτεί ότι χρησιμοποιώντας ένα Υπηρεσία απλών ειδοποιήσεων Amazon Ειδοποίηση (Amazon SNS). Το Amazon SNS προσφέρει μια pub/sub προσέγγιση όπου μπορούν να σταλούν ειδοποιήσεις Υπηρεσία απλής ουράς Amazon Ουρές (Amazon SQS), συναρτήσεις Lambda, τελικά σημεία HTTPS, διευθύνσεις email, push για κινητά και πολλά άλλα.

Συμπέρασμα

Μπορείτε να χρησιμοποιήσετε τη μηχανική εκμάθηση με δεδομένα ήχου για να προσδιορίσετε πότε εμφανίζονται ορισμένοι ήχοι, ακόμη και όταν ακούγονται άλλοι ήχοι ταυτόχρονα. Για να γίνει αυτό, απαιτείται η μετατροπή του ήχου σε μια εικόνα φασματογράμματος και, στη συνέχεια, η είσοδος σε διαφορετικά μέρη αυτού του φασματογράμματος μέσω παραθύρου και φιλτραρίσματος ανά ζώνη συχνοτήτων. Το Rekognition Custom Labels διευκολύνει την εκπαίδευση ενός προσαρμοσμένου μοντέλου για ανίχνευση ήχου.

Μπορείτε να χρησιμοποιήσετε το GitHub repo που περιέχει το παράδειγμα κώδικα για αυτήν την ανάρτηση ως σημείο εκκίνησης για τα δικά σας πειράματα. Για περισσότερες πληροφορίες σχετικά με τον εντοπισμό συμβάντων ήχου, ανατρέξτε στο Sound Event Detection: A Tutorial.


Σχετικά με τους συγγραφείς

Εντοπίστε συμβάντα ήχου με το Amazon Rekognition PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Γκρεγκ Sommerville είναι Senior Prototyping Architect στην ομάδα AWS Prototyping and Cloud Engineering, όπου βοηθά τους πελάτες της AWS να εφαρμόσουν καινοτόμες λύσεις σε δύσκολα προβλήματα με τη μηχανική μάθηση, το IoT και τις τεχνολογίες χωρίς διακομιστή. Ζει στο Ann Arbor του Μίσιγκαν και του αρέσει να κάνει γιόγκα, να φροντίζει τα σκυλιά του και να παίζει πόκερ.

Εντοπίστε συμβάντα ήχου με το Amazon Rekognition PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Τζεφ Χάρμαν είναι Senior Prototyping Architect στην ομάδα AWS Prototyping and Cloud Engineering, όπου βοηθά τους πελάτες της AWS να εφαρμόσουν καινοτόμες λύσεις σε δύσκολα προβλήματα. Ζει στο Unionville του Κονέκτικατ και του αρέσει η ξυλουργική, η σιδηρουργία και το Minecraft.

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS