Παρουσιάζοντας το Whisper

Εκπαιδεύσαμε και διαθέτουμε ανοιχτού κώδικα ένα νευρωνικό δίκτυο που ονομάζεται Whisper, το οποίο προσεγγίζει την ευρωστία και την ακρίβεια σε ανθρώπινο επίπεδο στην αγγλική αναγνώριση ομιλίας.

Διαβάστε το χαρτί


Προβολή κωδικού


Προβολή κάρτας μοντέλου

Παραδείγματα Whisper:

Το Whisper είναι ένα σύστημα αυτόματης αναγνώρισης ομιλίας (ASR) εκπαιδευμένο σε 680,000 ώρες πολύγλωσσων και εποπτευόμενων δεδομένων πολλαπλών εργασιών που συλλέγονται από τον Ιστό. Δείχνουμε ότι η χρήση ενός τόσο μεγάλου και διαφορετικού συνόλου δεδομένων οδηγεί σε βελτιωμένη ανθεκτικότητα στους τόνους, στο θόρυβο του περιβάλλοντος και στην τεχνική γλώσσα. Επιπλέον, επιτρέπει τη μεταγραφή σε πολλές γλώσσες, καθώς και τη μετάφραση από αυτές τις γλώσσες στα αγγλικά. Είμαστε μοντέλα ανοιχτού κώδικα και κώδικας συμπερασμάτων που θα χρησιμεύσουν ως βάση για τη δημιουργία χρήσιμων εφαρμογών και για περαιτέρω έρευνα σχετικά με την ισχυρή επεξεργασία ομιλίας.

εικόνα
εικόνα

Η αρχιτεκτονική Whisper είναι μια απλή προσέγγιση από άκρο σε άκρο, που υλοποιείται ως μετασχηματιστής κωδικοποιητή-αποκωδικοποιητή. Ο ήχος εισόδου χωρίζεται σε κομμάτια 30 δευτερολέπτων, μετατρέπεται σε φασματογράφημα log-Mel και στη συνέχεια περνά σε έναν κωδικοποιητή. Ένας αποκωδικοποιητής εκπαιδεύεται να προβλέπει την αντίστοιχη λεζάντα κειμένου, σε συνδυασμό με ειδικά διακριτικά που κατευθύνουν το μεμονωμένο μοντέλο για να εκτελέσει εργασίες όπως αναγνώριση γλώσσας, χρονικές σημάνσεις σε επίπεδο φράσης, πολυγλωσσική μεταγραφή ομιλίας και μετάφραση ομιλίας στα αγγλικά.

εικόνα
εικόνα

Άλλες υπάρχουσες προσεγγίσεις χρησιμοποιούν συχνά μικρότερα, πιο στενά ζευγοποιημένα σύνολα δεδομένων εκπαίδευσης ήχου-κειμένου, ή χρησιμοποιήστε ευρεία αλλά χωρίς επίβλεψη προκατάρτιση ήχου. Επειδή το Whisper εκπαιδεύτηκε σε ένα μεγάλο και ποικίλο σύνολο δεδομένων και δεν ήταν προσαρμοσμένο σε κάποιο συγκεκριμένο, δεν ξεπερνά τα μοντέλα που ειδικεύονται στην απόδοση LibriSpeech, ένα διάσημο ανταγωνιστικό σημείο αναφοράς στην αναγνώριση ομιλίας. Ωστόσο, όταν μετράμε την απόδοση μηδενικής λήψης του Whisper σε πολλά διαφορετικά σύνολα δεδομένων, διαπιστώνουμε ότι είναι πολύ πιο ισχυρό και κάνει 50% λιγότερα σφάλματα από αυτά τα μοντέλα.

Περίπου το ένα τρίτο του συνόλου δεδομένων ήχου του Whisper δεν είναι αγγλικά και του ανατίθεται εναλλακτικά η αποστολή της μεταγραφής στην αρχική γλώσσα ή της μετάφρασης στα αγγλικά. Διαπιστώνουμε ότι αυτή η προσέγγιση είναι ιδιαίτερα αποτελεσματική στην εκμάθηση της μετάφρασης ομιλίας σε κείμενο και υπερέχει του εποπτευόμενου SOTA στη μετάφραση CoVoST2 σε Αγγλική μετάφραση zero-shot.

εικόνα
εικόνα

Ελπίζουμε ότι η υψηλή ακρίβεια και η ευκολία χρήσης του Whisper θα επιτρέψουν στους προγραμματιστές να προσθέσουν φωνητικές διεπαφές σε ένα πολύ ευρύτερο σύνολο εφαρμογών. Ελέγξτε το χαρτί, κάρτα μοντέλου, να κωδικός για να μάθετε περισσότερες λεπτομέρειες και να δοκιμάσετε το Whisper.

Σφραγίδα ώρας:

Περισσότερα από OpenAI