Παρουσιάζοντας το Whisper

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Εκπαιδεύσαμε και διαθέτουμε ανοιχτού κώδικα ένα νευρωνικό δίκτυο που ονομάζεται Whisper, το οποίο προσεγγίζει την ευρωστία και την ακρίβεια σε ανθρώπινο επίπεδο στην αγγλική αναγνώριση ομιλίας.

Διαβάστε το χαρτί

Προβολή κωδικού

Προβολή κάρτας μοντέλου

Το Whisper είναι ένα σύστημα αυτόματης αναγνώρισης ομιλίας (ASR) εκπαιδευμένο σε 680,000 ώρες πολύγλωσσων και εποπτευόμενων δεδομένων πολλαπλών εργασιών που συλλέγονται από τον Ιστό. Δείχνουμε ότι η χρήση ενός τόσο μεγάλου και διαφορετικού συνόλου δεδομένων οδηγεί σε βελτιωμένη ανθεκτικότητα στους τόνους, στο θόρυβο του περιβάλλοντος και στην τεχνική γλώσσα. Επιπλέον, επιτρέπει τη μεταγραφή σε πολλές γλώσσες, καθώς και τη μετάφραση από αυτές τις γλώσσες στα αγγλικά. Είμαστε μοντέλα ανοιχτού κώδικα και κώδικας συμπερασμάτων που θα χρησιμεύσουν ως βάση για τη δημιουργία χρήσιμων εφαρμογών και για περαιτέρω έρευνα σχετικά με την ισχυρή επεξεργασία ομιλίας.

Η αρχιτεκτονική Whisper είναι μια απλή προσέγγιση από άκρο σε άκρο, που υλοποιείται ως μετασχηματιστής κωδικοποιητή-αποκωδικοποιητή. Ο ήχος εισόδου χωρίζεται σε κομμάτια 30 δευτερολέπτων, μετατρέπεται σε φασματογράφημα log-Mel και στη συνέχεια περνά σε έναν κωδικοποιητή. Ένας αποκωδικοποιητής εκπαιδεύεται να προβλέπει την αντίστοιχη λεζάντα κειμένου, σε συνδυασμό με ειδικά διακριτικά που κατευθύνουν το μεμονωμένο μοντέλο για να εκτελέσει εργασίες όπως αναγνώριση γλώσσας, χρονικές σημάνσεις σε επίπεδο φράσης, πολυγλωσσική μεταγραφή ομιλίας και μετάφραση ομιλίας στα αγγλικά.

Άλλες υπάρχουσες προσεγγίσεις χρησιμοποιούν συχνά μικρότερα, πιο στενά ζευγοποιημένα σύνολα δεδομένων εκπαίδευσης ήχου-κειμένου, ή χρησιμοποιήστε ευρεία αλλά χωρίς επίβλεψη προκατάρτιση ήχου. Επειδή το Whisper εκπαιδεύτηκε σε ένα μεγάλο και ποικίλο σύνολο δεδομένων και δεν ήταν προσαρμοσμένο σε κάποιο συγκεκριμένο, δεν ξεπερνά τα μοντέλα που ειδικεύονται στην απόδοση LibriSpeech, ένα διάσημο ανταγωνιστικό σημείο αναφοράς στην αναγνώριση ομιλίας. Ωστόσο, όταν μετράμε την απόδοση μηδενικής λήψης του Whisper σε πολλά διαφορετικά σύνολα δεδομένων, διαπιστώνουμε ότι είναι πολύ πιο ισχυρό και κάνει 50% λιγότερα σφάλματα από αυτά τα μοντέλα.

Περίπου το ένα τρίτο του συνόλου δεδομένων ήχου του Whisper δεν είναι αγγλικά και του ανατίθεται εναλλακτικά η αποστολή της μεταγραφής στην αρχική γλώσσα ή της μετάφρασης στα αγγλικά. Διαπιστώνουμε ότι αυτή η προσέγγιση είναι ιδιαίτερα αποτελεσματική στην εκμάθηση της μετάφρασης ομιλίας σε κείμενο και υπερέχει του εποπτευόμενου SOTA στη μετάφραση CoVoST2 σε Αγγλική μετάφραση zero-shot.

Ελπίζουμε ότι η υψηλή ακρίβεια και η ευκολία χρήσης του Whisper θα επιτρέψουν στους προγραμματιστές να προσθέσουν φωνητικές διεπαφές σε ένα πολύ ευρύτερο σύνολο εφαρμογών. Ελέγξτε το χαρτί, κάρτα μοντέλου, να κωδικός για να μάθετε περισσότερες λεπτομέρειες και να δοκιμάσετε το Whisper.

Σφραγίδα ώρας: Σεπτέμβριος 21, 2022Σεπτέμβριος 21, 2022

Σφραγίδα ώρας: 2 Ιουνίου 2022

Παρουσιάζοντας το Whisper

Αναδημοσίευση από τον Πλάτωνα

Παραδείγματα Whisper:

Περισσότερα από OpenAI

Σόρα: Πρώτες Εντυπώσεις

Παρουσιάζουμε το ChatGPT Enterprise

Το DALL·E είναι πλέον διαθέσιμο χωρίς λίστα αναμονής

20 Μαρτίου Διακοπή ChatGPT: Να τι συνέβη

Νέες δυνατότητες GPT-3: Επεξεργασία & Εισαγωγή

Τεχνικές Εκπαίδευσης Μεγάλων Νευρωνικών Δικτύων

Νέα μοντέλα και προϊόντα προγραμματιστών ανακοινώθηκαν στο DevDay

Εξέλιξη μέσα από μεγάλα μοντέλα

OpenAI και Έλον Μασκ

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός