Η επιστήμη πίσω από το πώς το AI της Microsoft μπορεί να μιμηθεί τη φωνή οποιουδήποτε σε 3 δευτερόλεπτα

Η επιστήμη πίσω από το πώς το AI της Microsoft μπορεί να μιμηθεί τη φωνή οποιουδήποτε σε 3 δευτερόλεπτα

Η επιστήμη πίσω από το πώς το AI της Microsoft μπορεί να μιμηθεί τη φωνή οποιουδήποτε σε 3 δευτερόλεπτα Η ευφυΐα δεδομένων PlatoBlockchain. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Ίσως καταλάβετε πόσο ισχυρά γίνονται τα προγράμματα τεχνητής νοημοσύνης (AI). Μιμούνται τις τέχνες μεγάλων και γράφουν σενάρια για παγκόσμιους ηγέτες, προκαλώντας παγκόσμιες συζητήσεις γύρω από την ταχεία επέκταση των εργαλείων AI.

Πιο πρόσφατα, η Microsoft ανέπτυξε ένα AI για μίμηση φωνής. Η αποτελεσματικότητα και η ακρίβειά του είναι πρωτοποριακές, ωστόσο οι χρήστες αμφισβητούν τον σκοπό και τη χρήση του. Πώς λειτουργεί αυτό το εργαλείο και πώς αναπαράγει φωνές σε τόσο σύντομο χρονικό διάστημα;

Γνωρίστε το VALL-E

Το VALL-E είναι το AI που μαθαίνει να αναπαράγει φωνές μέσα σε τρία δευτερόλεπτα. Το VALL-E είναι ένα από τα πρώτα που εκπαιδεύονται τόσο γρήγορα, καθώς οι προηγούμενες επαναλήψεις προγραμμάτων μετατροπής κειμένου σε ομιλία (TTS) αντιμετώπιζαν δυσκολίες με την αποτελεσματικότητα και τις αποχρώσεις των ήχων. 

"Ωστόσο, το VALL-E βελτιώνει την έρευνα για αυτήν τη μελέτη από κάθε άποψη, μειώνοντας τον χρόνο προπόνησης και αυξάνοντας την ακρίβεια σύνθετων ιδιοτήτων φωνής όπως ο τόνος και ο ρυθμός." 

Ένας από τους στόχους του VALL-E ήταν να επαναλάβει αυτές τις λεπτομέρειες Τα προηγούμενα προγράμματα TTS δεν μπορούσαν, και οι δοκιμές δείχνουν μικτά αποτελέσματα για το τρέχον μοντέλο. Για λόγους αυθεντικότητας, ένα πρόγραμμα όπως αυτό δεν μπορεί να αντιγράψει μόνο τη φωνή του ατόμου - πρέπει να αναπαράγει την ποιότητα ήχου της συσκευής εγγραφής και τις περιβαλλοντικές επιρροές του φόντου, όπως στατική ή θόρυβο. Αν και οι ερευνητές παραμένουν εντυπωσιασμένοι από τις αναπαραγόμενες ιδιότητές του, η Microsoft επιδιώκει περαιτέρω βελτιώσεις στην λείανση της χροιάς και των συναισθημάτων.

Επειδή το VALL-E δεν είναι ακόμη διαθέσιμο στο κοινό, δεν είναι σίγουρο πώς θα αποδώσει σε μεγαλύτερη κλίμακα. Η Microsoft αφιερώνει το χρόνο της, το τελειοποιεί πριν από τη δημόσια κυκλοφορία για να διασφαλίσει τη σωστή χρήση. 

Δεδομένου ότι το VALL-E λειτουργεί με ελάχιστη δειγματοληψία φωνής, είναι αβέβαιο πόσο καλά θα δημιουργήσει μεγαλύτερα ηχητικά κλιπ με συνοχή. Τα σύνολα δεδομένων AI και μηχανικής μάθησης έχουν σχεδόν αμέτρητα σημεία δεδομένων προς εξέταση. Είναι ένα άλμα προς το μέλλον της τεχνητής νοημοσύνης εάν η Microsoft τελειοποιήσει την αναπαραγωγή φωνής με ένα τόσο μικρό πλαίσιο αναφοράς. 

Γνωρίστε την Επιστήμη

Το VALL-E είναι επιτυχημένο στο σκοπό του επειδή συνδυάζεται καλά με την υπάρχουσα τεχνολογία. Για παράδειγμα, το GPT-3 ακόμα χρησιμοποιεί μοντέλα επεξεργασίας γλώσσας να τελειοποιήσει τις δυνατότητες παραγωγής TTS για καθαρή παραγωγή και ακριβή επεξεργασία. Ωστόσο, άλλα μοντέλα χειρίζονται τα σύνολα δεδομένων τους για να δημιουργήσουν νέο περιεχόμενο. Το VALL-E δημιουργεί πρωτότυπο περιεχόμενο.

Σε συνεργασία με το Meta, η Microsoft χρησιμοποιεί EnCodec και LibriLight για να ενημερώσει το VALL-E. Το EnCodec είναι ένα νευρωνικό δίκτυο συμπίεσης ήχου ικανό να διακρίνει ακόμη και τις πιο μικρές αλλαγές στον ήχο. Το LibriLight είναι μια βιβλιοθήκη ήχου που περιέχει πάνω από 60,000 ώρες αγγλόφωνων αρχείων από διάφορες φωνές. 

«Με αυτές τις δυνάμεις, το VALL-E μπορεί να πάρει το ηχητικό κλιπ τριών δευτερολέπτων, να το μετατρέψει σε ένα διακριτικό που μπορεί να αναλύσει το EnCodec και να το παραπέμψει στα δεδομένα της βιβλιοθήκης για την παραγωγή φωνητικών αντιγραφών με γνήσιο ήχο. Επειδή το EnCodec δημιουργεί αρχεία με χαμηλούς ρυθμούς bit, η παραγωγή είναι ταχύτερη από άλλα μοντέλα του είδους του.» 

Μια ακολουθία όπως αυτή θα δημιουργήσει κλιπ ήχου με περισσότερο φυσικό ήχο, ικανά να ξεγελάσουν ακόμη και την πιο εκπαιδευμένη τεχνολογία αναγνώρισης αυτιού ή φωνής.

Το δυναμικό αυτό να βοηθήσει τις βιομηχανίες δεν είναι μετρήσιμο. Θα μπορούσε να αυξήσει την αποτελεσματικότητα και την παραγωγικότητα, ενώ μειώνει το άγχος σε κάθε τομέα, όχι μόνο στις επικοινωνίες. Ωστόσο, έχει ίσες πιθανότητες να επιδεινωθεί εγκληματική δραστηριότητα στον ψηφιακό χώρο, παράλληλα με άλλες συνέπειες.

Συμμετοχή στη Συνομιλία

Όπως συμβαίνει με τις περισσότερες εξελίξεις της τεχνητής νοημοσύνης, παρουσιάζονται ηθικές ανησυχίες. Όπως συμβαίνει με κάθε δημιουργία κειμένου, η τεχνητή νοημοσύνη λειτουργεί από δεδομένα — επομένως, η λογοκλοπή θα πρέπει πάντα να λαμβάνεται υπόψη. Ωστόσο, η VALL-E παραπομπές σε πηγές χωρίς πνευματικά δικαιώματα, άρα αυτό δεν είναι ακόμα πρωταρχικό μέλημα.

Ωστόσο, η Microsoft πρέπει επίσης να είναι επιφυλακτική με το κοινό που χρησιμοποιεί τεχνολογία όπως αυτή για εχθρικούς σκοπούς, όπως η διάδοση ψευδών ειδήσεων ή η σύγχυση των ερευνών με ψευδείς μαρτυρίες — πιθανώς από μάρτυρες που δεν ζουν πλέον. Συγκεκριμένοι κλάδοι, όπως ο νόμος, θα πρέπει να εφεύρουν νέες πολιτικές και δομές πώς να αντιμετωπίσετε τα deepfakes στην αίθουσα του δικαστηρίου.

«Όπως συμβαίνει με κάθε τεχνολογική πρόοδο, η κακή χρήση δεν είναι απλώς πιθανή - είναι αναπόφευκτη». 

Εκτός από την απειλή της δημιουργικής ιδιοκτησίας ή της κλοπής ταυτότητας, η ικανή τεχνητή νοημοσύνη που δημιουργεί φωνή θα μπορούσε να απειλήσει τα προς το ζην ορισμένων επαγγελμάτων ή να αφαιρέσει την καλλιτεχνική και επαγγελματική τεχνογνωσία από βιομηχανίες που προηγουμένως βασίζονταν σε χρόνια αφιερωμένα σε μια τέχνη.

Οι φωνητικοί ηθοποιοί, οι συντάκτες ομιλίας και οι εκπρόσωποι εξυπηρέτησης πελατών θα μπορούσαν όλοι να καταστούν απαρχαιωμένοι με τη φωνητική μίμηση AI. Η πιθανότητα αυτού είναι άγνωστη και πιθανότατα δεν είναι δυνατή με έναν γρήγορο, ολοκληρωμένο τρόπο. Το πιθανό αποτέλεσμα είναι ότι ο μιμητισμός φωνής θα συμπληρώσει αυτές τις βιομηχανίες αντί να τις αντικαταστήσει. Η παραγωγή φωνής με τεχνητή νοημοσύνη θα μπορούσε να βοηθήσει στη δημιουργία ιδεών ή να λειτουργήσει ως άλλος εργαζόμενος για την ανάθεση εργασιών, εκφορτώνοντας από ανθρώπους εργαζόμενους.

Αντιμετώπιση όρων με φωνητική τεχνητή νοημοσύνη

Παρά τις ηθικές ανησυχίες σχετικά με την τεχνητή νοημοσύνη που αναπαράγει φωνή, η Microsoft καινοτομεί ένα προοδευτικό, πολυμήχανο εργαλείο για τη νέα γενιά — ανάλογα με τον τρόπο που το χρησιμοποιεί το κοινό. Η επιστήμη πίσω από αυτό το εργαλείο είναι η πιο επαναστατική πτυχή και θα μπορούσε να ενημερώσει τους μηχανικούς και τους προγραμματιστές πώς να επεκτείνουν και να μεταμορφώσουν την τεχνητή νοημοσύνη για μελλοντικές εφαρμογές σε όλους τους τομείς. 

Η τεχνολογία που εφαρμόζεται με το VALL-E θα μπορούσε να μεταφραστεί σε αλλαγές νοοτροπίας για τον κλάδο. Ο συνεργατικός χαρακτήρας αυτού του έργου θα προωθήσει τη διαδραστικότητα και την ανάπτυξη της τεχνητής νοημοσύνης σε μια νέα εποχή ακρίβειας και αποτελεσματικότητας.

Επίσης, διαβάστε Lalal.AI Για διαχωρισμό ήχου υψηλής ποιότητας 

Σφραγίδα ώρας:

Περισσότερα από Τεχνολογία AIIOT