Το AI χρησιμοποιείται για να δημιουργήσει τα πάντα από εικόνες προς την κείμενο προς την τεχνητές πρωτεΐνες, και τώρα προστέθηκε ένα άλλο πράγμα στη λίστα: ομιλία. Την περασμένη εβδομάδα ερευνητές από Η Microsoft κυκλοφόρησε ένα έγγραφο σε ένα νέο AI που ονομάζεται VALL-E που μπορεί να προσομοιώσει με ακρίβεια τη φωνή οποιουδήποτε με βάση ένα δείγμα διάρκειας μόλις τριών δευτερολέπτων. Το VALL-E δεν είναι ο πρώτος προσομοιωτής ομιλίας που δημιουργήθηκε, αλλά είναι κατασκευασμένος με διαφορετικό τρόπο από τους προκατόχους του — και θα μπορούσε να εγκυμονεί μεγαλύτερο κίνδυνο για πιθανή κακή χρήση.
Τα περισσότερα υπάρχοντα μοντέλα μετατροπής κειμένου σε ομιλία χρησιμοποιούν κυματομορφές (γραφικές αναπαραστάσεις ηχητικών κυμάτων καθώς κινούνται μέσα από ένα μέσο με την πάροδο του χρόνου) για να δημιουργήσουν ψεύτικες φωνές, τροποποιώντας χαρακτηριστικά όπως τόνο ή τόνο για να προσεγγίσουν μια δεδομένη φωνή. Το VALL-E, ωστόσο, παίρνει ένα δείγμα της φωνής κάποιου και το αναλύει σε στοιχεία που ονομάζονται μάρκες, στη συνέχεια χρησιμοποιεί αυτά τα διακριτικά για να δημιουργήσει νέους ήχους με βάση τους «κανόνες» που έχει ήδη μάθει για αυτήν τη φωνή. Εάν μια φωνή είναι ιδιαίτερα βαθιά, ή ένας ομιλητής προφέρει τα Α του με ρινικό τρόπο ή είναι πιο μονότονη από τον μέσο όρο, όλα αυτά είναι χαρακτηριστικά που η τεχνητή νοημοσύνη θα έπιανε και θα μπορούσε να αναπαράγει.
Το μοντέλο βασίζεται σε μια τεχνολογία που ονομάζεται EnCodec από τη Meta, που μόλις κυκλοφόρησε αυτό το μέρος Οκτωβρίου. Το εργαλείο χρησιμοποιεί ένα σύστημα τριών μερών για τη συμπίεση του ήχου σε 10 φορές μικρότερο από τα MP3 χωρίς απώλεια ποιότητας. Οι δημιουργοί του σκόπευαν για μία από τις χρήσεις του να βελτιώσει την ποιότητα της φωνής και της μουσικής στις κλήσεις που πραγματοποιούνται μέσω συνδέσεων χαμηλού εύρους ζώνης.
Για να εκπαιδεύσουν το VALL-E, οι δημιουργοί του χρησιμοποίησαν μια βιβλιοθήκη ήχου που ονομάζεται LibriLight, του οποίου οι 60,000 ώρες αγγλικής ομιλίας αποτελούνται κυρίως από αφήγηση ακουστικών βιβλίων. Το μοντέλο αποδίδει τα καλύτερα αποτελέσματά του όταν η φωνή που συντίθεται είναι παρόμοια με μια από τις φωνές από τη βιβλιοθήκη εκπαίδευσης (από τις οποίες υπάρχουν πάνω από 7,000, οπότε δεν πρέπει να είναι πολύ ψηλή).
Εκτός από την αναδημιουργία της φωνής κάποιου, το VALL-E προσομοιώνει επίσης το περιβάλλον ήχου από το δείγμα τριών δευτερολέπτων. Ένα κλιπ που ηχογραφήθηκε μέσω τηλεφώνου θα ακουγόταν διαφορετικό από αυτό που έγινε αυτοπροσώπως και αν περπατάτε ή οδηγείτε ενώ μιλάτε, λαμβάνεται υπόψη η μοναδική ακουστική αυτών των σεναρίων.
Μερικά από τα δείγματα ακούγεται αρκετά ρεαλιστικό, ενώ άλλα εξακολουθούν να είναι πολύ προφανώς δημιουργημένα από υπολογιστή. Αλλά υπάρχουν αξιοσημείωτες διαφορές μεταξύ των φωνών. μπορείτε να πείτε ότι βασίζονται σε άτομα που έχουν διαφορετικά στυλ ομιλίας, τόνους και μοτίβα τονισμού.
Η ομάδα που δημιούργησε το VALL-E γνωρίζει ότι θα μπορούσε πολύ εύκολα να χρησιμοποιηθεί από κακούς ηθοποιούς. Από το ψεύτικο δάγκωμα ήχου πολιτικών ή διασημοτήτων μέχρι τη χρήση γνωστών φωνών για να ζητήσετε χρήματα ή πληροφορίες μέσω τηλεφώνου, υπάρχουν αμέτρητοι τρόποι για να επωφεληθείτε από την τεχνολογία. Απέφευγαν σοφά να κάνουν τον κώδικα του VALL-E διαθέσιμο στο κοινό και συμπεριέλαβαν μια δήλωση δεοντολογίας στο τέλος της εργασίας τους (η οποία δεν θα αποτρέψει οποιονδήποτε θέλει να χρησιμοποιήσει την τεχνητή νοημοσύνη για κακόβουλους σκοπούς).
Είναι πιθανό να είναι θέμα χρόνου να ξεπηδήσουν παρόμοια εργαλεία και να πέσουν σε λάθος χέρια. Οι ερευνητές προτείνουν ότι οι κίνδυνοι που παρουσιάζουν μοντέλα όπως το VALL-E θα μπορούσαν να μετριαστούν με την κατασκευή μοντέλων ανίχνευσης για να μετρήσουν εάν τα ηχητικά κλιπ είναι πραγματικά ή συνθετικά. Εάν χρειαζόμαστε την τεχνητή νοημοσύνη για να μας προστατεύει από την τεχνητή νοημοσύνη, πώς μπορούμε να γνωρίζουμε εάν αυτές οι τεχνολογίες έχουν καθαρό θετικό αντίκτυπο; Ο χρόνος θα δείξει.
Image Credit: Shutterstock.com/Tancha
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- Platoblockchain. Web3 Metaverse Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- πηγή: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/
- 000
- 10
- 7
- a
- Ικανός
- Σχετικά
- Λογαριασμός
- με ακρίβεια
- προστιθέμενη
- Πλεονέκτημα
- AI
- Όλα
- ήδη
- και
- Άλλος
- κάποιος
- ήχου
- διαθέσιμος
- μέσος
- Κακός
- βασίζονται
- πριν
- είναι
- ΚΑΛΎΤΕΡΟΣ
- μεταξύ
- φρένα
- Κτίριο
- χτισμένο
- που ονομάζεται
- κλήσεις
- κουβαλάω
- διασημότητες
- χαρακτηριστικά
- κλιπ
- κωδικός
- εξαρτήματα
- που παράγεται από υπολογιστή
- Διασυνδέσεις
- θα μπορούσε να
- δημιουργία
- δημιουργήθηκε
- δημιουργούς
- μονάδες
- βαθύς
- Ανίχνευση
- διαφορές
- διαφορετικές
- κάτω
- οδήγηση
- εύκολα
- Αγγλικά
- Περιβάλλον
- δεοντολογία
- πάντα
- υφιστάμενα
- αρκετά
- απομίμηση
- Πτώση
- οικείος
- Όνομα
- από
- παράγουν
- GitHub
- δεδομένου
- μεγαλύτερη
- τα χέρια
- που έχει
- ΩΡΕΣ
- Πως
- HTTPS
- Επίπτωση
- βελτίωση
- in
- περιλαμβάνονται
- πληροφορίες
- IT
- Ξέρω
- Επίθετο
- μάθει
- Βιβλιοθήκη
- Πιθανός
- Λίστα
- Μακριά
- off
- που
- Κατασκευή
- ύλη
- medium
- μοντέλο
- μοντέλα
- χρήματα
- περισσότερο
- μετακινήσετε
- Μουσική
- Ανάγκη
- καθαρά
- Νέα
- Οκτώβριος
- ONE
- τάξη
- Άλλα
- Χαρτί
- μέρος
- ιδιαίτερα
- πρότυπα
- People
- person
- τηλέφωνο
- επιλέξτε
- Πίσσα
- γήπεδα
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- Οι πολιτικοί
- θετικός
- δυναμικού
- παρόν
- πρωτίστως
- προστασία
- δημοσίως
- σκοποί
- ποιότητα
- πραγματικός
- ρεαλιστικός
- καταγράφονται
- κυκλοφόρησε
- ζητήσει
- ερευνητές
- Αποτελέσματα
- Κίνδυνος
- κινδύνους
- σενάρια
- δευτερόλεπτα
- Shutterstock
- παρόμοιες
- προσομοιωτής
- μικρότερος
- So
- Ήχος
- Ομιλητής
- ομιλία
- ομιλία
- άνοιξη
- Δήλωση
- Ακόμη
- σύστημα
- Πάρτε
- παίρνει
- ομιλία
- Τεχνολογίες
- Τεχνολογία
- Κείμενο σε ομιλία
- Η
- τους
- πράγμα
- τρία
- Μέσω
- ώρα
- φορές
- προς την
- κουπόνια
- TONE
- πολύ
- εργαλείο
- εργαλεία
- Τρένο
- Εκπαίδευση
- μικροαλλαγές
- μοναδικός
- us
- χρήση
- Φωνή
- ΦΩΝΕΣ
- περπάτημα
- κύματα
- τρόπους
- εβδομάδα
- αν
- Ποιό
- ενώ
- Ο ΟΠΟΊΟΣ
- θα
- θα
- Λανθασμένος
- λάθος χέρια
- αποδόσεις
- Εσείς
- Σας
- zephyrnet