Το νέο «Voice Engine» από το OpenAI χρειάζεται μόνο 15 δευτερόλεπτα για να κλωνοποιήσει την ομιλία - Αποκρυπτογράφηση

Το νέο «Voice Engine» από το OpenAI χρειάζεται μόνο 15 δευτερόλεπτα για να κλωνοποιήσει την ομιλία - Αποκρυπτογράφηση

Η νέα «Μηχανή φωνής» από το OpenAI Χρειάζεται μόνο 15 δευτερόλεπτα για να κλωνοποιήσει την ομιλία - Αποκρυπτογραφήστε το PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Η OpenAI, η εταιρεία τεχνητής νοημοσύνης πίσω από το κυρίαρχο εργαλείο παραγωγής τεχνητής νοημοσύνης ChatGPT, παρουσίασε μια νέα τεχνολογία κλωνοποίησης φωνής που ονομάζει «Voice Engine». Αυτό το μοντέλο ήχου μπορεί να αναπαράγει τη φωνή, τον τονισμό και άλλα σαφώς ανθρώπινα μοτίβα ομιλίας ενός ατόμου με βάση ένα σχετικά μικρό δείγμα πρωτότυπου ήχου.

«Είναι αξιοσημείωτο ότι ένα μικρό μοντέλο με ένα δείγμα 15 δευτερολέπτων μπορεί να δημιουργήσει συγκινητικές και ρεαλιστικές φωνές», λέει η εταιρεία στο Δημοσίευση ιστολογίου Παρασκευής.

Για σύγκριση, πλατφόρμα φωνής AI Eleven Labs διαθέτει ένα εργαλείο άμεσης κλωνοποίησης φωνής που απαιτεί δείγματα τουλάχιστον ενός λεπτού. Για καλύτερα αποτελέσματα, χρειάζονται σχεδόν 10 λεπτά συνεχούς ομιλίας για το επαγγελματικό επίπεδο εξυπηρέτησης.

Η εταιρεία έδειξε διαφορετικά παραδείγματα για το τι μπορεί να κάνει αυτή η τεχνολογία. Σε ένα παράδειγμα, η φωνή μιας νεαρής ασθενή που έχασε μεγάλο μέρος της ικανότητάς της να μιλά λόγω αγγειακού όγκου στον εγκέφαλο κλωνοποιήθηκε χρησιμοποιώντας μια παλαιότερη ηχογράφηση που έκανε για ένα σχολικό έργο. Αυτό είναι πώς ακούγεται σήμερα, σύμφωνα με το OpenAI.

Το OpenAI συνεργάστηκε με Διάρκεια ζωής, ένας μη κερδοσκοπικός οργανισμός που συνδέεται με την ιατρική σχολή στο Πανεπιστήμιο Μπράουν και οι δημιουργοί ενός εργαλείου ονόμασαν Livox, μια «εναλλακτική εφαρμογή επικοινωνίας» που δημιουργήθηκε για άτομα με ειδικές ανάγκες. Η ομάδα μπόρεσε να συνεργαστεί με έναν ηχογράφηση που έκανε η γυναίκα για σχολική παρουσίαση:

Το Open AI Voice Engine μπόρεσε τότε να παρέχει δυνατότητα άμεσης μετατροπής κειμένου σε ομιλία που θα επέτρεπε στον ασθενή να μιλάει με τη δική της φωνή:

Το OpenAI παρουσίασε επίσης πώς HeyGen χρησιμοποιεί την τεχνολογία της για να δημιουργήσει μεταφράσεις ομιλίας με φυσικό ήχο που έχουν ανέβει σε μια συγκεκριμένη γλώσσα σε άλλη γλώσσα.

Η εταιρεία λέει ότι το Voice Engine αναπτύχθηκε για πρώτη φορά στα τέλη του 2022 και χρησιμοποιείται ήδη για την τροφοδοσία των προκαθορισμένων φωνών που είναι διαθέσιμες στο API κειμένου σε ομιλία του OpenAI, καθώς και στη λειτουργία Voice και Read Aloud του ChatGPT. Με τις τελευταίες εξελίξεις, η εταιρεία λέει ότι είναι προσεκτική πριν από μια ευρύτερη κυκλοφορία.

«Ελπίζουμε να ξεκινήσουμε έναν διάλογο για την υπεύθυνη ανάπτυξη συνθετικών φωνών και πώς η κοινωνία μπορεί να προσαρμοστεί σε αυτές τις νέες δυνατότητες», έγραψε το OpenAI, αναγνωρίζοντας την ευρέως καταδικασμένη πρακτική των «deepfakes». Οι φωνές διασημοτήτων, κυβερνητικών αξιωματούχων και ολοένα και περισσότερο ιδιωτών πλαστοπροσωπούνται για άθλιους σκοπούς, από πολιτικές εκστρατείες, ψεύτικες διαφημίσεις και ευθέως εγκληματικές δραστηριότητες. Ο πρόεδρος των ΗΠΑ Τζο Μπάιντεν ήταν δραστήριος για περισσότερες διασφαλίσεις έναντι της κακόβουλης χρήσης πλαστών φωνητικής τεχνητής νοημοσύνης.

Στην πραγματικότητα, η Meta αποκάλυψε το περασμένο καλοκαίρι ότι το φωνητικό εργαλείο τεχνητής νοημοσύνης της είχε ανασταλεί ειδικά λόγω του «πιθανούς κινδύνους κακής χρήσης. "

«Σύμφωνα με την προσέγγισή μας για την ασφάλεια της τεχνητής νοημοσύνης και τις εθελοντικές μας δεσμεύσεις, επιλέγουμε να κάνουμε προεπισκόπηση αλλά όχι ευρέως να κυκλοφορήσουμε αυτήν την τεχνολογία αυτήν τη στιγμή», εξήγησε η OpenAI.

Ακόμη και πριν από τη δημόσια κυκλοφορία, το OpenAI θέτει περιορισμούς στο Voice Engine—συμπεριλαμβανομένης μιας λίστας με εξέχοντα άτομα που δεν θα μιμηθεί.

«Πιστεύουμε ότι οποιαδήποτε ευρεία ανάπτυξη της τεχνολογίας συνθετικής φωνής θα πρέπει να συνοδεύεται από εμπειρίες φωνητικού ελέγχου ταυτότητας που επαληθεύουν ότι ο αρχικός ομιλητής προσθέτει εν γνώσει του τη φωνή του στην υπηρεσία και μια λίστα απαγόρευσης φωνής που εντοπίζει και αποτρέπει τη δημιουργία φωνών παρόμοια με εξέχουσες προσωπικότητες», έγραψε το OpenAI.

Οι συνεργάτες που δοκιμάζουν σήμερα το Voice Engine συμφώνησαν με τις πολιτικές χρήσης του OpenAI, οι οποίες απαγορεύουν την πλαστοπροσωπία άλλου ατόμου ή οργανισμού χωρίς συναίνεση. Επιπλέον, η εταιρεία απαιτεί ρητή και ενημερωμένη συναίνεση από τον αρχικό ομιλητή και δεν επιτρέπει στους προγραμματιστές να δημιουργήσουν τρόπους για μεμονωμένους χρήστες να κλωνοποιήσουν τις δικές τους φωνές.

«Με βάση αυτές τις συνομιλίες και τα αποτελέσματα αυτών των δοκιμών μικρής κλίμακας, θα λάβουμε μια πιο τεκμηριωμένη απόφαση σχετικά με το εάν και πώς θα αναπτύξουμε αυτήν την τεχνολογία σε κλίμακα», αναφέρει η ανάρτηση του ιστολογίου.

Εκτός από το Voice Engine, το Open AI εργάζεται σε πολλά έργα παράλληλα. Ο CEO Sam Altman αποκάλυψε ότι η εταιρεία εργάζεται για την κυκλοφορία του GPT-5 φέτος. Η εταιρεία έδειξε επίσης το εργαλείο παραγωγής βίντεο Sora. Η εταιρεία ισχυρίζεται ότι η Sora θα είναι η πιο προηγμένη γεννήτρια βίντεο στην αγορά, ξεπερνώντας μοντέλα όπως τα Pika, Stable Video Diffusion και Runway ML.

Το Sora είναι προς το παρόν διαθέσιμο μόνο σε «κόκκινους teamers» που έχουν στρατολογηθεί από το Open AI για να βεβαιωθούν ότι δεν μπορεί να γίνει κατάχρηση.

Το Voice Engine θα μπορούσε σίγουρα να ξεπεράσει άλλα εργαλεία κλωνοποίησης φωνής, συμπεριλαμβανομένων προσφορών από Meta, ElevenLabs, WellSaid Labs και μοντέλα ανοιχτού κώδικα όπως RVC.

Το Open AI εργάζεται επίσης σε ένα μυστικό έργο με το όνομα Q* του οποίου έχει διαρρεύσει μόνο το όνομά του. Ο Σαμ Άλτμαν αρνήθηκε να δώσει λεπτομέρειες, αλλά είπε ότι η ερευνητική ομάδα επικεντρώθηκε σε μεγάλο βαθμό στην εύρεση τεχνικών και προσεγγίσεων που κάνουν την τεχνητή νοημοσύνη καλύτερα.

Επιμέλεια: Ράιαν Οζάουα.

Μείνετε ενημερωμένοι για τα νέα κρυπτογράφησης, λάβετε καθημερινές ενημερώσεις στα εισερχόμενά σας.

Σφραγίδα ώρας:

Περισσότερα από Αποκρυπτογράφηση