OpenAI uus 'häälemootor' vajab kõne kloonimiseks vaid 15 sekundit – dekrüpt

OpenAI uus 'häälemootor' vajab kõne kloonimiseks vaid 15 sekundit – dekrüpteerimiseks

New ‘Voice Engine’ from OpenAI Needs Only 15 Seconds to Clone Speech - Decrypt PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Domineeriva generatiivse AI tööriista ChatGPT taga asuv tehisintellektiettevõte OpenAI on avalikustanud uue häälkloonimise tehnoloogia, mida nimetatakse "Voice Engine". See helimudel suudab kopeerida inimese häält, intonatsiooni ja muid selgelt inimlikke kõnemustreid, tuginedes suhteliselt väikesele originaalheli näidisele.

"On märkimisväärne, et väike mudel ühe 15-sekundilise näidisega võib luua emotsionaalseid ja realistlikke hääli," ütleb ettevõte oma Reedene blogipostitus.

Võrdluseks AI häälplatvorm ElevenLabs sisaldab kiiret hääle kloonimise tööriista, mis nõuab vähemalt üheminutilisi proove. Parimate tulemuste saavutamiseks on selle professionaalse teenindustaseme jaoks vaja peaaegu 10 minutit pidevat kõnet.

Ettevõte näitas erinevaid näiteid, milleks see tehnoloogia on võimeline. Ühes näites klooniti noore patsiendi hääl, kes kaotas suure osa oma kõnevõimest vaskulaarse ajukasvaja tõttu, kasutades vanemat salvestist, mille ta tegi kooliprojekti jaoks. See on kuidas ta täna kõlab, vastavalt OpenAI-le.

OpenAI töötas Eluaeg, mittetulundusühing, mis on seotud Browni ülikooli meditsiinikooliga ja tööriista nimega Livox, puuetega inimestele loodud alternatiivne suhtlusrakendus. Meeskond sai töötada koos a naise tehtud salvestis kooli esitluse jaoks:

Open AI Voice Engine suutis seejärel pakkuda kiiret teksti kõneks muutmise võimalust, mis võimaldas patsiendil tõhusalt räägib oma häälega:

OpenAI näitas ka, kuidas HeiGen kasutab oma tehnoloogiat kindlas keeles üles laaditud kõne loomuliku kõlaga tõlgete loomiseks teises keeles.

Ettevõte ütleb, et Voice Engine töötati esmakordselt välja 2022. aasta lõpus ja seda kasutatakse juba OpenAI tekst-kõneks API-s saadaolevate eelseadistatud häälte, aga ka ChatGPT funktsiooni Voice ja Read Aloud toiteks. Viimaste edusammudega ütleb ettevõte, et on enne laiemat väljalaset ettevaatlik.

"Loodame alustada dialoogi sünteetiliste häälte vastutustundliku kasutuselevõtu ja selle üle, kuidas ühiskond saab nende uute võimalustega kohaneda," kirjutas OpenAI, tunnistades laialdaselt hukka mõistetud "deepfake" tava. Kuulsuste, valitsusametnike ja üha enam erakodanike hääli kehastatakse alatutel eesmärkidel alates poliitilised kampaaniad, võltsreklaame ja otse kriminaalse tegevuse. USA president Joe Biden on olnud surudes rohkem kaitsemeetmeid tehisintellekti häälte esinemise pahatahtliku kasutamise vastu.

Tegelikult avalikustas Meta eelmisel suvel, et tema tehisintellekti hääletööriista hoiti tagasi just seetõttu, et "võimalikud väärkasutuse ohud. "

"Kooskõlas meie lähenemisega tehisintellekti ohutusele ja meie vabatahtlikele kohustustele otsustame selle tehnoloogia eelvaate vaadata, kuid mitte laialdaselt välja anda," selgitas OpenAI.

Isegi enne avalikku avaldamist seab OpenAI Voice Engine'ile piiranguid, sealhulgas nimekirja silmapaistvatest inimestest, keda see ei jäljenda.

"Usume, et sünteetilise kõnetehnoloogia laialdase kasutuselevõtuga peaksid kaasnema hääle autentimise kogemused, mis kontrollivad, et algne kõneleja lisab oma hääle teenusesse teadlikult, ja keelavate häälte loend, mis tuvastab liiga palju hääli ja takistab nende loomist. sarnane silmapaistvate tegelastega,” kirjutas OpenAI.

Täna Voice Engine'i testivad partnerid on nõustunud OpenAI kasutuseeskirjadega, mis keelavad ilma nõusolekuta esineda kellegi teisena või organisatsioonina. Lisaks nõuab ettevõte algse kõneleja selgesõnalist ja teadlikku nõusolekut ning nad ei luba arendajatel luua viise, kuidas üksikud kasutajad saaksid oma häält kloonida.

"Nende vestluste ja nende väikesemahuliste testide tulemuste põhjal teeme teadlikuma otsuse selle kohta, kas ja kuidas seda tehnoloogiat ulatuslikult kasutusele võtta," seisab ajaveebi postituses.

Lisaks Voice Engine'ile töötab Open AI paralleelselt mitme projekti kallal. Tegevjuht Sam Altman paljastas, et ettevõte töötab sel aastal GPT-5 väljaandmise kallal. Ettevõte näitas ka oma generatiivset videotööriista Sora. Ettevõte väidab, et Sora on turul kõige arenenum videogeneraator, ületades selliseid mudeleid nagu Pika, Stable Video Diffusion ja Runway ML.

Sora on praegu saadaval ainult Open AI palgatud "punastele meeskonnaliikmetele", et seda ei saaks kuritarvitada.

Voice Engine võiks kindlasti ületada teisi hääle kloonimise tööriistu, sealhulgas Meta, ElevenLabsi, WellSaid Labsi ja avatud lähtekoodiga mudelite pakkumisi. RVC.

Avatud AI töötab ka a salaprojekt nimega Q* millest on lekkinud vaid nimi. Sam Altman on keeldunud üksikasju andmast, kuid ütles, et uurimisrühm keskendus suuresti tehisintellekti mõistmise paremaks muutmise tehnikate ja lähenemisviiside leidmisele.

Muutis Ryan Ozawa.

Olge kursis krüptouudistega, saate oma postkasti igapäevaseid värskendusi.

Ajatempel:

Veel alates Avaldage lahti