Az OpenAI új "Voice Engine"-je mindössze 15 másodpercre van szüksége a beszéd klónozásához - Dekódolás

Az OpenAI új „Voice Engine”-je mindössze 15 másodpercre van szüksége a beszéd klónozásához – Dekódolás

New ‘Voice Engine’ from OpenAI Needs Only 15 Seconds to Clone Speech - Decrypt PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Az OpenAI, a domináns generatív mesterségesintelligencia-eszköz, a ChatGPT mögött álló mesterséges intelligencia vállalat bemutatta a „Voice Engine” nevű új hangklónozási technológiát. Ez a hangmodell képes reprodukálni egy személy hangját, intonációját és más kifejezetten emberi beszédmintákat az eredeti hang viszonylag kis mintája alapján.

„Figyelemre méltó, hogy egy kis modell egyetlen 15 másodperces mintával érzelmes és valósághű hangokat kelthet” – áll a cég közleményében. Pénteki blogbejegyzés.

Összehasonlításképpen: AI hangplatform ElevenLabs azonnali hangklónozó eszközt tartalmaz, amely legalább egy perces mintákat igényel. A legjobb eredmény eléréséhez közel 10 perc folyamatos beszédre van szükség a professzionális szolgáltatási színvonalhoz.

A cég különböző példákat mutatott be arra vonatkozóan, hogy mire képes ez a technológia. Az egyik példában egy fiatal páciens hangját, aki vaszkuláris agydaganat miatt elvesztette beszédkészségét, egy régebbi felvétel segítségével klónozták, amelyet egy iskolai projekthez készített. Ez hogy hangzik ma, az OpenAI szerint.

OpenAI dolgozott Élettartam, a Brown Egyetem orvosi egyetemével kapcsolatban álló nonprofit szervezet és az elnevezésű eszköz megalkotói Livox, egy „alternatív kommunikációs alkalmazás”, amely fogyatékkal élők számára készült. A csapat együtt tudott dolgozni a felvétel, amit a nő készített iskolai bemutatóhoz:

Az Open AI Voice Engine ezután azonnali szövegfelolvasó képességet tudott biztosítani, amely lehetővé tette a páciens számára, hogy hatékonyan a saját hangján beszél:

Az OpenAI azt is bemutatta, hogyan Szia Gen technológiáját arra használja, hogy természetes hangzású fordításokat hozzon létre egy adott nyelven, egy másik nyelven feltöltött beszédből.

A vállalat szerint a Voice Engine-t először 2022 végén fejlesztették ki, és már használják az OpenAI text-to-speech API-jában elérhető előre beállított hangok, valamint a ChatGPT Voice és Read Aloud funkciójában. A legújabb fejlesztések kapcsán a vállalat azt mondja, hogy óvatos a szélesebb körű kiadás előtt.

„Reméljük, hogy párbeszédet kezdhetünk a szintetikus hangok felelős használatáról, és arról, hogy a társadalom hogyan tud alkalmazkodni ezekhez az új képességekhez” – írta az OpenAI, elismerve a „mélyhamisítás” széles körben elítélt gyakorlatát. Hírességek, kormányzati tisztviselők és egyre inkább magánszemélyek hangját aljas célokra megszemélyesítik. politikai kampányok, hamis hirdetések és egyenesen bűncselekmények. Joe Biden amerikai elnök volt toló további biztosítékokért a mesterséges intelligencia hangmegszemélyesítéseinek rosszindulatú használata ellen.

Valójában a Meta tavaly nyáron nyilvánosságra hozta, hogy mesterséges intelligencia hangeszközét kifejezetten azért tartották vissza, mert „a helytelen használat lehetséges kockázatai. "

„A mesterséges intelligencia biztonságával kapcsolatos megközelítésünkkel és önkéntes kötelezettségvállalásainkkal összhangban úgy döntünk, hogy megtekintjük, de jelenleg nem tesszük széles körben ezt a technológiát” – magyarázta az OpenAI.

Az OpenAI még a nyilvános megjelenés előtt korlátozásokat vezet be a Voice Engine-re, beleértve azon prominens személyek listáját, akiket nem fog emulálni.

„Úgy gondoljuk, hogy a szintetikus hangtechnológia minden széles körű alkalmazását hanghitelesítési tapasztalatoknak kell kísérniük, amelyek igazolják, hogy az eredeti beszélő tudatosan adja hozzá a hangját a szolgáltatáshoz, valamint egy nem induló hanglistát, amely észleli és megakadályozza a túlzott hangok létrehozását. prominens alakokhoz hasonlóan” – írta az OpenAI.

A Voice Engine-t ma tesztelő partnerek elfogadták az OpenAI használati szabályzatát, amely tiltja egy másik személy vagy szervezet beleegyezés nélküli megszemélyesítését. Ezenkívül a vállalat kifejezett és tájékozott beleegyezést kér az eredeti beszélőtől, és nem teszik lehetővé a fejlesztők számára, hogy módokat építsenek ki az egyes felhasználók számára saját hangjuk klónozására.

„Ezen beszélgetések és a kis léptékű tesztek eredményei alapján megalapozottabb döntést fogunk hozni arról, hogy alkalmazzuk-e ezt a technológiát nagy léptékben, és ha igen, hogyan” – áll a blogbejegyzésben.

A Voice Engine mellett az Open AI több projekten is dolgozik párhuzamosan. Sam Altman vezérigazgató felfedte, hogy a cég a GPT-5 idei kiadásán dolgozik. A cég bemutatta generatív videóeszközét is Sora. A cég azt állítja, hogy a Sora lesz a legfejlettebb videógenerátor a piacon, megelőzve az olyan modelleket, mint a Pika, Stable Video Diffusion és Runway ML.

A Sora jelenleg csak az Open AI által bevont „vörös csapattagok” számára érhető el, hogy megbizonyosodjon arról, hogy nem lehet visszaélni vele.

A Voice Engine minden bizonnyal felülmúlhatja a többi hangklónozó eszközt, beleértve a Meta, az ElevenLabs, a WellSaid Labs és a nyílt forráskódú modelleket, mint pl. RVC.

Az Open AI is dolgozik a titkos projekt, Q* amelynek csak a neve szivárgott ki. Sam Altman nem volt hajlandó részleteket közölni, de azt mondta, hogy a kutatócsoport nagy hangsúlyt fektet arra, hogy olyan technikákat és megközelítéseket találjon, amelyek jobbá teszik a mesterséges intelligenciát.

Szerkesztette Ryan Ozawa.

Maradjon naprakész a kriptográfiai hírekkel, és napi frissítéseket kaphat a postaládájában.

Időbélyeg:

Még több visszafejtése