OpenAI'nin Yeni 'Ses Motoru'nun Konuşmayı Kopyalamak İçin Sadece 15 Saniyeye İhtiyacı Var - Decrypt

OpenAI'nin Yeni 'Ses Motoru'nun Konuşmayı Klonlamak İçin Sadece 15 Saniyeye İhtiyacı Var - Şifre Çözme

OpenAI'nin Yeni 'Ses Motoru'nun Konuşmayı Klonlamak İçin Sadece 15 Saniyeye İhtiyacı Var - PlatoBlockchain Veri Zekasının Şifresini Çözün. Dikey Arama. Ai.

Baskın üretken yapay zeka aracı ChatGPT'nin arkasındaki yapay zeka şirketi OpenAI, "Voice Engine" adını verdiği yeni bir ses klonlama teknolojisini tanıttı. Bu ses modeli, nispeten küçük bir orijinal ses örneğine dayalı olarak bir kişinin sesini, tonlamasını ve diğer belirgin insan konuşma kalıplarını kopyalayabilir.

Şirket, "15 saniyelik tek bir numuneye sahip küçük bir modelin, duygusal ve gerçekçi sesler yaratabilmesi dikkate değer" dedi. Cuma blog yazısı.

Karşılaştırma için yapay zeka ses platformu Eleven Laboratuvarları anında ses klonlama aracı içerir en az bir dakikalık örnekler gerektirir. En iyi sonuçları elde etmek için profesyonel hizmet seviyesi için yaklaşık 10 dakika sürekli konuşma gerekir.

Şirket, bu teknolojinin neler yapabileceğine dair farklı örnekler gösterdi. Örneklerden birinde, beyin damar tümörü nedeniyle konuşma yeteneğinin büyük bir kısmını kaybeden genç bir hastanın sesi, bir okul projesi için yaptığı eski bir kayıt kullanılarak klonlandı. Bu bugün sesi nasılOpenAI'ye göre.

OpenAI'nin çalıştığı ÖmürBrown Üniversitesi tıp fakültesine bağlı kar amacı gütmeyen bir kuruluş ve adlı bir aracın yaratıcıları livoxengelli insanlar için oluşturulmuş bir “alternatif iletişim uygulaması”. Ekip bir şekilde çalışmayı başardı kadının yaptığı kayıt okul sunumu için:

Open AI Ses Motoru daha sonra hastanın etkili bir şekilde konuşmasını sağlayacak anında metinden konuşmaya yeteneği sağlayabildi. kendi sesiyle konuş:

OpenAI ayrıca bunun nasıl olduğunu da gösterdi Merhaba Gen belirli bir dilde yüklenen konuşmaların başka bir dile doğal görünen çevirilerini oluşturmak için teknolojisini kullanıyor.

Şirket, Voice Engine'in ilk olarak 2022'nin sonlarında geliştirildiğini ve halihazırda OpenAI'nin metinden konuşmaya API'sinde ve ayrıca ChatGPT'nin Ses ve Yüksek Sesle Okuma özelliğinde bulunan önceden ayarlanmış sesleri güçlendirmek için kullanıldığını söylüyor. Son gelişmelerle birlikte şirket, daha geniş bir sürüm öncesinde temkinli davrandığını söylüyor.

OpenAI, geniş çapta kınanan "deepfake" uygulamasını kabul ederek, "Sentetik seslerin sorumlu bir şekilde konuşlandırılması ve toplumun bu yeni yeteneklere nasıl uyum sağlayabileceği konusunda bir diyalog başlatmayı umuyoruz" diye yazdı. Ünlülerin, hükümet yetkililerinin ve giderek artan özel vatandaşların sesleri, kötü amaçlarla taklit ediliyor. siyasi kampanyalar, sahte reklamlar ve açıkça suç faaliyetleri. ABD Başkanı Joe Biden oldu itme Yapay zeka ses taklitlerinin kötü niyetli kullanımına karşı daha fazla koruma sağlamak için.

Aslında Meta, geçen yaz yapay zeka ses aracının özellikle "şu nedenlerden dolayı" durdurulduğunu açıklamıştı:olası kötüye kullanım riskleri".

OpenAI, "Yapay zeka güvenliğine yaklaşımımız ve gönüllü taahhütlerimiz doğrultusunda, bu teknolojiyi önizlemeyi seçiyoruz ancak şu anda geniş çapta yayınlamamayı seçiyoruz" dedi.

OpenAI, halka açıklanmadan önce bile Voice Engine'e taklit etmeyeceği tanınmış kişilerin bir listesi de dahil olmak üzere kısıtlamalar getiriyor.

"Sentetik ses teknolojisinin geniş çapta dağıtımına, orijinal konuşmacının bilerek sesini hizmete eklediğini doğrulayan ses kimlik doğrulama deneyimlerinin ve çok fazla ses oluşturulmasını algılayan ve engelleyen bir hareketsiz ses listesinin eşlik etmesi gerektiğine inanıyoruz. OpenAI, önde gelen isimlere benzer" diye yazdı.

Bugün Voice Engine'i test eden iş ortakları, başka bir kişinin veya kuruluşun izinsiz olarak taklit edilmesini yasaklayan OpenAI kullanım politikalarını kabul etti. Buna ek olarak şirket, orijinal konuşmacının açık ve bilgilendirilmiş onayını talep ediyor ve geliştiricilerin, bireysel kullanıcıların kendi seslerini klonlamaları için yollar geliştirmelerine izin vermiyor.

Blog gönderisinde, "Bu görüşmelere ve bu küçük ölçekli testlerin sonuçlarına dayanarak, bu teknolojinin geniş ölçekte dağıtılıp dağıtılmayacağı ve nasıl dağıtılacağı konusunda daha bilinçli bir karar vereceğiz" deniyor.

Open AI, Voice Engine'e ek olarak birden fazla proje üzerinde paralel olarak çalışıyor. CEO Sam Altman, şirketin bu yıl GPT-5'i yayınlamak için çalışıyor. Şirket ayrıca üretken video aracını da sergiledi Sora. Şirket, Sora'nın Pika, Stable Video Diffusion ve Runway ML gibi modelleri geride bırakarak piyasadaki en gelişmiş video oluşturucu olacağını iddia ediyor.

Sora şu anda yalnızca kötüye kullanılamayacağından emin olmak için Open AI tarafından kaydedilen "kırmızı takım üyeleri" tarafından kullanılabilir.

Voice Engine, Meta, ElevenLabs, WellSaid Labs'ın teklifleri ve aşağıdaki gibi açık kaynaklı modeller de dahil olmak üzere diğer ses klonlama araçlarından kesinlikle daha iyi performans gösterebilir. RVC.

Açık AI aynı zamanda bir proje üzerinde de çalışıyor. Q* adlı gizli proje sadece ismi sızdırıldı. Sam Altman herhangi bir ayrıntı vermeyi reddetti ancak araştırma ekibinin ağırlıklı olarak yapay zekanın daha iyi akıl yürütmesini sağlayacak teknikler ve yaklaşımlar bulmaya odaklandığını söyledi.

Düzenleyen ryan ozawa.

Kripto haberlerinden haberdar olun, gelen kutunuzda günlük güncellemeler alın.

Zaman Damgası:

Den fazla azalmak