Microsoft'un Yapay Zekasının Herkesin Sesini 3 Saniyede Nasıl Taklit Edebildiğinin Arkasındaki Bilim

Microsoft'un Yapay Zekasının Herkesin Sesini 3 Saniyede Nasıl Taklit Edebildiğinin Arkasındaki Bilim

Microsoft'un Yapay Zekasının Herhangi Birinin Sesini 3 Saniyede Nasıl Taklit Edebildiğinin Ardındaki Bilim PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Yapay zeka (AI) programlarının ne kadar güçlü hale geldiğini anlayabilirsiniz. Büyüklerin sanatını taklit ediyorlar ve küresel liderler için senaryolar yazıyorlar, bu da yapay zeka araçlarının hızla genişlemesini çevreleyen küresel konuşmalara neden oluyor.

En son Microsoft, ses taklidi için bir yapay zeka geliştirdi. Verimliliği ve doğruluğu çığır açıcıdır, ancak kullanıcılar amacını ve kullanımını sorgulamaktadır. Bu araç nasıl çalışıyor ve sesleri bu kadar kısa sürede nasıl çoğaltıyor?

VALL-E ile tanışın

VALL-E, sesleri üç saniye içinde çoğaltmayı öğrenen yapay zekadır. Metin okuma (TTS) programlarının önceki yinelemeleri verimlilik ve ses nüansları ile mücadele ettiğinden, VALL-E bu kadar hızlı eğitilen ilk programlardan biridir. 

"Ancak VALL-E, bu çalışma için yapılan araştırmayı her açıdan iyileştirerek eğitim süresini kısaltıyor ve ton ve ilerleme hızı gibi karmaşık ses niteliklerinin doğruluğunu artırıyor." 

VALL-E'nin hedeflerinden biri, ayrıntıları çoğaltmaktı. önceki TTS programları yapamadıve denemeler mevcut model için karışık sonuçlar gösteriyor. Özgünlük için, bunun gibi bir program yalnızca kişinin sesini kopyalamakla kalmaz, aynı zamanda kayıt cihazının ses kalitesini ve statik veya gürültü gibi arka plan çevresel etkilerini de kopyalamalıdır. Araştırmacılar, kopyalayıcı niteliklerinden etkilenmeye devam etse de, Microsoft, tını ve duygu bilgili ses tonlarını bileme konusunda daha fazla iyileştirme istiyor.

VALL-E henüz halka açık olmadığından, daha büyük ölçeklerde nasıl performans göstereceğinden emin değil. Microsoft, uygun kullanımı sağlamak için halka açıklanmadan önce rafine ederek zaman ayırıyor. 

VALL-E minimum ses örneklemesiyle çalıştığından, daha uzun ses kliplerini uyumla ne kadar iyi üreteceği belirsizdir. Yapay zeka ve makine öğrenimi veri kümelerinde değerlendirilmesi gereken neredeyse sayısız veri noktası vardır. Microsoft'un ses çoğaltmayı bu kadar küçük bir referans çerçevesiyle mükemmelleştirmesi, yapay zekanın geleceğine doğru bir adımdır. 

Bilimi Bilin

VALL-E, mevcut teknoloji ile iyi bir şekilde kaynaştığı için amacında başarılıdır. Örneğin, GPT-3 hala dil işleme modellerini kullanır net üretim ve doğru düzenleme için TTS oluşturma yeteneklerini mükemmelleştirmek için. Ancak, diğer modeller yeni içerik oluşturmak için veri kümelerini değiştirir. VALL-E özgün içerik üretir.

Meta ile işbirliği içinde Microsoft, VALL-E'yi bilgilendirmek için EnCodec ve LibriLight'ı kullanır. EnCodec, sesteki en küçük değişiklikleri bile ayırt edebilen bir ses sıkıştırma sinir ağıdır. LibriLight bir ses kitaplığıdır 60,000 saatten fazla içeren çeşitli seslerden İngilizce konuşan dosyalar. 

“VALL-E, bu güçlerle üç saniyelik ses klibini alabilir, EnCodec'in analiz edebileceği bir token'a dönüştürebilir ve gerçek ses kopyaları üretmek için kütüphanenin verilerine referans verebilir. EnCodec, dosyaları düşük bit hızlarında oluşturduğundan, oluşturma, türünün diğer modellerinden daha hızlıdır.” 

Bunun gibi bir sekans, en eğitimli kulağı veya ses tanıma teknolojisini bile kandırma konusunda yetkin, kulağa daha doğal gelen ses klipleri üretecektir.

Bunun endüstrilere yardımcı olma potansiyeli ölçülemez. Sadece iletişimde değil, her sektörde stresi azaltırken verimliliği ve üretkenliği artırabilir. Bununla birlikte, şiddetlenmesi için eşit şansa sahiptir. dijital alanda suç faaliyeti, diğer sonuçların yanı sıra.

Sohbete Katılın

Çoğu AI ilerlemesinde olduğu gibi, etik kaygılar da kendini gösteriyor. Herhangi bir metin oluşturmada olduğu gibi, AI verilerden çalışır - bu nedenle intihal her zaman dikkate alınacaktır. Ancak, VALL-E telif hakkı olmayan kaynaklara atıfta bulunur, yani bu henüz birincil bir endişe değil.

Bununla birlikte Microsoft, sahte haberler yaymak veya muhtemelen artık hayatta olmayan tanıklardan gelen sahte tanıklıklarla soruşturmaları karıştırmak gibi düşmanca amaçlarla bu tür teknolojileri kullanan halka karşı da dikkatli olmalıdır. Hukuk gibi belirli sektörler, yeni politikalar ve yapılar icat etmek zorunda kalacak. deepfakelerle nasıl karşılaşılır mahkeme salonunda.

"Herhangi bir teknolojik ilerlemede olduğu gibi, kötüye kullanım sadece olası değil, aynı zamanda kaçınılmazdır." 

Yaratıcı mülkiyet veya kimlik hırsızlığı tehdidinin yanı sıra, yetkin ses üreten yapay zeka, bazı mesleklerin geçim kaynaklarını tehdit edebilir veya daha önce bir zanaata adanmış yıllara dayanan endüstrilerdeki sanatsal ve profesyonel uzmanlığı ortadan kaldırabilir.

Seslendirme sanatçıları, konuşma yazarları ve müşteri hizmetleri temsilcilerinin tümü, yapay zeka ses taklidi ile geçerliliğini yitirebilir. Bunun olasılığı bilinmemektedir ve muhtemelen hızlı ve kapsamlı bir şekilde mümkün değildir. Makul sonuç, ses taklidinin bu endüstrileri değiştirmek yerine tamamlayacağıdır. Yapay zeka ses üretimi, fikir oluşturmaya yardımcı olabilir veya görevleri devretmek için başka bir çalışan olarak hareket ederek insan işçilerden yük alabilir.

Sesi Çoğaltan Yapay Zeka İle Konuşma Şartlarını Aşmak

Sesi kopyalayan yapay zekayla ilgili etik kaygılara rağmen Microsoft, halkın onu nasıl kullandığına bağlı olarak yeni nesil için ilerici, becerikli bir araç geliştiriyor. Bu aracın arkasındaki bilim en devrimci yönüdür ve mühendislere ve geliştiricilere AI'yı tüm sektörlerde gelecekteki uygulamalar için nasıl genişletecekleri ve dönüştürecekleri konusunda bilgi verebilir. 

VALL-E ile uygulanan teknoloji, sektör için zihniyet değişikliklerine dönüşebilir. Bu projenin işbirlikçi doğası, AI etkileşimini ve geliştirmeyi yeni bir doğruluk ve verimlilik çağına taşıyacaktır.

Ayrıca, Oku Yüksek Kaliteli Ses Bölme İçin Lalal.AI 

Zaman Damgası:

Den fazla AIOT Teknolojisi