AI, her şeyi üretmek için kullanılıyor görüntüleri için metin için yapay proteinlerve şimdi listeye bir şey daha eklendi: konuşma. Geçen hafta araştırmacılar Microsoft bir belge yayınladı sadece üç saniye uzunluğundaki bir örneğe dayalı olarak herkesin sesini doğru bir şekilde simüle edebilen VALL-E adlı yeni bir yapay zeka üzerinde. VALL-E, yaratılan ilk konuşma simülatörü değil, ancak öncekilerden farklı bir şekilde oluşturuldu ve potansiyel kötüye kullanım için daha büyük bir risk taşıyabilir.
Mevcut metinden konuşmaya modellerinin çoğu, belirli bir sese yaklaşmak için ton veya perde gibi özellikleri ayarlayarak sahte sesler oluşturmak için dalga biçimlerini (zaman içinde bir ortamda hareket ederken ses dalgalarının grafiksel temsilleri) kullanır. VALL-E, yine de, birinin sesinden bir örnek alır ve onu belirteç adı verilen bileşenlere ayırır, ardından bu belirteçleri, bu ses hakkında zaten öğrendiği “kurallara” dayalı yeni sesler oluşturmak için kullanır. Bir ses özellikle derinse veya bir konuşmacı A'larını nazal bir şekilde telaffuz ederse veya ortalamadan daha monotonsa, bunların tümü yapay zekanın yakalayacağı ve çoğaltabileceği özelliklerdir.
Model, adı verilen bir teknolojiye dayanmaktadır. Meta tarafından EnCodec, Ekim ayında bu bölümde yayınlandı. Araç, sesi kalite kaybı olmadan MP10'lerden 3 kat daha küçük sıkıştırmak için üç parçalı bir sistem kullanır; yaratıcıları, kullanımlarından birinin düşük bant genişliğine sahip bağlantılar üzerinden yapılan aramalarda ses ve müzik kalitesini iyileştirmeyi amaçlıyordu.
VALL-E'yi eğitmek için yaratıcıları, adlı bir ses kitaplığı kullandı. KütüphaneLight60,000 saatlik İngilizce konuşması ağırlıklı olarak sesli kitap anlatımından oluşuyor. Model en iyi sonuçlarını, sentezlenen ses eğitim kitaplığındaki seslerden birine benzediğinde verir (bunlardan 7,000'in üzerindedir, bu nedenle çok yüksek bir sıra olmamalıdır).
VALL-E, birinin sesini yeniden yaratmanın yanı sıra, üç saniyelik örnekten ses ortamını da simüle eder. Telefonla kaydedilen bir klip, yüz yüze yapılandan farklı ses çıkarır ve konuşurken yürürken veya araba kullanırken, bu senaryoların benzersiz akustiği dikkate alınır.
Bazı örnekleri kulağa oldukça gerçekçi geliyor, diğerleri ise hala çok açık bir şekilde bilgisayar tarafından üretiliyor. Ancak sesler arasında gözle görülür farklar var; farklı konuşma tarzları, perdeleri ve tonlama kalıpları olan insanları temel aldıklarını söyleyebilirsiniz.
VALL-E'yi yaratan ekip, kötü oyuncular tarafından çok kolay kullanılabileceğini biliyor; Politikacılardan veya ünlülerden alıntılar yapmaktan telefonda para veya bilgi istemek için tanıdık sesleri kullanmaya kadar, teknolojiden yararlanmanın sayısız yolu var. VALL-E'nin kodunu halka açık hale getirmekten akıllıca kaçındılar ve makalelerinin sonuna bir etik beyanı eklediler (bu, AI'yı kötü amaçlar için kullanmak isteyenleri caydırmak için fazla bir şey yapmayacaktır).
Benzer araçların ortaya çıkıp yanlış ellere geçmesi muhtemelen an meselesi. Araştırmacılar, VALL-E gibi modellerin sunacağı risklerin, ses kliplerinin gerçek mi yoksa sentezlenmiş mi olduğunu ölçmek için algılama modelleri oluşturarak azaltılabileceğini öne sürüyor. Bizi yapay zekadan korumak için yapay zekaya ihtiyacımız varsa, bu teknolojilerin net bir pozitif etkiye sahip olup olmadığını nasıl bilebiliriz? Zaman gösterecek.
Resim Kredi: Shutterstock.com/Tança
- SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
- Plato blok zinciri. Web3 Metaverse Zekası. Bilgi Güçlendirildi. Buradan Erişin.
- Kaynak: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/
- 000
- 10
- 7
- a
- Yapabilmek
- Hakkımızda
- Hesap
- tam olarak
- katma
- avantaj
- AI
- Türkiye
- zaten
- ve
- Başka
- kimse
- ses
- mevcut
- ortalama
- Kötü
- merkezli
- önce
- olmak
- İYİ
- arasında
- sonları
- bina
- yapılı
- denilen
- aramalar
- taşımak
- ünlüler
- özellikleri
- klipleri
- kod
- bileşenler
- bilgisayar tarafından oluşturulan
- Bağlantılar
- olabilir
- yaratmak
- çevrimiçi kurslar düzenliyorlar.
- yaratıcıları
- kredi
- derin
- Bulma
- farklılıkları
- farklı
- aşağı
- sürme
- kolayca
- İngilizce
- çevre
- etik
- her şey
- mevcut
- oldukça
- sahte
- Düşmek
- tanıdık
- Ad
- itibaren
- oluşturmak
- GitHub
- verilmiş
- büyük
- Eller
- sahip olan
- SAAT
- Ne kadar
- HTTPS
- darbe
- geliştirme
- in
- dahil
- bilgi
- IT
- Bilmek
- Soyad
- öğrendim
- Kütüphane
- Muhtemelen
- Liste
- Uzun
- kayıp
- yapılmış
- Yapımı
- Mesele
- orta
- model
- modelleri
- para
- Daha
- hareket
- Music
- gerek
- net
- yeni
- Ekim
- ONE
- sipariş
- Diğer
- kâğıt
- Bölüm
- özellikle
- desen
- İnsanlar
- kişi
- telefon
- seçmek
- Zift
- sahalar
- Platon
- Plato Veri Zekası
- PlatoVeri
- Politikacılar
- pozitif
- potansiyel
- mevcut
- öncelikle
- korumak
- alenen
- amaçlı
- kalite
- gerçek
- реалистичный,en
- kaydedilmiş
- serbest
- talep
- Araştırmacılar
- Sonuçlar
- Risk
- riskler
- senaryolar
- saniye
- shutterstock
- benzer
- simülatör
- daha küçük
- So
- Ses
- konuşmacı
- konuşma
- konuşma
- bahar
- Açıklama
- Yine
- sistem
- Bizi daha iyi tanımak için
- alır
- konuşma
- takım
- Teknolojileri
- Teknoloji
- Text-to-Speech
- The
- ve bazı Asya
- şey
- üç
- İçinden
- zaman
- zamanlar
- için
- Jeton
- TON
- çok
- araç
- araçlar
- Tren
- Eğitim
- verdiği
- benzersiz
- us
- kullanım
- ses
- SESLER
- yürüyüş
- dalgalar
- yolları
- hafta
- olup olmadığını
- hangi
- süre
- DSÖ
- irade
- olur
- Yanlış
- yanlış eller
- verim
- Sen
- zefirnet