İngilizce konuşma tanıma konusunda insan düzeyinde sağlamlığa ve doğruluğa yaklaşan Whisper adlı bir sinir ağını eğittik ve açık kaynaklı hale getiriyoruz.
Kodu Görüntüle
Model Kartını Görüntüle
Fısıltı örnekleri:
Fısıltı, web'den toplanan 680,000 saatlik çok dilli ve çok görevli denetimli verilerle eğitilmiş bir otomatik konuşma tanıma (ASR) sistemidir. Bu kadar geniş ve çeşitli bir veri kümesinin kullanımının aksan, arka plan gürültüsü ve teknik dil için geliştirilmiş sağlamlığa yol açtığını gösteriyoruz. Ayrıca, birden çok dilde transkripsiyona ve bu dillerden İngilizce'ye çeviriye olanak tanır. Yararlı uygulamalar oluşturmak ve sağlam konuşma işleme konusunda daha fazla araştırma yapmak için bir temel olarak hizmet edecek açık kaynaklı modeller ve çıkarım koduyuz.
Whisper mimarisi, kodlayıcı-kod çözücü Transformer olarak uygulanan basit bir uçtan uca yaklaşımdır. Giriş sesi 30 saniyelik parçalara bölünür, bir log-Mel spektrogramına dönüştürülür ve ardından bir kodlayıcıya iletilir. Bir kod çözücü, ilgili metin başlığını tahmin etmek için eğitilir ve tek modeli dil tanımlama, tümce düzeyinde zaman damgaları, çok dilli konuşma transkripsiyonu ve İngilizce'ye konuşma çevirisi gibi görevleri gerçekleştirmeye yönlendiren özel belirteçlerle karıştırılır.
Diğer mevcut yaklaşımlar sıklıkla daha küçük, daha yakından eşleştirilmiş sesli metin eğitim veri kümelerini kullanır.veya geniş ama denetimsiz sesli ön eğitim kullanın. Whisper, geniş ve çeşitli bir veri kümesi üzerinde eğitildiğinden ve belirli bir veri kümesine ince ayar yapılmadığından, konuşma tanımada rekabetle ünlü bir ölçüt olan LibriSpeech performansında uzmanlaşmış modelleri geçemez. Ancak, Whisper'ın sıfır atış performansını birçok farklı veri kümesinde ölçtüğümüzde, bunun çok daha sağlam olduğunu ve bu modellerden %50 daha az hata yaptığını görüyoruz.
Whisper'ın ses veri kümesinin yaklaşık üçte biri İngilizce değildir ve dönüşümlü olarak orijinal dilde yazma veya İngilizce'ye çevirme görevi verilir. Bu yaklaşımın konuşmadan metne çeviriyi öğrenmede özellikle etkili olduğunu ve CoVoST2'den İngilizce'ye sıfır atışta denetimli SOTA'dan daha iyi performans gösterdiğini görüyoruz.
Whisper'ın yüksek doğruluğunun ve kullanım kolaylığının, geliştiricilerin çok daha geniş bir uygulama grubuna ses arabirimleri eklemesine olanak sağlayacağını umuyoruz. Kontrol et kâğıt, model kartı, ve kod Daha fazla ayrıntı öğrenmek ve Whisper'ı denemek için.
- AI
- yapay zeka
- AI sanat üreteci
- yapay zeka robotu
- yapay zeka
- yapay zeka sertifikası
- bankacılıkta yapay zeka
- yapay zeka robotu
- yapay zeka robotları
- yapay zeka yazılımı
- blockchain
- blockchain konferans ai
- zeka
- konuşma yapay zekası
- kripto konferans ai
- dal-e
- derin öğrenme
- google ai
- makine öğrenme
- OpenAI
- Platon
- plato yapay zekası
- Plato Veri Zekası
- Plato Oyunu
- PlatoVeri
- plato oyunu
- araştırma
- ölçek ai
- sözdizimi
- zefirnet