Fısıltı Tanıtımı

İngilizce konuşma tanıma konusunda insan düzeyinde sağlamlığa ve doğruluğa yaklaşan Whisper adlı bir sinir ağını eğittik ve açık kaynaklı hale getiriyoruz.

Makaleyi Oku


Kodu Görüntüle


Model Kartını Görüntüle

Fısıltı örnekleri:

Fısıltı, web'den toplanan 680,000 saatlik çok dilli ve çok görevli denetimli verilerle eğitilmiş bir otomatik konuşma tanıma (ASR) sistemidir. Bu kadar geniş ve çeşitli bir veri kümesinin kullanımının aksan, arka plan gürültüsü ve teknik dil için geliştirilmiş sağlamlığa yol açtığını gösteriyoruz. Ayrıca, birden çok dilde transkripsiyona ve bu dillerden İngilizce'ye çeviriye olanak tanır. Yararlı uygulamalar oluşturmak ve sağlam konuşma işleme konusunda daha fazla araştırma yapmak için bir temel olarak hizmet edecek açık kaynaklı modeller ve çıkarım koduyuz.

görüntü
görüntü

Whisper mimarisi, kodlayıcı-kod çözücü Transformer olarak uygulanan basit bir uçtan uca yaklaşımdır. Giriş sesi 30 saniyelik parçalara bölünür, bir log-Mel spektrogramına dönüştürülür ve ardından bir kodlayıcıya iletilir. Bir kod çözücü, ilgili metin başlığını tahmin etmek için eğitilir ve tek modeli dil tanımlama, tümce düzeyinde zaman damgaları, çok dilli konuşma transkripsiyonu ve İngilizce'ye konuşma çevirisi gibi görevleri gerçekleştirmeye yönlendiren özel belirteçlerle karıştırılır.

görüntü
görüntü

Diğer mevcut yaklaşımlar sıklıkla daha küçük, daha yakından eşleştirilmiş sesli metin eğitim veri kümelerini kullanır.veya geniş ama denetimsiz sesli ön eğitim kullanın. Whisper, geniş ve çeşitli bir veri kümesi üzerinde eğitildiğinden ve belirli bir veri kümesine ince ayar yapılmadığından, konuşma tanımada rekabetle ünlü bir ölçüt olan LibriSpeech performansında uzmanlaşmış modelleri geçemez. Ancak, Whisper'ın sıfır atış performansını birçok farklı veri kümesinde ölçtüğümüzde, bunun çok daha sağlam olduğunu ve bu modellerden %50 daha az hata yaptığını görüyoruz.

Whisper'ın ses veri kümesinin yaklaşık üçte biri İngilizce değildir ve dönüşümlü olarak orijinal dilde yazma veya İngilizce'ye çevirme görevi verilir. Bu yaklaşımın konuşmadan metne çeviriyi öğrenmede özellikle etkili olduğunu ve CoVoST2'den İngilizce'ye sıfır atışta denetimli SOTA'dan daha iyi performans gösterdiğini görüyoruz.

görüntü
görüntü

Whisper'ın yüksek doğruluğunun ve kullanım kolaylığının, geliştiricilerin çok daha geniş bir uygulama grubuna ses arabirimleri eklemesine olanak sağlayacağını umuyoruz. Kontrol et kâğıt, model kartı, ve kod Daha fazla ayrıntı öğrenmek ve Whisper'ı denemek için.

Zaman Damgası:

Den fazla OpenAI