Amazon Polly altyazı oluşturucuyu kullanarak senkronize altyazılar ve ses oluşturun

Amazon PollyYapay zeka tarafından oluşturulan bir metinden sese hizmeti, etkileşimli ses çözümlerinizi otomatikleştirmenizi ve ölçeklendirmenizi sağlayarak üretkenliği artırmanıza ve maliyetleri azaltmanıza yardımcı olur.

Müşterilerimiz, zengin özellikleri ve kullanım kolaylığı nedeniyle Amazon Polly'yi kullanmaya devam ettikçe, belirli bir metin girişi için eşzamanlı ses ve alt yazılar veya alt yazılar oluşturma becerisine yönelik bir talep gözlemledik. AWS'de, sürekli olarak müşterilerimizin taleplerinden geriye doğru çalışıyoruz, bu nedenle bu gönderide, belirli bir metin için aynı anda ses ve altyazı oluşturma yöntemini özetliyoruz.

Alt yazılar ve alt yazılar, bu gönderi de dahil olmak üzere genellikle birbirinin yerine kullanılsa da, aralarında küçük farklar vardır:

  • Altyazı – Altyazılarda, ekranda görüntülenen metin dili ses dilinden farklıdır ve önemli sesler gibi diyalog dışı hiçbir şey göstermez. Birincil amaç, videodaki ses dilini konuşmayan kitleye ulaşmaktır.
  • Altyazılar (kapalı/açık) – Altyazılar, sesli olarak aynı dilde konuşulan diyalogları görüntüler. Birincil amacı, bir dizi sorun nedeniyle sesin son tüketici tarafından duyulamadığı durumlarda erişilebilirliği artırmaktır. Altyazılar, ses/video kaynağından farklı bir dosyanın parçasıdır ve kullanıcının takdirine bağlı olarak açılıp kapatılabilir, açık altyazılar ise video dosyasının bir parçasıdır ve kullanıcı tarafından kapatılamaz.

Altyazılı ses oluşturmak için Amazon Polly kullanmanın faydaları

Aşağıdaki kullanım durumunu hayal edin: bir çevrimiçi öğrenme portalı için slayt tabanlı bir sunum hazırlıyorsunuz. Her slayt, ekran içeriği ve anlatım içerir. Ekrandaki içerik temel bir taslaktır ve anlatım ayrıntılara girer. Hantal ve tutarsız olabilen bir insan sesini kaydetmek yerine anlatımı oluşturmak için Amazon Polly'yi kullanabilirsiniz. Amazon Polly, yüksek kaliteli, tutarlı sesler üretir. Post prodüksiyona gerek yok. Gelecekte, sununun bir bölümünü güncellemeniz gerekirse, yalnızca etkilenen slaytları güncellemeniz gerekir. Ses, orijinal slaytlarla eşleşiyor. Ayrıca, Amazon Polly sesinizi oluşturduğunda, sesle birlikte görünen altyazılar eklenir. Manuel kayıt olmadığı için zamandan tasarruf edersiniz ve güncelleme gerektiğinde ek zamandan tasarruf edersiniz. Altyazılar öğrencilerin içeriği tüketmesine yardımcı olduğu için sununuz daha fazla değer sağlar. Bu bir kazan-kazan-kazan çözümüdür.

Altyazılar için, sosyal alanlarda, spor salonlarında, kafelerde ve tipik olarak sesi kısılmış ve arka planda müzik olan bir televizyonda bir şeyler bulunan diğer yerlerdeki reklamlar gibi çok sayıda kullanım durumu vardır; çevrimiçi eğitim ve sınıflar; sanal toplantılar; kamuya açık elektronik duyurular; işe giderken kulaklıksız ve yolcuları rahatsız etmeden video izlemek; ve birkaç tane daha.

Uygulama alanından bağımsız olarak, altyazılar aşağıdaki konularda yardımcı olabilir:

  • Engellilerin kullanımları için uygunluk – İşitme engelli kişiler içeriğinizi daha iyi tüketebilir.
  • Tutma – Çevrimiçi öğrenme, daha fazla insani duyu söz konusu olduğunda, e-öğrenicilerin kavraması ve akılda tutması daha kolaydır.
  • Erişilebilirlik – İçeriğiniz, aynı anda oyun oynamak ve haber izlemek gibi rekabet öncelikleri olan veya ana dili ses dilinden farklı olan kişilere ulaşabilir.
  • Aranabilirliğini – İçerik arama motorları tarafından aranabilir. Videolar çoğu arama motoru tarafından en iyi şekilde aranamazken, arama motorları altyazı metin dosyalarını kullanabilir ve içeriğinizi daha keşfedilebilir hale getirebilir.
  • sosyal nezaket – Bazen çevrenizden dolayı sesi çalmak kaba olabilir veya çevrenizdeki gürültüden dolayı sesi duymak zor olabilir.
  • Anlama – Konuşmacının aksanı, konuşmacının ana dili veya konuşma hızından bağımsız olarak içeriğin anlaşılması daha kolaydır. Aynı sahneyi tekrar tekrar izlemeden de not alabilirsiniz.

Çözüme genel bakış

Bu gönderide sunulan kitaplık, bir giriş metni için ses ve altyazı oluşturmak için Amazon Polly'yi kullanır. Bu kitaplığı metinden sese uygulamalarınıza kolayca entegre edebilirsiniz. Endüstride en yaygın olarak kullanılan hem VTT hem de SRT dosya formatlarında çeşitli ses formatlarını ve altyazıları destekler.

Bu gönderide, şu konulara odaklanıyoruz: PollyVTT() sözdizimi ve seçenekler ve Python'un nasıl kullanılacağını gösteren birkaç örnek sunun SubtitleGeneratorForPolly belirli bir metin girişi için eşzamanlı ses ve altyazı dosyaları oluşturmak için. Çıkış ses dosyası formatı PCM(wav), OGG veya MP3 olabilir ve altyazı dosyası formatı VTT veya SRT olabilir. Üstelik, SubtitleGeneratorForPolly tüm Amazon Polly'yi destekler synthesize_speech parametreleri ve zengin Amazon Polly özellik setine ekler.

The polly-vtt kütüphane ve bağımlılıkları şurada mevcuttur: GitHub.

Fonksiyonu kurun ve kullanın

Bazı kullanım örneklerine bakmadan önce PollyVTT(), güç sağlayan işlev SubtitleGeneratorForPolly, kurulumuna ve sözdizimine bakalım.

Aşağıdaki kodu kullanarak kitaplığı yükleyin:

pip install

Komut satırından çalıştırmak için çalıştırmanız yeterlidir polly-vtt:

Usage: polly-vtt [OPTIONS] BASE_FILENAME VOICE_ID OUTPUT_FORMAT TEXT

Aşağıdaki kod seçeneklerinizi gösterir:

--caption-format TEXT 'srt' or 'vtt'
--help Show this message and exit. 

BASE_FILENAME: Base filename for both the audio and caption files 
VOICE_ID: Polly voice to use (Case-sensitive)
OUTPUT_FORMAT: Amazon Polly output format: pcm, mp3, ogg_vorbis 
TEXT: Full text to be digitized 
Caption format: srt or vtt

Şimdi birkaç örneğe bakalım.

Örnek 1

Bu örnek, iki basit cümle için bir SRT altyazı dosyasıyla birlikte bir PCM ses dosyası oluşturur:

$ polly-vtt testfile Joanna pcm "this is a test. this is a second sentence." --caption-format srt 

testfile.wav written successfully.
testfile.wav.srt written successfully.
Total Audio Length: 0:00:03.017500 
# of Sentences: 2

Örnek 2

Bu örnek, bir metin paragrafının girdi olarak nasıl kullanılacağını gösterir. Bu, WAV, MP3 ve OGG'de ses dosyaları ve SRT ve VTT'de altyazılar oluşturur. Aşağıdaki örnek, verilen giriş metni için altı dosya oluşturur:

  • pcm_testfile.wav
  • pcm_testfile.wav.vtt
  • mp3_testfile.mp3
  • mp3_testfile.mp3.vtt
  • ogg_testfile.ogg
  • ogg_testfile.ogg.srt

Aşağıdaki koda bakın:

from polly_vtt import PollyVTT 

text = "News content is shaped by its own unique characteristics. Sentences and paragraphs are usually short and highly in formative because writers have to compress information into a limited space. Depending on the theme, news articles may con tain relevant terminology, place names, abbreviations, people’s names, and quotes. Excellent news writing is clear, precis e, and avoids ambiguity. The writing is dynamic, especially in online articles, because content may get updated multiple times per day as new information becomes available." 

polly_vtt = PollyVTT() 

# pcm with VTT captions 
polly_vtt.generate( 
"pcm_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="pcm", 
) 

# mp3 with VTT captions 
polly_vtt.generate( 
"mp3_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="mp3", 
)
 
# ogg with SRT captions 
polly_vtt.generate( 
"ogg_testfile", 
"srt",
Text=text, 
VoiceId="Joanna", 
OutputFormat="ogg_vorbis", 
) 

Örnek 3

Ancak çoğu durumda metni girdi dosyası olarak iletmek istersiniz. Aşağıdaki, önceki örnekle aynı çıktıya sahip bir Python örneğidir:

from polly_vtt import PollyVTT
import os
import boto3
import json

polly_vtt = PollyVTT()

try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"pcm_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="pcm",
	)
	f.close()
except:
	print("error occurred while converting to PCM")
print("end of file")

# mp3 with VTT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"mp3_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="mp3",
	)
	f.close()
except:
	print("error occurred while converting to MP3")
print("end of file")

# ogg with SRT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"ogg_testfile",
	"srt",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="ogg_vorbis",
	)
	f.close()
except:
	print("error occurred while converting to OGG")
print("end of file")

Aşağıda, AWS dahili eğitim ekibinin, Amazon Polly'yi altyazılarla kullanma konusunda bir referans gönderisi bulunmaktadır:

Aşağıdaki video, AWS'deki dahili eğitim ekibinin nasıl kullandığına dair kısa bir demo sunuyor PollyVTT():

Sonuç

Bu gönderide, belirli bir metin için aynı anda ses ve altyazı oluşturma yöntemini paylaştık. bu PollyVTT() fonksiyonu ve SubtitleGeneratorForPolly alt yazılar için ortak bir gereksinimi verimli ve etkili bir şekilde ele almak. Amazon Polly ekibi, karmaşık müşteri gereksinimlerine basitleştirilmiş çözümler icat etmeye ve sunmaya devam ediyor.

Amazon Polly hakkında daha fazla eğitim ve bilgi için şu adrese göz atın: AWS Makine Öğrenimi Blogu.


Yazarlar Hakkında

Amazon Polly altyazı oluşturucu PlatoBlockchain Veri Zekasını kullanarak senkronize altyazılar ve ses oluşturun. Dikey Arama. Ai.Abhishek Soni AWS'de İş Ortağı Çözümleri Mimarıdır. AWS'deki iş yüklerinin en iyi sonucu için teknik rehberlik sağlamak üzere müşterilerle birlikte çalışır.

Amazon Polly altyazı oluşturucu PlatoBlockchain Veri Zekasını kullanarak senkronize altyazılar ve ses oluşturun. Dikey Arama. Ai. dan McKee içeriği hedeflenmiş, modüler ve yapılandırılmış kurslara ayırmak için ses, video ve kahve kullanır. Amazon Web Services'de NetSec Etki Alanı için Müfredat Geliştirici Proje Yöneticisi rolünde, konu uzmanlarının fikirleri hayata geçirmesine yardımcı olmak için Veri Merkezi Ağındaki deneyiminden yararlanır.

Amazon Polly altyazı oluşturucu PlatoBlockchain Veri Zekasını kullanarak senkronize altyazılar ve ses oluşturun. Dikey Arama. Ai.orlando karam Amazon Web Services'de Teknik Müfredat Geliştiricisi, yani harika yeni teknolojilerle oynuyor ve sonra bunun hakkında konuşuyor. Zaman zaman, işini kolaylaştırmak için bu harika teknolojileri de kullanıyor.

Zaman Damgası:

Den fazla AWS Makine Öğrenimi