قم بإنشاء تسميات توضيحية مغلقة متزامنة وصوت باستخدام مولد الترجمة Amazon Polly

الأمازون بوليتتيح لك خدمة تحويل النص إلى كلام التي تم إنشاؤها بواسطة الذكاء الاصطناعي ، أتمتة وتوسيع نطاق حلول الصوت التفاعلية ، مما يساعد على تحسين الإنتاجية وخفض التكاليف.

بينما يواصل عملاؤنا استخدام Amazon Polly لمجموعتها الغنية من الميزات وسهولة الاستخدام ، لاحظنا وجود طلب على القدرة على إنشاء صوت متزامن وترجمات أو تسميات توضيحية مغلقة لإدخال نص معين. في AWS ، نعمل باستمرار للخلف من طلب عملائنا ، لذلك في هذا المنشور ، نحدد طريقة لإنشاء الصوت والترجمات في نفس الوقت لنص معين.

على الرغم من استخدام الترجمة والتعليقات التوضيحية بالتبادل ، بما في ذلك في هذا المنشور ، إلا أن هناك اختلافات طفيفة فيما بينها:

  • عناوين فرعية - في الترجمة ، تختلف لغة النص المعروضة على الشاشة عن لغة الصوت ولا تعرض أي شيء لغير الحوار مثل الأصوات المهمة. الهدف الأساسي هو الوصول إلى الجمهور الذي لا يتكلم لغة الصوت في الفيديو.
  • تسميات توضيحية (مغلقة / مفتوحة) - تعرض التسميات التوضيحية الحوارات التي يتم التحدث بها بالصوت بنفس اللغة. والغرض الأساسي منه هو زيادة إمكانية الوصول في الحالات التي يتعذر فيها على المستهلك النهائي سماع الصوت بسبب مجموعة من المشكلات. تعد التسميات التوضيحية المغلقة جزءًا من ملف مختلف عن مصدر الصوت / الفيديو ويمكن إيقاف تشغيله وتشغيله وفقًا لتقدير المستخدم ، بينما تعد التسميات التوضيحية المفتوحة جزءًا من ملف الفيديو ولا يمكن للمستخدم إيقاف تشغيلها.

فوائد استخدام Amazon Polly لإنشاء صوت مع ترجمة أو تسميات توضيحية مغلقة

تخيل حالة الاستخدام التالية: تقوم بإعداد عرض تقديمي قائم على الشرائح لبوابة تعليمية عبر الإنترنت. تتضمن كل شريحة محتوى وسرد على الشاشة. يعد المحتوى الذي يظهر على الشاشة مخططًا أساسيًا ، ويتعمق السرد في التفاصيل. بدلاً من تسجيل صوت بشري ، والذي قد يكون مرهقًا وغير متسق ، يمكنك استخدام Amazon Polly لإنشاء السرد. تنتج Amazon Polly أصواتًا عالية الجودة ومتسقة. ليست هناك حاجة لمرحلة ما بعد الإنتاج. في المستقبل ، إذا كنت بحاجة إلى تحديث جزء من العرض التقديمي ، فأنت تحتاج فقط إلى تحديث الشرائح المتأثرة. يتطابق الصوت مع الشرائح الأصلية. بالإضافة إلى ذلك ، عندما تصدر Amazon Polly الصوت الخاص بك ، يتم تضمين التسميات التوضيحية التي تظهر في الوقت المناسب مع الصوت. يمكنك توفير الوقت لأنه لا يوجد تسجيل يدوي متضمن ، وتوفر وقتًا إضافيًا عند الحاجة إلى التحديثات. يقدم العرض التقديمي أيضًا قيمة أكبر لأن التسميات التوضيحية تساعد الطلاب على استهلاك المحتوى. إنه حل يربح فيه الجميع.

هناك العديد من حالات الاستخدام للتعليقات التوضيحية ، مثل الإعلانات في المساحات الاجتماعية ، وصالات الألعاب الرياضية ، والمقاهي ، وغيرها من الأماكن التي يوجد فيها عادةً شيء ما على شاشة التلفزيون مع كتم الصوت والموسيقى في الخلفية ؛ التدريب والدروس عبر الإنترنت ؛ اجتماعات افتراضية الإعلانات الإلكترونية العامة ؛ مشاهدة مقاطع الفيديو أثناء التنقل بدون سماعات وبدون إزعاج الركاب الآخرين ؛ والعديد غيرها.

بصرف النظر عن مجال التطبيق ، يمكن أن تساعد ميزة التسميات التوضيحية المغلقة في ما يلي:

  • إمكانية الوصول - يمكن للأشخاص الذين يعانون من إعاقة سمعية أن يستهلكوا المحتوى الخاص بك بشكل أفضل.
  • استبقاء - يسهل على المتعلمين الإلكترونيين فهم التعلم عبر الإنترنت والاحتفاظ به عندما يتعلق الأمر بالمزيد من حواس الإنسان.
  • وسائل الأتصال - يمكن أن يصل المحتوى الخاص بك إلى الأشخاص الذين لديهم أولويات متنافسة ، مثل الألعاب ومشاهدة الأخبار في وقت واحد ، أو الأشخاص الذين لديهم لغة أصلية مختلفة عن لغة الصوت.
  • إمكانية البحث - المحتوى يمكن البحث فيه عن طريق محركات البحث. في حين لا يمكن البحث عن مقاطع الفيديو على النحو الأمثل بواسطة معظم محركات البحث ، يمكن لمحركات البحث استخدام ملفات نصية توضيحية وتجعل المحتوى الخاص بك أكثر قابلية للاكتشاف.
  • مجاملة اجتماعية - في بعض الأحيان قد يكون من الوقاحة تشغيل الصوت بسبب محيطك ، أو قد يكون من الصعب سماع الصوت بسبب ضجيج بيئتك.
  • فهم - المحتوى أسهل في الفهم بغض النظر عن لهجة المتحدث أو اللغة الأم للمتحدث أو سرعة الكلام. يمكنك أيضًا تدوين الملاحظات دون تكرار مشاهدة نفس المشهد.

حل نظرة عامة

تستخدم المكتبة المعروضة في هذا المنشور Amazon Polly لإنشاء تسميات توضيحية صوتية ومغلقة لنص الإدخال. يمكنك بسهولة دمج هذه المكتبة في تطبيقات تحويل النص إلى كلام. وهو يدعم العديد من تنسيقات الصوت والتعليقات التوضيحية في كل من تنسيقات ملفات VTT و SRT ، والتي تعد الأكثر استخدامًا في جميع أنحاء الصناعة.

في هذا المنشور ، نركز على PollyVTT() بناء الجملة والخيارات ، وعرض بعض الأمثلة التي توضح كيفية استخدام Python SubtitleGeneratorForPolly لتوليد ملفات صوت وترجمة متزامنة لإدخال نص معين. يمكن أن يكون تنسيق ملف الصوت الناتج PCM (wav) أو OGG أو MP3 ، ويمكن أن يكون تنسيق ملف الترجمة VTT أو SRT. بالإضافة إلى، SubtitleGeneratorForPolly يدعم جميع أمازون بولي synthesize_speech المعلمات ويضيف إلى مجموعة ميزات Amazon Polly الغنية.

polly-vtt مكتبة وتوابعها متوفرة على GitHub جيثب:.

تثبيت واستخدام الوظيفة

قبل أن نلقي نظرة على بعض الأمثلة على استخدام PollyVTT()، الوظيفة التي تعمل SubtitleGeneratorForPolly، دعنا نلقي نظرة على التثبيت وصياغته.

قم بتثبيت المكتبة باستخدام الكود التالي:

pip install

للتشغيل من سطر الأوامر ، يمكنك ببساطة تشغيل polly-vtt:

Usage: polly-vtt [OPTIONS] BASE_FILENAME VOICE_ID OUTPUT_FORMAT TEXT

يوضح الكود التالي خياراتك:

--caption-format TEXT 'srt' or 'vtt'
--help Show this message and exit. 

BASE_FILENAME: Base filename for both the audio and caption files 
VOICE_ID: Polly voice to use (Case-sensitive)
OUTPUT_FORMAT: Amazon Polly output format: pcm, mp3, ogg_vorbis 
TEXT: Full text to be digitized 
Caption format: srt or vtt

دعونا نلقي نظرة على بعض الأمثلة الآن.

مثال 1

ينشئ هذا المثال ملف صوتي PCM مع ملف تسمية توضيحية SRT لجملتين بسيطتين:

$ polly-vtt testfile Joanna pcm "this is a test. this is a second sentence." --caption-format srt 

testfile.wav written successfully.
testfile.wav.srt written successfully.
Total Audio Length: 0:00:03.017500 
# of Sentences: 2

مثال 2

يوضح هذا المثال كيفية استخدام فقرة من النص كمدخلات. يؤدي هذا إلى إنشاء ملفات صوتية بتنسيق WAV و MP3 و OGG وترجمات في SRT و VTT. ينشئ المثال التالي ستة ملفات لنص الإدخال المحدد:

  • pcm_testfile.wav
  • pcm_testfile.wav.vtt
  • mp3_testfile.mp3
  • mp3_testfile.mp3.vtt
  • ogg_testfile.ogg
  • ogg_testfile.ogg.srt

انظر الكود التالي:

from polly_vtt import PollyVTT 

text = "News content is shaped by its own unique characteristics. Sentences and paragraphs are usually short and highly in formative because writers have to compress information into a limited space. Depending on the theme, news articles may con tain relevant terminology, place names, abbreviations, people’s names, and quotes. Excellent news writing is clear, precis e, and avoids ambiguity. The writing is dynamic, especially in online articles, because content may get updated multiple times per day as new information becomes available." 

polly_vtt = PollyVTT() 

# pcm with VTT captions 
polly_vtt.generate( 
"pcm_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="pcm", 
) 

# mp3 with VTT captions 
polly_vtt.generate( 
"mp3_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="mp3", 
)
 
# ogg with SRT captions 
polly_vtt.generate( 
"ogg_testfile", 
"srt",
Text=text, 
VoiceId="Joanna", 
OutputFormat="ogg_vorbis", 
) 

مثال 3

ومع ذلك ، في معظم الحالات ، تريد تمرير النص كملف إدخال. ما يلي هو مثال Python لهذا ، مع نفس الإخراج مثل المثال السابق:

from polly_vtt import PollyVTT
import os
import boto3
import json

polly_vtt = PollyVTT()

try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"pcm_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="pcm",
	)
	f.close()
except:
	print("error occurred while converting to PCM")
print("end of file")

# mp3 with VTT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"mp3_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="mp3",
	)
	f.close()
except:
	print("error occurred while converting to MP3")
print("end of file")

# ogg with SRT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"ogg_testfile",
	"srt",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="ogg_vorbis",
	)
	f.close()
except:
	print("error occurred while converting to OGG")
print("end of file")

ما يلي هو شهادة من فريق التدريب الداخلي في AWS على استخدام Amazon Polly مع التسميات التوضيحية المغلقة:

يقدم الفيديو التالي عرضًا توضيحيًا قصيرًا لكيفية استخدام فريق التدريب الداخلي في AWS PollyVTT():

وفي الختام

في هذا المنشور ، شاركنا طريقة لإنشاء صوت وترجمات في نفس الوقت لنص معين. ال PollyVTT() وظيفة و SubtitleGeneratorForPolly معالجة مطلب مشترك للترجمة بطريقة فعالة وفعالة. يواصل فريق Amazon Polly ابتكار وتقديم حلول مبسطة لمتطلبات العملاء المعقدة.

لمزيد من البرامج التعليمية والمعلومات حول Amazon Polly ، تحقق من AWS مدونة التعلم الآلي.


حول المؤلف

أنشئ تسميات توضيحية مغلقة وصوتًا متزامنًا باستخدام مولد الترجمة الفرعي Amazon Polly PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.ابهيشيك سوني مهندس حلول شريك في AWS. إنه يعمل مع العملاء لتقديم التوجيه الفني لأفضل نتيجة لأعباء العمل على AWS.

أنشئ تسميات توضيحية مغلقة وصوتًا متزامنًا باستخدام مولد الترجمة الفرعي Amazon Polly PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية. دان ماكي يستخدم الصوت والفيديو والقهوة لتقطير المحتوى في دورات هادفة ونمطية ومنظمة. من خلال دوره كمدير مشروع مطور المناهج لنطاق NetSec في Amazon Web Services ، فإنه يستفيد من خبرته في شبكات مركز البيانات لمساعدة الخبراء المتخصصين في إحياء الأفكار.

أنشئ تسميات توضيحية مغلقة وصوتًا متزامنًا باستخدام مولد الترجمة الفرعي Amazon Polly PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.اورلاندو كرم هو مطور مناهج تقني في Amazon Web Services ، مما يعني أنه يمكنه اللعب بتقنيات جديدة رائعة ثم التحدث عنها. من حين لآخر ، يستخدم أيضًا تلك التقنيات الرائعة لتسهيل وظيفته.

الطابع الزمني:

اكثر من التعلم الآلي من AWS