অ্যামাজন পলি সাবটাইটেল জেনারেটর ব্যবহার করে সিঙ্ক্রোনাইজড বন্ধ ক্যাপশন এবং অডিও তৈরি করুন

আমাজন পলি, একটি AI জেনারেটেড টেক্সট-টু-স্পিচ পরিষেবা, আপনাকে আপনার ইন্টারেক্টিভ ভয়েস সমাধানগুলি স্বয়ংক্রিয় এবং স্কেল করতে সক্ষম করে, উত্পাদনশীলতা উন্নত করতে এবং খরচ কমাতে সহায়তা করে।

যেহেতু আমাদের গ্রাহকরা অ্যামাজন পলির বৈশিষ্ট্যগুলির সমৃদ্ধ সেট এবং ব্যবহারের সহজতার জন্য ব্যবহার চালিয়ে যাচ্ছেন, আমরা প্রদত্ত টেক্সট ইনপুটের জন্য একই সাথে সিঙ্ক্রোনাইজড অডিও এবং সাবটাইটেল বা বন্ধ ক্যাপশন তৈরি করার ক্ষমতার চাহিদা লক্ষ্য করেছি। AWS-এ, আমরা ক্রমাগত আমাদের গ্রাহকের জিজ্ঞাসা থেকে পিছিয়ে কাজ করি, তাই এই পোস্টে, আমরা একটি প্রদত্ত পাঠ্যের জন্য একই সময়ে অডিও এবং সাবটাইটেল তৈরি করার একটি পদ্ধতির রূপরেখা দিই৷

যদিও এই পোস্টে সহ সাবটাইটেল এবং ক্যাপশনগুলি প্রায়ই বিনিময়যোগ্যভাবে ব্যবহার করা হয়, তবে তাদের মধ্যে সূক্ষ্ম পার্থক্য রয়েছে:

  • সাবটাইটেল – সাবটাইটেলে, স্ক্রিনে প্রদর্শিত পাঠ্য ভাষা অডিও ভাষার থেকে আলাদা এবং উল্লেখযোগ্য শব্দের মতো অ-সংলাপের জন্য কিছু প্রদর্শন করে না। প্রাথমিক উদ্দেশ্য হল সেই শ্রোতাদের কাছে পৌঁছানো যারা ভিডিওতে অডিও ভাষায় কথা বলতে পারে না।
  • ক্যাপশন (বন্ধ/খোলা) - ক্যাপশনগুলি একই ভাষায় অডিওতে কথিত সংলাপগুলি প্রদর্শন করে৷ এর প্রাথমিক উদ্দেশ্য হল এমন ক্ষেত্রে অ্যাক্সেসযোগ্যতা বৃদ্ধি করা যেখানে বিভিন্ন সমস্যার কারণে শেষ ভোক্তা অডিও শুনতে পাচ্ছেন না। ক্লোজড ক্যাপশনগুলি অডিও/ভিডিও সোর্স থেকে আলাদা ফাইলের অংশ এবং ব্যবহারকারীর বিবেচনার ভিত্তিতে এটি বন্ধ এবং চালু করা যেতে পারে, যেখানে খোলা ক্যাপশন ভিডিও ফাইলের অংশ এবং ব্যবহারকারীর দ্বারা বন্ধ করা যায় না।

সাবটাইটেল বা ক্লোজড ক্যাপশন সহ অডিও তৈরি করতে অ্যামাজন পলি ব্যবহার করার সুবিধা

নিম্নলিখিত ব্যবহারের ক্ষেত্রে কল্পনা করুন: আপনি একটি অনলাইন লার্নিং পোর্টালের জন্য একটি স্লাইড-ভিত্তিক উপস্থাপনা প্রস্তুত করেন। প্রতিটি স্লাইডে অনস্ক্রিন বিষয়বস্তু এবং বর্ণনা রয়েছে। অনস্ক্রিন বিষয়বস্তু একটি মৌলিক রূপরেখা, এবং বর্ণনা বিস্তারিতভাবে যায়। একটি মানুষের ভয়েস রেকর্ড করার পরিবর্তে, যা কষ্টকর এবং অসঙ্গতিপূর্ণ হতে পারে, আপনি বর্ণনা তৈরি করতে অ্যামাজন পলি ব্যবহার করতে পারেন। অ্যামাজন পলি উচ্চ-মানের, সামঞ্জস্যপূর্ণ ভয়েস তৈরি করে। পোস্ট প্রোডাকশনের দরকার নেই। ভবিষ্যতে, আপনি যদি উপস্থাপনার একটি অংশ আপডেট করতে চান তবে আপনাকে শুধুমাত্র প্রভাবিত স্লাইডগুলি আপডেট করতে হবে। ভয়েসটি আসল স্লাইডের সাথে মেলে। অতিরিক্তভাবে, যখন অ্যামাজন পলি আপনার অডিও তৈরি করে, তখন ক্যাপশনগুলি অন্তর্ভুক্ত করা হয় যা অডিওর সাথে সময়মতো উপস্থিত হয়। আপনি সময় সাশ্রয় করেন কারণ কোনও ম্যানুয়াল রেকর্ডিং জড়িত নেই এবং আপডেটের প্রয়োজন হলে অতিরিক্ত সময় বাঁচান। আপনার উপস্থাপনা আরও মূল্য প্রদান করে কারণ ক্যাপশন শিক্ষার্থীদের সামগ্রী ব্যবহার করতে সহায়তা করে। এটি একটি জয়-জয়-জয় সমাধান।

ক্যাপশনের জন্য অনেকগুলি ব্যবহারের ক্ষেত্রে রয়েছে, যেমন সামাজিক স্থান, জিমনেসিয়াম, কফি শপ এবং অন্যান্য জায়গাগুলিতে বিজ্ঞাপন যেখানে সাধারণত অডিও মিউট এবং ব্যাকগ্রাউন্ডে সঙ্গীত সহ টেলিভিশনে কিছু থাকে; অনলাইন প্রশিক্ষণ এবং ক্লাস; ভার্চুয়াল মিটিং; পাবলিক ইলেকট্রনিক ঘোষণা; হেডফোন ছাড়া এবং সহযাত্রীদের বিরক্ত না করে যাতায়াতের সময় ভিডিও দেখা; এবং আরো বেশ কিছু।

আবেদনের ক্ষেত্র নির্বিশেষে, বন্ধ ক্যাপশন নিম্নলিখিতগুলির সাথে সাহায্য করতে পারে:

  • অভিগম্যতা - শ্রবণ প্রতিবন্ধী ব্যক্তিরা আপনার বিষয়বস্তু ভালভাবে ব্যবহার করতে পারে।
  • স্মৃতিশক্তি - অনলাইন শিক্ষা ই-শিক্ষার্থীদের পক্ষে উপলব্ধি করা এবং ধরে রাখা সহজ হয় যখন আরও বেশি মানুষের ইন্দ্রিয় জড়িত থাকে।
  • পুনঃব্যবস্থা – আপনার বিষয়বস্তু এমন লোকেদের কাছে পৌঁছাতে পারে যাদের প্রতিযোগীতার অগ্রাধিকার রয়েছে, যেমন গেমিং এবং একই সাথে খবর দেখা, অথবা অডিও ভাষার থেকে ভিন্ন স্থানীয় ভাষা আছে এমন লোকেদের কাছে।
  • অনুসন্ধান যোগ্যতা - বিষয়বস্তু সার্চ ইঞ্জিন দ্বারা অনুসন্ধানযোগ্য. যদিও ভিডিওগুলি বেশিরভাগ সার্চ ইঞ্জিন দ্বারা সর্বোত্তমভাবে অনুসন্ধান করা যায় না, অনুসন্ধান ইঞ্জিনগুলি ক্যাপশন পাঠ্য ফাইলগুলি ব্যবহার করতে পারে এবং আপনার সামগ্রীকে আরও আবিষ্কারযোগ্য করে তুলতে পারে৷
  • সামাজিক সৌজন্য - কখনও কখনও আপনার আশেপাশের কারণে অডিও চালানো অভদ্র হতে পারে, অথবা আপনার পরিবেশের গোলমালের কারণে অডিও শুনতে অসুবিধা হতে পারে।
  • ধী - বক্তার উচ্চারণ, স্পিকারের স্থানীয় ভাষা বা কথা বলার গতি নির্বিশেষে বিষয়বস্তু বোঝা সহজ। আপনি একই দৃশ্য বারবার না দেখেও নোট নিতে পারেন।

সমাধান ওভারভিউ

এই পোস্টে উপস্থাপিত লাইব্রেরি একটি ইনপুট পাঠ্যের জন্য শব্দ এবং বন্ধ ক্যাপশন তৈরি করতে Amazon Polly ব্যবহার করে। আপনি সহজেই আপনার পাঠ্য থেকে বক্তৃতা অ্যাপ্লিকেশনগুলিতে এই লাইব্রেরিটি সংহত করতে পারেন৷ এটি বিভিন্ন অডিও ফরম্যাট এবং VTT এবং SRT ফাইল ফর্ম্যাটে ক্যাপশন সমর্থন করে, যা শিল্প জুড়ে সবচেয়ে বেশি ব্যবহৃত হয়।

এই পোস্টে, আমরা ফোকাস PollyVTT() সিনট্যাক্স এবং বিকল্পগুলি, এবং কয়েকটি উদাহরণ অফার করে যা প্রদর্শন করে কিভাবে পাইথন ব্যবহার করতে হয় SubtitleGeneratorForPolly প্রদত্ত টেক্সট ইনপুটের জন্য একই সাথে সিঙ্ক্রোনাস অডিও এবং সাবটাইটেল ফাইল তৈরি করতে। আউটপুট অডিও ফাইল ফরম্যাট PCM(wav), OGG, বা MP3 হতে পারে এবং সাবটাইটেল ফাইল ফরম্যাট VTT বা SRT হতে পারে। উপরন্তু, SubtitleGeneratorForPolly সমস্ত অ্যামাজন পলি সমর্থন করে synthesize_speech প্যারামিটার এবং সমৃদ্ধ অ্যামাজন পলি বৈশিষ্ট্য সেট যোগ করে।

সার্জারির polly-vtt লাইব্রেরি এবং এর নির্ভরতা পাওয়া যায় GitHub.

ইনস্টল করুন এবং ফাংশন ব্যবহার করুন

আমরা ব্যবহারের কিছু উদাহরণ তাকান আগে PollyVTT(), ক্ষমতা যে ফাংশন SubtitleGeneratorForPolly, এর ইনস্টলেশন এবং সিনট্যাক্স দেখুন।

নিম্নলিখিত কোড ব্যবহার করে লাইব্রেরি ইনস্টল করুন:

pip install

কমান্ড লাইন থেকে চালানোর জন্য, আপনি কেবল চালান polly-vtt:

Usage: polly-vtt [OPTIONS] BASE_FILENAME VOICE_ID OUTPUT_FORMAT TEXT

নিম্নলিখিত কোড আপনার বিকল্প দেখায়:

--caption-format TEXT 'srt' or 'vtt'
--help Show this message and exit. 

BASE_FILENAME: Base filename for both the audio and caption files 
VOICE_ID: Polly voice to use (Case-sensitive)
OUTPUT_FORMAT: Amazon Polly output format: pcm, mp3, ogg_vorbis 
TEXT: Full text to be digitized 
Caption format: srt or vtt

আসুন এখন কয়েকটি উদাহরণ দেখি।

উদাহরণ 1

এই উদাহরণটি দুটি সাধারণ বাক্যের জন্য একটি SRT ক্যাপশন ফাইলের সাথে একটি PCM অডিও ফাইল তৈরি করে:

$ polly-vtt testfile Joanna pcm "this is a test. this is a second sentence." --caption-format srt 

testfile.wav written successfully.
testfile.wav.srt written successfully.
Total Audio Length: 0:00:03.017500 
# of Sentences: 2

উদাহরণ 2

এই উদাহরণটি দেখায় কিভাবে ইনপুট হিসাবে পাঠ্যের একটি অনুচ্ছেদ ব্যবহার করতে হয়। এটি WAV, MP3 এবং OGG-এ অডিও ফাইল এবং SRT এবং VTT-তে সাবটাইটেল তৈরি করে। নিম্নলিখিত উদাহরণটি প্রদত্ত ইনপুট পাঠ্যের জন্য ছয়টি ফাইল তৈরি করে:

  • pcm_testfile.wav
  • pcm_testfile.wav.vtt
  • mp3_testfile.mp3
  • mp3_testfile.mp3.vtt
  • ogg_testfile.ogg
  • ogg_testfile.ogg.srt

নিম্নলিখিত কোডটি দেখুন:

from polly_vtt import PollyVTT 

text = "News content is shaped by its own unique characteristics. Sentences and paragraphs are usually short and highly in formative because writers have to compress information into a limited space. Depending on the theme, news articles may con tain relevant terminology, place names, abbreviations, people’s names, and quotes. Excellent news writing is clear, precis e, and avoids ambiguity. The writing is dynamic, especially in online articles, because content may get updated multiple times per day as new information becomes available." 

polly_vtt = PollyVTT() 

# pcm with VTT captions 
polly_vtt.generate( 
"pcm_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="pcm", 
) 

# mp3 with VTT captions 
polly_vtt.generate( 
"mp3_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="mp3", 
)
 
# ogg with SRT captions 
polly_vtt.generate( 
"ogg_testfile", 
"srt",
Text=text, 
VoiceId="Joanna", 
OutputFormat="ogg_vorbis", 
) 

উদাহরণ 3

বেশিরভাগ ক্ষেত্রে, তবে, আপনি একটি ইনপুট ফাইল হিসাবে পাঠ্য পাস করতে চান। নিম্নলিখিতটি এর একটি পাইথন উদাহরণ, আগের উদাহরণের মতো একই আউটপুট সহ:

from polly_vtt import PollyVTT
import os
import boto3
import json

polly_vtt = PollyVTT()

try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"pcm_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="pcm",
	)
	f.close()
except:
	print("error occurred while converting to PCM")
print("end of file")

# mp3 with VTT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"mp3_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="mp3",
	)
	f.close()
except:
	print("error occurred while converting to MP3")
print("end of file")

# ogg with SRT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"ogg_testfile",
	"srt",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="ogg_vorbis",
	)
	f.close()
except:
	print("error occurred while converting to OGG")
print("end of file")

নিচে AWS অভ্যন্তরীণ প্রশিক্ষণ দলের একটি প্রশংসামূলক পোস্ট রয়েছে যা বন্ধ ক্যাপশন সহ অ্যামাজন পলি ব্যবহার করছে:

নিম্নলিখিত ভিডিওটি AWS-এর অভ্যন্তরীণ প্রশিক্ষণ দল কীভাবে ব্যবহার করে তার একটি সংক্ষিপ্ত ডেমো অফার করে PollyVTT():

উপসংহার

এই পোস্টে, আমরা একটি প্রদত্ত পাঠ্যের জন্য একই সময়ে অডিও এবং সাবটাইটেল তৈরি করার একটি পদ্ধতি শেয়ার করেছি। দ্য PollyVTT() ফাংশন এবং SubtitleGeneratorForPolly একটি দক্ষ এবং কার্যকর পদ্ধতিতে সাবটাইটেলগুলির জন্য একটি সাধারণ প্রয়োজনীয়তার সমাধান করুন। আমাজন পলি দলটি ক্রমাগত উদ্ভাবন করে এবং জটিল গ্রাহকের প্রয়োজনীয়তার সরলীকৃত সমাধান প্রদান করে।

অ্যামাজন পলি সম্পর্কে আরও টিউটোরিয়াল এবং তথ্যের জন্য, দেখুন এডাব্লুএস মেশিন লার্নিং ব্লগ.


লেখক সম্পর্কে

অ্যামাজন পলি সাবটাইটেল জেনারেটর PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে সিঙ্ক্রোনাইজ করা বন্ধ ক্যাপশন এবং অডিও তৈরি করুন। উল্লম্ব অনুসন্ধান. আ.অভিষেক সোনি AWS-এর একজন পার্টনার সলিউশন আর্কিটেক্ট। তিনি AWS-এ কাজের চাপের সর্বোত্তম ফলাফলের জন্য প্রযুক্তিগত নির্দেশনা প্রদান করতে গ্রাহকদের সাথে কাজ করেন।

অ্যামাজন পলি সাবটাইটেল জেনারেটর PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে সিঙ্ক্রোনাইজ করা বন্ধ ক্যাপশন এবং অডিও তৈরি করুন। উল্লম্ব অনুসন্ধান. আ. দেনিযেল McKee টার্গেটেড, মডুলার এবং স্ট্রাকচার্ড কোর্সে কন্টেন্ট ডিস্টিল করতে অডিও, ভিডিও এবং কফি ব্যবহার করে। Amazon Web Services-এ NetSec ডোমেনের জন্য পাঠ্যক্রম বিকাশকারী প্রকল্প ব্যবস্থাপকের ভূমিকায়, তিনি ডেটা সেন্টার নেটওয়ার্কিং-এ তার অভিজ্ঞতাকে কাজে লাগান যাতে বিষয় বিশেষজ্ঞদের ধারণাগুলিকে জীবনে আনতে সহায়তা করে।

অ্যামাজন পলি সাবটাইটেল জেনারেটর PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে সিঙ্ক্রোনাইজ করা বন্ধ ক্যাপশন এবং অডিও তৈরি করুন। উল্লম্ব অনুসন্ধান. আ.অরল্যান্ডো কারাম তিনি আমাজন ওয়েব সার্ভিসেসের একজন প্রযুক্তিগত পাঠ্যক্রম বিকাশকারী, যার অর্থ তিনি দুর্দান্ত নতুন প্রযুক্তির সাথে খেলতে পারেন এবং তারপরে এটি সম্পর্কে কথা বলতে পারেন৷ মাঝে মাঝে, তিনি তার কাজ সহজ করার জন্য সেই দুর্দান্ত প্রযুক্তিগুলিও ব্যবহার করেন।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং

T-Mobile US, Inc. তাদের গ্রাহকদের পছন্দের ভাষায় ভয়েসমেল প্রদান করতে Amazon Transcribe এবং Amazon Translate এর মাধ্যমে কৃত্রিম বুদ্ধিমত্তা ব্যবহার করে | আমাজন ওয়েব সার্ভিসেস

উত্স নোড: 1905364
সময় স্ট্যাম্প: অক্টোবর 24, 2023

বাইটড্যান্স AWS ইনফেরেনশিয়া ব্যবহার করে বিলম্ব কমাতে এবং থ্রুপুট বাড়ানোর সময় অনুমান খরচে 60% পর্যন্ত সাশ্রয় করে

উত্স নোড: 1762417
সময় স্ট্যাম্প: নভেম্বর 22, 2022

LLM সহ Amazon Lex উন্নত করুন এবং URL ইনজেশন ব্যবহার করে প্রায়শই জিজ্ঞাসিত প্রশ্নের অভিজ্ঞতা উন্নত করুন | আমাজন ওয়েব সার্ভিসেস

উত্স নোড: 1862206
সময় স্ট্যাম্প: জুলাই 18, 2023

Amazon SageMaker খরচ বিশ্লেষণ করুন এবং ব্যবহারের উপর ভিত্তি করে খরচ অপ্টিমাইজেশান সুযোগ নির্ধারণ করুন, পার্ট 3: প্রসেসিং এবং ডেটা র্যাংলার চাকরি | আমাজন ওয়েব সার্ভিসেস

উত্স নোড: 1843425
সময় স্ট্যাম্প: 30 পারে, 2023