আমাজন পলি, একটি AI জেনারেটেড টেক্সট-টু-স্পিচ পরিষেবা, আপনাকে আপনার ইন্টারেক্টিভ ভয়েস সমাধানগুলি স্বয়ংক্রিয় এবং স্কেল করতে সক্ষম করে, উত্পাদনশীলতা উন্নত করতে এবং খরচ কমাতে সহায়তা করে।
যেহেতু আমাদের গ্রাহকরা অ্যামাজন পলির বৈশিষ্ট্যগুলির সমৃদ্ধ সেট এবং ব্যবহারের সহজতার জন্য ব্যবহার চালিয়ে যাচ্ছেন, আমরা প্রদত্ত টেক্সট ইনপুটের জন্য একই সাথে সিঙ্ক্রোনাইজড অডিও এবং সাবটাইটেল বা বন্ধ ক্যাপশন তৈরি করার ক্ষমতার চাহিদা লক্ষ্য করেছি। AWS-এ, আমরা ক্রমাগত আমাদের গ্রাহকের জিজ্ঞাসা থেকে পিছিয়ে কাজ করি, তাই এই পোস্টে, আমরা একটি প্রদত্ত পাঠ্যের জন্য একই সময়ে অডিও এবং সাবটাইটেল তৈরি করার একটি পদ্ধতির রূপরেখা দিই৷
যদিও এই পোস্টে সহ সাবটাইটেল এবং ক্যাপশনগুলি প্রায়ই বিনিময়যোগ্যভাবে ব্যবহার করা হয়, তবে তাদের মধ্যে সূক্ষ্ম পার্থক্য রয়েছে:
- সাবটাইটেল – সাবটাইটেলে, স্ক্রিনে প্রদর্শিত পাঠ্য ভাষা অডিও ভাষার থেকে আলাদা এবং উল্লেখযোগ্য শব্দের মতো অ-সংলাপের জন্য কিছু প্রদর্শন করে না। প্রাথমিক উদ্দেশ্য হল সেই শ্রোতাদের কাছে পৌঁছানো যারা ভিডিওতে অডিও ভাষায় কথা বলতে পারে না।
- ক্যাপশন (বন্ধ/খোলা) - ক্যাপশনগুলি একই ভাষায় অডিওতে কথিত সংলাপগুলি প্রদর্শন করে৷ এর প্রাথমিক উদ্দেশ্য হল এমন ক্ষেত্রে অ্যাক্সেসযোগ্যতা বৃদ্ধি করা যেখানে বিভিন্ন সমস্যার কারণে শেষ ভোক্তা অডিও শুনতে পাচ্ছেন না। ক্লোজড ক্যাপশনগুলি অডিও/ভিডিও সোর্স থেকে আলাদা ফাইলের অংশ এবং ব্যবহারকারীর বিবেচনার ভিত্তিতে এটি বন্ধ এবং চালু করা যেতে পারে, যেখানে খোলা ক্যাপশন ভিডিও ফাইলের অংশ এবং ব্যবহারকারীর দ্বারা বন্ধ করা যায় না।
সাবটাইটেল বা ক্লোজড ক্যাপশন সহ অডিও তৈরি করতে অ্যামাজন পলি ব্যবহার করার সুবিধা
নিম্নলিখিত ব্যবহারের ক্ষেত্রে কল্পনা করুন: আপনি একটি অনলাইন লার্নিং পোর্টালের জন্য একটি স্লাইড-ভিত্তিক উপস্থাপনা প্রস্তুত করেন। প্রতিটি স্লাইডে অনস্ক্রিন বিষয়বস্তু এবং বর্ণনা রয়েছে। অনস্ক্রিন বিষয়বস্তু একটি মৌলিক রূপরেখা, এবং বর্ণনা বিস্তারিতভাবে যায়। একটি মানুষের ভয়েস রেকর্ড করার পরিবর্তে, যা কষ্টকর এবং অসঙ্গতিপূর্ণ হতে পারে, আপনি বর্ণনা তৈরি করতে অ্যামাজন পলি ব্যবহার করতে পারেন। অ্যামাজন পলি উচ্চ-মানের, সামঞ্জস্যপূর্ণ ভয়েস তৈরি করে। পোস্ট প্রোডাকশনের দরকার নেই। ভবিষ্যতে, আপনি যদি উপস্থাপনার একটি অংশ আপডেট করতে চান তবে আপনাকে শুধুমাত্র প্রভাবিত স্লাইডগুলি আপডেট করতে হবে। ভয়েসটি আসল স্লাইডের সাথে মেলে। অতিরিক্তভাবে, যখন অ্যামাজন পলি আপনার অডিও তৈরি করে, তখন ক্যাপশনগুলি অন্তর্ভুক্ত করা হয় যা অডিওর সাথে সময়মতো উপস্থিত হয়। আপনি সময় সাশ্রয় করেন কারণ কোনও ম্যানুয়াল রেকর্ডিং জড়িত নেই এবং আপডেটের প্রয়োজন হলে অতিরিক্ত সময় বাঁচান। আপনার উপস্থাপনা আরও মূল্য প্রদান করে কারণ ক্যাপশন শিক্ষার্থীদের সামগ্রী ব্যবহার করতে সহায়তা করে। এটি একটি জয়-জয়-জয় সমাধান।
ক্যাপশনের জন্য অনেকগুলি ব্যবহারের ক্ষেত্রে রয়েছে, যেমন সামাজিক স্থান, জিমনেসিয়াম, কফি শপ এবং অন্যান্য জায়গাগুলিতে বিজ্ঞাপন যেখানে সাধারণত অডিও মিউট এবং ব্যাকগ্রাউন্ডে সঙ্গীত সহ টেলিভিশনে কিছু থাকে; অনলাইন প্রশিক্ষণ এবং ক্লাস; ভার্চুয়াল মিটিং; পাবলিক ইলেকট্রনিক ঘোষণা; হেডফোন ছাড়া এবং সহযাত্রীদের বিরক্ত না করে যাতায়াতের সময় ভিডিও দেখা; এবং আরো বেশ কিছু।
আবেদনের ক্ষেত্র নির্বিশেষে, বন্ধ ক্যাপশন নিম্নলিখিতগুলির সাথে সাহায্য করতে পারে:
- অভিগম্যতা - শ্রবণ প্রতিবন্ধী ব্যক্তিরা আপনার বিষয়বস্তু ভালভাবে ব্যবহার করতে পারে।
- স্মৃতিশক্তি - অনলাইন শিক্ষা ই-শিক্ষার্থীদের পক্ষে উপলব্ধি করা এবং ধরে রাখা সহজ হয় যখন আরও বেশি মানুষের ইন্দ্রিয় জড়িত থাকে।
- পুনঃব্যবস্থা – আপনার বিষয়বস্তু এমন লোকেদের কাছে পৌঁছাতে পারে যাদের প্রতিযোগীতার অগ্রাধিকার রয়েছে, যেমন গেমিং এবং একই সাথে খবর দেখা, অথবা অডিও ভাষার থেকে ভিন্ন স্থানীয় ভাষা আছে এমন লোকেদের কাছে।
- অনুসন্ধান যোগ্যতা - বিষয়বস্তু সার্চ ইঞ্জিন দ্বারা অনুসন্ধানযোগ্য. যদিও ভিডিওগুলি বেশিরভাগ সার্চ ইঞ্জিন দ্বারা সর্বোত্তমভাবে অনুসন্ধান করা যায় না, অনুসন্ধান ইঞ্জিনগুলি ক্যাপশন পাঠ্য ফাইলগুলি ব্যবহার করতে পারে এবং আপনার সামগ্রীকে আরও আবিষ্কারযোগ্য করে তুলতে পারে৷
- সামাজিক সৌজন্য - কখনও কখনও আপনার আশেপাশের কারণে অডিও চালানো অভদ্র হতে পারে, অথবা আপনার পরিবেশের গোলমালের কারণে অডিও শুনতে অসুবিধা হতে পারে।
- ধী - বক্তার উচ্চারণ, স্পিকারের স্থানীয় ভাষা বা কথা বলার গতি নির্বিশেষে বিষয়বস্তু বোঝা সহজ। আপনি একই দৃশ্য বারবার না দেখেও নোট নিতে পারেন।
সমাধান ওভারভিউ
এই পোস্টে উপস্থাপিত লাইব্রেরি একটি ইনপুট পাঠ্যের জন্য শব্দ এবং বন্ধ ক্যাপশন তৈরি করতে Amazon Polly ব্যবহার করে। আপনি সহজেই আপনার পাঠ্য থেকে বক্তৃতা অ্যাপ্লিকেশনগুলিতে এই লাইব্রেরিটি সংহত করতে পারেন৷ এটি বিভিন্ন অডিও ফরম্যাট এবং VTT এবং SRT ফাইল ফর্ম্যাটে ক্যাপশন সমর্থন করে, যা শিল্প জুড়ে সবচেয়ে বেশি ব্যবহৃত হয়।
এই পোস্টে, আমরা ফোকাস PollyVTT()
সিনট্যাক্স এবং বিকল্পগুলি, এবং কয়েকটি উদাহরণ অফার করে যা প্রদর্শন করে কিভাবে পাইথন ব্যবহার করতে হয় SubtitleGeneratorForPolly
প্রদত্ত টেক্সট ইনপুটের জন্য একই সাথে সিঙ্ক্রোনাস অডিও এবং সাবটাইটেল ফাইল তৈরি করতে। আউটপুট অডিও ফাইল ফরম্যাট PCM(wav), OGG, বা MP3 হতে পারে এবং সাবটাইটেল ফাইল ফরম্যাট VTT বা SRT হতে পারে। উপরন্তু, SubtitleGeneratorForPolly
সমস্ত অ্যামাজন পলি সমর্থন করে synthesize_speech
প্যারামিটার এবং সমৃদ্ধ অ্যামাজন পলি বৈশিষ্ট্য সেট যোগ করে।
সার্জারির polly-vtt
লাইব্রেরি এবং এর নির্ভরতা পাওয়া যায় GitHub.
ইনস্টল করুন এবং ফাংশন ব্যবহার করুন
আমরা ব্যবহারের কিছু উদাহরণ তাকান আগে PollyVTT()
, ক্ষমতা যে ফাংশন SubtitleGeneratorForPolly
, এর ইনস্টলেশন এবং সিনট্যাক্স দেখুন।
নিম্নলিখিত কোড ব্যবহার করে লাইব্রেরি ইনস্টল করুন:
কমান্ড লাইন থেকে চালানোর জন্য, আপনি কেবল চালান polly-vtt
:
নিম্নলিখিত কোড আপনার বিকল্প দেখায়:
আসুন এখন কয়েকটি উদাহরণ দেখি।
উদাহরণ 1
এই উদাহরণটি দুটি সাধারণ বাক্যের জন্য একটি SRT ক্যাপশন ফাইলের সাথে একটি PCM অডিও ফাইল তৈরি করে:
উদাহরণ 2
এই উদাহরণটি দেখায় কিভাবে ইনপুট হিসাবে পাঠ্যের একটি অনুচ্ছেদ ব্যবহার করতে হয়। এটি WAV, MP3 এবং OGG-এ অডিও ফাইল এবং SRT এবং VTT-তে সাবটাইটেল তৈরি করে। নিম্নলিখিত উদাহরণটি প্রদত্ত ইনপুট পাঠ্যের জন্য ছয়টি ফাইল তৈরি করে:
pcm_testfile.wav
pcm_testfile.wav.vtt
mp3_testfile.mp3
mp3_testfile.mp3.vtt
ogg_testfile.ogg
ogg_testfile.ogg.srt
নিম্নলিখিত কোডটি দেখুন:
উদাহরণ 3
বেশিরভাগ ক্ষেত্রে, তবে, আপনি একটি ইনপুট ফাইল হিসাবে পাঠ্য পাস করতে চান। নিম্নলিখিতটি এর একটি পাইথন উদাহরণ, আগের উদাহরণের মতো একই আউটপুট সহ:
নিচে AWS অভ্যন্তরীণ প্রশিক্ষণ দলের একটি প্রশংসামূলক পোস্ট রয়েছে যা বন্ধ ক্যাপশন সহ অ্যামাজন পলি ব্যবহার করছে:
নিম্নলিখিত ভিডিওটি AWS-এর অভ্যন্তরীণ প্রশিক্ষণ দল কীভাবে ব্যবহার করে তার একটি সংক্ষিপ্ত ডেমো অফার করে PollyVTT()
:
উপসংহার
এই পোস্টে, আমরা একটি প্রদত্ত পাঠ্যের জন্য একই সময়ে অডিও এবং সাবটাইটেল তৈরি করার একটি পদ্ধতি শেয়ার করেছি। দ্য PollyVTT()
ফাংশন এবং SubtitleGeneratorForPolly
একটি দক্ষ এবং কার্যকর পদ্ধতিতে সাবটাইটেলগুলির জন্য একটি সাধারণ প্রয়োজনীয়তার সমাধান করুন। আমাজন পলি দলটি ক্রমাগত উদ্ভাবন করে এবং জটিল গ্রাহকের প্রয়োজনীয়তার সরলীকৃত সমাধান প্রদান করে।
অ্যামাজন পলি সম্পর্কে আরও টিউটোরিয়াল এবং তথ্যের জন্য, দেখুন এডাব্লুএস মেশিন লার্নিং ব্লগ.
লেখক সম্পর্কে
অভিষেক সোনি AWS-এর একজন পার্টনার সলিউশন আর্কিটেক্ট। তিনি AWS-এ কাজের চাপের সর্বোত্তম ফলাফলের জন্য প্রযুক্তিগত নির্দেশনা প্রদান করতে গ্রাহকদের সাথে কাজ করেন।
দেনিযেল McKee টার্গেটেড, মডুলার এবং স্ট্রাকচার্ড কোর্সে কন্টেন্ট ডিস্টিল করতে অডিও, ভিডিও এবং কফি ব্যবহার করে। Amazon Web Services-এ NetSec ডোমেনের জন্য পাঠ্যক্রম বিকাশকারী প্রকল্প ব্যবস্থাপকের ভূমিকায়, তিনি ডেটা সেন্টার নেটওয়ার্কিং-এ তার অভিজ্ঞতাকে কাজে লাগান যাতে বিষয় বিশেষজ্ঞদের ধারণাগুলিকে জীবনে আনতে সহায়তা করে।
অরল্যান্ডো কারাম তিনি আমাজন ওয়েব সার্ভিসেসের একজন প্রযুক্তিগত পাঠ্যক্রম বিকাশকারী, যার অর্থ তিনি দুর্দান্ত নতুন প্রযুক্তির সাথে খেলতে পারেন এবং তারপরে এটি সম্পর্কে কথা বলতে পারেন৷ মাঝে মাঝে, তিনি তার কাজ সহজ করার জন্য সেই দুর্দান্ত প্রযুক্তিগুলিও ব্যবহার করেন।
- AI
- ai শিল্প
- এআই আর্ট জেনারেটর
- আইআই রোবট
- আমাজন পলি
- কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম বুদ্ধিমত্তা সার্টিফিকেশন
- ব্যাংকিং এ কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম বুদ্ধিমত্তার রোবট
- কৃত্রিম বুদ্ধিমত্তার রোবট
- কৃত্রিম বুদ্ধিমত্তা সফ্টওয়্যার
- এডাব্লুএস মেশিন লার্নিং
- blockchain
- ব্লকচেইন সম্মেলন এআই
- coingenius
- কথোপকথন কৃত্রিম বুদ্ধিমত্তা
- ক্রিপ্টো সম্মেলন এআই
- ডাল-ই
- গভীর জ্ঞানার্জন
- গুগল আই
- মেশিন লার্নিং
- Plato
- প্লেটো এআই
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটো গেম
- প্লেটোডাটা
- প্লেটোগেমিং
- স্কেল ai
- বাক্য গঠন
- zephyrnet