অনেক AWS গ্রাহকদের সফলভাবে ব্যবহার করা হয়েছে আমাজন ট্রান্সক্রাইব সঠিকভাবে, দক্ষতার সাথে, এবং স্বয়ংক্রিয়ভাবে তাদের গ্রাহকের অডিও কথোপকথনগুলিকে পাঠ্যে রূপান্তর করতে এবং তাদের থেকে কার্যকর অন্তর্দৃষ্টি বের করতে। এই অন্তর্দৃষ্টিগুলি আপনাকে ক্রমাগত প্রক্রিয়া এবং পণ্যগুলিকে উন্নত করতে সাহায্য করতে পারে যা সরাসরি আপনার গ্রাহকদের জন্য গুণমান এবং অভিজ্ঞতা উন্নত করে।
ভারতের মতো অনেক দেশে ইংরেজি যোগাযোগের প্রাথমিক ভাষা নয়। ভারতীয় গ্রাহক কথোপকথনে হিন্দির মতো আঞ্চলিক ভাষা রয়েছে, যেখানে ইংরেজি শব্দ এবং বাক্যাংশগুলি এলোমেলোভাবে বলা হয়। সোর্স মিডিয়া ফাইলগুলিতে, যথাযথ বিশেষ্য, ডোমেন-নির্দিষ্ট সংক্ষিপ্ত শব্দ, শব্দ বা বাক্যাংশ থাকতে পারে যা ডিফল্ট অ্যামাজন ট্রান্সক্রাইব মডেল সচেতন নয়। এই ধরনের মিডিয়া ফাইলগুলির ট্রান্সক্রিপশনে সেই শব্দগুলির জন্য ভুল বানান থাকতে পারে।
এই পোস্টে, আমরা দেখিয়েছি কিভাবে আপনি Amazon Transcribe-এ আরও তথ্য প্রদান করতে পারেন কাস্টম শব্দভান্ডার Amazon Transcribe যেভাবে ব্যবসা-নির্দিষ্ট পরিভাষা সহ আপনার অডিও ফাইলগুলির ট্রান্সক্রিপশন পরিচালনা করে তা আপডেট করতে। আমরা হিংলিশ কলের (ভারতীয় হিন্দি কল যাতে ভারতীয় ইংরেজি শব্দ এবং বাক্যাংশ থাকে) ট্রান্সক্রিপশনের যথার্থতা উন্নত করার পদক্ষেপগুলি দেখাই। আপনি যেকোনও সাথে অডিও কল প্রতিলিপি করতে একই প্রক্রিয়া ব্যবহার করতে পারেন ভাষা সমর্থিত অ্যামাজন ট্রান্সক্রাইব দ্বারা। আপনি কাস্টম শব্দভান্ডার তৈরি করার পরে, আপনি আমাদের ব্যবহার করে নির্ভুলতা এবং স্কেলে অডিও কলগুলি প্রতিলিপি করতে পারেন পোস্ট কল বিশ্লেষণ সমাধান, যা আমরা এই পোস্টে আরও পরে আলোচনা করব।
সমাধান ওভারভিউ
আমরা নিম্নলিখিত ভারতীয় হিন্দি অডিও কল ব্যবহার করি (SampleAudio.wav
) প্রক্রিয়াটি প্রদর্শন করতে এলোমেলো ইংরেজি শব্দ সহ।
তারপরে আমরা আপনাকে নিম্নোক্ত উচ্চ-স্তরের পদক্ষেপের মধ্য দিয়ে চলে যাব:
- ডিফল্ট অ্যামাজন ট্রান্সক্রাইব হিন্দি মডেল ব্যবহার করে অডিও ফাইলটি প্রতিলিপি করুন।
- মডেল নির্ভুলতা পরিমাপ.
- কাস্টম শব্দভান্ডার সঙ্গে মডেল প্রশিক্ষণ.
- প্রশিক্ষিত মডেলের নির্ভুলতা পরিমাপ করুন।
পূর্বশর্ত
আমরা শুরু করার আগে, আমাদের নিশ্চিত করতে হবে যে ইনপুট অডিও ফাইলটি পূরণ করে ডেটা ইনপুট প্রয়োজনীয়তা প্রতিলিপি.
A মনোফোনিক রেকর্ডিং, হিসাবেও উল্লেখ করা হয় মনো, একটি অডিও সংকেত রয়েছে, যেখানে এজেন্ট এবং গ্রাহকের সমস্ত অডিও উপাদান একটি চ্যানেলে একত্রিত হয়। ক স্টেরিওফোনিক রেকর্ডিং, হিসাবেও উল্লেখ করা হয় স্টেরিও, দুটি পৃথক চ্যানেলে এজেন্ট এবং গ্রাহকের অডিও উপাদানগুলি ক্যাপচার করতে দুটি অডিও সংকেত রয়েছে৷ প্রতিটি এজেন্ট-গ্রাহক রেকর্ডিং ফাইলে দুটি অডিও চ্যানেল রয়েছে, একটি এজেন্টের জন্য এবং একটি গ্রাহকের জন্য।
লো-ফিডেলিটি অডিও রেকর্ডিং, যেমন টেলিফোন রেকর্ডিং, সাধারণত 8,000 Hz নমুনা হার ব্যবহার করে। অ্যামাজন ট্রান্সক্রাইব 16,000-48,000 Hz-এর মধ্যে নমুনা হার সহ মনো রেকর্ড করা এবং উচ্চ-বিশ্বস্ত অডিও ফাইল প্রক্রিয়াকরণ সমর্থন করে।
উন্নত ট্রান্সক্রিপশন ফলাফলের জন্য এবং এজেন্ট এবং গ্রাহকের দ্বারা উচ্চারিত শব্দগুলিকে স্পষ্টভাবে আলাদা করতে, আমরা 8,000 Hz নমুনা হারে রেকর্ড করা অডিও ফাইলগুলি ব্যবহার করার পরামর্শ দিই এবং স্টেরিও চ্যানেল আলাদা করা হয়।
আপনি মত একটি টুল ব্যবহার করতে পারেন ffmpeg কমান্ড লাইন থেকে আপনার ইনপুট অডিও ফাইল যাচাই করতে:
প্রত্যাবর্তিত প্রতিক্রিয়াতে, ইনপুট বিভাগে স্ট্রিম দিয়ে শুরু হওয়া লাইনটি পরীক্ষা করুন এবং নিশ্চিত করুন যে অডিও ফাইলগুলি 8,000 Hz এবং স্টেরিও চ্যানেল পৃথক করা হয়েছে:
যখন আপনি প্রচুর সংখ্যক অডিও ফাইল প্রক্রিয়া করার জন্য একটি পাইপলাইন তৈরি করেন, তখন আপনি এই পদক্ষেপটি স্বয়ংক্রিয়ভাবে ফাইলগুলি ফিল্টার করতে পারেন যা প্রয়োজনীয়তা পূরণ করে না।
একটি অতিরিক্ত পূর্বশর্ত পদক্ষেপ হিসাবে, প্রতিলিপি করা অডিও ফাইলগুলি হোস্ট করার জন্য একটি Amazon Simple Storage Service (Amazon S3) বাকেট তৈরি করুন৷ নির্দেশাবলীর জন্য, পড়ুন আপনার প্রথম S3 বালতি তৈরি করুন.তারপর অডিও ফাইল আপলোড করুন S3 বালতিতে।
ডিফল্ট মডেলের সাথে অডিও ফাইলটি প্রতিলিপি করুন
এখন আমরা পারি একটি অ্যামাজন ট্রান্সক্রাইব শুরু করুন আমরা যে অডিও ফাইলটি আপলোড করেছি তা ব্যবহার করে কল অ্যানালিটিক্স কাজ। এই উদাহরণে, আমরা ব্যবহার করি এডাব্লুএস ম্যানেজমেন্ট কনসোল অডিও ফাইল ট্রান্সক্রাইব করতে। এছাড়াও আপনি ব্যবহার করতে পারেন এডাব্লুএস কমান্ড লাইন ইন্টারফেস (AWS CLI) বা AWS SDK।
- অ্যামাজন ট্রান্সক্রাইব কনসোলে, বেছে নিন কল বিশ্লেষণ নেভিগেশন ফলকে।
- বেছে নিন বিশ্লেষণ কাজ কল.
- বেছে নিন চাকরি তৈরি করুন.
- জন্য নাম, একটি নাম লিখুন।
- জন্য ভাষা ব্যাবস্থা, নির্বাচন করুন নির্দিষ্ট ভাষা.
- জন্য ভাষানির্বাচন হিন্দি, IN (হাই-ইন).
- জন্য মডেলের ধরন, নির্বাচন করুন সাধারণ মডেল.
- জন্য S3 এ ইনপুট ফাইল অবস্থান, আপলোড করা অডিও ফাইল ধারণকারী S3 বালতিতে ব্রাউজ করুন।
- মধ্যে আউটপুট ডেটা বিভাগ, ডিফল্ট ছেড়ে দিন।
- মধ্যে অনুমতি অ্যাক্সেস অধ্যায়, নির্বাচন করুন একটি আইএএম ভূমিকা তৈরি করুন.
- নতুন একটি তৈরি কর এডাব্লুএস আইডেন্টিটি এবং অ্যাক্সেস ম্যানেজমেন্ট (IAM) ভূমিকা নামক হিন্দি ট্রান্সক্রিপশন যা S3 বালতি থেকে অডিও ফাইলগুলি পড়তে এবং ব্যবহার করার জন্য অ্যামাজন ট্রান্সক্রিপশন পরিষেবার অনুমতি প্রদান করে AWS কী ব্যবস্থাপনা পরিষেবা ডিক্রিপ্ট করার জন্য (AWS KMS) কী।
- মধ্যে কাজ কনফিগার করুন বিভাগ, ডিফল্ট ত্যাগ করুন, সহ কাস্টম শব্দভাণ্ডার অনির্বাচিত
- বেছে নিন চাকরি তৈরি করুন অডিও ফাইল প্রতিলিপি করতে.
চাকরির স্থিতি সম্পূর্ণ হলে, আপনি চাকরিটি (SampleAudio) বেছে নিয়ে ট্রান্সক্রিপশন পর্যালোচনা করতে পারেন।
গ্রাহক এবং এজেন্ট বাক্যগুলি পরিষ্কারভাবে আলাদা করা হয়েছে, যা আমাদের সনাক্ত করতে সাহায্য করে যে গ্রাহক বা এজেন্ট কোনো নির্দিষ্ট শব্দ বা বাক্যাংশ বলেছেন কিনা।
মডেল নির্ভুলতা পরিমাপ
ওয়ার্ড এরর রেট (WER) হল অটোমেটিক স্পিচ রিকগনিশন (ASR) সিস্টেমের নির্ভুলতা মূল্যায়নের জন্য প্রস্তাবিত এবং সবচেয়ে বেশি ব্যবহৃত মেট্রিক। লক্ষ্য হল ASR সিস্টেমের যথার্থতা উন্নত করার জন্য WER যতটা সম্ভব কমানো।
WER গণনা করতে, নিম্নলিখিত ধাপগুলি সম্পূর্ণ করুন। এই পোস্টটি ওপেন সোর্স ব্যবহার করে asr-মূল্যায়ন WER গণনা করার জন্য মূল্যায়ন টুল, কিন্তু অন্যান্য সরঞ্জাম যেমন SCTK or জিওয়ার এছাড়াও উপলব্ধ।
- ইনস্টল করুন দ্য
asr-evaluation
টুল, যা আপনার কমান্ড লাইনে wer স্ক্রিপ্ট উপলব্ধ করে।
পোস্টে পরে দেখানো wer কমান্ড চালানোর জন্য macOS বা Linux প্ল্যাটফর্মে একটি কমান্ড লাইন ব্যবহার করুন। - Amazon Transcribe কাজের বিবরণ পৃষ্ঠা থেকে নামের একটি টেক্সট ফাইলে ট্রান্সক্রিপ্টটি কপি করুন
hypothesis.txt
.
আপনি যখন কনসোল থেকে প্রতিলিপিটি অনুলিপি করবেন, তখন আপনি শব্দগুলির মধ্যে একটি নতুন লাইন অক্ষর লক্ষ্য করবেনAgent :, Customer :,
এবং হিন্দি লিপি।
এই পোস্টে স্থান বাঁচাতে নতুন লাইনের অক্ষরগুলি সরানো হয়েছে। আপনি যদি কনসোল থেকে টেক্সট ব্যবহার করতে চান, তাহলে নিশ্চিত করুন যে আপনার তৈরি করা রেফারেন্স টেক্সট ফাইলটিতেও নতুন লাইন অক্ষর রয়েছে, কারণ wer টুল লাইন দ্বারা লাইনের তুলনা করে। - সম্পূর্ণ প্রতিলিপি পর্যালোচনা করুন এবং সংশোধন করা প্রয়োজন এমন কোনো শব্দ বা বাক্যাংশ চিহ্নিত করুন:
ক্রেতা : হেলো,
প্রতিনিধি : গুর্মোর্নিগ ইন্ডিয়া ট্রেভেল এজেন্সি সেম আছে। লাগান্যা কথা করছি কি করে আমি তোমার সাহায্য করতে পারি।
ক্রেতা : আমি অনেক দিনগুলি हैदराबाद ট্র্যাভেল সম্পর্কে মনে হচ্ছে। আপনি কি আমাকে কিছু ভাল লোকেশন সম্পর্কে বলতে পারেন?
প্রতিনিধি : হ্যাঁ পরে। हैदराबाद में बहुत सारे प्लेस है। একা থেকে चार महीना गोलकुंडा फोर सालर জং ম্যুজিয়াম এবং বিরলা প্লেনেটোরিয়াম মশহুর।
ক্রেতা : হ্যাঁ উন্নতিয়া থাঙ্ক ইউ আমি পরবর্তী স্যাটারডে এবং সান্ডে কে ট্রাই করব।
প্রতিনিধি : এক সজেশন ভিকেন্ডে ট্র্যাফিক বেশি থাকবেন চান্সেজ।
ক্রেতা : সিরিয়াসলি এনি টিপস চিক শের
প্রতিনিধি : आप टेक्सी यूस कर लो ড্রাইব এবং আপনাকে প্রবলেম হবে না।
ক্রেতা : গ্রেট আইডিয়া थैंक्यू सो मच। হাইলাইট করা শব্দগুলি হল সেইগুলি যা ডিফল্ট অ্যামাজন ট্রান্সক্রাইব মডেল সঠিকভাবে রেন্ডার করেনি৷ - নামে আরেকটি টেক্সট ফাইল তৈরি করুন
reference.txt
, হাইলাইট করা শব্দগুলিকে পছন্দসই শব্দ দিয়ে প্রতিস্থাপন করা যা আপনি প্রতিলিপিতে দেখতে পাবেন:
ক্রেতা : হেলো,
প্রতিনিধি : গুড মোর্নিগ সথ ইন্ডিয়া ট্রেভেল এজেন্সি সে আমি । লাগান্যা কথা করছি কি করে আমি তোমার সাহায্য করতে পারি।
ক্রেতা : আমি অনেক দিনসে हैदराबाद ট্র্যাভেল সম্পর্কে মনে হচ্ছে। আপনি কি আমাকে কিছু ভাল লোকেশন সম্পর্কে বলতে পারেন?
প্রতিনিধি : হ্যাঁ বরাবর। हैदराबाद में बहुत सारे प्लेस है। একা থেকে চার মিনার গোলকোন্ডা ফোর্ট সালার জং ম্যুজিয়াম এবং বিরলা প্লেনেটোরিয়াম মশহুর।
ক্রেতা : হ্যাঁ উন্নতিয়া থাঙ্ক ইউ আমি পরবর্তী স্যাটারডে এবং সান্ডে কে ট্রাই করব।
প্রতিনিধি : এক সজেশন ভিকেন্ডে ট্র্যাফিক বেশি থাকবেন চান্সেজ।
ক্রেতা : সিরিয়াসলি এনি টিপস यू केन শের
প্রতিনিধি : आप टेक्सी यूस कर लो ড্রাইভ এবং আপনাকে প্রবলেম হবে না।
ক্রেতা : গ্রেট আইডিয়া থ্যাঙ্কু সো মচ। - আপনার তৈরি করা রেফারেন্স এবং হাইপোথিসিস টেক্সট ফাইলগুলির তুলনা করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
আপনি নিম্নলিখিত আউটপুট পাবেন:
wer কমান্ড ফাইল থেকে পাঠ্য তুলনা করে reference.txt
এবং hypothesis.txt
. এটি প্রতিটি বাক্যের জন্য ত্রুটি এবং মোট ত্রুটির সংখ্যাও রিপোর্ট করে (WER: 9.848% ( 13 / 132)) সম্পূর্ণ প্রতিলিপিতে।
পূর্ববর্তী আউটপুট থেকে, প্রতিলিপিতে 13টি শব্দের মধ্যে 132টি ত্রুটির রিপোর্ট করা হয়েছে। এই ত্রুটি তিন ধরনের হতে পারে:
- প্রতিস্থাপন ত্রুটি – এগুলি ঘটে যখন অ্যামাজন ট্রান্সক্রাইব একটি শব্দের জায়গায় অন্যটি লিখে। উদাহরণস্বরূপ, আমাদের প্রতিলিপিতে, শব্দ "মাহিনা (মাহিনা)" এর পরিবর্তে লেখা হয়েছে "মিনার (মিনার)" বাক্য 4-এ।
- মুছে ফেলার ত্রুটি – এগুলি ঘটে যখন অ্যামাজন ট্রান্সস্ক্রাইব ট্রান্সক্রিপ্টে একটি শব্দ সম্পূর্ণভাবে মিস করে। আমাদের ট্রান্সক্রিপ্টে, শব্দটি “সুথ (দক্ষিণ)” বাক্য 2 এ মিস হয়েছে।
- সন্নিবেশ ত্রুটি – এগুলি ঘটে যখন অ্যামাজন ট্রান্সক্রাইব একটি শব্দ সন্নিবেশ করে যা বলা হয়নি৷ আমরা আমাদের প্রতিলিপিতে কোনো সন্নিবেশ ত্রুটি দেখতে পাই না।
ডিফল্ট মডেল দ্বারা তৈরি প্রতিলিপি থেকে পর্যবেক্ষণ
আমরা প্রতিলিপির উপর ভিত্তি করে নিম্নলিখিত পর্যবেক্ষণ করতে পারি:
- মোট WER হল 9.848%, যার অর্থ 90.152% শব্দ সঠিকভাবে প্রতিলিপি করা হয়েছে।
- ডিফল্ট হিন্দি মডেলটি বেশিরভাগ ইংরেজি শব্দকে সঠিকভাবে প্রতিলিপি করে। এর কারণ হল ডিফল্ট মডেলটি বাক্সের বাইরে সবচেয়ে সাধারণ ইংরেজি শব্দগুলি চিনতে প্রশিক্ষিত। মডেলটিকে হিংলিশ ভাষা চিনতেও প্রশিক্ষিত করা হয়, যেখানে ইংরেজি শব্দগুলি এলোমেলোভাবে হিন্দি কথোপকথনে উপস্থিত হয়। উদাহরণ স্বরূপ:
- গুড মোর্নিগ - শুভ সকাল (বাক্য 2)।
- ট্রাভেল এজেন্সি – ট্রাভেল এজেন্সি (বাক্য 2)।
- গ্রেট আইডিয়া थैंक्यू सो मच - দুর্দান্ত ধারণা আপনাকে অনেক ধন্যবাদ (বাক্য 9)।
- বাক্য 4-এ সর্বাধিক ত্রুটি রয়েছে, যা ভারতীয় শহর হায়দ্রাবাদের স্থানগুলির নাম:
- হ্যাঁ আগে। हैदराबाद में बहुत सारे प्लेस है। খোলা থেকে চার महीना गोलकुंडा फोर सालर জং ম্যুজিয়াম এবং বিরলা প্লেনেটোরিয়াম মশহুর।
পরবর্তী ধাপে, আমরা অ্যামাজন ট্রান্সক্রাইব-এ কাস্টম শব্দভাণ্ডার ব্যবহার করে পূর্ববর্তী বাক্যে হাইলাইট করা শব্দগুলিকে কীভাবে সংশোধন করতে হয় তা দেখাই:
- চার মাহিনা (চর মাহিনা) চার হওয়া উচিত মিনার (চর মিনার)
- গোলকুঁডা ফোर (গোলcunda Four) গোল হওয়া উচিতকোণডা ফোঅর্ট (গোলconda Fort)
- सলাড় জঙ্গ (Salar Jung) হওয়া উচিত সালাড় জঙ্গ (সালার জং)
একটি কাস্টম শব্দভান্ডার সঙ্গে ডিফল্ট মডেল প্রশিক্ষণ
থেকে একটি কাস্টম শব্দভান্ডার তৈরি করুন, ডিফল্ট অ্যামাজন ট্রান্সক্রাইব মডেলকে প্রশিক্ষণ দিতে আপনাকে শব্দ এবং বাক্যাংশ সহ একটি টেবুলার বিন্যাসে একটি পাঠ্য ফাইল তৈরি করতে হবে। আপনার টেবিলে অবশ্যই চারটি কলাম থাকতে হবে (Phrase
, SoundsLike
, IPA
, এবং DisplayAs
), কিন্তু Phrase
কলামই একমাত্র যার প্রতিটি সারিতে একটি এন্ট্রি থাকতে হবে। আপনি অন্য কলামগুলি খালি রাখতে পারেন। প্রতিটি কলাম একটি ট্যাব অক্ষর দ্বারা পৃথক করা আবশ্যক, এমনকি যদি কিছু কলাম খালি রাখা হয়। উদাহরণস্বরূপ, যদি আপনি ছেড়ে যান IPA
এবং SoundsLike
একটি সারির জন্য কলাম খালি, Phrase
এবং DisplaysAs
সেই সারির কলামগুলিকে অবশ্যই তিনটি ট্যাব অক্ষর দিয়ে আলাদা করতে হবে (এর মধ্যে Phrase
এবং IPA
, IPA
এবং SoundsLike
, এবং SoundsLike
এবং DisplaysAs
).
একটি কাস্টম শব্দভান্ডার সহ মডেলকে প্রশিক্ষণ দিতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- নামে একটি ফাইল তৈরি করুন
HindiCustomVocabulary.txt
নিম্নলিখিত বিষয়বস্তু সঙ্গে.আপনি শুধুমাত্র আপনার ভাষার জন্য সমর্থিত অক্ষর ব্যবহার করতে পারেন. আপনার ভাষা পড়ুন অক্ষর সেট বিস্তারিত জানার জন্য.
কলামগুলিতে নিম্নলিখিত তথ্য রয়েছে:
Phrase
- আপনি সঠিকভাবে প্রতিলিপি করতে চান এমন শব্দ বা বাক্যাংশ রয়েছে। ডিফল্ট অ্যামাজন ট্রান্সক্রাইব মডেল দ্বারা তৈরি প্রতিলিপিতে হাইলাইট করা শব্দ বা বাক্যাংশগুলি এই কলামে উপস্থিত হয়৷ এই শব্দগুলি সাধারণত সংক্ষিপ্ত শব্দ, যথাযথ বিশেষ্য, বা ডোমেন-নির্দিষ্ট শব্দ এবং বাক্যাংশ যা ডিফল্ট মডেল সচেতন নয়৷ কাস্টম শব্দভান্ডার টেবিলের প্রতিটি সারির জন্য এটি একটি বাধ্যতামূলক ক্ষেত্র। আমাদের ট্রান্সক্রিপ্টে, বাক্য 4 থেকে "গোলকুন্ডা ফোর (গোলকুন্ডা চার)" সংশোধন করতে, এই কলামে "গোলকুন্ডা-ফোর (গোলকুন্ডা-ফোর)" ব্যবহার করুন। যদি আপনার এন্ট্রিতে একাধিক শব্দ থাকে, প্রতিটি শব্দকে একটি হাইফেন (-) দিয়ে আলাদা করুন। স্পেস ব্যবহার করবেন না।IPA
- লিখিত আকারে বক্তৃতা ধ্বনি প্রতিনিধিত্বকারী শব্দ বা বাক্যাংশ রয়েছে। কলাম ঐচ্ছিক; আপনি এর সারি খালি রাখতে পারেন। এই কলামটি শুধুমাত্র ইন্টারন্যাশনাল ফোনেটিক বর্ণমালার (IPA) অক্ষর ব্যবহার করে উচ্চারণগত বানানগুলির জন্য উদ্দিষ্ট। হিন্দি ভাষার জন্য অনুমোদিত IPA অক্ষরের জন্য হিন্দি অক্ষর সেট পড়ুন। আমাদের উদাহরণে, আমরা IPA ব্যবহার করছি না। আপনার যদি এই কলামে একটি এন্ট্রি থাকে, আপনারSoundsLike
কলাম খালি হতে হবে।SoundsLike
- শব্দ বা বাক্যাংশগুলিকে ছোট ছোট টুকরোগুলিতে বিভক্ত করে (সাধারণত সিলেবল বা সাধারণ শব্দের উপর ভিত্তি করে) প্রতিটি অংশের জন্য একটি উচ্চারণ প্রদান করার জন্য সেই অংশটি কেমন শোনাচ্ছে তার উপর ভিত্তি করে। এই কলামটি ঐচ্ছিক; আপনি সারিগুলি খালি রাখতে পারেন। শুধুমাত্র এই কলামে বিষয়বস্তু যোগ করুন যদি আপনার এন্ট্রিতে একটি অ-মানক শব্দ থাকে, যেমন একটি ব্র্যান্ড নাম, বা ভুলভাবে প্রতিলিপি করা হয়েছে এমন একটি শব্দ সংশোধন করতে। আমাদের প্রতিলিপিতে, বাক্য 4 থেকে "সালার জঙ্গ (সালার জং)" সংশোধন করতে, এই কলামে "সা-লার-জঙ্গ (সা-লার-জং)" ব্যবহার করুন। এই কলামে স্পেস ব্যবহার করবেন না। আপনার যদি এই কলামে একটি এন্ট্রি থাকে, আপনারIPA
কলাম খালি হতে হবে।DisplaysAs
- বানান সহ শব্দ বা বাক্যাংশ রয়েছে যা আপনি ট্রান্সক্রিপশন আউটপুটে দেখতে চান শব্দ বা বাক্যাংশের জন্যPhrase
ক্ষেত্র এই কলামটি ঐচ্ছিক; আপনি সারিগুলি খালি রাখতে পারেন। আপনি যদি এই ক্ষেত্রটি নির্দিষ্ট না করেন, তবে Amazon Transcribe-এর বিষয়বস্তু ব্যবহার করেPhrase
আউটপুট ফাইলে ক্ষেত্র। উদাহরণ স্বরূপ, আমাদের ট্রান্সক্রিপ্টে, বাক্য 4 থেকে "গোলকুন্ডা ফোর (গোলকুন্ডা ফোর)" সংশোধন করতে, এই কলামে "গোলকোন্ডা ফোর্ট (গোলকুন্ডা ফোর্ট)" ব্যবহার করুন।
- আপলোড টেক্সট ফাইল (
HindiCustomVocabulary.txt
) একটি S3 বালতিতে৷ এখন আমরা Amazon Transcribe-এ একটি কাস্টম শব্দভাণ্ডার তৈরি করি৷ - অ্যামাজন ট্রান্সক্রাইব কনসোলে, বেছে নিন কাস্টম শব্দভাণ্ডার নেভিগেশন ফলকে।
- জন্য নাম, একটি নাম লিখুন।
- জন্য ভাষানির্বাচন হিন্দি, IN (হাই-ইন).
- জন্য শব্দভান্ডার ইনপুট উৎস, নির্বাচন করুন S3 অবস্থান.
- জন্য S3 এ শব্দভান্ডার ফাইলের অবস্থান, এর S3 পাথ লিখুন
HindiCustomVocabulary.txt
ফাইল. - বেছে নিন শব্দভান্ডার তৈরি করুন.
- প্রতিলিপি
SampleAudio.wav
নিম্নলিখিত পরামিতি সহ কাস্টম শব্দভান্ডার সহ ফাইল করুন:- জন্য কাজের নাম প্রবেশ করান
SampleAudioCustomVocabulary
. - জন্য ভাষানির্বাচন হিন্দি, IN (হাই-ইন).
- জন্য S3 এ ইনপুট ফাইল অবস্থান, এর অবস্থানে ব্রাউজ করুন
SampleAudio.wav
. - জন্য আইএএম ভূমিকা, নির্বাচন করুন একটি বিদ্যমান IAM ভূমিকা ব্যবহার করুন এবং আপনি আগে তৈরি ভূমিকা চয়ন করুন.
- মধ্যে কাজ কনফিগার করুন অধ্যায়, নির্বাচন করুন কাস্টম শব্দভাণ্ডার এবং কাস্টম শব্দভান্ডার চয়ন করুন
HindiCustomVocabulary
.
- জন্য কাজের নাম প্রবেশ করান
- বেছে নিন চাকরি তৈরি করুন.
কাস্টম শব্দভান্ডার ব্যবহার করার পরে মডেলের নির্ভুলতা পরিমাপ করুন
Amazon Transcribe কাজের বিবরণ পৃষ্ঠা থেকে নামের একটি টেক্সট ফাইলে ট্রান্সক্রিপ্টটি কপি করুন hypothesis-custom-vocabulary.txt
:
ক্রেতা : হেলো,
প্রতিনিধি : গুরমোর্নিগ ইন্ডিয়া ট্রেভেল এজেন্সি সেম। লাগান্যা কথা করছি কি করে আমি তোমার সাহায্য করতে পারি।
ক্রেতা : আমি অনেক দিন তাদের हैदराबाद ট্র্যাভেল সম্পর্কে ভাবছি। আপনি কি আমাকে কিছু ভাল লোকেশন সম্পর্কে বলতে পারেন?
প্রতিনিধি : হ্যাঁ বরাবর। हैदराबाद में बहुत सारे प्लेस है। খোলা থেকে চার মিনার গোলকোন্ডা ফোর্ট সালার জং ম্যুজিয়াম এবং বিরলা প্লেনেটোরিয়াম মশহুর।
ক্রেতা : হ্যাঁ উন্নতিয়া থাঙ্ক ইউ আমি পরবর্তী স্যাটারডে এবং সান্ডে কে ট্রাই করব।
প্রতিনিধি : এক সজেশন ভিকেন্ডে ট্র্যাফিক বেশি থাকবেন চান্সেজ।
ক্রেতা : এনি টিপস মাথা চিক শের
প্রতিনিধি : আপনি টেক্সি यूस कर लो ड्रैब और का प्रब्लम नहीं होगा।
ক্রেতা : গ্রেট আইডিয়া থ্যাঙ্কু সো মচ।
উল্লেখ্য যে হাইলাইট করা শব্দগুলো ইচ্ছামত প্রতিলিপি করা হয়েছে।
চালান wer
নতুন প্রতিলিপি দিয়ে আবার কমান্ড করুন:
আপনি নিম্নলিখিত আউটপুট পাবেন:
কাস্টম শব্দভান্ডার দিয়ে তৈরি প্রতিলিপি থেকে পর্যবেক্ষণ
মোট WER হল 6.061%, যার অর্থ 93.939% শব্দ সঠিকভাবে প্রতিলিপি করা হয়েছে।
কাস্টম শব্দভান্ডারের সাথে এবং ছাড়া বাক্য 4-এর wer আউটপুট তুলনা করা যাক। নিম্নলিখিত কাস্টম শব্দভান্ডার ছাড়া হয়:
নিম্নলিখিত কাস্টম শব্দভান্ডার সহ:
বাক্য 4-এ কোন ত্রুটি নেই। কাস্টম শব্দভান্ডারের সাহায্যে স্থানের নাম সঠিকভাবে প্রতিলিপি করা হয়েছে, যার ফলে এই অডিও ফাইলের জন্য সামগ্রিক WER 9.848% থেকে 6.061% এ কমে গেছে। এর মানে হল প্রতিলিপির নির্ভুলতা প্রায় 4% দ্বারা উন্নত হয়েছে।
কাস্টম শব্দভান্ডার কিভাবে সঠিকতা উন্নত করেছে
আমরা নিম্নলিখিত কাস্টম শব্দভান্ডার ব্যবহার করেছি:
অ্যামাজন ট্রান্সক্রাইব চেক করে যে অডিও ফাইলে কোনো শব্দ আছে কিনা যা তে উল্লিখিত শব্দের মতো শোনাচ্ছে Phrase
কলাম তারপর মডেল এন্ট্রি ব্যবহার করে IPA
, SoundsLike
, এবং DisplaysAs
কাঙ্খিত বানান সহ প্রতিলিপি করার জন্য সেই নির্দিষ্ট শব্দগুলির জন্য কলাম।
এই কাস্টম শব্দভান্ডারের সাহায্যে, যখন অ্যামাজন ট্রান্সক্রাইব একটি শব্দ শনাক্ত করে যা "গোলকুন্ডা-ফোর (গোলকুন্ডা-ফোর)" এর মত শোনায়, তখন এটি সেই শব্দটিকে "গোলকোন্ডা ফোর্ট (গোলকুন্ডা ফোর্ট)" হিসাবে প্রতিলিপি করে৷
প্রস্তাবনা
ট্রান্সক্রিপশনের নির্ভুলতা স্পিকারের উচ্চারণ, ওভারল্যাপিং স্পিকার, কথা বলার গতি এবং ব্যাকগ্রাউন্ডের শব্দের মতো পরামিতিগুলির উপরও নির্ভর করে। অতএব, আমরা সুপারিশ করি যে আপনি বিভিন্ন ধরনের কলের সাথে প্রক্রিয়াটি অনুসরণ করুন (বিভিন্ন গ্রাহক, এজেন্ট, বাধা, এবং আরও অনেক কিছু সহ) যা আপনার জন্য একটি ব্যাপক কাস্টম শব্দভান্ডার তৈরি করার জন্য সর্বাধিক ব্যবহৃত ডোমেন-নির্দিষ্ট শব্দগুলিকে কভার করে৷
এই পোস্টে, আমরা কাস্টম শব্দভান্ডার ব্যবহার করে একটি অডিও কল প্রতিলিপির নির্ভুলতা উন্নত করার প্রক্রিয়া শিখেছি। প্রতিদিন আপনার হাজার হাজার যোগাযোগ কেন্দ্র কল রেকর্ডিং প্রক্রিয়া করতে, আপনি ব্যবহার করতে পারেন পোস্ট কল বিশ্লেষণ, একটি সম্পূর্ণ স্বয়ংক্রিয়, মাপযোগ্য, এবং খরচ-দক্ষ এন্ড-টু-এন্ড সমাধান যা বেশিরভাগ ভারী উত্তোলনের যত্ন নেয়। আপনি কেবল একটি S3 বালতিতে আপনার অডিও ফাইলগুলি আপলোড করেন এবং কয়েক মিনিটের মধ্যে, সমাধানটি একটি ওয়েব UI-তে অনুভূতির মতো কল বিশ্লেষণ প্রদান করে। পোস্ট কল অ্যানালিটিক্স উদীয়মান প্রবণতা চিহ্নিত করতে, এজেন্ট কোচিং সুযোগ শনাক্ত করতে এবং কলের সাধারণ অনুভূতির মূল্যায়ন করতে কার্যকর অন্তর্দৃষ্টি প্রদান করে৷ পোস্ট কল বিশ্লেষণ হল একটি ওপেন সোর্স সমাধান যে আপনি ব্যবহার করে স্থাপন করতে পারেন এডাব্লুএস ক্লাউডফর্মেশন.
মনে রাখবেন যে কাস্টম শব্দভান্ডারগুলি সেই প্রসঙ্গে ব্যবহার করে না যেখানে শব্দগুলি বলা হয়েছিল, তারা শুধুমাত্র আপনার দেওয়া পৃথক শব্দগুলিতে ফোকাস করে৷ আরো সঠিকতা উন্নত করতে, আপনি ব্যবহার করতে পারেন কাস্টম ভাষার মডেল. কাস্টম শব্দভান্ডারের বিপরীতে, যা উচ্চারণ বানানের সাথে যুক্ত করে, কাস্টম ভাষার মডেলগুলি প্রদত্ত শব্দের সাথে সম্পর্কিত প্রসঙ্গ শিখে। এর মধ্যে একটি শব্দ কীভাবে এবং কখন ব্যবহার করা হয় এবং একটি শব্দের সাথে অন্যান্য শব্দের সম্পর্ক রয়েছে। একটি কাস্টম ভাষা মডেল তৈরি করতে, আপনি বিভিন্ন কলের জন্য আমরা যে প্রক্রিয়াটি শিখেছি তা থেকে প্রাপ্ত ট্রান্সক্রিপশনগুলি ব্যবহার করতে পারেন এবং আপনার ওয়েবসাইট বা ব্যবহারকারী ম্যানুয়ালগুলির সামগ্রীর সাথে ডোমেন-নির্দিষ্ট শব্দ এবং বাক্যাংশ ধারণ করে সেগুলিকে একত্রিত করতে পারেন৷
ব্যাচ ট্রান্সক্রিপশনের সাথে সর্বোচ্চ ট্রান্সক্রিপশন নির্ভুলতা অর্জন করতে, আপনি আপনার কাস্টম ভাষার মডেলের সাথে একত্রে কাস্টম শব্দভান্ডার ব্যবহার করতে পারেন।
উপসংহার
এই পোস্টে, আমরা Amazon Transcribe-এ কল অ্যানালিটিক্স এবং কাস্টম শব্দভান্ডার ব্যবহার করে ইংরেজি শব্দ সম্বলিত হিন্দি অডিও ফাইলগুলিকে সঠিকভাবে প্রক্রিয়া করার জন্য বিস্তারিত পদক্ষেপগুলি সরবরাহ করেছি। আপনি যে কোনও সাথে অডিও কলগুলি প্রক্রিয়া করতে এই একই পদক্ষেপগুলি ব্যবহার করতে পারেন৷ ভাষা সমর্থিত অ্যামাজন ট্রান্সক্রাইব দ্বারা।
আপনি আপনার পছন্দসই নির্ভুলতার সাথে ট্রান্সক্রিপশনগুলি অর্জন করার পরে, আপনি আপনার এজেন্টদের প্রশিক্ষণ দিয়ে আপনার এজেন্ট-গ্রাহক কথোপকথন উন্নত করতে পারেন। আপনি আপনার গ্রাহকের অনুভূতি এবং প্রবণতা বুঝতে পারেন। কল অ্যানালিটিক্সে স্পিকার ডায়েরাইজেশন, লাউডনেস ডিটেকশন এবং শব্দভান্ডার ফিল্টারিং ফিচারের সাহায্যে আপনি শনাক্ত করতে পারবেন যে এজেন্ট বা গ্রাহক তাদের সুর তুলেছেন বা কোনো নির্দিষ্ট শব্দ বলেছেন কিনা। আপনি ডোমেন-নির্দিষ্ট শব্দের উপর ভিত্তি করে কলগুলিকে শ্রেণীবদ্ধ করতে পারেন, কর্মযোগ্য অন্তর্দৃষ্টি ক্যাপচার করতে পারেন এবং আপনার পণ্যগুলিকে উন্নত করতে বিশ্লেষণ চালাতে পারেন৷ অবশেষে, আপনি ব্যবহার করে আপনার ট্রান্সক্রিপ্টগুলিকে ইংরেজি বা আপনার পছন্দের অন্যান্য সমর্থিত ভাষায় অনুবাদ করতে পারেন আমাজন অনুবাদ.
লেখক সম্পর্কে
শরৎ গুটিকোন্ডা AWS ওয়ার্ল্ড ওয়াইড পাবলিক সেক্টরে একজন সিনিয়র সলিউশন আর্কিটেক্ট। Sarat গ্রাহকদের ব্যবসায়িক তত্পরতা ত্যাগ না করে তাদের ক্লাউড সংস্থানগুলিকে স্বয়ংক্রিয়, পরিচালনা এবং পরিচালনা করতে সহায়তা করে৷ তার অবসর সময়ে, তিনি তার ছেলের সাথে লেগোস তৈরি করতে এবং টেবিল টেনিস খেলতে পছন্দ করেন।
লাবণ্য সুদ নতুন দিল্লি, ভারতের বাইরে অবস্থিত AWS ওয়ার্ল্ড ওয়াইড পাবলিক সেক্টরের একজন সমাধান স্থপতি। লাবণ্য নতুন প্রযুক্তি শেখা এবং গ্রাহকদের তাদের ক্লাউড গ্রহণের যাত্রায় সাহায্য করা উপভোগ করে। তার অবসর সময়ে, তিনি ভ্রমণ এবং বিভিন্ন খাবার চেষ্টা করতে পছন্দ করেন।
- উন্নত (300)
- AI
- ai শিল্প
- এআই আর্ট জেনারেটর
- আইআই রোবট
- আমাজন ট্রান্সক্রাইব
- কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম বুদ্ধিমত্তা সার্টিফিকেশন
- ব্যাংকিং এ কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম বুদ্ধিমত্তার রোবট
- কৃত্রিম বুদ্ধিমত্তার রোবট
- কৃত্রিম বুদ্ধিমত্তা সফ্টওয়্যার
- এডাব্লুএস মেশিন লার্নিং
- blockchain
- ব্লকচেইন সম্মেলন এআই
- coingenius
- কথোপকথন কৃত্রিম বুদ্ধিমত্তা
- ক্রিপ্টো সম্মেলন এআই
- ডাল-ই
- গভীর জ্ঞানার্জন
- গুগল আই
- মেশিন লার্নিং
- Plato
- প্লেটো এআই
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটো গেম
- প্লেটোডাটা
- প্লেটোগেমিং
- স্কেল ai
- বাক্য গঠন
- zephyrnet