একটি সহায়ক প্রযুক্তি হিসাবে এআই ব্যবহার করে স্ট্রীমলাইন ডায়েরাইজেশন: চিড়িয়াখানা ডিজিটালের গল্প

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

চিড়িয়াখানা ডিজিটাল বিভিন্ন ভাষা, অঞ্চল এবং সংস্কৃতির সাথে আসল টিভি এবং চলচ্চিত্রের বিষয়বস্তুকে মানিয়ে নিতে এন্ড-টু-এন্ড স্থানীয়করণ এবং মিডিয়া পরিষেবা প্রদান করে। এটি বিশ্বের সেরা সামগ্রী নির্মাতাদের জন্য বিশ্বায়নকে সহজ করে তোলে। বিনোদনের সবচেয়ে বড় নামগুলির দ্বারা বিশ্বস্ত, ZOO Digital ডাবিং, সাবটাইটেলিং, স্ক্রিপ্টিং এবং সম্মতি সহ স্কেলে উচ্চ-মানের স্থানীয়করণ এবং মিডিয়া পরিষেবা সরবরাহ করে।

সাধারণ স্থানীয়করণ কর্মপ্রবাহের জন্য ম্যানুয়াল স্পিকার ডায়েরাইজেশন প্রয়োজন, যেখানে একটি অডিও স্ট্রীম স্পিকারের পরিচয়ের ভিত্তিতে ভাগ করা হয়। বিষয়বস্তু অন্য ভাষায় ডাব করার আগে এই সময়সাপেক্ষ প্রক্রিয়াটি অবশ্যই সম্পন্ন করতে হবে। ম্যানুয়াল পদ্ধতির সাহায্যে, একটি 30-মিনিটের পর্ব স্থানীয়করণ হতে 1-3 ঘন্টা সময় নিতে পারে। অটোমেশনের মাধ্যমে, ZOO ডিজিটালের লক্ষ্য 30 মিনিটের মধ্যে স্থানীয়করণ করা।

এই পোস্টে, আমরা ব্যবহার করে মিডিয়া বিষয়বস্তু ডায়েরাইজ করার জন্য স্কেলেবল মেশিন লার্নিং (ML) মডেল স্থাপনের বিষয়ে আলোচনা করছি আমাজন সেজমেকার, উপর ফোকাস সঙ্গে হুইস্পারএক্স মডেল.

পটভূমি

ZOO Digital এর দৃষ্টিভঙ্গি হল স্থানীয় বিষয়বস্তুর দ্রুত পরিবর্তন করা। এই লক্ষ্যটি ব্যায়ামের ম্যানুয়ালি নিবিড় প্রকৃতির দ্বারা বাধাগ্রস্ত হয়েছে দক্ষ লোকদের ছোট কর্মী দ্বারা সংঘবদ্ধ যা ম্যানুয়ালি বিষয়বস্তু স্থানীয়করণ করতে পারে। ZOO Digital 11,000 টিরও বেশি ফ্রিল্যান্সারের সাথে কাজ করে এবং 600 সালে 2022 মিলিয়নের বেশি শব্দ স্থানীয়করণ করে। যাইহোক, বিষয়বস্তুর ক্রমবর্ধমান চাহিদার কারণে দক্ষ লোকের সরবরাহকে ছাড়িয়ে যাচ্ছে, স্থানীয়করণের কর্মপ্রবাহে সহায়তা করার জন্য স্বয়ংক্রিয়তা প্রয়োজন।

মেশিন লার্নিং এর মাধ্যমে বিষয়বস্তু কর্মপ্রবাহের স্থানীয়করণকে ত্বরান্বিত করার লক্ষ্যে, ZOO ডিজিটাল এডব্লিউএস প্রোটোটাইপিং নিযুক্ত করেছে, গ্রাহকদের সাথে কাজের চাপ সহ-নির্মাণের জন্য AWS-এর একটি বিনিয়োগ প্রোগ্রাম। SageMaker-এ ZOO ডিজিটাল ডেভেলপারদের হাতে-কলমে প্রশিক্ষণ প্রদানের সময় স্থানীয়করণ প্রক্রিয়ার জন্য একটি কার্যকরী সমাধান প্রদানের উপর দৃষ্টি নিবদ্ধ করা হয়েছে, আমাজন ট্রান্সক্রাইব, এবং আমাজন অনুবাদ.

গ্রাহক চ্যালেঞ্জ

একটি শিরোনাম (একটি চলচ্চিত্র বা একটি টিভি সিরিজের একটি পর্ব) প্রতিলিপি করা হওয়ার পরে, বক্তৃতার প্রতিটি অংশে স্পিকারগুলিকে বরাদ্দ করা আবশ্যক যাতে তারা চরিত্রগুলি চালানোর জন্য কাস্ট করা ভয়েস শিল্পীদের জন্য সঠিকভাবে বরাদ্দ করা যায়। এই প্রক্রিয়াটিকে বলা হয় স্পিকার ডায়েরাইজেশন। চিড়িয়াখানা ডিজিটাল অর্থনৈতিকভাবে টেকসই হওয়ার সাথে সাথে বিষয়বস্তুকে মাত্রায় ডায়েরাইজ করার চ্যালেঞ্জের মুখোমুখি।

সমাধান ওভারভিউ

এই প্রোটোটাইপে, আমরা একটি নির্দিষ্ট মধ্যে মূল মিডিয়া ফাইল সংরক্ষণ আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) বালতি। এই S3 বালতিটি একটি ইভেন্ট নির্গত করার জন্য কনফিগার করা হয়েছিল যখন এটির মধ্যে নতুন ফাইলগুলি সনাক্ত করা হয়, একটি ট্রিগার করে এডাব্লুএস ল্যাম্বদা ফাংশন এই ট্রিগার কনফিগার করার নির্দেশাবলীর জন্য, টিউটোরিয়াল পড়ুন একটি Lambda ফাংশন আহ্বান করতে একটি Amazon S3 ট্রিগার ব্যবহার করে৷. পরবর্তীকালে, ল্যাম্বডা ফাংশনটি ব্যবহার করে অনুমানের জন্য সেজমেকার এন্ডপয়েন্টকে আহ্বান করেছিল Boto3 SageMaker রানটাইম ক্লায়েন্ট.

সার্জারির হুইস্পারএক্স মডেল, উপর ভিত্তি করে OpenAI এর হুইস্পার, মিডিয়া সম্পদের জন্য ট্রান্সক্রিপশন এবং ডায়েরাইজেশন সঞ্চালন করে। এটা উপর নির্মিত হয় দ্রুত ফিসফিস পুনরায় প্রয়োগ করা, হুইস্পারের তুলনায় উন্নত শব্দ-স্তরের টাইমস্ট্যাম্প প্রান্তিককরণের সাথে চার গুণ দ্রুত ট্রান্সক্রিপশন অফার করে। অতিরিক্তভাবে, এটি স্পিকার ডায়েরাইজেশন প্রবর্তন করে, মূল হুইস্পার মডেলে উপস্থিত নয়। হুইস্পারএক্স ট্রান্সক্রিপশনের জন্য হুইস্পার মডেল ব্যবহার করে, Wav2Vec2 টাইমস্ট্যাম্প সারিবদ্ধকরণ উন্নত করার জন্য মডেল (অডিও টাইমস্ট্যাম্পের সাথে প্রতিলিপিকৃত পাঠ্যের সিঙ্ক্রোনাইজেশন নিশ্চিত করা), এবং pyannote ডায়েরাইজেশনের জন্য মডেল। FFmpeg সোর্স মিডিয়া থেকে অডিও লোড করার জন্য ব্যবহৃত হয়, বিভিন্ন সমর্থন করে মিডিয়া ফরম্যাট। স্বচ্ছ এবং মডুলার মডেল আর্কিটেকচার নমনীয়তার অনুমতি দেয়, কারণ মডেলের প্রতিটি উপাদান ভবিষ্যতে প্রয়োজন অনুসারে অদলবদল করা যেতে পারে। যাইহোক, এটি লক্ষ্য করা অপরিহার্য যে WhisperX-এর সম্পূর্ণ ব্যবস্থাপনা বৈশিষ্ট্যের অভাব রয়েছে এবং এটি একটি এন্টারপ্রাইজ-স্তরের পণ্য নয়। রক্ষণাবেক্ষণ এবং সমর্থন ছাড়া, এটি উত্পাদন স্থাপনার জন্য উপযুক্ত নাও হতে পারে।

এই সহযোগিতায়, আমরা SageMaker-এ WhisperX স্থাপন এবং মূল্যায়ন করেছি, একটি ব্যবহার করে অ্যাসিঙ্ক্রোনাস ইনফারেন্স এন্ডপয়েন্ট মডেল হোস্ট করতে. SageMaker অ্যাসিঙ্ক্রোনাস এন্ডপয়েন্ট 1 GB পর্যন্ত আপলোড মাপ সমর্থন করে এবং স্বয়ংক্রিয় স্কেলিং বৈশিষ্ট্যগুলি অন্তর্ভুক্ত করে যা দক্ষতার সাথে ট্র্যাফিক স্পাইক হ্রাস করে এবং অফ-পিক সময়ে খরচ বাঁচায়। অ্যাসিঙ্ক্রোনাস এন্ডপয়েন্টগুলি আমাদের ব্যবহারের ক্ষেত্রে মুভি এবং টিভি সিরিজের মতো বড় ফাইলগুলি প্রক্রিয়া করার জন্য বিশেষভাবে উপযুক্ত।

নিম্নলিখিত চিত্রটি এই সহযোগিতায় আমরা পরিচালিত পরীক্ষাগুলির মূল উপাদানগুলিকে চিত্রিত করে৷

একটি সহায়ক প্রযুক্তি হিসাবে AI ব্যবহার করে স্ট্রীমলাইন ডায়ারাইজেশন: ZOO Digital এর গল্প | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

নিম্নলিখিত বিভাগগুলিতে, আমরা সেজমেকারে হুইস্পারএক্স মডেল স্থাপনের বিশদ বিবরণ নিয়ে আলোচনা করি এবং ডায়েরাইজেশন কার্যকারিতা মূল্যায়ন করি।

মডেল এবং এর উপাদানগুলি ডাউনলোড করুন

হুইস্পারএক্স এমন একটি সিস্টেম যা ট্রান্সক্রিপশন, জোরপূর্বক সারিবদ্ধকরণ এবং ডায়েরাইজেশনের জন্য একাধিক মডেল অন্তর্ভুক্ত করে। অনুমানের সময় মডেল আর্টিফ্যাক্টগুলি আনার প্রয়োজন ছাড়াই মসৃণ সেজমেকার অপারেশনের জন্য, সমস্ত মডেল আর্টিফ্যাক্টগুলি আগে থেকে ডাউনলোড করা অপরিহার্য৷ এই নিদর্শনগুলি তারপর দীক্ষার সময় সেজমেকার পরিবেশনকারী পাত্রে লোড করা হয়। যেহেতু এই মডেলগুলি সরাসরি অ্যাক্সেসযোগ্য নয়, আমরা WhisperX উত্স থেকে বর্ণনা এবং নমুনা কোড অফার করি, মডেল এবং এর উপাদানগুলি ডাউনলোড করার নির্দেশাবলী প্রদান করি৷

হুইস্পারএক্স ছয়টি মডেল ব্যবহার করে:

এই মডেল অধিকাংশ থেকে প্রাপ্ত করা যেতে পারে আলিঙ্গন মুখ huggingface_hub লাইব্রেরি ব্যবহার করে। আমরা নিম্নলিখিত ব্যবহার করি download_hf_model() এই মডেল নিদর্শন পুনরুদ্ধার ফাংশন. আলিঙ্গন মুখ থেকে একটি অ্যাক্সেস টোকেন, নিম্নলিখিত pyannote মডেলগুলির জন্য ব্যবহারকারীর চুক্তিগুলি গ্রহণ করার পরে তৈরি করা প্রয়োজন:

import huggingface_hub
import yaml
import torchaudio
import urllib.request
import os CONTAINER_MODEL_DIR = "/opt/ml/model"
WHISPERX_MODEL = "guillaumekln/faster-whisper-large-v2"
VAD_MODEL_URL = "https://whisperx.s3.eu-west-2.amazonaws.com/model_weights/segmentation/0b5b3216d60a2d32fc086b47ea8c67589aaeb26b7e07fcbe620d6d0b83e209ea/pytorch_model.bin"
WAV2VEC2_MODEL = "WAV2VEC2_ASR_BASE_960H"
DIARIZATION_MODEL = "pyannote/speaker-diarization" def download_hf_model(model_name: str, hf_token: str, local_model_dir: str) -> str: """ Fetches the provided model from HuggingFace and returns the subdirectory it is downloaded to :param model_name: HuggingFace model name (and an optional version, appended with @[version]) :param hf_token: HuggingFace access token authorized to access the requested model :param local_model_dir: The local directory to download the model to :return: The subdirectory within local_modeL_dir that the model is downloaded to """ model_subdir = model_name.split('@')[0] huggingface_hub.snapshot_download(model_subdir, token=hf_token, local_dir=f"{local_model_dir}/{model_subdir}", local_dir_use_symlinks=False) return model_subdir

VAD মডেলটি Amazon S3 থেকে আনা হয়েছে, এবং Wav2Vec2 মডেলটি torchaudio.pipelines মডিউল থেকে উদ্ধার করা হয়েছে। নিম্নলিখিত কোডের উপর ভিত্তি করে, আমরা হাগিং ফেস সহ সমস্ত মডেলের শিল্পকর্ম পুনরুদ্ধার করতে পারি এবং নির্দিষ্ট স্থানীয় মডেল ডিরেক্টরিতে সংরক্ষণ করতে পারি:

def fetch_models(hf_token: str, local_model_dir="./models"): """ Fetches all required models to run WhisperX locally without downloading models every time :param hf_token: A huggingface access token to download the models :param local_model_dir: The directory to download the models to """ # Fetch Faster Whisper's Large V2 model from HuggingFace download_hf_model(model_name=WHISPERX_MODEL, hf_token=hf_token, local_model_dir=local_model_dir) # Fetch WhisperX's VAD Segmentation model from S3 vad_model_dir = "whisperx/vad" if not os.path.exists(f"{local_model_dir}/{vad_model_dir}"): os.makedirs(f"{local_model_dir}/{vad_model_dir}") urllib.request.urlretrieve(VAD_MODEL_URL, f"{local_model_dir}/{vad_model_dir}/pytorch_model.bin") # Fetch the Wav2Vec2 alignment model torchaudio.pipelines.__dict__[WAV2VEC2_MODEL].get_model(dl_kwargs={"model_dir": f"{local_model_dir}/wav2vec2/"}) # Fetch pyannote's Speaker Diarization model from HuggingFace download_hf_model(model_name=DIARIZATION_MODEL, hf_token=hf_token, local_model_dir=local_model_dir) # Read in the Speaker Diarization model config to fetch models and update with their local paths with open(f"{local_model_dir}/{DIARIZATION_MODEL}/config.yaml", 'r') as file: diarization_config = yaml.safe_load(file) embedding_model = diarization_config['pipeline']['params']['embedding'] embedding_model_dir = download_hf_model(model_name=embedding_model, hf_token=hf_token, local_model_dir=local_model_dir) diarization_config['pipeline']['params']['embedding'] = f"{CONTAINER_MODEL_DIR}/{embedding_model_dir}" segmentation_model = diarization_config['pipeline']['params']['segmentation'] segmentation_model_dir = download_hf_model(model_name=segmentation_model, hf_token=hf_token, local_model_dir=local_model_dir) diarization_config['pipeline']['params']['segmentation'] = f"{CONTAINER_MODEL_DIR}/{segmentation_model_dir}/pytorch_model.bin" with open(f"{local_model_dir}/{DIARIZATION_MODEL}/config.yaml", 'w') as file: yaml.safe_dump(diarization_config, file) # Read in the Speaker Embedding model config to update it with its local path speechbrain_hyperparams_path = f"{local_model_dir}/{embedding_model_dir}/hyperparams.yaml" with open(speechbrain_hyperparams_path, 'r') as file: speechbrain_hyperparams = file.read() speechbrain_hyperparams = speechbrain_hyperparams.replace(embedding_model_dir, f"{CONTAINER_MODEL_DIR}/{embedding_model_dir}") with open(speechbrain_hyperparams_path, 'w') as file: file.write(speechbrain_hyperparams)

মডেল পরিবেশন করার জন্য উপযুক্ত AWS ডিপ লার্নিং কন্টেইনার নির্বাচন করুন

পূর্ববর্তী নমুনা কোড ব্যবহার করে মডেল আর্টিফ্যাক্টগুলি সংরক্ষণ করার পরে, আপনি প্রি-বিল্ট বেছে নিতে পারেন AWS ডিপ লার্নিং কন্টেইনার (DLCs) নিম্নলিখিত থেকে গিটহুব রেপো. ডকার ইমেজ নির্বাচন করার সময়, নিম্নলিখিত সেটিংস বিবেচনা করুন: ফ্রেমওয়ার্ক (হাগিং ফেস), টাস্ক (অনুমান), পাইথন সংস্করণ এবং হার্ডওয়্যার (উদাহরণস্বরূপ, GPU)। আমরা নিম্নলিখিত চিত্র ব্যবহার করার পরামর্শ দিই: 763104351884.dkr.ecr.[REGION].amazonaws.com/huggingface-pytorch-inference:2.0.0-transformers4.28.1-gpu-py310-cu118-ubuntu20.04 এই চিত্রটিতে সমস্ত প্রয়োজনীয় সিস্টেম প্যাকেজ পূর্বে ইনস্টল করা আছে, যেমন ffmpeg। আপনি যে AWS অঞ্চল ব্যবহার করছেন তার সাথে [REGION] প্রতিস্থাপন করতে ভুলবেন না।

অন্যান্য প্রয়োজনীয় পাইথন প্যাকেজগুলির জন্য, একটি তৈরি করুন requirements.txt প্যাকেজ এবং তাদের সংস্করণগুলির একটি তালিকা সহ ফাইল করুন। AWS DLC নির্মিত হলে এই প্যাকেজগুলি ইনস্টল করা হবে৷ সেজমেকারে হুইস্পারএক্স মডেল হোস্ট করার জন্য নিম্নলিখিত অতিরিক্ত প্যাকেজগুলি প্রয়োজন:

faster-whisper==0.7.1 git+https://github.com/m-bain/whisperx.git@1b092de19a1878a8f138f665b1467ca21b076e7e ffmpeg-python

মডেলগুলি লোড করতে এবং অনুমান চালানোর জন্য একটি অনুমান স্ক্রিপ্ট তৈরি করুন

এর পরে, আমরা একটি কাস্টম তৈরি করি inference.py কিভাবে WhisperX মডেল এবং এর উপাদানগুলি কন্টেইনারে লোড করা হয় এবং কীভাবে অনুমান প্রক্রিয়া চালানো উচিত তা রূপরেখার জন্য স্ক্রিপ্ট। স্ক্রিপ্ট দুটি ফাংশন রয়েছে: model_fn এবং transform_fn. দ্য model_fn ফাংশন তাদের নিজ নিজ অবস্থান থেকে মডেল লোড করার জন্য আহ্বান করা হয়. পরবর্তীকালে, এই মডেল পাস করা হয় transform_fn অনুমানের সময় ফাংশন, যেখানে ট্রান্সক্রিপশন, সারিবদ্ধকরণ এবং ডায়েরাইজেশন প্রক্রিয়াগুলি সঞ্চালিত হয়। নিম্নলিখিত জন্য একটি কোড নমুনা inference.py:

import io
import json
import logging
import tempfile
import time import torch
import whisperx DEVICE = 'cuda' if torch.cuda.is_available() else 'cpu' def model_fn(model_dir: str) -> dict: """ Deserialize and return the models """ logging.info("Loading WhisperX model") model = whisperx.load_model(whisper_arch=f"{model_dir}/guillaumekln/faster-whisper-large-v2", device=DEVICE, language="en", compute_type="float16", vad_options={'model_fp': f"{model_dir}/whisperx/vad/pytorch_model.bin"}) logging.info("Loading alignment model") align_model, metadata = whisperx.load_align_model(language_code="en", device=DEVICE, model_name="WAV2VEC2_ASR_BASE_960H", model_dir=f"{model_dir}/wav2vec2") logging.info("Loading diarization model") diarization_model = whisperx.DiarizationPipeline(model_name=f"{model_dir}/pyannote/speaker-diarization/config.yaml", device=DEVICE) return { 'model': model, 'align_model': align_model, 'metadata': metadata, 'diarization_model': diarization_model } def transform_fn(model: dict, request_body: bytes, request_content_type: str, response_content_type="application/json") -> (str, str): """ Load in audio from the request, transcribe and diarize, and return JSON output """ # Start a timer so that we can log how long inference takes start_time = time.time() # Unpack the models whisperx_model = model['model'] align_model = model['align_model'] metadata = model['metadata'] diarization_model = model['diarization_model'] # Load the media file (the request_body as bytes) into a temporary file, then use WhisperX to load the audio from it logging.info("Loading audio") with io.BytesIO(request_body) as file: tfile = tempfile.NamedTemporaryFile(delete=False) tfile.write(file.read()) audio = whisperx.load_audio(tfile.name) # Run transcription logging.info("Transcribing audio") result = whisperx_model.transcribe(audio, batch_size=16) # Align the outputs for better timings logging.info("Aligning outputs") result = whisperx.align(result["segments"], align_model, metadata, audio, DEVICE, return_char_alignments=False) # Run diarization logging.info("Running diarization") diarize_segments = diarization_model(audio) result = whisperx.assign_word_speakers(diarize_segments, result) # Calculate the time it took to perform the transcription and diarization end_time = time.time() elapsed_time = end_time - start_time logging.info(f"Transcription and Diarization took {int(elapsed_time)} seconds") # Return the results to be stored in S3 return json.dumps(result), response_content_type

মডেলের ডিরেক্টরির মধ্যে, পাশাপাশি requirements.txt ফাইল, উপস্থিতি নিশ্চিত করুন inference.py একটি কোড সাবডিরেক্টরিতে। দ্য models ডিরেক্টরি নিম্নলিখিত অনুরূপ হওয়া উচিত:

models
├── code
│ ├── inference.py
│ └── requirements.txt
├── guillaumekln
│ └── faster-whisper-large-v2
├── pyannote
│ ├── segmentation
│ │ └── ...
│ └── speaker-diarization
│ └── ...
├── speechbrain
│ └── spkrec-ecapa-voxceleb
│ └── ...
├── wav2vec2
│ └── ...
└── whisperx └── vad └── ...

মডেলগুলির একটি টারবল তৈরি করুন

আপনি মডেল এবং কোড ডিরেক্টরি তৈরি করার পরে, আপনি নিম্নলিখিত কমান্ড লাইনগুলি ব্যবহার করে মডেলটিকে একটি টারবল (.tar.gz ফাইল) এ কম্প্রেস করতে পারেন এবং এটি Amazon S3 এ আপলোড করতে পারেন। লেখার সময়, দ্রুত-হুইস্পার লার্জ V2 মডেল ব্যবহার করে, সেজমেকার মডেলের প্রতিনিধিত্বকারী ফলস্বরূপ টারবলের আকার 3 জিবি। আরো তথ্যের জন্য, পড়ুন আমাজন সেজমেকারে মডেল হোস্টিং প্যাটার্ন, পার্ট 2: সেজমেকারে রিয়েল টাইম মডেল স্থাপনের সাথে শুরু করা.

# Save the model artifacts to the 'model' directory and create a tarball
tar cvzf model.tar.gz -C model/ .
# Upload the model to S3
aws s3 cp model.tar.gz s3://<target_bucket>

একটি SageMaker মডেল তৈরি করুন এবং একটি অ্যাসিঙ্ক্রোনাস ভবিষ্যদ্বাণী সহ একটি শেষ পয়েন্ট স্থাপন করুন

এখন আপনি SageMaker মডেল, এন্ডপয়েন্ট কনফিগারেশন এবং অ্যাসিঙ্ক্রোনাস এন্ডপয়েন্ট তৈরি করতে পারেন AsyncPredictor পূর্ববর্তী ধাপে তৈরি মডেল টারবল ব্যবহার করে। নির্দেশাবলীর জন্য, পড়ুন একটি অ্যাসিঙ্ক্রোনাস ইনফারেন্স এন্ডপয়েন্ট তৈরি করুন.

ডায়েরাইজেশন কর্মক্ষমতা মূল্যায়ন

বিভিন্ন পরিস্থিতিতে WhisperX মডেলের ডায়েরাইজেশন কর্মক্ষমতা মূল্যায়ন করার জন্য, আমরা দুটি ইংরেজি শিরোনাম থেকে তিনটি পর্ব বেছে নিয়েছি: একটি নাটকের শিরোনাম 30-মিনিটের পর্ব নিয়ে গঠিত, এবং একটি ডকুমেন্টারি শিরোনাম 45-মিনিটের পর্ব নিয়ে গঠিত। আমরা pyannote এর মেট্রিক্স টুলকিট ব্যবহার করেছি, pyannote.metrics, গণনা করতে ডায়ারাইজেশন ত্রুটি হার (DER). মূল্যায়নে, চিড়িয়াখানা দ্বারা প্রদত্ত ম্যানুয়ালি প্রতিলিপি এবং ডায়েরাইজড ট্রান্সক্রিপ্টগুলি বাস্তব সত্য হিসাবে কাজ করে।

আমরা নিম্নরূপ DER সংজ্ঞায়িত করেছি:

মোট স্থল সত্য ভিডিওর দৈর্ঘ্য। FA (ফলস অ্যালার্ম) হল সেগমেন্টের দৈর্ঘ্য যা ভবিষ্যদ্বাণীতে বক্তৃতা হিসাবে বিবেচিত হয়, কিন্তু স্থল সত্যে নয়। হারানো সেগমেন্টের দৈর্ঘ্য যা স্থল সত্যে বক্তৃতা হিসাবে বিবেচিত হয়, কিন্তু ভবিষ্যদ্বাণীতে নয়। ভুল, বলা বিশৃঙ্খলা, হল সেগমেন্টের দৈর্ঘ্য যা ভবিষ্যদ্বাণী এবং গ্রাউন্ড ট্রুথের ক্ষেত্রে বিভিন্ন স্পিকারকে বরাদ্দ করা হয়। সমস্ত ইউনিট সেকেন্ডে পরিমাপ করা হয়। DER-এর সাধারণ মানগুলি নির্দিষ্ট অ্যাপ্লিকেশন, ডেটাসেট এবং ডায়ারাইজেশন সিস্টেমের গুণমানের উপর নির্ভর করে পরিবর্তিত হতে পারে। মনে রাখবেন যে DER 1.0 এর থেকে বড় হতে পারে। একটি নিম্ন DER ভাল.

মিডিয়ার একটি অংশের জন্য DER গণনা করতে সক্ষম হওয়ার জন্য, একটি গ্রাউন্ড ট্রুথ ডায়ারাইজেশনের পাশাপাশি WhisperX ট্রান্সক্রাইবড এবং ডায়েরাইজড আউটপুট প্রয়োজন। এগুলিকে অবশ্যই পার্স করতে হবে এবং মিডিয়াতে বক্তৃতার প্রতিটি অংশের জন্য স্পিকার লেবেল, স্পিচ সেগমেন্ট শুরুর সময় এবং স্পিচ সেগমেন্টের শেষ সময় ধারণকারী টিপলের তালিকা তৈরি করতে হবে। স্পিকার লেবেলগুলি হুইস্পারএক্স এবং গ্রাউন্ড ট্রুথ ডায়েরাইজেশনের মধ্যে মেলে না। ফলাফলগুলি বেশিরভাগ অংশগুলির সময়ের উপর ভিত্তি করে। pyannote.metrics গ্রাউন্ড ট্রুথ ডায়ারাইজেশন এবং আউটপুট ডায়ারাইজেশনের এই টিপলগুলি নেয় (pyannote.metrics ডকুমেন্টেশনে উল্লেখ করা হয়েছে উল্লেখ এবং অনুমানDER গণনা করতে। নিম্নলিখিত টেবিল আমাদের ফলাফল সংক্ষিপ্ত.

ভিডিও টাইপ	DER	ঠিক	হারানো	ভুল	মিথ্যা সংকেত
নাটক	0.738	44.80%	21.80%	33.30%	18.70%
তথ্যচিত্র	1.29	94.50%	5.30%	0.20%	123.40%
গড়	0.901	71.40%	13.50%	15.10%	61.50%

এই ফলাফলগুলি ডকুমেন্টারি শিরোনামের তুলনায় নাটকের পর্বগুলির জন্য মডেলটি উল্লেখযোগ্যভাবে ভাল ফলাফল অর্জন করে (একটি সামগ্রিক মেট্রিক হিসাবে DER ব্যবহার করে) সহ নাটক এবং ডকুমেন্টারি শিরোনামের মধ্যে একটি উল্লেখযোগ্য পারফরম্যান্স পার্থক্য প্রকাশ করে। শিরোনামগুলির একটি ঘনিষ্ঠ বিশ্লেষণ এই কর্মক্ষমতা ব্যবধানে অবদান রাখার সম্ভাব্য কারণগুলির অন্তর্দৃষ্টি প্রদান করে৷ ডকুমেন্টারি শিরোনামে বক্তৃতার সাথে ওভারল্যাপিং ব্যাকগ্রাউন্ড মিউজিকের ঘন ঘন উপস্থিতি একটি মূল কারণ হতে পারে। যদিও ডায়ারাইজেশন নির্ভুলতা বাড়ানোর জন্য মিডিয়ার প্রি-প্রসেসিং, যেমন বক্তৃতা বিচ্ছিন্ন করার জন্য ব্যাকগ্রাউন্ডের শব্দ অপসারণ করা এই প্রোটোটাইপের সুযোগের বাইরে ছিল, এটি ভবিষ্যতের কাজের জন্য পথ খুলে দেয় যা WhisperX এর কার্যকারিতাকে সম্ভাব্যভাবে উন্নত করতে পারে।

উপসংহার

এই পোস্টে, আমরা AWS এবং ZOO ডিজিটালের মধ্যে সহযোগিতামূলক অংশীদারিত্ব অন্বেষণ করেছি, ডায়ারাইজেশন ওয়ার্কফ্লোকে উন্নত করতে SageMaker এবং WhisperX মডেলের সাথে মেশিন লার্নিং কৌশল নিযুক্ত করে। AWS টিম চিড়িয়াখানাকে প্রোটোটাইপিং, মূল্যায়ন এবং কাস্টম এমএল মডেলগুলির কার্যকর স্থাপনা বোঝার ক্ষেত্রে সহায়তা করার ক্ষেত্রে একটি গুরুত্বপূর্ণ ভূমিকা পালন করেছে, বিশেষত ডায়েরাইজেশনের জন্য ডিজাইন করা হয়েছে৷ এর মধ্যে SageMaker ব্যবহার করে মাপযোগ্যতার জন্য স্বয়ংক্রিয় স্কেলিং অন্তর্ভুক্ত করা হয়েছে।

ডায়েরাইজেশনের জন্য AI ব্যবহার করা চিড়িয়াখানার জন্য স্থানীয় বিষয়বস্তু তৈরি করার সময় খরচ এবং সময় উভয় ক্ষেত্রেই যথেষ্ট সাশ্রয় করবে। প্রতিলিপিকারীদের দ্রুত এবং সুনির্দিষ্টভাবে স্পিকার তৈরি এবং শনাক্ত করতে সহায়তা করার মাধ্যমে, এই প্রযুক্তিটি ঐতিহ্যগতভাবে সময়সাপেক্ষ এবং ত্রুটি-প্রবণ কাজটির সমাধান করে। প্রচলিত প্রক্রিয়ায় প্রায়ই ভিডিওর মাধ্যমে একাধিক পাস এবং ত্রুটি কমানোর জন্য অতিরিক্ত মান নিয়ন্ত্রণের পদক্ষেপ জড়িত থাকে। ডায়েরাইজেশনের জন্য AI গ্রহণ একটি আরও লক্ষ্যযুক্ত এবং দক্ষ পদ্ধতির সক্ষম করে, যার ফলে স্বল্প সময়ের মধ্যে উত্পাদনশীলতা বৃদ্ধি পায়।

আমরা সেজমেকার অ্যাসিঙ্ক্রোনাস এন্ডপয়েন্টে হুইস্পারএক্স মডেল স্থাপন করার জন্য মূল পদক্ষেপের রূপরেখা দিয়েছি, এবং প্রদত্ত কোড ব্যবহার করে নিজে চেষ্টা করার জন্য আপনাকে উত্সাহিত করেছি। ZOO ডিজিটালের পরিষেবা এবং প্রযুক্তি সম্পর্কে আরও অন্তর্দৃষ্টির জন্য, দেখুন ZOO Digital এর অফিসিয়াল সাইট. সেজমেকারে ওপেনএআই হুইস্পার মডেল স্থাপন এবং বিভিন্ন অনুমান বিকল্পের বিষয়ে বিস্তারিত জানার জন্য, দেখুন অ্যামাজন সেজমেকারে হুইস্পার মডেল হোস্ট করুন: অনুমান বিকল্পগুলি অন্বেষণ করুন৷. মন্তব্যে আপনার চিন্তা শেয়ার করতে বিনা দ্বিধায়.

লেখক সম্পর্কে

ইং হাউ, পিএইচডি, AWS-এর একজন মেশিন লার্নিং প্রোটোটাইপিং আর্কিটেক্ট। GenAI, কম্পিউটার ভিশন, NLP, এবং টাইম সিরিজ ডেটা ভবিষ্যদ্বাণীতে ফোকাস সহ তার আগ্রহের প্রাথমিক ক্ষেত্রগুলি গভীর শিক্ষাকে অন্তর্ভুক্ত করে। তার অবসর সময়ে, তিনি তার পরিবারের সাথে মানসম্পন্ন মুহূর্ত কাটাতে, উপন্যাসে নিজেকে নিমজ্জিত করতে এবং যুক্তরাজ্যের জাতীয় উদ্যানগুলিতে হাইকিং করতে পছন্দ করেন।

ইথান কাম্বারল্যান্ড ZOO Digital-এর একজন AI রিসার্চ ইঞ্জিনিয়ার, যেখানে তিনি বক্তৃতা, ভাষা এবং স্থানীয়করণে কর্মপ্রবাহ উন্নত করতে সহায়ক প্রযুক্তি হিসেবে AI এবং মেশিন লার্নিং ব্যবহার করে কাজ করেন। তার সফ্টওয়্যার ইঞ্জিনিয়ারিং এবং নিরাপত্তা এবং পুলিশিং ডোমেনে গবেষণার একটি পটভূমি রয়েছে, ওয়েব থেকে কাঠামোগত তথ্য আহরণ এবং সংগৃহীত ডেটা বিশ্লেষণ এবং সমৃদ্ধ করার জন্য ওপেন-সোর্স এমএল মডেলগুলির সুবিধার উপর দৃষ্টি নিবদ্ধ করে।

গৌরব কাইলা ইউকে এবং আয়ারল্যান্ডের জন্য AWS প্রোটোটাইপিং দলের নেতৃত্ব দেয়। তার দল AWS পরিষেবাগুলি গ্রহণকে ত্বরান্বিত করার জন্য একটি ম্যান্ডেট সহ ব্যবসায়িক সমালোচনামূলক কাজের চাপের ধারণা ও সহ-বিকাশের জন্য বিভিন্ন শিল্প জুড়ে গ্রাহকদের সাথে কাজ করে।