چڑیا گھر ڈیجیٹل اصل ٹی وی اور فلمی مواد کو مختلف زبانوں، خطوں اور ثقافتوں کے مطابق ڈھالنے کے لیے اینڈ ٹو اینڈ لوکلائزیشن اور میڈیا سروسز فراہم کرتا ہے۔ یہ دنیا کے بہترین مواد تخلیق کاروں کے لیے عالمگیریت کو آسان بناتا ہے۔ تفریح کے سب سے بڑے ناموں کے اعتبار سے ZOO ڈیجیٹل پیمانے پر اعلیٰ معیار کی لوکلائزیشن اور میڈیا سروسز فراہم کرتا ہے، بشمول ڈبنگ، سب ٹائٹلنگ، اسکرپٹنگ اور تعمیل۔
عام لوکلائزیشن ورک فلو کے لیے دستی اسپیکر ڈائرائزیشن کی ضرورت ہوتی ہے، جس میں اسپیکر کی شناخت کی بنیاد پر آڈیو اسٹریم کو الگ کیا جاتا ہے۔ مواد کو دوسری زبان میں ڈب کرنے سے پہلے یہ وقت طلب عمل مکمل ہونا چاہیے۔ دستی طریقوں سے، 30 منٹ کی ایپی سوڈ کو لوکلائز ہونے میں 1-3 گھنٹے لگ سکتے ہیں۔ آٹومیشن کے ذریعے، ZOO ڈیجیٹل کا مقصد 30 منٹ سے کم وقت میں لوکلائزیشن حاصل کرنا ہے۔
اس پوسٹ میں، ہم میڈیا مواد کو ڈائرائز کرنے کے لیے اسکیل ایبل مشین لرننگ (ML) ماڈلز کی تعیناتی پر تبادلہ خیال کرتے ہیں ایمیزون سیج میکر, پر توجہ مرکوز کے ساتھ وسپر ایکس ماڈل.
پس منظر
ZOO ڈیجیٹل کا وژن مقامی مواد کی تیزی سے تبدیلی فراہم کرنا ہے۔ یہ مقصد مشق کی دستی طور پر شدید نوعیت کی وجہ سے رکاوٹ ہے جس میں ہنر مند افراد کی چھوٹی افرادی قوت شامل ہے جو مواد کو دستی طور پر مقامی بنا سکتی ہے۔ ZOO ڈیجیٹل 11,000 سے زیادہ فری لانسرز کے ساتھ کام کرتا ہے اور صرف 600 میں 2022 ملین سے زیادہ الفاظ کو مقامی بناتا ہے۔ تاہم، مواد کی بڑھتی ہوئی طلب سے ہنر مند افراد کی فراہمی کو ختم کیا جا رہا ہے، جس میں لوکلائزیشن کے کام کے بہاؤ میں مدد کے لیے آٹومیشن کی ضرورت ہوتی ہے۔
مشین لرننگ کے ذریعے مواد کے کام کے بہاؤ کی لوکلائزیشن کو تیز کرنے کے مقصد کے ساتھ، ZOO ڈیجیٹل نے AWS پروٹو ٹائپنگ سے منسلک کیا، AWS کا ایک سرمایہ کاری پروگرام جو صارفین کے ساتھ کام کے بوجھ کو مشترکہ طور پر تیار کرتا ہے۔ مصروفیت نے لوکلائزیشن کے عمل کے لیے ایک فعال حل فراہم کرنے پر توجہ مرکوز کی، جبکہ ZOO ڈیجیٹل ڈویلپرز کو SageMaker پر ہینڈ آن ٹریننگ فراہم کی، ایمیزون نقل، اور ایمیزون ترجمہ.
کسٹمر چیلنج
ایک عنوان (مووی یا ٹی وی سیریز کا ایک واقعہ) کے نقل کیے جانے کے بعد، تقریر کے ہر حصے کے لیے مقررین کو تفویض کیا جانا چاہیے تاکہ وہ آواز کے فنکاروں کو صحیح طریقے سے تفویض کر سکیں جنہیں کردار ادا کرنے کے لیے کاسٹ کیا گیا ہے۔ اس عمل کو سپیکر ڈائرائزیشن کہا جاتا ہے۔ ZOO ڈیجیٹل کو معاشی طور پر قابل عمل ہونے کے ساتھ ساتھ بڑے پیمانے پر مواد کو ڈائرائز کرنے کے چیلنج کا سامنا ہے۔
حل جائزہ
اس پروٹو ٹائپ میں، ہم نے اصل میڈیا فائلوں کو ایک مخصوص میں محفوظ کیا ہے۔ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3) بالٹی۔ اس S3 بالٹی کو ایک ایونٹ کے اخراج کے لیے ترتیب دیا گیا تھا جب اس کے اندر نئی فائلوں کا پتہ چلا، او ڈبلیو ایس لامبڈا۔ فنکشن اس ٹرگر کو ترتیب دینے سے متعلق ہدایات کے لیے، ٹیوٹوریل سے رجوع کریں۔ لیمبڈا فنکشن کو شروع کرنے کے لیے ایمیزون S3 ٹرگر کا استعمال. اس کے بعد، لیمبڈا فنکشن نے سیج میکر اینڈ پوائنٹ کو استعمال کرتے ہوئے اندازہ لگانے کے لیے کہا بوٹو 3 سیج میکر رن ٹائم کلائنٹ.
۔ وسپر ایکس ماڈل، کی بنیاد پر اوپن اے آئی کی سرگوشی، میڈیا اثاثوں کے لئے نقلیں اور ڈائرائزیشن انجام دیتا ہے۔ اس پر بنایا گیا ہے۔ تیز تر سرگوشی دوبارہ لاگو کرنا، Whisper کے مقابلے میں بہتر ورڈ لیول ٹائم اسٹیمپ سیدھ کے ساتھ چار گنا تیز ٹرانسکرپشن کی پیشکش۔ مزید برآں، یہ سپیکر ڈائرائزیشن متعارف کراتا ہے، اصل وسپر ماڈل میں موجود نہیں ہے۔ WhisperX ٹرانسکرپشن کے لیے Whisper ماڈل کا استعمال کرتا ہے، Wav2Vec2 ٹائم اسٹیمپ کی سیدھ کو بڑھانے کے لیے ماڈل (آڈیو ٹائم اسٹیمپ کے ساتھ نقل شدہ متن کی ہم آہنگی کو یقینی بنانا)، اور pyannote ڈائرائزیشن کے لیے ماڈل۔ FFmpeg مختلف کو سپورٹ کرتے ہوئے سورس میڈیا سے آڈیو لوڈ کرنے کے لیے استعمال کیا جاتا ہے۔ میڈیا فارمیٹس شفاف اور ماڈیولر ماڈل فن تعمیر لچک کی اجازت دیتا ہے، کیونکہ ماڈل کے ہر جزو کو مستقبل میں ضرورت کے مطابق تبدیل کیا جا سکتا ہے۔ تاہم، یہ نوٹ کرنا ضروری ہے کہ WhisperX میں مکمل انتظامی خصوصیات کا فقدان ہے اور یہ کوئی انٹرپرائز لیول پروڈکٹ نہیں ہے۔ دیکھ بھال اور مدد کے بغیر، یہ پیداوار کی تعیناتی کے لیے موزوں نہیں ہو سکتا۔
اس تعاون میں، ہم نے SageMaker پر WhisperX کو تعینات کیا اور اس کا جائزہ لیا غیر مطابقت پذیر تخمینہ اختتامی نقطہ ماڈل کی میزبانی کرنے کے لیے۔ SageMaker غیر مطابقت پذیر اختتامی پوائنٹس 1 GB تک اپ لوڈ سائز کو سپورٹ کرتے ہیں اور آٹو اسکیلنگ کی خصوصیات شامل کرتے ہیں جو ٹریفک کے اضافے کو مؤثر طریقے سے کم کرتے ہیں اور آف پیک اوقات کے دوران اخراجات کو بچاتے ہیں۔ غیر مطابقت پذیر اختتامی نقطے خاص طور پر ہمارے استعمال کے معاملے میں بڑی فائلوں، جیسے موویز اور ٹی وی سیریز کی کارروائی کے لیے موزوں ہیں۔
مندرجہ ذیل خاکہ ان تجربات کے بنیادی عناصر کی وضاحت کرتا ہے جو ہم نے اس تعاون میں کیے تھے۔
مندرجہ ذیل حصوں میں، ہم SageMaker پر WhisperX ماڈل کی تعیناتی کی تفصیلات کا جائزہ لیتے ہیں، اور ڈائرائزیشن کی کارکردگی کا جائزہ لیتے ہیں۔
ماڈل اور اس کے اجزاء ڈاؤن لوڈ کریں۔
WhisperX ایک ایسا نظام ہے جس میں نقل، جبری سیدھ، اور ڈائرائزیشن کے لیے متعدد ماڈلز شامل ہیں۔ تخمینہ کے دوران ماڈل کے نمونے حاصل کرنے کی ضرورت کے بغیر ہموار SageMaker آپریشن کے لیے، تمام ماڈل نمونے پہلے سے ڈاؤن لوڈ کرنا ضروری ہے۔ یہ نمونے پھر شروع کے دوران SageMaker سرونگ کنٹینر میں لوڈ کیے جاتے ہیں۔ چونکہ یہ ماڈل براہ راست قابل رسائی نہیں ہیں، اس لیے ہم WhisperX ماخذ سے تفصیل اور نمونہ کوڈ پیش کرتے ہیں، ماڈل اور اس کے اجزاء کو ڈاؤن لوڈ کرنے کے لیے ہدایات فراہم کرتے ہیں۔
WhisperX چھ ماڈل استعمال کرتا ہے:
ان میں سے زیادہ تر ماڈلز سے حاصل کیے جا سکتے ہیں۔ گلے لگانے والا چہرہ huggingface_hub لائبریری کا استعمال کرتے ہوئے. ہم مندرجہ ذیل استعمال کرتے ہیں۔ download_hf_model()
ان ماڈل نمونے کو بازیافت کرنے کا فنکشن۔ Hugging Face سے ایک رسائی ٹوکن، جو مندرجہ ذیل pyannote ماڈلز کے لیے صارف کے معاہدوں کو قبول کرنے کے بعد تیار کیا گیا ہے، درکار ہے۔
import huggingface_hub
import yaml
import torchaudio
import urllib.request
import os CONTAINER_MODEL_DIR = "/opt/ml/model"
WHISPERX_MODEL = "guillaumekln/faster-whisper-large-v2"
VAD_MODEL_URL = "https://whisperx.s3.eu-west-2.amazonaws.com/model_weights/segmentation/0b5b3216d60a2d32fc086b47ea8c67589aaeb26b7e07fcbe620d6d0b83e209ea/pytorch_model.bin"
WAV2VEC2_MODEL = "WAV2VEC2_ASR_BASE_960H"
DIARIZATION_MODEL = "pyannote/speaker-diarization" def download_hf_model(model_name: str, hf_token: str, local_model_dir: str) -> str: """ Fetches the provided model from HuggingFace and returns the subdirectory it is downloaded to :param model_name: HuggingFace model name (and an optional version, appended with @[version]) :param hf_token: HuggingFace access token authorized to access the requested model :param local_model_dir: The local directory to download the model to :return: The subdirectory within local_modeL_dir that the model is downloaded to """ model_subdir = model_name.split('@')[0] huggingface_hub.snapshot_download(model_subdir, token=hf_token, local_dir=f"{local_model_dir}/{model_subdir}", local_dir_use_symlinks=False) return model_subdir
VAD ماڈل Amazon S3 سے حاصل کیا گیا ہے، اور Wav2Vec2 ماڈل torchaudio.pipelines ماڈیول سے حاصل کیا گیا ہے۔ مندرجہ ذیل کوڈ کی بنیاد پر، ہم تمام ماڈلز کے نمونے حاصل کر سکتے ہیں، بشمول Hugging Face سے، اور انہیں مخصوص مقامی ماڈل ڈائریکٹری میں محفوظ کر سکتے ہیں:
def fetch_models(hf_token: str, local_model_dir="./models"): """ Fetches all required models to run WhisperX locally without downloading models every time :param hf_token: A huggingface access token to download the models :param local_model_dir: The directory to download the models to """ # Fetch Faster Whisper's Large V2 model from HuggingFace download_hf_model(model_name=WHISPERX_MODEL, hf_token=hf_token, local_model_dir=local_model_dir) # Fetch WhisperX's VAD Segmentation model from S3 vad_model_dir = "whisperx/vad" if not os.path.exists(f"{local_model_dir}/{vad_model_dir}"): os.makedirs(f"{local_model_dir}/{vad_model_dir}") urllib.request.urlretrieve(VAD_MODEL_URL, f"{local_model_dir}/{vad_model_dir}/pytorch_model.bin") # Fetch the Wav2Vec2 alignment model torchaudio.pipelines.__dict__[WAV2VEC2_MODEL].get_model(dl_kwargs={"model_dir": f"{local_model_dir}/wav2vec2/"}) # Fetch pyannote's Speaker Diarization model from HuggingFace download_hf_model(model_name=DIARIZATION_MODEL, hf_token=hf_token, local_model_dir=local_model_dir) # Read in the Speaker Diarization model config to fetch models and update with their local paths with open(f"{local_model_dir}/{DIARIZATION_MODEL}/config.yaml", 'r') as file: diarization_config = yaml.safe_load(file) embedding_model = diarization_config['pipeline']['params']['embedding'] embedding_model_dir = download_hf_model(model_name=embedding_model, hf_token=hf_token, local_model_dir=local_model_dir) diarization_config['pipeline']['params']['embedding'] = f"{CONTAINER_MODEL_DIR}/{embedding_model_dir}" segmentation_model = diarization_config['pipeline']['params']['segmentation'] segmentation_model_dir = download_hf_model(model_name=segmentation_model, hf_token=hf_token, local_model_dir=local_model_dir) diarization_config['pipeline']['params']['segmentation'] = f"{CONTAINER_MODEL_DIR}/{segmentation_model_dir}/pytorch_model.bin" with open(f"{local_model_dir}/{DIARIZATION_MODEL}/config.yaml", 'w') as file: yaml.safe_dump(diarization_config, file) # Read in the Speaker Embedding model config to update it with its local path speechbrain_hyperparams_path = f"{local_model_dir}/{embedding_model_dir}/hyperparams.yaml" with open(speechbrain_hyperparams_path, 'r') as file: speechbrain_hyperparams = file.read() speechbrain_hyperparams = speechbrain_hyperparams.replace(embedding_model_dir, f"{CONTAINER_MODEL_DIR}/{embedding_model_dir}") with open(speechbrain_hyperparams_path, 'w') as file: file.write(speechbrain_hyperparams)
ماڈل پیش کرنے کے لیے مناسب AWS ڈیپ لرننگ کنٹینر کا انتخاب کریں۔
ماڈل نمونے کو پچھلے نمونہ کوڈ کا استعمال کرتے ہوئے محفوظ کرنے کے بعد، آپ پہلے سے تیار کردہ کو منتخب کر سکتے ہیں۔ AWS ڈیپ لرننگ کنٹینرز (DLCs) درج ذیل سے GitHub repo. ڈوکر امیج کو منتخب کرتے وقت، درج ذیل سیٹنگز پر غور کریں: فریم ورک (ہگنگ فیس)، ٹاسک (انفرنس)، ازگر کا ورژن، اور ہارڈ ویئر (مثال کے طور پر، GPU)۔ ہم مندرجہ ذیل تصویر کو استعمال کرنے کی تجویز کرتے ہیں: 763104351884.dkr.ecr.[REGION].amazonaws.com/huggingface-pytorch-inference:2.0.0-transformers4.28.1-gpu-py310-cu118-ubuntu20.04
اس تصویر میں تمام ضروری سسٹم پیکجز پہلے سے انسٹال ہیں، جیسے ffmpeg۔ [REGION] کو AWS ریجن سے بدلنا یاد رکھیں جسے آپ استعمال کر رہے ہیں۔
دیگر مطلوبہ ازگر پیکجوں کے لیے، ایک بنائیں requirements.txt
پیکیجز اور ان کے ورژن کی فہرست کے ساتھ فائل کریں۔ یہ پیکجز اس وقت انسٹال ہوں گے جب AWS DLC بن جائے گا۔ SageMaker پر WhisperX ماڈل کی میزبانی کے لیے درکار اضافی پیکجز درج ذیل ہیں:
ماڈل لوڈ کرنے اور تخمینہ چلانے کے لیے ایک انفرنس اسکرپٹ بنائیں
اگلا، ہم ایک اپنی مرضی کے مطابق بناتے ہیں inference.py
اسکرپٹ اس بات کا خاکہ پیش کرنے کے لیے کہ کس طرح WhisperX ماڈل اور اس کے اجزاء کنٹینر میں لوڈ کیے جاتے ہیں اور انفرنس کے عمل کو کیسے چلایا جانا چاہیے۔ اسکرپٹ دو افعال پر مشتمل ہے: model_fn
اور transform_fn
. model_fn
فنکشن کو ان کے متعلقہ مقامات سے ماڈلز لوڈ کرنے کے لیے کہا جاتا ہے۔ اس کے بعد، ان ماڈلز کو پاس کیا جاتا ہے transform_fn
تخمینہ کے دوران فنکشن، جہاں نقل، سیدھ، اور ڈائرائزیشن کے عمل انجام دیے جاتے ہیں۔ مندرجہ ذیل کے لیے کوڈ کا نمونہ ہے۔ inference.py
:
import io
import json
import logging
import tempfile
import time import torch
import whisperx DEVICE = 'cuda' if torch.cuda.is_available() else 'cpu' def model_fn(model_dir: str) -> dict: """ Deserialize and return the models """ logging.info("Loading WhisperX model") model = whisperx.load_model(whisper_arch=f"{model_dir}/guillaumekln/faster-whisper-large-v2", device=DEVICE, language="en", compute_type="float16", vad_options={'model_fp': f"{model_dir}/whisperx/vad/pytorch_model.bin"}) logging.info("Loading alignment model") align_model, metadata = whisperx.load_align_model(language_code="en", device=DEVICE, model_name="WAV2VEC2_ASR_BASE_960H", model_dir=f"{model_dir}/wav2vec2") logging.info("Loading diarization model") diarization_model = whisperx.DiarizationPipeline(model_name=f"{model_dir}/pyannote/speaker-diarization/config.yaml", device=DEVICE) return { 'model': model, 'align_model': align_model, 'metadata': metadata, 'diarization_model': diarization_model } def transform_fn(model: dict, request_body: bytes, request_content_type: str, response_content_type="application/json") -> (str, str): """ Load in audio from the request, transcribe and diarize, and return JSON output """ # Start a timer so that we can log how long inference takes start_time = time.time() # Unpack the models whisperx_model = model['model'] align_model = model['align_model'] metadata = model['metadata'] diarization_model = model['diarization_model'] # Load the media file (the request_body as bytes) into a temporary file, then use WhisperX to load the audio from it logging.info("Loading audio") with io.BytesIO(request_body) as file: tfile = tempfile.NamedTemporaryFile(delete=False) tfile.write(file.read()) audio = whisperx.load_audio(tfile.name) # Run transcription logging.info("Transcribing audio") result = whisperx_model.transcribe(audio, batch_size=16) # Align the outputs for better timings logging.info("Aligning outputs") result = whisperx.align(result["segments"], align_model, metadata, audio, DEVICE, return_char_alignments=False) # Run diarization logging.info("Running diarization") diarize_segments = diarization_model(audio) result = whisperx.assign_word_speakers(diarize_segments, result) # Calculate the time it took to perform the transcription and diarization end_time = time.time() elapsed_time = end_time - start_time logging.info(f"Transcription and Diarization took {int(elapsed_time)} seconds") # Return the results to be stored in S3 return json.dumps(result), response_content_type
ماڈل کی ڈائرکٹری کے اندر، کے ساتھ ساتھ requirements.txt
فائل کی موجودگی کو یقینی بنائیں inference.py
کوڈ سب ڈائرکٹری میں۔ دی models
ڈائریکٹری مندرجہ ذیل سے مشابہت ہونی چاہیے:
ماڈلز کا ٹربال بنائیں
ماڈلز اور کوڈ ڈائریکٹریز بنانے کے بعد، آپ ماڈل کو ٹربال (.tar.gz فائل) میں کمپریس کرنے اور اسے Amazon S3 پر اپ لوڈ کرنے کے لیے درج ذیل کمانڈ لائنوں کا استعمال کر سکتے ہیں۔ لکھنے کے وقت، تیز سرگوشی والے بڑے V2 ماڈل کا استعمال کرتے ہوئے، نتیجے میں سیج میکر ماڈل کی نمائندگی کرنے والا ٹربال 3 جی بی سائز کا ہے۔ مزید معلومات کے لیے رجوع کریں۔ ایمیزون سیج میکر میں ہوسٹنگ کے نمونے، حصہ 2: سیج میکر پر ریئل ٹائم ماڈلز کی تعیناتی کے ساتھ شروعات کرنا.
ایک SageMaker ماڈل بنائیں اور ایک غیر مطابقت پذیر پیش گو کے ساتھ ایک اختتامی نقطہ تعینات کریں۔
اب آپ SageMaker ماڈل، اینڈ پوائنٹ کنفیگریشن، اور غیر مطابقت پذیر اینڈ پوائنٹ اس کے ساتھ بنا سکتے ہیں۔ AsyncPredictor پچھلے مرحلے میں بنائے گئے ماڈل ٹربال کا استعمال کرتے ہوئے ہدایات کے لیے، رجوع کریں۔ ایک غیر مطابقت پذیر انفرنس اینڈ پوائنٹ بنائیں.
ڈائرائزیشن کی کارکردگی کا اندازہ کریں۔
مختلف منظرناموں میں WhisperX ماڈل کی ڈائرائزیشن کارکردگی کا جائزہ لینے کے لیے، ہم نے دو انگریزی عنوانات میں سے ہر ایک میں تین اقساط کا انتخاب کیا: ایک ڈرامہ کا عنوان جو 30 منٹ کی اقساط پر مشتمل ہے، اور ایک دستاویزی عنوان جو 45 منٹ کی اقساط پر مشتمل ہے۔ ہم نے پیانوٹ کی میٹرکس ٹول کٹ کا استعمال کیا، pyannote.metrics، کا حساب لگانے کے لیے ڈائرائزیشن غلطی کی شرح (DER). تشخیص میں، ZOO کی طرف سے فراہم کردہ دستی طور پر نقل شدہ اور ڈائرائزڈ ٹرانسکرپٹس نے زمینی سچائی کا کام کیا۔
ہم نے DER کی وضاحت اس طرح کی ہے:
کل زمینی سچ ویڈیو کی لمبائی ہے۔ FA (فالس الارم) ان حصوں کی لمبائی ہے جو پیشین گوئیوں میں تقریر کے طور پر سمجھی جاتی ہیں، لیکن زمینی سچائی میں نہیں۔ مس ان حصوں کی لمبائی ہے جو زمینی سچائی میں تقریر کے طور پر سمجھی جاتی ہے، لیکن پیشین گوئی میں نہیں۔ خرابی، بھی کہا جاتا ہے الجھن، سیگمنٹس کی لمبائی ہے جو پیشین گوئی اور زمینی سچائی میں مختلف بولنے والوں کو تفویض کی گئی ہے۔ تمام اکائیوں کو سیکنڈ میں ناپا جاتا ہے۔ DER کی مخصوص قدریں مخصوص ایپلیکیشن، ڈیٹاسیٹ، اور ڈائرائزیشن سسٹم کے معیار کے لحاظ سے مختلف ہو سکتی ہیں۔ نوٹ کریں کہ DER 1.0 سے بڑا ہو سکتا ہے۔ کم DER بہتر ہے۔
میڈیا کے کسی ٹکڑے کے لیے DER کا حساب لگانے کے لیے، زمینی سچائی کی ڈائرائزیشن کے ساتھ ساتھ WhisperX کی نقل شدہ اور ڈائرائزڈ آؤٹ پٹس بھی درکار ہیں۔ ان کا تجزیہ کیا جانا چاہیے اور اس کے نتیجے میں میڈیا میں تقریر کے ہر حصے کے لیے اسپیکر لیبل، اسپیچ سیگمنٹ کے آغاز کا وقت، اور اسپیچ سیگمنٹ کے اختتامی وقت پر مشتمل ٹیپلز کی فہرستیں بنتی ہیں۔ سپیکر کے لیبلز کو WhisperX اور زمینی سچائی ڈائرائزیشن کے درمیان ملنے کی ضرورت نہیں ہے۔ نتائج زیادہ تر طبقات کے وقت پر مبنی ہوتے ہیں۔ pyannote.metrics زمینی سچائی کی ڈائرائزیشن اور آؤٹ پٹ ڈائرائزیشن کے ان ٹیپلز کو لیتا ہے (جس کا حوالہ pyannote.metrics دستاویزات میں کہا گیا ہے حوالہ اور پرختیارپناDER کا حساب لگانے کے لیے۔ مندرجہ ذیل جدول ہمارے نتائج کا خلاصہ کرتا ہے۔
ویڈیو کی قسم | DER | درست | مس | خرابی | جھوٹی الارم |
ڈرامہ | 0.738 | 44.80٪ | 21.80٪ | 33.30٪ | 18.70٪ |
دستاویزی فلم | 1.29 | 94.50٪ | 5.30٪ | 0.20٪ | 123.40٪ |
اوسط | 0.901 | 71.40٪ | 13.50٪ | 15.10٪ | 61.50٪ |
یہ نتائج ڈرامہ اور دستاویزی عنوانات کے درمیان نمایاں کارکردگی کے فرق کو ظاہر کرتے ہیں، جس میں ماڈل نے دستاویزی عنوان کے مقابلے ڈرامہ ایپی سوڈز کے لیے نمایاں طور پر بہتر نتائج حاصل کیے (ڈی ای آر کو مجموعی میٹرک کے طور پر استعمال کرتے ہوئے)۔ عنوانات کا قریبی تجزیہ کارکردگی کے اس فرق میں کردار ادا کرنے والے ممکنہ عوامل کے بارے میں بصیرت فراہم کرتا ہے۔ ایک اہم عنصر دستاویزی فلم کے عنوان میں تقریر کے ساتھ پس منظر کی موسیقی کی متواتر موجودگی ہو سکتی ہے۔ اگرچہ ڈائرائزیشن کی درستگی کو بڑھانے کے لیے میڈیا کو پری پروسیسنگ کرنا، جیسے کہ تقریر کو الگ تھلگ کرنے کے لیے پس منظر کے شور کو ہٹانا، اس پروٹو ٹائپ کے دائرہ کار سے باہر تھا، لیکن یہ مستقبل کے کام کے لیے راستے کھولتا ہے جو ممکنہ طور پر WhisperX کی کارکردگی کو بڑھا سکتا ہے۔
نتیجہ
اس پوسٹ میں، ہم نے AWS اور ZOO ڈیجیٹل کے درمیان باہمی تعاون پر مبنی شراکت کی کھوج کی، جس میں ڈائرائزیشن ورک فلو کو بڑھانے کے لیے SageMaker اور WhisperX ماڈل کے ساتھ مشین لرننگ تکنیک کا استعمال کیا گیا۔ AWS ٹیم نے ZOO کی پروٹو ٹائپنگ، تشخیص، اور کسٹم ایم ایل ماڈلز کی مؤثر تعیناتی کو سمجھنے میں اہم کردار ادا کیا، خاص طور پر ڈائرائزیشن کے لیے ڈیزائن کیا گیا ہے۔ اس میں SageMaker کا استعمال کرتے ہوئے اسکیل ایبلٹی کے لیے آٹو اسکیلنگ کو شامل کرنا شامل ہے۔
ڈائرائزیشن کے لیے AI کو استعمال کرنے سے ZOO کے لیے مقامی مواد تیار کرتے وقت لاگت اور وقت دونوں میں خاطر خواہ بچت ہوگی۔ سپیکرز کو تیزی سے اور درست طریقے سے بنانے اور ان کی شناخت کرنے میں ٹرانسکرائبرز کی مدد کرتے ہوئے، یہ ٹیکنالوجی روایتی طور پر وقت گزارنے والے اور غلطی کے شکار کام کی نوعیت کو حل کرتی ہے۔ روایتی عمل میں اکثر غلطیوں کو کم کرنے کے لیے ویڈیو کے ذریعے متعدد پاسز اور اضافی کوالٹی کنٹرول کے اقدامات شامل ہوتے ہیں۔ ڈائرائزیشن کے لیے AI کو اپنانا ایک زیادہ ہدف اور موثر انداز کو قابل بناتا ہے، اس طرح ایک مختصر وقت کے اندر پیداواری صلاحیت میں اضافہ ہوتا ہے۔
ہم نے WhisperX ماڈل کو SageMaker غیر مطابقت پذیر اختتامی نقطہ پر تعینات کرنے کے لیے کلیدی اقدامات کا خاکہ پیش کیا ہے، اور آپ کو فراہم کردہ کوڈ کا استعمال کرتے ہوئے اسے خود آزمانے کی ترغیب دی ہے۔ ZOO ڈیجیٹل کی خدمات اور ٹیکنالوجی کے بارے میں مزید بصیرت کے لیے، ملاحظہ کریں۔ ZOO ڈیجیٹل کی آفیشل سائٹ. سیج میکر پر اوپن اے آئی وِسپر ماڈل کی تعیناتی اور مختلف قیاس کے اختیارات کے بارے میں تفصیلات کے لیے، ملاحظہ کریں ایمیزون سیج میکر پر وسپر ماڈل کی میزبانی کریں: تخمینہ کے اختیارات کی تلاش. تبصرے میں اپنے خیالات کا اشتراک کرنے کے لئے آزاد محسوس کریں.
مصنفین کے بارے میں
ینگ ہو، پی ایچ ڈی، AWS میں مشین لرننگ پروٹو ٹائپنگ آرکیٹیکٹ ہے۔ اس کی دلچسپی کے بنیادی شعبے ڈیپ لرننگ پر محیط ہیں، جن میں GenAI، کمپیوٹر ویژن، NLP، اور ٹائم سیریز ڈیٹا کی پیشن گوئی پر توجہ دی گئی ہے۔ اپنے فارغ وقت میں، وہ اپنے خاندان کے ساتھ معیاری لمحات گزارنے، خود کو ناولوں میں غرق کرنے، اور برطانیہ کے قومی پارکوں میں پیدل سفر کرنے کا مزہ لیتی ہے۔
ایتھن کمبرلینڈ ZOO ڈیجیٹل میں ایک AI ریسرچ انجینئر ہے، جہاں وہ تقریر، زبان اور لوکلائزیشن میں ورک فلو کو بہتر بنانے کے لیے AI اور مشین لرننگ کو معاون ٹیکنالوجی کے طور پر استعمال کرنے پر کام کرتا ہے۔ اس کا پس منظر سافٹ ویئر انجینئرنگ اور سیکیورٹی اور پولیسنگ ڈومین میں تحقیق کا ہے، جو ویب سے ساختی معلومات کو نکالنے پر توجہ مرکوز کرتا ہے اور جمع کردہ ڈیٹا کا تجزیہ کرنے اور ان کی افزودگی کے لیے اوپن سورس ML ماڈلز کا فائدہ اٹھاتا ہے۔
گورو کیلا UK اور آئرلینڈ کے لیے AWS پروٹو ٹائپنگ ٹیم کی قیادت کرتا ہے۔ ان کی ٹیم AWS خدمات کو اپنانے میں تیزی لانے کے مینڈیٹ کے ساتھ کاروبار کے اہم کام کے بوجھ کو آئیڈیٹ کرنے اور تعاون کرنے کے لیے متنوع صنعتوں کے صارفین کے ساتھ کام کرتی ہے۔
- SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
- پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
- پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
- پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
- پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
- ماخذ: https://aws.amazon.com/blogs/machine-learning/streamline-diarization-using-ai-as-an-assistive-technology-zoo-digitals-story/
- : ہے
- : ہے
- : نہیں
- :کہاں
- $UP
- 000
- 1
- 10
- 100
- 11
- 140
- 2022
- 220
- 28
- 30
- 350
- 600
- 7
- 8
- a
- قابلیت
- رفتار کو تیز تر
- قبول کرنا
- تک رسائی حاصل
- قابل رسائی
- درستگی
- حاصل
- حصول
- کے پار
- اپنانے
- ایڈیشنل
- اس کے علاوہ
- پتے
- منہ بولابیٹا بنانے
- کے بعد
- مجموعی
- معاہدے
- AI
- عی تحقیق
- مقصد
- مقصد ہے
- الارم
- سیدھ کریں
- سیدھ میں لانا
- صف بندی
- تمام
- کی اجازت دیتا ہے
- اکیلے
- شانہ بشانہ
- بھی
- اگرچہ
- ایمیزون
- ایمیزون سیج میکر
- ایمیزون ویب سروسز
- an
- تجزیہ کرنا
- تجزیہ
- اور
- ایک اور
- درخواست
- نقطہ نظر
- مناسب
- فن تعمیر
- کیا
- علاقوں
- آرٹسٹ
- AS
- تشخیص کریں
- اثاثے
- تفویض
- مدد
- مدد
- At
- آڈیو
- مجاز
- آٹو
- میشن
- راستے
- AWS
- پس منظر
- کی بنیاد پر
- BE
- کیونکہ
- رہا
- اس سے پہلے
- کیا جا رہا ہے
- BEST
- بہتر
- کے درمیان
- سے پرے
- سب سے بڑا
- بن
- دونوں
- تعمیر
- کاروبار
- لیکن
- by
- حساب
- کہا جاتا ہے
- کر سکتے ہیں
- کیس
- چیلنج
- حروف
- میں سے انتخاب کریں
- قریب
- کوڈ
- تعاون
- باہمی تعاون کے ساتھ
- تبصروں
- مقابلے میں
- مکمل
- تعمیل
- جزو
- اجزاء
- مرکب
- کمپیوٹر
- کمپیوٹر ویژن
- منعقد
- تشکیل شدہ
- ترتیب دیں
- غور کریں
- سمجھا
- پر مشتمل ہے
- کنٹینر
- پر مشتمل ہے
- مواد
- مواد تخلیق کار
- تعاون کرنا
- کنٹرول
- روایتی
- کور
- صحیح طریقے سے
- قیمت
- اخراجات
- سکتا ہے
- تخلیق
- بنائی
- تخلیق
- تخلیق کاروں
- اہم
- ثقافتوں
- اپنی مرضی کے
- گاہکوں
- اعداد و شمار
- گہری
- گہری سیکھنے
- کی وضاحت
- ترسیل
- فراہم کرتا ہے
- ڈیلے
- ڈیمانڈ
- منحصر ہے
- تعیناتی
- تعینات
- تعینات
- تعیناتی
- ڈیزائن
- تفصیلات
- پتہ چلا
- ڈویلپرز
- آلہ
- آریھ
- DICT
- فرق
- مختلف
- ڈیجیٹل
- ہندسوں
- براہ راست
- ڈائریکٹریز
- ڈائرکٹری
- بات چیت
- متنوع
- میں Docker
- دستاویزی فلم
- دستاویزات
- ڈومین
- نہیں
- ڈاؤن لوڈ، اتارنا
- ڈاؤن لوڈ کرنے
- ڈرامہ
- ڈوب
- کے دوران
- ہر ایک
- آسان
- موثر
- ہنر
- مؤثر طریقے سے
- عناصر
- اور
- سرایت کرنا
- ملازم
- کے قابل بناتا ہے
- احاطہ
- کی حوصلہ افزائی
- آخر
- آخر سے آخر تک
- اختتام پوائنٹ
- مصروف
- مصروفیت
- انجینئر
- انجنیئرنگ
- انگریزی
- بڑھانے کے
- افزودہ
- کو یقینی بنانے کے
- کو یقینی بنانے ہے
- انٹرپرائز کی سطح
- تفریح
- پرکرن
- خرابی
- نقائص
- ضروری
- اندازہ
- اندازہ
- کا جائزہ لینے
- تشخیص
- واقعہ
- ہر کوئی
- مثال کے طور پر
- ورزش
- تجربات
- وضاحت کی
- ایکسپلور
- چہرہ
- چہرے
- عنصر
- عوامل
- جھوٹی
- خاندان
- تیز تر
- خصوصیات
- محسوس
- بازیافت
- فائل
- فائلوں
- لچک
- توجہ مرکوز
- توجہ مرکوز
- توجہ مرکوز
- کے بعد
- مندرجہ ذیل ہے
- کے لئے
- مجبور کر دیا
- چار
- فریم ورک
- مفت
- بار بار اس
- سے
- مکمل
- تقریب
- فنکشنل
- افعال
- مزید
- مستقبل
- فرق
- جینئی
- پیدا
- پیدا کرنے والے
- حاصل کرنے
- GitHub کے
- گلوبلائزیشن
- مقصد
- GPU
- گراؤنڈ
- ہاتھوں پر
- ہارڈ ویئر
- he
- اس کی
- اعلی معیار کی
- ان
- میزبان
- ہوسٹنگ
- HOURS
- کس طرح
- تاہم
- HTML
- HTTP
- HTTPS
- گلے لگانے والا چہرہ
- کی نشاندہی
- شناختی
- if
- وضاحت کرتا ہے
- تصویر
- درآمد
- کو بہتر بنانے کے
- بہتر
- in
- شامل
- شامل ہیں
- سمیت
- شامل
- شامل کرنا
- اضافہ
- صنعتوں
- معلومات
- شروع
- بصیرت
- نصب
- ہدایات
- دلچسپی
- میں
- متعارف کرواتا ہے
- سرمایہ کاری
- درخواست کی
- شامل ہے
- آئر لینڈ
- IT
- میں
- فوٹو
- JSON
- کلیدی
- بنیادی عنصر
- لیبل
- لیبل
- زبان
- زبانیں
- بڑے
- بڑے
- قیادت
- لیڈز
- سیکھنے
- لمبائی
- لیورنگنگ
- لائبریری
- لائنوں
- لسٹ
- فہرستیں
- لوڈ
- لوڈ کر رہا ہے
- مقامی
- لوکلائزیشن
- مقامی طور پر
- مقامات
- لاگ ان کریں
- لاگ ان
- لانگ
- کم
- مشین
- مشین لرننگ
- دیکھ بھال
- بناتا ہے
- انتظام
- مینڈیٹ
- دستی
- دستی طور پر
- میچ
- مئی..
- میڈیا
- میٹا ڈیٹا
- طریقوں
- میٹرک۔
- پیمائش کا معیار
- دس لاکھ
- کم سے کم
- منٹ
- تخفیف کریں
- ML
- ماڈل
- ماڈل
- ماڈیولر
- ماڈیول
- لمحات
- زیادہ
- زیادہ تر
- فلم
- فلم
- ایک سے زیادہ
- موسیقی
- ضروری
- نام
- نام
- قومی
- فطرت، قدرت
- ضروری
- ضرورت ہے
- ضرورت
- نئی
- ویزا
- شور
- خاص طور پر
- براہ مہربانی نوٹ کریں
- حاصل کی
- of
- پیش کرتے ہیں
- کی پیشکش
- سرکاری
- اکثر
- on
- ایک
- اوپن سورس
- اوپنائی
- کھولتا ہے
- آپریشن
- آپشنز کے بھی
- or
- اصل
- OS
- دیگر
- ہمارے
- باہر
- خاکہ
- بیان کیا
- پیداوار
- نتائج
- پر
- پیکجوں کے
- حصہ
- خاص طور پر
- شراکت داری
- منظور
- گزرتا ہے
- راستہ
- راستے
- پیٹرن
- لوگ
- انجام دیں
- کارکردگی
- کارکردگی
- کارکردگی کا مظاہرہ
- ٹکڑا
- پائپ لائن
- اہم
- پلاٹا
- افلاطون ڈیٹا انٹیلی جنس
- پلیٹو ڈیٹا
- کھیلیں
- کھیلا
- پولیس
- پوسٹ
- ممکنہ
- ممکنہ طور پر
- پہلے
- ٹھیک ہے
- کی پیشن گوئی
- پیشن گوئی
- کی موجودگی
- حال (-)
- پچھلا
- پرائمری
- عمل
- عمل
- پروسیسنگ
- مصنوعات
- پیداوار
- پیداوری
- پروگرام
- پروٹوٹائپ
- prototyping کے
- فراہم
- فراہم
- فراہم کرتا ہے
- فراہم کرنے
- ازگر
- معیار
- R
- شرح
- پڑھیں
- اصلی
- اصل وقت
- سفارش
- کا حوالہ دیتے ہیں
- کہا جاتا ہے
- خطے
- خطوں
- یاد
- کو ہٹانے کے
- کی جگہ
- نمائندگی
- درخواست
- کی ضرورت
- ضرورت
- ضروریات
- تحقیق
- متعلقہ
- نتیجہ
- نتیجے
- نتائج کی نمائش
- واپسی
- واپسی
- ظاہر
- کردار
- رن
- چل رہا ہے
- رن ٹائم
- s
- sagemaker
- نمونہ
- محفوظ کریں
- محفوظ
- بچت
- اسکیل ایبلٹی
- توسیع پذیر
- پیمانے
- سکیلنگ
- منظرنامے
- گنجائش
- اسکرپٹ
- سیکنڈ
- سیکشنز
- سیکورٹی
- حصے
- انقطاع
- حصوں
- منتخب
- منتخب
- سیریز
- خدمت کی
- سروسز
- خدمت
- ترتیبات
- سیکنڈ اور
- وہ
- ہونا چاہئے
- اہم
- سادہ
- چھ
- سائز
- سائز
- ہنر مند
- چھوٹے
- ہموار
- So
- سافٹ ویئر کی
- سافٹ ویئر انجینئرنگ
- حل
- ماخذ
- اسپیکر
- مقررین
- مخصوص
- خاص طور پر
- مخصوص
- تقریر
- خرچ کرنا۔
- spikes
- شروع کریں
- شروع
- مرحلہ
- مراحل
- ذخیرہ
- ذخیرہ
- کہانی
- سٹریم
- کارگر
- منظم
- بعد میں
- کافی
- اس طرح
- موزوں
- فراہمی
- حمایت
- امدادی
- ادل بدل گیا
- تیزی سے
- ہم آہنگی
- کے نظام
- ٹیبل
- لے لو
- لیتا ہے
- ھدف بنائے گئے
- ٹاسک
- ٹیم
- تکنیک
- ٹیکنالوجی
- ٹیکنالوجی
- عارضی
- متن
- سے
- کہ
- ۔
- مستقبل
- برطانیہ
- ان
- ان
- تو
- اس طرح
- یہ
- وہ
- اس
- ان
- تین
- کے ذریعے
- وقت
- وقت کا سلسلہ
- وقت لگتا
- ٹائم فریم
- اوقات
- ٹائمسٹیمپ
- اوقات
- عنوان
- عنوانات
- کرنے کے لئے
- ٹوکن
- لیا
- ٹول کٹ
- مشعل
- روایتی طور پر
- ٹریفک
- ٹریننگ
- شفاف
- ٹرگر
- ٹرگر
- قابل اعتماد
- حقیقت
- کوشش
- سبق
- tv
- دو
- ٹھیٹھ
- Uk
- کے تحت
- 30 کے دوران
- افہام و تفہیم
- یونٹس
- اپ ڈیٹ کریں
- صلی اللہ علیہ وسلم
- استعمال کی شرائط
- استعمال کیس
- استعمال کیا جاتا ہے
- رکن کا
- استعمال
- کا استعمال کرتے ہوئے
- استعمال کیا
- استعمال کرتا ہے
- اقدار
- مختلف
- مختلف
- ورژن
- ورژن
- قابل عمل
- ویڈیو
- نقطہ نظر
- دورہ
- وائس
- W
- تھا
- we
- ویب
- ویب خدمات
- اچھا ہے
- جب
- جبکہ
- کسبی
- گے
- ساتھ
- کے اندر
- بغیر
- الفاظ
- کام
- کام کا بہاؤ
- کام کے بہاؤ
- افرادی قوت۔
- کام کرتا ہے
- دنیا کی
- تحریری طور پر
- یامل
- تم
- اور
- اپنے آپ کو
- زیفیرنیٹ
- چڑیا گھر