اے آئی کو ایک معاون ٹیکنالوجی کے طور پر استعمال کرتے ہوئے ڈائرائزیشن کو منظم کرنا: ZOO ڈیجیٹل کی کہانی

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

چڑیا گھر ڈیجیٹل اصل ٹی وی اور فلمی مواد کو مختلف زبانوں، خطوں اور ثقافتوں کے مطابق ڈھالنے کے لیے اینڈ ٹو اینڈ لوکلائزیشن اور میڈیا سروسز فراہم کرتا ہے۔ یہ دنیا کے بہترین مواد تخلیق کاروں کے لیے عالمگیریت کو آسان بناتا ہے۔ تفریح کے سب سے بڑے ناموں کے اعتبار سے ZOO ڈیجیٹل پیمانے پر اعلیٰ معیار کی لوکلائزیشن اور میڈیا سروسز فراہم کرتا ہے، بشمول ڈبنگ، سب ٹائٹلنگ، اسکرپٹنگ اور تعمیل۔

عام لوکلائزیشن ورک فلو کے لیے دستی اسپیکر ڈائرائزیشن کی ضرورت ہوتی ہے، جس میں اسپیکر کی شناخت کی بنیاد پر آڈیو اسٹریم کو الگ کیا جاتا ہے۔ مواد کو دوسری زبان میں ڈب کرنے سے پہلے یہ وقت طلب عمل مکمل ہونا چاہیے۔ دستی طریقوں سے، 30 منٹ کی ایپی سوڈ کو لوکلائز ہونے میں 1-3 گھنٹے لگ سکتے ہیں۔ آٹومیشن کے ذریعے، ZOO ڈیجیٹل کا مقصد 30 منٹ سے کم وقت میں لوکلائزیشن حاصل کرنا ہے۔

اس پوسٹ میں، ہم میڈیا مواد کو ڈائرائز کرنے کے لیے اسکیل ایبل مشین لرننگ (ML) ماڈلز کی تعیناتی پر تبادلہ خیال کرتے ہیں ایمیزون سیج میکر, پر توجہ مرکوز کے ساتھ وسپر ایکس ماڈل.

پس منظر

ZOO ڈیجیٹل کا وژن مقامی مواد کی تیزی سے تبدیلی فراہم کرنا ہے۔ یہ مقصد مشق کی دستی طور پر شدید نوعیت کی وجہ سے رکاوٹ ہے جس میں ہنر مند افراد کی چھوٹی افرادی قوت شامل ہے جو مواد کو دستی طور پر مقامی بنا سکتی ہے۔ ZOO ڈیجیٹل 11,000 سے زیادہ فری لانسرز کے ساتھ کام کرتا ہے اور صرف 600 میں 2022 ملین سے زیادہ الفاظ کو مقامی بناتا ہے۔ تاہم، مواد کی بڑھتی ہوئی طلب سے ہنر مند افراد کی فراہمی کو ختم کیا جا رہا ہے، جس میں لوکلائزیشن کے کام کے بہاؤ میں مدد کے لیے آٹومیشن کی ضرورت ہوتی ہے۔

مشین لرننگ کے ذریعے مواد کے کام کے بہاؤ کی لوکلائزیشن کو تیز کرنے کے مقصد کے ساتھ، ZOO ڈیجیٹل نے AWS پروٹو ٹائپنگ سے منسلک کیا، AWS کا ایک سرمایہ کاری پروگرام جو صارفین کے ساتھ کام کے بوجھ کو مشترکہ طور پر تیار کرتا ہے۔ مصروفیت نے لوکلائزیشن کے عمل کے لیے ایک فعال حل فراہم کرنے پر توجہ مرکوز کی، جبکہ ZOO ڈیجیٹل ڈویلپرز کو SageMaker پر ہینڈ آن ٹریننگ فراہم کی، ایمیزون نقل، اور ایمیزون ترجمہ.

کسٹمر چیلنج

ایک عنوان (مووی یا ٹی وی سیریز کا ایک واقعہ) کے نقل کیے جانے کے بعد، تقریر کے ہر حصے کے لیے مقررین کو تفویض کیا جانا چاہیے تاکہ وہ آواز کے فنکاروں کو صحیح طریقے سے تفویض کر سکیں جنہیں کردار ادا کرنے کے لیے کاسٹ کیا گیا ہے۔ اس عمل کو سپیکر ڈائرائزیشن کہا جاتا ہے۔ ZOO ڈیجیٹل کو معاشی طور پر قابل عمل ہونے کے ساتھ ساتھ بڑے پیمانے پر مواد کو ڈائرائز کرنے کے چیلنج کا سامنا ہے۔

حل جائزہ

اس پروٹو ٹائپ میں، ہم نے اصل میڈیا فائلوں کو ایک مخصوص میں محفوظ کیا ہے۔ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3) بالٹی۔ اس S3 بالٹی کو ایک ایونٹ کے اخراج کے لیے ترتیب دیا گیا تھا جب اس کے اندر نئی فائلوں کا پتہ چلا، او ڈبلیو ایس لامبڈا۔ فنکشن اس ٹرگر کو ترتیب دینے سے متعلق ہدایات کے لیے، ٹیوٹوریل سے رجوع کریں۔ لیمبڈا فنکشن کو شروع کرنے کے لیے ایمیزون S3 ٹرگر کا استعمال. اس کے بعد، لیمبڈا فنکشن نے سیج میکر اینڈ پوائنٹ کو استعمال کرتے ہوئے اندازہ لگانے کے لیے کہا بوٹو 3 سیج میکر رن ٹائم کلائنٹ.

۔ وسپر ایکس ماڈل، کی بنیاد پر اوپن اے آئی کی سرگوشی، میڈیا اثاثوں کے لئے نقلیں اور ڈائرائزیشن انجام دیتا ہے۔ اس پر بنایا گیا ہے۔ تیز تر سرگوشی دوبارہ لاگو کرنا، Whisper کے مقابلے میں بہتر ورڈ لیول ٹائم اسٹیمپ سیدھ کے ساتھ چار گنا تیز ٹرانسکرپشن کی پیشکش۔ مزید برآں، یہ سپیکر ڈائرائزیشن متعارف کراتا ہے، اصل وسپر ماڈل میں موجود نہیں ہے۔ WhisperX ٹرانسکرپشن کے لیے Whisper ماڈل کا استعمال کرتا ہے، Wav2Vec2 ٹائم اسٹیمپ کی سیدھ کو بڑھانے کے لیے ماڈل (آڈیو ٹائم اسٹیمپ کے ساتھ نقل شدہ متن کی ہم آہنگی کو یقینی بنانا)، اور pyannote ڈائرائزیشن کے لیے ماڈل۔ FFmpeg مختلف کو سپورٹ کرتے ہوئے سورس میڈیا سے آڈیو لوڈ کرنے کے لیے استعمال کیا جاتا ہے۔ میڈیا فارمیٹس شفاف اور ماڈیولر ماڈل فن تعمیر لچک کی اجازت دیتا ہے، کیونکہ ماڈل کے ہر جزو کو مستقبل میں ضرورت کے مطابق تبدیل کیا جا سکتا ہے۔ تاہم، یہ نوٹ کرنا ضروری ہے کہ WhisperX میں مکمل انتظامی خصوصیات کا فقدان ہے اور یہ کوئی انٹرپرائز لیول پروڈکٹ نہیں ہے۔ دیکھ بھال اور مدد کے بغیر، یہ پیداوار کی تعیناتی کے لیے موزوں نہیں ہو سکتا۔

اس تعاون میں، ہم نے SageMaker پر WhisperX کو تعینات کیا اور اس کا جائزہ لیا غیر مطابقت پذیر تخمینہ اختتامی نقطہ ماڈل کی میزبانی کرنے کے لیے۔ SageMaker غیر مطابقت پذیر اختتامی پوائنٹس 1 GB تک اپ لوڈ سائز کو سپورٹ کرتے ہیں اور آٹو اسکیلنگ کی خصوصیات شامل کرتے ہیں جو ٹریفک کے اضافے کو مؤثر طریقے سے کم کرتے ہیں اور آف پیک اوقات کے دوران اخراجات کو بچاتے ہیں۔ غیر مطابقت پذیر اختتامی نقطے خاص طور پر ہمارے استعمال کے معاملے میں بڑی فائلوں، جیسے موویز اور ٹی وی سیریز کی کارروائی کے لیے موزوں ہیں۔

مندرجہ ذیل خاکہ ان تجربات کے بنیادی عناصر کی وضاحت کرتا ہے جو ہم نے اس تعاون میں کیے تھے۔

AI کو معاون ٹیکنالوجی کے طور پر استعمال کرتے ہوئے ڈائرائزیشن کو ہموار کرنا: ZOO ڈیجیٹل کی کہانی | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

مندرجہ ذیل حصوں میں، ہم SageMaker پر WhisperX ماڈل کی تعیناتی کی تفصیلات کا جائزہ لیتے ہیں، اور ڈائرائزیشن کی کارکردگی کا جائزہ لیتے ہیں۔

ماڈل اور اس کے اجزاء ڈاؤن لوڈ کریں۔

WhisperX ایک ایسا نظام ہے جس میں نقل، جبری سیدھ، اور ڈائرائزیشن کے لیے متعدد ماڈلز شامل ہیں۔ تخمینہ کے دوران ماڈل کے نمونے حاصل کرنے کی ضرورت کے بغیر ہموار SageMaker آپریشن کے لیے، تمام ماڈل نمونے پہلے سے ڈاؤن لوڈ کرنا ضروری ہے۔ یہ نمونے پھر شروع کے دوران SageMaker سرونگ کنٹینر میں لوڈ کیے جاتے ہیں۔ چونکہ یہ ماڈل براہ راست قابل رسائی نہیں ہیں، اس لیے ہم WhisperX ماخذ سے تفصیل اور نمونہ کوڈ پیش کرتے ہیں، ماڈل اور اس کے اجزاء کو ڈاؤن لوڈ کرنے کے لیے ہدایات فراہم کرتے ہیں۔

WhisperX چھ ماڈل استعمال کرتا ہے:

ان میں سے زیادہ تر ماڈلز سے حاصل کیے جا سکتے ہیں۔ گلے لگانے والا چہرہ huggingface_hub لائبریری کا استعمال کرتے ہوئے. ہم مندرجہ ذیل استعمال کرتے ہیں۔ download_hf_model() ان ماڈل نمونے کو بازیافت کرنے کا فنکشن۔ Hugging Face سے ایک رسائی ٹوکن، جو مندرجہ ذیل pyannote ماڈلز کے لیے صارف کے معاہدوں کو قبول کرنے کے بعد تیار کیا گیا ہے، درکار ہے۔

import huggingface_hub
import yaml
import torchaudio
import urllib.request
import os CONTAINER_MODEL_DIR = "/opt/ml/model"
WHISPERX_MODEL = "guillaumekln/faster-whisper-large-v2"
VAD_MODEL_URL = "https://whisperx.s3.eu-west-2.amazonaws.com/model_weights/segmentation/0b5b3216d60a2d32fc086b47ea8c67589aaeb26b7e07fcbe620d6d0b83e209ea/pytorch_model.bin"
WAV2VEC2_MODEL = "WAV2VEC2_ASR_BASE_960H"
DIARIZATION_MODEL = "pyannote/speaker-diarization" def download_hf_model(model_name: str, hf_token: str, local_model_dir: str) -> str: """ Fetches the provided model from HuggingFace and returns the subdirectory it is downloaded to :param model_name: HuggingFace model name (and an optional version, appended with @[version]) :param hf_token: HuggingFace access token authorized to access the requested model :param local_model_dir: The local directory to download the model to :return: The subdirectory within local_modeL_dir that the model is downloaded to """ model_subdir = model_name.split('@')[0] huggingface_hub.snapshot_download(model_subdir, token=hf_token, local_dir=f"{local_model_dir}/{model_subdir}", local_dir_use_symlinks=False) return model_subdir

VAD ماڈل Amazon S3 سے حاصل کیا گیا ہے، اور Wav2Vec2 ماڈل torchaudio.pipelines ماڈیول سے حاصل کیا گیا ہے۔ مندرجہ ذیل کوڈ کی بنیاد پر، ہم تمام ماڈلز کے نمونے حاصل کر سکتے ہیں، بشمول Hugging Face سے، اور انہیں مخصوص مقامی ماڈل ڈائریکٹری میں محفوظ کر سکتے ہیں:

def fetch_models(hf_token: str, local_model_dir="./models"): """ Fetches all required models to run WhisperX locally without downloading models every time :param hf_token: A huggingface access token to download the models :param local_model_dir: The directory to download the models to """ # Fetch Faster Whisper's Large V2 model from HuggingFace download_hf_model(model_name=WHISPERX_MODEL, hf_token=hf_token, local_model_dir=local_model_dir) # Fetch WhisperX's VAD Segmentation model from S3 vad_model_dir = "whisperx/vad" if not os.path.exists(f"{local_model_dir}/{vad_model_dir}"): os.makedirs(f"{local_model_dir}/{vad_model_dir}") urllib.request.urlretrieve(VAD_MODEL_URL, f"{local_model_dir}/{vad_model_dir}/pytorch_model.bin") # Fetch the Wav2Vec2 alignment model torchaudio.pipelines.__dict__[WAV2VEC2_MODEL].get_model(dl_kwargs={"model_dir": f"{local_model_dir}/wav2vec2/"}) # Fetch pyannote's Speaker Diarization model from HuggingFace download_hf_model(model_name=DIARIZATION_MODEL, hf_token=hf_token, local_model_dir=local_model_dir) # Read in the Speaker Diarization model config to fetch models and update with their local paths with open(f"{local_model_dir}/{DIARIZATION_MODEL}/config.yaml", 'r') as file: diarization_config = yaml.safe_load(file) embedding_model = diarization_config['pipeline']['params']['embedding'] embedding_model_dir = download_hf_model(model_name=embedding_model, hf_token=hf_token, local_model_dir=local_model_dir) diarization_config['pipeline']['params']['embedding'] = f"{CONTAINER_MODEL_DIR}/{embedding_model_dir}" segmentation_model = diarization_config['pipeline']['params']['segmentation'] segmentation_model_dir = download_hf_model(model_name=segmentation_model, hf_token=hf_token, local_model_dir=local_model_dir) diarization_config['pipeline']['params']['segmentation'] = f"{CONTAINER_MODEL_DIR}/{segmentation_model_dir}/pytorch_model.bin" with open(f"{local_model_dir}/{DIARIZATION_MODEL}/config.yaml", 'w') as file: yaml.safe_dump(diarization_config, file) # Read in the Speaker Embedding model config to update it with its local path speechbrain_hyperparams_path = f"{local_model_dir}/{embedding_model_dir}/hyperparams.yaml" with open(speechbrain_hyperparams_path, 'r') as file: speechbrain_hyperparams = file.read() speechbrain_hyperparams = speechbrain_hyperparams.replace(embedding_model_dir, f"{CONTAINER_MODEL_DIR}/{embedding_model_dir}") with open(speechbrain_hyperparams_path, 'w') as file: file.write(speechbrain_hyperparams)

ماڈل پیش کرنے کے لیے مناسب AWS ڈیپ لرننگ کنٹینر کا انتخاب کریں۔

ماڈل نمونے کو پچھلے نمونہ کوڈ کا استعمال کرتے ہوئے محفوظ کرنے کے بعد، آپ پہلے سے تیار کردہ کو منتخب کر سکتے ہیں۔ AWS ڈیپ لرننگ کنٹینرز (DLCs) درج ذیل سے GitHub repo. ڈوکر امیج کو منتخب کرتے وقت، درج ذیل سیٹنگز پر غور کریں: فریم ورک (ہگنگ فیس)، ٹاسک (انفرنس)، ازگر کا ورژن، اور ہارڈ ویئر (مثال کے طور پر، GPU)۔ ہم مندرجہ ذیل تصویر کو استعمال کرنے کی تجویز کرتے ہیں: 763104351884.dkr.ecr.[REGION].amazonaws.com/huggingface-pytorch-inference:2.0.0-transformers4.28.1-gpu-py310-cu118-ubuntu20.04 اس تصویر میں تمام ضروری سسٹم پیکجز پہلے سے انسٹال ہیں، جیسے ffmpeg۔ [REGION] کو AWS ریجن سے بدلنا یاد رکھیں جسے آپ استعمال کر رہے ہیں۔

دیگر مطلوبہ ازگر پیکجوں کے لیے، ایک بنائیں requirements.txt پیکیجز اور ان کے ورژن کی فہرست کے ساتھ فائل کریں۔ یہ پیکجز اس وقت انسٹال ہوں گے جب AWS DLC بن جائے گا۔ SageMaker پر WhisperX ماڈل کی میزبانی کے لیے درکار اضافی پیکجز درج ذیل ہیں:

faster-whisper==0.7.1 git+https://github.com/m-bain/whisperx.git@1b092de19a1878a8f138f665b1467ca21b076e7e ffmpeg-python

ماڈل لوڈ کرنے اور تخمینہ چلانے کے لیے ایک انفرنس اسکرپٹ بنائیں

اگلا، ہم ایک اپنی مرضی کے مطابق بناتے ہیں inference.py اسکرپٹ اس بات کا خاکہ پیش کرنے کے لیے کہ کس طرح WhisperX ماڈل اور اس کے اجزاء کنٹینر میں لوڈ کیے جاتے ہیں اور انفرنس کے عمل کو کیسے چلایا جانا چاہیے۔ اسکرپٹ دو افعال پر مشتمل ہے: model_fn اور transform_fn. model_fn فنکشن کو ان کے متعلقہ مقامات سے ماڈلز لوڈ کرنے کے لیے کہا جاتا ہے۔ اس کے بعد، ان ماڈلز کو پاس کیا جاتا ہے transform_fn تخمینہ کے دوران فنکشن، جہاں نقل، سیدھ، اور ڈائرائزیشن کے عمل انجام دیے جاتے ہیں۔ مندرجہ ذیل کے لیے کوڈ کا نمونہ ہے۔ inference.py:

import io
import json
import logging
import tempfile
import time import torch
import whisperx DEVICE = 'cuda' if torch.cuda.is_available() else 'cpu' def model_fn(model_dir: str) -> dict: """ Deserialize and return the models """ logging.info("Loading WhisperX model") model = whisperx.load_model(whisper_arch=f"{model_dir}/guillaumekln/faster-whisper-large-v2", device=DEVICE, language="en", compute_type="float16", vad_options={'model_fp': f"{model_dir}/whisperx/vad/pytorch_model.bin"}) logging.info("Loading alignment model") align_model, metadata = whisperx.load_align_model(language_code="en", device=DEVICE, model_name="WAV2VEC2_ASR_BASE_960H", model_dir=f"{model_dir}/wav2vec2") logging.info("Loading diarization model") diarization_model = whisperx.DiarizationPipeline(model_name=f"{model_dir}/pyannote/speaker-diarization/config.yaml", device=DEVICE) return { 'model': model, 'align_model': align_model, 'metadata': metadata, 'diarization_model': diarization_model } def transform_fn(model: dict, request_body: bytes, request_content_type: str, response_content_type="application/json") -> (str, str): """ Load in audio from the request, transcribe and diarize, and return JSON output """ # Start a timer so that we can log how long inference takes start_time = time.time() # Unpack the models whisperx_model = model['model'] align_model = model['align_model'] metadata = model['metadata'] diarization_model = model['diarization_model'] # Load the media file (the request_body as bytes) into a temporary file, then use WhisperX to load the audio from it logging.info("Loading audio") with io.BytesIO(request_body) as file: tfile = tempfile.NamedTemporaryFile(delete=False) tfile.write(file.read()) audio = whisperx.load_audio(tfile.name) # Run transcription logging.info("Transcribing audio") result = whisperx_model.transcribe(audio, batch_size=16) # Align the outputs for better timings logging.info("Aligning outputs") result = whisperx.align(result["segments"], align_model, metadata, audio, DEVICE, return_char_alignments=False) # Run diarization logging.info("Running diarization") diarize_segments = diarization_model(audio) result = whisperx.assign_word_speakers(diarize_segments, result) # Calculate the time it took to perform the transcription and diarization end_time = time.time() elapsed_time = end_time - start_time logging.info(f"Transcription and Diarization took {int(elapsed_time)} seconds") # Return the results to be stored in S3 return json.dumps(result), response_content_type

ماڈل کی ڈائرکٹری کے اندر، کے ساتھ ساتھ requirements.txt فائل کی موجودگی کو یقینی بنائیں inference.py کوڈ سب ڈائرکٹری میں۔ دی models ڈائریکٹری مندرجہ ذیل سے مشابہت ہونی چاہیے:

models
├── code
│ ├── inference.py
│ └── requirements.txt
├── guillaumekln
│ └── faster-whisper-large-v2
├── pyannote
│ ├── segmentation
│ │ └── ...
│ └── speaker-diarization
│ └── ...
├── speechbrain
│ └── spkrec-ecapa-voxceleb
│ └── ...
├── wav2vec2
│ └── ...
└── whisperx └── vad └── ...

ماڈلز کا ٹربال بنائیں

ماڈلز اور کوڈ ڈائریکٹریز بنانے کے بعد، آپ ماڈل کو ٹربال (.tar.gz فائل) میں کمپریس کرنے اور اسے Amazon S3 پر اپ لوڈ کرنے کے لیے درج ذیل کمانڈ لائنوں کا استعمال کر سکتے ہیں۔ لکھنے کے وقت، تیز سرگوشی والے بڑے V2 ماڈل کا استعمال کرتے ہوئے، نتیجے میں سیج میکر ماڈل کی نمائندگی کرنے والا ٹربال 3 جی بی سائز کا ہے۔ مزید معلومات کے لیے رجوع کریں۔ ایمیزون سیج میکر میں ہوسٹنگ کے نمونے، حصہ 2: سیج میکر پر ریئل ٹائم ماڈلز کی تعیناتی کے ساتھ شروعات کرنا.

# Save the model artifacts to the 'model' directory and create a tarball
tar cvzf model.tar.gz -C model/ .
# Upload the model to S3
aws s3 cp model.tar.gz s3://<target_bucket>

ایک SageMaker ماڈل بنائیں اور ایک غیر مطابقت پذیر پیش گو کے ساتھ ایک اختتامی نقطہ تعینات کریں۔

اب آپ SageMaker ماڈل، اینڈ پوائنٹ کنفیگریشن، اور غیر مطابقت پذیر اینڈ پوائنٹ اس کے ساتھ بنا سکتے ہیں۔ AsyncPredictor پچھلے مرحلے میں بنائے گئے ماڈل ٹربال کا استعمال کرتے ہوئے ہدایات کے لیے، رجوع کریں۔ ایک غیر مطابقت پذیر انفرنس اینڈ پوائنٹ بنائیں.

ڈائرائزیشن کی کارکردگی کا اندازہ کریں۔

مختلف منظرناموں میں WhisperX ماڈل کی ڈائرائزیشن کارکردگی کا جائزہ لینے کے لیے، ہم نے دو انگریزی عنوانات میں سے ہر ایک میں تین اقساط کا انتخاب کیا: ایک ڈرامہ کا عنوان جو 30 منٹ کی اقساط پر مشتمل ہے، اور ایک دستاویزی عنوان جو 45 منٹ کی اقساط پر مشتمل ہے۔ ہم نے پیانوٹ کی میٹرکس ٹول کٹ کا استعمال کیا، pyannote.metrics، کا حساب لگانے کے لیے ڈائرائزیشن غلطی کی شرح (DER). تشخیص میں، ZOO کی طرف سے فراہم کردہ دستی طور پر نقل شدہ اور ڈائرائزڈ ٹرانسکرپٹس نے زمینی سچائی کا کام کیا۔

ہم نے DER کی وضاحت اس طرح کی ہے:

کل زمینی سچ ویڈیو کی لمبائی ہے۔ FA (فالس الارم) ان حصوں کی لمبائی ہے جو پیشین گوئیوں میں تقریر کے طور پر سمجھی جاتی ہیں، لیکن زمینی سچائی میں نہیں۔ مس ان حصوں کی لمبائی ہے جو زمینی سچائی میں تقریر کے طور پر سمجھی جاتی ہے، لیکن پیشین گوئی میں نہیں۔ خرابی، بھی کہا جاتا ہے الجھن، سیگمنٹس کی لمبائی ہے جو پیشین گوئی اور زمینی سچائی میں مختلف بولنے والوں کو تفویض کی گئی ہے۔ تمام اکائیوں کو سیکنڈ میں ناپا جاتا ہے۔ DER کی مخصوص قدریں مخصوص ایپلیکیشن، ڈیٹاسیٹ، اور ڈائرائزیشن سسٹم کے معیار کے لحاظ سے مختلف ہو سکتی ہیں۔ نوٹ کریں کہ DER 1.0 سے بڑا ہو سکتا ہے۔ کم DER بہتر ہے۔

میڈیا کے کسی ٹکڑے کے لیے DER کا حساب لگانے کے لیے، زمینی سچائی کی ڈائرائزیشن کے ساتھ ساتھ WhisperX کی نقل شدہ اور ڈائرائزڈ آؤٹ پٹس بھی درکار ہیں۔ ان کا تجزیہ کیا جانا چاہیے اور اس کے نتیجے میں میڈیا میں تقریر کے ہر حصے کے لیے اسپیکر لیبل، اسپیچ سیگمنٹ کے آغاز کا وقت، اور اسپیچ سیگمنٹ کے اختتامی وقت پر مشتمل ٹیپلز کی فہرستیں بنتی ہیں۔ سپیکر کے لیبلز کو WhisperX اور زمینی سچائی ڈائرائزیشن کے درمیان ملنے کی ضرورت نہیں ہے۔ نتائج زیادہ تر طبقات کے وقت پر مبنی ہوتے ہیں۔ pyannote.metrics زمینی سچائی کی ڈائرائزیشن اور آؤٹ پٹ ڈائرائزیشن کے ان ٹیپلز کو لیتا ہے (جس کا حوالہ pyannote.metrics دستاویزات میں کہا گیا ہے حوالہ اور پرختیارپناDER کا حساب لگانے کے لیے۔ مندرجہ ذیل جدول ہمارے نتائج کا خلاصہ کرتا ہے۔

ویڈیو کی قسم	DER	درست	مس	خرابی	جھوٹی الارم
ڈرامہ	0.738	44.80٪	21.80٪	33.30٪	18.70٪
دستاویزی فلم	1.29	94.50٪	5.30٪	0.20٪	123.40٪
اوسط	0.901	71.40٪	13.50٪	15.10٪	61.50٪

یہ نتائج ڈرامہ اور دستاویزی عنوانات کے درمیان نمایاں کارکردگی کے فرق کو ظاہر کرتے ہیں، جس میں ماڈل نے دستاویزی عنوان کے مقابلے ڈرامہ ایپی سوڈز کے لیے نمایاں طور پر بہتر نتائج حاصل کیے (ڈی ای آر کو مجموعی میٹرک کے طور پر استعمال کرتے ہوئے)۔ عنوانات کا قریبی تجزیہ کارکردگی کے اس فرق میں کردار ادا کرنے والے ممکنہ عوامل کے بارے میں بصیرت فراہم کرتا ہے۔ ایک اہم عنصر دستاویزی فلم کے عنوان میں تقریر کے ساتھ پس منظر کی موسیقی کی متواتر موجودگی ہو سکتی ہے۔ اگرچہ ڈائرائزیشن کی درستگی کو بڑھانے کے لیے میڈیا کو پری پروسیسنگ کرنا، جیسے کہ تقریر کو الگ تھلگ کرنے کے لیے پس منظر کے شور کو ہٹانا، اس پروٹو ٹائپ کے دائرہ کار سے باہر تھا، لیکن یہ مستقبل کے کام کے لیے راستے کھولتا ہے جو ممکنہ طور پر WhisperX کی کارکردگی کو بڑھا سکتا ہے۔

نتیجہ

اس پوسٹ میں، ہم نے AWS اور ZOO ڈیجیٹل کے درمیان باہمی تعاون پر مبنی شراکت کی کھوج کی، جس میں ڈائرائزیشن ورک فلو کو بڑھانے کے لیے SageMaker اور WhisperX ماڈل کے ساتھ مشین لرننگ تکنیک کا استعمال کیا گیا۔ AWS ٹیم نے ZOO کی پروٹو ٹائپنگ، تشخیص، اور کسٹم ایم ایل ماڈلز کی مؤثر تعیناتی کو سمجھنے میں اہم کردار ادا کیا، خاص طور پر ڈائرائزیشن کے لیے ڈیزائن کیا گیا ہے۔ اس میں SageMaker کا استعمال کرتے ہوئے اسکیل ایبلٹی کے لیے آٹو اسکیلنگ کو شامل کرنا شامل ہے۔

ڈائرائزیشن کے لیے AI کو استعمال کرنے سے ZOO کے لیے مقامی مواد تیار کرتے وقت لاگت اور وقت دونوں میں خاطر خواہ بچت ہوگی۔ سپیکرز کو تیزی سے اور درست طریقے سے بنانے اور ان کی شناخت کرنے میں ٹرانسکرائبرز کی مدد کرتے ہوئے، یہ ٹیکنالوجی روایتی طور پر وقت گزارنے والے اور غلطی کے شکار کام کی نوعیت کو حل کرتی ہے۔ روایتی عمل میں اکثر غلطیوں کو کم کرنے کے لیے ویڈیو کے ذریعے متعدد پاسز اور اضافی کوالٹی کنٹرول کے اقدامات شامل ہوتے ہیں۔ ڈائرائزیشن کے لیے AI کو اپنانا ایک زیادہ ہدف اور موثر انداز کو قابل بناتا ہے، اس طرح ایک مختصر وقت کے اندر پیداواری صلاحیت میں اضافہ ہوتا ہے۔

ہم نے WhisperX ماڈل کو SageMaker غیر مطابقت پذیر اختتامی نقطہ پر تعینات کرنے کے لیے کلیدی اقدامات کا خاکہ پیش کیا ہے، اور آپ کو فراہم کردہ کوڈ کا استعمال کرتے ہوئے اسے خود آزمانے کی ترغیب دی ہے۔ ZOO ڈیجیٹل کی خدمات اور ٹیکنالوجی کے بارے میں مزید بصیرت کے لیے، ملاحظہ کریں۔ ZOO ڈیجیٹل کی آفیشل سائٹ. سیج میکر پر اوپن اے آئی وِسپر ماڈل کی تعیناتی اور مختلف قیاس کے اختیارات کے بارے میں تفصیلات کے لیے، ملاحظہ کریں ایمیزون سیج میکر پر وسپر ماڈل کی میزبانی کریں: تخمینہ کے اختیارات کی تلاش. تبصرے میں اپنے خیالات کا اشتراک کرنے کے لئے آزاد محسوس کریں.

مصنفین کے بارے میں

ینگ ہو، پی ایچ ڈی، AWS میں مشین لرننگ پروٹو ٹائپنگ آرکیٹیکٹ ہے۔ اس کی دلچسپی کے بنیادی شعبے ڈیپ لرننگ پر محیط ہیں، جن میں GenAI، کمپیوٹر ویژن، NLP، اور ٹائم سیریز ڈیٹا کی پیشن گوئی پر توجہ دی گئی ہے۔ اپنے فارغ وقت میں، وہ اپنے خاندان کے ساتھ معیاری لمحات گزارنے، خود کو ناولوں میں غرق کرنے، اور برطانیہ کے قومی پارکوں میں پیدل سفر کرنے کا مزہ لیتی ہے۔

ایتھن کمبرلینڈ ZOO ڈیجیٹل میں ایک AI ریسرچ انجینئر ہے، جہاں وہ تقریر، زبان اور لوکلائزیشن میں ورک فلو کو بہتر بنانے کے لیے AI اور مشین لرننگ کو معاون ٹیکنالوجی کے طور پر استعمال کرنے پر کام کرتا ہے۔ اس کا پس منظر سافٹ ویئر انجینئرنگ اور سیکیورٹی اور پولیسنگ ڈومین میں تحقیق کا ہے، جو ویب سے ساختی معلومات کو نکالنے پر توجہ مرکوز کرتا ہے اور جمع کردہ ڈیٹا کا تجزیہ کرنے اور ان کی افزودگی کے لیے اوپن سورس ML ماڈلز کا فائدہ اٹھاتا ہے۔

گورو کیلا UK اور آئرلینڈ کے لیے AWS پروٹو ٹائپنگ ٹیم کی قیادت کرتا ہے۔ ان کی ٹیم AWS خدمات کو اپنانے میں تیزی لانے کے مینڈیٹ کے ساتھ کاروبار کے اہم کام کے بوجھ کو آئیڈیٹ کرنے اور تعاون کرنے کے لیے متنوع صنعتوں کے صارفین کے ساتھ کام کرتی ہے۔

SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
ماخذ: https://aws.amazon.com/blogs/machine-learning/streamline-diarization-using-ai-as-an-assistive-technology-zoo-digitals-story/

ٹائم اسٹیمپ: 20 فروری 2024

ٹائم اسٹیمپ: اپریل 4، 2024

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

بہتر تشخیص اور تجزیہ کے لیے Amazon Textract Bulk Document Uploader کا تعارف ایمیزون ویب سروسز

ایمیزون ای کے ایس اور ایمیزون سیج میکر پر اے ڈبلیو ایس تعیناتی پر ایک کلک کیوب فلو کے ساتھ ہائبرڈ ایم ایل ورک فلو کو فعال کرنا

BMC AMI zAdviser Enterprise اور Amazon Bedrock کے ساتھ DevOps کی پختگی حاصل کریں۔ ایمیزون ویب سروسز

AWS Amplify اور Amazon Recognition کے نمونے کے نفاذ کا استعمال کرتے ہوئے اپنے شناخت کی تصدیق کے منصوبوں کو تیز کریں۔

انسانی مداخلت کے ساتھ ایمیزون سیج میکر ماڈل رجسٹری کی منظوری اور پروموشن ورک فلو بنائیں۔ ایمیزون ویب سروسز

ایمیزون سیج میکر کینوس کے ساتھ بغیر کوڈ مشین لرننگ کے لیے 40 سے زیادہ ڈیٹا ذرائع سے ڈیٹا درآمد کریں۔

VPC سپورٹ کے ساتھ Amazon Kendra S3 کنیکٹر کا استعمال کرتے ہوئے درست طریقے سے جوابات تلاش کریں۔

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ