Streamline Diarization Using AI As An Assistive Technology: ZOO Digital’s Story

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

चिड़ियाघर डिजिटल मूल टीवी और मूवी सामग्री को विभिन्न भाषाओं, क्षेत्रों और संस्कृतियों के अनुकूल बनाने के लिए संपूर्ण स्थानीयकरण और मीडिया सेवाएं प्रदान करता है। यह दुनिया के सर्वश्रेष्ठ सामग्री निर्माताओं के लिए वैश्वीकरण को आसान बनाता है। मनोरंजन के सबसे बड़े नामों द्वारा विश्वसनीय, ZOO डिजिटल डबिंग, उपशीर्षक, स्क्रिप्टिंग और अनुपालन सहित बड़े पैमाने पर उच्च गुणवत्ता वाली स्थानीयकरण और मीडिया सेवाएं प्रदान करता है।

विशिष्ट स्थानीयकरण वर्कफ़्लो के लिए मैन्युअल स्पीकर डायराइज़ेशन की आवश्यकता होती है, जिसमें स्पीकर की पहचान के आधार पर एक ऑडियो स्ट्रीम को खंडित किया जाता है। सामग्री को किसी अन्य भाषा में डब करने से पहले इस समय लेने वाली प्रक्रिया को पूरा किया जाना चाहिए। मैन्युअल तरीकों से, 30 मिनट के एपिसोड को स्थानीयकृत होने में 1-3 घंटे का समय लग सकता है। स्वचालन के माध्यम से, ज़ू डिजिटल का लक्ष्य 30 मिनट से कम समय में स्थानीयकरण प्राप्त करना है।

इस पोस्ट में, हम मीडिया सामग्री का उपयोग करने के लिए स्केलेबल मशीन लर्निंग (एमएल) मॉडल को तैनात करने पर चर्चा करते हैं अमेज़न SageMaker, पर ध्यान केंद्रित करने के साथ व्हिस्परएक्स मॉडल.

पृष्ठभूमि

ज़ू डिजिटल का दृष्टिकोण स्थानीयकृत सामग्री का तेजी से बदलाव प्रदान करना है। यह लक्ष्य कुशल लोगों के छोटे कार्यबल द्वारा मिश्रित अभ्यास की मैन्युअल रूप से गहन प्रकृति से बाधित है जो सामग्री को मैन्युअल रूप से स्थानीयकृत कर सकता है। ज़ू डिजिटल 11,000 से अधिक फ्रीलांसरों के साथ काम करता है और अकेले 600 में 2022 मिलियन से अधिक शब्दों का स्थानीयकरण किया है। हालाँकि, सामग्री की बढ़ती मांग के कारण कुशल लोगों की आपूर्ति कम हो रही है, स्थानीयकरण वर्कफ़्लो में सहायता के लिए स्वचालन की आवश्यकता है।

मशीन लर्निंग के माध्यम से सामग्री वर्कफ़्लो के स्थानीयकरण में तेजी लाने के उद्देश्य से, ZOO डिजिटल ने AWS प्रोटोटाइपिंग को शामिल किया, जो ग्राहकों के साथ वर्कलोड के सह-निर्माण के लिए AWS का एक निवेश कार्यक्रम है। यह जुड़ाव स्थानीयकरण प्रक्रिया के लिए एक कार्यात्मक समाधान प्रदान करने पर केंद्रित है, जबकि सेजमेकर पर ज़ू डिजिटल डेवलपर्स को व्यावहारिक प्रशिक्षण प्रदान करता है। Amazon Transcribe, तथा अमेज़न अनुवाद.

ग्राहक चुनौती

एक शीर्षक (एक फिल्म या एक टीवी श्रृंखला का एक एपिसोड) को प्रतिलेखित किए जाने के बाद, भाषण के प्रत्येक खंड के लिए वक्ताओं को नियुक्त किया जाना चाहिए ताकि उन्हें पात्रों को निभाने के लिए चुने गए आवाज कलाकारों को सही ढंग से सौंपा जा सके। इस प्रक्रिया को स्पीकर डायराइजेशन कहा जाता है। ज़ू डिजिटल को आर्थिक रूप से व्यवहार्य होते हुए भी बड़े पैमाने पर सामग्री को व्यवस्थित करने की चुनौती का सामना करना पड़ता है।

समाधान अवलोकन

इस प्रोटोटाइप में, हमने मूल मीडिया फ़ाइलों को एक निर्दिष्ट में संग्रहीत किया है अमेज़न सरल भंडारण सेवा (अमेज़ॅन S3) बाल्टी। इस S3 बकेट को एक इवेंट उत्सर्जित करने के लिए कॉन्फ़िगर किया गया था जब इसके भीतर नई फ़ाइलों का पता लगाया जाता है, जिससे एक ट्रिगर होता है AWS लाम्बा समारोह। इस ट्रिगर को कॉन्फ़िगर करने के निर्देशों के लिए, ट्यूटोरियल देखें लैम्ब्डा फ़ंक्शन को शुरू करने के लिए अमेज़ॅन S3 ट्रिगर का उपयोग करना. इसके बाद, लैम्ब्डा फ़ंक्शन ने अनुमान लगाने के लिए सेजमेकर एंडपॉइंट का आह्वान किया Boto3 सेजमेकर रनटाइम क्लाइंट.

RSI व्हिस्परएक्स मॉडल, पर आधारित OpenAI की कानाफूसी, मीडिया परिसंपत्तियों के लिए प्रतिलेखन और डायरीकरण करता है। यह पर बनाया गया है तेज़ फुसफुसाहट पुन: कार्यान्वयन, व्हिस्पर की तुलना में बेहतर शब्द-स्तरीय टाइमस्टैम्प संरेखण के साथ चार गुना तेज प्रतिलेखन की पेशकश करता है। इसके अतिरिक्त, यह स्पीकर डायराइजेशन का परिचय देता है, जो मूल व्हिस्पर मॉडल में मौजूद नहीं है। व्हिस्परएक्स ट्रांसक्रिप्शन के लिए व्हिस्पर मॉडल का उपयोग करता है Wav2Vec2 टाइमस्टैम्प संरेखण को बढ़ाने के लिए मॉडल (ऑडियो टाइमस्टैम्प के साथ लिखित पाठ का सिंक्रनाइज़ेशन सुनिश्चित करना), और piannote डायरीकरण के लिए मॉडल. FFmpeg विभिन्न का समर्थन करते हुए, स्रोत मीडिया से ऑडियो लोड करने के लिए उपयोग किया जाता है मीडिया प्रारूप. पारदर्शी और मॉड्यूलर मॉडल आर्किटेक्चर लचीलेपन की अनुमति देता है, क्योंकि मॉडल के प्रत्येक घटक को भविष्य में आवश्यकतानुसार बदला जा सकता है। हालाँकि, यह ध्यान रखना आवश्यक है कि व्हिस्परएक्स में पूर्ण प्रबंधन सुविधाओं का अभाव है और यह एंटरप्राइज़-स्तरीय उत्पाद नहीं है। रखरखाव और समर्थन के बिना, यह उत्पादन परिनियोजन के लिए उपयुक्त नहीं हो सकता है।

इस सहयोग में, हमने एक का उपयोग करके सेजमेकर पर व्हिस्परएक्स को तैनात और मूल्यांकन किया अतुल्यकालिक अनुमान समापन बिंदु मॉडल को होस्ट करने के लिए. सेजमेकर एसिंक्रोनस एंडपॉइंट 1 जीबी तक अपलोड आकार का समर्थन करता है और इसमें ऑटो स्केलिंग सुविधाएं शामिल होती हैं जो ट्रैफिक स्पाइक्स को कुशलतापूर्वक कम करती हैं और ऑफ-पीक समय के दौरान लागत बचाती हैं। हमारे उपयोग के मामले में एसिंक्रोनस एंडपॉइंट बड़ी फ़ाइलों, जैसे फिल्मों और टीवी श्रृंखला को संसाधित करने के लिए विशेष रूप से उपयुक्त हैं।

निम्नलिखित चित्र इस सहयोग में हमारे द्वारा किए गए प्रयोगों के मुख्य तत्वों को दर्शाता है।

Streamline diarization using AI as an assistive technology: ZOO Digital’s story | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

निम्नलिखित अनुभागों में, हम सेजमेकर पर व्हिस्परएक्स मॉडल को तैनात करने के विवरण में उतरेंगे, और डायराइजेशन प्रदर्शन का मूल्यांकन करेंगे।

मॉडल और उसके घटकों को डाउनलोड करें

व्हिस्परएक्स एक ऐसी प्रणाली है जिसमें ट्रांसक्रिप्शन, फोर्स्ड अलाइनमेंट और डायराइजेशन के लिए कई मॉडल शामिल हैं। अनुमान के दौरान मॉडल कलाकृतियों को लाने की आवश्यकता के बिना सेजमेकर के सुचारू संचालन के लिए, सभी मॉडल कलाकृतियों को पहले से डाउनलोड करना आवश्यक है। फिर इन कलाकृतियों को दीक्षा के दौरान सेजमेकर सर्विंग कंटेनर में लोड किया जाता है। क्योंकि ये मॉडल सीधे पहुंच योग्य नहीं हैं, हम व्हिस्परएक्स स्रोत से विवरण और नमूना कोड प्रदान करते हैं, जो मॉडल और उसके घटकों को डाउनलोड करने के निर्देश प्रदान करते हैं।

व्हिस्परएक्स छह मॉडल का उपयोग करता है:

इनमें से अधिकांश मॉडल यहां से प्राप्त किए जा सकते हैं गले लगना हगिंगफेस_हब लाइब्रेरी का उपयोग करना। हम निम्नलिखित का उपयोग करते हैं download_hf_model() इन मॉडल कलाकृतियों को पुनः प्राप्त करने का कार्य। निम्नलिखित पायनोट मॉडल के लिए उपयोगकर्ता समझौतों को स्वीकार करने के बाद उत्पन्न हगिंग फेस से एक एक्सेस टोकन आवश्यक है:

import huggingface_hub
import yaml
import torchaudio
import urllib.request
import os CONTAINER_MODEL_DIR = "/opt/ml/model"
WHISPERX_MODEL = "guillaumekln/faster-whisper-large-v2"
VAD_MODEL_URL = "https://whisperx.s3.eu-west-2.amazonaws.com/model_weights/segmentation/0b5b3216d60a2d32fc086b47ea8c67589aaeb26b7e07fcbe620d6d0b83e209ea/pytorch_model.bin"
WAV2VEC2_MODEL = "WAV2VEC2_ASR_BASE_960H"
DIARIZATION_MODEL = "pyannote/speaker-diarization" def download_hf_model(model_name: str, hf_token: str, local_model_dir: str) -> str: """ Fetches the provided model from HuggingFace and returns the subdirectory it is downloaded to :param model_name: HuggingFace model name (and an optional version, appended with @[version]) :param hf_token: HuggingFace access token authorized to access the requested model :param local_model_dir: The local directory to download the model to :return: The subdirectory within local_modeL_dir that the model is downloaded to """ model_subdir = model_name.split('@')[0] huggingface_hub.snapshot_download(model_subdir, token=hf_token, local_dir=f"{local_model_dir}/{model_subdir}", local_dir_use_symlinks=False) return model_subdir

VAD मॉडल Amazon S3 से प्राप्त किया गया है, और Wav2Vec2 मॉडल torchaudio.pipelines मॉड्यूल से पुनर्प्राप्त किया गया है। निम्नलिखित कोड के आधार पर, हम हगिंग फेस सहित सभी मॉडलों की कलाकृतियों को पुनः प्राप्त कर सकते हैं, और उन्हें निर्दिष्ट स्थानीय मॉडल निर्देशिका में सहेज सकते हैं:

def fetch_models(hf_token: str, local_model_dir="./models"): """ Fetches all required models to run WhisperX locally without downloading models every time :param hf_token: A huggingface access token to download the models :param local_model_dir: The directory to download the models to """ # Fetch Faster Whisper's Large V2 model from HuggingFace download_hf_model(model_name=WHISPERX_MODEL, hf_token=hf_token, local_model_dir=local_model_dir) # Fetch WhisperX's VAD Segmentation model from S3 vad_model_dir = "whisperx/vad" if not os.path.exists(f"{local_model_dir}/{vad_model_dir}"): os.makedirs(f"{local_model_dir}/{vad_model_dir}") urllib.request.urlretrieve(VAD_MODEL_URL, f"{local_model_dir}/{vad_model_dir}/pytorch_model.bin") # Fetch the Wav2Vec2 alignment model torchaudio.pipelines.__dict__[WAV2VEC2_MODEL].get_model(dl_kwargs={"model_dir": f"{local_model_dir}/wav2vec2/"}) # Fetch pyannote's Speaker Diarization model from HuggingFace download_hf_model(model_name=DIARIZATION_MODEL, hf_token=hf_token, local_model_dir=local_model_dir) # Read in the Speaker Diarization model config to fetch models and update with their local paths with open(f"{local_model_dir}/{DIARIZATION_MODEL}/config.yaml", 'r') as file: diarization_config = yaml.safe_load(file) embedding_model = diarization_config['pipeline']['params']['embedding'] embedding_model_dir = download_hf_model(model_name=embedding_model, hf_token=hf_token, local_model_dir=local_model_dir) diarization_config['pipeline']['params']['embedding'] = f"{CONTAINER_MODEL_DIR}/{embedding_model_dir}" segmentation_model = diarization_config['pipeline']['params']['segmentation'] segmentation_model_dir = download_hf_model(model_name=segmentation_model, hf_token=hf_token, local_model_dir=local_model_dir) diarization_config['pipeline']['params']['segmentation'] = f"{CONTAINER_MODEL_DIR}/{segmentation_model_dir}/pytorch_model.bin" with open(f"{local_model_dir}/{DIARIZATION_MODEL}/config.yaml", 'w') as file: yaml.safe_dump(diarization_config, file) # Read in the Speaker Embedding model config to update it with its local path speechbrain_hyperparams_path = f"{local_model_dir}/{embedding_model_dir}/hyperparams.yaml" with open(speechbrain_hyperparams_path, 'r') as file: speechbrain_hyperparams = file.read() speechbrain_hyperparams = speechbrain_hyperparams.replace(embedding_model_dir, f"{CONTAINER_MODEL_DIR}/{embedding_model_dir}") with open(speechbrain_hyperparams_path, 'w') as file: file.write(speechbrain_hyperparams)

मॉडल परोसने के लिए उपयुक्त AWS डीप लर्निंग कंटेनर का चयन करें

पूर्ववर्ती नमूना कोड का उपयोग करके मॉडल कलाकृतियों को सहेजे जाने के बाद, आप पूर्व-निर्मित चुन सकते हैं AWS डीप लर्निंग कंटेनर (डीएलसी) निम्नलिखित से गीथहब रेपो. डॉकर छवि का चयन करते समय, निम्नलिखित सेटिंग्स पर विचार करें: फ्रेमवर्क (हगिंग फेस), कार्य (अनुमान), पायथन संस्करण, और हार्डवेयर (उदाहरण के लिए, जीपीयू)। हम निम्नलिखित छवि का उपयोग करने की अनुशंसा करते हैं: 763104351884.dkr.ecr.[REGION].amazonaws.com/huggingface-pytorch-inference:2.0.0-transformers4.28.1-gpu-py310-cu118-ubuntu20.04 इस छवि में सभी आवश्यक सिस्टम पैकेज पहले से इंस्टॉल हैं, जैसे कि ffmpeg। [क्षेत्र] को आपके द्वारा उपयोग किए जा रहे AWS क्षेत्र से बदलना याद रखें।

अन्य आवश्यक पायथन पैकेजों के लिए, एक बनाएं requirements.txt पैकेजों और उनके संस्करणों की सूची वाली फ़ाइल। AWS DLC बनने पर ये पैकेज इंस्टॉल किए जाएंगे। सेजमेकर पर व्हिस्परएक्स मॉडल को होस्ट करने के लिए आवश्यक अतिरिक्त पैकेज निम्नलिखित हैं:

faster-whisper==0.7.1 git+https://github.com/m-bain/whisperx.git@1b092de19a1878a8f138f665b1467ca21b076e7e ffmpeg-python

मॉडलों को लोड करने और अनुमान चलाने के लिए एक अनुमान स्क्रिप्ट बनाएं

इसके बाद, हम एक कस्टम बनाते हैं inference.py व्हिस्परएक्स मॉडल और उसके घटकों को कंटेनर में कैसे लोड किया जाता है और अनुमान प्रक्रिया को कैसे चलाया जाना चाहिए, इसकी रूपरेखा तैयार करने के लिए स्क्रिप्ट। स्क्रिप्ट में दो कार्य हैं: model_fn और transform_fn। model_fn मॉडलों को उनके संबंधित स्थानों से लोड करने के लिए फ़ंक्शन को लागू किया जाता है। इसके बाद, इन मॉडलों को पास कर दिया जाता है transform_fn अनुमान के दौरान कार्य, जहां प्रतिलेखन, संरेखण और डायराइजेशन प्रक्रियाएं निष्पादित की जाती हैं। निम्नलिखित के लिए एक कोड नमूना है inference.py:

import io
import json
import logging
import tempfile
import time import torch
import whisperx DEVICE = 'cuda' if torch.cuda.is_available() else 'cpu' def model_fn(model_dir: str) -> dict: """ Deserialize and return the models """ logging.info("Loading WhisperX model") model = whisperx.load_model(whisper_arch=f"{model_dir}/guillaumekln/faster-whisper-large-v2", device=DEVICE, language="en", compute_type="float16", vad_options={'model_fp': f"{model_dir}/whisperx/vad/pytorch_model.bin"}) logging.info("Loading alignment model") align_model, metadata = whisperx.load_align_model(language_code="en", device=DEVICE, model_name="WAV2VEC2_ASR_BASE_960H", model_dir=f"{model_dir}/wav2vec2") logging.info("Loading diarization model") diarization_model = whisperx.DiarizationPipeline(model_name=f"{model_dir}/pyannote/speaker-diarization/config.yaml", device=DEVICE) return { 'model': model, 'align_model': align_model, 'metadata': metadata, 'diarization_model': diarization_model } def transform_fn(model: dict, request_body: bytes, request_content_type: str, response_content_type="application/json") -> (str, str): """ Load in audio from the request, transcribe and diarize, and return JSON output """ # Start a timer so that we can log how long inference takes start_time = time.time() # Unpack the models whisperx_model = model['model'] align_model = model['align_model'] metadata = model['metadata'] diarization_model = model['diarization_model'] # Load the media file (the request_body as bytes) into a temporary file, then use WhisperX to load the audio from it logging.info("Loading audio") with io.BytesIO(request_body) as file: tfile = tempfile.NamedTemporaryFile(delete=False) tfile.write(file.read()) audio = whisperx.load_audio(tfile.name) # Run transcription logging.info("Transcribing audio") result = whisperx_model.transcribe(audio, batch_size=16) # Align the outputs for better timings logging.info("Aligning outputs") result = whisperx.align(result["segments"], align_model, metadata, audio, DEVICE, return_char_alignments=False) # Run diarization logging.info("Running diarization") diarize_segments = diarization_model(audio) result = whisperx.assign_word_speakers(diarize_segments, result) # Calculate the time it took to perform the transcription and diarization end_time = time.time() elapsed_time = end_time - start_time logging.info(f"Transcription and Diarization took {int(elapsed_time)} seconds") # Return the results to be stored in S3 return json.dumps(result), response_content_type

मॉडल की निर्देशिका के भीतर, के साथ requirements.txt फ़ाइल, की उपस्थिति सुनिश्चित करें inference.py एक कोड उपनिर्देशिका में। models निर्देशिका निम्नलिखित के समान होनी चाहिए:

models
├── code
│ ├── inference.py
│ └── requirements.txt
├── guillaumekln
│ └── faster-whisper-large-v2
├── pyannote
│ ├── segmentation
│ │ └── ...
│ └── speaker-diarization
│ └── ...
├── speechbrain
│ └── spkrec-ecapa-voxceleb
│ └── ...
├── wav2vec2
│ └── ...
└── whisperx └── vad └── ...

मॉडलों का एक टारबॉल बनाएं

मॉडल और कोड निर्देशिका बनाने के बाद, आप मॉडल को टारबॉल (.tar.gz फ़ाइल) में संपीड़ित करने और इसे अमेज़ॅन S3 पर अपलोड करने के लिए निम्न कमांड लाइन का उपयोग कर सकते हैं। लेखन के समय, तेज़-फुसफुसाने वाले बड़े V2 मॉडल का उपयोग करते हुए, सेजमेकर मॉडल का प्रतिनिधित्व करने वाला परिणामी टारबॉल आकार में 3 जीबी है। अधिक जानकारी के लिए देखें Amazon SageMaker, भाग 2 में मॉडल होस्टिंग पैटर्न: SageMaker पर रियल टाइम मॉडल को तैनात करने के साथ शुरुआत करना.

# Save the model artifacts to the 'model' directory and create a tarball
tar cvzf model.tar.gz -C model/ .
# Upload the model to S3
aws s3 cp model.tar.gz s3://<target_bucket>

एक सेजमेकर मॉडल बनाएं और एक एसिंक्रोनस प्रेडिक्टर के साथ एक एंडपॉइंट तैनात करें

अब आप सेजमेकर मॉडल, एंडपॉइंट कॉन्फ़िगरेशन और एसिंक्रोनस एंडपॉइंट बना सकते हैं AsyncPredictor पिछले चरण में बनाए गए मॉडल टारबॉल का उपयोग करना। निर्देशों के लिए, देखें एक अतुल्यकालिक निष्कर्ष समापन बिंदु बनाएँ.

डायराइजेशन प्रदर्शन का मूल्यांकन करें

विभिन्न परिदृश्यों में व्हिस्परएक्स मॉडल के डायराइजेशन प्रदर्शन का आकलन करने के लिए, हमने दो अंग्रेजी शीर्षकों में से प्रत्येक में से तीन एपिसोड का चयन किया: एक नाटक शीर्षक जिसमें 30 मिनट के एपिसोड शामिल हैं, और एक वृत्तचित्र शीर्षक जिसमें 45 मिनट के एपिसोड शामिल हैं। हमने पायनोट के मेट्रिक्स टूलकिट का उपयोग किया, pyannote.metrics, गणना करने के लिए डायराइजेशन त्रुटि दर (डीईआर). मूल्यांकन में, चिड़ियाघर द्वारा प्रदान की गई मैन्युअल रूप से लिखित और डायरीकृत प्रतिलेखों को जमीनी सच्चाई के रूप में प्रस्तुत किया गया।

हमने डीईआर को इस प्रकार परिभाषित किया है:

Streamline diarization using AI as an assistive technology: ZOO Digital’s story | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

कुल जमीनी सच्चाई वाले वीडियो की लंबाई इतनी है। FA (झूठा अलार्म) उन खंडों की लंबाई है जिन्हें भविष्यवाणियों में भाषण के रूप में माना जाता है, लेकिन जमीनी सच्चाई में नहीं। कुमारी र उन खंडों की लंबाई है जिन्हें जमीनी सच्चाई में भाषण के रूप में माना जाता है, लेकिन भविष्यवाणी में नहीं। त्रुटिभी कहा जाता है भ्रांति, खंडों की लंबाई है जो भविष्यवाणी और जमीनी सच्चाई में विभिन्न वक्ताओं को सौंपी गई है। सभी इकाइयों को सेकंड में मापा जाता है। डीईआर के लिए विशिष्ट मान विशिष्ट एप्लिकेशन, डेटासेट और डायराइजेशन सिस्टम की गुणवत्ता के आधार पर भिन्न हो सकते हैं। ध्यान दें कि DER 1.0 से बड़ा हो सकता है। कम DER बेहतर है.

मीडिया के एक टुकड़े के लिए डीईआर की गणना करने में सक्षम होने के लिए, जमीनी सच्चाई डायराइजेशन के साथ-साथ व्हिस्परएक्स ट्रांसक्राइब्ड और डायराइज्ड आउटपुट की आवश्यकता होती है। इन्हें पार्स किया जाना चाहिए और मीडिया में भाषण के प्रत्येक खंड के लिए स्पीकर लेबल, भाषण खंड प्रारंभ समय और भाषण खंड समाप्ति समय वाले टुपल्स की सूची में परिणामित होना चाहिए। स्पीकर लेबल को व्हिस्परएक्स और जमीनी सच्चाई डायराइजेशन के बीच मेल खाने की आवश्यकता नहीं है। परिणाम अधिकतर खंडों के समय पर आधारित होते हैं। pyannote.metrics जमीनी सच्चाई डायराइजेशन और आउटपुट डायराइजेशन के इन टुपल्स को लेता है (pyannote.metrics दस्तावेज़ में संदर्भित) संदर्भ और परिकल्पना) डीईआर की गणना करने के लिए। निम्न तालिका हमारे परिणामों का सारांश प्रस्तुत करती है।

वीडियो प्रकार	डीईआर	सही बात	कुमारी र	त्रुटि	झूठी चेतावनी
नाटक	0.738	44.80% तक	21.80% तक	33.30% तक	18.70% तक
वृत्तचित्र	1.29	94.50% तक	5.30% तक	0.20% तक	123.40% तक
औसत	0.901	71.40% तक	13.50% तक	15.10% तक	61.50% तक

इन परिणामों से नाटक और वृत्तचित्र शीर्षकों के बीच एक महत्वपूर्ण प्रदर्शन अंतर का पता चलता है, जिसमें मॉडल वृत्तचित्र शीर्षक की तुलना में नाटक एपिसोड के लिए उल्लेखनीय रूप से बेहतर परिणाम (एक समग्र मीट्रिक के रूप में डीईआर का उपयोग करके) प्राप्त कर रहा है। शीर्षकों का बारीकी से विश्लेषण इस प्रदर्शन अंतर में योगदान देने वाले संभावित कारकों की अंतर्दृष्टि प्रदान करता है। एक प्रमुख कारक डॉक्यूमेंट्री शीर्षक में भाषण के साथ पृष्ठभूमि संगीत की लगातार उपस्थिति हो सकती है। हालांकि डायराइजेशन सटीकता को बढ़ाने के लिए प्रीप्रोसेसिंग मीडिया, जैसे कि भाषण को अलग करने के लिए पृष्ठभूमि शोर को हटाना, इस प्रोटोटाइप के दायरे से परे था, यह भविष्य के काम के लिए रास्ते खोलता है जो संभावित रूप से व्हिस्परएक्स के प्रदर्शन को बढ़ा सकता है।

निष्कर्ष

इस पोस्ट में, हमने AWS और ZOO डिजिटल के बीच सहयोगात्मक साझेदारी का पता लगाया, डायराइजेशन वर्कफ़्लो को बढ़ाने के लिए सेजमेकर और व्हिस्परएक्स मॉडल के साथ मशीन लर्निंग तकनीकों को नियोजित किया। AWS टीम ने विशेष रूप से डायराइजेशन के लिए डिज़ाइन किए गए कस्टम एमएल मॉडल की प्रभावी तैनाती को प्रोटोटाइप करने, मूल्यांकन करने और समझने में ZOO की सहायता करने में महत्वपूर्ण भूमिका निभाई। इसमें सेजमेकर का उपयोग करके स्केलेबिलिटी के लिए ऑटो स्केलिंग को शामिल करना शामिल था।

डायरीकरण के लिए एआई का उपयोग करने से चिड़ियाघर के लिए स्थानीयकृत सामग्री तैयार करते समय लागत और समय दोनों में पर्याप्त बचत होगी। तेजी से और सटीक रूप से स्पीकर बनाने और पहचानने में प्रतिलेखकों की सहायता करके, यह तकनीक कार्य की पारंपरिक रूप से समय लेने वाली और त्रुटि-प्रवण प्रकृति को संबोधित करती है। पारंपरिक प्रक्रिया में अक्सर त्रुटियों को कम करने के लिए वीडियो के माध्यम से कई बार गुजरना और अतिरिक्त गुणवत्ता नियंत्रण चरण शामिल होते हैं। डायराइजेशन के लिए एआई को अपनाने से अधिक लक्षित और कुशल दृष्टिकोण संभव हो जाता है, जिससे कम समय सीमा के भीतर उत्पादकता में वृद्धि होती है।

हमने सेजमेकर एसिंक्रोनस एंडपॉइंट पर व्हिस्परएक्स मॉडल को तैनात करने के लिए महत्वपूर्ण चरणों की रूपरेखा तैयार की है, और आपको दिए गए कोड का उपयोग करके इसे स्वयं आज़माने के लिए प्रोत्साहित किया है। ज़ू डिजिटल की सेवाओं और प्रौद्योगिकी के बारे में अधिक जानकारी के लिए, यहाँ जाएँ चिड़ियाघर डिजिटल की आधिकारिक साइट. सेजमेकर पर ओपनएआई व्हिस्पर मॉडल को तैनात करने और विभिन्न अनुमान विकल्पों के विवरण के लिए, देखें अमेज़ॅन सेजमेकर पर व्हिस्पर मॉडल होस्ट करें: अनुमान विकल्प तलाशना. बेझिझक अपने विचार टिप्पणियों में साझा करें।

लेखक के बारे में

यिंग होउ, पीएचडी, AWS में मशीन लर्निंग प्रोटोटाइपिंग आर्किटेक्ट हैं। उनकी रुचि के प्राथमिक क्षेत्रों में जेनएआई, कंप्यूटर विजन, एनएलपी और समय श्रृंखला डेटा भविष्यवाणी पर ध्यान देने के साथ डीप लर्निंग शामिल है। अपने खाली समय में, वह अपने परिवार के साथ अच्छे पल बिताना, उपन्यासों में डूबना और यूके के राष्ट्रीय उद्यानों में घूमना पसंद करती हैं।

एथन कंबरलैंड ज़ू डिजिटल में एक एआई रिसर्च इंजीनियर हैं, जहां वह भाषण, भाषा और स्थानीयकरण में वर्कफ़्लो को बेहतर बनाने के लिए सहायक प्रौद्योगिकियों के रूप में एआई और मशीन लर्निंग का उपयोग करने पर काम करते हैं। उनके पास सुरक्षा और पुलिसिंग क्षेत्र में सॉफ्टवेयर इंजीनियरिंग और अनुसंधान की पृष्ठभूमि है, जो वेब से संरचित जानकारी निकालने और एकत्रित डेटा का विश्लेषण और समृद्ध करने के लिए ओपन-सोर्स एमएल मॉडल का लाभ उठाने पर ध्यान केंद्रित करते हैं।

गौरव कैला यूके और आयरलैंड के लिए AWS प्रोटोटाइपिंग टीम का नेतृत्व करता है। उनकी टीम AWS सेवाओं को अपनाने में तेजी लाने के उद्देश्य से व्यावसायिक महत्वपूर्ण कार्यभार पर विचार करने और सह-विकास करने के लिए विभिन्न उद्योगों में ग्राहकों के साथ काम करती है।