Βελτιώστε την Diarization χρησιμοποιώντας την τεχνητή νοημοσύνη ως βοηθητική τεχνολογία: ZOO Digital's Story

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

ZOO Digital παρέχει υπηρεσίες τοπικής προσαρμογής και πολυμέσων από άκρο σε άκρο για την προσαρμογή του πρωτότυπου περιεχομένου τηλεόρασης και ταινιών σε διαφορετικές γλώσσες, περιοχές και πολιτισμούς. Διευκολύνει την παγκοσμιοποίηση για τους καλύτερους δημιουργούς περιεχομένου στον κόσμο. Έμπιστος από τα μεγαλύτερα ονόματα της ψυχαγωγίας, το ZOO Digital παρέχει υψηλής ποιότητας υπηρεσίες τοπικής προσαρμογής και πολυμέσων σε κλίμακα, όπως μεταγλώττιση, υποτιτλισμό, σενάριο και συμμόρφωση.

Οι τυπικές ροές εργασίας τοπικής προσαρμογής απαιτούν χειροκίνητη diarization ηχείων, όπου μια ροή ήχου τμηματοποιείται με βάση την ταυτότητα του ηχείου. Αυτή η χρονοβόρα διαδικασία πρέπει να ολοκληρωθεί πριν το περιεχόμενο μπορεί να μεταγλωττιστεί σε άλλη γλώσσα. Με τις μη αυτόματες μεθόδους, ένα επεισόδιο διάρκειας 30 λεπτών μπορεί να διαρκέσει από 1 έως 3 ώρες για να εντοπιστεί. Μέσω της αυτοματοποίησης, η ZOO Digital στοχεύει να επιτύχει εντοπισμό σε λιγότερο από 30 λεπτά.

Σε αυτήν την ανάρτηση, συζητάμε την ανάπτυξη κλιμακούμενων μοντέλων μηχανικής εκμάθησης (ML) για την ημερολογιακή χρήση περιεχομένου πολυμέσων Amazon Sage Maker, με έμφαση στο WhisperX μοντέλο.

Ιστορικό

Το όραμα της ZOO Digital είναι να παρέχει ταχύτερη αλλαγή τοπικού περιεχομένου. Αυτός ο στόχος περιορίζεται από τη χειρωνακτική εντατική φύση της άσκησης που επιδεινώνεται από το μικρό εργατικό δυναμικό των ειδικευμένων ατόμων που μπορούν να τοποποιήσουν το περιεχόμενο χειροκίνητα. Το ZOO Digital συνεργάζεται με περισσότερους από 11,000 ελεύθερους επαγγελματίες και τοπικοποίησε πάνω από 600 εκατομμύρια λέξεις μόνο το 2022. Ωστόσο, η προσφορά ειδικευμένων ατόμων ξεπερνιέται από την αυξανόμενη ζήτηση για περιεχόμενο, που απαιτεί αυτοματοποίηση για να βοηθήσει στις ροές εργασιών τοπικής προσαρμογής.

Με στόχο την επιτάχυνση της τοπικής προσαρμογής των ροών εργασίας περιεχομένου μέσω της μηχανικής εκμάθησης, η ZOO Digital δέσμευσε το AWS Prototyping, ένα επενδυτικό πρόγραμμα της AWS για την από κοινού δημιουργία φόρτου εργασίας με πελάτες. Η δέσμευση επικεντρώθηκε στην παροχή μιας λειτουργικής λύσης για τη διαδικασία τοπικής προσαρμογής, παρέχοντας παράλληλα πρακτική εκπαίδευση σε προγραμματιστές ZOO Digital στο SageMaker, Μεταγραφή Amazon, να Amazon Μετάφραση.

Πρόκληση πελάτη

Μετά τη μεταγραφή ενός τίτλου (μιας ταινίας ή ενός επεισοδίου μιας τηλεοπτικής σειράς), οι ομιλητές πρέπει να αντιστοιχιστούν σε κάθε τμήμα της ομιλίας, ώστε να μπορούν να αντιστοιχιστούν σωστά στους καλλιτέχνες φωνής που καλούνται να παίξουν τους χαρακτήρες. Αυτή η διαδικασία ονομάζεται diarization ομιλητών. Η ZOO Digital αντιμετωπίζει την πρόκληση της ημερολογιακής παραγωγής περιεχομένου σε κλίμακα ενώ είναι οικονομικά βιώσιμη.

Επισκόπηση λύσεων

Σε αυτό το πρωτότυπο, αποθηκεύσαμε τα αρχικά αρχεία πολυμέσων σε ένα καθορισμένο Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) κάδος. Αυτός ο κάδος S3 διαμορφώθηκε για να εκπέμπει ένα συμβάν όταν εντοπίζονται νέα αρχεία μέσα σε αυτόν, ενεργοποιώντας ένα AWS Lambda λειτουργία. Για οδηγίες σχετικά με τη διαμόρφωση αυτής της σκανδάλης, ανατρέξτε στον οδηγό Χρησιμοποιώντας μια σκανδάλη Amazon S3 για την κλήση μιας συνάρτησης Lambda. Στη συνέχεια, η συνάρτηση Lambda επικαλέστηκε το τελικό σημείο του SageMaker για συμπέρασμα χρησιμοποιώντας το Πελάτης Boto3 SageMaker Runtime.

Η WhisperX μοντέλο, με βάση Ο Whisper του OpenAI, εκτελεί μεταγραφές και ημερολογίες για στοιχεία μέσων. Είναι χτισμένο πάνω στο Ταχύτερος Ψίθυρος εκ νέου υλοποίηση, προσφέροντας έως και τέσσερις φορές ταχύτερη μεταγραφή με βελτιωμένη στοίχιση χρονικής σήμανσης σε επίπεδο λέξης σε σύγκριση με το Whisper. Επιπρόσθετα, εισάγει τη ρύθμιση ηχείων, που δεν υπάρχει στο αρχικό μοντέλο Whisper. Το WhisperX χρησιμοποιεί το μοντέλο Whisper για μεταγραφές, το Wav2Vec2 μοντέλο για τη βελτίωση της ευθυγράμμισης χρονικών σφραγίδων (διασφάλιση συγχρονισμού του μεταγραμμένου κειμένου με ηχητικές χρονικές σημάνσεις) και πυανότο μοντέλο για diarization. FFmpeg χρησιμοποιείται για τη φόρτωση ήχου από μέσα πηγής, υποστηρίζοντας διάφορα μορφές πολυμέσων. Η διαφανής και αρθρωτή αρχιτεκτονική του μοντέλου επιτρέπει ευελιξία, επειδή κάθε στοιχείο του μοντέλου μπορεί να αντικατασταθεί όπως απαιτείται στο μέλλον. Ωστόσο, είναι σημαντικό να σημειωθεί ότι το WhisperX δεν διαθέτει πλήρεις δυνατότητες διαχείρισης και δεν είναι προϊόν σε επίπεδο επιχείρησης. Χωρίς συντήρηση και υποστήριξη, ενδέχεται να μην είναι κατάλληλο για ανάπτυξη παραγωγής.

Σε αυτήν τη συνεργασία, αναπτύξαμε και αξιολογήσαμε το WhisperX στο SageMaker, χρησιμοποιώντας ένα ασύγχρονο τελικό σημείο συμπερασμάτων για να φιλοξενήσει το μοντέλο. Τα ασύγχρονα τελικά σημεία του SageMaker υποστηρίζουν μεγέθη μεταφόρτωσης έως και 1 GB και ενσωματώνουν λειτουργίες αυτόματης κλιμάκωσης που μετριάζουν αποτελεσματικά τις αυξήσεις της κυκλοφορίας και εξοικονομούν κόστος σε περιόδους εκτός αιχμής. Τα ασύγχρονα τελικά σημεία είναι ιδιαίτερα κατάλληλα για την επεξεργασία μεγάλων αρχείων, όπως ταινίες και τηλεοπτικές σειρές στην περίπτωση χρήσης μας.

Το παρακάτω διάγραμμα απεικονίζει τα βασικά στοιχεία των πειραμάτων που πραγματοποιήσαμε σε αυτή τη συνεργασία.

Βελτιώστε τη διάκριση χρησιμοποιώντας την τεχνητή νοημοσύνη ως βοηθητική τεχνολογία: Η ιστορία του ZOO Digital | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Στις επόμενες ενότητες, εμβαθύνουμε στις λεπτομέρειες της ανάπτυξης του μοντέλου WhisperX στο SageMaker και αξιολογούμε την απόδοση της διάκρισης.

Κατεβάστε το μοντέλο και τα στοιχεία του

Το WhisperX είναι ένα σύστημα που περιλαμβάνει πολλαπλά μοντέλα για μεταγραφή, αναγκαστική ευθυγράμμιση και διάκριση. Για ομαλή λειτουργία του SageMaker χωρίς την ανάγκη ανάκτησης τεχνουργημάτων μοντέλων κατά τη διάρκεια της εξαγωγής συμπερασμάτων, είναι απαραίτητο να κάνετε εκ των προτέρων λήψη όλων των τεχνουργημάτων μοντέλων. Αυτά τα τεχνουργήματα στη συνέχεια φορτώνονται στο κοντέινερ σερβιρίσματος SageMaker κατά την εκκίνηση. Επειδή αυτά τα μοντέλα δεν είναι άμεσα προσβάσιμα, προσφέρουμε περιγραφές και δείγμα κώδικα από την πηγή WhisperX, παρέχοντας οδηγίες σχετικά με τη λήψη του μοντέλου και των στοιχείων του.

Το WhisperX χρησιμοποιεί έξι μοντέλα:

Τα περισσότερα από αυτά τα μοντέλα μπορούν να ληφθούν από Αγκαλιάζοντας το πρόσωπο χρησιμοποιώντας τη βιβλιοθήκη huggingface_hub. Χρησιμοποιούμε τα παρακάτω download_hf_model() λειτουργία για την ανάκτηση αυτών των τεχνουργημάτων μοντέλων. Απαιτείται ένα διακριτικό πρόσβασης από το Hugging Face, το οποίο δημιουργήθηκε μετά την αποδοχή των συμφωνιών χρήστη για τα ακόλουθα μοντέλα pyannote:

import huggingface_hub
import yaml
import torchaudio
import urllib.request
import os CONTAINER_MODEL_DIR = "/opt/ml/model"
WHISPERX_MODEL = "guillaumekln/faster-whisper-large-v2"
VAD_MODEL_URL = "https://whisperx.s3.eu-west-2.amazonaws.com/model_weights/segmentation/0b5b3216d60a2d32fc086b47ea8c67589aaeb26b7e07fcbe620d6d0b83e209ea/pytorch_model.bin"
WAV2VEC2_MODEL = "WAV2VEC2_ASR_BASE_960H"
DIARIZATION_MODEL = "pyannote/speaker-diarization" def download_hf_model(model_name: str, hf_token: str, local_model_dir: str) -> str: """ Fetches the provided model from HuggingFace and returns the subdirectory it is downloaded to :param model_name: HuggingFace model name (and an optional version, appended with @[version]) :param hf_token: HuggingFace access token authorized to access the requested model :param local_model_dir: The local directory to download the model to :return: The subdirectory within local_modeL_dir that the model is downloaded to """ model_subdir = model_name.split('@')[0] huggingface_hub.snapshot_download(model_subdir, token=hf_token, local_dir=f"{local_model_dir}/{model_subdir}", local_dir_use_symlinks=False) return model_subdir

Το μοντέλο VAD έχει ληφθεί από το Amazon S3 και το μοντέλο Wav2Vec2 ανακτάται από τη μονάδα torchaudio.pipelines. Με βάση τον παρακάτω κώδικα, μπορούμε να ανακτήσουμε όλα τα τεχνουργήματα των μοντέλων, συμπεριλαμβανομένων αυτών από το Hugging Face, και να τα αποθηκεύσουμε στον καθορισμένο τοπικό κατάλογο μοντέλων:

def fetch_models(hf_token: str, local_model_dir="./models"): """ Fetches all required models to run WhisperX locally without downloading models every time :param hf_token: A huggingface access token to download the models :param local_model_dir: The directory to download the models to """ # Fetch Faster Whisper's Large V2 model from HuggingFace download_hf_model(model_name=WHISPERX_MODEL, hf_token=hf_token, local_model_dir=local_model_dir) # Fetch WhisperX's VAD Segmentation model from S3 vad_model_dir = "whisperx/vad" if not os.path.exists(f"{local_model_dir}/{vad_model_dir}"): os.makedirs(f"{local_model_dir}/{vad_model_dir}") urllib.request.urlretrieve(VAD_MODEL_URL, f"{local_model_dir}/{vad_model_dir}/pytorch_model.bin") # Fetch the Wav2Vec2 alignment model torchaudio.pipelines.__dict__[WAV2VEC2_MODEL].get_model(dl_kwargs={"model_dir": f"{local_model_dir}/wav2vec2/"}) # Fetch pyannote's Speaker Diarization model from HuggingFace download_hf_model(model_name=DIARIZATION_MODEL, hf_token=hf_token, local_model_dir=local_model_dir) # Read in the Speaker Diarization model config to fetch models and update with their local paths with open(f"{local_model_dir}/{DIARIZATION_MODEL}/config.yaml", 'r') as file: diarization_config = yaml.safe_load(file) embedding_model = diarization_config['pipeline']['params']['embedding'] embedding_model_dir = download_hf_model(model_name=embedding_model, hf_token=hf_token, local_model_dir=local_model_dir) diarization_config['pipeline']['params']['embedding'] = f"{CONTAINER_MODEL_DIR}/{embedding_model_dir}" segmentation_model = diarization_config['pipeline']['params']['segmentation'] segmentation_model_dir = download_hf_model(model_name=segmentation_model, hf_token=hf_token, local_model_dir=local_model_dir) diarization_config['pipeline']['params']['segmentation'] = f"{CONTAINER_MODEL_DIR}/{segmentation_model_dir}/pytorch_model.bin" with open(f"{local_model_dir}/{DIARIZATION_MODEL}/config.yaml", 'w') as file: yaml.safe_dump(diarization_config, file) # Read in the Speaker Embedding model config to update it with its local path speechbrain_hyperparams_path = f"{local_model_dir}/{embedding_model_dir}/hyperparams.yaml" with open(speechbrain_hyperparams_path, 'r') as file: speechbrain_hyperparams = file.read() speechbrain_hyperparams = speechbrain_hyperparams.replace(embedding_model_dir, f"{CONTAINER_MODEL_DIR}/{embedding_model_dir}") with open(speechbrain_hyperparams_path, 'w') as file: file.write(speechbrain_hyperparams)

Επιλέξτε το κατάλληλο AWS Deep Learning Container για την εξυπηρέτηση του μοντέλου

Αφού αποθηκευτούν τα τεχνουργήματα του μοντέλου χρησιμοποιώντας το προηγούμενο δείγμα κώδικα, μπορείτε να επιλέξετε προκατασκευασμένο Εμπορευματοκιβώτια βαθιάς μάθησης AWS (DLC) από τα παρακάτω GitHub repo. Όταν επιλέγετε την εικόνα Docker, λάβετε υπόψη τις ακόλουθες ρυθμίσεις: πλαίσιο (Hugging Face), εργασία (συμπεράσματα), έκδοση Python και υλικό (για παράδειγμα, GPU). Συνιστούμε να χρησιμοποιήσετε την παρακάτω εικόνα: 763104351884.dkr.ecr.[REGION].amazonaws.com/huggingface-pytorch-inference:2.0.0-transformers4.28.1-gpu-py310-cu118-ubuntu20.04 Αυτή η εικόνα έχει όλα τα απαραίτητα πακέτα συστήματος προεγκατεστημένα, όπως το ffmpeg. Θυμηθείτε να αντικαταστήσετε το [REGION] με την περιοχή AWS που χρησιμοποιείτε.

Για άλλα απαιτούμενα πακέτα Python, δημιουργήστε ένα requirements.txt αρχείο με μια λίστα πακέτων και τις εκδόσεις τους. Αυτά τα πακέτα θα εγκατασταθούν όταν δημιουργηθεί το AWS DLC. Τα ακόλουθα είναι τα πρόσθετα πακέτα που απαιτούνται για τη φιλοξενία του μοντέλου WhisperX στο SageMaker:

faster-whisper==0.7.1 git+https://github.com/m-bain/whisperx.git@1b092de19a1878a8f138f665b1467ca21b076e7e ffmpeg-python

Δημιουργήστε ένα σενάριο συμπερασμάτων για να φορτώσετε τα μοντέλα και να εκτελέσετε το συμπέρασμα

Στη συνέχεια, δημιουργούμε ένα έθιμο inference.py σενάριο για να περιγράψει πώς το μοντέλο WhisperX και τα στοιχεία του φορτώνονται στο κοντέινερ και πώς πρέπει να εκτελεστεί η διαδικασία εξαγωγής συμπερασμάτων. Το σενάριο περιέχει δύο λειτουργίες: model_fn και transform_fn. ο model_fn Η λειτουργία καλείται για να φορτώσει τα μοντέλα από τις αντίστοιχες θέσεις τους. Στη συνέχεια, αυτά τα μοντέλα περνούν στο transform_fn λειτουργία κατά τη διάρκεια της εξαγωγής συμπερασμάτων, όπου εκτελούνται οι διαδικασίες μεταγραφής, ευθυγράμμισης και διάκρισης. Το παρακάτω είναι ένα δείγμα κώδικα για inference.py:

import io
import json
import logging
import tempfile
import time import torch
import whisperx DEVICE = 'cuda' if torch.cuda.is_available() else 'cpu' def model_fn(model_dir: str) -> dict: """ Deserialize and return the models """ logging.info("Loading WhisperX model") model = whisperx.load_model(whisper_arch=f"{model_dir}/guillaumekln/faster-whisper-large-v2", device=DEVICE, language="en", compute_type="float16", vad_options={'model_fp': f"{model_dir}/whisperx/vad/pytorch_model.bin"}) logging.info("Loading alignment model") align_model, metadata = whisperx.load_align_model(language_code="en", device=DEVICE, model_name="WAV2VEC2_ASR_BASE_960H", model_dir=f"{model_dir}/wav2vec2") logging.info("Loading diarization model") diarization_model = whisperx.DiarizationPipeline(model_name=f"{model_dir}/pyannote/speaker-diarization/config.yaml", device=DEVICE) return { 'model': model, 'align_model': align_model, 'metadata': metadata, 'diarization_model': diarization_model } def transform_fn(model: dict, request_body: bytes, request_content_type: str, response_content_type="application/json") -> (str, str): """ Load in audio from the request, transcribe and diarize, and return JSON output """ # Start a timer so that we can log how long inference takes start_time = time.time() # Unpack the models whisperx_model = model['model'] align_model = model['align_model'] metadata = model['metadata'] diarization_model = model['diarization_model'] # Load the media file (the request_body as bytes) into a temporary file, then use WhisperX to load the audio from it logging.info("Loading audio") with io.BytesIO(request_body) as file: tfile = tempfile.NamedTemporaryFile(delete=False) tfile.write(file.read()) audio = whisperx.load_audio(tfile.name) # Run transcription logging.info("Transcribing audio") result = whisperx_model.transcribe(audio, batch_size=16) # Align the outputs for better timings logging.info("Aligning outputs") result = whisperx.align(result["segments"], align_model, metadata, audio, DEVICE, return_char_alignments=False) # Run diarization logging.info("Running diarization") diarize_segments = diarization_model(audio) result = whisperx.assign_word_speakers(diarize_segments, result) # Calculate the time it took to perform the transcription and diarization end_time = time.time() elapsed_time = end_time - start_time logging.info(f"Transcription and Diarization took {int(elapsed_time)} seconds") # Return the results to be stored in S3 return json.dumps(result), response_content_type

Μέσα στον κατάλογο του μοντέλου, παράλληλα με το requirements.txt αρχείο, εξασφαλίστε την παρουσία του inference.py σε έναν υποκατάλογο κώδικα. ο models κατάλογος πρέπει να μοιάζει με τον ακόλουθο:

models
├── code
│ ├── inference.py
│ └── requirements.txt
├── guillaumekln
│ └── faster-whisper-large-v2
├── pyannote
│ ├── segmentation
│ │ └── ...
│ └── speaker-diarization
│ └── ...
├── speechbrain
│ └── spkrec-ecapa-voxceleb
│ └── ...
├── wav2vec2
│ └── ...
└── whisperx └── vad └── ...

Δημιουργήστε ένα tarball με τα μοντέλα

Αφού δημιουργήσετε τα μοντέλα και τους καταλόγους κώδικα, μπορείτε να χρησιμοποιήσετε τις ακόλουθες γραμμές εντολών για να συμπιέσετε το μοντέλο σε ένα tarball (αρχείο .tar.gz) και να το ανεβάσετε στο Amazon S3. Τη στιγμή της γραφής, χρησιμοποιώντας το μοντέλο Large V2 με πιο γρήγορους ψιθύρους, το προκύπτον tarball που αντιπροσωπεύει το μοντέλο SageMaker έχει μέγεθος 3 GB. Για περισσότερες πληροφορίες, ανατρέξτε στο Μοντέλα φιλοξενίας μοντέλων στο Amazon SageMaker, Μέρος 2: Ξεκινώντας με την ανάπτυξη μοντέλων σε πραγματικό χρόνο στο SageMaker.

# Save the model artifacts to the 'model' directory and create a tarball
tar cvzf model.tar.gz -C model/ .
# Upload the model to S3
aws s3 cp model.tar.gz s3://<target_bucket>

Δημιουργήστε ένα μοντέλο SageMaker και αναπτύξτε ένα τελικό σημείο με έναν ασύγχρονο προγνωστικό

Τώρα μπορείτε να δημιουργήσετε το μοντέλο SageMaker, τη διαμόρφωση τελικού σημείου και το ασύγχρονο τελικό σημείο με AsyncPredictor χρησιμοποιώντας το μοντέλο tarball που δημιουργήθηκε στο προηγούμενο βήμα. Για οδηγίες, ανατρέξτε στο Δημιουργήστε ένα ασύγχρονο τελικό σημείο συμπερασμάτων.

Αξιολογήστε την απόδοση της διάκρισης

Για να αξιολογήσουμε την απόδοση του μοντέλου WhisperX σε διάφορα σενάρια, επιλέξαμε τρία επεισόδια το καθένα από δύο αγγλικούς τίτλους: έναν τίτλο δράματος που αποτελείται από επεισόδια 30 λεπτών και έναν τίτλο ντοκιμαντέρ που αποτελείται από επεισόδια 45 λεπτών. Χρησιμοποιήσαμε την εργαλειοθήκη μετρήσεων της pyannote, pyannote.μετρικά, για να υπολογίσετε το Ποσοστό σφαλμάτων diarization (DER). Στην αξιολόγηση, οι χειροκίνητες μεταγραφές και τα ημερολογιακά αντίγραφα που παρείχε η ZOO χρησίμευσαν ως βασική αλήθεια.

Ορίσαμε το DER ως εξής:

Σύνολο είναι η διάρκεια του βίντεο της αλήθειας εδάφους. FA (Εσφαλμένος συναγερμός) είναι το μήκος των τμημάτων που θεωρούνται ως ομιλία στις προβλέψεις, αλλά όχι ως αληθής βάση. Δεσποινίδα είναι το μήκος των τμημάτων που θεωρούνται ως ομιλία στη βασική αλήθεια, αλλά όχι στην πρόβλεψη. Λάθος, Που ονομάζεται επίσης Σύγχυση, είναι το μήκος των τμημάτων που έχουν εκχωρηθεί σε διαφορετικούς ομιλητές στην πρόβλεψη και την αλήθεια. Όλες οι μονάδες μετρώνται σε δευτερόλεπτα. Οι τυπικές τιμές για το DER μπορεί να ποικίλλουν ανάλογα με τη συγκεκριμένη εφαρμογή, το σύνολο δεδομένων και την ποιότητα του συστήματος μέτρησης. Σημειώστε ότι το DER μπορεί να είναι μεγαλύτερο από 1.0. Ένα χαμηλότερο DER είναι καλύτερο.

Για να μπορέσετε να υπολογίσετε το DER για ένα κομμάτι μέσου, απαιτείται μια διαίρεση αλήθειας εδάφους, καθώς και τα μεταγραφόμενα και ημερολογιακά αποτελέσματα WhisperX. Αυτά πρέπει να αναλυθούν και να οδηγήσουν σε λίστες πλειάδων που περιέχουν μια ετικέτα ηχείου, ώρα έναρξης τμήματος ομιλίας και ώρα λήξης τμήματος ομιλίας για κάθε τμήμα ομιλίας στο μέσο. Οι ετικέτες των ηχείων δεν χρειάζεται να ταιριάζουν μεταξύ των ενδείξεων WhisperX και βασικής αλήθειας. Τα αποτελέσματα βασίζονται κυρίως στον χρόνο των τμημάτων. Το pyannote.metrics λαμβάνει αυτές τις πλειάδες διαλογισμών βασικής αλήθειας και διαλογισμών εξόδου (αναφέρεται στην τεκμηρίωση pyannote.metrics ως αναφορά και υπόθεση) για τον υπολογισμό του DER. Ο παρακάτω πίνακας συνοψίζει τα αποτελέσματά μας.

Τύπος βίντεο	DER	Σωστός	Δεσποινίδα	Λάθος	Λάθος συναγερμός
Δράμα	0.738	44.80%	21.80%	33.30%	18.70%
Ντοκυμαντέρ	1.29	94.50%	5.30%	0.20%	123.40%
Μέτρια	0.901	71.40%	13.50%	15.10%	61.50%

Αυτά τα αποτελέσματα αποκαλύπτουν μια σημαντική διαφορά απόδοσης μεταξύ των τίτλων δράματος και ντοκιμαντέρ, με το μοντέλο να επιτυγχάνει σημαντικά καλύτερα αποτελέσματα (χρησιμοποιώντας το DER ως συγκεντρωτική μέτρηση) για τα επεισόδια του δράματος σε σύγκριση με τον τίτλο του ντοκιμαντέρ. Μια πιο προσεκτική ανάλυση των τίτλων παρέχει πληροφορίες για πιθανούς παράγοντες που συμβάλλουν σε αυτό το χάσμα απόδοσης. Ένας βασικός παράγοντας θα μπορούσε να είναι η συχνή παρουσία μουσικής υπόκρουσης που επικαλύπτεται με ομιλία στον τίτλο του ντοκιμαντέρ. Αν και η προεπεξεργασία μέσων για τη βελτίωση της ακρίβειας της διάκρισης, όπως η αφαίρεση του θορύβου περιβάλλοντος για την απομόνωση της ομιλίας, ήταν πέρα από το πεδίο αυτού του πρωτοτύπου, ανοίγει δρόμους για μελλοντικές εργασίες που θα μπορούσαν ενδεχομένως να βελτιώσουν την απόδοση του WhisperX.

Συμπέρασμα

Σε αυτήν την ανάρτηση, εξερευνήσαμε τη συνεργατική συνεργασία μεταξύ της AWS και της ZOO Digital, χρησιμοποιώντας τεχνικές μηχανικής εκμάθησης με το SageMaker και το μοντέλο WhisperX για τη βελτίωση της ροής εργασιών diarization. Η ομάδα AWS έπαιξε καθοριστικό ρόλο βοηθώντας το ZOO στη δημιουργία πρωτοτύπων, την αξιολόγηση και την κατανόηση της αποτελεσματικής ανάπτυξης προσαρμοσμένων μοντέλων ML, ειδικά σχεδιασμένων για diarization. Αυτό περιελάμβανε την ενσωμάτωση αυτόματης κλιμάκωσης για επεκτασιμότητα χρησιμοποιώντας το SageMaker.

Η αξιοποίηση της τεχνητής νοημοσύνης για diarization θα οδηγήσει σε σημαντική εξοικονόμηση κόστους και χρόνου κατά τη δημιουργία τοπικού περιεχομένου για το ZOO. Βοηθώντας τους μεταγραφείς να δημιουργούν και να αναγνωρίζουν γρήγορα και με ακρίβεια ηχεία, αυτή η τεχνολογία αντιμετωπίζει την παραδοσιακά χρονοβόρα και επιρρεπή σε σφάλματα φύση της εργασίας. Η συμβατική διαδικασία συχνά περιλαμβάνει πολλαπλά περάσματα μέσω του βίντεο και πρόσθετα βήματα ποιοτικού ελέγχου για την ελαχιστοποίηση των σφαλμάτων. Η υιοθέτηση της τεχνητής νοημοσύνης για τη μέτρηση επιτρέπει μια πιο στοχευμένη και αποτελεσματική προσέγγιση, αυξάνοντας έτσι την παραγωγικότητα σε συντομότερο χρονικό διάστημα.

Περιγράψαμε βασικά βήματα για την ανάπτυξη του μοντέλου WhisperX στο ασύγχρονο τελικό σημείο του SageMaker και σας ενθαρρύνουμε να το δοκιμάσετε μόνοι σας χρησιμοποιώντας τον παρεχόμενο κώδικα. Για περισσότερες πληροφορίες σχετικά με τις υπηρεσίες και την τεχνολογία του ZOO Digital, επισκεφτείτε Επίσημος ιστότοπος της ZOO Digital. Για λεπτομέρειες σχετικά με την ανάπτυξη του μοντέλου OpenAI Whisper στο SageMaker και διάφορες επιλογές συμπερασμάτων, ανατρέξτε στο Φιλοξενήστε το μοντέλο Whisper στο Amazon SageMaker: εξερευνώντας τις επιλογές συμπερασμάτων. Μη διστάσετε να μοιραστείτε τις σκέψεις σας στα σχόλια.

Σχετικά με τους Συγγραφείς

Ying Hou, PhD, είναι Αρχιτέκτονας Μηχανικής Μάθησης Πρωτότυπων στην AWS. Οι κύριοι τομείς ενδιαφέροντός της περιλαμβάνουν το Deep Learning, με έμφαση στο GenAI, το Computer Vision, το NLP και την πρόβλεψη δεδομένων χρονοσειρών. Στον ελεύθερο χρόνο της, απολαμβάνει να περνά ποιοτικές στιγμές με την οικογένειά της, να βυθίζεται σε μυθιστορήματα και να κάνει πεζοπορία στα εθνικά πάρκα του Ηνωμένου Βασιλείου.

Ίθαν Κάμπερλαντ είναι Μηχανικός Έρευνας AI στο ZOO Digital, όπου εργάζεται στη χρήση της τεχνητής νοημοσύνης και της μηχανικής μάθησης ως βοηθητικές τεχνολογίες για τη βελτίωση των ροών εργασίας στην ομιλία, τη γλώσσα και την τοπική προσαρμογή. Έχει ένα υπόβαθρο στη μηχανική λογισμικού και την έρευνα στον τομέα της ασφάλειας και της αστυνόμευσης, εστιάζοντας στην εξαγωγή δομημένων πληροφοριών από τον Ιστό και στη μόχλευση μοντέλων ML ανοιχτού κώδικα για την ανάλυση και τον εμπλουτισμό των συλλεγόμενων δεδομένων.

Gaurav Kaila ηγείται της ομάδας AWS Prototyping για το Ηνωμένο Βασίλειο και την Ιρλανδία. Η ομάδα του συνεργάζεται με πελάτες σε διάφορους κλάδους για να ιδεολογήσει και να συν-ανάπτυξη κρίσιμους φόρτους εργασίας για τις επιχειρήσεις με εντολή να επιταχύνει την υιοθέτηση των υπηρεσιών AWS.