Streamline Diarization Using AI As An Assistive Technology: ZOO Digital’s Story

Taasavaldanud Platon

järgijaid: 0

ZOO digitaalne pakub täielikku lokaliseerimist ja meediateenuseid, et kohandada originaalset telesisu ja filmide sisu erinevatele keeltele, piirkondadele ja kultuuridele. See muudab üleilmastumise maailma parimate sisuloojate jaoks lihtsamaks. Meelelahutuse suurimate nimede poolt usaldatud ZOO Digital pakub suures mahus kvaliteetseid lokaliseerimis- ja meediateenuseid, sealhulgas dubleerimist, subtiitreid, skriptimist ja vastavust.

Tüüpilised lokaliseerimise töövood nõuavad kõlarite käsitsi diaariseerimist, mille puhul helivoog segmenteeritakse kõlari identiteedi alusel. See aeganõudev protsess peab olema lõpule viidud, enne kui sisu saab teise keelde dubleerida. Manuaalsete meetodite korral võib 30-minutilise episoodi lokaliseerimiseks kuluda 1–3 tundi. Tänu automatiseerimisele on ZOO Digitali eesmärk saavutada lokaliseerimine vähem kui 30 minutiga.

Selles postituses käsitleme skaleeritavate masinõppe mudelite (ML) juurutamist meediasisu päevaraamatu kasutamiseks Amazon SageMaker, keskendudes sellele WhisperX mudel.

Taust

ZOO Digitali visioon on pakkuda lokaliseeritud sisu kiiremat ümbertöötamist. Selle eesmärgi saavutamist takistab harjutuste käsitsi intensiivsus, millele lisandub väike oskustööliste arv, kes suudab sisu käsitsi lokaliseerida. ZOO Digital töötab enam kui 11,000 600 vabakutselise töötajaga ja lokaliseeris ainuüksi 2022. aastal üle XNUMX miljoni sõna. Kvalifitseeritud inimeste pakkumist ületab aga kasvav nõudlus sisu järele, mis nõuab lokaliseerimise töövoogude abistamiseks automatiseerimist.

Eesmärgiga kiirendada sisu töövoogude lokaliseerimist masinõppe abil, võttis ZOO Digital kaasa AWS-i prototüüpimise, AWS-i investeerimisprogrammi, mille eesmärk on töökoormuste koostamiseks klientidega. Töö keskendus lokaliseerimisprotsessi funktsionaalse lahenduse pakkumisele, pakkudes samal ajal praktilist koolitust ZOO Digitali arendajatele rakenduses SageMaker, Amazoni transkribeerimineja Amazoni tõlge.

Kliendi väljakutse

Pärast pealkirja (filmi või telesarja episoodi) transkribeerimist tuleb igale kõnelõigule määrata kõnelejad, et neid saaks õigesti määrata tegelasi mängima määratud häälekunstnikele. Seda protsessi nimetatakse kõneleja diariseerimiseks. ZOO Digital seisab silmitsi väljakutsega sisustada ulatuslikult, olles samas majanduslikult elujõuline.

Lahenduse ülevaade

Selles prototüübis salvestasime algsed meediumifailid määratud kohas Amazoni lihtne salvestusteenus (Amazon S3) kopp. See S3-salv oli konfigureeritud väljastama sündmust, kui selles tuvastatakse uusi faile, mis käivitavad AWS Lambda funktsiooni. Selle päästiku konfigureerimise juhiste saamiseks vaadake õpetust Amazon S3 päästiku kasutamine Lambda funktsiooni käivitamiseks. Seejärel kutsus funktsioon Lambda SageMakeri lõpp-punkti, et teha järeldusi, kasutades Boto3 SageMaker Runtime klient.

. WhisperX mudel, mis põhineb OpenAI sosin, teostab meediavarade transkriptsioone ja diariseerimist. See on üles ehitatud Kiirem sosin uuesti juurutamine, pakkudes Whisperiga võrreldes kuni neli korda kiiremat transkriptsiooni koos parema sõnataseme ajatempli joondusega. Lisaks tutvustab see kõlarite diariseerimist, mida algses Whisperi mudelis ei esine. WhisperX kasutab transkriptsioonide jaoks Whisperi mudelit Wav2Vec2 mudel ajatempli joondamise parandamiseks (tagades transkribeeritud teksti sünkroonimise heli ajatemplitega) ja püannoot Diariseerimise mudel. FFmpeg kasutatakse heli laadimiseks lähtemeediumilt, toetades erinevaid meediavormingud. Läbipaistev ja modulaarne mudeliarhitektuur võimaldab paindlikkust, sest iga mudeli komponenti saab tulevikus vastavalt vajadusele välja vahetada. Siiski on oluline märkida, et WhisperX-il puuduvad täielikud haldusfunktsioonid ja see ei ole ettevõtte tasemel toode. Ilma hoolduse ja toeta ei pruugi see sobida tootmiseks juurutamiseks.

Selle koostöö käigus juurutasime ja hindasime WhisperX-i SageMakeris, kasutades asünkroonse järelduse lõpp-punkt modelli võõrustada. SageMakeri asünkroonsed lõpp-punktid toetavad üleslaadimismahtusid kuni 1 GB ja sisaldavad automaatse skaleerimise funktsioone, mis leevendavad tõhusalt liikluse hüppeid ja säästavad kulusid tipptundidel. Asünkroonsed lõpp-punktid sobivad meie kasutusjuhul eriti hästi suurte failide, näiteks filmide ja telesarjade töötlemiseks.

Järgmine diagramm illustreerib selle koostöö raames läbi viidud katsete põhielemente.

Streamline diarization using AI as an assistive technology: ZOO Digital’s story | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Järgmistes jaotistes süveneme WhisperX-i mudeli SageMakeris juurutamise üksikasjadesse ja hindame diariseerimise jõudlust.

Laadige alla mudel ja selle komponendid

WhisperX on süsteem, mis sisaldab mitut mudelit transkriptsiooniks, sundjoondamiseks ja diariseerimiseks. SageMakeri sujuvaks tööks, ilma et oleks vaja järeldamise ajal mudeliartefakte tuua, on oluline kõik mudeliartefaktid eelnevalt alla laadida. Seejärel laaditakse need artefaktid käivitamise ajal SageMakeri serveerimismahutisse. Kuna need mudelid ei ole otseselt juurdepääsetavad, pakume kirjeldusi ja näidiskoodi WhisperX-i allikast, mis annab juhised mudeli ja selle komponentide allalaadimiseks.

WhisperX kasutab kuut mudelit:

Enamikku neist mudelitest saab hankida Kallistav nägu kasutades huggingface_hubi teeki. Kasutame järgmist download_hf_model() funktsioon nende mudeliartefaktide hankimiseks. Vaja on Hugging Face'i juurdepääsuluba, mis luuakse pärast järgmiste pyannote'i mudelite kasutajalepingutega nõustumist:

import huggingface_hub
import yaml
import torchaudio
import urllib.request
import os CONTAINER_MODEL_DIR = "/opt/ml/model"
WHISPERX_MODEL = "guillaumekln/faster-whisper-large-v2"
VAD_MODEL_URL = "https://whisperx.s3.eu-west-2.amazonaws.com/model_weights/segmentation/0b5b3216d60a2d32fc086b47ea8c67589aaeb26b7e07fcbe620d6d0b83e209ea/pytorch_model.bin"
WAV2VEC2_MODEL = "WAV2VEC2_ASR_BASE_960H"
DIARIZATION_MODEL = "pyannote/speaker-diarization" def download_hf_model(model_name: str, hf_token: str, local_model_dir: str) -> str: """ Fetches the provided model from HuggingFace and returns the subdirectory it is downloaded to :param model_name: HuggingFace model name (and an optional version, appended with @[version]) :param hf_token: HuggingFace access token authorized to access the requested model :param local_model_dir: The local directory to download the model to :return: The subdirectory within local_modeL_dir that the model is downloaded to """ model_subdir = model_name.split('@')[0] huggingface_hub.snapshot_download(model_subdir, token=hf_token, local_dir=f"{local_model_dir}/{model_subdir}", local_dir_use_symlinks=False) return model_subdir

VAD-mudel hangitakse Amazon S3-st ja Wav2Vec2 mudel hangitakse moodulist torchaudio.pipelines. Järgmise koodi alusel saame hankida kõik mudelite artefaktid, sealhulgas Hugging Face'i artefaktid, ja salvestada need määratud kohalikku mudelikataloogi:

def fetch_models(hf_token: str, local_model_dir="./models"): """ Fetches all required models to run WhisperX locally without downloading models every time :param hf_token: A huggingface access token to download the models :param local_model_dir: The directory to download the models to """ # Fetch Faster Whisper's Large V2 model from HuggingFace download_hf_model(model_name=WHISPERX_MODEL, hf_token=hf_token, local_model_dir=local_model_dir) # Fetch WhisperX's VAD Segmentation model from S3 vad_model_dir = "whisperx/vad" if not os.path.exists(f"{local_model_dir}/{vad_model_dir}"): os.makedirs(f"{local_model_dir}/{vad_model_dir}") urllib.request.urlretrieve(VAD_MODEL_URL, f"{local_model_dir}/{vad_model_dir}/pytorch_model.bin") # Fetch the Wav2Vec2 alignment model torchaudio.pipelines.__dict__[WAV2VEC2_MODEL].get_model(dl_kwargs={"model_dir": f"{local_model_dir}/wav2vec2/"}) # Fetch pyannote's Speaker Diarization model from HuggingFace download_hf_model(model_name=DIARIZATION_MODEL, hf_token=hf_token, local_model_dir=local_model_dir) # Read in the Speaker Diarization model config to fetch models and update with their local paths with open(f"{local_model_dir}/{DIARIZATION_MODEL}/config.yaml", 'r') as file: diarization_config = yaml.safe_load(file) embedding_model = diarization_config['pipeline']['params']['embedding'] embedding_model_dir = download_hf_model(model_name=embedding_model, hf_token=hf_token, local_model_dir=local_model_dir) diarization_config['pipeline']['params']['embedding'] = f"{CONTAINER_MODEL_DIR}/{embedding_model_dir}" segmentation_model = diarization_config['pipeline']['params']['segmentation'] segmentation_model_dir = download_hf_model(model_name=segmentation_model, hf_token=hf_token, local_model_dir=local_model_dir) diarization_config['pipeline']['params']['segmentation'] = f"{CONTAINER_MODEL_DIR}/{segmentation_model_dir}/pytorch_model.bin" with open(f"{local_model_dir}/{DIARIZATION_MODEL}/config.yaml", 'w') as file: yaml.safe_dump(diarization_config, file) # Read in the Speaker Embedding model config to update it with its local path speechbrain_hyperparams_path = f"{local_model_dir}/{embedding_model_dir}/hyperparams.yaml" with open(speechbrain_hyperparams_path, 'r') as file: speechbrain_hyperparams = file.read() speechbrain_hyperparams = speechbrain_hyperparams.replace(embedding_model_dir, f"{CONTAINER_MODEL_DIR}/{embedding_model_dir}") with open(speechbrain_hyperparams_path, 'w') as file: file.write(speechbrain_hyperparams)

Valige mudeli teenindamiseks sobiv AWS-i süvaõppe konteiner

Kui mudeli artefaktid on eelmise näidiskoodi abil salvestatud, saate valida eelehitatud AWS-i süvaõppekonteinerid (DLC-d) järgmistest GitHub repo. Dockeri kujutise valimisel arvestage järgmiste sätetega: raamistik (kallistav nägu), ülesanne (järeldus), Pythoni versioon ja riistvara (näiteks GPU). Soovitame kasutada järgmist pilti: 763104351884.dkr.ecr.[REGION].amazonaws.com/huggingface-pytorch-inference:2.0.0-transformers4.28.1-gpu-py310-cu118-ubuntu20.04 Sellel pildil on eelinstallitud kõik vajalikud süsteemipaketid, näiteks ffmpeg. Ärge unustage asendada [REGION] kasutatava AWS-i piirkonnaga.

Muude nõutavate Pythoni pakettide jaoks looge a requirements.txt faili pakettide ja nende versioonide loendiga. Need paketid installitakse AWS-i DLC loomisel. Järgmised on täiendavad paketid, mis on vajalikud WhisperX mudeli majutamiseks SageMakeris:

faster-whisper==0.7.1 git+https://github.com/m-bain/whisperx.git@1b092de19a1878a8f138f665b1467ca21b076e7e ffmpeg-python

Looge mudelite laadimiseks ja järelduste käivitamiseks järeldusskript

Järgmisena loome kohandatud inference.py skript, mis kirjeldab, kuidas WhisperX-i mudel ja selle komponendid konteinerisse laaditakse ja kuidas tuleks käitada järeldusprotsessi. Skript sisaldab kahte funktsiooni: model_fn ja transform_fn. model_fn funktsioon käivitatakse mudelite laadimiseks nende vastavatest asukohtadest. Seejärel antakse need mudelid üle transform_fn funktsioon järelduse ajal, kus teostatakse transkriptsiooni-, joondus- ja diariseerimisprotsesse. Järgmine on koodinäidis inference.py:

import io
import json
import logging
import tempfile
import time import torch
import whisperx DEVICE = 'cuda' if torch.cuda.is_available() else 'cpu' def model_fn(model_dir: str) -> dict: """ Deserialize and return the models """ logging.info("Loading WhisperX model") model = whisperx.load_model(whisper_arch=f"{model_dir}/guillaumekln/faster-whisper-large-v2", device=DEVICE, language="en", compute_type="float16", vad_options={'model_fp': f"{model_dir}/whisperx/vad/pytorch_model.bin"}) logging.info("Loading alignment model") align_model, metadata = whisperx.load_align_model(language_code="en", device=DEVICE, model_name="WAV2VEC2_ASR_BASE_960H", model_dir=f"{model_dir}/wav2vec2") logging.info("Loading diarization model") diarization_model = whisperx.DiarizationPipeline(model_name=f"{model_dir}/pyannote/speaker-diarization/config.yaml", device=DEVICE) return { 'model': model, 'align_model': align_model, 'metadata': metadata, 'diarization_model': diarization_model } def transform_fn(model: dict, request_body: bytes, request_content_type: str, response_content_type="application/json") -> (str, str): """ Load in audio from the request, transcribe and diarize, and return JSON output """ # Start a timer so that we can log how long inference takes start_time = time.time() # Unpack the models whisperx_model = model['model'] align_model = model['align_model'] metadata = model['metadata'] diarization_model = model['diarization_model'] # Load the media file (the request_body as bytes) into a temporary file, then use WhisperX to load the audio from it logging.info("Loading audio") with io.BytesIO(request_body) as file: tfile = tempfile.NamedTemporaryFile(delete=False) tfile.write(file.read()) audio = whisperx.load_audio(tfile.name) # Run transcription logging.info("Transcribing audio") result = whisperx_model.transcribe(audio, batch_size=16) # Align the outputs for better timings logging.info("Aligning outputs") result = whisperx.align(result["segments"], align_model, metadata, audio, DEVICE, return_char_alignments=False) # Run diarization logging.info("Running diarization") diarize_segments = diarization_model(audio) result = whisperx.assign_word_speakers(diarize_segments, result) # Calculate the time it took to perform the transcription and diarization end_time = time.time() elapsed_time = end_time - start_time logging.info(f"Transcription and Diarization took {int(elapsed_time)} seconds") # Return the results to be stored in S3 return json.dumps(result), response_content_type

Mudeli kataloogis koos requirements.txt faili olemasolu, veenduge inference.py koodi alamkataloogis. The models kataloog peaks sarnanema järgmisega:

models
├── code
│ ├── inference.py
│ └── requirements.txt
├── guillaumekln
│ └── faster-whisper-large-v2
├── pyannote
│ ├── segmentation
│ │ └── ...
│ └── speaker-diarization
│ └── ...
├── speechbrain
│ └── spkrec-ecapa-voxceleb
│ └── ...
├── wav2vec2
│ └── ...
└── whisperx └── vad └── ...

Looge mudelitest tarball

Pärast mudelite ja koodikataloogide loomist saate mudeli tarballi (.tar.gz-faili) tihendamiseks ja Amazon S3-sse üles laadida järgmiste käsuridade abil. Selle artikli kirjutamise ajal on kiirema sosistamisega Large V2 mudelit kasutades saadud SageMakeri mudelit esindav tarball 3 GB suurune. Lisateabe saamiseks vaadake Mudelite hostimismustrid rakenduses Amazon SageMaker, 2. osa: SageMakeris reaalajas mudelite juurutamise alustamine.

# Save the model artifacts to the 'model' directory and create a tarball
tar cvzf model.tar.gz -C model/ .
# Upload the model to S3
aws s3 cp model.tar.gz s3://<target_bucket>

Looge SageMakeri mudel ja juurutage asünkroonse ennustajaga lõpp-punkt

Nüüd saate selle abil luua mudeli SageMaker, lõpp-punkti konfiguratsiooni ja asünkroonse lõpp-punkti AsyncPredictor kasutades eelmises etapis loodud tarballi mudelit. Juhiste saamiseks vaadake Looge asünkroonse järelduse lõpp-punkt.

Hinnake diarisatsiooni toimivust

WhisperX-i mudeli diariseerimise toimivuse hindamiseks erinevates stsenaariumides valisime kolm osa kahest ingliskeelsest pealkirjast: ühe draama pealkiri, mis koosneb 30-minutistest osadest, ja üks dokumentaalfilmi pealkiri, mis koosneb 45-minutistest episoodidest. Kasutasime Pyannote'i mõõdikute tööriistakomplekti, pyannote.metrics, et arvutada diarisatsiooni veamäär (DER). Hindamisel olid põhitõeks ZOO pakutud käsitsi transkribeeritud ja päevikustatud ärakirjad.

Me määratlesime DER järgmiselt:

Streamline diarization using AI as an assistive technology: ZOO Digital’s story | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Summa on maapealse tõe video pikkus. FA (Valehäire) on nende segmentide pikkus, mida peetakse ennustustes kõneks, kuid mitte põhitões. Miss on nende segmentide pikkus, mida peetakse kõneks põhitões, kuid mitte ennustamisel. viga, Mida nimetatakse ka Segadus, on ennustuses ja põhitões erinevatele kõlaritele määratud segmentide pikkus. Kõiki ühikuid mõõdetakse sekundites. DER-i tüüpilised väärtused võivad erineda olenevalt konkreetsest rakendusest, andmekogumist ja diariseerimissüsteemi kvaliteedist. Pange tähele, et DER võib olla suurem kui 1.0. Madalam DER on parem.

Andmekandja DER-i arvutamiseks on vaja põhitõe diaariseerimist ning WhisperX-i transkribeeritud ja päevikust väljundeid. Neid tuleb sõeluda ja tulemuseks on korteežiloendid, mis sisaldavad kõneleja silti, kõnelõigu algusaega ja kõnelõigu lõppaega iga meedia kõnesegmendi jaoks. Kõlarite sildid ei pea sobima WhisperX-i ja maatõe diarisatsioonide vahel. Tulemused põhinevad enamasti lõikude ajal. pyannote.metrics võtab need põhitõe- ja väljunddiarisatsioonid (mida on pyannote.metrics dokumentatsioonis viidatud kui viide ja hüpoteesDER arvutamiseks. Järgmine tabel võtab kokku meie tulemused.

Video tüüp	DER	Korrektne	Miss	viga	Valehäire
Draama	0.738	44.80%	21.80%	33.30%	18.70%
Dokumentaalfilm	1.29	94.50%	5.30%	0.20%	123.40%
Keskmine	0.901	71.40%	13.50%	15.10%	61.50%

Need tulemused näitavad olulist erinevust draama ja dokumentaalfilmi pealkirjade vahel, kuna mudel saavutas draamaepisoodide puhul dokumentaalfilmi pealkirjaga võrreldes märkimisväärselt paremaid tulemusi (kasutades koondmõõdikuna DER-i). Pealkirjade põhjalikum analüüs annab ülevaate võimalikest teguritest, mis võivad seda jõudluse puudujääki kaasa aidata. Üks võtmetegur võib olla kõnega kattuva taustamuusika sage esinemine dokumentaalfilmi pealkirjas. Kuigi meediumi eeltöötlemine diariseerimise täpsuse suurendamiseks, nagu taustmüra eemaldamine kõne isoleerimiseks, ei kuulunud selle prototüübi raamidesse, avab see võimalusi tulevaseks tööks, mis võib potentsiaalselt parandada WhisperX-i jõudlust.

Järeldus

Selles postituses uurisime AWS-i ja ZOO Digitali vahelist koostööpartnerlust, kasutades masinõppe tehnikaid koos SageMakeri ja WhisperX-mudeliga, et täiustada diariseerimise töövoogu. AWS-i meeskond mängis keskset rolli, aidates ZOO-d prototüüpide loomisel, hindamisel ja kohandatud ML-mudelite tõhusa kasutuselevõtu mõistmisel, mis on spetsiaalselt loodud diariseerimiseks. See hõlmas SageMakeri abil skaleeritavuse tagamiseks automaatset skaleerimist.

Tehisintellekti kasutamine diariseerimiseks aitab ZOO jaoks lokaliseeritud sisu loomisel oluliselt kokku hoida nii kulusid kui ka aega. Aidates transkribeerijatel kiiresti ja täpselt kõlareid luua ja tuvastada, tegeleb see tehnoloogia tavapäraselt aeganõudva ja veaohtliku ülesandega. Tavaline protsess hõlmab sageli mitut video läbimist ja täiendavaid kvaliteedikontrolli samme, et vigu minimeerida. Tehisintellekti kasutuselevõtt diariseerimiseks võimaldab sihipärasemat ja tõhusamat lähenemist, suurendades seeläbi tootlikkust lühema aja jooksul.

Oleme välja toonud peamised sammud WhisperX mudeli juurutamiseks SageMakeri asünkroonses lõpp-punktis ja julgustame teid proovima seda kaasasoleva koodi abil ise. ZOO Digitali teenuste ja tehnoloogia kohta lisateabe saamiseks külastage veebisaiti ZOO Digitali ametlik sait. Lisateavet OpenAI Whisperi mudeli juurutamise kohta SageMakeris ja mitmesuguste järeldusvõimaluste kohta leiate artiklist Whisperi mudeli hostimine Amazon SageMakeris: järeldusvõimaluste uurimine. Jagage julgelt oma mõtteid kommentaarides.

Autoritest

Ying Hou, PhD, on AWS-i masinõppe prototüüpimise arhitekt. Tema peamised huvivaldkonnad hõlmavad süvaõpet, keskendudes GenAI-le, Computer Visionile, NLP-le ja aegridade andmete ennustamisele. Vabal ajal naudib ta veeta kvaliteetseid hetki oma perega, sukelduda romaanidesse ja matkata Ühendkuningriigi rahvusparkides.

Ethan Cumberland on AI-uuringute insener ettevõttes ZOO Digital, kus ta töötab tehisintellekti ja masinõppe kasutamisega abitehnoloogiatena kõne, keele ja lokaliseerimise töövoogude parandamiseks. Tal on tarkvaratehnoloogia ning turbe- ja politseivaldkonna teadustöö taust, keskendudes veebist struktureeritud teabe hankimisele ning avatud lähtekoodiga ML-mudelite võimendamisele kogutud andmete analüüsimiseks ja rikastamiseks.

Gaurav Kaila juhib Ühendkuningriigi ja Iirimaa AWS-i prototüüpimise meeskonda. Tema meeskond teeb koostööd klientidega erinevatest tööstusharudest, et välja mõelda ja koos arendada ärikriitilisi töökoormusi, mille ülesandeks on kiirendada AWS-teenuste kasutuselevõttu.