Distribuer et klemmende ansikt (PyAnnote) høyttalerdiariseringsmodell på Amazon SageMaker som et asynkront endepunkt

Publisert av Platon

Følgere: 0

Høyttalerdiarisering, en viktig prosess i lydanalyse, segmenterer en lydfil basert på høyttalerens identitet. Dette innlegget fordyper seg i å integrere Hugging Faces PyAnnote for høyttalerdiarisering med Amazon SageMaker asynkrone endepunkter.

Vi gir en omfattende guide for hvordan du distribuerer høyttalersegmentering og klyngeløsninger ved å bruke SageMaker på AWS Cloud. Du kan bruke denne løsningen for applikasjoner som omhandler lydopptak med flere høyttalere (over 100).

Løsningsoversikt

Amazon Transcribe er go-to-tjenesten for høyttalerdiarisering i AWS. For språk som ikke støttes, kan du imidlertid bruke andre modeller (i vårt tilfelle PyAnnote) som vil bli distribuert i SageMaker for slutninger. For korte lydfiler der slutningen tar opptil 60 sekunder, kan du bruke sanntidsslutning. I mer enn 60 sekunder, asynkron konklusjon skal brukes. Den ekstra fordelen med asynkron slutning er kostnadsbesparelsene ved å automatisk skalere forekomsttellingen til null når det ikke er noen forespørsler å behandle.

Klemme ansiktet er en populær åpen kildekode-hub for maskinlæringsmodeller (ML). AWS og Hugging Face har en partnerskap som tillater en sømløs integrasjon gjennom SageMaker med et sett med AWS Deep Learning Containers (DLC) for opplæring og inferens i PyTorch eller TensorFlow, og Hugging Face-estimatorer og prediktorer for SageMaker Python SDK. SageMaker-funksjoner og muligheter hjelper utviklere og dataforskere med å komme i gang med naturlig språkbehandling (NLP) på AWS på en enkel måte.

Integrasjonen for denne løsningen innebærer bruk av Hugging Faces forhåndstrente høyttalerdiariseringsmodell ved hjelp av PyAnnote-biblioteket. PyAnnote er en åpen kildekode-verktøykasse skrevet i Python for høyttalerdiarisering. Denne modellen, trent på eksempellyddatasettet, muliggjør effektiv høyttalerpartisjonering i lydfiler. Modellen er distribuert på SageMaker som et asynkront endepunktoppsett, og gir effektiv og skalerbar behandling av diariseringsoppgaver.

Følgende diagram illustrerer løsningsarkitekturen.

For dette innlegget bruker vi følgende lydfil.

Stereo eller flerkanals lydfiler mikses automatisk ned til mono ved å beregne gjennomsnittet av kanalene. Lydfiler samplet med en annen hastighet blir resamplet til 16kHz automatisk ved lasting.

Forutsetninger

Fullfør følgende forutsetninger:

Opprett et SageMaker-domene.
Pass på at din AWS identitets- og tilgangsadministrasjon (IAM)-bruker har de nødvendige tilgangstillatelsene for å opprette en SageMaker rolle.
Sørg for at AWS-kontoen har en tjenestekvote for å være vert for et SageMaker-endepunkt for en ml.g5.2xlarge-forekomst.

Lag en modellfunksjon for å få tilgang til PyAnnote-høyttalerdiarisering fra Hugging Face

Du kan bruke Hugging Face Hub for å få tilgang til ønsket forhåndstrent PyAnnote høyttalerdiariseringsmodell. Du bruker det samme skriptet for å laste ned modellfilen når du oppretter SageMaker-endepunktet.

Se følgende kode:

from PyAnnote.audio import Pipeline

def model_fn(model_dir):
# Load the model from the specified model directory
model = Pipeline.from_pretrained(
"PyAnnote/speaker-diarization-3.1",
use_auth_token="Replace-with-the-Hugging-face-auth-token")
return model

Pakk modellkoden

Klargjør viktige filer som inference.py, som inneholder inferenskoden:

%%writefile model/code/inference.py
from PyAnnote.audio import Pipeline
import subprocess
import boto3
from urllib.parse import urlparse
import pandas as pd
from io import StringIO
import os
import torch

def model_fn(model_dir):
    # Load the model from the specified model directory
    model = Pipeline.from_pretrained(
        "PyAnnote/speaker-diarization-3.1",
        use_auth_token="hf_oBxxxxxxxxxxxx)
    return model 


def diarization_from_s3(model, s3_file, language=None):
    s3 = boto3.client("s3")
    o = urlparse(s3_file, allow_fragments=False)
    bucket = o.netloc
    key = o.path.lstrip("/")
    s3.download_file(bucket, key, "tmp.wav")
    result = model("tmp.wav")
    data = {} 
    for turn, _, speaker in result.itertracks(yield_label=True):
        data[turn] = (turn.start, turn.end, speaker)
    data_df = pd.DataFrame(data.values(), columns=["start", "end", "speaker"])
    print(data_df.shape)
    result = data_df.to_json(orient="split")
    return result


def predict_fn(data, model):
    s3_file = data.pop("s3_file")
    language = data.pop("language", None)
    result = diarization_from_s3(model, s3_file, language)
    return {
        "diarization_from_s3": result
    }

Forbered en requirements.txt fil, som inneholder de nødvendige Python-bibliotekene som er nødvendige for å kjøre slutningen:

with open("model/code/requirements.txt", "w") as f:
    f.write("transformers==4.25.1n")
    f.write("boto3n")
    f.write("PyAnnote.audion")
    f.write("soundfilen")
    f.write("librosan")
    f.write("onnxruntimen")
    f.write("wgetn")
    f.write("pandas")

Til slutt, komprimer inference.py og requirements.txt-filer og lagre den som model.tar.gz:

!tar zcvf model.tar.gz *

Konfigurer en SageMaker-modell

Definer en SageMaker-modellressurs ved å spesifisere bilde-URI, modelldataplassering i Amazon enkel lagringstjeneste (S3), og SageMaker-rolle:

import sagemaker
import boto3

sess = sagemaker.Session()

sagemaker_session_bucket = None
if sagemaker_session_bucket is None and sess is not None:
    sagemaker_session_bucket = sess.default_bucket()

try:
    role = sagemaker.get_execution_role()
except ValueError:
    iam = boto3.client("iam")
    role = iam.get_role(RoleName="sagemaker_execution_role")["Role"]["Arn"]

sess = sagemaker.Session(default_bucket=sagemaker_session_bucket)

print(f"sagemaker role arn: {role}")
print(f"sagemaker bucket: {sess.default_bucket()}")
print(f"sagemaker session region: {sess.boto_region_name}")

Last opp modellen til Amazon S3

Last opp den zippede PyAnnote Hugging Face-modellfilen til en S3-bøtte:

s3_location = f"s3://{sagemaker_session_bucket}/whisper/model/model.tar.gz"
!aws s3 cp model.tar.gz $s3_location

Opprett et SageMaker asynkront endepunkt

Konfigurer et asynkront endepunkt for å distribuere modellen på SageMaker ved å bruke den medfølgende asynkrone inferenskonfigurasjonen:

from sagemaker.huggingface.model import HuggingFaceModel
from sagemaker.async_inference.async_inference_config import AsyncInferenceConfig
from sagemaker.s3 import s3_path_join
from sagemaker.utils import name_from_base

async_endpoint_name = name_from_base("custom-asyc")

# create Hugging Face Model Class
huggingface_model = HuggingFaceModel(
    model_data=s3_location,  # path to your model and script
    role=role,  # iam role with permissions to create an Endpoint
    transformers_version="4.17",  # transformers version used
    pytorch_version="1.10",  # pytorch version used
    py_version="py38",  # python version used
)

# create async endpoint configuration
async_config = AsyncInferenceConfig(
    output_path=s3_path_join(
        "s3://", sagemaker_session_bucket, "async_inference/output"
    ),  # Where our results will be stored
    # Add nofitication SNS if needed
    notification_config={
        # "SuccessTopic": "PUT YOUR SUCCESS SNS TOPIC ARN",
        # "ErrorTopic": "PUT YOUR ERROR SNS TOPIC ARN",
    },  #  Notification configuration
)

env = {"MODEL_SERVER_WORKERS": "2"}

# deploy the endpoint endpoint
async_predictor = huggingface_model.deploy(
    initial_instance_count=1,
    instance_type="ml.xx",
    async_inference_config=async_config,
    endpoint_name=async_endpoint_name,
    env=env,
)

Test endepunktet

Evaluer endepunktfunksjonaliteten ved å sende en lydfil for diarisering og hente JSON-utdata som er lagret i den angitte S3-utgangsbanen:

# Replace with a path to audio object in S3
from sagemaker.async_inference import WaiterConfig
res = async_predictor.predict_async(data=data)
print(f"Response output path: {res.output_path}")
print("Start Polling to get response:")

config = WaiterConfig(
  max_attempts=10, #  number of attempts
  delay=10#  time in seconds to wait between attempts
  )
res.get_result(config)
#import waiterconfig

For å distribuere denne løsningen i stor skala, foreslår vi å bruke AWS Lambda, Amazon enkel varslingstjeneste (Amazon SNS), eller Amazon enkel køtjeneste (Amazon SQS). Disse tjenestene er designet for skalerbarhet, hendelsesdrevne arkitekturer og effektiv ressursutnyttelse. De kan bidra til å koble den asynkrone slutningsprosessen fra resultatbehandlingen, slik at du kan skalere hver komponent uavhengig og håndtere serier av slutningsforespørsler mer effektivt.

Resultater

Modellutdata lagres kl s3://sagemaker-xxxx /async_inference/output/. Utgangen viser at lydopptaket har blitt segmentert i tre kolonner:

Start (starttid i sekunder)
Slutt (sluttid i sekunder)
Høyttaler (høyttaleretikett)

Følgende kode viser et eksempel på resultatene våre:

[0.9762308998, 8.9049235993, "SPEAKER_01"]

[9.533106961, 12.1646859083, "SPEAKER_01"]

[13.1324278438, 13.9303904924, "SPEAKER_00"]

[14.3548387097, 26.1884550085, "SPEAKER_00"]

[27.2410865874, 28.2258064516, "SPEAKER_01"]

[28.3446519525, 31.298811545, "SPEAKER_01"]

Rydd opp

Du kan sette en skaleringspolicy til null ved å sette MinCapacity til 0; asynkron slutning lar deg automatisk skalere til null uten forespørsler. Du trenger ikke å slette endepunktet, det vekter fra null når det trengs igjen, noe som reduserer kostnadene når de ikke er i bruk. Se følgende kode:

# Common class representing application autoscaling for SageMaker 
client = boto3.client('application-autoscaling') 

# This is the format in which application autoscaling references the endpoint
resource_id='endpoint/' + <endpoint_name> + '/variant/' + <'variant1'> 

# Define and register your endpoint variant
response = client.register_scalable_target(
    ServiceNamespace='sagemaker', 
    ResourceId=resource_id,
    ScalableDimension='sagemaker:variant:DesiredInstanceCount', # The number of EC2 instances for your Amazon SageMaker model endpoint variant.
    MinCapacity=0,
    MaxCapacity=5
)

Hvis du vil slette endepunktet, bruk følgende kode:

async_predictor.delete_endpoint(async_endpoint_name)

Fordeler med asynkron endepunktdistribusjon

Denne løsningen gir følgende fordeler:

Løsningen kan effektivt håndtere flere eller store lydfiler.
Dette eksemplet bruker en enkelt forekomst for demonstrasjon. Hvis du vil bruke denne løsningen for hundrevis eller tusenvis av videoer og bruke et asynkront endepunkt for å behandle på tvers av flere forekomster, kan du bruke en retningslinjer for automatisk skalering, som er designet for et stort antall kildedokumenter. Automatisk skalering justerer dynamisk antall forekomster som er klargjort for en modell som svar på endringer i arbeidsbelastningen din.
Løsningen optimerer ressurser og reduserer systembelastningen ved å skille langvarige oppgaver fra sanntidsslutninger.

konklusjonen

I dette innlegget ga vi en enkel tilnærming til å distribuere Hugging Faces høyttalerdiariseringsmodell på SageMaker ved å bruke Python-skript. Ved å bruke et asynkront endepunkt får du en effektiv og skalerbar måte å levere diariseringsforutsigelser som en tjeneste, og imøtekomme samtidige forespørsler sømløst.

Kom i gang i dag med asynkron høyttalerdiaarisering for lydprosjektene dine. Ta kontakt i kommentarfeltet hvis du har spørsmål om å få ditt eget asynkrone diariseringsendepunkt i gang.

Om forfatterne

Distribuer en Hugging Face (PyAnnote) høyttalerdiariseringsmodell på Amazon SageMaker som et asynkront endepunkt | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Sanjay Tiwary er en spesialistløsningsarkitekt AI/ML som bruker tiden sin på å jobbe med strategiske kunder for å definere forretningskrav, gi L300-økter rundt spesifikke brukstilfeller og designe AI/ML-applikasjoner og -tjenester som er skalerbare, pålitelige og ytelsesdyktige. Han har hjulpet med å lansere og skalere den AI/ML-drevne Amazon SageMaker-tjenesten og har implementert flere proof of concept ved å bruke Amazon AI-tjenester. Han har også utviklet den avanserte analyseplattformen som en del av den digitale transformasjonsreisen.

Kiran Challapalli er en dypteknologisk forretningsutvikler med AWS offentlig sektor. Han har mer enn 8 års erfaring innen AI/ML og 23 års generell programvareutvikling og salgserfaring. Kiran hjelper offentlige virksomheter over hele India med å utforske og samskape skybaserte løsninger som bruker AI, ML og generativ AI – inkludert store språkmodeller – teknologier.

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
kilde: https://aws.amazon.com/blogs/machine-learning/deploy-a-hugging-face-pyannote-speaker-diarization-model-on-amazon-sagemaker-as-an-asynchronous-endpoint/

Tidstempel: April 25, 2024

Tidstempel: Desember 1, 2022

Distribuer en Hugging Face (PyAnnote) høyttalerdiariseringsmodell på Amazon SageMaker som et asynkront endepunkt | Amazon Web Services

Publisert av Platon

Løsningsoversikt

Forutsetninger

Lag en modellfunksjon for å få tilgang til PyAnnote-høyttalerdiarisering fra Hugging Face

Pakk modellkoden

Konfigurer en SageMaker-modell

Last opp modellen til Amazon S3

Opprett et SageMaker asynkront endepunkt

Test endepunktet

Resultater

Rydd opp

Fordeler med asynkron endepunktdistribusjon

konklusjonen

Om forfatterne

Mer fra AWS maskinlæring

Amazon SageMaker Automatic Model Tuning støtter nå tre nye fullføringskriterier for hyperparameteroptimalisering

Søk intelligent i Jira-prosjektene dine med Amazon Kendra Jira-skykobling

Les nettsider og fremhev innhold ved hjelp av Amazon Polly

Sikre Amazon SageMaker Studio forhåndsinnstilte URL-er Del 2: Privat API med JWT-autentisering

Bygg en agronomisk dataplattform med Amazon SageMaker geospatiale muligheter

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn