Identifiser automatisk språk i flerspråklig lyd ved å bruke Amazon Transcribe

Publisert av Platon

Følgere: 0

Hvis du opererer i et land med flere offisielle språk eller på tvers av flere regioner, kan lydfilene dine inneholde forskjellige språk. Deltakerne kan snakke helt andre språk eller kan bytte mellom språk. Vurder å ringe kundeservice for å rapportere et problem i et område med en betydelig flerspråklig befolkning. Selv om samtalen kan begynne på ett språk, er det mulig at kunden kan bytte til et annet språk for å beskrive problemet, avhengig av komfortnivå eller brukspreferanser med andre språk. På samme måte kan kundeservicerepresentanten bytte mellom språk mens han formidler bruks- eller feilsøkingsinstruksjoner.

Med minimum 3 sekunder med lyd, Amazon Transcribe kan automatisk identifisere og effektivt generere transkripsjoner på språkene som snakkes i lyden uten at mennesker trenger å spesifisere språkene. Dette gjelder ulike brukstilfeller som transkribere kundeanrop, konvertere talemeldinger til tekst, fange møteinteraksjoner, spore brukerforumkommunikasjon eller overvåke medieinnholdsproduksjon og lokaliseringsarbeidsflyter.

Dette innlegget går gjennom trinnene for å transkribere en flerspråklig lydfil ved hjelp av Amazon Transcribe. Vi diskuterer hvordan du gjør lydfiler tilgjengelig for Amazon Transcribe og aktiverer transkripsjon av flerspråklige lydfiler når du kaller Amazon Transcribe APIer.

Løsningsoversikt

Amazon Transcribe er en AWS-tjeneste som gjør det enkelt for deg å konvertere tale til tekst. Det er enkelt å legge til tale-til-tekst-funksjonalitet til enhver applikasjon ved hjelp av Amazon Transcribe, en automatisert talegjenkjenningstjeneste (ASR). Du kan ta inn lydinndata ved å bruke Amazon Transcribe, lage klare transkripsjoner som er enkle å lese og se gjennom, øke nøyaktigheten med tilpasning og filtrere informasjon for å beskytte klientens personvern.

Løsningen bruker også Amazon enkel lagringstjeneste (Amazon S3), en objektlagringstjeneste bygget for å lagre og hente en hvilken som helst mengde data fra hvor som helst. Det er en enkel lagringstjeneste som tilbyr bransjeledende holdbarhet, tilgjengelighet, ytelse, sikkerhet og praktisk talt ubegrenset skalerbarhet til svært lave kostnader. Når du lagrer data i Amazon S3, jobber du med ressurser kjent som bøtter og gjenstander. En bøtte er en beholder for gjenstander. Et objekt er en fil og alle metadata som beskriver filen.

I dette innlegget leder vi deg gjennom følgende trinn for å implementere en flerspråklig lydtranskripsjonsløsning:

Lag en S3-bøtte.
Last opp lydfilen til bøtta.
Opprett transkripsjonsjobben.
Se gjennom jobbutgangen.

Forutsetninger

For dette gjennomgangen bør du ha følgende forutsetninger:

Amazon Transcribe gir muligheten til å lagre transkriberte utdata i enten en tjenesteadministrert eller kundeadministrert S3-bøtte. For dette innlegget har vi Amazon Transcribe skrive resultatene til en tjenesteadministrert S3-bøtte.

Merk at Amazon Transcribe er en regional tjeneste og Amazon Transcribe API-endepunktene som kalles opp må være i samme region som S3-bøttene.

Lag en S3-bøtte for å lagre lydinndatafilene dine

For å lage din S3-bøtte, fullfør følgende trinn:

Velg på Amazon S3-konsollen Lag bøtte.
Til Bøtte navn, skriv inn et globalt unikt navn for bøtten.
Til AWS-regionen, velg samme region som Amazon Transcribe API-endepunktene dine.
La alle standardverdier være som de er.
Velg Lag bøtte.

Last opp lydfilen til S3-bøtten

Last opp din flerspråklige lydfil til S3-bøtten i AWS-kontoen din. For formålet med denne øvelsen bruker vi følgende eksempel flerspråklig lydfil. Den fanger opp en kundestøttesamtale som involverer engelsk og spansk.

Velg på Amazon S3-konsollen Bøtter i navigasjonsruten.
Velg bøtten du opprettet tidligere for lagring av lydfiler.
Velg Last opp.
Velg Legg til filer.
Velg lydfilen du vil transkribere fra din lokale datamaskin.
Velg Last opp.

Lydfilen din vil snart være tilgjengelig i S3-bøtten.

Opprett transkripsjonsjobben

Med lydfilen lastet opp oppretter vi nå en transkripsjonsjobb.

På Amazon Transkriberingskonsollen velger du Transkripsjonsjobber i navigasjonsruten.
Velg Lag jobb.
Til Navn, skriv inn et unikt navn for jobben.
Dette vil også være navnet på utskriftsfilen.
Til Språkinnstillinger, plukke ut Automatisk identifikasjon av flere språk.
Denne funksjonen lar Amazon Transcribe automatisk identifisere og transkribere alle språk som snakkes i lydfilen.
Til Språkalternativer for automatisk språkidentifikasjon, la det være umarkert.
Amazon Transcribe identifiserer og transkriberer automatisk alle språk som snakkes i lyden. For å forbedre transkripsjonsnøyaktigheten kan du velge to eller flere språk du vet ble snakket i lyden.
Til Modell type, bare den Generell modell alternativet er tilgjengelig når du skriver dette innlegget.
Til Inndata, velg Bla gjennom S3.
Velg lydkildefilen vi lastet opp tidligere.
Til Utdata, kan du velge en av dem Servicestyrt S3-bøtte or Kundespesifisert S3-bøtte. For dette innlegget, velg Servicestyrt S3-bøtte.
Velg neste.
Velg Lag jobb.

Se gjennom jobbutgangen

Når transkripsjonsjobben er fullført, åpner du transkripsjonsjobben.

Rull ned til Forhåndsvisning av transkripsjon seksjon. Lydtranskripsjonen vises på tekst fanen. Transkripsjonen inkluderer både den engelske og spanske delen av samtalen.

Du kan eventuelt laste ned en kopi av transkripsjonen som en JSON-fil, som du kan bruke til videre analyser etter anrop.

Rydd opp

For å unngå fremtidige kostnader, tøm og slett S3-bøtten du opprettet for lagring av lydkildefilen. Sørg for at du har filene lagret et annet sted fordi dette vil permanent fjerne alle objekter i bøtta. På Amazon Transcribe-konsollen velger og sletter du jobben som tidligere er opprettet for transkripsjonen.

konklusjonen

I dette innlegget opprettet vi en ende-til-ende arbeidsflyt for å automatisere identifikasjon og transkripsjon av flerspråklige lydfiler, uten å skrive noen kode. Vi brukte den nye funksjonaliteten i Amazon Transcribe for automatisk å identifisere forskjellige språk i en lydfil og transkribere hvert språk riktig.

For mer informasjon, se Språkidentifikasjon med batch-transkripsjonsjobber.

Om forfatterne

Murtuza Bootwala er Senior Solutions Architect hos AWS med interesse for AI/ML-teknologier. Han liker å jobbe med kunder for å hjelpe dem med å oppnå sine forretningsresultater. Utenom jobben liker han utendørsaktiviteter og tilbringe tid med familien.

Victor Red brenner for AI/ML og programvareutvikling. Han hjalp til med å få Amazon Alexa i gang i USA og Mexico. Han brakte også Amazon Textract til AWS Partners og fikk AWS Contact Center Intelligence (CCI) i gang. Han er for tiden Global Tech Leader for Conversational AI Partners.

Babu Srinivasan er en AWS Sr. Specialist SA (Language AI Services) basert i Chicago. Han fokuserer på Amazon Transcribe (tale til tekst), og hjelper kundene våre å bruke AI-tjenester for å løse forretningsproblemer. Utenom jobben liker han å trearbeide og fremføre trylleshow.

Tidstempel: Desember 14, 2022Desember 14, 2022

Tidstempel: Juli 8, 2022

Overfør læring for TensorFlow bildeklassifiseringsmodeller i Amazon SageMaker

Kildeklynge:

AWS maskinlæring

Kilde node: 1655641

Tidstempel: September 7, 2022

Amazon SageMaker innebygde LightGBM tilbyr nå distribuert opplæring ved hjelp av Dask

Kildeklynge:

AWS maskinlæring

Kilde node: 1797416

Tidstempel: Jan 30, 2023

Identifiser automatisk språk i flerspråklig lyd ved hjelp av Amazon Transcribe

Publisert av Platon

Løsningsoversikt

Forutsetninger

Lag en S3-bøtte for å lagre lydinndatafilene dine

Last opp lydfilen til S3-bøtten

Opprett transkripsjonsjobben

Se gjennom jobbutgangen

Rydd opp

konklusjonen

Om forfatterne

Mer fra AWS maskinlæring

Bygg en prediktiv vedlikeholdsløsning med Amazon Kinesis, AWS Glue og Amazon SageMaker

Gjør det mulig for synshemmede å høre dokumenter ved hjelp av Amazon Textract og Amazon Polly

Skalertrening og slutninger av tusenvis av ML-modeller med Amazon SageMaker | Amazon Web Services

AWS tilbyr ny kunstig intelligens, maskinlæring og generative AI-guider for å planlegge AI-strategien din | Amazon Web Services

Onboard PaddleOCR med Amazon SageMaker Projects for MLOps for å utføre optisk tegngjenkjenning på identitetsdokumenter

Overfør læring for TensorFlow bildeklassifiseringsmodeller i Amazon SageMaker

Amazon SageMaker innebygde LightGBM tilbyr nå distribuert opplæring ved hjelp av Dask

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn