Identificer automatisk sprog i flersproget lyd ved hjælp af Amazon Transscribe

Genudgivet af Platon

Abonnenter: 0

Hvis du opererer i et land med flere officielle sprog eller på tværs af flere regioner, kan dine lydfiler indeholde forskellige sprog. Deltagerne taler muligvis helt andre sprog eller kan skifte mellem sprog. Overvej at ringe til kundeservice for at rapportere et problem i et område med en betydelig flersproget befolkning. Selvom samtalen kunne begynde på ét sprog, er det muligt, at kunden skifter til et andet sprog for at beskrive problemet, afhængigt af komfortniveau eller brugspræferencer med andre sprog. På samme måde kan kundeservicerepræsentanten skifte mellem sprog, mens han formidler betjenings- eller fejlfindingsinstruktioner.

Med mindst 3 sekunders lyd, Amazon Transcrib kan automatisk identificere og effektivt generere transskriptioner på de sprog, der tales i lyden, uden at mennesker behøver at specificere sprogene. Dette gælder for forskellige use cases såsom transskribering af kundeopkald, konvertering af voicemails til tekst, indfangning af mødeinteraktioner, sporing af brugerforums kommunikation eller overvågning af medieindholdsproduktion og lokaliseringsarbejdsgange.

Dette indlæg gennemgår trinene til transskribering af en flersproget lydfil ved hjælp af Amazon Transcribe. Vi diskuterer, hvordan man gør lydfiler tilgængelige for Amazon Transcribe og aktiverer transskription af flersprogede lydfiler, når man kalder Amazon Transcribe API'er.

Løsningsoversigt

Amazon Transcribe er en AWS-tjeneste, der gør det nemt for dig at konvertere tale til tekst. Det er nemt at tilføje tale til tekst-funktionalitet til enhver applikation ved hjælp af Amazon Transcribe, en automatisk talegenkendelsestjeneste (ASR). Du kan indtage lydinput ved hjælp af Amazon Transcribe, skabe klare transskriptioner, der er nemme at læse og gennemgå, øge nøjagtigheden med tilpasning og filtrere oplysninger for at beskytte klientens privatliv.

Løsningen bruger også Amazon Simple Storage Service (Amazon S3), en objektlagringstjeneste bygget til at gemme og hente enhver mængde data fra hvor som helst. Det er en simpel lagertjeneste, der tilbyder brancheførende holdbarhed, tilgængelighed, ydeevne, sikkerhed og praktisk talt ubegrænset skalerbarhed til meget lave omkostninger. Når du gemmer data i Amazon S3, arbejder du med ressourcer kendt som spande , objekter. En spand er en beholder til genstande. Et objekt er en fil og alle metadata, der beskriver filen.

I dette indlæg leder vi dig gennem følgende trin for at implementere en flersproget lydtransskriptionsløsning:

Opret en S3-spand.
Upload din lydfil til bøtten.
Opret transskriptionsjobbet.
Gennemgå joboutputtet.

Forudsætninger

For denne gennemgang skal du have følgende forudsætninger:

Amazon Transcribe giver mulighed for at gemme transskriberet output i enten en serviceadministreret eller kundeadministreret S3-bøtte. Til dette indlæg har vi Amazon Transcribe til at skrive resultaterne til en servicestyret S3-bøtte.

Bemærk, at Amazon Transcribe er en regional tjeneste, og Amazon Transcribe API-endepunkterne, der kaldes, skal være i samme region som S3-buckets.

Opret en S3-bøtte til at gemme dine lydinputfiler

For at oprette din S3-spand skal du udføre følgende trin:

På Amazon S3-konsollen skal du vælge Opret spand.
Til Navn på spand, skal du indtaste et globalt unikt navn til bøtten.
Til AWS-regionen, skal du vælge det samme område som dine Amazon Transcribe API-slutpunkter.
Lad alle standardindstillinger være som de er.
Vælg Opret spand.

Upload din lydfil til S3-bøtten

Upload din flersprogede lydfil til S3-bøtten på din AWS-konto. Til formålet med denne øvelse bruger vi følgende eksempel flersproget lydfil. Det fanger et kundesupportopkald, der involverer engelsk og spansk.

På Amazon S3-konsollen skal du vælge spande i navigationsruden.
Vælg den bøtte, du tidligere har oprettet til lagring af input-lydfiler.
Vælg Upload.
Vælg Tilføj filer.
Vælg den lydfil, du vil transskribere fra din lokale computer.
Vælg Upload.

Din lydfil vil snart være tilgængelig i S3-bøtten.

Opret transskriptionsjobbet

Med lydfilen uploadet opretter vi nu et transskriptionsjob.

På Amazon Transscribe-konsollen skal du vælge Transskription job i navigationsruden.
Vælg Skab job.
Til Navn, indtast et unikt navn for jobbet.
Dette vil også være navnet på output-transskriptionsfilen.
Til Sprogindstillinger, Vælg Automatisk identifikation af flere sprog.
Denne funktion gør det muligt for Amazon Transcribe automatisk at identificere og transskribere alle sprog, der tales i lydfilen.
Til Sprogmuligheder til automatisk sprogidentifikation, lad det være umarkeret.
Amazon Transcribe identificerer og transskriberer automatisk alle sprog, der tales i lyden. For at forbedre transskriptionsnøjagtigheden kan du valgfrit vælge to eller flere sprog, du ved, blev talt i lyden.
Til Model type, kun the Generel model mulighed er tilgængelig på tidspunktet for skrivning af dette indlæg.
Til Indtast data, vælg Gennemse S3.
Vælg den lydkildefil, vi uploadede tidligere.
Til Outputdata, kan du vælge en af dem Servicestyret S3-spand or Kundespecificeret S3 spand. For dette indlæg skal du vælge Servicestyret S3-spand.
Vælg Næste.
Vælg Skab job.

Gennemgå joboutputtet

Når transskriptionsjobbet er færdigt, skal du åbne transskriptionsjobbet.

Rul ned til Forhåndsvisning af transskription afsnit. Lydtransskriptionen vises på tekst fanen. Transskriptionen omfatter både den engelske og spanske del af samtalen.

Du kan eventuelt downloade en kopi af transskriptionen som en JSON-fil, som du kan bruge til yderligere analyser efter opkald.

Ryd op

For at undgå fremtidige afgifter skal du tømme og slette S3-bøtten, du oprettede til lagring af inputlydkildefilen. Sørg for, at du har filerne gemt et andet sted, da dette vil permanent fjerne alle objekter i bøtten. På Amazon Transcribe-konsollen skal du vælge og slette det job, der tidligere er oprettet til transskriptionen.

Konklusion

I dette indlæg oprettede vi en ende-til-ende arbejdsgang for at automatisere identifikation og transskription af flersprogede lydfiler uden at skrive nogen kode. Vi brugte den nye funktionalitet i Amazon Transcribe til automatisk at identificere forskellige sprog i en lydfil og transskribere hvert sprog korrekt.

For mere information henvises til Sprogidentifikation med batch-transskriptionsjob.

Om forfatterne

Murtuza Bootwala er Senior Solutions Architect hos AWS med interesse for AI/ML-teknologier. Han nyder at arbejde med kunder for at hjælpe dem med at opnå deres forretningsresultater. Uden for arbejdet nyder han udendørsaktiviteter og at tilbringe tid med familien.

Victor Red brænder for AI/ML og softwareudvikling. Han hjalp med at få Amazon Alexa op at køre i USA og Mexico. Han bragte også Amazon Textract til AWS Partners og fik AWS Contact Center Intelligence (CCI) i gang. Han er i øjeblikket Global Tech Leader for Conversational AI Partners.

Babu Srinivasan er en AWS Sr. Specialist SA (Language AI Services) baseret i Chicago. Han fokuserer på Amazon Transcribe (tale til tekst), og hjælper vores kunder med at bruge AI-tjenester til at løse forretningsproblemer. Uden for arbejdet nyder han at arbejde med træ og udføre trylleshows.

Tidsstempel: 14. December, 202214. December, 2022

Tidsstempel: Juli 8, 2022

Overfør læring til TensorFlow-billedklassificeringsmodeller i Amazon SageMaker

Kildeklynge:

AWS maskinindlæring

Kildeknude: 1655641

Tidsstempel: September 7, 2022

Amazon SageMaker indbyggede LightGBM tilbyder nu distribueret træning ved hjælp af Dask

Kildeklynge:

AWS maskinindlæring

Kildeknude: 1797416

Tidsstempel: Jan 30, 2023

Identificer automatisk sprog i flersproget lyd ved hjælp af Amazon Transcribe

Genudgivet af Platon

Løsningsoversigt

Forudsætninger

Opret en S3-bøtte til at gemme dine lydinputfiler

Upload din lydfil til S3-bøtten

Opret transskriptionsjobbet

Gennemgå joboutputtet

Ryd op

Konklusion

Om forfatterne

Mere fra AWS maskinindlæring

Byg en forudsigelig vedligeholdelsesløsning med Amazon Kinesis, AWS Glue og Amazon SageMaker

Gør det muligt for synshandicappede at høre dokumenter ved hjælp af Amazon Textract og Amazon Polly

Skalatræning og inferens af tusindvis af ML-modeller med Amazon SageMaker | Amazon Web Services

AWS tilbyder ny kunstig intelligens, maskinlæring og generative AI-guider til at planlægge din AI-strategi | Amazon Web Services

Onboard PaddleOCR med Amazon SageMaker Projects for MLOps til at udføre optisk tegngenkendelse på identitetsdokumenter

Overfør læring til TensorFlow-billedklassificeringsmodeller i Amazon SageMaker

Amazon SageMaker indbyggede LightGBM tilbyder nu distribueret træning ved hjælp af Dask

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto