Identifiser språk automatisk i flerspråklig lyd ved hjelp av Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Identifiser automatisk språk i flerspråklig lyd ved hjelp av Amazon Transcribe

Hvis du opererer i et land med flere offisielle språk eller på tvers av flere regioner, kan lydfilene dine inneholde forskjellige språk. Deltakerne kan snakke helt andre språk eller kan bytte mellom språk. Vurder å ringe kundeservice for å rapportere et problem i et område med en betydelig flerspråklig befolkning. Selv om samtalen kan begynne på ett språk, er det mulig at kunden kan bytte til et annet språk for å beskrive problemet, avhengig av komfortnivå eller brukspreferanser med andre språk. På samme måte kan kundeservicerepresentanten bytte mellom språk mens han formidler bruks- eller feilsøkingsinstruksjoner.

Med minimum 3 sekunder med lyd, Amazon Transcribe kan automatisk identifisere og effektivt generere transkripsjoner på språkene som snakkes i lyden uten at mennesker trenger å spesifisere språkene. Dette gjelder ulike brukstilfeller som transkribere kundeanrop, konvertere talemeldinger til tekst, fange møteinteraksjoner, spore brukerforumkommunikasjon eller overvåke medieinnholdsproduksjon og lokaliseringsarbeidsflyter.

Dette innlegget går gjennom trinnene for å transkribere en flerspråklig lydfil ved hjelp av Amazon Transcribe. Vi diskuterer hvordan du gjør lydfiler tilgjengelig for Amazon Transcribe og aktiverer transkripsjon av flerspråklige lydfiler når du kaller Amazon Transcribe APIer.

Løsningsoversikt

Amazon Transcribe er en AWS-tjeneste som gjør det enkelt for deg å konvertere tale til tekst. Det er enkelt å legge til tale-til-tekst-funksjonalitet til enhver applikasjon ved hjelp av Amazon Transcribe, en automatisert talegjenkjenningstjeneste (ASR). Du kan ta inn lydinndata ved å bruke Amazon Transcribe, lage klare transkripsjoner som er enkle å lese og se gjennom, øke nøyaktigheten med tilpasning og filtrere informasjon for å beskytte klientens personvern.

Løsningen bruker også Amazon enkel lagringstjeneste (Amazon S3), en objektlagringstjeneste bygget for å lagre og hente en hvilken som helst mengde data fra hvor som helst. Det er en enkel lagringstjeneste som tilbyr bransjeledende holdbarhet, tilgjengelighet, ytelse, sikkerhet og praktisk talt ubegrenset skalerbarhet til svært lave kostnader. Når du lagrer data i Amazon S3, jobber du med ressurser kjent som bøtter og gjenstander. En bøtte er en beholder for gjenstander. Et objekt er en fil og alle metadata som beskriver filen.

I dette innlegget leder vi deg gjennom følgende trinn for å implementere en flerspråklig lydtranskripsjonsløsning:

  1. Lag en S3-bøtte.
  2. Last opp lydfilen til bøtta.
  3. Opprett transkripsjonsjobben.
  4. Se gjennom jobbutgangen.

Forutsetninger

For dette gjennomgangen bør du ha følgende forutsetninger:

Amazon Transcribe gir muligheten til å lagre transkriberte utdata i enten en tjenesteadministrert eller kundeadministrert S3-bøtte. For dette innlegget har vi Amazon Transcribe skrive resultatene til en tjenesteadministrert S3-bøtte.

Merk at Amazon Transcribe er en regional tjeneste og Amazon Transcribe API-endepunktene som kalles opp må være i samme region som S3-bøttene.

Lag en S3-bøtte for å lagre lydinndatafilene dine

For å lage din S3-bøtte, fullfør følgende trinn:

  1. Velg på Amazon S3-konsollen Lag bøtte.
  2. Til Bøtte navn, skriv inn et globalt unikt navn for bøtten.
  3. Til AWS-regionen, velg samme region som Amazon Transcribe API-endepunktene dine.
    Identifiser språk automatisk i flerspråklig lyd ved hjelp av Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  4. La alle standardverdier være som de er.
  5. Velg Lag bøtte.
    Identifiser språk automatisk i flerspråklig lyd ved hjelp av Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Last opp lydfilen til S3-bøtten

Last opp din flerspråklige lydfil til S3-bøtten i AWS-kontoen din. For formålet med denne øvelsen bruker vi følgende eksempel flerspråklig lydfil. Den fanger opp en kundestøttesamtale som involverer engelsk og spansk.

  1. Velg på Amazon S3-konsollen Bøtter i navigasjonsruten.
  2. Velg bøtten du opprettet tidligere for lagring av lydfiler.
  3. Velg Last opp.
    Identifiser språk automatisk i flerspråklig lyd ved hjelp av Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  4. Velg Legg til filer.
    Identifiser språk automatisk i flerspråklig lyd ved hjelp av Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  5. Velg lydfilen du vil transkribere fra din lokale datamaskin.
    Identifiser språk automatisk i flerspråklig lyd ved hjelp av Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  6. Velg Last opp.
    Identifiser språk automatisk i flerspråklig lyd ved hjelp av Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Lydfilen din vil snart være tilgjengelig i S3-bøtten.

Opprett transkripsjonsjobben

Med lydfilen lastet opp oppretter vi nå en transkripsjonsjobb.

  1. På Amazon Transkriberingskonsollen velger du Transkripsjonsjobber i navigasjonsruten.
  2. Velg Lag jobb.
    Identifiser språk automatisk i flerspråklig lyd ved hjelp av Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  3. Til Navn, skriv inn et unikt navn for jobben.
    Dette vil også være navnet på utskriftsfilen.
  4. Til Språkinnstillinger, plukke ut Automatisk identifikasjon av flere språk.
    Denne funksjonen lar Amazon Transcribe automatisk identifisere og transkribere alle språk som snakkes i lydfilen.
    Identifiser språk automatisk i flerspråklig lyd ved hjelp av Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  5. Til Språkalternativer for automatisk språkidentifikasjon, la det være umarkert.
    Amazon Transcribe identifiserer og transkriberer automatisk alle språk som snakkes i lyden. For å forbedre transkripsjonsnøyaktigheten kan du velge to eller flere språk du vet ble snakket i lyden.
    Identifiser språk automatisk i flerspråklig lyd ved hjelp av Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  6. Til Modell type, bare den Generell modell alternativet er tilgjengelig når du skriver dette innlegget.
  7. Til Inndata, velg Bla gjennom S3.
  8. Velg lydkildefilen vi lastet opp tidligere.
    Identifiser språk automatisk i flerspråklig lyd ved hjelp av Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  9. Til Utdata, kan du velge en av dem Servicestyrt S3-bøtte or Kundespesifisert S3-bøtte. For dette innlegget, velg Servicestyrt S3-bøtte.
    Identifiser språk automatisk i flerspråklig lyd ved hjelp av Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  10. Velg neste.
  11. Velg Lag jobb.

Se gjennom jobbutgangen

Når transkripsjonsjobben er fullført, åpner du transkripsjonsjobben.
Identifiser språk automatisk i flerspråklig lyd ved hjelp av Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Rull ned til Forhåndsvisning av transkripsjon seksjon. Lydtranskripsjonen vises på tekst fanen. Transkripsjonen inkluderer både den engelske og spanske delen av samtalen.
Identifiser språk automatisk i flerspråklig lyd ved hjelp av Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Du kan eventuelt laste ned en kopi av transkripsjonen som en JSON-fil, som du kan bruke til videre analyser etter anrop.

Rydd opp

For å unngå fremtidige kostnader, tøm og slett S3-bøtten du opprettet for lagring av lydkildefilen. Sørg for at du har filene lagret et annet sted fordi dette vil permanent fjerne alle objekter i bøtta. På Amazon Transcribe-konsollen velger og sletter du jobben som tidligere er opprettet for transkripsjonen.

konklusjonen

I dette innlegget opprettet vi en ende-til-ende arbeidsflyt for å automatisere identifikasjon og transkripsjon av flerspråklige lydfiler, uten å skrive noen kode. Vi brukte den nye funksjonaliteten i Amazon Transcribe for automatisk å identifisere forskjellige språk i en lydfil og transkribere hvert språk riktig.

For mer informasjon, se Språkidentifikasjon med batch-transkripsjonsjobber.


Om forfatterne

Identifiser språk automatisk i flerspråklig lyd ved hjelp av Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Murtuza Bootwala er Senior Solutions Architect hos AWS med interesse for AI/ML-teknologier. Han liker å jobbe med kunder for å hjelpe dem med å oppnå sine forretningsresultater. Utenom jobben liker han utendørsaktiviteter og tilbringe tid med familien.

Identifiser språk automatisk i flerspråklig lyd ved hjelp av Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Victor Red brenner for AI/ML og programvareutvikling. Han hjalp til med å få Amazon Alexa i gang i USA og Mexico. Han brakte også Amazon Textract til AWS Partners og fikk AWS Contact Center Intelligence (CCI) i gang. Han er for tiden Global Tech Leader for Conversational AI Partners.

Identifiser språk automatisk i flerspråklig lyd ved hjelp av Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Babu Srinivasan er en AWS Sr. Specialist SA (Language AI Services) basert i Chicago. Han fokuserer på Amazon Transcribe (tale til tekst), og hjelper kundene våre å bruke AI-tjenester for å løse forretningsproblemer. Utenom jobben liker han å trearbeide og fremføre trylleshow.

Tidstempel:

Mer fra AWS maskinlæring