Amazon Transcribe kunngjør et nytt Speech Foundation-modelldrevet ASR-system som utvider støtten til over 100 språk

Publisert av Platon

Følgere: 0

Amazon Transcribe er en fullt administrert automatisk talegjenkjenningstjeneste (ASR) som gjør det enkelt for deg å legge til tale-til-tekst-funksjoner i applikasjonene dine. I dag er vi glade for å kunngjøre et neste generasjons multi-milliard parameter talefundament modelldrevet system som utvider automatisk talegjenkjenning til over 100 språk. I dette innlegget diskuterer vi noen av fordelene med dette systemet, hvordan bedrifter bruker det og hvordan du kommer i gang. Vi gir også et eksempel på transkripsjonsutgangen nedenfor.

Transkriberingsmodellen for talegrunnlag er trent ved å bruke klassens beste, selvovervåkede algoritmer for å lære de iboende universelle mønstrene til menneskelig tale på tvers av språk og aksenter. Den er trent på millioner av timer med umerket lyddata fra over 100 språk. Treningsoppskriftene er optimalisert gjennom smart datasampling for å balansere treningsdataene mellom språk, og sikre at tradisjonelt underrepresenterte språk også når høye nøyaktighetsnivåer.

Carbyne er et programvareselskap som utvikler skybaserte, virksomhetskritiske kontaktsenterløsninger for nødanrop. Carbynes oppgave er å hjelpe nødhjelpspersonell med å redde liv, og språk kan ikke komme i veien for målene deres. Her er hvordan de bruker Amazon Transcribe for å forfølge sitt oppdrag:

«AI-drevet Carbyne Live Audio Translation er direkte rettet mot å bidra til å forbedre nødresponsen for de 68 millioner amerikanerne som snakker et annet språk enn engelsk hjemme, i tillegg til de opptil 79 millioner utenlandske besøkende til landet årlig. Ved å utnytte Amazon Transcribes nye flerspråklige grunnmodelldrevne ASR, vil Carbyne være enda bedre rustet til å demokratisere livreddende nødtjenester, fordi Every. Person. Teller."

– Alex Dizengof, medgründer og CTO i Carbyne.

Ved å utnytte talefundamentmodellen leverer Amazon Transcribe en betydelig nøyaktighetsforbedring mellom 20 % og 50 % på de fleste språk. På telefoni tale, som er et utfordrende og dataknappt domene, er nøyaktighetsforbedringen mellom 30 % og 70 %. I tillegg til en betydelig forbedring av nøyaktigheten, leverer denne store ASR-modellen også forbedringer i lesbarhet med mer nøyaktig tegnsetting og store bokstaver. Med fremkomsten av generativ AI bruker tusenvis av bedrifter Amazon Transcribe for å låse opp rik innsikt fra lydinnholdet. Med betydelig forbedret nøyaktighet og støtte for over 100 språk, vil Amazon Transcribe ha en positiv innvirkning på alle slike brukstilfeller. Alle eksisterende og nye kunder som bruker Amazon Transcribe i batch-modus kan få tilgang til talefundamentmodelldrevet talegjenkjenning uten å måtte endre hverken API-endepunktet eller inngangsparametere.

Det nye ASR-systemet leverer flere nøkkelfunksjoner på tvers av alle de 100+ språkene knyttet til brukervennlighet, tilpasning, brukersikkerhet og personvern. Disse inkluderer funksjoner som automatisk tegnsetting, tilpasset vokabular, automatisk språkidentifikasjon, høyttalerdiarisering, selvtillitspoeng på ordnivå og tilpasset vokabularfilter. Systemets utvidede støtte for forskjellige aksenter, støymiljøer og akustiske forhold gjør at du kan produsere mer nøyaktige utganger og hjelper deg dermed effektivt å bygge inn stemmeteknologier i applikasjonene dine.

Aktivert av den høye nøyaktigheten til Amazon Transcribe på tvers av forskjellige aksenter og støyforhold, støtten for et stort antall språk og bredden av verdiøkende funksjonssett, vil tusenvis av bedrifter få myndighet til å låse opp rik innsikt fra lydinnholdet deres, samt øke tilgjengeligheten og oppdagelsen av lyd- og videoinnholdet deres på tvers av ulike domener. For eksempel transkriberer og analyserer kontaktsentre kundeanrop for å identifisere innsikt og deretter forbedre kundeopplevelsen og agentproduktiviteten. Innholdsprodusenter og mediedistributører genererer automatisk undertekster ved hjelp av Amazon Transcribe for å forbedre tilgjengeligheten til innhold.

Kom i gang med Amazon Transcribe

Du kan også bruke det AWS kommandolinjegrensesnitt (AWS CLI), AWS-administrasjonskonsoll, og forskjellige AWS SDK-er for batch-transkripsjoner og fortsett å bruke det samme StartTranscriptionJob API for å få ytelsesfordeler fra den forbedrede ASR-modellen uten å måtte gjøre noen kode- eller parameterendringer på din side. For mer informasjon om bruk av AWS CLI og konsollen, se Transkribere med AWS CLI og Transkribere med AWS Management ConsoleHhv.

Det første trinnet er å laste opp mediefilene dine til en Amazon enkel lagringstjeneste (Amazon S3) bøtte, en objektlagringstjeneste bygget for å lagre og hente alle mengder data fra hvor som helst. Amazon S3 tilbyr bransjeledende holdbarhet, tilgjengelighet, ytelse, sikkerhet og praktisk talt ubegrenset skalerbarhet til svært lave kostnader. Du kan velge å lagre transkripsjonen i din egen S3-bøtte, eller la Amazon Transcribe bruke en sikker standardbøtte. For å lære mer om bruk av S3-bøtter, se Opprette, konfigurere og jobbe med Amazon S3-bøtter.

Transkripsjonsutgang

Amazon Transcribe bruker JSON-representasjon for utdata. Det gir transkripsjonsresultatet i to forskjellige formater: tekstformat og spesifisert format. Ingenting endres med hensyn til API-endepunktet eller inngangsparametere.

Tekstformatet gir transkripsjonen som en tekstblokk, mens spesifisert format gir transkripsjonen i form av tidsbestilte transkriberte elementer, sammen med ytterligere metadata per element. Begge formatene eksisterer parallelt i utdatafilen.

Avhengig av funksjonene du velger når du oppretter transkripsjonsjobben, oppretter Amazon Transcribe ytterligere og berikede visninger av transkripsjonsresultatet. Se følgende eksempelkode:

{ "jobName": "2x-speakers_2x-channels", "accountId": "************", "results": { "transcripts": [
{ "transcript": "Hi, welcome." } ], "speaker_labels": [ { "channel_label": "ch_0", "speakers": 2, "segments": [ ] }, { "channel_label": "ch_1", "speakers": 2, "segments": [ ] } ], "channel_labels": { "channels": [ ], "number_of_channels": 2 }, "items": [ ], "segments": [ ] }, "status": "COMPLETED"
}

Synspunktene er som følger:

Avskrifter – Representert av transcripts element, inneholder det bare tekstformatet til transkripsjonen. I scenarier med flere høyttalere og flere kanaler er sammenkobling av alle transkripsjoner gitt som en enkelt blokk.
Høyttalere – Representert av speaker_labels element, inneholder det teksten og spesifiserte formater for transkripsjonen gruppert etter høyttaler. Den er bare tilgjengelig når multi-høyttalerfunksjonen er aktivert.
kanaler – Representert av channel_labels element, inneholder det teksten og spesifiserte formater for transkripsjonen, gruppert etter kanal. Den er bare tilgjengelig når flerkanalsfunksjonen er aktivert.
elementer – Representert av items element, inneholder det bare det spesifiserte formatet til transkripsjonen. I scenarier med flere høyttalere og flere kanaler, er elementene beriket med tilleggsegenskaper, som indikerer høyttaler og kanal.
segmenter – Representert av segments element, inneholder det teksten og spesifiserte formater for transkripsjonen, gruppert etter alternativ transkripsjon. Den er bare tilgjengelig når funksjonen for alternative resultater er aktivert.

konklusjonen

Hos AWS innoverer vi hele tiden på vegne av kundene våre. Ved å utvide språkstøtten i Amazon Transcribe til over 100 språk, gjør vi det mulig for kundene våre å betjene brukere fra ulike språklige bakgrunner. Dette øker ikke bare tilgjengeligheten, men åpner også nye veier for kommunikasjon og informasjonsutveksling på global skala. For å lære mer om funksjonene som er omtalt i dette innlegget, sjekk ut funksjonssiden og hva er nytt innlegg.

Om forfatterne

Sumit Kumar er en hovedproduktsjef, teknisk hos AWS AI Language Services-teamet. Han har 10 års erfaring med produktledelse på tvers av en rekke domener og brenner for AI/ML. Utenom jobben elsker Sumit å reise og liker å spille cricket og tennis.

Amazon Transcribe kunngjør et nytt talefundament-modelldrevet ASR-system som utvider støtten til over 100 språk | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Vivek Singh er Senior Manager, Product Management hos AWS AI Language Services-teamet. Han leder produktteamet for Amazon Transcribe. Før han begynte i AWS, hadde han produktadministrasjonsroller på tvers av forskjellige andre Amazon-organisasjoner som forbrukerbetalinger og detaljhandel. Vivek bor i Seattle, WA og liker å løpe og gå på fotturer.