Amazon Transcribe annoncerer et nyt Speech Foundation-modeldrevet ASR-system, der udvider support til over 100 sprog

Genudgivet af Platon

Abonnenter: 0

Amazon Transcrib er en fuldt administreret automatisk talegenkendelsestjeneste (ASR), der gør det nemt for dig at tilføje tale-til-tekst-funktioner til dine applikationer. I dag er vi glade for at kunne annoncere et næste generations multi-milliard parameter talefundament modeldrevet system, der udvider automatisk talegenkendelse til over 100 sprog. I dette indlæg diskuterer vi nogle af fordelene ved dette system, hvordan virksomheder bruger det, og hvordan man kommer i gang. Vi giver også et eksempel på transskriptionsoutput nedenfor.

Transcribes talefundamentmodel er trænet ved at bruge klassens bedste, selvovervågede algoritmer for at lære de iboende universelle mønstre af menneskelig tale på tværs af sprog og accenter. Den er trænet på millioner af timers umærkede lyddata fra over 100 sprog. Træningsopskrifterne er optimeret gennem smart datasampling for at balancere træningsdata mellem sprog, hvilket sikrer, at traditionelt underrepræsenterede sprog også når høje nøjagtighedsniveauer.

Carbyne er en softwarevirksomhed, der udvikler cloud-baserede, missionskritiske kontaktcenterløsninger til nødopkald. Carbynes mission er at hjælpe beredskabspersonale med at redde liv, og sproget kan ikke komme i vejen for deres mål. Sådan bruger de Amazon Transcribe til at forfølge deres mission:

"AI-drevet Carbyne Live Audio Translation er direkte rettet mod at hjælpe med at forbedre nødberedskab for de 68 millioner amerikanere, der taler et andet sprog end engelsk derhjemme, foruden de op til 79 millioner udenlandske besøgende til landet årligt. Ved at udnytte Amazon Transcribes nye flersprogede basismodeldrevne ASR, vil Carbyne være endnu bedre rustet til at demokratisere livreddende nødtjenester, fordi Every. Person. Tæller."

– Alex Dizengof, medstifter og CTO i Carbyne.

Ved at udnytte talefundamentmodellen leverer Amazon Transcribe en væsentlig forbedring af nøjagtigheden mellem 20 % og 50 % på tværs af de fleste sprog. På telefonitale, som er et udfordrende og datafattigt domæne, er nøjagtighedsforbedringen mellem 30 % og 70 %. Ud over en væsentlig forbedring af nøjagtigheden leverer denne store ASR-model også forbedringer i læsbarheden med mere nøjagtig tegnsætning og store bogstaver. Med fremkomsten af generativ AI bruger tusindvis af virksomheder Amazon Transcribe til at låse op for rig indsigt fra deres lydindhold. Med markant forbedret nøjagtighed og understøttelse af over 100 sprog, vil Amazon Transcribe have en positiv indvirkning på alle sådanne use cases. Alle eksisterende og nye kunder, der bruger Amazon Transcribe i batch-tilstand, kan få adgang til talefundamentmodeldrevet talegenkendelse uden at skulle ændre hverken API-endepunktet eller inputparametrene.

Det nye ASR-system leverer adskillige nøglefunktioner på tværs af alle 100+ sprog relateret til brugervenlighed, tilpasning, brugersikkerhed og privatliv. Disse omfatter funktioner såsom automatisk tegnsætning, brugerdefineret ordforråd, automatisk sprogidentifikation, højttalerdiarisering, tillidsscore på ordniveau og brugerdefineret ordforrådsfilter. Systemets udvidede understøttelse af forskellige accenter, støjmiljøer og akustiske forhold gør dig i stand til at producere mere nøjagtige output og hjælper dig derved med effektivt at integrere stemmeteknologier i dine applikationer.

Takket være Amazon Transcribes høje nøjagtighed på tværs af forskellige accenter og støjforhold, dets understøttelse af et stort antal sprog og dets bredde af værdiskabende funktionssæt, vil tusinder af virksomheder blive bemyndiget til at låse op for rig indsigt fra deres lydindhold, samt øge tilgængeligheden og opdagelsen af deres lyd- og videoindhold på tværs af forskellige domæner. For eksempel transskriberer og analyserer kontaktcentre kundeopkald for at identificere indsigt og efterfølgende forbedre kundeoplevelsen og agentproduktiviteten. Indholdsproducenter og mediedistributører genererer automatisk undertekster ved hjælp af Amazon Transcribe for at forbedre indholdets tilgængelighed.

Kom godt i gang med Amazon Transcribe

Du kan bruge AWS kommandolinjegrænseflade (AWS CLI), AWS Management Console, og forskellige AWS SDK'er til batch-transskriptioner og fortsæt med at bruge det samme StartTranscriptionJob API for at få ydeevnefordele fra den forbedrede ASR-model uden at skulle foretage kode- eller parameterændringer fra din side. For mere information om brug af AWS CLI og konsollen, se Transskribering med AWS CLI , Transskribering med AWS Management Console, henholdsvis.

Det første trin er at uploade dine mediefiler til en Amazon Simple Storage Service (Amazon S3) bucket, en objektlagringstjeneste bygget til at gemme og hente enhver mængde data hvor som helst. Amazon S3 tilbyder brancheførende holdbarhed, tilgængelighed, ydeevne, sikkerhed og praktisk talt ubegrænset skalerbarhed til meget lave omkostninger. Du kan vælge at gemme din transskription i din egen S3-bøtte eller lade Amazon Transcribe bruge en sikker standardbøtte. For at lære mere om brug af S3 spande, se Oprettelse, konfiguration og arbejde med Amazon S3 buckets.

Transskriptionsoutput

Amazon Transcribe bruger JSON-repræsentation til sit output. Det giver transskriptionsresultatet i to forskellige formater: tekstformat og specificeret format. Intet ændres med hensyn til API-endepunktet eller inputparametrene.

Tekstformatet giver transskriptionen som en tekstblok, hvorimod specificeret format giver transskriptionen i form af rettidigt bestilte transskriberede elementer sammen med yderligere metadata pr. element. Begge formater eksisterer parallelt i outputfilen.

Afhængigt af de funktioner, du vælger, når du opretter transskriptionsjobbet, opretter Amazon Transcribe yderligere og berigede visninger af transskriptionsresultatet. Se følgende eksempelkode:

{ "jobName": "2x-speakers_2x-channels", "accountId": "************", "results": { "transcripts": [
{ "transcript": "Hi, welcome." } ], "speaker_labels": [ { "channel_label": "ch_0", "speakers": 2, "segments": [ ] }, { "channel_label": "ch_1", "speakers": 2, "segments": [ ] } ], "channel_labels": { "channels": [ ], "number_of_channels": 2 }, "items": [ ], "segments": [ ] }, "status": "COMPLETED"
}

Synspunkterne er som følger:

afskrifter – Repræsenteret af transcripts element, indeholder det kun tekstformatet for transskriptionen. I multi-højttaler, multi-kanal scenarier, er sammenkædning af alle transskriptioner tilvejebragt som en enkelt blok.
Højttalere – Repræsenteret af speaker_labels element, indeholder det teksten og specificerede formater af transskriptionen grupperet efter taler. Den er kun tilgængelig, når multi-højttalerfunktionen er aktiveret.
Kanaler – Repræsenteret af channel_labels element, indeholder det teksten og specificerede formater af transskriptionen, grupperet efter kanal. Den er kun tilgængelig, når funktionen med flere kanaler er aktiveret.
Varer – Repræsenteret af items element, indeholder det kun det specificerede format af transskriptionen. I multi-højttaler, multi-kanal scenarier, er elementer beriget med yderligere egenskaber, der indikerer højttaler og kanal.
Segmenter – Repræsenteret af segments element, indeholder det teksten og specificerede formater af transskriptionen, grupperet efter alternativ transskription. Den er kun tilgængelig, når funktionen alternative resultater er aktiveret.

Konklusion

Hos AWS fornyer vi konstant på vegne af vores kunder. Ved at udvide sprogunderstøttelsen i Amazon Transcribe til over 100 sprog, gør vi det muligt for vores kunder at betjene brugere fra forskellige sproglige baggrunde. Dette øger ikke kun tilgængeligheden, men åbner også nye veje for kommunikation og informationsudveksling på globalt plan. For at lære mere om funktionerne diskuteret i dette indlæg, tjek ud side med funktioner , hvad er nyt indlæg.

Om forfatterne

Sumit Kumar er en hovedproduktchef, teknisk hos AWS AI Language Services-teamet. Han har 10 års erfaring med produktledelse på tværs af en række forskellige domæner og brænder for AI/ML. Uden for arbejdet elsker Sumit at rejse og kan lide at spille cricket og græsplæne.

Amazon Transcribe announces a new speech foundation model-powered ASR system that expands support to over 100 languages | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Vivek Singh er Senior Manager, Product Management hos AWS AI Language Services team. Han leder Amazon Transcribe-produktteamet. Før han kom til AWS, havde han produktstyringsroller på tværs af forskellige andre Amazon-organisationer såsom forbrugerbetalinger og detailhandel. Vivek bor i Seattle, WA og nyder at løbe og vandre.