Amazon Transcribe är en fullt hanterad automatisk taligenkänning (ASR) tjänst som gör det enkelt för dig att lägga till tal-till-text-funktioner till dina applikationer. Idag är vi glada att kunna tillkännage nästa generations multi-miljardparameter talgrundande modelldrivna system som utökar automatisk taligenkänning till över 100 språk. I det här inlägget diskuterar vi några av fördelarna med detta system, hur företag använder det och hur man kommer igång. Vi ger också ett exempel på transkriptionsutdata nedan.
Transcribes talgrundmodell tränas med hjälp av klassens bästa, självövervakade algoritmer för att lära sig de inneboende universella mönstren för mänskligt tal över språk och accenter. Den är tränad på miljontals timmar av omärkt ljuddata från över 100 språk. Träningsrecepten är optimerade genom smart datasampling för att balansera träningsdata mellan språk, vilket säkerställer att traditionellt underrepresenterade språk också når höga noggrannhetsnivåer.
Carbyne är ett mjukvaruföretag som utvecklar molnbaserade, verksamhetskritiska kontaktcenterlösningar för nödsamtal. Carbynes uppdrag är att hjälpa räddningspersonal rädda liv, och språket kan inte komma i vägen för deras mål. Så här använder de Amazon Transcribe för att fullfölja sitt uppdrag:
"AI-driven Carbyne Live Audio Translation är direkt inriktad på att hjälpa till att förbättra nödberedskapen för de 68 miljoner amerikaner som talar ett annat språk än engelska hemma, utöver de upp till 79 miljoner utländska besökarna till landet årligen. Genom att utnyttja Amazon Transcribes nya flerspråkiga grundmodelldrivna ASR kommer Carbyne att vara ännu bättre rustad för att demokratisera livräddande räddningstjänster, eftersom Every. Person. Räknar.”
– Alex Dizengof, medgrundare och CTO för Carbyne.
Genom att utnyttja talgrundsmodellen levererar Amazon Transcribe en betydande noggrannhetsförbättring mellan 20 % och 50 % på de flesta språk. När det gäller telefoni, som är en utmanande och databrist domän, är förbättringen av noggrannheten mellan 30 % och 70 %. Förutom en avsevärd förbättring av noggrannheten, levererar den här stora ASR-modellen också förbättringar i läsbarhet med mer exakt interpunktion och versaler. Med tillkomsten av generativ AI använder tusentals företag Amazon Transcribe för att låsa upp rika insikter från deras ljudinnehåll. Med avsevärt förbättrad noggrannhet och stöd för över 100 språk kommer Amazon Transcribe att påverka alla sådana användningsfall positivt. Alla befintliga och nya kunder som använder Amazon Transcribe i batch-läge kan få tillgång till taligenkänning med talgrundsmodell utan att behöva ändra vare sig API-slutpunkten eller indataparametrar.
Det nya ASR-systemet levererar flera nyckelfunktioner på alla 100+ språk relaterade till användarvänlighet, anpassning, användarsäkerhet och integritet. Dessa inkluderar funktioner som automatisk skiljetecken, anpassat ordförråd, automatisk språkidentifiering, talardiarisering, konfidenspoäng på ordnivå och anpassat ordförrådsfilter. Systemets utökade stöd för olika accenter, brusmiljöer och akustiska förhållanden gör att du kan producera mer exakta utsignaler och hjälper dig därmed att effektivt bädda in röstteknik i dina applikationer.
Tack vare den höga noggrannheten hos Amazon Transcribe över olika accenter och brusförhållanden, dess stöd för ett stort antal språk och dess bredd av värdeskapande funktioner, kommer tusentals företag att få befogenhet att låsa upp rika insikter från deras ljudinnehåll, samt öka tillgängligheten och upptäckbarheten av deras ljud- och videoinnehåll över olika domäner. Till exempel transkriberar och analyserar kontaktcenter kundsamtal för att identifiera insikter och därefter förbättra kundupplevelsen och agentens produktivitet. Innehållsproducenter och mediedistributörer genererar automatiskt undertexter med hjälp av Amazon Transcribe för att förbättra innehållets tillgänglighet.
Kom igång med Amazon Transcribe
Du kan använda AWS-kommandoradsgränssnitt (AWS CLI), AWS Management Console, och olika AWS SDK: er för batch-transkriptioner och fortsätt att använda detsamma StartTranscriptionJob
API för att få prestandafördelar från den förbättrade ASR-modellen utan att behöva göra några kod- eller parameterändringar. För mer information om hur du använder AWS CLI och konsolen, se Transkribering med AWS CLI och Transkribera med AWS Management Console, Respektive.
Det första steget är att ladda upp dina mediefiler till en Amazon enkel lagringstjänst (Amazon S3) bucket, en objektlagringstjänst byggd för att lagra och hämta vilken mängd data som helst var som helst. Amazon S3 erbjuder branschledande hållbarhet, tillgänglighet, prestanda, säkerhet och praktiskt taget obegränsad skalbarhet till mycket låg kostnad. Du kan välja att spara din transkription i din egen S3-bucket, eller låta Amazon Transcribe använda en säker standard-bucket. För att lära dig mer om hur du använder S3-skopor, se Skapa, konfigurera och arbeta med Amazon S3-hinkar.
Transkriptionsutdata
Amazon Transcribe använder JSON-representation för sin produktion. Det ger transkriptionsresultatet i två olika format: textformat och specificerat format. Ingenting förändras med avseende på API-ändpunkten eller indataparametrar.
Textformatet tillhandahåller transkriptionen som ett textblock, medan specificerat format tillhandahåller transkriptionen i form av tidsbeställda transkriberade objekt, tillsammans med ytterligare metadata per artikel. Båda formaten finns parallellt i utdatafilen.
Beroende på vilka funktioner du väljer när du skapar transkriptionsjobbet, skapar Amazon Transcribe ytterligare och berikade vyer av transkriptionsresultatet. Se följande exempelkod:
Synpunkterna är följande:
- avskrifter – Representerad av
transcripts
element, innehåller det bara textformatet för transkriptionen. I scenarier med flera högtalare och flera kanaler tillhandahålls sammanlänkning av alla transkript som ett enda block. - högtalare – Representerad av
speaker_labels
elementet innehåller det texten och specificerade format för avskriften grupperade efter talare. Den är endast tillgänglig när funktionen för flera högtalare är aktiverad. - Kanaler – Representerad av
channel_labels
element, innehåller det texten och specificerade format för transkriptionen, grupperade efter kanal. Den är endast tillgänglig när flerkanalsfunktionen är aktiverad. - objekt – Representerad av
items
elementet, innehåller det endast det specificerade formatet för transkriptionen. I scenarier med flera högtalare och flera kanaler berikas objekten med ytterligare egenskaper, som indikerar högtalare och kanal. - Segment – Representerad av
segments
element, innehåller det texten och specificerade format för transkriptionen, grupperade efter alternativ transkription. Den är endast tillgänglig när funktionen för alternativa resultat är aktiverad.
Slutsats
På AWS förnyar vi ständigt på uppdrag av våra kunder. Genom att utöka språkstödet i Amazon Transcribe till över 100 språk gör vi det möjligt för våra kunder att betjäna användare från olika språkliga bakgrunder. Detta ökar inte bara tillgängligheten utan öppnar också nya vägar för kommunikation och informationsutbyte på global nivå. För att lära dig mer om funktionerna som diskuteras i det här inlägget, kolla in sidan med funktioner och vad är nytt inlägg.
Om författarna
Sumit Kumar är en huvudproduktchef, teknisk på AWS AI Language Services-teamet. Han har 10 års erfarenhet av produktledning inom en mängd olika domäner och brinner för AI/ML. Utanför jobbet älskar Sumit att resa och tycker om att spela cricket och grästennis.
Vivek Singh är Senior Manager, Product Management på AWS AI Language Services-teamet. Han leder produktteamet Amazon Transcribe. Innan han började på AWS hade han produktledningsroller i olika andra Amazon-organisationer som konsumentbetalningar och detaljhandel. Vivek bor i Seattle, WA och tycker om att springa och vandra.
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
- PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
- Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
- PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
- Källa: https://aws.amazon.com/blogs/machine-learning/amazon-transcribe-announces-a-new-speech-foundation-model-powered-asr-system-that-expands-support-to-over-100-languages/
- : har
- :är
- :inte
- $UPP
- 10
- 100
- 14
- 24
- 7
- a
- Om oss
- tillgång
- tillgänglighet
- noggrannhet
- exakt
- tvärs
- lägga till
- Dessutom
- Annat
- första advent
- Recensioner
- AI
- AI / ML
- syftar
- alex
- algoritmer
- Alla
- längs
- också
- alternativ
- amason
- Amazon Transcribe
- Amazon Web Services
- Amerikaner
- mängd
- an
- analysera
- och
- Meddela
- tillkännager
- Årligen
- vilken som helst
- var som helst
- api
- tillämpningar
- ÄR
- AS
- At
- audio
- Automat
- automatiskt
- tillgänglighet
- tillgänglig
- vägar
- AWS
- bakgrunder
- Balansera
- BE
- därför att
- vägnar
- nedan
- Fördelarna
- Bättre
- mellan
- Blockera
- båda
- bredd
- byggt
- men
- by
- Ring
- Samtal
- KAN
- kapacitet
- kapitalisering
- fall
- Centrum
- Centers
- utmanande
- byta
- Förändringar
- Kanal
- kanaler
- ta
- Välja
- Medgrundare
- koda
- Kommunikation
- Företag
- företag
- Avslutade
- villkor
- förtroende
- konfigurering
- Konsol
- ständigt
- Konsumenten
- kontakta
- kontaktcenter
- innehåller
- innehåll
- fortsätta
- Pris
- land
- skapar
- Skapa
- kricket
- CTO
- beställnings
- kund
- kundupplevelse
- Kunder
- anpassning
- datum
- Standard
- levererar
- DEMOKRATISERA
- utvecklar
- olika
- direkt
- diskutera
- diskuteras
- distributörer
- flera
- domän
- domäner
- hållbarhet
- lätta
- enkel användning
- effektivt
- antingen
- elementet
- embed
- nödsituation
- befogenhet
- möjliggöra
- aktiverad
- möjliggör
- änden
- Slutpunkt
- Engelska
- förbättrad
- Förbättrar
- berikad
- säkerställa
- företag
- miljöer
- utrustad
- Även
- Varje
- exempel
- utbyta
- existerar
- befintliga
- expanderade
- expanderar
- erfarenhet
- sträcker
- Leverans
- Funktioner
- Fil
- Filer
- filtrera
- Förnamn
- efter
- följer
- För
- utländska
- formen
- format
- fundament
- från
- fullständigt
- generera
- generativ
- Generativ AI
- skaffa sig
- Välgörenhet
- global skala
- Mål
- lyckligt
- Har
- he
- Held
- hjälpa
- hjälpa
- hjälper
- här.
- hi
- Hög
- Hem
- ÖPPETTIDER
- Hur ser din drömresa ut
- How To
- html
- http
- HTTPS
- humant
- Identifiering
- identifiera
- Inverkan
- förbättra
- förbättras
- förbättring
- förbättringar
- in
- innefattar
- Öka
- branschledande
- informationen
- inneboende
- nyskapande
- ingång
- insikter
- exempel
- in
- IT
- artikel
- DESS
- Jobb
- sammanfogning
- jpg
- json
- Nyckel
- språk
- Språk
- Large
- Leads
- LÄRA SIG
- nivåer
- hävstångs
- linje
- lever
- Bor
- älskar
- Låg
- göra
- GÖR
- förvaltade
- ledning
- chef
- Media
- metadata
- miljon
- miljoner
- Mission
- Mode
- modell
- mer
- mest
- behöver
- Nya
- nästa generation
- Brus
- inget
- antal
- objektet
- of
- Erbjudanden
- on
- endast
- öppnas
- optimerad
- or
- organisationer
- Övriga
- vår
- ut
- produktion
- utgångar
- utanför
- över
- egen
- Parallell
- parameter
- parametrar
- brinner
- mönster
- betalningar
- för
- prestanda
- personen
- plato
- Platon Data Intelligence
- PlatonData
- i
- positivt
- Inlägg
- drivs
- Principal
- Innan
- privatpolicy
- producera
- producenter
- Produkt
- produktledning
- produktchef
- produktivitet
- egenskaper
- ge
- förutsatt
- ger
- bedriva
- nå
- erkännande
- hänvisa
- relaterad
- representation
- representerade
- avseende
- respektive
- respons
- resultera
- Resultat
- detaljhandeln
- Rik
- roller
- rinnande
- Säkerhet
- Samma
- Save
- skalbarhet
- Skala
- scenarier
- Seattle
- säkra
- säkerhet
- se
- segment
- välj
- senior
- tjänar
- service
- Tjänster
- uppsättningar
- flera
- signifikant
- signifikant
- Enkelt
- enda
- smarta
- Mjukvara
- Lösningar
- några
- tala
- Högtalare
- högtalare
- tal
- Taligenkänning
- tal-till-text
- igång
- status
- Steg
- förvaring
- lagra
- okomplicerad
- Senare
- väsentlig
- undertexter
- sådana
- stödja
- system
- grupp
- Teknisk
- Tekniken
- text
- än
- den där
- Smakämnen
- deras
- vari
- Dessa
- de
- detta
- tusentals
- Genom
- tid
- till
- i dag
- traditionellt
- tränad
- Utbildning
- Avskrift
- Översättning
- färdas
- två
- Universell
- obegränsat
- låsa
- användning
- Användare
- användare
- användningar
- med hjälp av
- mängd
- olika
- mycket
- Video
- visningar
- praktiskt taget
- besökare
- Röst
- Sätt..
- we
- webb
- webbservice
- välkommen
- VÄL
- när
- medan
- som
- VEM
- kommer
- med
- utan
- Arbete
- arbetssätt
- år
- Om er
- Din
- zephyrnet