Identificați automat limbile în audio multilingv folosind Amazon Transcribe

Republicat de Platon

Urmaritori: 0

Dacă operați într-o țară cu mai multe limbi oficiale sau în mai multe regiuni, fișierele dvs. audio pot conține limbi diferite. Participanții pot vorbi limbi complet diferite sau pot comuta între limbi. Luați în considerare un apel de serviciu pentru clienți pentru a raporta o problemă într-o zonă cu o populație substanțială multilingvă. Deși conversația ar putea începe într-o singură limbă, este posibil ca clientul să schimbe o altă limbă pentru a descrie problema, în funcție de nivelul de confort sau de preferințele de utilizare cu alte limbi. În mod similar, reprezentantul asistenței pentru clienți poate trece între limbi în timp ce transmite instrucțiuni de operare sau de depanare.

Cu minim 3 secunde de sunet, Transcriere Amazon poate identifica automat și genera eficient transcrieri în limbile vorbite în audio, fără a fi nevoie de oameni pentru a specifica limbile. Acest lucru se aplică diferitelor cazuri de utilizare, cum ar fi transcrierea apelurilor clienților, conversia mesajelor vocale în text, captarea interacțiunilor întâlnirilor, urmărirea comunicărilor utilizatorilor pe forum sau monitorizarea fluxurilor de lucru și de localizare a conținutului media.

Această postare prezintă pașii pentru transcrierea unui fișier audio în mai multe limbi folosind Amazon Transcribe. Discutăm despre cum să punem la dispoziție fișierele audio pentru Amazon Transcribe și să activăm transcrierea fișierelor audio în mai multe limbi atunci când apelăm API-urile Amazon Transcribe.

Prezentare generală a soluțiilor

Amazon Transcribe este un serviciu AWS care vă ajută să convertiți vorbirea în text. Adăugarea funcției de vorbire la text în orice aplicație este simplă cu ajutorul Amazon Transcribe, un serviciu de recunoaștere automată a vorbirii (ASR). Puteți asimila intrări audio utilizând Amazon Transcribe, puteți crea transcrieri clare care sunt ușor de citit și de revizuit, de a crește acuratețea cu personalizarea și de a filtra informațiile pentru a proteja confidențialitatea clientului.

Soluția folosește și Serviciul Amazon de stocare simplă (Amazon S3), un serviciu de stocare a obiectelor construit pentru a stoca și a prelua orice cantitate de date de oriunde. Este un serviciu de stocare simplu care oferă durabilitate, disponibilitate, performanță, securitate și scalabilitate practic nelimitată la un cost foarte scăzut. Când stocați date în Amazon S3, lucrați cu resurse cunoscute ca găleți și obiecte. O găleată este un recipient pentru obiecte. Un obiect este un fișier și orice metadate care descriu fișierul.

În această postare, vă prezentăm următorii pași pentru a implementa o soluție de transcriere audio multilingvă:

Creați o găleată S3.
Încărcați fișierul audio în găleată.
Creați jobul de transcriere.
Examinați rezultatul lucrării.

Cerințe preliminare

Pentru această prezentare generală, ar trebui să aveți următoarele condiții prealabile:

Amazon Transcribe oferă opțiunea de a stoca rezultatul transcris fie într-un compartiment S3 gestionat de servicii, fie într-un compartiment S3 gestionat de client. Pentru această postare, Amazon Transcribe scrie rezultatele într-un bucket SXNUMX gestionat de servicii.

Rețineți că Amazon Transcribe este un serviciu regional, iar punctele finale API Amazon Transcribe care sunt apelate trebuie să fie în aceeași regiune cu compartimentele S3.

Creați o găleată S3 pentru a stoca fișierele de intrare audio

Pentru a vă crea bucket-ul S3, parcurgeți următorii pași:

În consola Amazon S3, alegeți Creați găleată.
Pentru Numele cupei, introduceți un nume unic la nivel global pentru compartiment.
Pentru Regiunea AWS, alegeți aceeași regiune ca și punctele finale ale API-ului Amazon Transcribe.
Lăsați toate setările implicite așa cum sunt.
Alege Creați găleată.

Încărcați fișierul audio în compartimentul S3

Încărcați fișierul audio multilingv în compartimentul S3 din contul dvs. AWS. În scopul acestui exercițiu, folosim următorul exemplu fișier audio multilingv. Acesta captează un apel de asistență pentru clienți care implică limbile engleză și spaniolă.

În consola Amazon S3, alegeți Cupă în panoul de navigare.
Alegeți găleata creată anterior pentru stocarea fișierelor audio de intrare.
Alege Încărcați.
Alege Adăugați fișiere.
Alegeți fișierul audio pe care doriți să îl transcrieți de pe computerul local.
Alege Încărcați.

Fișierul dvs. audio va fi disponibil în curând în compartimentul S3.

Creați jobul de transcriere

Cu fișierul audio încărcat, acum creăm o lucrare de transcriere.

Pe consola Amazon Transcribe, alegeți Lucrări de transcriere în panoul de navigare.
Alege Creați loc de muncă.
Pentru Nume si Prenume, introduceți un nume unic pentru job.
Acesta va fi, de asemenea, numele fișierului de transcriere de ieșire.
Pentru Setările de limbă, Selectați Identificare automată în mai multe limbi.
Această funcție permite Amazon Transcribe să identifice și să transcrie automat toate limbile vorbite în fișierul audio.
Pentru Opțiuni de limbă pentru identificarea automată a limbii, lăsați-l neselectat.
Amazon Transcribe identifică și transcrie automat toate limbile vorbite în audio. Pentru a îmbunătăți acuratețea transcripției, puteți selecta opțional două sau mai multe limbi despre care știți că au fost vorbite în audio.
Pentru Tipul modelului, doar Model general opțiunea este disponibilă în momentul scrierii acestei postări.
Pentru Date de intrare, alege Răsfoiți S3.
Alegeți fișierul sursă audio pe care l-am încărcat anterior.
Pentru Date de ieșire, puteți selecta oricare Bucket S3 gestionat de service or Bucket S3 specificat de client. Pentru această postare, selectați Bucket S3 gestionat de service.
Alege Pagina Următoare →.
Alege Creați loc de muncă.

Examinați rezultatul lucrării

Când lucrarea de transcriere este finalizată, deschideți lucrarea de transcriere.

Derulați în jos până la Previzualizare transcriere secțiune. Transcrierea audio este afișată pe Text fila. Transcrierea include atât porțiunile în engleză, cât și în spaniolă ale conversației.

Puteți descărca opțional o copie a transcripției ca fișier JSON, pe care îl puteți folosi pentru mai departe analize post-apel.

A curăța

Pentru a evita costurile viitoare, goliți și ștergeți compartimentul S3 pe care l-ați creat pentru stocarea fișierului sursă audio de intrare. Asigurați-vă că aveți fișierele stocate în altă parte, deoarece acest lucru va elimina definitiv toate obiectele conținute în găleată. Pe consola Amazon Transcribe, selectați și ștergeți jobul creat anterior pentru transcriere.

Concluzie

În această postare, am creat un flux de lucru end-to-end pentru a automatiza identificarea și transcrierea fișierelor audio multilingve, fără a scrie niciun cod. Am folosit noua funcționalitate din Amazon Transcribe pentru a identifica automat diferite limbi într-un fișier audio și a transcrie corect fiecare limbă.

Pentru mai multe informații, consultați Identificarea limbii cu joburi de transcriere în lot.

Despre Autori

Murtuza Bootwala este arhitect senior de soluții la AWS și este interesat de tehnologiile AI/ML. Îi place să lucreze cu clienții pentru a-i ajuta să-și atingă rezultatele afacerii. În afara serviciului, îi plac activitățile în aer liber și petrece timpul cu familia.

Victor Red este pasionat de AI/ML și dezvoltarea de software. El a ajutat la funcționarea Amazon Alexa în SUA și Mexic. De asemenea, a adus Amazon Texttract partenerilor AWS și a lansat AWS Contact Center Intelligence (CCI). În prezent, este liderul tehnologic global pentru partenerii conversaționali AI.

Babu Srinivasan este un AWS Sr. Specialist SA (Language AI Services) cu sediul în Chicago. El se concentrează pe Amazon Transcribe (vorbire în text), ajutându-i pe clienții noștri să folosească serviciile AI pentru a rezolva problemele de afaceri. În afara serviciului, îi place să lucreze lemnul și să facă spectacole de magie.

Timestamp-ul: December 14, 2022December 14, 2022

Timestamp-ul: Iulie 8, 2022

Transferați învățarea pentru modelele de clasificare a imaginilor TensorFlow în Amazon SageMaker

Cluster sursă:

Învățare automată AWS

Nodul sursă: 1655641

Timestamp-ul: Septembrie 7, 2022

Amazon SageMaker LightGBM încorporat oferă acum instruire distribuită folosind Dask

Cluster sursă:

Învățare automată AWS

Nodul sursă: 1797416

Timestamp-ul: Jan 30, 2023

Identificați automat limbile în audio multilingv folosind Amazon Transcribe

Republicat de Platon

Prezentare generală a soluțiilor

Cerințe preliminare

Creați o găleată S3 pentru a stoca fișierele de intrare audio

Încărcați fișierul audio în compartimentul S3

Creați jobul de transcriere

Examinați rezultatul lucrării

A curăța

Concluzie

Despre Autori

Mai mult de la Învățare automată AWS

Creați o soluție de întreținere predictivă cu Amazon Kinesis, AWS Glue și Amazon SageMaker

Permiteți persoanelor cu deficiențe de vedere să audă documente folosind Amazon Texttract și Amazon Polly

Scalați antrenamentul și deducerea a mii de modele ML cu Amazon SageMaker | Amazon Web Services

AWS oferă noi ghiduri de inteligență artificială, învățare automată și AI generativă pentru a vă planifica strategia AI | Amazon Web Services

PaddleOCR la bord cu Amazon SageMaker Projects pentru MLOps pentru a realiza recunoașterea optică a caracterelor pe documentele de identitate

Transferați învățarea pentru modelele de clasificare a imaginilor TensorFlow în Amazon SageMaker

Amazon SageMaker LightGBM încorporat oferă acum instruire distribuită folosind Dask

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont