Personalize Your Machine Translation Results By Using Fuzzy Matching With Amazon Translate

Republicat de Platon

Urmaritori: 0

Limba vernaculară a unei persoane face parte din caracteristicile care le fac unice. Există adesea nenumărate moduri diferite de a exprima o idee specifică. Când o firmă comunică cu clienții, este esențial ca mesajul să fie transmis într-un mod care să reprezinte cel mai bine informațiile pe care încearcă să le transmită. Acest lucru devine și mai important atunci când vine vorba de traduceri profesionale în limbi. Clienții sistemelor și serviciilor de traducere se așteaptă la rezultate precise și extrem de personalizate. Pentru a realiza acest lucru, ei reutiliza adesea rezultate de traducere anterioare – numite memorie de traducere (TM) – și le compară cu textul introdus nou. În traducerea asistată de calculator, această tehnică este cunoscută ca potrivire fuzzy. Funcția principală a potrivirii neclare este de a asista traducătorul prin accelerarea procesului de traducere. Atunci când o potrivire exactă nu poate fi găsită în baza de date TM pentru textul care este tradus, sistemele de management al traducerii (TMS) au adesea opțiunea de a căuta o potrivire mai puțin decât exactă. Potențialele potriviri sunt furnizate traducătorului ca intrare suplimentară pentru traducerea finală. Traducători care își îmbunătățesc fluxul de lucru cu capabilități de traducere automată, cum ar fi Traducerea Amazon așteaptă adesea ca datele de potrivire neclare să fie utilizate ca parte a soluției de traducere automată.

În această postare, învățați cum să personalizați rezultatul de la Amazon Translate în funcție de scorurile de calitate ale potrivirii neclare ale memoriei de traducere.

Potrivirea calității traducerii

Formatul fișierului de schimb de localizare XML (XLIFF) standard este adesea folosit ca format de schimb de date între TMS și Amazon Translate. Fișierele XLIFF produse de TMS includ date text sursă și țintă, împreună cu scoruri de calitate a potrivirii bazate pe TM-ul disponibil. Aceste scoruri - de obicei exprimate ca procent - indică cât de aproape este memoria de traducere de textul tradus.

Unii clienți cu cerințe foarte stricte doresc ca traducerea automată să fie utilizată numai atunci când scorurile de calitate a potrivirii sunt sub un anumit prag. Dincolo de acest prag, ei se așteaptă ca propria memorie de traducere să aibă prioritate. Traducătorii trebuie adesea să aplice aceste preferințe manual, fie în TMS-ul lor, fie modificând datele text. Acest flux este ilustrat în diagrama următoare. Sistemul de traducere automată procesează datele de traducere — text și scoruri de potrivire neclară — care sunt apoi revizuite și editate manual de traducători, pe baza pragurilor de calitate dorite. Aplicarea pragurilor ca parte a pasului de traducere automată vă permite să eliminați acești pași manuali, ceea ce îmbunătățește eficiența și optimizează costurile.

Figura 1: Fluxul de revizuire a traducerii automate

Soluția prezentată în această postare vă permite să aplicați reguli bazate pe pragurile scorului de calitate a potrivirii pentru a determina dacă un anumit text de intrare ar trebui tradus automat de Amazon Translate sau nu. Atunci când nu este tradus automat, textul rezultat este lăsat la latitudinea traducătorilor care revizuiesc rezultatul final.

Arhitectura soluției

Arhitectura soluției ilustrată în Figura 2 folosește următoarele servicii:

Serviciul Amazon de stocare simplă – Bucket-urile Amazon S3 conțin următorul conținut:
- Fișiere de configurare a pragului de potrivire neclară
- Text sursă de tradus
- Amazon Translate locațiile datelor de intrare și de ieșire
Manager sistem AWS - Folosim Magazin de parametri parametrii pentru a stoca valorile de configurare a pragului de calitate a potrivirii
AWS Lambdas – Folosim două funcții Lambda:
- O funcție preprocesează fișierele de configurare a pragului de potrivire a calității și păstrează datele în Parameter Store
- O singură funcție creează automat joburile de traducere asincronă
Serviciul de coadă simplă Amazon – O coadă Amazon SQS declanșează fluxul de traducere ca urmare a noilor fișiere care vin în compartimentul sursă

Figura 2: Arhitectura soluției

Mai întâi configurați praguri de calitate pentru lucrările dvs. de traducere prin editarea unui fișier de configurare și încărcarea acestuia în compartimentul S3 de configurare a pragului de potrivire neclară. Mai jos este un exemplu de configurare în format CSV. Am ales CSV pentru simplitate, deși puteți folosi orice format. Fiecare linie reprezintă un prag care trebuie aplicat fie unui anumit job de traducere, fie ca valoare implicită pentru orice job.

default, 75
SourceMT-Test, 80

Specificațiile fișierului de configurare sunt următoarele:

Coloana 1 ar trebui să fie completată cu numele fișierului XLIFF – fără extensie – furnizat jobului Amazon Translate ca date de intrare.
Coloana 2 trebuie completată cu pragul procentual de potrivire a calității. Pentru orice scor sub această valoare, se folosește traducerea automată.
Pentru toate fișierele XLIFF al căror nume nu se potrivește cu niciunul din fișierul de configurare, se folosește pragul implicit - linia cu cuvântul cheie default stabilit în coloana 1.

Figura 3: Parametru generat automat în Systems Manager Parameter Store

Când este încărcat un fișier nou, Amazon S3 declanșează funcția Lambda responsabilă de procesarea parametrilor. Această funcție citește și stochează parametrii de prag în Parameter Store pentru utilizare ulterioară. Utilizarea Parameter Store evită efectuarea de solicitări redundante Amazon S3 GET de fiecare dată când este inițiată o nouă lucrare de traducere. Exemplul de fișier de configurare produce etichetele de parametri afișate în următoarea captură de ecran.

Funcția Lambda de inițializare a jobului utilizează acești parametri pentru a preprocesa datele înainte de a invoca Amazon Translate. Folosim un fișier de intrare XLIFF de traducere din engleză în spaniolă, așa cum se arată în codul următor. Conține textul inițial care urmează să fie tradus, defalcat în ceea ce se numește segmente, reprezentat în etichetele sursă.

<group id="g8"> <trans-unit id="t8" translate="yes"> <source>Consent Form</source> <target state-qualifier="fuzzy-match"/> <alt-trans extype="fuzzy-match" match-quality="99%" > <source>CONSENT FORM</source> <target>FORMULARIO DE CONSENTIMIENTO</target> </alt-trans> </trans-unit>
</group> <group id="g67"> <trans-unit id="t110" translate="yes"> <source>Screening Visit:</source> <target state-qualifier="fuzzy-match"/> <alt-trans extype="fuzzy-match" match-quality="50%"> <source>Screening Visit</source> <target>Selección</target> </alt-trans> </trans-unit>
</group>

Textul sursă a fost pre-potrivit cu memoria de traducere în prealabil. Datele conțin posibile alternative de traducere—reprezentate ca <alt-trans> etichete — alături de un atribut de calitate a potrivirii, exprimat ca procent. Regula de afaceri este următoarea:

Segmentele primite cu traduceri alternative și o calitate a potrivirii sub prag sunt neatinse sau goale. Acest lucru semnalează Amazon Translate că trebuie traduse.
Segmentele primite cu traduceri alternative cu o calitate a potrivirii peste prag sunt pre-populate cu textul țintă sugerat. Amazon Translate omite acele segmente.

Să presupunem că pragul de potrivire a calității configurat pentru această lucrare este de 80%. Primul segment cu o calitate a potrivirii de 99% nu este tradus automat, în timp ce al doilea segment este, deoarece calitatea potrivirii este sub pragul definit. În această configurație, Amazon Translate produce următorul rezultat:

<group id="g8"> <trans-unit id="t8" translate="yes"> <source>Consent Form</source> <target state-qualifier="fuzzy-match" translate:match-quality="99%">FORMULARIO DE CONSENTIMIENTO</target> <alt-trans extype="fuzzy-match" match-quality="99%" > <source>CONSENT FORM</source> <target>FORMULARIO DE CONSENTIMIENTO</target> </alt-trans> </trans-unit>
</group> <group id="g67"> <trans-unit id="t110" translate="yes"> <source>Screening Visit:</source> <target state-qualifier="fuzzy-match">Visita de selección</target> <alt-trans extype="fuzzy-match" match-quality="50%"> <source>Screening Visit</source> <target>Selección</target> </alt-trans> </trans-unit>
</group>

În al doilea segment, Amazon Translate suprascrie textul țintă sugerat inițial (Selección) cu o traducere de calitate superioară: Visita de selección.

O posibilă extensie a acestui caz de utilizare ar putea fi reutilizarea rezultatului tradus și crearea propriei noastre memorie de traducere. Amazon Translate acceptă personalizarea traducerii automate folosind memoria de traducere datorită date paralele caracteristică. Segmentele de text traduse anterior automat din cauza scorului lor inițial de calitate scăzută ar putea fi apoi reutilizate în noi proiecte de traducere.

În secțiunile următoare, vă prezentăm procesul de implementare și testare a acestei soluții. Să utilizați Formarea AWS Cloud scripturi și mostre de date pentru a lansa o lucrare de traducere asincronă personalizată cu un prag configurabil de potrivire a calității.

Cerințe preliminare

Pentru această explicație, trebuie să aveți un Cont AWS. Dacă nu aveți încă un cont, puteți creați și activați unul.

Lansați stiva AWS CloudFormation

Alege Lansați Stack:
Pentru Numele stivei, introduceți un nume.
Pentru ConfigBucketName, introduceți compartimentul S3 care conține fișierele de configurare a pragului.
Pentru ParameterStoreRoot, introduceți calea rădăcină a parametrilor creați de funcția Lambda de procesare a parametrilor.
Pentru QueueName, introduceți coada SQS pe care o creați pentru a posta notificări de fișiere noi din compartimentul sursă în funcția Lambda de inițializare a jobului. Aceasta este funcția care citește fișierul de configurare.
Pentru SourceBucketName, introduceți compartimentul S3 care conține fișierele XLIFF de tradus. Dacă preferați să utilizați o găleată preexistentă, trebuie să modificați valoarea parametrului CreateSourceBucket la No.
Pentru WorkingBucketName, introduceți compartimentul S3 pe care Amazon Translate îl folosește pentru datele de intrare și de ieșire.
Alege Pagina Următoare →.

Figura 4: Detaliile stivei CloudFormation
Opțional pe Stivui Opţiuni pagina, adăugați nume de chei și valori pentru etichetele pe care doriți să le atribuiți resurselor pe cale de a fi create.
Alege Pagina Următoare →.
Pe Recenzie pagina, selectați Recunosc că acest șablon ar putea determina AWS CloudFormation să creeze resurse IAM.
Examinați celelalte setări, apoi alegeți Creați stivă.

AWS CloudFormation durează câteva minute pentru a crea resursele în numele dvs. Puteți urmări progresul pe Evenimente fila din consola AWS CloudFormation. Când stiva a fost creată, puteți vedea a CREATE_COMPLETE mesaj în Stare coloana de pe Descriere tab.

Testați soluția

Să trecem printr-un exemplu simplu.

Descărcați următoarele date mostre.
Dezarhivați conținutul.

Ar trebui să existe două fișiere: un fișier .xlf în format XLIFF și un fișier de configurare de prag cu extensie .cfg. Următorul este un extras din fișierul XLIFF.

Figura 5: Extras de fișier exemplu din engleză în franceză

Pe consola Amazon S3, încărcați fișierul de configurare a pragului de calitate în compartimentul de configurare pe care l-ați specificat mai devreme.

Valoarea setată pentru test_En_to_Fr este de 75%. Ar trebui să puteți vedea parametrii pe consola Systems Manager în secțiunea Magazin parametri.

Încă pe consola Amazon S3, încărcați fișierul .xlf în compartimentul S3 pe care l-ați configurat ca sursă. Asigurați-vă că fișierul se află sub un folder numit translate (de exemplu, <my_bucket>/translate/test_En_to_Fr.xlf).

Aceasta începe fluxul de traducere.

Deschideți consola Amazon Translate.

O nouă lucrare ar trebui să apară cu starea În curs.

Figura 6: Lucrări de traducere în curs pe consola Amazon Translate

Odată ce lucrarea este finalizată, faceți clic pe linkul jobului și consultați rezultatul. Toate segmentele ar fi trebuit traduse.

Toate segmentele ar fi trebuit traduse. În fișierul XLIFF tradus, căutați segmente cu atribute suplimentare numite lscustom:match-quality, așa cum se arată în următoarea captură de ecran. Aceste atribute personalizate identifică segmentele în care traducerea sugerată a fost păstrată pe baza scorului.

Figura 7: Atribute personalizate care identifică segmentele în care traducerea sugerată a fost păstrată pe baza scorului

Acestea au fost derivate din memoria de traducere în funcție de pragul de calitate. Toate celelalte segmente au fost traduse automat.

Acum ați implementat și testat un asistent automat de traducere asincronă, care impune praguri configurabile de calitate a potrivirii memoriei de traducere. Buna treaba!

A curăța

Dacă ați implementat soluția în contul dvs., nu uitați să ștergeți stiva CloudFormation pentru a evita orice cost neașteptat. Trebuie să goliți manual gălețile S3 în prealabil.

Concluzie

În această postare, ați învățat cum să vă personalizați lucrările de traducere Amazon Translate pe baza valorilor standard de calitate XLIFF de potrivire neclară. Cu această soluție, puteți reduce foarte mult munca manuală implicată în revizuirea textului tradus automat, optimizând în același timp utilizarea Amazon Translate. De asemenea, puteți extinde soluția cu automatizarea agestiei de date și capabilități de orchestrare a fluxului de lucru, așa cum este descris în Accelerați joburile de traducere cu un asistent de sistem de traducere complet automatizat.

Despre Autori

Narcisse Zekpa este un arhitect de soluții cu sediul în Boston. El ajută clienții din nord-estul SUA să accelereze adoptarea AWS Cloud, oferind linii directoare arhitecturale, proiectând soluții inovatoare și scalabile. Când Narcisse nu construiește, îi place să petreacă timpul cu familia sa, călătorind, gătind și să joace baschet.

Dimitri Restino este arhitect de soluții la AWS, cu sediul în Brooklyn, New York. Lucrează în primul rând cu companii de asistență medicală și de servicii financiare din nord-est, ajutând la proiectarea soluțiilor inovatoare și creative pentru a-și servi cel mai bine clienții. Venind dintr-un mediu de dezvoltare software, el este entuziasmat de noile posibilități pe care tehnologia serverless le poate aduce lumii. În afara serviciului, îi place să facă drumeții și să exploreze scena alimentară din New York.

Timestamp-ul: 16 Mai, 2022

Timestamp-ul: 2 Mai, 2022

Republicat de Platon

Obțineți mai mult control asupra sarcinilor dvs. de lucru Amazon SageMaker Data Wrangler cu seturi de date parametrizate și lucrări programate

Rulați notebook-uri ca lucrări de lot în Amazon SageMaker Studio Lab

Amazon SageMaker cu TensorBoard: O prezentare generală a experienței TensorBoard găzduite

Modele de găzduire a modelelor în SageMaker: cele mai bune practici în testarea și actualizarea modelelor pe SageMaker

Cum a folosit Patsnap inferența GPT-2 pe Amazon SageMaker cu latență și cost scăzute | Amazon Web Services

Cum folosește InpharmD Amazon Kendra și Amazon Lex pentru a stimula îngrijirea pacientului bazată pe dovezi

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont