Personalize Your Machine Translation Results By Using Fuzzy Matching With Amazon Translate

Ponovno objavil Platon

Spremljevalci: 0

Ljudski jezik je del značilnosti, zaradi katerih je posameznik edinstven. Pogosto obstaja nešteto različnih načinov za izražanje ene določene ideje. Ko podjetje komunicira s svojimi strankami, je ključnega pomena, da je sporočilo posredovano na način, ki najbolje predstavlja informacije, ki jih poskušajo prenesti. To postane še toliko bolj pomembno, ko gre za prevajanje profesionalnih jezikov. Stranke prevajalskih sistemov in storitev pričakujejo natančne in zelo prilagojene rezultate. Da bi to dosegli, pogosto ponovno uporabijo predhodne izhode prevodov – imenovani prevodni pomnilnik (TM) – in jih primerjajo z novim vhodnim besedilom. Pri računalniško podprtem prevajanju je ta tehnika znana kot mehko ujemanje. Primarna funkcija mehkega ujemanja je pomoč prevajalcu s pospešitvijo procesa prevajanja. Ko v bazi podatkov TM ni mogoče najti natančnega ujemanja za besedilo, ki se prevaja, imajo sistemi za upravljanje prevajanja (TMS) pogosto možnost iskanja ujemanja, ki ni natančno. Morebitna ujemanja so zagotovljena prevajalcu kot dodaten vnos za končni prevod. Prevajalci, ki izboljšajo svoj potek dela z zmožnostmi strojnega prevajanja, kot je npr Amazon prevod pogosto pričakujejo, da bodo podatki mehkega ujemanja uporabljeni kot del rešitve za avtomatizirano prevajanje.

V tej objavi boste izvedeli, kako prilagoditi izhod iz Amazon Translate glede na ocene kakovosti mehkega ujemanja prevodnega pomnilnika.

Ujemanje kakovosti prevoda

Format datoteke za izmenjavo lokalizacije XML (XLIFF) standard se pogosto uporablja kot format za izmenjavo podatkov med TMS in Amazon Translate. Datoteke XLIFF, ki jih ustvarijo TMS, vključujejo izvorne in ciljne besedilne podatke skupaj z ocenami kakovosti ujemanja na podlagi razpoložljivega TM. Ti rezultati – običajno izraženi v odstotkih – kažejo, kako blizu je prevodni pomnilnik besedilu, ki se prevaja.

Nekatere stranke z zelo strogimi zahtevami želijo uporabo strojnega prevajanja le, če so ocene kakovosti ujemanja pod določenim pragom. Čez ta prag pričakujejo, da bo imel prednost njihov lastni prevodni pomnilnik. Prevajalci morajo te nastavitve pogosto uporabiti ročno bodisi v svojem TMS-ju bodisi tako, da spremenijo besedilne podatke. Ta tok je prikazan v naslednjem diagramu. Sistem za strojno prevajanje obdela prevodne podatke – besedilo in rezultate mehkega ujemanja –, ki jih nato pregledajo in ročno uredijo prevajalci na podlagi želenih pragov kakovosti. Uporaba pragov kot del koraka strojnega prevajanja vam omogoča, da odstranite te ročne korake, kar izboljša učinkovitost in optimizira stroške.

Slika 1: Potek pregleda strojnega prevajanja

Rešitev, predstavljena v tej objavi, vam omogoča, da uveljavite pravila, ki temeljijo na pragovih ocene kakovosti ujemanja, da bi določili, ali naj dano vhodno besedilo strojno prevede Amazon Translate ali ne. Če ni strojno prevedeno, je nastalo besedilo prepuščeno presoji prevajalcev, ki pregledujejo končni rezultat.

Arhitektura rešitve

Arhitektura rešitve, prikazana na sliki 2, uporablja naslednje storitve:

Preprosta storitev shranjevanja Amazon – Vedra Amazon S3 vsebujejo naslednjo vsebino:
- Konfiguracijske datoteke s pragom mehkega ujemanja
- Izvorno besedilo za prevod
- Lokacije vhodnih in izhodnih podatkov Amazon Translate
Upravitelj sistemov AWS - Uporabljamo Shramba parametrov parametre za shranjevanje vrednosti konfiguracije praga kakovosti ujemanja
AWS Lambda – Uporabljamo dve funkciji Lambda:
- Ena funkcija vnaprej obdela konfiguracijske datoteke s pragom ujemanja kakovosti in ohrani podatke v shrambi parametrov
- Ena funkcija samodejno ustvari asinhrona prevajalska opravila
Storitev Amazon Simple Queue Service – Čakalna vrsta Amazon SQS sproži tok prevajanja kot rezultat novih datotek, ki pridejo v izvorno vedro

Slika 2: Arhitektura rešitve

Najprej nastavite pragove kakovosti za svoja prevajalska opravila tako, da uredite konfiguracijsko datoteko in jo naložite v vedro konfiguracije praga mehkega ujemanja S3. Sledi vzorčna konfiguracija v formatu CSV. Zaradi enostavnosti smo izbrali CSV, čeprav lahko uporabite katero koli obliko. Vsaka vrstica predstavlja prag, ki se uporabi za določeno prevajalsko opravilo ali kot privzeta vrednost za katero koli opravilo.

default, 75
SourceMT-Test, 80

Specifikacije konfiguracijske datoteke so naslednje:

Stolpec 1 je treba izpolniti z imenom datoteke XLIFF – brez pripone –, ki je zagotovljena opravilu Amazon Translate kot vhodni podatek.
Stolpec 2 mora biti izpolnjen s pragom odstotka ujemanja kakovosti. Za vsako oceno pod to vrednostjo se uporabi strojno prevajanje.
Za vse datoteke XLIFF, katerih ime se ne ujema z nobenim imenom, navedenim v konfiguracijski datoteki, se uporablja privzeti prag – vrstica s ključno besedo default nastavljeno v 1. stolpcu.

Samodejno ustvarjen parameter v shrambi parametrov upravitelja sistemov

Slika 3: Samodejno ustvarjen parameter v shrambi parametrov Systems Manager

Ko je naložena nova datoteka, Amazon S3 sproži funkcijo Lambda, ki je zadolžena za obdelavo parametrov. Ta funkcija prebere in shrani parametre praga v shrambo parametrov za prihodnjo uporabo. Z uporabo Parameter Store se izognete izvajanju odvečnih zahtev Amazon S3 GET vsakič, ko se začne novo prevajalsko opravilo. Vzorčna konfiguracijska datoteka ustvari oznake parametrov, prikazane na naslednjem posnetku zaslona.

Funkcija Lambda za inicializacijo opravil uporablja te parametre za predhodno obdelavo podatkov pred priklicem Amazon Translate. Uporabljamo vhodno datoteko XLIFF za prevod iz angleščine v španščino, kot je prikazano v naslednji kodi. Vsebuje začetno besedilo, ki ga je treba prevesti, razdeljeno na tisto, kar imenujemo segmentih, predstavljen v izvornih oznakah.

<group id="g8"> <trans-unit id="t8" translate="yes"> <source>Consent Form</source> <target state-qualifier="fuzzy-match"/> <alt-trans extype="fuzzy-match" match-quality="99%" > <source>CONSENT FORM</source> <target>FORMULARIO DE CONSENTIMIENTO</target> </alt-trans> </trans-unit>
</group> <group id="g67"> <trans-unit id="t110" translate="yes"> <source>Screening Visit:</source> <target state-qualifier="fuzzy-match"/> <alt-trans extype="fuzzy-match" match-quality="50%"> <source>Screening Visit</source> <target>Selección</target> </alt-trans> </trans-unit>
</group>

Izvorno besedilo je bilo vnaprej usklajeno s pomnilnikom prevodov. Podatki vsebujejo potencialne prevodne alternative – predstavljene kot <alt-trans> oznake—poleg atributa kakovosti ujemanja, izraženega v odstotkih. Poslovno pravilo je naslednje:

Segmenti, prejeti z alternativnimi prevodi in kakovostjo ujemanja pod pragom, so nedotaknjeni ali prazni. To Amazon Translate sporoča, da jih je treba prevesti.
Segmenti, prejeti z alternativnimi prevodi s kakovostjo ujemanja nad pragom, so vnaprej zapolnjeni s predlaganim ciljnim besedilom. Amazon Translate te segmente preskoči.

Predpostavimo, da je prag ujemanja kakovosti, konfiguriran za to opravilo, 80 %. Prvi segment z 99-odstotno kakovostjo ujemanja ni strojno preveden, drugi segment pa je, ker je njegova kakovost ujemanja pod določenim pragom. V tej konfiguraciji Amazon Translate ustvari naslednje rezultate:

<group id="g8"> <trans-unit id="t8" translate="yes"> <source>Consent Form</source> <target state-qualifier="fuzzy-match" translate:match-quality="99%">FORMULARIO DE CONSENTIMIENTO</target> <alt-trans extype="fuzzy-match" match-quality="99%" > <source>CONSENT FORM</source> <target>FORMULARIO DE CONSENTIMIENTO</target> </alt-trans> </trans-unit>
</group> <group id="g67"> <trans-unit id="t110" translate="yes"> <source>Screening Visit:</source> <target state-qualifier="fuzzy-match">Visita de selección</target> <alt-trans extype="fuzzy-match" match-quality="50%"> <source>Screening Visit</source> <target>Selección</target> </alt-trans> </trans-unit>
</group>

V drugem segmentu Amazon Translate prepiše prvotno predlagano ciljno besedilo (Selección) s prevodom višje kakovosti: Visita de selección.

Ena možna razširitev tega primera uporabe bi lahko bila ponovna uporaba prevedenega izhoda in ustvarjanje lastnega pomnilnika prevodov. Amazon Translate podpira prilagajanje strojnega prevajanja z uporabo prevajalskega pomnilnika zahvaljujoč vzporedni podatki funkcija. Segmente besedila, ki so bili predhodno strojno prevedeni zaradi njihove začetne ocene nizke kakovosti, bi lahko nato ponovno uporabili v novih prevajalskih projektih.

V naslednjih razdelkih vas vodimo skozi postopek uvajanja in testiranja te rešitve. Uporabljaš Oblikovanje oblaka AWS skripte in vzorce podatkov za zagon asinhronega prevajalskega opravila, prilagojenega s pragom ujemanja kakovosti, ki ga je mogoče konfigurirati.

Predpogoji

Za to predstavitev morate imeti AWS račun. Če še nimate računa, lahko ustvarite in aktivirajte enega.

Zaženite sklad AWS CloudFormation

Izberite Izstrelite sklad:
za Ime skladovnice, vnesite ime.
za ConfigBucketName, vnesite vedro S3, ki vsebuje konfiguracijske datoteke praga.
za ParameterStoreRoot, vnesite korensko pot parametrov, ustvarjenih s funkcijo Lambda za obdelavo parametrov.
za Ime čakalne vrste, vnesite čakalno vrsto SQS, ki jo ustvarite za objavo obvestil o novih datotekah iz izvornega vedra v funkcijo Lambda za inicializacijo opravila. To je funkcija, ki bere konfiguracijsko datoteko.
za SourceBucketName, vnesite vedro S3, ki vsebuje datoteke XLIFF, ki jih želite prevesti. Če raje uporabljate že obstoječe vedro, morate spremeniti vrednost parametra CreateSourceBucket na Ne.
za WorkingBucketName, vnesite vedro S3, ki ga Amazon Translate uporablja za vhodne in izhodne podatke.
Izberite Naslednji.

Slika 4: Podrobnosti sklada CloudFormation
Po želji na Stack možnosti strani, dodajte imena ključev in vrednosti za oznake, ki jih boste morda želeli dodeliti virom, ki jih boste ustvarili.
Izberite Naslednji.
o pregled stran, izberite Potrjujem, da lahko ta predloga povzroči, da AWS CloudFormation ustvari vire IAM.
Preglejte druge nastavitve in nato izberite Ustvari sklad.

AWS CloudFormation potrebuje nekaj minut, da ustvari vire v vašem imenu. Napredek lahko spremljate na Dogodki zavihek na konzoli AWS CloudFormation. Ko je sklad ustvarjen, lahko vidite a CREATE_COMPLETE sporočilo v Status stolpec na Pregled tab.

Preizkusite raztopino

Pojdimo skozi preprost primer.

Prenesite naslednje vzorčni podatki.
Razpakirajte vsebino.

Obstajati morata dve datoteki: datoteka .xlf v formatu XLIFF in datoteka s konfiguracijo praga s pripono .cfg. Sledi izvleček datoteke XLIFF.

Slika 5: Izvleček vzorčne datoteke iz angleščine v francoščino

Na konzoli Amazon S3 naložite konfiguracijsko datoteko praga kakovosti v konfiguracijsko vedro, ki ste ga določili prej.

Vrednost, nastavljena za test_En_to_Fr je 75 %. Parametre bi morali videti na konzoli Systems Manager v razdelku Parameter Store.

Še vedno na konzoli Amazon S3 naložite datoteko .xlf v vedro S3, ki ste ga konfigurirali kot vir. Prepričajte se, da je datoteka v mapi z imenom translate (npr. <my_bucket>/translate/test_En_to_Fr.xlf).

S tem se začne tok prevoda.

Odprite konzolo Amazon Translate.

Prikazati bi se moralo novo opravilo s statusom V teku.

Slika 6: Prevajalska opravila v teku na konzoli Amazon Translate

Ko je opravilo končano, kliknite povezavo opravila in si oglejte rezultat. Vsi segmenti bi morali biti prevedeni.

Vsi segmenti bi morali biti prevedeni. V prevedeni datoteki XLIFF poiščite imenovane segmente z dodatnimi atributi lscustom:match-quality, kot je prikazano na naslednjem posnetku zaslona. Ti atributi po meri identificirajo segmente, kjer je bil predlagani prevod ohranjen na podlagi ocene.

Slika 7: Atributi po meri, ki identificirajo segmente, kjer je bil predlagani prevod ohranjen na podlagi ocene

Ti so bili pridobljeni iz pomnilnika prevodov glede na kakovostni prag. Vsi drugi segmenti so bili strojno prevedeni.

Zdaj ste uvedli in preizkusili avtomatiziranega pomočnika za asinhrono prevajalsko opravilo, ki uveljavlja pragove kakovosti ujemanja nastavljivega pomnilnika prevodov. Odlično opravljeno!

Pospravi

Če ste rešitev namestili v svoj račun, ne pozabite izbrisati sklada CloudFormation, da se izognete morebitnim nepričakovanim stroškom. Žlice S3 morate predhodno izprazniti ročno.

zaključek

V tej objavi ste se naučili, kako prilagoditi svoja prevajalska opravila Amazon Translate na podlagi standardnih metrik kakovosti mehkega ujemanja XLIFF. S to rešitvijo lahko močno zmanjšate ročno delo pri pregledovanju strojno prevedenega besedila, hkrati pa optimizirate svojo uporabo Amazon Translate. Rešitev lahko razširite tudi z avtomatizacijo vnosa podatkov in zmožnostmi orkestracije poteka dela, kot je opisano v Pospešite prevajalska opravila s popolnoma avtomatiziranim pomočnikom sistema za prevajanje.

O avtorjih

Narcisse Zekpa je arhitekt rešitev s sedežem v Bostonu. Strankam na severovzhodu ZDA pomaga pospešiti njihovo sprejemanje oblaka AWS z zagotavljanjem arhitekturnih smernic, inovativnega oblikovanja in razširljivih rešitev. Ko Narcisse ne gradi, uživa v preživljanju časa z družino, potovanjih, kuhanju in igranju košarke.

Dimitrij Restaino je arhitekt rešitev pri AWS s sedežem v Brooklynu v New Yorku. Sodeluje predvsem s podjetji za zdravstveno varstvo in finančne storitve na severovzhodu ter pomaga pri oblikovanju inovativnih in kreativnih rešitev, ki najbolje služijo njihovim strankam. Ker prihaja iz ozadja razvoja programske opreme, je navdušen nad novimi možnostmi, ki jih lahko brezstrežniška tehnologija prinese svetu. Zunaj službe rad hodi na pohode in raziskuje kulinarično sceno v New Yorku.

Časovni žig: Maj 16, 2022

Ponovno objavil Platon

Startupi v pospeševalnikih AWS uporabljajo AI in ML za reševanje kritičnih izzivov strank

Uporabite Amazon SageMaker Data Wrangler za pripravo podatkov in Studio Labs za učenje in eksperimentiranje z ML

Predstavljamo Fortuno: knjižnico za kvantifikacijo negotovosti

Priporočila za moč in iskanje z uporabo grafikona znanja IMDb – 3. del

Predvidite cene stanovanjskih nepremičnin pri ImmoScout24 z Amazon SageMaker

Model temeljev AI21 Jurassic-1 je zdaj na voljo na Amazon SageMaker

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun