Tilpass maskinoversettelsesresultatene dine ved å bruke fuzzy matching med Amazon Translate

Publisert av Platon

Følgere: 0

En persons folkespråk er en del av egenskapene som gjør dem unike. Det er ofte utallige forskjellige måter å uttrykke én spesifikk idé på. Når et firma kommuniserer med kundene sine, er det avgjørende at meldingen blir levert på en måte som best representerer informasjonen de prøver å formidle. Dette blir enda viktigere når det gjelder profesjonell språkoversettelse. Kunder av oversettelsessystemer og tjenester forventer nøyaktige og svært tilpassede utdata. For å oppnå dette bruker de ofte tidligere oversettelsesutganger – kalt oversettelsesminne (TM) – og sammenligner dem med ny inndatatekst. I dataassistert oversettelse er denne teknikken kjent som uklar matchning. Den primære funksjonen til fuzzy matching er å hjelpe oversetteren ved å fremskynde oversettelsesprosessen. Når et eksakt samsvar ikke finnes i TM-databasen for teksten som oversettes, har oversettelsesstyringssystemer (TMS) ofte muligheten til å søke etter et samsvar som er mindre enn nøyaktig. Potensielle treff gis til oversetteren som ekstra input for endelig oversettelse. Oversettere som forbedrer arbeidsflyten med maskinoversettelsesfunksjoner som f.eks Amazon Oversett forventer ofte at uklare samsvarende data brukes som en del av den automatiserte oversettelsesløsningen.

I dette innlegget lærer du hvordan du tilpasser utdata fra Amazon Translate i henhold til uklare kvalitetspoeng for oversettelsesminnet.

Oversettelseskvalitetsmatch

XML Localization Interchange-filformatet (XLIFF) standard brukes ofte som et datautvekslingsformat mellom TMS og Amazon Translate. XLIFF-filer produsert av TMS-er inkluderer kilde- og måltekstdata sammen med matchkvalitetspoeng basert på tilgjengelig TM. Disse poengsummene – vanligvis uttrykt som en prosentandel – indikerer hvor nært oversettelsesminnet er teksten som oversettes.

Noen kunder med svært strenge krav ønsker kun at maskinoversettelse skal brukes når kampkvalitetspoeng er under en viss terskel. Utover denne terskelen forventer de at deres eget oversettelsesminne skal ha forrang. Oversettere må ofte bruke disse innstillingene manuelt, enten i TMS-en eller ved å endre tekstdataene. Denne flyten er illustrert i følgende diagram. Maskinoversettelsessystemet behandler oversettelsesdataene – tekst og uklare matchresultater – som deretter blir gjennomgått og manuelt redigert av oversettere, basert på deres ønskede kvalitetsterskler. Ved å bruke terskler som en del av maskinoversettelsestrinnet kan du fjerne disse manuelle trinnene, noe som forbedrer effektiviteten og optimerer kostnadene.

Figur 1: Gjennomgangsflyt for maskinoversettelse

Løsningen som presenteres i dette innlegget lar deg håndheve regler basert på terskler for matchkvalitetspoeng for å bestemme hvorvidt en gitt inndatatekst skal maskinoversettes av Amazon Translate eller ikke. Når den ikke er maskinoversatt, overlates den resulterende teksten til oversetternes skjønn som vurderer det endelige resultatet.

Løsningsarkitektur

Løsningsarkitekturen illustrert i figur 2 utnytter følgende tjenester:

Amazon enkel lagringstjeneste – Amazon S3-bøtter inneholder følgende innhold:
- Konfigurasjonsfiler for fuzzy match-terskel
- Kildetekst som skal oversettes
- Amazon Translate inn- og utdataplasseringer
AWS systemansvarlig - Vi bruker Parameterlager parametere for å lagre konfigurasjonsverdier for samsvarskvalitetsterskel
AWS Lambda – Vi bruker to Lambda-funksjoner:
- Én funksjon forhåndsbehandler konfigurasjonsfilene for kvalitetsmatchterskel og overfører dataene til Parameter Store
- En funksjon oppretter automatisk de asynkrone oversettelsesjobbene
Amazon enkel køtjeneste – En Amazon SQS-kø utløser oversettelsesflyten som et resultat av at nye filer kommer inn i kildebøtten

Figur 2: Løsningsarkitektur

Du konfigurerer først kvalitetsgrenser for oversettelsesjobbene dine ved å redigere en konfigurasjonsfil og laste den opp til S3-bøtten for fuzzy match-terskelkonfigurasjon. Følgende er en eksempelkonfigurasjon i CSV-format. Vi valgte CSV for enkelhets skyld, selv om du kan bruke hvilket som helst format. Hver linje representerer en terskel som skal brukes på enten en spesifikk oversettelsesjobb eller som standardverdi for en hvilken som helst jobb.

default, 75
SourceMT-Test, 80

Spesifikasjonene til konfigurasjonsfilen er som følger:

Kolonne 1 skal fylles ut med navnet på XLIFF-filen – uten utvidelse – som leveres til Amazon Translate-jobben som inndata.
Kolonne 2 skal fylles ut med terskelen for kvalitetssamsvarsprosent. For enhver poengsum under denne verdien brukes maskinoversettelse.
For alle XLIFF-filer hvis navn ikke samsvarer med noe navn som er oppført i konfigurasjonsfilen, brukes standardterskelen – linjen med nøkkelordet default satt i kolonne 1.

Automatisk generert parameter i Systems Manager Parameter Store

Figur 3: Autogenerert parameter i Systems Manager Parameter Store

Når en ny fil lastes opp, utløser Amazon S3 Lambda-funksjonen som har ansvaret for å behandle parameterne. Denne funksjonen leser og lagrer terskelparameterne i Parameter Store for fremtidig bruk. Ved å bruke Parameter Store unngår du å utføre overflødige Amazon S3 GET-forespørsler hver gang en ny oversettelsesjobb startes. Eksempelkonfigurasjonsfilen produserer parameterkodene vist i følgende skjermbilde.

Lambda-funksjonen for jobbinitialisering bruker disse parameterne til å forhåndsbehandle dataene før Amazon Translate påkalles. Vi bruker en engelsk-til-spansk oversettelse XLIFF-inndatafil, som vist i følgende kode. Den inneholder den første teksten som skal oversettes, brutt ned i det som omtales som segmenter, representert i kildekodene.

<group id="g8"> <trans-unit id="t8" translate="yes"> <source>Consent Form</source> <target state-qualifier="fuzzy-match"/> <alt-trans extype="fuzzy-match" match-quality="99%" > <source>CONSENT FORM</source> <target>FORMULARIO DE CONSENTIMIENTO</target> </alt-trans> </trans-unit>
</group> <group id="g67"> <trans-unit id="t110" translate="yes"> <source>Screening Visit:</source> <target state-qualifier="fuzzy-match"/> <alt-trans extype="fuzzy-match" match-quality="50%"> <source>Screening Visit</source> <target>Selección</target> </alt-trans> </trans-unit>
</group>

Kildeteksten er forhåndsmatchet med oversettelsesminnet på forhånd. Dataene inneholder potensielle oversettelsesalternativer – representert som <alt-trans> koder – ved siden av et samsvarskvalitetsattributt, uttrykt som en prosentandel. Forretningsregelen er som følger:

Segmenter mottatt med alternative oversettelser og en samsvarskvalitet under terskelen er uberørt eller tomme. Dette signaliserer til Amazon Translate at de må oversettes.
Segmenter mottatt med alternative oversettelser med en samsvarskvalitet over terskelen er forhåndsutfylt med den foreslåtte målteksten. Amazon Translate hopper over disse segmentene.

La oss anta at terskelen for kvalitetsmatch som er konfigurert for denne jobben er 80 %. Det første segmentet med 99 % samsvarskvalitet er ikke maskinoversatt, mens det andre segmentet er det fordi samsvarskvaliteten er under den definerte terskelen. I denne konfigurasjonen produserer Amazon Translate følgende utdata:

<group id="g8"> <trans-unit id="t8" translate="yes"> <source>Consent Form</source> <target state-qualifier="fuzzy-match" translate:match-quality="99%">FORMULARIO DE CONSENTIMIENTO</target> <alt-trans extype="fuzzy-match" match-quality="99%" > <source>CONSENT FORM</source> <target>FORMULARIO DE CONSENTIMIENTO</target> </alt-trans> </trans-unit>
</group> <group id="g67"> <trans-unit id="t110" translate="yes"> <source>Screening Visit:</source> <target state-qualifier="fuzzy-match">Visita de selección</target> <alt-trans extype="fuzzy-match" match-quality="50%"> <source>Screening Visit</source> <target>Selección</target> </alt-trans> </trans-unit>
</group>

I det andre segmentet overskriver Amazon Translate målteksten som opprinnelig ble foreslått (Selección) med en oversettelse av høyere kvalitet: Visita de selección.

En mulig utvidelse av denne brukssaken kan være å gjenbruke det oversatte resultatet og lage vårt eget oversettelsesminne. Amazon Translate støtter tilpasning av maskinoversettelse ved hjelp av oversettelsesminne takket være parallelle data trekk. Tekstsegmenter som tidligere er maskinoversatt på grunn av deres opprinnelige lavkvalitetspoeng, kan deretter gjenbrukes i nye oversettelsesprosjekter.

I de følgende delene leder vi deg gjennom prosessen med å distribuere og teste denne løsningen. Du bruker AWS skyformasjon skript og dataeksempler for å starte en asynkron oversettelsesjobb tilpasset med en konfigurerbar kvalitetsmatchterskel.

Forutsetninger

For denne gjennomgangen må du ha en AWS-konto. Hvis du ikke har en konto ennå, kan du opprette og aktivere en.

Start AWS CloudFormation-stack

Velg Start Stack:
Til Stabelnavn, skriv inn et navn.
Til ConfigBucketName, skriv inn S3-bøtten som inneholder terskelkonfigurasjonsfilene.
Til ParameterStoreRoot, skriv inn rotbanen til parameterne som er opprettet av parameteren som behandler Lambda-funksjonen.
Til Kønavn, skriv inn SQS-køen som du oppretter for å legge ut nye filvarsler fra kildebøtten til jobbinitialiserings Lambda-funksjonen. Dette er funksjonen som leser konfigurasjonsfilen.
Til SourceBucketName, skriv inn S3-bøtten som inneholder XLIFF-filene som skal oversettes. Hvis du foretrekker å bruke en eksisterende bøtte, må du endre verdien av CreateSourceBucket-parameteren til Nei.
Til WorkingBucketName, skriv inn S3-bøtten Amazon Translate bruker for inn- og utdata.
Velg neste.

Figur 4: CloudFormation-stabeldetaljer
Eventuelt på Stable alternativer side, legg til nøkkelnavn og verdier for taggene du kanskje vil tilordne ressursene som skal opprettes.
Velg neste.
På Anmeldelse side, velg Jeg erkjenner at denne malen kan føre til at AWS CloudFormation oppretter IAM-ressurser.
Se gjennom de andre innstillingene, og velg deretter Lag stabel.

AWS CloudFormation bruker flere minutter på å lage ressursene på dine vegne. Du kan se fremdriften på hendelser fanen på AWS CloudFormation-konsollen. Når stabelen er opprettet, kan du se en CREATE_COMPLETE melding i status kolonne på Oversikt fanen.

Test løsningen

La oss gå gjennom et enkelt eksempel.

Last ned følgende eksempeldata.
Pakk ut innholdet.

Det skal være to filer: en .xlf-fil i XLIFF-format og en terskelkonfigurasjonsfil med .cfg som utvidelse. Følgende er et utdrag av XLIFF-filen.

Figur 5: Eksempelfilekstrakt fra engelsk til fransk

På Amazon S3-konsollen laster du opp konfigurasjonsfilen for kvalitetsterskel til konfigurasjonsbøtten du spesifiserte tidligere.

Verdien satt for test_En_to_Fr er 75 %. Du skal kunne se parameterne på Systems Manager-konsollen i Parameter Store-delen.

Fortsatt på Amazon S3-konsollen, last opp .xlf-filen til S3-bøtten du konfigurerte som kilde. Sørg for at filen er under en mappe som heter translate (for eksempel, <my_bucket>/translate/test_En_to_Fr.xlf).

Dette starter oversettelsesflyten.

Åpne Amazon Translate-konsollen.

En ny jobb skal vises med statusen Pågår.

Figur 6: Oversettelsesjobber pågår på Amazon Translate-konsollen

Når jobben er fullført, klikk på jobbens lenke og se utdataene. Alle segmenter skal ha blitt oversatt.

Alle segmenter skal ha blitt oversatt. Se etter segmenter med navngitte tilleggsattributter i den oversatte XLIFF-filen lscustom:match-quality, som vist i følgende skjermbilde. Disse egendefinerte attributtene identifiserer segmenter der foreslått oversettelse ble beholdt basert på poengsum.

Figur 7: Egendefinerte attributter som identifiserer segmenter der foreslått oversettelse ble beholdt basert på poengsum

Disse ble utledet fra oversettelsesminnet i henhold til kvalitetsterskelen. Alle andre segmenter ble maskinoversatt.

Du har nå distribuert og testet en automatisert asynkron oversettelsesjobbassistent som håndhever konfigurerbare oversettelsesminnematchkvalitetsterskler. Flott jobb!

Opprydding

Hvis du har implementert løsningen på kontoen din, ikke glem å slette CloudFormation-stakken for å unngå uventede kostnader. Du må tømme S3-bøttene manuelt på forhånd.

konklusjonen

I dette innlegget lærte du hvordan du tilpasser Amazon Translate-oversettelsesjobbene dine basert på standard XLIFF fuzzy matchende kvalitetsmålinger. Med denne løsningen kan du i stor grad redusere det manuelle arbeidet som er involvert i gjennomgang av maskinoversatt tekst, samtidig som du optimerer bruken av Amazon Translate. Du kan også utvide løsningen med automatisering av datainntak og orkestrering av arbeidsflyt, som beskrevet i Få fart på oversettelsesjobber med en helautomatisert oversettelsessystemassistent.

Om forfatterne

Narcisse Zekpa er en løsningsarkitekt basert i Boston. Han hjelper kunder i Nordøst-USA med å akselerere deres bruk av AWS Cloud, ved å gi arkitektoniske retningslinjer, designe innovative og skalerbare løsninger. Når Narcisse ikke bygger, liker han å tilbringe tid med familien, reise, lage mat og spille basketball.

Dimitri Restaino er en løsningsarkitekt ved AWS, basert i Brooklyn, New York. Han jobber primært med helse- og finansselskaper i Nord-Øst, og hjelper til med å designe innovative og kreative løsninger for å betjene kundene deres best mulig. Med bakgrunn i programvareutvikling er han begeistret over de nye mulighetene serverløs teknologi kan bringe til verden. Utenom jobben elsker han å gå på fottur og utforske matscenen i NYC.

Tidstempel: Kan 16, 2022

Tidstempel: Kan 2, 2022

Publisert av Platon

Få mer kontroll over dine Amazon SageMaker Data Wrangler-arbeidsmengder med parameteriserte datasett og planlagte jobber

Kjør notatbøker som batchjobber i Amazon SageMaker Studio Lab

Amazon SageMaker med TensorBoard: En oversikt over en vertsbasert TensorBoard-opplevelse

Modellvertsmønstre i SageMaker: Beste praksis for testing og oppdatering av modeller på SageMaker

Hvordan Patsnap brukte GPT-2-slutning på Amazon SageMaker med lav ventetid og kostnad | Amazon Web Services

Hvordan InpharmD bruker Amazon Kendra og Amazon Lex for å drive evidensbasert pasientbehandling

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn