Tilpas dine maskinoversættelsesresultater ved at bruge fuzzy matching med Amazon Translate

Genudgivet af Platon

Abonnenter: 0

En persons sprog er en del af de egenskaber, der gør dem unikke. Der er ofte utallige forskellige måder at udtrykke en bestemt idé på. Når en virksomhed kommunikerer med deres kunder, er det afgørende, at budskabet bliver leveret på en måde, der bedst repræsenterer den information, de forsøger at formidle. Dette bliver endnu vigtigere, når det kommer til professionel sprogoversættelse. Kunder af oversættelsessystemer og -tjenester forventer nøjagtige og meget tilpassede output. For at opnå dette genbruger de ofte tidligere oversættelsesoutput - kaldet translation memory (TM) - og sammenligner dem med ny inputtekst. I computerassisteret oversættelse er denne teknik kendt som uklar matchning. Den primære funktion af fuzzy matching er at hjælpe oversætteren ved at fremskynde oversættelsesprocessen. Når et nøjagtigt match ikke kan findes i TM-databasen for den tekst, der oversættes, har oversættelsesstyringssystemer (TMS) ofte mulighed for at søge efter et match, der er mindre end nøjagtigt. Potentielle matches leveres til oversætteren som yderligere input til den endelige oversættelse. Oversættere, der forbedrer deres arbejdsgang med maskinoversættelsesfunktioner som f.eks Amazon Oversæt forventer ofte, at fuzzy matchende data bliver brugt som en del af den automatiserede oversættelsesløsning.

I dette indlæg lærer du, hvordan du tilpasser output fra Amazon Translate i henhold til oversættelseshukommelsens fuzzy match-kvalitetsresultater.

Oversættelseskvalitet match

XML Localization Interchange-filformatet (XLIFF) standard bruges ofte som et dataudvekslingsformat mellem TMS'er og Amazon Translate. XLIFF-filer produceret af TMS'er inkluderer kilde- og måltekstdata sammen med matchkvalitetsscore baseret på den tilgængelige TM. Disse scores - normalt udtrykt som en procentdel - angiver, hvor tæt oversættelseshukommelsen er på den tekst, der oversættes.

Nogle kunder med meget strenge krav ønsker kun, at maskinoversættelse skal bruges, når matchkvalitetsresultaterne er under en vis tærskel. Ud over denne tærskel forventer de, at deres egen oversættelseshukommelse har forrang. Oversættere skal ofte anvende disse præferencer manuelt enten i deres TMS eller ved at ændre tekstdataene. Dette flow er illustreret i det følgende diagram. Maskinoversættelsessystemet behandler oversættelsesdataene – tekst og fuzzy match-resultater – som derefter gennemgås og redigeres manuelt af oversættere baseret på deres ønskede kvalitetstærskler. Anvendelse af tærskler som en del af maskinoversættelsestrinnet giver dig mulighed for at fjerne disse manuelle trin, hvilket forbedrer effektiviteten og optimerer omkostningerne.

Figur 1: Gennemgang af maskinoversættelse

Løsningen præsenteret i dette indlæg giver dig mulighed for at håndhæve regler baseret på tærskler for matchkvalitetsscore for at styre, om en given inputtekst skal maskinoversættes af Amazon Translate eller ej. Når den ikke er maskinoversat, overlades den resulterende tekst til oversætternes skøn, der gennemgår det endelige output.

Løsningsarkitektur

Løsningsarkitekturen illustreret i figur 2 udnytter følgende tjenester:

Amazon Simple Storage Service – Amazon S3-bøtter indeholder følgende indhold:
- Fuzzy match-tærskelkonfigurationsfiler
- Kildetekst, der skal oversættes
- Amazon Translate input og output dataplaceringer
AWS System Manager - Vi bruger Parameterlager parametre til at gemme konfigurationsværdier for matchkvalitetstærskelværdier
AWS Lambda – Vi bruger to Lambda-funktioner:
- Én funktion forbehandler konfigurationsfilerne for kvalitetsmatchtærskelværdien og bevarer dataene i Parameter Store
- En funktion opretter automatisk de asynkrone oversættelsesjob
Amazon Simple Queue Service – En Amazon SQS-kø udløser oversættelsesflowet som et resultat af nye filer, der kommer ind i kildebøtten

Figur 2: Løsningsarkitektur

Du konfigurerer først kvalitetstærskler for dine oversættelsesjob ved at redigere en konfigurationsfil og uploade den til den fuzzy match-tærskelkonfiguration S3-bøtte. Det følgende er et eksempel på en konfiguration i CSV-format. Vi valgte CSV for enkelhedens skyld, selvom du kan bruge ethvert format. Hver linje repræsenterer en tærskel, der skal anvendes på enten et specifikt oversættelsesjob eller som standardværdi for ethvert job.

default, 75
SourceMT-Test, 80

Specifikationerne for konfigurationsfilen er som følger:

Kolonne 1 skal udfyldes med navnet på XLIFF-filen – uden filtypenavn – der leveres til Amazon Translate-jobbet som inputdata.
Kolonne 2 skal udfyldes med grænsen for kvalitetsmatchprocent. For enhver score under denne værdi anvendes maskinoversættelse.
For alle XLIFF-filer, hvis navn ikke matcher noget navn, der er angivet i konfigurationsfilen, bruges standardgrænsen - linjen med nøgleordet default sat i kolonne 1.

Figur 3: Autogenereret parameter i Systems Manager Parameter Store

Når en ny fil uploades, udløser Amazon S3 Lambda-funktionen, der er ansvarlig for at behandle parametrene. Denne funktion læser og gemmer tærskelparametrene i Parameter Store til fremtidig brug. Brug af Parameter Store undgår at udføre redundante Amazon S3 GET-anmodninger, hver gang et nyt oversættelsesjob påbegyndes. Eksempelkonfigurationsfilen producerer parametermærkerne vist i det følgende skærmbillede.

Jobinitialiseringen Lambda-funktionen bruger disse parametre til at forbehandle dataene, før Amazon Translate påkaldes. Vi bruger en engelsk-til-spansk oversættelse XLIFF inputfil, som vist i følgende kode. Den indeholder den indledende tekst, der skal oversættes, opdelt i det, der omtales som segmenter, repræsenteret i kildekoderne.

<group id="g8"> <trans-unit id="t8" translate="yes"> <source>Consent Form</source> <target state-qualifier="fuzzy-match"/> <alt-trans extype="fuzzy-match" match-quality="99%" > <source>CONSENT FORM</source> <target>FORMULARIO DE CONSENTIMIENTO</target> </alt-trans> </trans-unit>
</group> <group id="g67"> <trans-unit id="t110" translate="yes"> <source>Screening Visit:</source> <target state-qualifier="fuzzy-match"/> <alt-trans extype="fuzzy-match" match-quality="50%"> <source>Screening Visit</source> <target>Selección</target> </alt-trans> </trans-unit>
</group>

Kildeteksten er på forhånd blevet matchet med oversættelseshukommelsen. Dataene indeholder potentielle oversættelsesalternativer – repræsenteret som <alt-trans> tags – sammen med en matchkvalitetsattribut, udtrykt som en procentdel. Forretningsreglen er som følger:

Segmenter modtaget med alternative oversættelser og en matchkvalitet under tærsklen er uberørte eller tomme. Dette signalerer til Amazon Translate, at de skal oversættes.
Segmenter modtaget med alternative oversættelser med en matchkvalitet over tærsklen er forududfyldt med den foreslåede måltekst. Amazon Translate springer disse segmenter over.

Lad os antage, at tærskelværdien for kvalitetsmatch, der er konfigureret for dette job, er 80 %. Det første segment med 99 % matchkvalitet er ikke maskinoversat, mens det andet segment er det, fordi dets matchkvalitet er under den definerede tærskel. I denne konfiguration producerer Amazon Translate følgende output:

<group id="g8"> <trans-unit id="t8" translate="yes"> <source>Consent Form</source> <target state-qualifier="fuzzy-match" translate:match-quality="99%">FORMULARIO DE CONSENTIMIENTO</target> <alt-trans extype="fuzzy-match" match-quality="99%" > <source>CONSENT FORM</source> <target>FORMULARIO DE CONSENTIMIENTO</target> </alt-trans> </trans-unit>
</group> <group id="g67"> <trans-unit id="t110" translate="yes"> <source>Screening Visit:</source> <target state-qualifier="fuzzy-match">Visita de selección</target> <alt-trans extype="fuzzy-match" match-quality="50%"> <source>Screening Visit</source> <target>Selección</target> </alt-trans> </trans-unit>
</group>

I det andet segment overskriver Amazon Translate den oprindeligt foreslåede måltekst (Selección) med en oversættelse af højere kvalitet: Visita de selección.

En mulig udvidelse til denne use case kunne være at genbruge det oversatte output og skabe vores egen oversættelseshukommelse. Amazon Translate understøtter tilpasning af maskinoversættelse ved hjælp af oversættelseshukommelse takket være parallelle data funktion. Tekstsegmenter, der tidligere er maskinoversat på grund af deres oprindelige lave kvalitetsscore, kunne derefter genbruges i nye oversættelsesprojekter.

I de følgende afsnit fører vi dig gennem processen med at implementere og teste denne løsning. Du bruger AWS CloudFormation scripts og dataeksempler for at starte et asynkront oversættelsesjob, der er personligt tilpasset med en konfigurerbar kvalitetsmatchtærskel.

Forudsætninger

Til denne gennemgang skal du have en AWS-konto. Hvis du ikke har en konto endnu, kan du oprette og aktivere en.

Start AWS CloudFormation-stak

Vælg Start Stack:
Til Staknavn, indtast et navn.
Til ConfigBucketName, skal du indtaste S3-bøtten, der indeholder tærskelkonfigurationsfilerne.
Til ParameterStoreRoot, indtast rodstien for de parametre, der er oprettet af parametre, der behandler Lambda-funktionen.
Til Kønavn, skal du indtaste den SQS-kø, du opretter, for at sende nye filmeddelelser fra kildebøtten til Lambda-funktionen til jobinitialisering. Dette er den funktion, der læser konfigurationsfilen.
Til SourceBucketName, indtast S3-bøtten, der indeholder XLIFF-filerne, der skal oversættes. Hvis du foretrækker at bruge en allerede eksisterende bucket, skal du ændre værdien af CreateSourceBucket-parameteren til No.
Til WorkingBucketName, indtast den S3-bøtte, Amazon Translate bruger til input- og outputdata.
Vælg Næste.

Figur 4: CloudFormation stak detaljer
Eventuelt på Stak Indstillinger side, skal du tilføje nøglenavne og værdier for de tags, du måske ønsker at tildele til de ressourcer, der skal oprettes.
Vælg Næste.
På anmeldelse side, vælg Jeg anerkender, at denne skabelon kan få AWS CloudFormation til at oprette IAM-ressourcer.
Gennemgå de andre indstillinger, og vælg derefter Opret stak.

AWS CloudFormation tager flere minutter at oprette ressourcerne på dine vegne. Du kan se fremskridtene på Events fanen på AWS CloudFormation-konsollen. Når stakken er oprettet, kan du se en CREATE_COMPLETE besked i Status kolonne på Oversigt fane.

Test løsningen

Lad os gennemgå et simpelt eksempel.

Download nedenstående prøvedata.
Pak indholdet ud.

Der skal være to filer: en .xlf-fil i XLIFF-format og en tærskelkonfigurationsfil med .cfg som filtypenavn. Det følgende er et uddrag af XLIFF-filen.

Figur 5: Engelsk til fransk eksempelfilekstrakt

På Amazon S3-konsollen skal du uploade kvalitetstærskelkonfigurationsfilen til den konfigurationsbøtte, du har angivet tidligere.

Værdien indstillet til test_En_to_Fr er 75 %. Du bør være i stand til at se parametrene på Systems Manager-konsollen i Parameter Store-sektionen.

Stadig på Amazon S3-konsollen, upload .xlf-filen til den S3-bøtte, du har konfigureret som kilde. Sørg for, at filen er under en mappe med navnet translate (for eksempel, <my_bucket>/translate/test_En_to_Fr.xlf).

Dette starter oversættelsesflowet.

Åbn Amazon Translate-konsollen.

Et nyt job skal vises med status som Igangværende.

Figur 6: Igangværende oversættelsesjob på Amazon Translate-konsollen

Når jobbet er fuldført, skal du klikke på jobbets link og se outputtet. Alle segmenter skulle have været oversat.

Alle segmenter skulle have været oversat. I den oversatte XLIFF-fil skal du se efter segmenter med yderligere navngivne attributter lscustom:match-quality, som vist på det følgende skærmbillede. Disse tilpassede attributter identificerer segmenter, hvor den foreslåede oversættelse blev bibeholdt baseret på score.

Figur 7: Tilpassede attributter, der identificerer segmenter, hvor den foreslåede oversættelse blev bibeholdt baseret på score

Disse blev afledt fra oversættelseshukommelsen i henhold til kvalitetstærsklen. Alle andre segmenter blev maskinoversat.

Du har nu implementeret og testet en automatiseret asynkron oversættelsesjobassistent, der håndhæver konfigurerbare oversættelseshukommelsesmatchkvalitetstærskler. Godt arbejde!

Ryd op

Hvis du har implementeret løsningen på din konto, så glem ikke at slette CloudFormation-stakken for at undgå uventede omkostninger. Du skal tømme S3-spandene manuelt på forhånd.

Konklusion

I dette indlæg lærte du, hvordan du tilpasser dine Amazon Translate-oversættelsesjob baseret på standard XLIFF fuzzy matchende kvalitetsmålinger. Med denne løsning kan du i høj grad reducere det manuelle arbejde, der er involveret i at gennemgå maskinoversat tekst, samtidig med at du optimerer din brug af Amazon Translate. Du kan også udvide løsningen med automatisering af dataindtagelse og workflow-orkestrering, som beskrevet i Fremskynd oversættelsesjob med en fuldautomatisk oversættelsessystemassistent.

Om forfatterne

Narcisse Zekpa er en Solutions Architect baseret i Boston. Han hjælper kunder i det nordøstlige USA med at fremskynde deres indførelse af AWS Cloud ved at levere arkitektoniske retningslinjer, designe innovative og skalerbare løsninger. Når Narcisse ikke bygger, nyder han at bruge tid med sin familie, rejse, lave mad og spille basketball.

Dimitri Restaino er Solutions Architect hos AWS, baseret i Brooklyn, New York. Han arbejder primært med sundheds- og finansvirksomheder i Nordøst, og hjælper med at designe innovative og kreative løsninger, der bedst servicerer deres kunder. Han kommer fra en softwareudviklingsbaggrund og er begejstret over de nye muligheder, som serverløs teknologi kan bringe til verden. Uden for arbejdet elsker han at vandre og udforske madscenen i NYC.

Tidsstempel: Maj 16, 2022

Tidsstempel: Maj 2, 2022

Genudgivet af Platon

Få mere kontrol over dine Amazon SageMaker Data Wrangler-arbejdsbelastninger med parametriserede datasæt og planlagte job

Kør notesbøger som batchjob i Amazon SageMaker Studio Lab

Amazon SageMaker med TensorBoard: En oversigt over en hostet TensorBoard-oplevelse

Model Hosting Patterns i SageMaker: Bedste praksis i test og opdatering af modeller på SageMaker

Hvordan Patsnap brugte GPT-2-inferens på Amazon SageMaker med lav forsinkelse og pris | Amazon Web Services

Hvordan InpharmD bruger Amazon Kendra og Amazon Lex til at drive evidensbaseret patientbehandling

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto