Anpassa dina maskinöversättningsresultat genom att använda fuzzy matchning med Amazon Translate

Återutgiven av Platon

anhängare: 0

En persons folkspråk är en del av de egenskaper som gör dem unika. Det finns ofta otaliga olika sätt att uttrycka en specifik idé. När ett företag kommunicerar med sina kunder är det viktigt att budskapet levereras på ett sätt som bäst representerar den information de försöker förmedla. Detta blir ännu viktigare när det kommer till professionell språköversättning. Kunder av översättningssystem och tjänster förväntar sig exakta och mycket anpassade utdata. För att uppnå detta återanvänder de ofta tidigare översättningsutdata – kallat översättningsminne (TM) – och jämför dem med ny inmatad text. I datorstödd översättning är denna teknik känd som suddig matchning. Den primära funktionen för fuzzy matchning är att hjälpa översättaren genom att påskynda översättningsprocessen. När en exakt matchning inte kan hittas i TM-databasen för texten som översätts, har översättningshanteringssystem (TMS) ofta möjlighet att söka efter en matchning som är mindre än exakt. Potentiella matchningar ges till översättaren som ytterligare input för slutlig översättning. Översättare som förbättrar sitt arbetsflöde med maskinöversättningsmöjligheter som t.ex Amazon Translate förväntar sig ofta att suddiga matchningsdata används som en del av den automatiska översättningslösningen.

I det här inlägget lär du dig hur du anpassar utdata från Amazon Translate enligt översättningsminnets fuzzy match-kvalitetspoäng.

Översättningskvalitetsmatchning

Filformatet XML Localization Interchange (XLIFF) standard används ofta som ett datautbyteformat mellan TMS och Amazon Translate. XLIFF-filer som produceras av TMS inkluderar käll- och måltextdata tillsammans med matchningskvalitetspoäng baserat på tillgänglig TM. Dessa poäng – vanligtvis uttryckta i procent – anger hur nära översättningsminnet är den text som översätts.

Vissa kunder med mycket strikta krav vill bara att maskinöversättning ska användas när matchkvalitetsresultaten ligger under en viss tröskel. Bortom denna tröskel förväntar de sig att deras eget översättningsminne ska ha företräde. Översättare behöver ofta tillämpa dessa inställningar manuellt antingen inom sitt TMS eller genom att ändra textdata. Detta flöde illustreras i följande diagram. Maskinöversättningssystemet bearbetar översättningsdata – text och luddiga matchresultat – som sedan granskas och redigeras manuellt av översättare, baserat på deras önskade kvalitetströsklar. Genom att tillämpa tröskelvärden som en del av steget för maskinöversättning kan du ta bort dessa manuella steg, vilket förbättrar effektiviteten och optimerar kostnaden.

Figur 1: Genomgångsflöde för maskinöversättning

Lösningen som presenteras i det här inlägget låter dig genomdriva regler baserade på trösklar för matchningskvalitetspoäng för att styra om en given inmatningstext ska maskinöversättas av Amazon Translate eller inte. När den inte är maskinöversatt överlåts den resulterande texten till översättarnas gottfinnande som granskar den slutliga utmatningen.

Lösningsarkitektur

Lösningsarkitekturen som illustreras i figur 2 utnyttjar följande tjänster:

Amazon enkel lagringstjänst – Amazon S3-hinkar innehåller följande innehåll:
- Konfigurationsfiler för fuzzy match tröskelvärden
- Källtext som ska översättas
- Amazon Translate in- och utdataplatser
AWS systemchef - Vi använder Parameterlagring parametrar för att lagra konfigurationsvärden för matchningskvalitetströskelvärden
AWS Lambda – Vi använder två lambdafunktioner:
- En funktion förbearbetar konfigurationsfilerna för kvalitetsmatchningströskeln och lagrar data i Parameter Store
- En funktion skapar automatiskt de asynkrona översättningsjobben
Amazon enkel kötjänst – En Amazon SQS-kö utlöser översättningsflödet som ett resultat av att nya filer kommer in i källbucket

Figur 2: Lösningsarkitektur

Du ställer först in kvalitetströskelvärden för dina översättningsjobb genom att redigera en konfigurationsfil och ladda upp den till den luddiga matchningströskelkonfigurationen S3-hinken. Följande är ett exempel på en konfiguration i CSV-format. Vi valde CSV för enkelhetens skull, även om du kan använda vilket format som helst. Varje rad representerar en tröskel som ska tillämpas på antingen ett specifikt översättningsjobb eller som ett standardvärde för ett jobb.

default, 75
SourceMT-Test, 80

Specifikationerna för konfigurationsfilen är som följer:

Kolumn 1 ska fyllas i med namnet på XLIFF-filen – utan tillägg – som tillhandahålls till Amazon Translate-jobbet som indata.
Kolumn 2 ska fyllas i med tröskeln för kvalitetsmatchning i procent. För varje poäng under detta värde används maskinöversättning.
För alla XLIFF-filer vars namn inte matchar något namn som anges i konfigurationsfilen, används standardtröskeln – raden med nyckelordet default utspelad i kolumn 1.

Figur 3: Autogenererad parameter i System Manager Parameter Store

När en ny fil laddas upp utlöser Amazon S3 Lambda-funktionen som ansvarar för att bearbeta parametrarna. Denna funktion läser och lagrar tröskelparametrarna i Parameter Store för framtida användning. Genom att använda Parameter Store undviker du att utföra redundanta Amazon S3 GET-förfrågningar varje gång ett nytt översättningsjobb initieras. Exempelkonfigurationsfilen producerar parametertaggarna som visas i följande skärmdump.

Lambdafunktionen för jobbinitiering använder dessa parametrar för att förbehandla data innan Amazon Translate anropas. Vi använder en XLIFF-indatafil för översättning från engelska till spanska, som visas i följande kod. Den innehåller den ursprungliga texten som ska översättas, uppdelad i vad som kallas segment, representerade i källtaggarna.

<group id="g8"> <trans-unit id="t8" translate="yes"> <source>Consent Form</source> <target state-qualifier="fuzzy-match"/> <alt-trans extype="fuzzy-match" match-quality="99%" > <source>CONSENT FORM</source> <target>FORMULARIO DE CONSENTIMIENTO</target> </alt-trans> </trans-unit>
</group> <group id="g67"> <trans-unit id="t110" translate="yes"> <source>Screening Visit:</source> <target state-qualifier="fuzzy-match"/> <alt-trans extype="fuzzy-match" match-quality="50%"> <source>Screening Visit</source> <target>Selección</target> </alt-trans> </trans-unit>
</group>

Källtexten har i förväg matchats med översättningsminnet. Uppgifterna innehåller potentiella översättningsalternativ – representerade som <alt-trans> taggar – tillsammans med ett matchningskvalitetsattribut, uttryckt i procent. Affärsregeln är som följer:

Segment som tas emot med alternativa översättningar och en matchningskvalitet under tröskeln är orörda eller tomma. Detta signalerar till Amazon Translate att de måste översättas.
Segment som tas emot med alternativa översättningar med en matchningskvalitet över tröskeln är förfyllda med den föreslagna måltexten. Amazon Translate hoppar över dessa segment.

Låt oss anta att tröskeln för kvalitetsmatchning som konfigurerats för det här jobbet är 80 %. Det första segmentet med 99 % matchningskvalitet är inte maskinöversatt, medan det andra segmentet är det eftersom dess matchningskvalitet ligger under den definierade tröskeln. I den här konfigurationen producerar Amazon Translate följande utdata:

<group id="g8"> <trans-unit id="t8" translate="yes"> <source>Consent Form</source> <target state-qualifier="fuzzy-match" translate:match-quality="99%">FORMULARIO DE CONSENTIMIENTO</target> <alt-trans extype="fuzzy-match" match-quality="99%" > <source>CONSENT FORM</source> <target>FORMULARIO DE CONSENTIMIENTO</target> </alt-trans> </trans-unit>
</group> <group id="g67"> <trans-unit id="t110" translate="yes"> <source>Screening Visit:</source> <target state-qualifier="fuzzy-match">Visita de selección</target> <alt-trans extype="fuzzy-match" match-quality="50%"> <source>Screening Visit</source> <target>Selección</target> </alt-trans> </trans-unit>
</group>

I det andra segmentet skriver Amazon Translate över måltexten som ursprungligen föreslagits (Selección) med en översättning av högre kvalitet: Visita de selección.

En möjlig förlängning av detta användningsfall kan vara att återanvända den översatta utdata och skapa vårt eget översättningsminne. Amazon Translate stöder anpassning av maskinöversättning med hjälp av översättningsminne tack vare parallella data funktion. Textsegment som tidigare maskinöversatts på grund av deras initiala lågkvalitetspoäng kunde sedan återanvändas i nya översättningsprojekt.

I de följande avsnitten går vi igenom processen med att distribuera och testa den här lösningen. Du använder AWS molnformation skript och dataprover för att starta ett asynkront översättningsjobb anpassat med en konfigurerbar tröskel för kvalitetsmatchning.

Förutsättningar

För denna genomgång måste du ha en AWS-konto. Om du inte har ett konto än kan du göra det skapa och aktivera en.

Starta AWS CloudFormation-stack

Välja Starta stack:
För Stapla namn, ange ett namn.
För ConfigBucketName, ange S3-bucket som innehåller tröskelkonfigurationsfilerna.
För ParameterStoreRoot, ange rotsökvägen för parametrarna som skapats av lambdafunktionen för parametrar.
För Könamn, ange SQS-kön som du skapar för att lägga upp nya filaviseringar från källbucket till funktionen för jobbinitiering Lambda. Det här är funktionen som läser konfigurationsfilen.
För SourceBucketName, ange S3-bucket som innehåller XLIFF-filerna som ska översättas. Om du föredrar att använda en redan befintlig hink måste du ändra värdet på parametern CreateSourceBucket till Nej.
För WorkingBucketName, ange S3-hinken som Amazon Translate använder för in- och utdata.
Välja Nästa.

Figur 4: CloudFormations stackdetaljer
Eventuellt på Stack Tillbehör sida, lägg till nyckelnamn och värden för taggarna som du kanske vill tilldela resurserna som ska skapas.
Välja Nästa.
På översyn sida, välj Jag erkänner att denna mall kan få AWS CloudFormation att skapa IAM-resurser.
Granska de andra inställningarna och välj sedan Skapa stack.

AWS CloudFormation tar flera minuter att skapa resurserna för din räkning. Du kan se framstegen på Händelser fliken på AWS CloudFormation-konsolen. När stacken har skapats kan du se en CREATE_COMPLETE meddelande i status kolumn på Översikt fliken.

Testa lösningen

Låt oss gå igenom ett enkelt exempel.

Ladda ner följande stickprov.
Packa upp innehållet.

Det bör finnas två filer: en .xlf-fil i XLIFF-format och en tröskelkonfigurationsfil med .cfg som tillägg. Följande är ett utdrag ur XLIFF-filen.

Figur 5: Utdrag från engelska till franska exempelfil

På Amazon S3-konsolen laddar du upp konfigurationsfilen för kvalitetströskeln till den konfigurationsbucket du angav tidigare.

Värdet inställt för test_En_to_Fr är 75 %. Du bör kunna se parametrarna på Systems Manager-konsolen i avsnittet Parameter Store.

Fortfarande på Amazon S3-konsolen laddar du upp .xlf-filen till S3-hinken som du konfigurerade som källa. Se till att filen finns under en mapp som heter translate (till exempel, <my_bucket>/translate/test_En_to_Fr.xlf).

Detta startar översättningsflödet.

Öppna Amazon Translate-konsolen.

Ett nytt jobb ska visas med statusen Pågår.

Figur 6: Pågående översättningsjobb på Amazon Translate-konsolen

När jobbet är klart klickar du på jobbets länk och läser resultatet. Alla segment borde ha översatts.

Alla segment borde ha översatts. I den översatta XLIFF-filen letar du efter segment med ytterligare namngivna attribut lscustom:match-quality, som visas i följande skärmdump. Dessa anpassade attribut identifierar segment där föreslagen översättning behölls baserat på poäng.

Figur 7: Anpassade attribut som identifierar segment där föreslagen översättning behölls baserat på poäng

Dessa härleddes från översättningsminnet enligt kvalitetströskeln. Alla andra segment maskinöversatts.

Du har nu distribuerat och testat en automatiserad asynkron översättningsassistent som upprätthåller konfigurerbara översättningsminnesmatchningskvalitetströsklar. Bra jobbat!

Städa

Om du implementerade lösningen på ditt konto, glöm inte att ta bort CloudFormation-stacken för att undvika oväntade kostnader. Du måste tömma S3-hinkarna manuellt i förväg.

Slutsats

I det här inlägget lärde du dig hur du anpassar dina Amazon Translate-översättningsjobb baserat på standard XLIFF fuzzy matchande kvalitetsmått. Med den här lösningen kan du avsevärt minska det manuella arbetet med att granska maskinöversatt text samtidigt som du optimerar din användning av Amazon Translate. Du kan också utöka lösningen med automatisering av dataintag och orkestrering av arbetsflöden, som beskrivs i Snabba upp översättningsjobb med en helt automatiserad översättningssystemassistent.

Om författarna

Narcisse Zekpa är en lösningsarkitekt baserad i Boston. Han hjälper kunder i nordöstra USA att påskynda deras användning av AWS Cloud, genom att tillhandahålla arkitektoniska riktlinjer, designa innovativa och skalbara lösningar. När Narcisse inte bygger tycker han om att spendera tid med sin familj, resa, laga mat och spela basket.

Dimitri Restaino är en lösningsarkitekt på AWS, baserat i Brooklyn, New York. Han arbetar främst med företag inom hälso- och sjukvård och finansiella tjänster i nordöstra delen av landet, och hjälper till att designa innovativa och kreativa lösningar för att på bästa sätt betjäna sina kunder. Han kommer från en mjukvaruutvecklingsbakgrund och är exalterad över de nya möjligheter som serverlös teknologi kan ge världen. Utanför jobbet älskar han att vandra och utforska matscenen i NYC.

Tidsstämpel: Maj 16, 2022

Återutgiven av Platon

Startups över AWS Accelerators använder AI och ML för att lösa uppdragskritiska kundutmaningar

Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML

Vi presenterar Fortuna: Ett bibliotek för kvantifiering av osäkerhet

Effektrekommendationer och sökning med hjälp av en IMDb-kunskapsgraf – Del 3

Förutsäg priser på bostadsfastigheter hos ImmoScout24 med Amazon SageMaker

AI21 Jurassic-1 foundation modell är nu tillgänglig på Amazon SageMaker

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto