Personaliseer uw machinevertaalresultaten door Fuzzy Matching te gebruiken met Amazon Translate

Heruitgegeven door Plato

volgers: 0

De volkstaal van een persoon maakt deel uit van de kenmerken die hem uniek maken. Er zijn vaak talloze verschillende manieren om een bepaald idee uit te drukken. Wanneer een bedrijf met zijn klanten communiceert, is het van cruciaal belang dat de boodschap wordt afgeleverd op een manier die de informatie die ze proberen over te brengen het beste weergeeft. Dit wordt nog belangrijker als het gaat om professionele taalvertaling. Klanten van vertaalsystemen en -diensten verwachten nauwkeurige en sterk op maat gemaakte resultaten. Om dit te bereiken, hergebruiken ze vaak eerdere vertalingen, het vertaalgeheugen (TM) genoemd, en vergelijken ze deze met nieuwe invoertekst. In computerondersteunde vertaling staat deze techniek bekend als: vage matching. De primaire functie van fuzzy matching is om de vertaler te helpen door het vertaalproces te versnellen. Wanneer er geen exacte overeenkomst kan worden gevonden in de TM-database voor de tekst die wordt vertaald, hebben vertaalbeheersystemen (TMS's) vaak de mogelijkheid om te zoeken naar een overeenkomst die minder dan exact is. Potentiële overeenkomsten worden aan de vertaler verstrekt als aanvullende input voor de uiteindelijke vertaling. Vertalers die hun workflow verbeteren met mogelijkheden voor machinevertaling, zoals: Amazon Vertalen verwachten vaak dat fuzzy matching-gegevens worden gebruikt als onderdeel van de geautomatiseerde vertaaloplossing.

In dit bericht leert u hoe u de uitvoer van Amazon Translate kunt aanpassen op basis van de kwaliteitsscores voor fuzzy match-kwaliteit in het vertaalgeheugen.

Kwaliteitsovereenkomst vertaling

Het XML Localization Interchange-bestandsformaat (XLIFF)-standaard wordt vaak gebruikt als formaat voor gegevensuitwisseling tussen TMS'en en Amazon Translate. XLIFF-bestanden geproduceerd door TMS'en bevatten bron- en doeltekstgegevens samen met kwaliteitsscores voor overeenkomsten op basis van het beschikbare TM. Deze scores, meestal uitgedrukt als een percentage, geven aan hoe dicht het vertaalgeheugen bij de te vertalen tekst staat.

Sommige klanten met zeer strikte eisen willen dat machinevertaling alleen wordt gebruikt wanneer de kwaliteitsscores voor overeenkomsten onder een bepaalde drempel liggen. Boven deze drempel verwachten ze dat hun eigen vertaalgeheugen voorrang krijgt. Vertalers moeten deze voorkeuren vaak handmatig toepassen in hun TMS of door de tekstgegevens te wijzigen. Deze stroom wordt geïllustreerd in het volgende diagram. Het machinevertaalsysteem verwerkt de vertaalgegevens (tekst en vage matchscores) die vervolgens door vertalers worden beoordeeld en handmatig worden bewerkt op basis van hun gewenste kwaliteitsdrempels. Door drempels toe te passen als onderdeel van de stap voor machinevertaling, kunt u deze handmatige stappen verwijderen, wat de efficiëntie verbetert en de kosten optimaliseert.

Figuur 1: Beoordelingsstroom voor machinevertaling

Met de oplossing die in dit bericht wordt gepresenteerd, kun je regels afdwingen op basis van drempelwaarden voor de kwaliteitsscore om te bepalen of een bepaalde invoertekst automatisch moet worden vertaald door Amazon Translate. Als de tekst niet machinaal is vertaald, wordt de resulterende tekst overgelaten aan het oordeel van de vertalers die de uiteindelijke uitvoer beoordelen.

Oplossingsarchitectuur

De oplossingsarchitectuur die in Afbeelding 2 wordt geïllustreerd, maakt gebruik van de volgende services:

Amazon eenvoudige opslagservice – Amazon S3-buckets bevatten de volgende inhoud:
- Fuzzy match-drempelconfiguratiebestanden
- Te vertalen brontekst
- Amazon Translate invoer- en uitvoergegevenslocaties
AWS-systeembeheerder - We gebruiken Parameter opslaan parameters om de configuratiewaarden van de matchkwaliteitsdrempel op te slaan
AWS Lambda – We gebruiken twee Lambda-functies:
- Eén functie verwerkt de configuratiebestanden voor de kwaliteitsovereenkomst voor en bewaart de gegevens in Parameter Store
- Eén functie maakt automatisch de asynchrone vertaalopdrachten
Amazon Simple Queue-service – Een Amazon SQS-wachtrij activeert de vertaalstroom als gevolg van nieuwe bestanden die in de bronbucket komen

Afbeelding 2: Oplossingsarchitectuur

U stelt eerst kwaliteitsdrempels in voor uw vertaalopdrachten door een configuratiebestand te bewerken en dit te uploaden naar de S3-bucket voor de configuratie van de fuzzy match-drempel. Het volgende is een voorbeeldconfiguratie in CSV-indeling. We kozen voor CSV vanwege de eenvoud, hoewel je elk formaat kunt gebruiken. Elke regel vertegenwoordigt een drempel die moet worden toegepast op een specifieke vertaalopdracht of als standaardwaarde op een opdracht.

default, 75
SourceMT-Test, 80

De specificaties van het configuratiebestand zijn als volgt:

Kolom 1 moet worden gevuld met de naam van het XLIFF-bestand - zonder extensie - dat als invoergegevens aan de Amazon Translate-taak is verstrekt.
Kolom 2 moet worden gevuld met de drempelwaarde voor kwaliteitsovereenkomst. Voor elke score onder deze waarde wordt machinevertaling gebruikt.
Voor alle XLIFF-bestanden waarvan de naam niet overeenkomt met een naam in het configuratiebestand, wordt de standaarddrempel gebruikt: de regel met het trefwoord default ingesteld in kolom 1.

Afbeelding 3: Automatisch gegenereerde parameter in Systems Manager Parameter Store

Wanneer een nieuw bestand wordt geüpload, activeert Amazon S3 de Lambda-functie die verantwoordelijk is voor het verwerken van de parameters. Deze functie leest de drempelparameters en slaat ze op in Parameter Store voor toekomstig gebruik. Het gebruik van Parameter Store vermijdt het uitvoeren van overbodige Amazon S3 GET-verzoeken telkens wanneer een nieuwe vertaalopdracht wordt gestart. Het voorbeeldconfiguratiebestand produceert de parametertags die in de volgende schermafbeelding worden getoond.

De taakinitialisatie Lambda-functie gebruikt deze parameters om de gegevens voor te verwerken voordat Amazon Translate wordt aangeroepen. We gebruiken een Engels-naar-Spaans vertaling XLIFF-invoerbestand, zoals weergegeven in de volgende code. Het bevat de oorspronkelijke tekst die moet worden vertaald, opgesplitst in wat wordt aangeduid als segmenten, weergegeven in de brontags.

<group id="g8"> <trans-unit id="t8" translate="yes"> <source>Consent Form</source> <target state-qualifier="fuzzy-match"/> <alt-trans extype="fuzzy-match" match-quality="99%" > <source>CONSENT FORM</source> <target>FORMULARIO DE CONSENTIMIENTO</target> </alt-trans> </trans-unit>
</group> <group id="g67"> <trans-unit id="t110" translate="yes"> <source>Screening Visit:</source> <target state-qualifier="fuzzy-match"/> <alt-trans extype="fuzzy-match" match-quality="50%"> <source>Screening Visit</source> <target>Selección</target> </alt-trans> </trans-unit>
</group>

De brontekst is vooraf gematcht met het vertaalgeheugen. De gegevens bevatten mogelijke vertalingsalternatieven—weergegeven als <alt-trans> tags—naast een kwaliteitskenmerk voor overeenkomsten, uitgedrukt als een percentage. De bedrijfsregel is als volgt:

Segmenten die worden ontvangen met alternatieve vertalingen en een matchkwaliteit onder de drempel zijn onaangeroerd of leeg. Dit geeft aan Amazon Translate het signaal dat ze vertaald moeten worden.
Segmenten die zijn ontvangen met alternatieve vertalingen met een matchkwaliteit boven de drempel, worden vooraf ingevuld met de voorgestelde doeltekst. Amazon Translate slaat die segmenten over.

Laten we aannemen dat de drempelwaarde voor kwaliteitsovereenkomst die voor deze taak is geconfigureerd, 80% is. Het eerste segment met een matchkwaliteit van 99% is niet automatisch vertaald, terwijl het tweede segment dat wel is, omdat de matchkwaliteit onder de gedefinieerde drempel ligt. In deze configuratie produceert Amazon Translate de volgende uitvoer:

<group id="g8"> <trans-unit id="t8" translate="yes"> <source>Consent Form</source> <target state-qualifier="fuzzy-match" translate:match-quality="99%">FORMULARIO DE CONSENTIMIENTO</target> <alt-trans extype="fuzzy-match" match-quality="99%" > <source>CONSENT FORM</source> <target>FORMULARIO DE CONSENTIMIENTO</target> </alt-trans> </trans-unit>
</group> <group id="g67"> <trans-unit id="t110" translate="yes"> <source>Screening Visit:</source> <target state-qualifier="fuzzy-match">Visita de selección</target> <alt-trans extype="fuzzy-match" match-quality="50%"> <source>Screening Visit</source> <target>Selección</target> </alt-trans> </trans-unit>
</group>

In het tweede segment overschrijft Amazon Translate de oorspronkelijk voorgestelde doeltekst (Selección) met een vertaling van hogere kwaliteit: Visita de selección.

Een mogelijke uitbreiding van deze use case zou kunnen zijn om de vertaalde output opnieuw te gebruiken en ons eigen vertaalgeheugen te creëren. Amazon Translate ondersteunt het aanpassen van machinevertaling met behulp van vertaalgeheugen dankzij de parallelle gegevens functie. Tekstsegmenten die voorheen machinaal vertaald waren vanwege hun aanvankelijke lage kwaliteitsscore, kunnen vervolgens worden hergebruikt in nieuwe vertaalprojecten.

In de volgende secties leiden we u door het proces van het implementeren en testen van deze oplossing. Je gebruikt AWS CloudFormatie scripts en gegevensvoorbeelden om een asynchrone vertaaltaak te starten die is gepersonaliseerd met een configureerbare drempel voor kwaliteitsovereenkomsten.

Voorwaarden

Voor deze walkthrough moet je een AWS-account. Als je nog geen account hebt, kan dat maak en activeer er een.

Start AWS CloudFormation-stack

Kies Start Stack:
Voor Stack naam, voer een naam in.
Voor ConfigBucketName, voer de S3-bucket in die de drempelconfiguratiebestanden bevat.
Voor ParameterStoreRoot, voer het hoofdpad in van de parameters die zijn gemaakt door de Lambda-functie voor het verwerken van parameters.
Voor Wachtrijnaam, voer de SQS-wachtrij in die u maakt om nieuwe bestandsmeldingen van de bronbucket naar de taakinitialisatie Lambda-functie te posten. Dit is de functie die het configuratiebestand leest.
Voor Bronbucketnaam, voer de S3-bucket in met de XLIFF-bestanden die moeten worden vertaald. Als u liever een bestaande bucket gebruikt, moet u de waarde van de parameter CreateSourceBucket wijzigen in Nee.
Voor WorkingBucketName, voer de S3-bucket in die Amazon Translate gebruikt voor invoer- en uitvoergegevens.
Kies Volgende.

Afbeelding 4: CloudFormation-stackdetails
optioneel op de Opstapelen Opties pagina, voeg sleutelnamen en waarden toe voor de tags die u mogelijk wilt toewijzen aan de bronnen die op het punt staan te worden gemaakt.
Kies Volgende.
Op de Beoordeling 4040 hand404040 details hand4040 hand 3 details hand40 hand40 hand details details details details hand 3 Ik erken dat deze sjabloon ertoe kan leiden dat AWS CloudFormation IAM-resources aanmaakt.
Bekijk de andere instellingen en kies vervolgens Maak een stapel.

AWS CloudFormation heeft enkele minuten nodig om de resources namens u aan te maken. U kunt de voortgang bekijken op de Evenementen tabblad op de AWS CloudFormation-console. Wanneer de stapel is gemaakt, ziet u a CREATE_COMPLETE bericht in de Status kolom op de Overzicht Tab.

Test de oplossing

Laten we een eenvoudig voorbeeld doornemen.

Download het volgende voorbeeldgegevens.
Pak de inhoud uit.

Er moeten twee bestanden zijn: een .xlf-bestand in XLIFF-indeling en een drempelconfiguratiebestand met .cfg als extensie. Het volgende is een uittreksel van het XLIFF-bestand.

Uittreksel van voorbeeldbestand van Engels naar Frans

Afbeelding 5: Engels naar Frans voorbeeldbestandsextract

Upload op de Amazon S3-console het configuratiebestand voor de kwaliteitsdrempel naar de eerder opgegeven configuratiebucket.

De waarde die is ingesteld voor test_En_to_Fr bedraagt 75%. U zou de parameters op de Systems Manager-console in de sectie Parameter Store moeten kunnen zien.

Upload nog steeds op de Amazon S3-console het .xlf-bestand naar de S3-bucket die u als bron hebt geconfigureerd. Zorg ervoor dat het bestand zich in een map met de naam bevindt translate (bijvoorbeeld, <my_bucket>/translate/test_En_to_Fr.xlf).

Dit start de vertaalstroom.

Open de Amazon Translate-console.

Er zou een nieuwe taak moeten verschijnen met de status In uitvoering.

Afbeelding 6: Vertaaltaken in uitvoering op de Amazon Translate-console

Zodra de taak is voltooid, klikt u op de link van de taak en raadpleegt u de uitvoer. Alle segmenten hadden vertaald moeten zijn.

Alle segmenten hadden vertaald moeten zijn. Zoek in het vertaalde XLIFF-bestand naar segmenten met extra attributen genaamd lscustom:match-quality, zoals weergegeven in de volgende schermafbeelding. Deze aangepaste kenmerken identificeren segmenten waarin de voorgestelde vertaling werd behouden op basis van de score.

Aangepaste kenmerken die segmenten identificeren waarin de voorgestelde vertaling is behouden op basis van de score

Afbeelding 7: Aangepaste attributen die segmenten identificeren waar de voorgestelde vertaling werd behouden op basis van score

Deze werden afgeleid uit het vertaalgeheugen volgens de kwaliteitsdrempel. Alle andere segmenten zijn machinaal vertaald.

U hebt nu een geautomatiseerde asynchrone assistent voor vertaalopdrachten geïmplementeerd en getest die configureerbare drempelwaarden voor de matchkwaliteit van vertaalgeheugens afdwingt. Goed werk!

Opruimen

Als u de oplossing in uw account hebt geïmplementeerd, vergeet dan niet de CloudFormation-stack te verwijderen om onverwachte kosten te voorkomen. U dient de S3-emmers vooraf handmatig te legen.

Conclusie

In dit bericht heb je geleerd hoe je je Amazon Translate-vertaaltaken kunt aanpassen op basis van standaard XLIFF fuzzy matching-kwaliteitsstatistieken. Met deze oplossing kunt u de handmatige arbeid die nodig is bij het beoordelen van machinaal vertaalde tekst aanzienlijk verminderen en tegelijkertijd uw gebruik van Amazon Translate optimaliseren. U kunt de oplossing ook uitbreiden met automatisering van gegevensopname en workflow-orkestratiemogelijkheden, zoals beschreven in: Versnel vertaalopdrachten met een volledig geautomatiseerde vertaalsysteemassistent.

Over de auteurs

Narcisse Zekpa is een Solutions Architect gevestigd in Boston. Hij helpt klanten in het noordoosten van de VS hun adoptie van de AWS Cloud te versnellen door architectuurrichtlijnen te bieden en innovatieve en schaalbare oplossingen te ontwerpen. Als Narcisse niet aan het bouwen is, brengt hij graag tijd door met zijn gezin, reizen, koken en basketballen.

Dimitri Restaino is Solutions Architect bij AWS, gevestigd in Brooklyn, New York. Hij werkt voornamelijk met bedrijven in de gezondheidszorg en financiële dienstverlening in het noordoosten en helpt bij het ontwerpen van innovatieve en creatieve oplossingen om hun klanten zo goed mogelijk van dienst te zijn. Hij heeft een achtergrond in softwareontwikkeling en is enthousiast over de nieuwe mogelijkheden die serverloze technologie de wereld kan brengen. Buiten zijn werk houdt hij van wandelen en het verkennen van de eetcultuur van NYC.

Tijdstempel: 16 mei 2022

Heruitgegeven door Plato

Startups in AWS Accelerators gebruiken AI en ML om missiekritieke klantuitdagingen op te lossen

Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML

Introductie van Fortuna: een bibliotheek voor het kwantificeren van onzekerheid

Vermogensaanbevelingen en zoeken met behulp van een IMDb-kennisgrafiek - Deel 3

Voorspel de prijzen van residentieel vastgoed bij ImmoScout24 met Amazon SageMaker

AI21 Jurassic-1 foundation-model is nu beschikbaar op Amazon SageMaker

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account