Personalisieren Sie Ihre maschinellen Übersetzungsergebnisse, indem Sie Fuzzy-Matching mit Amazon Translate verwenden

Neuauflage von Plato

Verfolger: 0

Die Umgangssprache einer Person ist Teil der Merkmale, die sie einzigartig machen. Es gibt oft unzählige verschiedene Möglichkeiten, eine bestimmte Idee auszudrücken. Wenn ein Unternehmen mit seinen Kunden kommuniziert, ist es entscheidend, dass die Botschaft so übermittelt wird, dass die Informationen, die es vermitteln möchte, am besten wiedergegeben werden. Dies wird noch wichtiger, wenn es um professionelle Sprachübersetzung geht. Kunden von Übersetzungssystemen und -diensten erwarten genaue und hochgradig kundenspezifische Ergebnisse. Um dies zu erreichen, verwenden sie häufig frühere Übersetzungsergebnisse – so genannte Translation Memory (TM) – und vergleichen sie mit neuem Eingabetext. In der computergestützten Übersetzung ist diese Technik als bekannt Fuzzy Matching. Die Hauptfunktion des Fuzzy-Matching besteht darin, den Übersetzer zu unterstützen, indem der Übersetzungsprozess beschleunigt wird. Wenn in der TM-Datenbank keine exakte Übereinstimmung für den zu übersetzenden Text gefunden werden kann, haben Übersetzungsmanagementsysteme (TMS) häufig die Möglichkeit, nach einer weniger genauen Übereinstimmung zu suchen. Mögliche Übereinstimmungen werden dem Übersetzer als zusätzliche Eingabe für die endgültige Übersetzung bereitgestellt. Übersetzer, die ihren Arbeitsablauf mit maschinellen Übersetzungsfunktionen wie z Amazon Übersetzen erwarten oft, dass Fuzzy-Matching-Daten als Teil der automatisierten Übersetzungslösung verwendet werden.

In diesem Beitrag erfahren Sie, wie Sie die Ausgabe von Amazon Translate gemäß den Fuzzy-Match-Qualitätswerten des Translation Memory anpassen.

Übereinstimmung der Übersetzungsqualität

Das XML Localization Interchange File Format (XLIFF)-Standard wird häufig als Datenaustauschformat zwischen TMS und Amazon Translate verwendet. XLIFF-Dateien, die von TMS erstellt werden, enthalten Quell- und Zieltextdaten sowie Übereinstimmungsqualitätswerte basierend auf dem verfügbaren TM. Diese Bewertungen – normalerweise in Prozent ausgedrückt – geben an, wie nah das Translation Memory an dem zu übersetzenden Text ist.

Einige Kunden mit sehr strengen Anforderungen möchten, dass die maschinelle Übersetzung nur verwendet wird, wenn die Übereinstimmungsqualitätswerte unter einem bestimmten Schwellenwert liegen. Jenseits dieser Schwelle erwarten sie, dass ihr eigenes Translation Memory Vorrang hat. Übersetzer müssen diese Einstellungen häufig manuell entweder in ihrem TMS oder durch Ändern der Textdaten anwenden. Dieser Ablauf ist im folgenden Diagramm dargestellt. Das maschinelle Übersetzungssystem verarbeitet die Übersetzungsdaten – Text- und Fuzzy-Match-Scores –, die dann überprüft und von Übersetzern auf der Grundlage ihrer gewünschten Qualitätsschwellenwerte manuell bearbeitet werden. Durch das Anwenden von Schwellenwerten als Teil des maschinellen Übersetzungsschritts können Sie diese manuellen Schritte entfernen, was die Effizienz verbessert und die Kosten optimiert.

Ablauf der maschinellen Übersetzungsüberprüfung

Abbildung 1: Überprüfungsablauf für maschinelle Übersetzungen

Die in diesem Beitrag vorgestellte Lösung ermöglicht es Ihnen, Regeln auf der Grundlage von Übereinstimmungs-Qualitäts-Score-Schwellenwerten durchzusetzen, um festzulegen, ob ein bestimmter Eingabetext von Amazon Translate maschinell übersetzt werden soll oder nicht. Wenn der resultierende Text nicht maschinell übersetzt wird, liegt es im Ermessen der Übersetzer, die die endgültige Ausgabe überprüfen.

Lösungsarchitektur

Die in Abbildung 2 dargestellte Lösungsarchitektur nutzt die folgenden Dienste:

Amazon Simple Storage-Service – Amazon S3-Buckets enthalten die folgenden Inhalte:
- Konfigurationsdateien für Fuzzy-Match-Schwellenwerte
- Zu übersetzender Ausgangstext
- Speicherorte der Amazon Translate-Eingabe- und -Ausgabedaten
AWS-Systemmanager - Wir gebrauchen Parameterspeicher Parameter zum Speichern von Schwellenwertkonfigurationswerten für die Übereinstimmungsqualität
AWS Lambda – Wir verwenden zwei Lambda-Funktionen:
- Eine Funktion verarbeitet die Konfigurationsdateien für den Qualitätsübereinstimmungsschwellenwert vor und speichert die Daten im Parameterspeicher
- Eine Funktion erstellt automatisch die asynchronen Übersetzungsaufträge
Amazon Simple Queue-Dienst – Eine Amazon SQS-Warteschlange löst den Übersetzungsfluss aus, wenn neue Dateien in den Quell-Bucket kommen

Abbildung 2: Lösungsarchitektur

Sie richten zunächst Qualitätsschwellenwerte für Ihre Übersetzungsaufträge ein, indem Sie eine Konfigurationsdatei bearbeiten und in den S3-Bucket für die Fuzzy-Match-Schwellenwertkonfiguration hochladen. Das Folgende ist eine Beispielkonfiguration im CSV-Format. Wir haben uns der Einfachheit halber für CSV entschieden, obwohl Sie jedes Format verwenden können. Jede Zeile stellt einen Schwellenwert dar, der entweder auf einen bestimmten Übersetzungsauftrag oder als Standardwert auf einen beliebigen Auftrag anzuwenden ist.

default, 75
SourceMT-Test, 80

Die Spezifikationen der Konfigurationsdatei lauten wie folgt:

Spalte 1 sollte mit dem Namen der XLIFF-Datei – ohne Erweiterung – gefüllt werden, die dem Amazon Translate-Auftrag als Eingabedaten bereitgestellt wird.
Spalte 2 sollte mit dem prozentualen Schwellenwert für die Qualitätsübereinstimmung ausgefüllt werden. Für jede Punktzahl unter diesem Wert wird maschinelle Übersetzung verwendet.
Für alle XLIFF-Dateien, deren Name mit keinem der in der Konfigurationsdatei aufgeführten Namen übereinstimmt, wird der Standardschwellenwert verwendet – die Zeile mit dem Schlüsselwort default in Spalte 1 gesetzt.

Abbildung 3: Automatisch generierter Parameter im Systems Manager Parameter Store

Wenn eine neue Datei hochgeladen wird, löst Amazon S3 die Lambda-Funktion aus, die für die Verarbeitung der Parameter zuständig ist. Diese Funktion liest und speichert die Schwellenparameter im Parameter Store für die zukünftige Verwendung. Durch die Verwendung von Parameter Store wird vermieden, dass jedes Mal, wenn ein neuer Übersetzungsauftrag initiiert wird, redundante Amazon S3 GET-Anforderungen ausgeführt werden. Die Beispielkonfigurationsdatei erzeugt die im folgenden Screenshot gezeigten Parameter-Tags.

Die Lambda-Funktion zur Auftragsinitialisierung verwendet diese Parameter, um die Daten vor dem Aufrufen von Amazon Translate vorzuverarbeiten. Wir verwenden eine XLIFF-Eingabedatei für die Übersetzung vom Englischen ins Spanische, wie im folgenden Code gezeigt. Es enthält den zu übersetzenden Ausgangstext, aufgeschlüsselt in das, was als bezeichnet wird Segmente, dargestellt in den Quell-Tags.

<group id="g8"> <trans-unit id="t8" translate="yes"> <source>Consent Form</source> <target state-qualifier="fuzzy-match"/> <alt-trans extype="fuzzy-match" match-quality="99%" > <source>CONSENT FORM</source> <target>FORMULARIO DE CONSENTIMIENTO</target> </alt-trans> </trans-unit>
</group> <group id="g67"> <trans-unit id="t110" translate="yes"> <source>Screening Visit:</source> <target state-qualifier="fuzzy-match"/> <alt-trans extype="fuzzy-match" match-quality="50%"> <source>Screening Visit</source> <target>Selección</target> </alt-trans> </trans-unit>
</group>

Der Ausgangstext wurde zuvor mit dem Translation Memory abgeglichen. Die Daten enthalten potenzielle Übersetzungsalternativen – dargestellt als <alt-trans> Tags – zusammen mit einem Übereinstimmungsqualitätsattribut, ausgedrückt als Prozentsatz. Die Geschäftsregel lautet wie folgt:

Segmente, die mit alternativen Übersetzungen und einer Übereinstimmungsqualität unterhalb des Schwellenwerts empfangen wurden, sind unberührt oder leer. Dies signalisiert Amazon Translate, dass sie übersetzt werden müssen.
Segmente, die mit alternativen Übersetzungen mit einer Übereinstimmungsqualität über dem Schwellenwert empfangen werden, werden mit dem vorgeschlagenen Zieltext vorbelegt. Amazon Translate überspringt diese Segmente.

Nehmen wir an, der für diesen Job konfigurierte Schwellenwert für die Qualitätsübereinstimmung beträgt 80 %. Das erste Segment mit einer Übereinstimmungsqualität von 99 % wird nicht maschinell übersetzt, das zweite Segment dagegen schon, da seine Übereinstimmungsqualität unter dem definierten Schwellenwert liegt. In dieser Konfiguration erzeugt Amazon Translate die folgende Ausgabe:

<group id="g8"> <trans-unit id="t8" translate="yes"> <source>Consent Form</source> <target state-qualifier="fuzzy-match" translate:match-quality="99%">FORMULARIO DE CONSENTIMIENTO</target> <alt-trans extype="fuzzy-match" match-quality="99%" > <source>CONSENT FORM</source> <target>FORMULARIO DE CONSENTIMIENTO</target> </alt-trans> </trans-unit>
</group> <group id="g67"> <trans-unit id="t110" translate="yes"> <source>Screening Visit:</source> <target state-qualifier="fuzzy-match">Visita de selección</target> <alt-trans extype="fuzzy-match" match-quality="50%"> <source>Screening Visit</source> <target>Selección</target> </alt-trans> </trans-unit>
</group>

Im zweiten Segment überschreibt Amazon Translate den zunächst vorgeschlagenen Zieltext (Selección) mit einer qualitativ hochwertigeren Übersetzung: Visita de selección.

Eine mögliche Erweiterung dieses Anwendungsfalls könnte darin bestehen, die übersetzte Ausgabe wiederzuverwenden und unser eigenes Translation Memory zu erstellen. Amazon Translate unterstützt die Anpassung der maschinellen Übersetzung mithilfe des Übersetzungsspeichers dank der parallele Daten Merkmal. Textsegmente, die zuvor aufgrund ihres anfänglich niedrigen Qualitätsfaktors maschinell übersetzt wurden, könnten dann in neuen Übersetzungsprojekten wiederverwendet werden.

In den folgenden Abschnitten führen wir Sie durch den Prozess der Bereitstellung und des Testens dieser Lösung. Sie nutzen AWS CloudFormation Skripte und Datenbeispiele, um einen asynchronen Übersetzungsauftrag zu starten, der mit einem konfigurierbaren Qualitätsübereinstimmungsschwellenwert personalisiert ist.

Voraussetzungen:

Für diese exemplarische Vorgehensweise benötigen Sie eine AWS-Konto. Wenn Sie noch kein Konto haben, können Sie dies tun erstellen und aktivieren.

Starten Sie den AWS CloudFormation-Stack

Auswählen Stack starten:
Aussichten für Stapelname, Geben Sie einen Namen ein.
Aussichten für ConfigBucketName, geben Sie den S3-Bucket ein, der die Schwellenwertkonfigurationsdateien enthält.
Aussichten für ParameterStoreRoot, geben Sie den Stammpfad der Parameter ein, die von der Lambda-Funktion zur Parameterverarbeitung erstellt wurden.
Aussichten für Warteschlangenname, geben Sie die SQS-Warteschlange ein, die Sie erstellen, um neue Dateibenachrichtigungen aus dem Quell-Bucket an die Lambda-Funktion zur Auftragsinitialisierung zu senden. Dies ist die Funktion, die die Konfigurationsdatei liest.
Aussichten für SourceBucketName, geben Sie den S3-Bucket ein, der die zu übersetzenden XLIFF-Dateien enthält. Wenn Sie es vorziehen, einen bereits vorhandenen Bucket zu verwenden, müssen Sie den Wert des Parameters CreateSourceBucket auf No ändern.
Aussichten für WorkingBucketName, geben Sie den S3-Bucket ein, den Amazon Translate für Eingabe- und Ausgabedaten verwendet.
Auswählen Weiter.

Abbildung 4: Details zum CloudFormation-Stack
Wahlweise auf der Stapeln Optionen Seite, fügen Sie Schlüsselnamen und Werte für die Tags hinzu, die Sie möglicherweise den zu erstellenden Ressourcen zuweisen möchten.
Auswählen Weiter.
Auf dem Bewertung Seite auswählen Ich erkenne an, dass diese Vorlage dazu führen kann, dass AWS CloudFormation IAM-Ressourcen erstellt.
Überprüfen Sie die anderen Einstellungen und wählen Sie dann aus Stapel erstellen.

AWS CloudFormation benötigt einige Minuten, um die Ressourcen in Ihrem Namen zu erstellen. Sie können den Fortschritt auf der verfolgen Events auf der AWS CloudFormation-Konsole. Wenn der Stapel erstellt wurde, sehen Sie a CREATE_COMPLETE Nachricht in der Status Spalte auf der Überblick Tab.

Testen Sie die Lösung

Gehen wir ein einfaches Beispiel durch.

Laden Sie folgendes herunter Beispieldaten.
Entpacken Sie den Inhalt.

Es sollten zwei Dateien vorhanden sein: eine .xlf-Datei im XLIFF-Format und eine Schwellenwertkonfigurationsdatei mit der Erweiterung .cfg. Das Folgende ist ein Auszug aus der XLIFF-Datei.

Auszug aus der Englisch-Französisch-Beispieldatei

Abbildung 5: Auszug aus einer Beispieldatei vom Englischen ins Französische

Laden Sie in der Amazon S3-Konsole die Qualitätsschwellenwert-Konfigurationsdatei in den zuvor angegebenen Konfigurations-Bucket hoch.

Der eingestellte Wert für test_En_to_Fr beträgt 75 %. Sie sollten die Parameter auf der Systems Manager-Konsole im Abschnitt Parameter Store sehen können.

Laden Sie immer noch auf der Amazon S3-Konsole die .xlf-Datei in den S3-Bucket hoch, den Sie als Quelle konfiguriert haben. Stellen Sie sicher, dass sich die Datei in einem Ordner namens befindet translate (zum Beispiel, <my_bucket>/translate/test_En_to_Fr.xlf).

Dies startet den Übersetzungsfluss.

Öffnen Sie die Amazon Translate-Konsole.

Ein neuer Job sollte mit dem Status In Bearbeitung angezeigt werden.

Abbildung 6: Laufende Übersetzungsaufträge in der Amazon Translate-Konsole

Sobald der Job abgeschlossen ist, klicken Sie auf den Link des Jobs und konsultieren Sie die Ausgabe. Alle Segmente sollten übersetzt worden sein.

Alle Segmente sollten übersetzt worden sein. Suchen Sie in der übersetzten XLIFF-Datei nach Segmenten mit zusätzlichen benannten Attributen lscustom:match-quality, wie im folgenden Screenshot gezeigt. Diese benutzerdefinierten Attribute identifizieren Segmente, in denen die vorgeschlagene Übersetzung basierend auf der Punktzahl beibehalten wurde.

Benutzerdefinierte Attribute, die Segmente identifizieren, in denen die vorgeschlagene Übersetzung basierend auf der Punktzahl beibehalten wurde

Abbildung 7: Benutzerdefinierte Attribute, die Segmente identifizieren, in denen die vorgeschlagene Übersetzung basierend auf der Punktzahl beibehalten wurde

Diese wurden entsprechend der Qualitätsschwelle aus dem Translation Memory abgeleitet. Alle anderen Segmente wurden maschinell übersetzt.

Sie haben jetzt einen automatisierten Jobassistenten für asynchrone Übersetzungen bereitgestellt und getestet, der konfigurierbare Qualitätsschwellenwerte für Translation Memory-Übereinstimmungen erzwingt. Gut gemacht!

Aufräumen

Wenn Sie die Lösung in Ihrem Konto bereitgestellt haben, vergessen Sie nicht, den CloudFormation-Stack zu löschen, um unerwartete Kosten zu vermeiden. Sie müssen die S3-Buckets vorher manuell leeren.

Zusammenfassung

In diesem Beitrag haben Sie erfahren, wie Sie Ihre Amazon Translate-Übersetzungsaufträge basierend auf Standard-XLIFF-Fuzzy-Matching-Qualitätsmetriken anpassen können. Mit dieser Lösung können Sie den manuellen Arbeitsaufwand für die Überprüfung maschinell übersetzter Texte erheblich reduzieren und gleichzeitig Ihre Nutzung von Amazon Translate optimieren. Sie können die Lösung auch mit Funktionen zur Datenerfassungsautomatisierung und Workflow-Orchestrierung erweitern, wie in beschrieben Beschleunigen Sie Übersetzungsaufträge mit einem vollautomatisierten Übersetzungssystem-Assistenten.

Über die Autoren

Narcisse Zekpa ist ein in Boston ansässiger Lösungsarchitekt. Er hilft Kunden im Nordosten der USA, ihre Einführung der AWS Cloud zu beschleunigen, indem er Architekturrichtlinien bereitstellt und innovative und skalierbare Lösungen entwirft. Wenn Narcisse nicht baut, verbringt er gerne Zeit mit seiner Familie, reist, kocht und spielt Basketball.

Dimitri Restaino ist Lösungsarchitekt bei AWS mit Sitz in Brooklyn, New York. Er arbeitet hauptsächlich mit Gesundheits- und Finanzdienstleistungsunternehmen im Nordosten zusammen und hilft dabei, innovative und kreative Lösungen zu entwickeln, um deren Kunden bestmöglich zu dienen. Er kommt aus der Softwareentwicklung und ist begeistert von den neuen Möglichkeiten, die die serverlose Technologie der Welt bringen kann. Außerhalb der Arbeit liebt er es zu wandern und die New Yorker Food-Szene zu erkunden.

Zeitstempel: 16. Mai 2022

Zeitstempel: 2. Mai 2022

Neuauflage von Plato

Erhalten Sie mehr Kontrolle über Ihre Amazon SageMaker Data Wrangler-Workloads mit parametrisierten Datensätzen und geplanten Jobs

Führen Sie Notebooks als Batch-Jobs in Amazon SageMaker Studio Lab aus

Amazon SageMaker mit TensorBoard: Ein Überblick über ein gehostetes TensorBoard-Erlebnis

Muster für das Hosten von Modellen in SageMaker: Best Practices beim Testen und Aktualisieren von Modellen in SageMaker

Wie Patsnap GPT-2-Inferenz auf Amazon SageMaker mit geringer Latenz und geringen Kosten nutzte | Amazon Web Services

Wie InpharmD Amazon Kendra und Amazon Lex nutzt, um eine evidenzbasierte Patientenversorgung voranzutreiben

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto