Erstellen Sie eine mehrsprachige automatische Übersetzungspipeline mit Amazon Translate Active Custom Translation

Neuauflage von Plato

Verfolger: 0

Tauchen Sie ein in Deep Learning (D2L.ai) ist ein Open-Source-Lehrbuch, das Deep Learning für jedermann zugänglich macht. Es bietet interaktive Jupyter-Notizbücher mit eigenständigem Code in PyTorch, JAX, TensorFlow und MXNet sowie Beispiele aus der Praxis, Darstellungsfiguren und Mathematik. Bisher wurde D2L von mehr als 400 Universitäten auf der ganzen Welt übernommen, darunter der University of Cambridge, der Stanford University, dem Massachusetts Institute of Technology, der Carnegie Mellon University und der Tsinghua University. Dieses Werk ist auch auf Chinesisch, Japanisch, Koreanisch, Portugiesisch, Türkisch und Vietnamesisch verfügbar. Die Einführung in Spanisch und anderen Sprachen ist geplant.

Es ist ein herausforderndes Unterfangen, ein Online-Buch zu haben, das ständig auf dem neuesten Stand ist, von mehreren Autoren geschrieben wurde und in mehreren Sprachen verfügbar ist. In diesem Beitrag stellen wir eine Lösung vor, die D2L.ai verwendet hat, um diese Herausforderung mithilfe von zu bewältigen Aktive benutzerdefinierte Übersetzungsfunktion (ACT). of Amazon Übersetzen und Aufbau einer mehrsprachigen automatischen Übersetzungspipeline.

Wir zeigen, wie man das nutzt AWS-Managementkonsole und Öffentliche API von Amazon Translate um automatische maschinelle Stapelübersetzungen bereitzustellen und die Übersetzungen zwischen zwei Sprachpaaren zu analysieren: Englisch und Chinesisch sowie Englisch und Spanisch. Wir empfehlen außerdem Best Practices für die Verwendung von Amazon Translate in dieser automatischen Übersetzungspipeline, um Übersetzungsqualität und -effizienz sicherzustellen.

Lösungsüberblick

Wir haben mithilfe der ACT-Funktion in Amazon Translate automatische Übersetzungspipelines für mehrere Sprachen erstellt. Mit ACT können Sie die Übersetzungsausgabe im Handumdrehen anpassen, indem Sie maßgeschneiderte Übersetzungsbeispiele in Form von bereitstellen parallele Daten. Parallele Daten bestehen aus einer Sammlung von Textbeispielen in einer Ausgangssprache und den gewünschten Übersetzungen in einer oder mehreren Zielsprachen. Während der Übersetzung wählt ACT automatisch die relevantesten Segmente aus den parallelen Daten aus und aktualisiert das Übersetzungsmodell im Handumdrehen auf der Grundlage dieser Segmentpaare. Dies führt zu Übersetzungen, die besser zum Stil und Inhalt der parallelen Daten passen.

Die Architektur enthält mehrere Subpipelines; Jede Sub-Pipeline übernimmt die Übersetzung einer Sprache, z. B. Englisch nach Chinesisch, Englisch nach Spanisch usw. Mehrere Übersetzungs-Subpipelines können parallel verarbeitet werden. In jeder Sub-Pipeline erstellen wir zunächst die parallelen Daten in Amazon Translate unter Verwendung des hochwertigen Datensatzes mit Tailed-Übersetzungsbeispielen aus den von Menschen übersetzten D2L-Büchern. Anschließend generieren wir die angepasste maschinelle Übersetzungsausgabe im laufenden Betrieb zur Laufzeit, wodurch eine bessere Qualität und Genauigkeit erzielt wird.

Lösungsarchitektur

In den folgenden Abschnitten zeigen wir, wie Sie jede Übersetzungspipeline mithilfe von Amazon Translate mit ACT erstellen Amazon Sage Maker und Amazon Simple Storage-Service (Amazon S3).

Zuerst legen wir die Quelldokumente, Referenzdokumente und den Trainingssatz für parallele Daten in einen S3-Bucket. Anschließend erstellen wir Jupyter-Notebooks in SageMaker, um den Übersetzungsprozess mithilfe der öffentlichen APIs von Amazon Translate auszuführen.

Voraussetzungen:

Um die Schritte in diesem Beitrag auszuführen, stellen Sie sicher, dass Sie über ein AWS-Konto mit den folgenden Angaben verfügen:

Zugriff auf AWS Identity and Access Management and (IAM) für die Rollen- und Richtlinienkonfiguration
Zugriff auf Amazon Translate, SageMaker und Amazon S3
Ein S3-Bucket zum Speichern der Quelldokumente, Referenzdokumente, parallelen Datendatensätze und der Übersetzungsausgabe

Erstellen Sie mit ACT eine IAM-Rolle und -Richtlinien für Amazon Translate

Unsere IAM-Rolle muss eine benutzerdefinierte Vertrauensrichtlinie für Amazon Translate enthalten:

{ "Version": "2012-10-17", "Statement": [{ "Sid": "Statement1", "Effect": "Allow", "Principal": { "Service": "translate.amazonaws.com" }, "Action": "sts:AssumeRole" }]
}

Diese Rolle muss außerdem über eine Berechtigungsrichtlinie verfügen, die Amazon Translate Lesezugriff auf den Eingabeordner und die Unterordner in Amazon S3 gewährt, die die Quelldokumente enthalten, sowie Lese-/Schreibzugriff auf den Ausgabe-S3-Bucket und -Ordner, der die übersetzten Dokumente enthält:

{ "Version": "2012-10-17", "Statement": [{ "Effect": "Allow", "Action": [ "s3:ListBucket", "s3:GetObject", "s3:PutObject", “s3:DeleteObject” ] "Resource": [ "arn:aws:s3:::YOUR-S3_BUCKET-NAME" ] }]
}

Um Jupyter-Notebooks in SageMaker für die Übersetzungsaufträge auszuführen, müssen wir der SageMaker-Ausführungsrolle eine Inline-Berechtigungsrichtlinie erteilen. Diese Rolle übergibt die Amazon Translate-Servicerolle an SageMaker, die den SageMaker-Notebooks den Zugriff auf die Quelle und die übersetzten Dokumente in den angegebenen S3-Buckets ermöglicht:

{ "Version": "2012-10-17", "Statement": [{ "Action": ["iam:PassRole"], "Effect": "Allow", "Resource": [ "arn:aws:iam::YOUR-AWS-ACCOUNT-ID:role/batch-translate-api-role" ] }]
}

Bereiten Sie parallele Datentrainingsbeispiele vor

Die parallelen Daten in ACT müssen durch eine Eingabedatei trainiert werden, die aus einer Liste von Textbeispielpaaren besteht, beispielsweise einem Paar aus Quellsprache (Englisch) und Zielsprache (Chinesisch). Die Eingabedatei kann im TMX-, CSV- oder TSV-Format vorliegen. Der folgende Screenshot zeigt ein Beispiel einer CSV-Eingabedatei. Die erste Spalte enthält die Daten zur Ausgangssprache (auf Englisch) und die zweite Spalte enthält die Daten zur Zielsprache (auf Chinesisch). Das folgende Beispiel stammt aus dem D2L-en-Buch und dem D2L-zh-Buch.

Screenshot-1

Führen Sie ein benutzerdefiniertes paralleles Datentraining in Amazon Translate durch

Zuerst richten wir den S3-Bucket und die Ordner ein, wie im folgenden Screenshot gezeigt. Der source_data Ordner enthält die Quelldokumente vor der Übersetzung; Die nach der Stapelübersetzung generierten Dokumente werden im Ausgabeordner abgelegt. Der ParallelData Der Ordner enthält die im vorherigen Schritt vorbereitete parallele Dateneingabedatei.

Screenshot-2

Nach dem Hochladen der Eingabedateien in die source_data Ordner können wir den verwenden CreateParallelData-API So führen Sie einen parallelen Datenerstellungsauftrag in Amazon Translate aus:

S3_BUCKET = “YOUR-S3_BUCKET-NAME”
pd_name = “pd-d2l-short_test_sentence_enzh_all”
pd_description = “Parallel Data for English to Chinese”
pd_fn = “d2l_short_test_sentence_enzh_all.csv”
response_t = translate_client.create_parallel_data( Name=pd_name, # pd_name is the parallel data name Description=pd_description, # pd_description is the parallel data description ParallelDataConfig={ 'S3Uri': 's3://'+S3_BUCKET+'/Paralleldata/'+pd_fn, # S3_BUCKET is the S3 bucket name defined in the previous step 'Format': 'CSV' },
)
print(pd_name, ": ", response_t['Status'], " created.")

Um vorhandene parallele Daten mit neuen Trainingsdatensätzen zu aktualisieren, können wir die verwenden UpdateParallelData-API:

S3_BUCKET = “YOUR-S3_BUCKET-NAME”
pd_name = “pd-d2l-short_test_sentence_enzh_all”
pd_description = “Parallel Data for English to Chinese”
pd_fn = “d2l_short_test_sentence_enzh_all.csv”
response_t = translate_client.update_parallel_data( Name=pd_name, # pd_name is the parallel data name Description=pd_description, # pd_description is the parallel data description ParallelDataConfig={ 'S3Uri': 's3://'+S3_BUCKET+'/Paralleldata/'+pd_fn,	# S3_BUCKET is the S3 bucket name defined in the previous step 'Format': 'CSV' },
)
print(pd_name, ": ", response_t['Status'], " updated.")

Wir können den Fortschritt des Trainingsauftrags auf der Amazon Translate-Konsole überprüfen. Wenn der Auftrag abgeschlossen ist, wird der Status der parallelen Daten als angezeigt Aktives und ist einsatzbereit.

Screenshot-3

Führen Sie eine asynchrone Stapelübersetzung mit parallelen Daten durch

Die Stapelübersetzung kann in einem Prozess durchgeführt werden, bei dem mehrere Quelldokumente automatisch in Dokumente in den Zielsprachen übersetzt werden. Der Prozess umfasst das Hochladen der Quelldokumente in den Eingabeordner des S3-Buckets und die anschließende Anwendung StartTextTranslationJob-API von Amazon Translate, um einen asynchronisierten Übersetzungsauftrag zu initiieren:

S3_BUCKET = “YOUR-S3_BUCKET-NAME”
ROLE_ARN = “THE_ROLE_DEFINED_IN_STEP_1”
src_fdr = “source_data”
output_fdr = “output”
src_lang = “en”
tgt_lang = “zh”
pd_name = “pd-d2l-short_test_sentence_enzh_all”
response = translate_client.start_text_translation_job ( JobName='D2L_job', InputDataConfig={ 'S3Uri': 's3://'+S3_BUCKET+'/'+src_fdr+'/', # S3_BUCKET is the S3 bucket name defined in the previous step # src_fdr is the folder in S3 bucket containing the source files 'ContentType': 'text/html' }, OutputDataConfig={ 'S3Uri': 's3://'+S3_BUCKET+'/’+output_fdr+’/', # S3_BUCKET is the S3 bucket name defined in the previous step # output_fdr is the folder in S3 bucket containing the translated files }, DataAccessRoleArn=ROLE_ARN, # ROLE_ARN is the role defined in the previous step SourceLanguageCode=src_lang, # src_lang is the source language, such as ‘en’ TargetLanguageCodes=[tgt_lang,], # tgt_lang is the source language, such as ‘zh’ ParallelDataNames=pd_name # pd_name is the parallel data name defined in the previous step )

Für die Massenübersetzung haben wir fünf Quelldokumente in englischer Sprache aus dem D2L-Buch (D2L-en) ausgewählt. Auf der Amazon Translate-Konsole können wir den Fortschritt des Übersetzungsauftrags überwachen. Wenn sich der Jobstatus in ändert Abgeschlossene Verkäufefinden wir die übersetzten Dokumente auf Chinesisch (D2L-zh) im S3-Bucket-Ausgabeordner.

Screenshot-4

Bewerten Sie die Übersetzungsqualität

Um die Wirksamkeit der ACT-Funktion in Amazon Translate zu demonstrieren, haben wir auch die traditionelle Methode der Amazon Translate-Echtzeitübersetzung ohne parallele Daten angewendet, um dieselben Dokumente zu verarbeiten, und die Ausgabe mit der Batch-Übersetzungsausgabe mit ACT verglichen. Wir haben den BLEU-Score (BiLingual Evaluation Understudy) verwendet, um die Übersetzungsqualität zwischen den beiden Methoden zu vergleichen. Die einzige Möglichkeit, die Qualität der maschinellen Übersetzungsergebnisse genau zu messen, besteht darin, die Qualität von einem Experten überprüfen und bewerten zu lassen. BLEU liefert jedoch eine Schätzung der relativen Qualitätsverbesserung zwischen zwei Ausgaben. Ein BLEU-Score ist typischerweise eine Zahl zwischen 0 und 1; Es berechnet die Ähnlichkeit der maschinellen Übersetzung mit der menschlichen Referenzübersetzung. Die höhere Punktzahl steht für eine bessere Qualität beim Verstehen natürlicher Sprache (NLU).

Wir haben eine Reihe von Dokumenten in vier Pipelines getestet: Englisch ins Chinesische (en nach zh), Chinesisch ins Englische (zh nach en), Englisch ins Spanische (en nach es) und Spanisch ins Englische (es nach en). Die folgende Abbildung zeigt, dass die Übersetzung mit ACT in allen Übersetzungspipelines zu einem höheren durchschnittlichen BLEU-Score führte.

Diagramm-1

Wir haben außerdem festgestellt, dass die Übersetzungsleistung umso besser ist, je detaillierter die parallelen Datenpaare sind. Beispielsweise verwenden wir die folgende parallele Dateneingabedatei mit Absatzpaaren, die 10 Einträge enthält.

Screenshot-5

Für den gleichen Inhalt verwenden wir die folgende parallele Dateneingabedatei mit Satzpaaren und 16 Einträgen.

Screenshot-6

Wir haben beide parallelen Dateneingabedateien verwendet, um zwei parallele Dateneinheiten in Amazon Translate zu erstellen, und dann zwei Batch-Übersetzungsaufträge mit demselben Quelldokument erstellt. Die folgende Abbildung vergleicht die Ausgabeübersetzungen. Es zeigt, dass die Ausgabe unter Verwendung paralleler Daten mit Satzpaaren sowohl bei der Übersetzung vom Englischen ins Chinesische als auch von der Übersetzung vom Chinesischen ins Englische bessere Ergebnisse lieferte als die Ausgabe unter Verwendung paralleler Daten mit Absatzpaaren.

Diagramm-2

Wenn Sie mehr über diese Benchmark-Analysen erfahren möchten, lesen Sie hier Automatische maschinelle Übersetzung und Synchronisierung für „Dive into Deep Learning“.

Aufräumen

Um künftig wiederkehrende Kosten zu vermeiden, empfehlen wir Ihnen, die von Ihnen erstellten Ressourcen zu bereinigen:

Wählen Sie in der Amazon Translate-Konsole die von Ihnen erstellten parallelen Daten aus und wählen Sie Löschen. Alternativ können Sie die DeleteParallelData-API oder im AWS-Befehlszeilenschnittstelle (AWS-CLI) parallele-daten löschen Befehl zum Löschen der parallelen Daten.
Löschen Sie den S3-Bucket Wird zum Hosten der Quell- und Referenzdokumente, übersetzten Dokumente und parallelen Dateneingabedateien verwendet.
Löschen Sie die IAM-Rolle und -Richtlinie. Anweisungen finden Sie unter Rollen oder Instanzprofile löschen und IAM-Richtlinien löschen.

Zusammenfassung

Unser Ziel ist es, mit dieser Lösung die Arbeitsbelastung menschlicher Übersetzer um 80 % zu reduzieren und gleichzeitig die Übersetzungsqualität beizubehalten und mehrere Sprachen zu unterstützen. Mit dieser Lösung können Sie Ihre Übersetzungsqualität und -effizienz verbessern. Wir arbeiten daran, die Lösungsarchitektur und Übersetzungsqualität für andere Sprachen weiter zu verbessern.

Ihr Feedback ist jederzeit willkommen. Bitte hinterlassen Sie Ihre Gedanken und Fragen im Kommentarbereich.

Über die Autoren

Yunfei Bai ist Senior Solutions Architect bei AWS. Mit einem Hintergrund in den Bereichen KI/ML, Datenwissenschaft und Analyse unterstützt Yunfei Kunden bei der Einführung von AWS-Services, um Geschäftsergebnisse zu erzielen. Er entwirft KI/ML- und Datenanalyselösungen, die komplexe technische Herausforderungen meistern und strategische Ziele vorantreiben. Yunfei hat einen Doktortitel in Elektronik und Elektrotechnik. Außerhalb der Arbeit liest Yunfei gerne und macht Musik.

Rahel Hu ist angewandter Wissenschaftler an der AWS Machine Learning University (MLU). Sie hat einige Kursdesigns geleitet, darunter ML Operations (MLOps) und Accelerator Computer Vision. Rachel ist eine leitende AWS-Referentin und hat auf Top-Konferenzen gesprochen, darunter AWS re:Invent, NVIDIA GTC, KDD und MLOps Summit. Bevor sie zu AWS kam, arbeitete Rachel als Ingenieurin für maschinelles Lernen und entwickelte Modelle für die Verarbeitung natürlicher Sprache. Außerhalb der Arbeit genießt sie Yoga, ultimatives Frisbee, Lesen und Reisen.

Watson Srivathsan ist der Hauptproduktmanager für Amazon Translate, den AWS-Dienst zur Verarbeitung natürlicher Sprache. An Wochenenden erkundet er die Natur im pazifischen Nordwesten.