Zbuduj wielojęzyczny potok automatycznych tłumaczeń za pomocą Amazon Translate Active Custom Translation

Opublikowane ponownie przez Plato

Obserwuje: 0

Zanurz się w głębokim uczeniu się (D2L.ai) to podręcznik typu open source, dzięki któremu głębokie uczenie się jest dostępne dla każdego. Zawiera interaktywne notatniki Jupyter z samodzielnym kodem w PyTorch, JAX, TensorFlow i MXNet, a także rzeczywiste przykłady, dane ekspozycyjne i matematykę. Do tej pory D2L zostało przyjęte przez ponad 400 uniwersytetów na całym świecie, takich jak University of Cambridge, Stanford University, Massachusetts Institute of Technology, Carnegie Mellon University i Tsinghua University. Ta praca jest również dostępna w języku chińskim, japońskim, koreańskim, portugalskim, tureckim i wietnamskim, z planami wprowadzenia hiszpańskiego i innych języków.

Posiadanie stale aktualizowanej książki online, napisanej przez wielu autorów i dostępnej w wielu językach to wyzwanie. W tym poście przedstawiamy rozwiązanie, które D2L.ai wykorzystało do rozwiązania tego problemu, używając pliku Aktywna funkcja tłumaczenia niestandardowego (ACT). of Tłumacz Amazon oraz budowanie wielojęzycznego potoku tłumaczeń automatycznych.

Pokazujemy, jak używać Konsola zarządzania AWS i Publiczny interfejs API usługi Amazon Translate dostarczać automatyczne tłumaczenie maszynowe wsadowe i analizować tłumaczenia między dwiema parami językowymi: angielskim i chińskim oraz angielskim i hiszpańskim. Zalecamy również najlepsze praktyki podczas korzystania z usługi Amazon Translate w tym automatycznym procesie tłumaczeniowym, aby zapewnić jakość i wydajność tłumaczenia.

Omówienie rozwiązania

Zbudowaliśmy potoki automatycznego tłumaczenia dla wielu języków, korzystając z funkcji ACT w Amazon Translate. ACT umożliwia dostosowywanie wyników tłumaczenia w locie, dostarczając dostosowane przykłady tłumaczeń w postaci dane równoległe. Dane równoległe składają się ze zbioru przykładów tekstowych w języku źródłowym oraz żądanych tłumaczeń w jednym lub kilku językach docelowych. Podczas tłumaczenia ACT automatycznie wybiera najistotniejsze segmenty z danych równoległych i aktualizuje model translacji w locie na podstawie tych par segmentów. Powoduje to tłumaczenie, które lepiej pasuje do stylu i zawartości danych równoległych.

Architektura zawiera wiele potoków podrzędnych; każdy podpotok obsługuje tłumaczenie jednego języka, na przykład z angielskiego na chiński, z angielskiego na hiszpański i tak dalej. Wiele podrzędnych potoków tłumaczeniowych może być przetwarzanych równolegle. W każdym podpotoku najpierw tworzymy równoległe dane w Amazon Translate, korzystając z wysokiej jakości zestawu danych przykładowych tłumaczeń z tłumaczonych przez ludzi książek D2L. Następnie generujemy dostosowane dane wyjściowe tłumaczenia maszynowego na bieżąco w czasie wykonywania, co zapewnia lepszą jakość i dokładność.

architektura rozwiązania

W poniższych sekcjach pokazujemy, jak zbudować każdy potok tłumaczeń za pomocą Amazon Translate z ACT, wraz z Amazon Sage Maker i Usługa Amazon Simple Storage (Amazonka S3).

Najpierw umieszczamy dokumenty źródłowe, dokumenty referencyjne i zestaw szkoleń danych równoległych w zasobniku S3. Następnie budujemy notatniki Jupyter w SageMaker, aby uruchomić proces tłumaczenia przy użyciu publicznych API Amazon Translate.

Wymagania wstępne

Aby wykonać czynności opisane w tym poście, upewnij się, że masz konto AWS z następującymi elementami:

Dostęp do AWS Zarządzanie tożsamością i dostępem (IAM) do konfiguracji ról i zasad
Dostęp do Amazon Translate, SageMaker i Amazon S3
Zasobnik S3 do przechowywania dokumentów źródłowych, dokumentów referencyjnych, zbioru danych równoległych i wyników tłumaczenia

Utwórz rolę IAM i zasady dla Tłumacza Amazon za pomocą ACT

Nasza rola IAM musi zawierać niestandardową politykę zaufania dla usługi Amazon Translate:

{ "Version": "2012-10-17", "Statement": [{ "Sid": "Statement1", "Effect": "Allow", "Principal": { "Service": "translate.amazonaws.com" }, "Action": "sts:AssumeRole" }]
}

Ta rola musi również mieć zasady uprawnień, które przyznają Amazon Translate dostęp do odczytu do folderu wejściowego i podfolderów w Amazon S3, które zawierają dokumenty źródłowe, oraz dostęp do odczytu/zapisu do wyjściowego zasobnika S3 i folderu zawierającego przetłumaczone dokumenty:

{ "Version": "2012-10-17", "Statement": [{ "Effect": "Allow", "Action": [ "s3:ListBucket", "s3:GetObject", "s3:PutObject", “s3:DeleteObject” ] "Resource": [ "arn:aws:s3:::YOUR-S3_BUCKET-NAME" ] }]
}

Aby uruchamiać notatniki Jupyter w SageMaker dla zadań tłumaczeniowych, musimy przyznać wbudowane zasady uprawnień roli wykonawczej SageMaker. Ta rola przekazuje rolę usługi Amazon Translate do SageMaker, która umożliwia notatnikom SageMaker dostęp do dokumentów źródłowych i przetłumaczonych w wyznaczonych zasobnikach S3:

{ "Version": "2012-10-17", "Statement": [{ "Action": ["iam:PassRole"], "Effect": "Allow", "Resource": [ "arn:aws:iam::YOUR-AWS-ACCOUNT-ID:role/batch-translate-api-role" ] }]
}

Przygotuj próbki do trenowania danych równoległych

Dane równoległe w ACT muszą zostać przeszkolone przez plik wejściowy składający się z listy przykładowych par tekstowych, na przykład pary języka źródłowego (angielski) i języka docelowego (chiński). Plik wejściowy może być w formacie TMX, CSV lub TSV. Poniższy zrzut ekranu przedstawia przykład pliku wejściowego CSV. Pierwsza kolumna to dane w języku źródłowym (w języku angielskim), a druga kolumna to dane w języku docelowym (w języku chińskim). Poniższy przykład pochodzi z książki D2L-en i książki D2L-zh.

zrzut ekranu-1

Przeprowadź niestandardowe szkolenie w zakresie danych równoległych w usłudze Amazon Translate

Najpierw konfigurujemy wiadro i foldery S3, jak pokazano na poniższym zrzucie ekranu. The source_data folder zawiera dokumenty źródłowe przed tłumaczeniem; dokumenty wygenerowane po wykonaniu tłumaczenia wsadowego są umieszczane w folderze wyjściowym. The ParallelData folder zawiera plik wprowadzania danych równoległych przygotowany w poprzednim kroku.

screenshot-2

Po przesłaniu plików wejściowych do source_data folder, możemy użyć Interfejs API CreateParallelData aby uruchomić równoległe zadanie tworzenia danych w Amazon Translate:

S3_BUCKET = “YOUR-S3_BUCKET-NAME”
pd_name = “pd-d2l-short_test_sentence_enzh_all”
pd_description = “Parallel Data for English to Chinese”
pd_fn = “d2l_short_test_sentence_enzh_all.csv”
response_t = translate_client.create_parallel_data( Name=pd_name, # pd_name is the parallel data name Description=pd_description, # pd_description is the parallel data description ParallelDataConfig={ 'S3Uri': 's3://'+S3_BUCKET+'/Paralleldata/'+pd_fn, # S3_BUCKET is the S3 bucket name defined in the previous step 'Format': 'CSV' },
)
print(pd_name, ": ", response_t['Status'], " created.")

Aby zaktualizować istniejące dane równoległe o nowe zestawy danych szkoleniowych, możemy użyć Aktualizuj interfejs API ParallelData:

S3_BUCKET = “YOUR-S3_BUCKET-NAME”
pd_name = “pd-d2l-short_test_sentence_enzh_all”
pd_description = “Parallel Data for English to Chinese”
pd_fn = “d2l_short_test_sentence_enzh_all.csv”
response_t = translate_client.update_parallel_data( Name=pd_name, # pd_name is the parallel data name Description=pd_description, # pd_description is the parallel data description ParallelDataConfig={ 'S3Uri': 's3://'+S3_BUCKET+'/Paralleldata/'+pd_fn,	# S3_BUCKET is the S3 bucket name defined in the previous step 'Format': 'CSV' },
)
print(pd_name, ": ", response_t['Status'], " updated.")

Postęp zadania szkoleniowego możemy sprawdzić na konsoli Amazon Translate. Po zakończeniu zadania stan danych równoległych jest wyświetlany jako Aktywna i jest gotowy do użycia.

screenshot-3

Uruchom asynchroniczne tłumaczenie wsadowe przy użyciu danych równoległych

Tłumaczenie wsadowe można przeprowadzić w procesie, w którym wiele dokumentów źródłowych jest automatycznie tłumaczonych na dokumenty w językach docelowych. Proces obejmuje przesłanie dokumentów źródłowych do folderu wejściowego zasobnika S3, a następnie zastosowanie Interfejs API StartTextTranslationJob z Amazon Translate, aby zainicjować zadanie tłumaczenia asynchronicznego:

S3_BUCKET = “YOUR-S3_BUCKET-NAME”
ROLE_ARN = “THE_ROLE_DEFINED_IN_STEP_1”
src_fdr = “source_data”
output_fdr = “output”
src_lang = “en”
tgt_lang = “zh”
pd_name = “pd-d2l-short_test_sentence_enzh_all”
response = translate_client.start_text_translation_job ( JobName='D2L_job', InputDataConfig={ 'S3Uri': 's3://'+S3_BUCKET+'/'+src_fdr+'/', # S3_BUCKET is the S3 bucket name defined in the previous step # src_fdr is the folder in S3 bucket containing the source files 'ContentType': 'text/html' }, OutputDataConfig={ 'S3Uri': 's3://'+S3_BUCKET+'/’+output_fdr+’/', # S3_BUCKET is the S3 bucket name defined in the previous step # output_fdr is the folder in S3 bucket containing the translated files }, DataAccessRoleArn=ROLE_ARN, # ROLE_ARN is the role defined in the previous step SourceLanguageCode=src_lang, # src_lang is the source language, such as ‘en’ TargetLanguageCodes=[tgt_lang,], # tgt_lang is the source language, such as ‘zh’ ParallelDataNames=pd_name # pd_name is the parallel data name defined in the previous step )

Wybraliśmy pięć dokumentów źródłowych w języku angielskim z książki D2L (D2L-en) do tłumaczenia zbiorczego. Na konsoli Amazon Translate możemy monitorować postęp zadania tłumaczeniowego. Gdy status zadania zmieni się na Zakończony, możemy znaleźć przetłumaczone dokumenty w języku chińskim (D2L-zh) w folderze wyjściowym zasobnika S3.

screenshot-4

Oceń jakość tłumaczenia

Aby zademonstrować skuteczność funkcji ACT w Amazon Translate, zastosowaliśmy również tradycyjną metodę tłumaczenia w czasie rzeczywistym Amazon Translate bez równoległych danych do przetwarzania tych samych dokumentów i porównaliśmy dane wyjściowe z wynikami tłumaczenia wsadowego za pomocą ACT. Wykorzystaliśmy wynik BLEU (BiLingual Evaluation Understudy), aby porównać jakość tłumaczenia między dwiema metodami. Jedynym sposobem na dokładne zmierzenie jakości tłumaczenia maszynowego jest dokonanie ekspertyzy i ocena jakości. Jednak BLEU zapewnia oszacowanie względnej poprawy jakości między dwoma wynikami. Wynik BLEU to zazwyczaj liczba z zakresu 0–1; oblicza podobieństwo tłumaczenia maszynowego do referencyjnego tłumaczenia ludzkiego. Wyższy wynik oznacza lepszą jakość rozumienia języka naturalnego (NLU).

Przetestowaliśmy zestaw dokumentów w czterech potokach: z angielskiego na chiński (en na zh), chiński na angielski (zh na en), angielski na hiszpański (en na es) i hiszpański na angielski (es na en). Poniższy rysunek pokazuje, że tłumaczenie z ACT dało wyższy średni wynik BLEU we wszystkich potokach tłumaczeniowych.

wykres-1

Zaobserwowaliśmy również, że im bardziej ziarniste są równoległe pary danych, tym lepsza jest wydajność translacji. Na przykład używamy następującego równoległego pliku wprowadzania danych z parami akapitów, który zawiera 10 wpisów.

screenshot-5

W przypadku tej samej treści używamy następującego równoległego pliku wprowadzania danych z parami zdań i 16 wpisami.

screenshot-6

Użyliśmy obu równoległych plików wejściowych danych do skonstruowania dwóch równoległych jednostek danych w Amazon Translate, a następnie utworzyliśmy dwa zadania tłumaczenia wsadowego z tym samym dokumentem źródłowym. Na poniższym rysunku porównano tłumaczenia wyjściowe. Pokazuje, że dane wyjściowe przy użyciu danych równoległych z parami zdań przewyższały wyniki przy użyciu danych równoległych z parami akapitów, zarówno w przypadku tłumaczenia z języka angielskiego na chiński, jak i tłumaczenia z języka chińskiego na angielski.

wykres-2

Jeśli chcesz dowiedzieć się więcej o tych analizach porównawczych, zobacz Automatyczne tłumaczenie maszynowe i synchronizacja dla „Dive into Deep Learning”.

Sprzątać

Aby uniknąć powtarzających się kosztów w przyszłości, zalecamy wyczyszczenie utworzonych zasobów:

W konsoli Amazon Translate wybierz utworzone przez siebie dane równoległe i wybierz je Usuń. Alternatywnie możesz użyć Interfejs API DeleteParallelData albo Interfejs wiersza poleceń AWS (CLI AWS) usuń dane-równoległe polecenie usunięcia danych równoległych.
Usuń wiadro S3 używany do hostowania dokumentów źródłowych i referencyjnych, dokumentów przetłumaczonych i plików wprowadzania danych równoległych.
Usuń rolę i zasady IAM. Aby uzyskać instrukcje, patrz Usuwanie ról lub profili instancji i Usuwanie zasad IAM.

Wnioski

Dzięki temu rozwiązaniu dążymy do zmniejszenia obciążenia pracą tłumaczy o 80%, przy jednoczesnym utrzymaniu jakości tłumaczenia i obsłudze wielu języków. Możesz użyć tego rozwiązania, aby poprawić jakość i wydajność swoich tłumaczeń. Pracujemy nad dalszym ulepszaniem architektury rozwiązania i jakości tłumaczeń na inne języki.

Twoja opinia jest zawsze mile widziana; zostaw swoje przemyślenia i pytania w sekcji komentarzy.

O autorach

Yunfei Bai jest starszym architektem rozwiązań w AWS. Mając doświadczenie w AI/ML, nauce o danych i analityce, Yunfei pomaga klientom wdrażać usługi AWS w celu osiągania wyników biznesowych. Projektuje rozwiązania AI/ML i analizy danych, które pokonują złożone wyzwania techniczne i realizują cele strategiczne. Yunfei ma doktorat z inżynierii elektronicznej i elektrycznej. Poza pracą Yunfei lubi czytać i słuchać muzyki.

Rachel Hu jest naukowcem stosowanym w AWS Machine Learning University (MLU). Prowadziła kilka projektów kursów, w tym ML Operations (MLOps) i Accelerator Computer Vision. Rachel jest starszym mówcą AWS i przemawiała na najważniejszych konferencjach, w tym AWS re:Invent, NVIDIA GTC, KDD i MLOps Summit. Przed dołączeniem do AWS Rachel pracowała jako inżynier uczenia maszynowego, budując modele przetwarzania języka naturalnego. Poza pracą lubi jogę, ultimate frisbee, czytanie i podróże.

Watsona Srivathsana jest głównym menedżerem produktu w Amazon Translate, usłudze przetwarzania języka naturalnego AWS. W weekendy znajdziesz go na świeżym powietrzu w północno-zachodnim Pacyfiku.

Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
EVM Finanse. Ujednolicony interfejs dla zdecentralizowanych finansów. Dostęp tutaj.
Quantum Media Group. Wzmocnienie IR/PR. Dostęp tutaj.
PlatoAiStream. Analiza danych Web3. Wiedza wzmocniona. Dostęp tutaj.
Źródło: https://aws.amazon.com/blogs/machine-learning/build-a-multilingual-automatic-translation-pipeline-with-amazon-translate-active-custom-translation/

Znak czasu: 15 czerwca 2023 r.

Znak czasu: Sierpnia 24, 2023

Opublikowane ponownie przez Plato

Generuj dostosowane, zgodne skrypty IaC aplikacji dla AWS Landing Zone przy użyciu Amazon Bedrock | Usługi internetowe Amazona

Włącz inteligentne podejmowanie decyzji dzięki Amazon SageMaker Canvas i Amazon QuickSight

Zautomatyzowana eksploracyjna analiza danych i ramy operacjonalizacji modelu z człowiekiem w pętli

Projektowanie odpornych miast w Arup przy użyciu możliwości geoprzestrzennych Amazon SageMaker | Usługi internetowe Amazona

Trenuj i wdrażaj modele uczenia maszynowego w środowisku wielochmurowym za pomocą Amazon SageMaker | Usługi internetowe Amazona

Dostosuj wymowy za pomocą Amazon Polly

Przedstawiamy wyszukiwanie tabelaryczne Amazon Kendra dla dokumentów HTML

Ogłaszamy wersję zapoznawczą programu Amazon SageMaker Profiler: Śledź i wizualizuj szczegółowe dane dotyczące wydajności sprzętu dla obciążeń związanych z uczeniem modelu | Usługi internetowe Amazona

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto