Spersonalizuj wyniki tłumaczenia maszynowego, korzystając z rozmytego dopasowania z tłumaczem Amazon

Opublikowane ponownie przez Plato

Obserwuje: 0

Język ojczysty danej osoby jest częścią cech, które czynią ją wyjątkową. Często istnieje niezliczona ilość różnych sposobów na wyrażenie jednej konkretnej idei. Kiedy firma komunikuje się ze swoimi klientami, bardzo ważne jest, aby przekaz był dostarczany w sposób, który najlepiej odzwierciedla informacje, które próbuje przekazać. Staje się to jeszcze ważniejsze, jeśli chodzi o profesjonalne tłumaczenia językowe. Klienci systemów i usług tłumaczeniowych oczekują dokładnych i wysoce spersonalizowanych wyników. Aby to osiągnąć, często ponownie wykorzystują poprzednie wyniki tłumaczenia — zwane pamięcią tłumaczeniową (TM) — i porównują je z nowym tekstem wejściowym. W tłumaczeniu wspomaganym komputerowo technika ta jest znana jako rozmyte dopasowanie. Podstawową funkcją dopasowania rozmytego jest wspomaganie tłumacza poprzez przyspieszenie procesu tłumaczenia. Gdy w bazie TM nie można znaleźć dokładnego dopasowania tłumaczonego tekstu, systemy zarządzania tłumaczeniami (TMS) często mają opcję wyszukiwania dopasowania, które nie jest dokładne. Potencjalne dopasowania są dostarczane do tłumacza jako dodatkowe dane wejściowe do końcowego tłumaczenia. Tłumacze, którzy usprawniają swój przepływ pracy dzięki możliwościom tłumaczenia maszynowego, takim jak Tłumacz Amazon często oczekują, że dane rozmyte będą używane jako część rozwiązania do automatycznego tłumaczenia.

W tym poście dowiesz się, jak dostosować dane wyjściowe z Amazon Translate zgodnie z wynikami rozmytego dopasowania pamięci tłumaczeniowej.

Dopasowanie jakości tłumaczeń

Format pliku wymiany lokalizacji XML (XLIFF) standard jest często używany jako format wymiany danych między TMS i Amazon Translate. Pliki XLIFF tworzone przez TMS zawierają źródłowe i docelowe dane tekstowe wraz z wynikami jakości dopasowania na podstawie dostępnej bazy TM. Te wyniki — zwykle wyrażone w procentach — wskazują, jak blisko tłumaczonego tekstu znajduje się pamięć tłumaczeniowa.

Niektórzy klienci o bardzo rygorystycznych wymaganiach chcą, aby tłumaczenie maszynowe było używane tylko wtedy, gdy wyniki jakości dopasowania są poniżej określonego progu. Po przekroczeniu tego progu oczekują, że ich własna pamięć tłumaczeniowa będzie miała pierwszeństwo. Tłumacze często muszą ręcznie zastosować te preferencje w swoim systemie TMS lub zmieniając dane tekstowe. Ten przepływ jest zilustrowany na poniższym diagramie. System tłumaczenia maszynowego przetwarza dane tłumaczenia — tekst i wyniki dopasowania rozmytego — które są następnie sprawdzane i ręcznie edytowane przez tłumaczy, w oparciu o ich pożądane progi jakości. Stosowanie progów w ramach kroku tłumaczenia maszynowego pozwala na usunięcie tych ręcznych kroków, co poprawia wydajność i optymalizuje koszty.

Proces przeglądu tłumaczenia maszynowego

Rysunek 1: Przebieg przeglądu tłumaczenia maszynowego

Rozwiązanie przedstawione w tym poście pozwala na egzekwowanie reguł opartych na progach wyników jakości dopasowania, aby określić, czy dany tekst wejściowy powinien zostać przetłumaczony maszynowo przez Amazon Translate, czy nie. Jeśli tekst nie jest tłumaczony maszynowo, wynikowy tekst pozostawia się do uznania tłumaczy sprawdzających ostateczny wynik.

Architektura rozwiązania

Architektura rozwiązania przedstawiona na rysunku 2 wykorzystuje następujące usługi:

Usługa Amazon Simple Storage – Wiaderka Amazon S3 zawierają następującą zawartość:
- Pliki konfiguracyjne progu dopasowania rozmytego
- Tekst źródłowy do tłumaczenia
- Lokalizacje danych wejściowych i wyjściowych Amazon Translate
Menedżer systemów AWS - Używamy Magazyn parametrów parametry do przechowywania pasują do wartości konfiguracyjnych progu jakości
AWS Lambda – Używamy dwóch funkcji Lambda:
- Jedna funkcja wstępnie przetwarza pliki konfiguracyjne progu dopasowania jakości i przechowuje dane w magazynie parametrów
- Jedna funkcja automatycznie tworzy asynchroniczne zadania tłumaczeniowe
Usługa Amazon Simple Queue – Kolejka Amazon SQS uruchamia przepływ tłumaczenia w wyniku pojawienia się nowych plików w zasobniku źródłowym

Rysunek 2: Architektura rozwiązania

Najpierw ustawiasz progi jakości dla swoich zadań tłumaczenia, edytując plik konfiguracyjny i przesyłając go do zasobnika konfiguracji S3 progu dopasowania rozmytego. Poniżej znajduje się przykładowa konfiguracja w formacie CSV. Wybraliśmy CSV dla uproszczenia, chociaż możesz użyć dowolnego formatu. Każdy wiersz reprezentuje próg, który należy zastosować do określonego zadania tłumaczenia lub jako wartość domyślną do dowolnego zadania.

default, 75
SourceMT-Test, 80

Specyfikacje pliku konfiguracyjnego są następujące:

Kolumna 1 powinna być wypełniona nazwą pliku XLIFF — bez rozszerzenia — dostarczonego do zadania Amazon Translate jako dane wejściowe.
Kolumnę 2 należy wypełnić progiem procentowym dopasowania jakości. Dla każdego wyniku poniżej tej wartości używane jest tłumaczenie maszynowe.
W przypadku wszystkich plików XLIFF, których nazwa nie odpowiada żadnej nazwie wymienionej w pliku konfiguracyjnym, używany jest próg domyślny — wiersz ze słowem kluczowym default zestaw w kolumnie 1.

Rysunek 3: Parametr generowany automatycznie w magazynie parametrów menedżera systemów

Po przesłaniu nowego pliku Amazon S3 uruchamia funkcję Lambda odpowiedzialną za przetwarzanie parametrów. Ta funkcja odczytuje i przechowuje parametry progowe w magazynie parametrów do wykorzystania w przyszłości. Korzystanie z magazynu parametrów pozwala uniknąć wykonywania zbędnych żądań Amazon S3 GET za każdym razem, gdy inicjowane jest nowe zadanie tłumaczenia. Przykładowy plik konfiguracyjny generuje tagi parametrów pokazane na poniższym zrzucie ekranu.

Funkcja Lambda inicjowania zadania używa tych parametrów do wstępnego przetwarzania danych przed wywołaniem usługi Amazon Translate. Używamy pliku wejściowego XLIFF tłumaczenia z angielskiego na hiszpański, jak pokazano w poniższym kodzie. Zawiera początkowy tekst do przetłumaczenia, podzielony na to, co określa się jako Segmenty, reprezentowane w znacznikach źródłowych.

<group id="g8"> <trans-unit id="t8" translate="yes"> <source>Consent Form</source> <target state-qualifier="fuzzy-match"/> <alt-trans extype="fuzzy-match" match-quality="99%" > <source>CONSENT FORM</source> <target>FORMULARIO DE CONSENTIMIENTO</target> </alt-trans> </trans-unit>
</group> <group id="g67"> <trans-unit id="t110" translate="yes"> <source>Screening Visit:</source> <target state-qualifier="fuzzy-match"/> <alt-trans extype="fuzzy-match" match-quality="50%"> <source>Screening Visit</source> <target>Selección</target> </alt-trans> </trans-unit>
</group>

Tekst źródłowy został wcześniej dopasowany do pamięci tłumaczeniowej. Dane zawierają potencjalne alternatywy tłumaczenia — przedstawione jako <alt-trans> tagi – obok atrybutu jakości dopasowania, wyrażonego w procentach. Reguła biznesowa wygląda następująco:

Otrzymane segmenty z tłumaczeniami alternatywnymi i jakością dopasowania poniżej progu są nietknięte lub puste. To sygnalizuje Amazon Translate, że muszą zostać przetłumaczone.
Segmenty otrzymane z tłumaczeniami alternatywnymi o jakości dopasowania powyżej progu są wstępnie wypełniane sugerowanym tekstem docelowym. Amazon Translate pomija te segmenty.

Załóżmy, że próg dopasowania jakości skonfigurowany dla tego zadania wynosi 80%. Pierwszy segment o 99% jakości dopasowania nie jest tłumaczony maszynowo, podczas gdy drugi segment jest tłumaczony, ponieważ jego jakość dopasowania jest poniżej zdefiniowanego progu. W tej konfiguracji Amazon Translate generuje następujące dane wyjściowe:

<group id="g8"> <trans-unit id="t8" translate="yes"> <source>Consent Form</source> <target state-qualifier="fuzzy-match" translate:match-quality="99%">FORMULARIO DE CONSENTIMIENTO</target> <alt-trans extype="fuzzy-match" match-quality="99%" > <source>CONSENT FORM</source> <target>FORMULARIO DE CONSENTIMIENTO</target> </alt-trans> </trans-unit>
</group> <group id="g67"> <trans-unit id="t110" translate="yes"> <source>Screening Visit:</source> <target state-qualifier="fuzzy-match">Visita de selección</target> <alt-trans extype="fuzzy-match" match-quality="50%"> <source>Screening Visit</source> <target>Selección</target> </alt-trans> </trans-unit>
</group>

W drugim segmencie Amazon Translate nadpisuje początkowo sugerowany tekst docelowy (Selección) z tłumaczeniem wyższej jakości: Visita de selección.

Jednym z możliwych rozszerzeń tego przypadku użycia może być ponowne wykorzystanie przetłumaczonych danych wyjściowych i utworzenie własnej pamięci tłumaczeń. Amazon Translate obsługuje dostosowywanie tłumaczenia maszynowego za pomocą pamięci tłumaczeniowej dzięki dane równoległe funkcja. Segmenty tekstu, które zostały wcześniej przetłumaczone maszynowo ze względu na ich początkowy wynik niskiej jakości, można następnie wykorzystać w nowych projektach tłumaczeniowych.

W kolejnych sekcjach przeprowadzimy Cię przez proces wdrażania i testowania tego rozwiązania. Używasz Tworzenie chmury AWS skrypty i próbki danych do uruchomienia asynchronicznego zadania tłumaczenia spersonalizowanego z konfigurowalnym progiem dopasowania jakości.

Wymagania wstępne

Do tego przewodnika musisz mieć Konto AWS. Jeśli nie masz jeszcze konta, możesz utwórz i aktywuj?.

Uruchom stos AWS CloudFormation

Dodaj Uruchom stos:
W razie zamówieenia projektu Nazwa stosu, Wpisz imię.
W razie zamówieenia projektu Nazwa zasobnika konfiguracji, wprowadź zasobnik S3 zawierający pliki konfiguracji progów.
W razie zamówieenia projektu ParametrStoreRoot, wprowadź ścieżkę główną parametrów utworzonych przez funkcję Lambda przetwarzającą parametry.
W razie zamówieenia projektu Nazwa kolejki, wprowadź utworzoną kolejkę SQS, aby publikować powiadomienia o nowych plikach z zasobnika źródłowego do funkcji Lambda inicjującej zadanie. Jest to funkcja, która odczytuje plik konfiguracyjny.
W razie zamówieenia projektu Nazwa zasobnika źródłowego, wprowadź zasobnik S3 zawierający pliki XLIFF do przetłumaczenia. Jeśli wolisz użyć istniejącego zasobnika, musisz zmienić wartość parametru CreateSourceBucket na Nie.
W razie zamówieenia projektu Nazwa Zasobnika Roboczego, wpisz zasobnik S3, którego Amazon Translate używa do danych wejściowych i wyjściowych.
Dodaj Następna.

Rysunek 4: Szczegóły stosu CloudFormation
Opcjonalnie na Stos Opcje strony, dodaj nazwy kluczy i wartości dla tagów, które możesz chcieć przypisać do zasobów, które mają zostać utworzone.
Dodaj Następna.
Na Review strona, wybierz Przyjmuję do wiadomości, że ten szablon może spowodować, że AWS CloudFormation utworzy zasoby IAM.
Sprawdź inne ustawienia, a następnie wybierz Utwórz stos.

AWS CloudFormation zajmuje kilka minut, aby utworzyć zasoby w Twoim imieniu. Postęp możesz śledzić na Eventy w konsoli AWS CloudFormation. Po utworzeniu stosu możesz zobaczyć CREATE_COMPLETE wiadomość w Rynek kolumna na Przegląd patka.

Przetestuj rozwiązanie

Przejdźmy przez prosty przykład.

Pobierz następujące przykładowe dane.
Rozpakuj zawartość.

Powinny istnieć dwa pliki: plik .xlf w formacie XLIFF oraz plik konfiguracji progu z rozszerzeniem .cfg. Poniżej znajduje się fragment pliku XLIFF.

Przykładowy fragment pliku z angielskiego na francuski

Rysunek 5: Przykładowy fragment pliku z języka angielskiego na francuski

W konsoli Amazon S3 prześlij plik konfiguracyjny progu jakości do określonego wcześniej zasobnika konfiguracyjnego.

Wartość ustawiona dla test_En_to_Fr wynosi 75%. Powinieneś być w stanie zobaczyć parametry w konsoli Systems Manager w sekcji Parameter Store.

Nadal w konsoli Amazon S3 prześlij plik .xlf do zasobnika S3 skonfigurowanego jako źródło. Upewnij się, że plik znajduje się w folderze o nazwie translate (na przykład, <my_bucket>/translate/test_En_to_Fr.xlf).

To rozpoczyna przepływ tłumaczenia.

Otwórz konsolę Tłumacza Amazon.

Nowa praca powinna pojawić się ze statusem W toku.

Rysunek 6: Zadania tłumaczenia w toku w konsoli Amazon Translate

Po zakończeniu zadania kliknij łącze zadania i sprawdź wyniki. Wszystkie segmenty powinny zostać przetłumaczone.

Wszystkie segmenty powinny zostać przetłumaczone. W przetłumaczonym pliku XLIFF poszukaj segmentów z dodatkowymi atrybutami o nazwie lscustom:match-quality, jak pokazano na poniższym zrzucie ekranu. Te atrybuty niestandardowe identyfikują segmenty, w których sugerowane tłumaczenie zostało zachowane na podstawie wyniku.

Rysunek 7: Atrybuty niestandardowe identyfikujące segmenty, w których sugerowane tłumaczenie zostało zachowane na podstawie wyniku

Zostały one pobrane z pamięci tłumaczeniowej zgodnie z progiem jakości. Wszystkie pozostałe segmenty zostały przetłumaczone maszynowo.

Wdrożyłeś i przetestowałeś asystenta automatycznego tłumaczenia asynchronicznego, który wymusza konfigurowalne progi jakościowe w pamięci tłumaczeniowej. Dobra robota!

Oczyszczanie

Jeśli wdrożyłeś rozwiązanie na swoim koncie, nie zapomnij usunąć stosu CloudFormation, aby uniknąć nieoczekiwanych kosztów. Wiadra S3 należy wcześniej opróżnić ręcznie.

Wnioski

W tym poście dowiedziałeś się, jak dostosować zadania tłumaczeniowe Amazon Translate w oparciu o standardowe wskaźniki jakości rozmytego dopasowania XLIFF. Dzięki temu rozwiązaniu możesz znacznie ograniczyć pracę ręczną związaną z recenzowaniem tekstu przetłumaczonego maszynowo, jednocześnie optymalizując korzystanie z Tłumacza Amazon. Możesz także rozszerzyć rozwiązanie o funkcje automatyzacji pozyskiwania danych i aranżacji przepływu pracy, jak opisano w Przyspiesz tłumaczenia dzięki w pełni zautomatyzowanemu asystentowi systemu tłumaczeń.

O autorach

Narcyz Zekpa jest architektem rozwiązań z siedzibą w Bostonie. Pomaga klientom w północno-wschodnich stanach USA przyspieszyć przyjęcie chmury AWS, dostarczając wytyczne architektoniczne oraz projektując innowacyjne i skalowalne rozwiązania. Kiedy Narcisse nie buduje, lubi spędzać czas z rodziną, podróżować, gotować i grać w koszykówkę.

Dymitr Restaino jest architektem rozwiązań w AWS z Brooklynu w Nowym Jorku. Pracuje głównie z firmami Healthcare i Financial Services na północnym wschodzie, pomagając w projektowaniu innowacyjnych i kreatywnych rozwiązań, aby jak najlepiej służyć ich klientom. Wywodzący się z branży programistycznej, jest podekscytowany nowymi możliwościami, jakie technologia bezserwerowa może przynieść światu. Poza pracą uwielbia wędrować i odkrywać nowojorską scenę kulinarną.

Znak czasu: 16 maja 2022 r.

Opublikowane ponownie przez Plato

Startupy w akceleratorach AWS wykorzystują sztuczną inteligencję i ML do rozwiązywania krytycznych wyzwań klientów

Użyj Amazon SageMaker Data Wrangler do przygotowywania danych i Studio Labs, aby uczyć się i eksperymentować z ML

Przedstawiamy Fortuna: bibliotekę do kwantyfikacji niepewności

Zalecenia dotyczące zasilania i wyszukiwanie przy użyciu wykresu wiedzy IMDb – część 3

Przewiduj ceny nieruchomości mieszkalnych w ImmoScout24 z Amazon SageMaker

Model podkładu AI21 Jurassic-1 jest już dostępny na Amazon SageMaker

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto