Język ojczysty danej osoby jest częścią cech, które czynią ją wyjątkową. Często istnieje niezliczona ilość różnych sposobów na wyrażenie jednej konkretnej idei. Kiedy firma komunikuje się ze swoimi klientami, bardzo ważne jest, aby przekaz był dostarczany w sposób, który najlepiej odzwierciedla informacje, które próbuje przekazać. Staje się to jeszcze ważniejsze, jeśli chodzi o profesjonalne tłumaczenia językowe. Klienci systemów i usług tłumaczeniowych oczekują dokładnych i wysoce spersonalizowanych wyników. Aby to osiągnąć, często ponownie wykorzystują poprzednie wyniki tłumaczenia — zwane pamięcią tłumaczeniową (TM) — i porównują je z nowym tekstem wejściowym. W tłumaczeniu wspomaganym komputerowo technika ta jest znana jako rozmyte dopasowanie. Podstawową funkcją dopasowania rozmytego jest wspomaganie tłumacza poprzez przyspieszenie procesu tłumaczenia. Gdy w bazie TM nie można znaleźć dokładnego dopasowania tłumaczonego tekstu, systemy zarządzania tłumaczeniami (TMS) często mają opcję wyszukiwania dopasowania, które nie jest dokładne. Potencjalne dopasowania są dostarczane do tłumacza jako dodatkowe dane wejściowe do końcowego tłumaczenia. Tłumacze, którzy usprawniają swój przepływ pracy dzięki możliwościom tłumaczenia maszynowego, takim jak Tłumacz Amazon często oczekują, że dane rozmyte będą używane jako część rozwiązania do automatycznego tłumaczenia.
W tym poście dowiesz się, jak dostosować dane wyjściowe z Amazon Translate zgodnie z wynikami rozmytego dopasowania pamięci tłumaczeniowej.
Dopasowanie jakości tłumaczeń
Format pliku wymiany lokalizacji XML (XLIFF) standard jest często używany jako format wymiany danych między TMS i Amazon Translate. Pliki XLIFF tworzone przez TMS zawierają źródłowe i docelowe dane tekstowe wraz z wynikami jakości dopasowania na podstawie dostępnej bazy TM. Te wyniki — zwykle wyrażone w procentach — wskazują, jak blisko tłumaczonego tekstu znajduje się pamięć tłumaczeniowa.
Niektórzy klienci o bardzo rygorystycznych wymaganiach chcą, aby tłumaczenie maszynowe było używane tylko wtedy, gdy wyniki jakości dopasowania są poniżej określonego progu. Po przekroczeniu tego progu oczekują, że ich własna pamięć tłumaczeniowa będzie miała pierwszeństwo. Tłumacze często muszą ręcznie zastosować te preferencje w swoim systemie TMS lub zmieniając dane tekstowe. Ten przepływ jest zilustrowany na poniższym diagramie. System tłumaczenia maszynowego przetwarza dane tłumaczenia — tekst i wyniki dopasowania rozmytego — które są następnie sprawdzane i ręcznie edytowane przez tłumaczy, w oparciu o ich pożądane progi jakości. Stosowanie progów w ramach kroku tłumaczenia maszynowego pozwala na usunięcie tych ręcznych kroków, co poprawia wydajność i optymalizuje koszty.
Rozwiązanie przedstawione w tym poście pozwala na egzekwowanie reguł opartych na progach wyników jakości dopasowania, aby określić, czy dany tekst wejściowy powinien zostać przetłumaczony maszynowo przez Amazon Translate, czy nie. Jeśli tekst nie jest tłumaczony maszynowo, wynikowy tekst pozostawia się do uznania tłumaczy sprawdzających ostateczny wynik.
Architektura rozwiązania
Architektura rozwiązania przedstawiona na rysunku 2 wykorzystuje następujące usługi:
- Usługa Amazon Simple Storage – Wiaderka Amazon S3 zawierają następującą zawartość:
- Pliki konfiguracyjne progu dopasowania rozmytego
- Tekst źródłowy do tłumaczenia
- Lokalizacje danych wejściowych i wyjściowych Amazon Translate
- Menedżer systemów AWS - Używamy Magazyn parametrów parametry do przechowywania pasują do wartości konfiguracyjnych progu jakości
- AWS Lambda – Używamy dwóch funkcji Lambda:
- Jedna funkcja wstępnie przetwarza pliki konfiguracyjne progu dopasowania jakości i przechowuje dane w magazynie parametrów
- Jedna funkcja automatycznie tworzy asynchroniczne zadania tłumaczeniowe
- Usługa Amazon Simple Queue – Kolejka Amazon SQS uruchamia przepływ tłumaczenia w wyniku pojawienia się nowych plików w zasobniku źródłowym
Najpierw ustawiasz progi jakości dla swoich zadań tłumaczenia, edytując plik konfiguracyjny i przesyłając go do zasobnika konfiguracji S3 progu dopasowania rozmytego. Poniżej znajduje się przykładowa konfiguracja w formacie CSV. Wybraliśmy CSV dla uproszczenia, chociaż możesz użyć dowolnego formatu. Każdy wiersz reprezentuje próg, który należy zastosować do określonego zadania tłumaczenia lub jako wartość domyślną do dowolnego zadania.
Specyfikacje pliku konfiguracyjnego są następujące:
- Kolumna 1 powinna być wypełniona nazwą pliku XLIFF — bez rozszerzenia — dostarczonego do zadania Amazon Translate jako dane wejściowe.
- Kolumnę 2 należy wypełnić progiem procentowym dopasowania jakości. Dla każdego wyniku poniżej tej wartości używane jest tłumaczenie maszynowe.
- W przypadku wszystkich plików XLIFF, których nazwa nie odpowiada żadnej nazwie wymienionej w pliku konfiguracyjnym, używany jest próg domyślny — wiersz ze słowem kluczowym
default
zestaw w kolumnie 1.
Po przesłaniu nowego pliku Amazon S3 uruchamia funkcję Lambda odpowiedzialną za przetwarzanie parametrów. Ta funkcja odczytuje i przechowuje parametry progowe w magazynie parametrów do wykorzystania w przyszłości. Korzystanie z magazynu parametrów pozwala uniknąć wykonywania zbędnych żądań Amazon S3 GET za każdym razem, gdy inicjowane jest nowe zadanie tłumaczenia. Przykładowy plik konfiguracyjny generuje tagi parametrów pokazane na poniższym zrzucie ekranu.
Funkcja Lambda inicjowania zadania używa tych parametrów do wstępnego przetwarzania danych przed wywołaniem usługi Amazon Translate. Używamy pliku wejściowego XLIFF tłumaczenia z angielskiego na hiszpański, jak pokazano w poniższym kodzie. Zawiera początkowy tekst do przetłumaczenia, podzielony na to, co określa się jako Segmenty, reprezentowane w znacznikach źródłowych.
Tekst źródłowy został wcześniej dopasowany do pamięci tłumaczeniowej. Dane zawierają potencjalne alternatywy tłumaczenia — przedstawione jako <alt-trans>
tagi – obok atrybutu jakości dopasowania, wyrażonego w procentach. Reguła biznesowa wygląda następująco:
- Otrzymane segmenty z tłumaczeniami alternatywnymi i jakością dopasowania poniżej progu są nietknięte lub puste. To sygnalizuje Amazon Translate, że muszą zostać przetłumaczone.
- Segmenty otrzymane z tłumaczeniami alternatywnymi o jakości dopasowania powyżej progu są wstępnie wypełniane sugerowanym tekstem docelowym. Amazon Translate pomija te segmenty.
Załóżmy, że próg dopasowania jakości skonfigurowany dla tego zadania wynosi 80%. Pierwszy segment o 99% jakości dopasowania nie jest tłumaczony maszynowo, podczas gdy drugi segment jest tłumaczony, ponieważ jego jakość dopasowania jest poniżej zdefiniowanego progu. W tej konfiguracji Amazon Translate generuje następujące dane wyjściowe:
W drugim segmencie Amazon Translate nadpisuje początkowo sugerowany tekst docelowy (Selección
) z tłumaczeniem wyższej jakości: Visita de selección
.
Jednym z możliwych rozszerzeń tego przypadku użycia może być ponowne wykorzystanie przetłumaczonych danych wyjściowych i utworzenie własnej pamięci tłumaczeń. Amazon Translate obsługuje dostosowywanie tłumaczenia maszynowego za pomocą pamięci tłumaczeniowej dzięki dane równoległe funkcja. Segmenty tekstu, które zostały wcześniej przetłumaczone maszynowo ze względu na ich początkowy wynik niskiej jakości, można następnie wykorzystać w nowych projektach tłumaczeniowych.
W kolejnych sekcjach przeprowadzimy Cię przez proces wdrażania i testowania tego rozwiązania. Używasz Tworzenie chmury AWS skrypty i próbki danych do uruchomienia asynchronicznego zadania tłumaczenia spersonalizowanego z konfigurowalnym progiem dopasowania jakości.
Wymagania wstępne
Do tego przewodnika musisz mieć Konto AWS. Jeśli nie masz jeszcze konta, możesz utwórz i aktywuj?.
Uruchom stos AWS CloudFormation
- Dodaj Uruchom stos:
- W razie zamówieenia projektu Nazwa stosu, Wpisz imię.
- W razie zamówieenia projektu Nazwa zasobnika konfiguracji, wprowadź zasobnik S3 zawierający pliki konfiguracji progów.
- W razie zamówieenia projektu ParametrStoreRoot, wprowadź ścieżkę główną parametrów utworzonych przez funkcję Lambda przetwarzającą parametry.
- W razie zamówieenia projektu Nazwa kolejki, wprowadź utworzoną kolejkę SQS, aby publikować powiadomienia o nowych plikach z zasobnika źródłowego do funkcji Lambda inicjującej zadanie. Jest to funkcja, która odczytuje plik konfiguracyjny.
- W razie zamówieenia projektu Nazwa zasobnika źródłowego, wprowadź zasobnik S3 zawierający pliki XLIFF do przetłumaczenia. Jeśli wolisz użyć istniejącego zasobnika, musisz zmienić wartość parametru CreateSourceBucket na Nie.
- W razie zamówieenia projektu Nazwa Zasobnika Roboczego, wpisz zasobnik S3, którego Amazon Translate używa do danych wejściowych i wyjściowych.
- Dodaj Następna.
- Opcjonalnie na Stos Opcje strony, dodaj nazwy kluczy i wartości dla tagów, które możesz chcieć przypisać do zasobów, które mają zostać utworzone.
- Dodaj Następna.
- Na Review strona, wybierz Przyjmuję do wiadomości, że ten szablon może spowodować, że AWS CloudFormation utworzy zasoby IAM.
- Sprawdź inne ustawienia, a następnie wybierz Utwórz stos.
AWS CloudFormation zajmuje kilka minut, aby utworzyć zasoby w Twoim imieniu. Postęp możesz śledzić na Eventy w konsoli AWS CloudFormation. Po utworzeniu stosu możesz zobaczyć CREATE_COMPLETE
wiadomość w Rynek kolumna na Przegląd patka.
Przetestuj rozwiązanie
Przejdźmy przez prosty przykład.
- Pobierz następujące przykładowe dane.
- Rozpakuj zawartość.
Powinny istnieć dwa pliki: plik .xlf w formacie XLIFF oraz plik konfiguracji progu z rozszerzeniem .cfg. Poniżej znajduje się fragment pliku XLIFF.
- W konsoli Amazon S3 prześlij plik konfiguracyjny progu jakości do określonego wcześniej zasobnika konfiguracyjnego.
Wartość ustawiona dla test_En_to_Fr
wynosi 75%. Powinieneś być w stanie zobaczyć parametry w konsoli Systems Manager w sekcji Parameter Store.
- Nadal w konsoli Amazon S3 prześlij plik .xlf do zasobnika S3 skonfigurowanego jako źródło. Upewnij się, że plik znajduje się w folderze o nazwie
translate
(na przykład,<my_bucket>/translate/test_En_to_Fr.xlf
).
To rozpoczyna przepływ tłumaczenia.
- Otwórz konsolę Tłumacza Amazon.
Nowa praca powinna pojawić się ze statusem W toku.
- Po zakończeniu zadania kliknij łącze zadania i sprawdź wyniki. Wszystkie segmenty powinny zostać przetłumaczone.
Wszystkie segmenty powinny zostać przetłumaczone. W przetłumaczonym pliku XLIFF poszukaj segmentów z dodatkowymi atrybutami o nazwie lscustom:match-quality
, jak pokazano na poniższym zrzucie ekranu. Te atrybuty niestandardowe identyfikują segmenty, w których sugerowane tłumaczenie zostało zachowane na podstawie wyniku.
Zostały one pobrane z pamięci tłumaczeniowej zgodnie z progiem jakości. Wszystkie pozostałe segmenty zostały przetłumaczone maszynowo.
Wdrożyłeś i przetestowałeś asystenta automatycznego tłumaczenia asynchronicznego, który wymusza konfigurowalne progi jakościowe w pamięci tłumaczeniowej. Dobra robota!
Oczyszczanie
Jeśli wdrożyłeś rozwiązanie na swoim koncie, nie zapomnij usunąć stosu CloudFormation, aby uniknąć nieoczekiwanych kosztów. Wiadra S3 należy wcześniej opróżnić ręcznie.
Wnioski
W tym poście dowiedziałeś się, jak dostosować zadania tłumaczeniowe Amazon Translate w oparciu o standardowe wskaźniki jakości rozmytego dopasowania XLIFF. Dzięki temu rozwiązaniu możesz znacznie ograniczyć pracę ręczną związaną z recenzowaniem tekstu przetłumaczonego maszynowo, jednocześnie optymalizując korzystanie z Tłumacza Amazon. Możesz także rozszerzyć rozwiązanie o funkcje automatyzacji pozyskiwania danych i aranżacji przepływu pracy, jak opisano w Przyspiesz tłumaczenia dzięki w pełni zautomatyzowanemu asystentowi systemu tłumaczeń.
O autorach
Narcyz Zekpa jest architektem rozwiązań z siedzibą w Bostonie. Pomaga klientom w północno-wschodnich stanach USA przyspieszyć przyjęcie chmury AWS, dostarczając wytyczne architektoniczne oraz projektując innowacyjne i skalowalne rozwiązania. Kiedy Narcisse nie buduje, lubi spędzać czas z rodziną, podróżować, gotować i grać w koszykówkę.
Dymitr Restaino jest architektem rozwiązań w AWS z Brooklynu w Nowym Jorku. Pracuje głównie z firmami Healthcare i Financial Services na północnym wschodzie, pomagając w projektowaniu innowacyjnych i kreatywnych rozwiązań, aby jak najlepiej służyć ich klientom. Wywodzący się z branży programistycznej, jest podekscytowany nowymi możliwościami, jakie technologia bezserwerowa może przynieść światu. Poza pracą uwielbia wędrować i odkrywać nowojorską scenę kulinarną.
- Coinsmart. Najlepsza w Europie giełda bitcoinów i kryptowalut.
- Platoblockchain. Web3 Inteligencja Metaverse. Wzmocniona wiedza. DARMOWY DOSTĘP.
- CryptoJastrząb. Radar Altcoin. Bezpłatna wersja próbna.
- Źródło: https://aws.amazon.com/blogs/machine-learning/personalize-your-machine-translation-results-by-using-fuzzy-matching-with-amazon-translate/
- "
- 100
- 420
- 7
- O nas
- przyśpieszyć
- Stosownie
- Konto
- dokładny
- Osiągać
- Dodatkowy
- Przyjęcie
- Wszystkie kategorie
- alternatywny
- Chociaż
- Amazonka
- Stosowanie
- architektoniczny
- architektura
- Asystent
- atrybuty
- zautomatyzowane
- Automatyzacja
- dostępny
- AWS
- tło
- Koszykówka
- jest
- poniżej
- BEST
- Poza
- granica
- boston
- Budowanie
- biznes
- możliwości
- Spowodować
- pewien
- zmiana
- opłata
- Dodaj
- Chmura
- kod
- Kolumna
- przyjście
- Firmy
- systemu
- zgoda
- Konsola
- zawiera
- zawartość
- mógłby
- Stwórz
- stworzony
- tworzy
- Twórczy
- krytyczny
- zwyczaj
- Klientów
- dane
- Baza danych
- dostarczona
- wdrażane
- wdrażanie
- opisane
- Wnętrze
- oprogramowania
- różne
- dyskrecja
- Nie
- na dół
- napęd
- efektywność
- Angielski
- Wchodzę
- przykład
- wymiana
- podniecony
- oczekiwać
- odkryj
- wyrażone
- rozciągać się
- członków Twojej rodziny
- Cecha
- Postać
- budżetowy
- usługi finansowe
- Firma
- i terminów, a
- pływ
- następujący
- następujący sposób
- jedzenie
- format
- znaleziono
- francuski
- funkcjonować
- Funkcje
- przyszłość
- wspaniały
- bardzo
- Zarządzanie
- wytyczne
- opieki zdrowotnej
- pomoc
- pomaga
- wyższy
- wysoko
- W jaki sposób
- How To
- HTTPS
- pomysł
- zidentyfikować
- identyfikacja
- ważny
- zawierać
- Informacja
- Innowacyjny
- wkład
- zaangażowany
- IT
- Praca
- Oferty pracy
- Klawisz
- znany
- praca
- język
- uruchomić
- UCZYĆ SIĘ
- dowiedziałem
- wykorzystuje
- Linia
- LINK
- Katalogowany
- maszyna
- i konserwacjami
- kierownik
- podręcznik
- ręcznie
- Mecz
- dopasowywanie
- Pamięć
- Metryka
- może
- jeszcze
- Nazwy
- I Love New York
- Północ
- NYC
- optymalizacji
- Option
- orkiestracja
- Inne
- własny
- część
- procent
- wykonywania
- personalizować
- gra
- możliwości
- możliwy
- potencjał
- poprzedni
- pierwotny
- wygląda tak
- procesów
- przetwarzanie
- Wytworzony
- profesjonalny
- projektowanie
- że
- jakość
- Odebrane
- zmniejszyć
- reprezentowane
- reprezentuje
- wywołań
- wymagania
- Zasoby
- Efekt
- przeglądu
- reguły
- skalowalny
- scena
- Szukaj
- segment
- Segmenty
- Bezserwerowe
- Usługi
- zestaw
- pokazane
- Prosty
- Tworzenie
- rozwoju oprogramowania
- solidny
- rozwiązanie
- Rozwiązania
- Specyfikacje
- Spędzanie
- stos
- standard
- rozpocznie
- Rynek
- przechowywanie
- sklep
- sklep
- podpory
- system
- systemy
- cel
- Technologia
- Testowanie
- Źródło
- świat
- próg
- Przez
- czas
- Tłumaczenie
- Podróżowanie
- nas
- wyjątkowy
- posługiwać się
- wartość
- Oglądaj
- Co
- Co to jest
- czy
- Podczas
- KIM
- w ciągu
- Praca
- działa
- świat
- XML