Zanurz się w głębokim uczeniu się (D2L.ai) to podręcznik typu open source, dzięki któremu głębokie uczenie się jest dostępne dla każdego. Zawiera interaktywne notatniki Jupyter z samodzielnym kodem w PyTorch, JAX, TensorFlow i MXNet, a także rzeczywiste przykłady, dane ekspozycyjne i matematykę. Do tej pory D2L zostało przyjęte przez ponad 400 uniwersytetów na całym świecie, takich jak University of Cambridge, Stanford University, Massachusetts Institute of Technology, Carnegie Mellon University i Tsinghua University. Ta praca jest również dostępna w języku chińskim, japońskim, koreańskim, portugalskim, tureckim i wietnamskim, z planami wprowadzenia hiszpańskiego i innych języków.
Posiadanie stale aktualizowanej książki online, napisanej przez wielu autorów i dostępnej w wielu językach to wyzwanie. W tym poście przedstawiamy rozwiązanie, które D2L.ai wykorzystało do rozwiązania tego problemu, używając pliku Aktywna funkcja tłumaczenia niestandardowego (ACT). of Tłumacz Amazon oraz budowanie wielojęzycznego potoku tłumaczeń automatycznych.
Pokazujemy, jak używać Konsola zarządzania AWS i Publiczny interfejs API usługi Amazon Translate dostarczać automatyczne tłumaczenie maszynowe wsadowe i analizować tłumaczenia między dwiema parami językowymi: angielskim i chińskim oraz angielskim i hiszpańskim. Zalecamy również najlepsze praktyki podczas korzystania z usługi Amazon Translate w tym automatycznym procesie tłumaczeniowym, aby zapewnić jakość i wydajność tłumaczenia.
Omówienie rozwiązania
Zbudowaliśmy potoki automatycznego tłumaczenia dla wielu języków, korzystając z funkcji ACT w Amazon Translate. ACT umożliwia dostosowywanie wyników tłumaczenia w locie, dostarczając dostosowane przykłady tłumaczeń w postaci dane równoległe. Dane równoległe składają się ze zbioru przykładów tekstowych w języku źródłowym oraz żądanych tłumaczeń w jednym lub kilku językach docelowych. Podczas tłumaczenia ACT automatycznie wybiera najistotniejsze segmenty z danych równoległych i aktualizuje model translacji w locie na podstawie tych par segmentów. Powoduje to tłumaczenie, które lepiej pasuje do stylu i zawartości danych równoległych.
Architektura zawiera wiele potoków podrzędnych; każdy podpotok obsługuje tłumaczenie jednego języka, na przykład z angielskiego na chiński, z angielskiego na hiszpański i tak dalej. Wiele podrzędnych potoków tłumaczeniowych może być przetwarzanych równolegle. W każdym podpotoku najpierw tworzymy równoległe dane w Amazon Translate, korzystając z wysokiej jakości zestawu danych przykładowych tłumaczeń z tłumaczonych przez ludzi książek D2L. Następnie generujemy dostosowane dane wyjściowe tłumaczenia maszynowego na bieżąco w czasie wykonywania, co zapewnia lepszą jakość i dokładność.
W poniższych sekcjach pokazujemy, jak zbudować każdy potok tłumaczeń za pomocą Amazon Translate z ACT, wraz z Amazon Sage Maker i Usługa Amazon Simple Storage (Amazonka S3).
Najpierw umieszczamy dokumenty źródłowe, dokumenty referencyjne i zestaw szkoleń danych równoległych w zasobniku S3. Następnie budujemy notatniki Jupyter w SageMaker, aby uruchomić proces tłumaczenia przy użyciu publicznych API Amazon Translate.
Wymagania wstępne
Aby wykonać czynności opisane w tym poście, upewnij się, że masz konto AWS z następującymi elementami:
- Dostęp do AWS Zarządzanie tożsamością i dostępem (IAM) do konfiguracji ról i zasad
- Dostęp do Amazon Translate, SageMaker i Amazon S3
- Zasobnik S3 do przechowywania dokumentów źródłowych, dokumentów referencyjnych, zbioru danych równoległych i wyników tłumaczenia
Utwórz rolę IAM i zasady dla Tłumacza Amazon za pomocą ACT
Nasza rola IAM musi zawierać niestandardową politykę zaufania dla usługi Amazon Translate:
Ta rola musi również mieć zasady uprawnień, które przyznają Amazon Translate dostęp do odczytu do folderu wejściowego i podfolderów w Amazon S3, które zawierają dokumenty źródłowe, oraz dostęp do odczytu/zapisu do wyjściowego zasobnika S3 i folderu zawierającego przetłumaczone dokumenty:
Aby uruchamiać notatniki Jupyter w SageMaker dla zadań tłumaczeniowych, musimy przyznać wbudowane zasady uprawnień roli wykonawczej SageMaker. Ta rola przekazuje rolę usługi Amazon Translate do SageMaker, która umożliwia notatnikom SageMaker dostęp do dokumentów źródłowych i przetłumaczonych w wyznaczonych zasobnikach S3:
Przygotuj próbki do trenowania danych równoległych
Dane równoległe w ACT muszą zostać przeszkolone przez plik wejściowy składający się z listy przykładowych par tekstowych, na przykład pary języka źródłowego (angielski) i języka docelowego (chiński). Plik wejściowy może być w formacie TMX, CSV lub TSV. Poniższy zrzut ekranu przedstawia przykład pliku wejściowego CSV. Pierwsza kolumna to dane w języku źródłowym (w języku angielskim), a druga kolumna to dane w języku docelowym (w języku chińskim). Poniższy przykład pochodzi z książki D2L-en i książki D2L-zh.
Przeprowadź niestandardowe szkolenie w zakresie danych równoległych w usłudze Amazon Translate
Najpierw konfigurujemy wiadro i foldery S3, jak pokazano na poniższym zrzucie ekranu. The source_data
folder zawiera dokumenty źródłowe przed tłumaczeniem; dokumenty wygenerowane po wykonaniu tłumaczenia wsadowego są umieszczane w folderze wyjściowym. The ParallelData
folder zawiera plik wprowadzania danych równoległych przygotowany w poprzednim kroku.
Po przesłaniu plików wejściowych do source_data
folder, możemy użyć Interfejs API CreateParallelData aby uruchomić równoległe zadanie tworzenia danych w Amazon Translate:
Aby zaktualizować istniejące dane równoległe o nowe zestawy danych szkoleniowych, możemy użyć Aktualizuj interfejs API ParallelData:
S3_BUCKET = “YOUR-S3_BUCKET-NAME”
pd_name = “pd-d2l-short_test_sentence_enzh_all”
pd_description = “Parallel Data for English to Chinese”
pd_fn = “d2l_short_test_sentence_enzh_all.csv”
response_t = translate_client.update_parallel_data( Name=pd_name, # pd_name is the parallel data name Description=pd_description, # pd_description is the parallel data description ParallelDataConfig={ 'S3Uri': 's3://'+S3_BUCKET+'/Paralleldata/'+pd_fn, # S3_BUCKET is the S3 bucket name defined in the previous step 'Format': 'CSV' },
)
print(pd_name, ": ", response_t['Status'], " updated.")
Postęp zadania szkoleniowego możemy sprawdzić na konsoli Amazon Translate. Po zakończeniu zadania stan danych równoległych jest wyświetlany jako Aktywna i jest gotowy do użycia.
Uruchom asynchroniczne tłumaczenie wsadowe przy użyciu danych równoległych
Tłumaczenie wsadowe można przeprowadzić w procesie, w którym wiele dokumentów źródłowych jest automatycznie tłumaczonych na dokumenty w językach docelowych. Proces obejmuje przesłanie dokumentów źródłowych do folderu wejściowego zasobnika S3, a następnie zastosowanie Interfejs API StartTextTranslationJob z Amazon Translate, aby zainicjować zadanie tłumaczenia asynchronicznego:
Wybraliśmy pięć dokumentów źródłowych w języku angielskim z książki D2L (D2L-en) do tłumaczenia zbiorczego. Na konsoli Amazon Translate możemy monitorować postęp zadania tłumaczeniowego. Gdy status zadania zmieni się na Zakończony, możemy znaleźć przetłumaczone dokumenty w języku chińskim (D2L-zh) w folderze wyjściowym zasobnika S3.
Oceń jakość tłumaczenia
Aby zademonstrować skuteczność funkcji ACT w Amazon Translate, zastosowaliśmy również tradycyjną metodę tłumaczenia w czasie rzeczywistym Amazon Translate bez równoległych danych do przetwarzania tych samych dokumentów i porównaliśmy dane wyjściowe z wynikami tłumaczenia wsadowego za pomocą ACT. Wykorzystaliśmy wynik BLEU (BiLingual Evaluation Understudy), aby porównać jakość tłumaczenia między dwiema metodami. Jedynym sposobem na dokładne zmierzenie jakości tłumaczenia maszynowego jest dokonanie ekspertyzy i ocena jakości. Jednak BLEU zapewnia oszacowanie względnej poprawy jakości między dwoma wynikami. Wynik BLEU to zazwyczaj liczba z zakresu 0–1; oblicza podobieństwo tłumaczenia maszynowego do referencyjnego tłumaczenia ludzkiego. Wyższy wynik oznacza lepszą jakość rozumienia języka naturalnego (NLU).
Przetestowaliśmy zestaw dokumentów w czterech potokach: z angielskiego na chiński (en na zh), chiński na angielski (zh na en), angielski na hiszpański (en na es) i hiszpański na angielski (es na en). Poniższy rysunek pokazuje, że tłumaczenie z ACT dało wyższy średni wynik BLEU we wszystkich potokach tłumaczeniowych.
Zaobserwowaliśmy również, że im bardziej ziarniste są równoległe pary danych, tym lepsza jest wydajność translacji. Na przykład używamy następującego równoległego pliku wprowadzania danych z parami akapitów, który zawiera 10 wpisów.
W przypadku tej samej treści używamy następującego równoległego pliku wprowadzania danych z parami zdań i 16 wpisami.
Użyliśmy obu równoległych plików wejściowych danych do skonstruowania dwóch równoległych jednostek danych w Amazon Translate, a następnie utworzyliśmy dwa zadania tłumaczenia wsadowego z tym samym dokumentem źródłowym. Na poniższym rysunku porównano tłumaczenia wyjściowe. Pokazuje, że dane wyjściowe przy użyciu danych równoległych z parami zdań przewyższały wyniki przy użyciu danych równoległych z parami akapitów, zarówno w przypadku tłumaczenia z języka angielskiego na chiński, jak i tłumaczenia z języka chińskiego na angielski.
Jeśli chcesz dowiedzieć się więcej o tych analizach porównawczych, zobacz Automatyczne tłumaczenie maszynowe i synchronizacja dla „Dive into Deep Learning”.
Sprzątać
Aby uniknąć powtarzających się kosztów w przyszłości, zalecamy wyczyszczenie utworzonych zasobów:
- W konsoli Amazon Translate wybierz utworzone przez siebie dane równoległe i wybierz je Usuń. Alternatywnie możesz użyć Interfejs API DeleteParallelData albo Interfejs wiersza poleceń AWS (CLI AWS) usuń dane-równoległe polecenie usunięcia danych równoległych.
- Usuń wiadro S3 używany do hostowania dokumentów źródłowych i referencyjnych, dokumentów przetłumaczonych i plików wprowadzania danych równoległych.
- Usuń rolę i zasady IAM. Aby uzyskać instrukcje, patrz Usuwanie ról lub profili instancji i Usuwanie zasad IAM.
Wnioski
Dzięki temu rozwiązaniu dążymy do zmniejszenia obciążenia pracą tłumaczy o 80%, przy jednoczesnym utrzymaniu jakości tłumaczenia i obsłudze wielu języków. Możesz użyć tego rozwiązania, aby poprawić jakość i wydajność swoich tłumaczeń. Pracujemy nad dalszym ulepszaniem architektury rozwiązania i jakości tłumaczeń na inne języki.
Twoja opinia jest zawsze mile widziana; zostaw swoje przemyślenia i pytania w sekcji komentarzy.
O autorach
Yunfei Bai jest starszym architektem rozwiązań w AWS. Mając doświadczenie w AI/ML, nauce o danych i analityce, Yunfei pomaga klientom wdrażać usługi AWS w celu osiągania wyników biznesowych. Projektuje rozwiązania AI/ML i analizy danych, które pokonują złożone wyzwania techniczne i realizują cele strategiczne. Yunfei ma doktorat z inżynierii elektronicznej i elektrycznej. Poza pracą Yunfei lubi czytać i słuchać muzyki.
Rachel Hu jest naukowcem stosowanym w AWS Machine Learning University (MLU). Prowadziła kilka projektów kursów, w tym ML Operations (MLOps) i Accelerator Computer Vision. Rachel jest starszym mówcą AWS i przemawiała na najważniejszych konferencjach, w tym AWS re:Invent, NVIDIA GTC, KDD i MLOps Summit. Przed dołączeniem do AWS Rachel pracowała jako inżynier uczenia maszynowego, budując modele przetwarzania języka naturalnego. Poza pracą lubi jogę, ultimate frisbee, czytanie i podróże.
Watsona Srivathsana jest głównym menedżerem produktu w Amazon Translate, usłudze przetwarzania języka naturalnego AWS. W weekendy znajdziesz go na świeżym powietrzu w północno-zachodnim Pacyfiku.
- Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
- EVM Finanse. Ujednolicony interfejs dla zdecentralizowanych finansów. Dostęp tutaj.
- Quantum Media Group. Wzmocnienie IR/PR. Dostęp tutaj.
- PlatoAiStream. Analiza danych Web3. Wiedza wzmocniona. Dostęp tutaj.
- Źródło: https://aws.amazon.com/blogs/machine-learning/build-a-multilingual-automatic-translation-pipeline-with-amazon-translate-active-custom-translation/
- :ma
- :Jest
- :Gdzie
- $W GÓRĘ
- 10
- 100
- 11
- 12
- 14
- 16
- 17
- 7
- a
- O nas
- akcelerator
- dostęp
- dostępny
- Konto
- precyzja
- dokładnie
- Osiąga
- działać
- Działania
- aktywny
- adres
- przyjąć
- przyjęty
- Po
- AI
- AI / ML
- zmierzać
- Wszystkie kategorie
- dopuszczać
- pozwala
- wzdłuż
- również
- zawsze
- Amazonka
- Tłumacz Amazon
- Amazon Web Services
- an
- analizuje
- analityka
- w czasie rzeczywistym sprawiają,
- i
- Pszczoła
- stosowany
- Stosowanie
- architektura
- SĄ
- na około
- AS
- At
- Autorzy
- samochód
- automatycznie
- automatycznie
- dostępny
- średni
- uniknąć
- AWS
- Uczenie maszynowe AWS
- AWS re: Invent
- tło
- na podstawie
- BE
- być
- zanim
- Benchmark
- BEST
- Najlepsze praktyki
- Ulepsz Swój
- pomiędzy
- książka
- Książki
- obie
- budować
- Budowanie
- wybudowany
- biznes
- by
- oblicza
- cambridge
- CAN
- Carnegie Mellona
- wyzwanie
- wyzwania
- wyzwanie
- Zmiany
- ZOBACZ
- chiński
- Dodaj
- kod
- kolekcja
- Kolumna
- COM
- komentarze
- w porównaniu
- kompletny
- kompleks
- komputer
- Wizja komputerowa
- przeprowadzone
- konferencje
- Składający się
- składa się
- Konsola
- skonstruować
- zawierać
- zawiera
- zawartość
- bez przerwy
- Koszty:
- Kurs
- stworzony
- tworzenie
- zwyczaj
- Klientów
- dostosować
- dostosowane
- dane
- Analityka danych
- nauka danych
- zbiory danych
- Data
- głęboko
- głęboka nauka
- zdefiniowane
- dostarczyć
- wykazać
- opis
- wyznaczony
- projekty
- życzenia
- dokument
- dokumenty
- napęd
- podczas
- każdy
- efekt
- skuteczność
- efektywność
- Elektroniczny
- starać się
- inżynier
- Inżynieria
- Angielski
- zapewnić
- podmioty
- oszacowanie
- ewaluację
- wszyscy
- przykład
- przykłady
- egzekucja
- Przede wszystkim system został opracowany
- ekspert
- Exploring
- daleko
- Cecha
- Korzyści
- informacja zwrotna
- kilka
- Postać
- Postacie
- filet
- Akta
- Znajdź
- i terminów, a
- obserwuj
- następujący
- W razie zamówieenia projektu
- Nasz formularz
- format
- cztery
- od
- dalej
- przyszłość
- Generować
- wygenerowane
- stopień
- przyznać
- Dotacje
- Uchwyty
- Have
- he
- pomaga
- wysokiej jakości
- wyższy
- go
- posiada
- gospodarz
- W jaki sposób
- How To
- Jednak
- HTML
- http
- HTTPS
- człowiek
- tożsamość
- podnieść
- poprawa
- poprawy
- in
- Włącznie z
- zainicjować
- wkład
- przykład
- Instytut
- instrukcje
- interaktywne
- zainteresowany
- najnowszych
- IT
- Japonki
- Praca
- Oferty pracy
- łączący
- jpg
- trzymane
- koreański
- język
- Języki
- uruchomić
- prowadzący
- nauka
- Pozostawiać
- Linia
- Lista
- maszyna
- uczenie maszynowe
- zrobiony
- Utrzymywanie
- robić
- WYKONUJE
- i konserwacjami
- kierownik
- massachusetts
- Instytut Technologii w Massachusetts
- Mecz
- matematyka
- zmierzyć
- Mellon
- metoda
- metody
- ML
- MLOps
- model
- modele
- monitor
- jeszcze
- większość
- wielokrotność
- Muzyka
- musi
- Nazwa
- Naturalny
- Przetwarzanie języka naturalnego
- Potrzebować
- wymagania
- Nowości
- numer
- Nvidia
- Cele
- of
- on
- ONE
- Online
- tylko
- open source
- operacje
- or
- Inne
- na zewnątrz
- wydajność
- zewnętrzne
- Przezwyciężać
- Pacyfik
- đôi
- par
- Parallel
- przebiegi
- jest gwarancją najlepszej jakości, które mogą dostarczyć Ci Twoje monitory,
- pozwolenie
- uprawnienia
- rurociąg
- plany
- plato
- Analiza danych Platona
- PlatoDane
- Proszę
- polityka
- polityka
- portugalski
- Post
- praktyki
- przygotowany
- teraźniejszość
- poprzedni
- Główny
- wygląda tak
- Obrobiony
- przetwarzanie
- Wytworzony
- Produkt
- product manager
- Postęp
- zapewnia
- że
- publiczny
- położyć
- płomień
- jakość
- pytania
- RE
- Czytaj
- Czytający
- gotowy
- Prawdziwy świat
- w czasie rzeczywistym
- polecić
- powtarzające się
- zmniejszyć
- względny
- reprezentuje
- Zasób
- Zasoby
- odpowiedź
- Efekt
- przeglądu
- Rola
- role
- run
- sagemaker
- taki sam
- nauka
- Naukowiec
- wynik
- druga
- Sekcja
- działy
- segment
- Segmenty
- wybrany
- senior
- usługa
- Usługi
- zestaw
- ona
- pokazane
- Targi
- Prosty
- So
- dotychczas
- rozwiązanie
- Rozwiązania
- Źródło
- hiszpański
- Głośnik
- mówiony
- Stanford
- Uniwersytet Stanford
- Zestawienie sprzedaży
- Rynek
- Ewolucja krok po kroku
- Cel
- przechowywanie
- sklep
- Strategiczny
- styl
- taki
- Szczyt
- Wspierający
- synchronizacja
- dostosowane
- cel
- Techniczny
- Technologia
- tensorflow
- przetestowany
- podręcznik
- niż
- że
- Połączenia
- Przyszłość
- Źródło
- świat
- następnie
- Te
- to
- tych
- czas
- do
- Top
- tradycyjny
- przeszkolony
- Trening
- tłumaczyć
- Tłumaczenie
- Podróżowanie
- Zaufaj
- Tsinghua
- turecki
- drugiej
- zazwyczaj
- ostateczny
- zrozumienie
- Uniwersytety
- uniwersytet
- Uniwersytet Cambridge
- Aktualizacja
- zaktualizowane
- Nowości
- Uploading
- posługiwać się
- używany
- za pomocą
- wersja
- wietnamski
- wizja
- Watson
- Droga..
- we
- sieć
- usługi internetowe
- powitanie
- DOBRZE
- jeśli chodzi o komunikację i motywację
- który
- Podczas
- będzie
- w
- bez
- Praca
- pracował
- pracujący
- świat
- napisany
- Joga
- You
- Twój
- zefirnet