Firmy z różnych branż tworzą, skanują i przechowują duże ilości dokumentów PDF. W wielu przypadkach treść zawiera dużo tekstu i często jest napisana w innym języku i wymaga tłumaczenia. Aby temu zaradzić, potrzebujesz zautomatyzowanego rozwiązania, które wyodrębni zawartość tych plików PDF i przetłumaczy je szybko i tanio.
Wiele firm ma różnych użytkowników na całym świecie i musi tłumaczyć tekst, aby umożliwić komunikację między nimi w różnych językach. Jest to ręczny, powolny i kosztowny ludzki wysiłek. Istnieje potrzeba znalezienia skalowalnego, niezawodnego i ekonomicznego rozwiązania do tłumaczenia dokumentów przy jednoczesnym zachowaniu oryginalnego formatowania dokumentu.
W przypadku branż takich jak opieka zdrowotna, ze względu na wymogi regulacyjne, przetłumaczone dokumenty wymagają dodatkowej osoby w pętli, aby zweryfikować ważność dokumentu przetłumaczonego maszynowo.
Jeśli przetłumaczony dokument nie zachowuje oryginalnego formatowania i struktury, traci swój kontekst. Może to utrudnić recenzentowi sprawdzanie poprawności i wprowadzanie poprawek.
W tym poście pokazujemy, jak utworzyć nowy przetłumaczony plik PDF z zeskanowanego pliku PDF, zachowując oryginalną strukturę dokumentu i formatowanie przy użyciu podejścia opartego na geometrii z Ekstrakt z amazonki, Tłumacz Amazon, Apache PDFBox.
Omówienie rozwiązania
Rozwiązanie przedstawione w tym poście wykorzystuje następujące komponenty:
- Ekstrakt z amazonki – W pełni zarządzana usługa uczenia maszynowego (ML), która automatycznie wyodrębnia drukowany tekst, pismo odręczne i inne dane ze skanowanych dokumentów, wykraczając poza proste optyczne rozpoznawanie znaków (OCR) w celu identyfikacji, zrozumienia i wyodrębnienia danych z formularzy i tabel. Amazon Texttract może wykrywać tekst w różnych dokumentach, w tym w raportach finansowych, dokumentacji medycznej i formularzach podatkowych.
- Tłumacz Amazon – Usługa neuronowego tłumaczenia maszynowego, która zapewnia szybkie, wysokiej jakości i niedrogie tłumaczenie językowe. Amazon Translate zapewnia wysokiej jakości możliwości tłumaczenia na żądanie i wsadowego w ponad 2,970 parach językowych, przy jednoczesnym obniżeniu kosztów tłumaczenia.
- Tłumacz PDF – Biblioteka typu open source napisana w Javie i opublikowana na Przykłady AWS w GitHub. Ta biblioteka zawiera logikę do generowania przetłumaczonych dokumentów PDF w wybranym języku za pomocą Amazon Texttract i Amazon Translate. Wykorzystuje również bibliotekę Java typu open source Apache PDFBox do tworzenia dokumentów PDF. Istnieją na przykład podobne biblioteki przetwarzania plików PDF w innych językach programowania Węzeł PDFBox.
Podczas wykonywania tłumaczeń maszynowych możesz mieć sytuacje, w których chcesz zabezpieczyć określone fragmenty tekstu przed przetłumaczeniem, takie jak nazwiska lub unikalne identyfikatory. Amazon Translate umożliwia modyfikacje tagów, co pozwala określić, jaki tekst nie powinien być tłumaczony. Amazon Translate obsługuje również dostosowywanie formalności, co pozwala dostosować poziom formalności w wynikach tłumaczenia.
Aby uzyskać szczegółowe informacje na temat limitów Amazon Text, patrz Kwoty w Amazon Text.
Rozwiązanie jest ograniczone do języków, które mogą być wyodrębniane przez Amazon Texttract, który obecnie obsługuje angielski, hiszpański, włoski, portugalski, francuski i niemiecki. Te języki są również obsługiwane przez Amazon Translate. Aby uzyskać pełną listę języków obsługiwanych przez Amazon Translate, zobacz Obsługiwane języki i kody języków.
Używamy następującego pliku PDF, aby zademonstrować tłumaczenie tekstu z angielskiego na hiszpański. Rozwiązanie obsługuje również generowanie przetłumaczonego dokumentu bez formatowania. Pozycja przetłumaczonego tekstu zostaje zachowana. Źródłowe i przetłumaczone dokumenty PDF można również znaleźć w Repozytorium GitHub próbek AWS.
W poniższych sekcjach pokazujemy, jak uruchomić kod tłumaczenia na komputerze lokalnym i przyjrzeć się kodowi tłumaczenia bardziej szczegółowo.
Wymagania wstępne
Zanim zaczniesz, skonfiguruj swoje konto AWS i Interfejs wiersza poleceń AWS (AWS CLI). Aby uzyskać dostęp do dowolnych usług AWS, takich jak Text i Translate, wymagane są odpowiednie uprawnienia IAM. Zalecamy korzystanie z uprawnień o najniższych uprawnieniach. Aby dowiedzieć się więcej o uprawnieniach IAM, zobacz Zasady i uprawnienia w IAM jak również Jak Amazon Texttract współpracuje z IAM i Jak Amazon Translate współpracuje z IAM.
Uruchom kod tłumaczenia na komputerze lokalnym
To rozwiązanie koncentruje się na samodzielnym kodzie Java do wyodrębniania i tłumaczenia dokumentu PDF. Ma to na celu ułatwienie testowania i dostosowywania w celu uzyskania najlepiej wyrenderowanego przetłumaczonego dokumentu PDF. Kod można następnie zintegrować ze zautomatyzowanym rozwiązaniem w celu wdrożenia i uruchomienia w AWS. Widzieć Tłumaczenie dokumentów PDF za pomocą Amazon Translate i Amazon Textract dla przykładowej architektury, która używa Usługa Amazon Simple Storage (Amazon S3) do przechowywania dokumentów i AWS Lambda uruchomić kod.
Aby uruchomić kod na komputerze lokalnym, wykonaj następujące kroki. Przykłady kodu są dostępne na stronie Repozytorium GitHub.
- Sklonuj repozytorium GitHub:
- Uruchom następujące polecenie:
- Uruchom następujące polecenie, aby przetłumaczyć z angielskiego na hiszpański:
W folderze dokumentów tworzone są dwa przetłumaczone dokumenty PDF, z oryginalnym formatowaniem i bez (SampleOutput-es.pdf
i SampleOutput-min-es.pdf
).
Kod do generowania przetłumaczonego pliku PDF
Poniższe fragmenty kodu pokazują, jak pobrać dokument PDF i wygenerować odpowiedni przetłumaczony dokument PDF. Wyodrębnia tekst za pomocą Amazon Texttract i tworzy przetłumaczony plik PDF, dodając przetłumaczony tekst jako warstwę do obrazu. Opiera się na rozwiązaniu pokazanym w poście Automatyczne generowanie przeszukiwalnych plików PDF z zeskanowanych dokumentów za pomocą Amazon Texttract.
Kod najpierw pobiera każdą linię tekstu za pomocą Amazon Texttract. Amazon Translate służy do uzyskiwania przetłumaczonego tekstu i zapisywania geometrii przetłumaczonego tekstu.
Rozmiar czcionki jest obliczany w następujący sposób i można go łatwo skonfigurować:
Przetłumaczony plik PDF jest tworzony z zapisanej geometrii i przetłumaczonego tekstu. Zmiany koloru przetłumaczonego tekstu można łatwo skonfigurować.
Poniższy obraz przedstawia dokument przetłumaczony na język hiszpański z oryginalnym formatowaniem (SampleOutput-es.pdf
).
Poniższy obraz przedstawia przetłumaczony plik PDF w języku hiszpańskim bez formatowania (SampleOutput-min-es.pdf
).
Czas przetwarzania
Wyodrębnienie, przetworzenie i wyrenderowanie przetłumaczonego pliku PDF aplikacji o zatrudnienie w formacie pdf zajęło około 10 sekund. Czas przetwarzania dokumentów zawierających dużo tekstu, takich jak Deklaracja Niepodległości PDF zajęło mniej niż minutę.
Koszty:
Dzięki Amazon Texttract płacisz na bieżąco na podstawie liczby przetworzonych stron i obrazów. Dzięki Amazon Translate płacisz na bieżąco na podstawie liczby przetwarzanych znaków tekstowych. Odnosić się do Ceny Amazon Text i Cennik Amazon Translate dla kosztów rzeczywistych.
Wnioski
Ten post pokazał, jak używać Amazon Text i Amazon Translate do generowania przetłumaczonych dokumentów PDF przy zachowaniu oryginalnej struktury dokumentu. Możesz opcjonalnie przetworzyć wyniki Amazon Texttract, aby poprawić jakość tłumaczenia, na przykład wyodrębnione słowa mogą zostać przekazane przez sprawdzanie pisowni oparte na ML, takie jak SymSpell do sprawdzania poprawności danych lub algorytmy grupowania mogą służyć do zachowania kolejności odczytu. Możesz także użyć Amazon AI Augmented (Amazon A2I) do tworzenia przepływów pracy weryfikacyjnych, w których możesz korzystać z prywatnych pracowników do przeglądania oryginalnych i przetłumaczonych dokumentów PDF w celu zapewnienia większej dokładności i kontekstu. Widzieć Projektowanie przepływów pracy z recenzjami użytkowników za pomocą Amazon Translate i Amazon Augmented AI i Tworzenie wielojęzycznego przepływu pracy w tłumaczeniu dokumentów z dostosowaniem do domeny i języka zacząć.
O autorach
Anubha Singhal jest starszym architektem chmury w Amazon Web Services w organizacji AWS Professional Services.
Seana Lawrence'a był wcześniej Front End Engineer w AWS. Specjalizował się w programowaniu front-end w organizacji AWS Professional Services oraz zespole Amazon Privacy.
- Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
- PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
- PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
- PlatonESG. Motoryzacja / pojazdy elektryczne, Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
- Przesunięcia bloków. Modernizacja własności offsetu środowiskowego. Dostęp tutaj.
- Źródło: https://aws.amazon.com/blogs/machine-learning/retain-original-pdf-formatting-to-view-translated-documents-with-amazon-textract-amazon-translate-and-pdfbox/
- :Jest
- :nie
- :Gdzie
- $W GÓRĘ
- 1
- 10
- 100
- 15%
- 20
- 7
- 970
- a
- O nas
- dostęp
- Konto
- precyzja
- w poprzek
- rzeczywisty
- dodanie
- Dodatkowy
- adres
- przystępne
- Algorytmy
- pozwala
- również
- Amazonka
- Ekstrakt z amazonki
- Tłumacz Amazon
- Amazon Web Services
- an
- i
- każdy
- Apache
- Zastosowanie
- podejście
- właściwy
- architektura
- SĄ
- AS
- At
- zwiększona
- zautomatyzowane
- automatycznie
- dostępny
- AWS
- Usługi profesjonalne AWS
- na podstawie
- BE
- jest
- pomiędzy
- Poza
- Czarny
- Blokować
- Bloki
- Pudełko
- budować
- Buduje
- biznes
- by
- obliczony
- CAN
- możliwości
- Etui
- Zmiany
- charakter
- rozpoznawanie znaków
- znaków
- Chmura
- klastrowanie
- kod
- kolor
- Komunikacja
- kompletny
- skonfigurowany
- zawiera
- zawartość
- treść
- kontekst
- Korekty
- Odpowiedni
- opłacalne
- Koszty:
- Stwórz
- stworzony
- tworzy
- Obecnie
- dostosowywanie
- dostosować
- dane
- dostarcza
- wykazać
- rozwijać
- życzenia
- detal
- detale
- oprogramowania
- różne
- trudny
- inny
- dokument
- dokumenty
- Nie
- z powodu
- każdy
- łatwiej
- z łatwością
- wysiłek
- więcej
- zatrudnienie
- umożliwiać
- zakończenia
- inżynier
- Angielski
- przykład
- przykłady
- drogi
- wyciąg
- Wyciągi
- fałszywy
- FAST
- wypełniać
- budżetowy
- Znajdź
- i terminów, a
- pływak
- koncentruje
- następujący
- następujący sposób
- W razie zamówieenia projektu
- dawniej
- formularze
- znaleziono
- francuski
- od
- z przodu
- Zaczepy
- Rozwój front-endu
- pełny
- w pełni
- Generować
- generujący
- niemiecki
- otrzymać
- GitHub
- Globalne
- Go
- Goes
- Have
- he
- opieki zdrowotnej
- ciężki
- wysokość
- tutaj
- wysokiej jakości
- dom
- W jaki sposób
- How To
- HTML
- http
- HTTPS
- człowiek
- identyfikatory
- zidentyfikować
- if
- obraz
- zdjęcia
- podnieść
- in
- W innych
- zawierać
- Włącznie z
- przemysłowa
- wkład
- zintegrowany
- najnowszych
- IT
- JEGO
- Java
- język
- Języki
- duży
- warstwa
- UCZYĆ SIĘ
- nauka
- najmniej
- lewo
- mniej
- poziom
- biblioteki
- Biblioteka
- Limity
- Linia
- linie
- Lista
- miejscowy
- logika
- Popatrz
- Traci
- maszyna
- uczenie maszynowe
- robić
- zarządzane
- podręcznik
- wiele
- Może..
- medyczny
- chwila
- ML
- Modyfikacje
- jeszcze
- Nazwy
- Potrzebować
- potrzebne
- Nowości
- numer
- przedmiot
- OCR
- of
- często
- on
- Na żądanie
- open source
- działanie
- optyczne rozpoznawanie znaków
- or
- zamówienie
- organizacja
- oryginalny
- Inne
- wydajność
- własny
- strona
- stron
- par
- minęło
- Zapłacić
- wykonywania
- uprawnienia
- plato
- Analiza danych Platona
- PlatoDane
- portugalski
- position
- Post
- przedstawione
- prywatność
- prywatny
- przywilej
- wygląda tak
- Obrobiony
- przetwarzanie
- profesjonalny
- Programowanie
- języki programowania
- zapewniać
- zapewnia
- opublikowany
- jakość
- szybko
- Czytający
- uznanie
- polecić
- dokumentacja
- region
- regulacyjne
- rzetelny
- Raporty
- wymagać
- wymagania
- Wymaga
- ograniczony
- Efekt
- zachować
- wspornikowy
- powrót
- przeglądu
- run
- Zapisz
- skalowalny
- skanować
- sekund
- działy
- widzieć
- senior
- usługa
- Usługi
- zestaw
- powinien
- pokazać
- pokazał
- pokazane
- Targi
- podobny
- Prosty
- sytuacje
- Rozmiar
- powolny
- rozwiązanie
- Źródło
- hiszpański
- wyspecjalizowanym
- specyficzny
- standalone
- rozpoczęty
- Cel
- przechowywanie
- sklep
- sznur
- Struktura
- taki
- Utrzymany
- podpory
- TAG
- Brać
- podatek
- zespół
- Testowanie
- niż
- że
- Połączenia
- Źródło
- Im
- następnie
- Tam.
- Te
- to
- Przez
- czas
- do
- wziął
- Top
- tłumaczyć
- Tłumaczenie
- zrozumieć
- wyjątkowy
- posługiwać się
- używany
- Użytkownicy
- zastosowania
- za pomocą
- Wykorzystując
- UPRAWOMOCNIĆ
- uprawomocnienie
- różnorodność
- różnorodny
- zweryfikować
- pionowe
- Zobacz i wysłuchaj
- kłęby
- była
- we
- sieć
- usługi internetowe
- DOBRZE
- Co
- który
- Podczas
- biały
- szerokość
- w
- w ciągu
- bez
- słowa
- workflow
- przepływów pracy
- Siła robocza
- działa
- napisany
- You
- Twój
- zefirnet