Companiile din diverse industrii creează, scanează și stochează volume mari de documente PDF. În multe cazuri, conținutul este bogat în text și adesea scris într-o altă limbă și necesită traducere. Pentru a rezolva acest lucru, aveți nevoie de o soluție automată pentru a extrage conținutul acestor fișiere PDF și a le traduce rapid și eficient din punct de vedere al costurilor.
Multe companii au utilizatori la nivel mondial diverși și trebuie să traducă text pentru a permite comunicarea interlingvă între ei. Acesta este un efort uman manual, lent și costisitor. Este nevoie de a găsi o soluție scalabilă, fiabilă și rentabilă pentru a traduce documente, păstrând în același timp formatarea originală a documentului.
Pentru verticale, cum ar fi asistența medicală, din cauza cerințelor de reglementare, documentele traduse necesită o persoană suplimentară în buclă pentru a verifica validitatea documentului tradus automat.
Dacă documentul tradus nu păstrează formatarea și structura originale, își pierde contextul. Acest lucru poate face dificil pentru un evaluator uman să valideze și să facă corecții.
În această postare, demonstrăm cum să creați un nou PDF tradus dintr-un PDF scanat, păstrând în același timp structura și formatarea originală a documentului folosind o abordare bazată pe geometrie cu Text Amazon, Traducerea Amazon, și Apache PDF Box.
Prezentare generală a soluțiilor
Soluția prezentată în această postare folosește următoarele componente:
- Text Amazon – Un serviciu de învățare automată (ML) complet gestionat care extrage automat text tipărit, scris de mână și alte date din documentele scanate, care depășește simpla recunoaștere optică a caracterelor (OCR) pentru a identifica, înțelege și extrage date din formulare și tabele. Amazon Texttract poate detecta text dintr-o varietate de documente, inclusiv rapoarte financiare, dosare medicale și formulare fiscale.
- Traducerea Amazon – Un serviciu de traducere automată neuronală care oferă traducere rapidă, de înaltă calitate și la preț accesibil. Amazon Translate oferă capabilități de traducere la cerere și lot de înaltă calitate în peste 2,970 de perechi de limbi, reducând în același timp costurile de traducere.
- Traducere PDF – O bibliotecă open-source scrisă în Java și publicată pe Mostre AWS în GitHub. Această bibliotecă conține o logică pentru a genera documente PDF traduse în limba dorită cu Amazon Texttract și Amazon Translate. De asemenea, folosește biblioteca Java open-source Apache PDFBox pentru a crea documente PDF. Există biblioteci similare de procesare PDF disponibile în alte limbaje de programare, de exemplu Nodul PDFBox.
În timp ce efectuați traduceri automate, este posibil să aveți situații în care doriți să păstrați anumite secțiuni de text de la traducere, cum ar fi nume sau identificatori unici. Amazon Translate permite modificări de etichetă, ceea ce vă permite să specificați ce text nu trebuie tradus. Amazon Translate acceptă și personalizarea formalităților, ceea ce vă permite să personalizați nivelul de formalitate în rezultatul traducerii.
Pentru detalii despre limitele Amazon Text, consultați Cote în Amazon Text.
Soluția este limitată la limbile care pot fi extrase de Amazon Texttract, care acceptă în prezent engleză, spaniolă, italiană, portugheză, franceză și germană. Aceste limbi sunt acceptate și de Amazon Translate. Pentru lista completă a limbilor acceptate de Amazon Translate, consultați Limbi și coduri de limbă acceptate.
Folosim următorul PDF pentru a demonstra traducerea textului din engleză în spaniolă. Soluția acceptă și generarea documentului tradus fără nicio formatare. Poziția textului tradus este menținută. Documentele PDF sursă și traduse pot fi găsite și în AWS Samples GitHub repo.
În secțiunile următoare, demonstrăm cum să rulăm codul de traducere pe o mașină locală și să privim codul de traducere mai detaliat.
Cerințe preliminare
Înainte de a începe, configurați contul dvs. AWS și Interfața liniei de comandă AWS (AWS CLI). Pentru acces la orice servicii AWS, cum ar fi Text și Translate, sunt necesare permisiuni IAM corespunzătoare. Vă recomandăm să utilizați permisiunile cu cel mai mic privilegiu. Pentru a afla mai multe despre permisiunile IAM, consultați Politici și permisiuni în IAM precum și Cum funcționează Amazon Texttract cu IAM și Cum funcționează Amazon Translate cu IAM.
Rulați codul de traducere pe o mașină locală
Această soluție se concentrează pe codul Java independent pentru extragerea și traducerea unui document PDF. Acest lucru este pentru testare și personalizări mai ușoare pentru a obține cel mai bine redat document PDF tradus. Codul poate fi apoi integrat într-o soluție automatizată pentru a fi implementat și rulat în AWS. Vedea Traducerea documentelor PDF folosind Amazon Translate și Amazon Texttract pentru un exemplu de arhitectură care utilizează Serviciul Amazon de stocare simplă (Amazon S3) pentru a stoca documentele și AWS Lambdas pentru a rula codul.
Pentru a rula codul pe o mașină locală, parcurgeți următorii pași. Exemplele de cod sunt disponibile pe Repo GitHub.
- Clonează depozitul GitHub:
- Rulați următoarea comandă:
- Rulați următoarea comandă pentru a traduce din engleză în spaniolă:
Două documente PDF traduse sunt create în folderul de documente, cu și fără formatarea originală (SampleOutput-es.pdf
și SampleOutput-min-es.pdf
).
Cod pentru a genera PDF-ul tradus
Următoarele fragmente de cod arată cum să luați un document PDF și să generați un document PDF tradus corespunzător. Extrage textul folosind Amazon Texttract și creează PDF-ul tradus adăugând textul tradus ca strat la imagine. Se bazează pe soluția prezentată în postare Generarea automată a fișierelor PDF care pot fi căutate din documente scanate cu Amazon Texttract.
Codul primește mai întâi fiecare linie de text cu Amazon Texttract. Amazon Translate este folosit pentru a obține text tradus și pentru a salva geometria textului tradus.
Dimensiunea fontului este calculată după cum urmează și poate fi configurată cu ușurință:
PDF-ul tradus este creat din geometria salvată și textul tradus. Modificările de culoare a textului tradus pot fi configurate cu ușurință.
Următoarea imagine arată documentul tradus în spaniolă cu formatarea originală (SampleOutput-es.pdf
).
Următoarea imagine arată PDF-ul tradus în spaniolă fără nicio formatare (SampleOutput-min-es.pdf
).
Timp de procesare
pdf-ul cererii de angajare a durat aproximativ 10 secunde pentru a extrage, procesa și redă pdf-ul tradus. Timpul de procesare pentru documente cu text greo, cum ar fi Declarația de independență PDF-ul a durat mai puțin de un minut.
A costat
Cu Amazon Texttract, plătiți pe măsură ce mergeți în funcție de numărul de pagini și de imagini procesate. Cu Amazon Translate, plătiți pe măsură ce mergeți în funcție de numărul de caractere text care sunt procesate. A se referi la Prețuri Amazon Text și Prețuri Amazon Translate pentru costurile reale.
Concluzie
Această postare a arătat cum să utilizați Amazon Texttract și Amazon Translate pentru a genera documente PDF traduse, păstrând în același timp structura documentului original. Puteți, opțional, să postprocesați rezultatele Amazon Textex pentru a îmbunătăți calitatea traducerii, de exemplu, cuvintele extrase pot fi trecute prin verificări ortografice bazate pe ML, cum ar fi SymSpell pentru validarea datelor, sau algoritmii de grupare pot fi utilizați pentru a păstra ordinea de citire. De asemenea, puteți utiliza AI augmentată Amazon (Amazon A2I) pentru a construi fluxuri de lucru de revizuire umană în care vă puteți folosi propria forță de muncă privată pentru a revizui documentele PDF originale și traduse pentru a oferi mai multă acuratețe și context. Vedea Proiectarea fluxurilor de lucru pentru recenzii umane cu Amazon Translate și Amazon Augmented AI și Crearea unui flux de lucru de traducere a documentelor în mai multe limbi cu personalizare specifică domeniului și limbii pentru a începe.
Despre Autori
Anubha Singhal este Senior Cloud Architect la Amazon Web Services în organizația AWS Professional Services.
Sean Lawrence a fost anterior inginer front-end la AWS. S-a specializat în dezvoltarea front end în organizația AWS Professional Services și echipa Amazon Privacy.
- Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
- PlatoData.Network Vertical Generative Ai. Împuterniciți-vă. Accesați Aici.
- PlatoAiStream. Web3 Intelligence. Cunoștințe amplificate. Accesați Aici.
- PlatoESG. Automobile/VE-uri, carbon, CleanTech, Energie, Mediu inconjurator, Solar, Managementul deșeurilor. Accesați Aici.
- BlockOffsets. Modernizarea proprietății de compensare a mediului. Accesați Aici.
- Sursa: https://aws.amazon.com/blogs/machine-learning/retain-original-pdf-formatting-to-view-translated-documents-with-amazon-textract-amazon-translate-and-pdfbox/
- :este
- :nu
- :Unde
- $UP
- 1
- 10
- 100
- 15%
- 20
- 7
- 970
- a
- Despre Noi
- acces
- Cont
- precizie
- peste
- curent
- adăugare
- Suplimentar
- adresa
- accesibil
- algoritmi
- permite
- de asemenea
- Amazon
- Text Amazon
- Traducerea Amazon
- Amazon Web Services
- an
- și
- Orice
- Apache
- aplicație
- abordare
- adecvat
- arhitectură
- SUNT
- AS
- At
- augmented
- Automata
- în mod automat
- disponibil
- AWS
- Servicii profesionale AWS
- bazat
- BE
- fiind
- între
- Dincolo de
- Negru
- Bloca
- Blocuri
- Cutie
- construi
- construiește
- întreprinderi
- by
- calculată
- CAN
- capacități
- cazuri
- Modificări
- caracter
- recunoașterea personajelor
- caractere
- Cloud
- clustering
- cod
- culoare
- Comunicare
- Completă
- configurat
- conține
- conţinut
- conținut
- context
- Corectarea
- Corespunzător
- cost-eficiente
- Cheltuieli
- crea
- a creat
- creează
- În prezent
- personalizare
- personaliza
- de date
- Oferă
- demonstra
- implementa
- dorit
- detaliu
- detalii
- Dezvoltare
- diferit
- dificil
- diferit
- document
- documente
- Nu
- două
- fiecare
- mai ușor
- cu ușurință
- efort
- altfel
- ocuparea forţei de muncă
- permite
- capăt
- inginer
- Engleză
- exemplu
- exemple
- scump
- extrage
- extracte
- fals
- FAST
- umple
- financiar
- Găsi
- First
- pluti
- se concentrează
- următor
- urmează
- Pentru
- anterior
- formulare
- găsit
- Franceză
- din
- faţă
- În față
- Dezvoltare front end
- Complet
- complet
- genera
- generator
- Germană
- obține
- GitHub
- Caritate
- Go
- Merge
- Avea
- he
- de asistență medicală
- greu
- înălțime
- aici
- de înaltă calitate
- casă
- Cum
- Cum Pentru a
- HTML
- http
- HTTPS
- uman
- identificatorii
- identifica
- if
- imagine
- imagini
- îmbunătăţi
- in
- În altele
- include
- Inclusiv
- industrii
- intrare
- integrate
- în
- IT
- ESTE
- Java
- limbă
- Limbă
- mare
- strat
- AFLAȚI
- învăţare
- cel mai puțin
- stânga
- mai puțin
- Nivel
- biblioteci
- Bibliotecă
- Limitele
- Linie
- linii
- Listă
- local
- logică
- Uite
- Pierde
- maşină
- masina de învățare
- face
- gestionate
- manual
- multe
- Mai..
- medical
- minut
- ML
- modificările aduse
- mai mult
- nume
- Nevoie
- necesar
- Nou
- număr
- obiect
- OCR
- of
- de multe ori
- on
- La cerere
- open-source
- operaţie
- recunoaștere optică a caracterelor
- or
- comandă
- organizație
- original
- Altele
- producție
- propriu
- pagină
- pagini
- perechi
- Trecut
- Plătește
- efectuarea
- permisiuni
- Plato
- Informații despre date Platon
- PlatoData
- Portugheză
- poziţie
- Post
- prezentat
- intimitate
- privat
- privilegiu
- proces
- Procesat
- prelucrare
- profesional
- Programare
- limbaje de programare
- furniza
- furnizează
- publicat
- calitate
- repede
- Citind
- recunoaştere
- recomanda
- înregistrări
- regiune
- autoritățile de reglementare
- de încredere
- Rapoarte
- necesita
- Cerinţe
- Necesită
- limitat
- REZULTATE
- reține
- reținere
- reveni
- revizuiască
- Alerga
- Economisiți
- scalabil
- scanare
- secunde
- secțiuni
- vedea
- senior
- serviciu
- Servicii
- set
- să
- Arăta
- a arătat
- indicat
- Emisiuni
- asemănător
- simplu
- situații
- Mărimea
- încetini
- soluţie
- Sursă
- Spaniolă
- de specialitate
- specific
- standalone
- început
- paşi
- depozitare
- stoca
- Şir
- structura
- astfel de
- Suportat
- Sprijină
- TAG
- Lua
- impozit
- echipă
- Testarea
- decât
- acea
- Sursa
- Lor
- apoi
- Acolo.
- Acestea
- acest
- Prin
- timp
- la
- a luat
- top
- Traduceți
- Traducere
- înţelege
- unic
- utilizare
- utilizat
- utilizatorii
- utilizări
- folosind
- Utilizand
- VALIDA
- validare
- varietate
- diverse
- verifica
- verticalele
- Vizualizare
- volume
- a fost
- we
- web
- servicii web
- BINE
- Ce
- care
- în timp ce
- alb
- lățime
- cu
- în
- fără
- cuvinte
- flux de lucru
- fluxuri de lucru
- Forta de munca
- fabrică
- scris
- Tu
- Ta
- zephyrnet