Le aziende di vari settori creano, scansionano e archiviano grandi volumi di documenti PDF. In molti casi, il contenuto è pesante e spesso scritto in una lingua diversa e richiede una traduzione. Per risolvere questo problema, è necessaria una soluzione automatizzata per estrarre i contenuti all'interno di questi PDF e tradurli in modo rapido ed economico.
Molte aziende hanno diversi utenti globali e devono tradurre il testo per consentire la comunicazione interlinguistica tra di loro. Questo è uno sforzo umano manuale, lento e costoso. È necessario trovare una soluzione scalabile, affidabile ed economica per tradurre i documenti mantenendo la formattazione del documento originale.
Per settori verticali come l'assistenza sanitaria, a causa dei requisiti normativi, i documenti tradotti richiedono un'altra persona nel ciclo per verificare la validità del documento tradotto automaticamente.
Se il documento tradotto non mantiene la formattazione e la struttura originali, perde il suo contesto. Ciò può rendere difficile per un revisore umano convalidare e apportare correzioni.
In questo post, dimostriamo come creare un nuovo PDF tradotto da un PDF scansionato mantenendo la struttura e la formattazione del documento originale utilizzando un approccio basato sulla geometria con Testo Amazon, Amazon Traduttoree Apache PDF Box.
Panoramica della soluzione
La soluzione presentata in questo post utilizza i seguenti componenti:
- Testo Amazon – Un servizio di machine learning (ML) completamente gestito che estrae automaticamente testo stampato, scrittura a mano e altri dati da documenti scansionati che va oltre il semplice riconoscimento ottico dei caratteri (OCR) per identificare, comprendere ed estrarre dati da moduli e tabelle. Amazon Textract è in grado di rilevare il testo in una varietà di documenti, inclusi rapporti finanziari, cartelle cliniche e moduli fiscali.
- Amazon Traduttore – Un servizio di traduzione automatica neurale che offre traduzioni linguistiche rapide, di alta qualità e convenienti. Amazon Translate offre funzionalità di traduzione batch e on demand di alta qualità in oltre 2,970 combinazioni linguistiche, riducendo al contempo i costi di traduzione.
- PDF Traduci – Una libreria open source scritta in Java e pubblicata su Esempi AWS in GitHub. Questa libreria contiene la logica per generare documenti PDF tradotti nella lingua desiderata con Amazon Textract e Amazon Translate. Utilizza anche la libreria Java open source Apache PDFBox per creare documenti PDF. Ad esempio, sono disponibili librerie di elaborazione PDF simili in altri linguaggi di programmazione Nodo PDFBox.
Durante l'esecuzione di traduzioni automatiche, potresti avere situazioni in cui desideri impedire la traduzione di specifiche sezioni di testo, come nomi o identificatori univoci. Amazon Translate consente modifiche ai tag, che ti consentono di specificare quale testo non deve essere tradotto. Amazon Translate supporta anche la personalizzazione delle formalità, che consente di personalizzare il livello di formalità nell'output della traduzione.
Per dettagli sui limiti di Amazon Textract, fare riferimento a Quote in Amazon Texttract.
La soluzione è limitata alle lingue che possono essere estratte da Amazon Textract, che attualmente supporta inglese, spagnolo, italiano, portoghese, francese e tedesco. Queste lingue sono supportate anche da Amazon Translate. Per l'elenco completo delle lingue supportate da Amazon Translate, fare riferimento a Lingue e codici lingua supportati.
Utilizziamo il seguente PDF per dimostrare la traduzione del testo dall'inglese allo spagnolo. La soluzione supporta anche la generazione del documento tradotto senza alcuna formattazione. La posizione del testo tradotto viene mantenuta. La fonte e i documenti PDF tradotti sono disponibili anche nel file Repo GitHub di esempi AWS.
Nelle sezioni seguenti, dimostriamo come eseguire il codice di traduzione su una macchina locale e osserviamo il codice di traduzione in modo più dettagliato.
Prerequisiti
Prima di iniziare, configura il tuo account AWS e il file Interfaccia della riga di comando di AWS (interfaccia a riga di comando dell'AWS). Per l'accesso a qualsiasi servizio AWS come Textract e Translate, sono necessarie autorizzazioni IAM appropriate. Si consiglia di utilizzare le autorizzazioni con privilegi minimi. Per ulteriori informazioni sulle autorizzazioni IAM, vedere Policy e autorizzazioni in IAM così come Come funziona Amazon Textract con IAM ed Come funziona Amazon Translate con IAM.
Eseguire il codice di traduzione su un computer locale
Questa soluzione si concentra sul codice Java autonomo per estrarre e tradurre un documento PDF. Questo serve per test e personalizzazioni più semplici per ottenere il documento PDF tradotto con la migliore resa. Il codice può quindi essere integrato in una soluzione automatizzata da distribuire ed eseguire in AWS. Vedere Tradurre documenti PDF utilizzando Amazon Translate e Amazon Textract per un'architettura di esempio che utilizza Servizio di archiviazione semplice Amazon (Amazon S3) per archiviare i documenti e AWS Lambda per eseguire il codice.
Per eseguire il codice su un computer locale, completare i passaggi seguenti. Gli esempi di codice sono disponibili su Repository GitHub.
- Clonare il repository GitHub:
- Eseguire il seguente comando:
- Esegui il seguente comando per tradurre dall'inglese allo spagnolo:
Nella cartella documenti vengono creati due documenti PDF tradotti, con e senza la formattazione originale (SampleOutput-es.pdf
ed SampleOutput-min-es.pdf
).
Codice per generare il PDF tradotto
I seguenti frammenti di codice mostrano come prendere un documento PDF e generare un documento PDF tradotto corrispondente. Estrae il testo utilizzando Amazon Textract e crea il PDF tradotto aggiungendo il testo tradotto come livello all'immagine. Si basa sulla soluzione mostrata nel post Generazione automatica di PDF ricercabili da documenti scansionati con Amazon Textract.
Il codice prima ottiene ogni riga di testo con Amazon Textract. Amazon Translate viene utilizzato per ottenere il testo tradotto e salvare la geometria del testo tradotto.
La dimensione del carattere viene calcolata come segue e può essere facilmente configurata:
Il PDF tradotto viene creato dalla geometria salvata e dal testo tradotto. Le modifiche al colore del testo tradotto possono essere facilmente configurate.
L'immagine seguente mostra il documento tradotto in spagnolo con la formattazione originale (SampleOutput-es.pdf
).
L'immagine seguente mostra il PDF tradotto in spagnolo senza alcuna formattazione (SampleOutput-min-es.pdf
).
Tempo di elaborazione
Il pdf della domanda di lavoro ha impiegato circa 10 secondi per estrarre, elaborare e rendere il pdf tradotto. Il tempo di elaborazione per documenti pesanti come il file Dichiarazione di Indipendenza Il PDF ha richiesto meno di un minuto.
Costo
Con Amazon Textract, paghi a consumo in base al numero di pagine e immagini elaborate. Con Amazon Translate, paghi in base al consumo in base al numero di caratteri di testo elaborati. Fare riferimento a Prezzi di Amazon Textract ed Prezzi di Amazon Translate per i costi effettivi.
Conclusione
Questo post ha mostrato come utilizzare Amazon Textract e Amazon Translate per generare documenti PDF tradotti mantenendo la struttura del documento originale. Puoi facoltativamente postelaborare i risultati di Amazon Textract per migliorare la qualità della traduzione, ad esempio le parole estratte possono essere passate attraverso controlli ortografici basati su ML come SimIncantesimo per la convalida dei dati, oppure è possibile utilizzare algoritmi di clustering per preservare l'ordine di lettura. Puoi anche usare AI aumentata di Amazon (Amazon A2I) per creare flussi di lavoro di revisione umana in cui è possibile utilizzare la propria forza lavoro privata per rivedere i documenti PDF originali e tradotti per fornire maggiore accuratezza e contesto. Vedere Progettazione di flussi di lavoro per la revisione umana con Amazon Translate e Amazon Augmented AI ed Creazione di un flusso di lavoro di traduzione di documenti multilingue con personalizzazione specifica del dominio e della lingua per iniziare.
Informazioni sugli autori
Anubha Singhal è Senior Cloud Architect presso Amazon Web Services nell'organizzazione AWS Professional Services.
Sean Lawrence era precedentemente un ingegnere front-end presso AWS. Si è specializzato nello sviluppo front-end nell'organizzazione AWS Professional Services e nel team Amazon Privacy.
- Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
- PlatoData.Network Generativo verticale Ai. Potenzia te stesso. Accedi qui.
- PlatoAiStream. Intelligenza Web3. Conoscenza amplificata. Accedi qui.
- PlatoneESG. Automobilistico/VE, Carbonio, Tecnologia pulita, Energia, Ambiente, Solare, Gestione dei rifiuti. Accedi qui.
- BlockOffset. Modernizzare la proprietà della compensazione ambientale. Accedi qui.
- Fonte: https://aws.amazon.com/blogs/machine-learning/retain-original-pdf-formatting-to-view-translated-documents-with-amazon-textract-amazon-translate-and-pdfbox/
- :È
- :non
- :Dove
- $ SU
- 1
- 10
- 100
- 15%
- 20
- 7
- 970
- a
- WRI
- accesso
- Il mio account
- precisione
- operanti in
- presenti
- l'aggiunta di
- aggiuntivo
- indirizzo
- conveniente
- Algoritmi
- consente
- anche
- Amazon
- Testo Amazon
- Amazon Traduttore
- Amazon Web Services
- an
- ed
- in qualsiasi
- Apache
- Applicazioni
- approccio
- opportuno
- architettura
- SONO
- AS
- At
- aumentata
- Automatizzata
- automaticamente
- disponibile
- AWS
- Servizi professionali AWS
- basato
- BE
- essendo
- fra
- Al di là di
- Nero
- Bloccare
- Blocchi
- Scatola
- costruire
- costruisce
- aziende
- by
- calcolato
- Materiale
- funzionalità
- casi
- Modifiche
- carattere
- riconoscimento del personaggio
- caratteri
- Cloud
- il clustering
- codice
- colore
- Comunicazione
- completamento di una
- configurato
- contiene
- contenuto
- testuali
- contesto
- Correzioni
- Corrispondente
- costo effettivo
- Costi
- creare
- creato
- crea
- Attualmente
- personalizzazione
- personalizzare
- dati
- fornisce un monitoraggio
- dimostrare
- schierare
- desiderato
- dettaglio
- dettagli
- Mercato
- diverso
- difficile
- paesaggio differenziato
- documento
- documenti
- non
- dovuto
- ogni
- più facile
- facilmente
- sforzo
- altro
- occupazione
- enable
- fine
- ingegnere
- Inglese
- esempio
- Esempi
- costoso
- estratto
- estratti
- falso
- FAST
- riempire
- finanziario
- Trovate
- Nome
- galleggiante
- si concentra
- i seguenti
- segue
- Nel
- precedentemente
- forme
- essere trovato
- Francese
- da
- anteriore
- Fine frontale
- Sviluppo front end
- pieno
- completamente
- generare
- la generazione di
- Tedesco
- ottenere
- GitHub
- globali
- Go
- va
- Avere
- he
- assistenza sanitaria
- pesante
- altezza
- qui
- alta qualità
- Casa
- Come
- Tutorial
- HTML
- http
- HTTPS
- umano
- identificatori
- identificare
- if
- Immagine
- immagini
- competenze
- in
- In altre
- includere
- Compreso
- industrie
- ingresso
- integrato
- ai miglioramenti
- IT
- SUO
- Java
- Lingua
- Le Lingue
- grandi
- strato
- IMPARARE
- apprendimento
- meno
- a sinistra
- meno
- Livello
- biblioteche
- Biblioteca
- limiti
- linea
- Linee
- Lista
- locale
- logica
- Guarda
- Perde
- macchina
- machine learning
- make
- gestito
- Manuale
- molti
- Maggio..
- medicale
- minuto
- ML
- modifiche
- Scopri di più
- nomi
- Bisogno
- di applicazione
- New
- numero
- oggetto
- OCR
- of
- di frequente
- on
- On-Demand
- open source
- operazione
- riconoscimento ottico dei caratteri
- or
- minimo
- organizzazione
- i
- Altro
- produzione
- proprio
- pagina
- pagine
- coppie
- Passato
- Paga le
- esecuzione
- permessi
- Platone
- Platone Data Intelligence
- PlatoneDati
- Portoghese
- posizione
- Post
- presentata
- Privacy
- un bagno
- privilegio
- processi
- Elaborato
- lavorazione
- professionale
- Programmazione
- linguaggi di programmazione
- fornire
- fornisce
- pubblicato
- qualità
- rapidamente
- Lettura
- riconoscimento
- raccomandare
- record
- regione
- normativo
- affidabile
- Report
- richiedere
- Requisiti
- richiede
- limitato
- Risultati
- conservare
- di ritegno
- ritorno
- recensioni
- Correre
- Risparmi
- scalabile
- scansione
- secondo
- sezioni
- vedere
- anziano
- servizio
- Servizi
- set
- dovrebbero
- mostrare attraverso le sue creazioni
- ha mostrato
- mostrato
- Spettacoli
- simile
- Un'espansione
- situazioni
- Taglia
- rallentare
- soluzione
- Fonte
- Spagnolo
- specializzata
- specifico
- standalone
- iniziato
- Passi
- conservazione
- Tornare al suo account
- Corda
- La struttura
- tale
- supportato
- supporti
- TAG
- Fai
- imposta
- team
- Testing
- di
- che
- Il
- L’ORIGINE
- Li
- poi
- Là.
- Strumenti Bowman per analizzare le seguenti finiture:
- questo
- Attraverso
- tempo
- a
- ha preso
- top
- tradurre
- Traduzione
- capire
- unico
- uso
- utilizzato
- utenti
- usa
- utilizzando
- Utilizzando
- CONVALIDARE
- convalida
- varietà
- vario
- verificare
- verticali
- Visualizza
- volumi
- Prima
- we
- sito web
- servizi web
- WELL
- Che
- quale
- while
- bianca
- larghezza
- con
- entro
- senza
- parole
- flusso di lavoro
- flussi di lavoro
- Forza lavoro
- lavori
- scritto
- Tu
- Trasferimento da aeroporto a Sharm
- zefiro