Unternehmen verschiedener Branchen erstellen, scannen und speichern große Mengen an PDF-Dokumenten. In vielen Fällen sind die Inhalte textlastig und oft in einer anderen Sprache verfasst und bedürfen einer Übersetzung. Um dieses Problem zu lösen, benötigen Sie eine automatisierte Lösung, um die Inhalte dieser PDFs zu extrahieren und sie schnell und kosteneffizient zu übersetzen.
Viele Unternehmen haben unterschiedliche globale Benutzer und müssen Texte übersetzen, um eine sprachübergreifende Kommunikation zwischen ihnen zu ermöglichen. Dies ist eine manuelle, langsame und teure menschliche Anstrengung. Es besteht Bedarf an einer skalierbaren, zuverlässigen und kostengünstigen Lösung zum Übersetzen von Dokumenten unter Beibehaltung der ursprünglichen Dokumentformatierung.
In Branchen wie dem Gesundheitswesen erfordern die übersetzten Dokumente aufgrund regulatorischer Anforderungen einen zusätzlichen Mitarbeiter, der die Gültigkeit des maschinell übersetzten Dokuments überprüft.
Wenn das übersetzte Dokument die ursprüngliche Formatierung und Struktur nicht beibehält, verliert es seinen Kontext. Dies kann es für einen menschlichen Prüfer schwierig machen, die Angaben zu validieren und Korrekturen vorzunehmen.
In diesem Beitrag zeigen wir, wie Sie mithilfe eines geometriebasierten Ansatzes aus einem gescannten PDF ein neues übersetztes PDF erstellen und dabei die ursprüngliche Dokumentstruktur und Formatierung beibehalten Amazontext, Amazon Übersetzen und Apache PDFBox.
Lösungsüberblick
Die in diesem Beitrag vorgestellte Lösung verwendet die folgenden Komponenten:
- Amazontext – Ein vollständig verwalteter Dienst für maschinelles Lernen (ML), der gedruckten Text, Handschrift und andere Daten automatisch aus gescannten Dokumenten extrahiert und über die einfache optische Zeichenerkennung (OCR) hinausgeht, um Daten aus Formularen und Tabellen zu identifizieren, zu verstehen und zu extrahieren. Amazon Textract kann Text in einer Vielzahl von Dokumenten erkennen, darunter Finanzberichte, Krankenakten und Steuerformulare.
- Amazon Übersetzen – Ein neuronaler maschineller Übersetzungsdienst, der schnelle, qualitativ hochwertige und kostengünstige Sprachübersetzungen liefert. Amazon Translate bietet hochwertige On-Demand- und Batch-Übersetzungsfunktionen für mehr als 2,970 Sprachpaare und senkt gleichzeitig Ihre Übersetzungskosten.
- PDF-Übersetzung – Eine Open-Source-Bibliothek, die in Java geschrieben und veröffentlicht wurde AWS-Beispiele in GitHub. Diese Bibliothek enthält Logik zum Generieren übersetzter PDF-Dokumente in Ihrer gewünschten Sprache mit Amazon Textract und Amazon Translate. Außerdem wird die Open-Source-Java-Bibliothek Apache PDFBox zum Erstellen von PDF-Dokumenten verwendet. Ähnliche PDF-Verarbeitungsbibliotheken sind beispielsweise auch in anderen Programmiersprachen verfügbar Knoten PDFBox.
Bei der Durchführung maschineller Übersetzungen kann es vorkommen, dass Sie bestimmte Textabschnitte, beispielsweise Namen oder eindeutige Kennungen, vor der Übersetzung schützen möchten. Amazon Translate ermöglicht Tag-Änderungen, sodass Sie angeben können, welcher Text nicht übersetzt werden soll. Amazon Translate unterstützt auch die Anpassung der Formalität, sodass Sie den Grad der Formalität in Ihrer Übersetzungsausgabe anpassen können.
Einzelheiten zu den Grenzwerten für Amazon Textract finden Sie unter Quoten in Amazon Textract.
Die Lösung ist auf die Sprachen beschränkt, die von Amazon Textract extrahiert werden können, das derzeit Englisch, Spanisch, Italienisch, Portugiesisch, Französisch und Deutsch unterstützt. Diese Sprachen werden auch von Amazon Translate unterstützt. Die vollständige Liste der von Amazon Translate unterstützten Sprachen finden Sie unter Unterstützte Sprachen und Sprachcodes.
Wir verwenden das folgende PDF, um die Übersetzung des Textes vom Englischen ins Spanische zu demonstrieren. Die Lösung unterstützt auch die Erstellung des übersetzten Dokuments ohne jegliche Formatierung. Die Position des übersetzten Textes bleibt erhalten. Die Quell- und übersetzten PDF-Dokumente finden Sie auch im AWS Samples GitHub Repo.
In den folgenden Abschnitten zeigen wir, wie der Übersetzungscode auf einem lokalen Computer ausgeführt wird, und schauen uns den Übersetzungscode genauer an.
Voraussetzungen:
Bevor Sie beginnen, richten Sie Ihr AWS-Konto und das ein AWS-Befehlszeilenschnittstelle (AWS CLI). Für den Zugriff auf alle AWS-Services wie Textract und Translate sind entsprechende IAM-Berechtigungen erforderlich. Wir empfehlen die Verwendung von Berechtigungen mit den geringsten Privilegien. Weitere Informationen zu IAM-Berechtigungen finden Sie unter Richtlinien und Berechtigungen in IAM und auch der So funktioniert Amazon Textract mit IAM und So funktioniert Amazon Translate mit IAM.
Führen Sie den Übersetzungscode auf einem lokalen Computer aus
Diese Lösung konzentriert sich auf den eigenständigen Java-Code zum Extrahieren und Übersetzen eines PDF-Dokuments. Dies dient dem einfacheren Testen und Anpassen, um das am besten gerenderte übersetzte PDF-Dokument zu erhalten. Der Code kann dann in eine automatisierte Lösung integriert werden, um sie in AWS bereitzustellen und auszuführen. Sehen Übersetzen von PDF-Dokumenten mit Amazon Translate und Amazon Textract für eine Beispielarchitektur, die verwendet Amazon Simple Storage-Service (Amazon S3) zum Speichern der Dokumente und AWS Lambda um den Code auszuführen.
Führen Sie die folgenden Schritte aus, um den Code auf einem lokalen Computer auszuführen. Die Codebeispiele finden Sie auf der GitHub Repo.
- Klonen Sie das GitHub-Repo:
- Führen Sie den folgenden Befehl aus:
- Führen Sie den folgenden Befehl aus, um vom Englischen ins Spanische zu übersetzen:
Im Dokumentenordner werden zwei übersetzte PDF-Dokumente erstellt, mit und ohne Originalformatierung (SampleOutput-es.pdf
und SampleOutput-min-es.pdf
).
Code zum Generieren der übersetzten PDF-Datei
Die folgenden Codeausschnitte zeigen, wie man aus einem PDF-Dokument ein entsprechendes übersetztes PDF-Dokument generiert. Es extrahiert den Text mit Amazon Textract und erstellt das übersetzte PDF, indem es den übersetzten Text als Ebene zum Bild hinzufügt. Es baut auf der im Beitrag gezeigten Lösung auf Mit Amazon Textract automatisch durchsuchbare PDFs aus gescannten Dokumenten generieren.
Der Code ruft zunächst jede Textzeile mit Amazon Textract ab. Amazon Translate wird verwendet, um übersetzten Text abzurufen und die Geometrie des übersetzten Texts zu speichern.
Die Schriftgröße wird wie folgt berechnet und kann einfach konfiguriert werden:
Das übersetzte PDF wird aus der gespeicherten Geometrie und dem übersetzten Text erstellt. Änderungen an der Farbe des übersetzten Textes können einfach konfiguriert werden.
Das folgende Bild zeigt das ins Spanische übersetzte Dokument mit der Originalformatierung (SampleOutput-es.pdf
).
Das folgende Bild zeigt das übersetzte PDF auf Spanisch ohne Formatierung (SampleOutput-min-es.pdf
).
Bearbeitungszeit
Das Extrahieren, Verarbeiten und Rendern der übersetzten PDF-Datei dauerte etwa 10 Sekunden. Die Verarbeitungszeit für textintensive Dokumente wie z Declaration of Independence PDF dauerte weniger als eine Minute.
Kosten
Bei Amazon Textract zahlen Sie nach Bedarf, basierend auf der Anzahl der verarbeiteten Seiten und Bilder. Bei Amazon Translate zahlen Sie nach Bedarf, basierend auf der Anzahl der verarbeiteten Textzeichen. Beziehen auf Preisgestaltung für Amazon Textract und Amazon Translate Preise für die tatsächlichen Kosten.
Zusammenfassung
In diesem Beitrag wurde gezeigt, wie Sie mit Amazon Textract und Amazon Translate übersetzte PDF-Dokumente generieren und dabei die ursprüngliche Dokumentstruktur beibehalten. Sie können Amazon Textract-Ergebnisse optional nachbearbeiten, um die Qualität der Übersetzung zu verbessern. Beispielsweise können extrahierte Wörter ML-basierte Rechtschreibprüfungen durchlaufen, z SymSpell zur Datenvalidierung oder Clustering-Algorithmen können verwendet werden, um die Lesereihenfolge beizubehalten. Sie können auch verwenden Amazon Augmented AI (Amazon A2I) zum Aufbau menschlicher Überprüfungsworkflows, bei denen Sie Ihre eigenen privaten Mitarbeiter mit der Überprüfung der Original- und übersetzten PDF-Dokumente beauftragen können, um mehr Genauigkeit und Kontext zu gewährleisten. Sehen Entwerfen von Workflows für die Überprüfung von Personen mit Amazon Translate und Amazon Augmented AI und Aufbau eines mehrsprachigen Dokumentübersetzungsworkflows mit domänenspezifischer und sprachspezifischer Anpassung um zu starten.
Über die Autoren
Anubha Singhal ist Senior Cloud Architect bei Amazon Web Services in der AWS Professional Services-Organisation.
Sean Lawrence war früher Front-End-Ingenieur bei AWS. Er spezialisierte sich auf Front-End-Entwicklung in der AWS Professional Services-Organisation und im Amazon Privacy-Team.
- SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
- PlatoData.Network Vertikale generative KI. Motiviere dich selbst. Hier zugreifen.
- PlatoAiStream. Web3-Intelligenz. Wissen verstärkt. Hier zugreifen.
- PlatoESG. Automobil / Elektrofahrzeuge, Kohlenstoff, CleanTech, Energie, Umwelt, Solar, Abfallwirtschaft. Hier zugreifen.
- BlockOffsets. Modernisierung des Eigentums an Umweltkompensationen. Hier zugreifen.
- Quelle: https://aws.amazon.com/blogs/machine-learning/retain-original-pdf-formatting-to-view-translated-documents-with-amazon-textract-amazon-translate-and-pdfbox/
- :Ist
- :nicht
- :Wo
- $UP
- 1
- 10
- 100
- 15%
- 20
- 7
- 970
- a
- Über Uns
- Zugang
- Konto
- Genauigkeit
- über
- präsentieren
- Hinzufügen
- Zusätzliche
- Adresse
- Ranking
- Algorithmen
- erlaubt
- ebenfalls
- Amazon
- Amazontext
- Amazon Übersetzen
- Amazon Web Services
- an
- und
- jedem
- Apache
- Anwendung
- Ansatz
- angemessen
- Architektur
- SIND
- AS
- At
- Augmented
- Automatisiert
- Im Prinzip so, wie Sie es von Google Maps kennen.
- verfügbar
- AWS
- Professionelle AWS-Services
- basierend
- BE
- Sein
- zwischen
- Beyond
- Schwarz
- Blockieren
- Blockiert
- Box
- bauen
- baut
- Unternehmen
- by
- berechnet
- CAN
- Fähigkeiten
- Fälle
- Änderungen
- Charakter
- Zeichenerkennung
- Zeichen
- Cloud
- Clustering
- Code
- Farbe
- Kommunikation
- abschließen
- konfiguriert
- enthält
- Inhalt
- Inhalt
- Kontext
- Korrekturen
- Dazugehörigen
- kostengünstiger
- Kosten
- erstellen
- erstellt
- schafft
- Zur Zeit
- Anpassung
- anpassen
- technische Daten
- liefert
- zeigen
- einsetzen
- erwünscht
- Detail
- Details
- Entwicklung
- anders
- schwer
- verschieden
- Dokument
- Unterlagen
- Tut nicht
- zwei
- jeder
- einfacher
- leicht
- Anstrengung
- sonst
- Beschäftigung
- ermöglichen
- Ende
- Ingenieur
- Englisch
- Beispiel
- Beispiele
- teuer
- Extrakt
- KONZENTRAT
- falsch
- FAST
- füllen
- Revolution
- Finden Sie
- Vorname
- Schwimmer
- konzentriert
- Folgende
- folgt
- Aussichten für
- früher
- Formen
- gefunden
- Französisch
- für
- Materials des
- Vorderes Ende
- Frontend-Entwicklung
- voller
- voll
- erzeugen
- Erzeugung
- Deutsch
- bekommen
- GitHub
- Global
- Go
- Goes
- Haben
- he
- Gesundheitswesen
- schwer
- Höhe
- hier
- hochwertige
- Häuser
- Ultraschall
- Hilfe
- HTML
- http
- HTTPS
- human
- Identifikatoren
- identifizieren
- if
- Image
- Bilder
- zu unterstützen,
- in
- In anderen
- das
- Einschließlich
- Branchen
- Varianten des Eingangssignals:
- integriert
- in
- IT
- SEINE
- Javac
- Sprache
- Sprachen
- grosse
- Schicht
- LERNEN
- lernen
- am wenigsten
- links
- weniger
- Niveau
- Bibliotheken
- Bibliothek
- Grenzen
- Line
- Linien
- Liste
- aus einer regionalen
- Logik
- aussehen
- Verliert
- Maschine
- Maschinelles Lernen
- um
- verwaltet
- manuell
- viele
- Kann..
- sowie medizinische
- Minute
- ML
- Änderungen
- mehr
- Namen
- Need
- erforderlich
- Neu
- Anzahl
- Objekt
- OCR
- of
- vorgenommen,
- on
- On-Demand
- Open-Source-
- Betrieb
- optische Zeichenerkennung
- or
- Auftrag
- Organisation
- Original
- Andere
- Möglichkeiten für das Ausgangssignal:
- besitzen
- Seite
- Seiten
- Paare
- Bestanden
- AUFMERKSAMKEIT
- Durchführung
- Berechtigungen
- Plato
- Datenintelligenz von Plato
- PlatoData
- Portugiesisch
- Position
- Post
- vorgeführt
- Datenschutz
- privat
- Privileg
- Prozessdefinierung
- Verarbeitet
- Verarbeitung
- Professionell
- Programmierung
- Programmiersprachen
- die
- bietet
- veröffentlicht
- Qualität
- schnell
- Lesebrillen
- Anerkennung
- empfehlen
- Aufzeichnungen
- Region
- Regulierungsbehörden
- zuverlässig
- Meldungen
- erfordern
- Voraussetzungen:
- erfordert
- eingeschränkt
- Die Ergebnisse
- behalten
- Halte
- Rückkehr
- Überprüfen
- Führen Sie
- Speichern
- skalierbaren
- Scan
- Sekunden
- Abschnitte
- sehen
- Senior
- Lösungen
- kompensieren
- sollte
- erklären
- zeigte
- gezeigt
- Konzerte
- ähnlich
- Einfacher
- Umstände
- Größe
- langsam
- Lösung
- Quelle
- Spanisch
- spezialisiert
- spezifisch
- standalone
- begonnen
- Shritte
- Lagerung
- speichern
- Schnur
- Struktur
- so
- Unterstützte
- Unterstützt
- TAG
- Nehmen
- Steuer
- Team
- Testen
- als
- zur Verbesserung der Gesundheitsgerechtigkeit
- Das
- Die Quelle
- Sie
- dann
- Dort.
- Diese
- fehlen uns die Worte.
- Durch
- Zeit
- zu
- nahm
- Top
- Übersetzen
- Übersetzungen
- verstehen
- einzigartiges
- -
- benutzt
- Nutzer
- verwendet
- Verwendung von
- Verwendung
- BESTÄTIGEN
- Bestätigung
- Vielfalt
- verschiedene
- überprüfen
- Vertikalen
- Anzeigen
- Volumen
- wurde
- we
- Netz
- Web-Services
- GUT
- Was
- welche
- während
- Weiß
- Breite
- mit
- .
- ohne
- Worte
- Arbeitsablauf.
- Workflows
- Belegschaft
- Werk
- geschrieben
- Du
- Ihr
- Zephyrnet