Εταιρείες σε διάφορους κλάδους δημιουργούν, σαρώνουν και αποθηκεύουν μεγάλους όγκους εγγράφων PDF. Σε πολλές περιπτώσεις, το περιεχόμενο είναι γεμάτο κείμενο και συχνά γράφεται σε διαφορετική γλώσσα και απαιτεί μετάφραση. Για να το αντιμετωπίσετε, χρειάζεστε μια αυτοματοποιημένη λύση για να εξαγάγετε τα περιεχόμενα σε αυτά τα PDF και να τα μεταφράσετε γρήγορα και οικονομικά.
Πολλές επιχειρήσεις έχουν διαφορετικούς παγκόσμιους χρήστες και πρέπει να μεταφράσουν κείμενο για να επιτρέψουν τη διαγλωσσική επικοινωνία μεταξύ τους. Αυτή είναι μια χειρωνακτική, αργή και δαπανηρή ανθρώπινη προσπάθεια. Υπάρχει ανάγκη να βρεθεί μια επεκτάσιμη, αξιόπιστη και οικονομικά αποδοτική λύση για τη μετάφραση εγγράφων διατηρώντας παράλληλα την αρχική μορφοποίηση του εγγράφου.
Για κλάδους όπως η υγειονομική περίθαλψη, λόγω κανονιστικών απαιτήσεων, τα μεταφρασμένα έγγραφα απαιτούν έναν επιπλέον άνθρωπο στο βρόχο για να επαληθευτεί η εγκυρότητα του εγγράφου που μεταφράζεται από μηχανή.
Εάν το μεταφρασμένο έγγραφο δεν διατηρεί την αρχική μορφοποίηση και δομή, χάνει το περιεχόμενό του. Αυτό μπορεί να δυσκολέψει έναν ανθρώπινο αναθεωρητή να επικυρώσει και να κάνει διορθώσεις.
Σε αυτήν την ανάρτηση, δείχνουμε πώς να δημιουργήσετε ένα νέο μεταφρασμένο PDF από ένα σαρωμένο PDF διατηρώντας παράλληλα την αρχική δομή και μορφοποίηση του εγγράφου χρησιμοποιώντας μια προσέγγιση που βασίζεται στη γεωμετρία με Textract Amazon, Amazon Μετάφραση, να Apache PDF Box.
Επισκόπηση λύσεων
Η λύση που παρουσιάζεται σε αυτήν την ανάρτηση χρησιμοποιεί τα ακόλουθα στοιχεία:
- Textract Amazon – Μια πλήρως διαχειριζόμενη υπηρεσία μηχανικής εκμάθησης (ML) που εξάγει αυτόματα τυπωμένο κείμενο, χειρόγραφο και άλλα δεδομένα από σαρωμένα έγγραφα που υπερβαίνουν την απλή οπτική αναγνώριση χαρακτήρων (OCR) για την αναγνώριση, κατανόηση και εξαγωγή δεδομένων από φόρμες και πίνακες. Το Amazon Textract μπορεί να ανιχνεύσει κείμενο σε μια ποικιλία εγγράφων, συμπεριλαμβανομένων οικονομικών εκθέσεων, ιατρικών αρχείων και φορολογικών εντύπων.
- Amazon Μετάφραση – Μια υπηρεσία νευρωνικής μηχανικής μετάφρασης που παρέχει γρήγορη, υψηλής ποιότητας και προσιτή γλωσσική μετάφραση. Το Amazon Translate παρέχει υψηλής ποιότητας δυνατότητες μετάφρασης κατά παραγγελία και ομαδικής μετάφρασης σε περισσότερα από 2,970 ζεύγη γλωσσών, ενώ μειώνει το κόστος μετάφρασης.
- Μετάφραση PDF – Μια βιβλιοθήκη ανοιχτού κώδικα γραμμένη σε Java και δημοσιευμένη σε Δείγματα AWS στο GitHub. Αυτή η βιβλιοθήκη περιέχει τη λογική για τη δημιουργία μεταφρασμένων εγγράφων PDF στη γλώσσα που επιθυμείτε με το Amazon Textract και το Amazon Translate. Χρησιμοποιεί επίσης τη βιβλιοθήκη Java ανοιχτού κώδικα Apache PDFBox για τη δημιουργία εγγράφων PDF. Υπάρχουν παρόμοιες βιβλιοθήκες επεξεργασίας PDF διαθέσιμες σε άλλες γλώσσες προγραμματισμού, για παράδειγμα Κόμβος PDFBox.
Κατά την εκτέλεση μηχανικών μεταφράσεων, ενδέχεται να αντιμετωπίσετε καταστάσεις όπου θέλετε να διατηρήσετε συγκεκριμένες ενότητες κειμένου από τη μετάφραση, όπως ονόματα ή μοναδικά αναγνωριστικά. Το Amazon Translate επιτρέπει τροποποιήσεις ετικετών, οι οποίες σας επιτρέπουν να καθορίσετε ποιο κείμενο δεν πρέπει να μεταφραστεί. Το Amazon Translate υποστηρίζει επίσης την προσαρμογή τυπικότητας, η οποία σας επιτρέπει να προσαρμόσετε το επίπεδο τυπικότητας στην παραγωγή μετάφρασης.
Για λεπτομέρειες σχετικά με τα όρια Amazon Textract, ανατρέξτε στο Ποσοστώσεις στο Amazon Textract.
Η λύση περιορίζεται στις γλώσσες που μπορούν να εξαχθούν από το Amazon Textract, το οποίο προς το παρόν υποστηρίζει Αγγλικά, Ισπανικά, Ιταλικά, Πορτογαλικά, Γαλλικά και Γερμανικά. Αυτές οι γλώσσες υποστηρίζονται επίσης από το Amazon Translate. Για την πλήρη λίστα των γλωσσών που υποστηρίζονται από το Amazon Translate, ανατρέξτε στο Υποστηριζόμενες γλώσσες και κωδικοί γλώσσας.
Χρησιμοποιούμε το ακόλουθο PDF για να δείξουμε τη μετάφραση του κειμένου από τα αγγλικά στα ισπανικά. Η λύση υποστηρίζει επίσης τη δημιουργία του μεταφρασμένου εγγράφου χωρίς καμία μορφοποίηση. Η θέση του μεταφρασμένου κειμένου διατηρείται. Η πηγή και τα μεταφρασμένα έγγραφα PDF βρίσκονται επίσης στο Αποθετήριο AWS Samples GitHub.
Στις επόμενες ενότητες, παρουσιάζουμε πώς να εκτελείτε τον κώδικα μετάφρασης σε ένα τοπικό μηχάνημα και εξετάζουμε τον κώδικα μετάφρασης με περισσότερες λεπτομέρειες.
Προϋποθέσεις
Πριν ξεκινήσετε, ρυθμίστε τον λογαριασμό σας AWS και το Διεπαφή γραμμής εντολών AWS (AWS CLI). Για πρόσβαση σε οποιεσδήποτε υπηρεσίες AWS, όπως το Κείμενο και η Μετάφραση, απαιτούνται τα κατάλληλα δικαιώματα IAM. Συνιστούμε τη χρήση αδειών ελάχιστων προνομίων. Για να μάθετε περισσότερα σχετικά με τα δικαιώματα IAM, δείτε Πολιτικές και άδειες στο IAM καθώς Πώς λειτουργεί το Amazon Textract με το IAM και Πώς λειτουργεί το Amazon Translate με το IAM.
Εκτελέστε τον κώδικα μετάφρασης σε ένα τοπικό μηχάνημα
Αυτή η λύση εστιάζει στον αυτόνομο κώδικα Java για την εξαγωγή και μετάφραση ενός εγγράφου PDF. Αυτό γίνεται για ευκολότερο έλεγχο και προσαρμογές για να λάβετε το μεταφρασμένο έγγραφο PDF με την καλύτερη απόδοση. Ο κώδικας μπορεί στη συνέχεια να ενσωματωθεί σε μια αυτοματοποιημένη λύση για ανάπτυξη και εκτέλεση σε AWS. Βλέπω Μετάφραση εγγράφων PDF χρησιμοποιώντας το Amazon Translate και το Amazon Textract για ένα δείγμα αρχιτεκτονικής που χρησιμοποιεί Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) για την αποθήκευση των εγγράφων και AWS Lambda για να εκτελέσετε τον κωδικό.
Για να εκτελέσετε τον κώδικα σε ένα τοπικό μηχάνημα, ολοκληρώστε τα παρακάτω βήματα. Τα παραδείγματα κώδικα είναι διαθέσιμα στο Repo GitHub.
- Κλωνοποιήστε το αποθετήριο GitHub:
- Εκτελέστε την ακόλουθη εντολή:
- Εκτελέστε την ακόλουθη εντολή για να μεταφράσετε από τα αγγλικά στα ισπανικά:
Δύο μεταφρασμένα έγγραφα PDF δημιουργούνται στο φάκελο εγγράφων, με και χωρίς την αρχική μορφοποίηση (SampleOutput-es.pdf
και SampleOutput-min-es.pdf
).
Κώδικας για τη δημιουργία του μεταφρασμένου PDF
Τα παρακάτω αποσπάσματα κώδικα δείχνουν πώς να λάβετε ένα έγγραφο PDF και να δημιουργήσετε ένα αντίστοιχο μεταφρασμένο έγγραφο PDF. Εξάγει το κείμενο χρησιμοποιώντας το Amazon Textract και δημιουργεί το μεταφρασμένο PDF προσθέτοντας το μεταφρασμένο κείμενο ως στρώμα στην εικόνα. Βασίζεται στη λύση που φαίνεται στην ανάρτηση Δημιουργία PDF με δυνατότητα αναζήτησης από σαρωμένα έγγραφα αυτόματα με το Amazon Textract.
Ο κώδικας λαμβάνει πρώτα κάθε γραμμή κειμένου με το Amazon Textract. Το Amazon Translate χρησιμοποιείται για τη λήψη μεταφρασμένου κειμένου και την αποθήκευση της γεωμετρίας του μεταφρασμένου κειμένου.
Το μέγεθος της γραμματοσειράς υπολογίζεται ως εξής και μπορεί εύκολα να διαμορφωθεί:
Το μεταφρασμένο PDF δημιουργείται από την αποθηκευμένη γεωμετρία και το μεταφρασμένο κείμενο. Οι αλλαγές στο χρώμα του μεταφρασμένου κειμένου μπορούν εύκολα να διαμορφωθούν.
Η παρακάτω εικόνα δείχνει το έγγραφο μεταφρασμένο στα ισπανικά με την αρχική μορφοποίηση (SampleOutput-es.pdf
).
Η παρακάτω εικόνα δείχνει το μεταφρασμένο PDF στα Ισπανικά χωρίς καμία μορφοποίηση (SampleOutput-min-es.pdf
).
Χρόνος επεξεργασίας
Η αίτηση απασχόλησης pdf χρειάστηκε περίπου 10 δευτερόλεπτα για την εξαγωγή, επεξεργασία και απόδοση του μεταφρασμένου pdf. Ο χρόνος επεξεργασίας για κείμενο βαρύ έγγραφο όπως το Διακήρυξη της Ανεξαρτησίας Το PDF πήρε λιγότερο από ένα λεπτό.
Κόστος
Με το Amazon Textract, πληρώνετε όσο προχωράτε με βάση τον αριθμό των σελίδων και των εικόνων που υποβάλλονται σε επεξεργασία. Με το Amazon Translate, πληρώνετε όσο προχωράτε με βάση τον αριθμό των χαρακτήρων κειμένου που υποβάλλονται σε επεξεργασία. Αναφέρομαι σε Τιμές Amazon Textract και Τιμές Μετάφρασης Amazon για το πραγματικό κόστος.
Συμπέρασμα
Αυτή η ανάρτηση έδειξε πώς να χρησιμοποιείτε το Amazon Textract και το Amazon Translate για τη δημιουργία μεταφρασμένων εγγράφων PDF διατηρώντας παράλληλα την αρχική δομή του εγγράφου. Μπορείτε προαιρετικά να επεξεργαστείτε τα αποτελέσματα του Amazon Textract για να βελτιώσετε την ποιότητα της μετάφρασης, για παράδειγμα οι εξαγόμενες λέξεις μπορούν να περάσουν μέσω ορθογραφικών ελέγχων που βασίζονται σε ML, όπως SymSpell για επικύρωση δεδομένων ή αλγόριθμοι ομαδοποίησης μπορούν να χρησιμοποιηθούν για τη διατήρηση της σειράς ανάγνωσης. Μπορείτε επίσης να χρησιμοποιήσετε Amazon Augmented AI (Amazon A2I) για τη δημιουργία ροών εργασιών ανθρώπινης αναθεώρησης, όπου μπορείτε να χρησιμοποιήσετε το δικό σας ιδιωτικό εργατικό δυναμικό για να ελέγξετε τα πρωτότυπα και μεταφρασμένα έγγραφα PDF για να παρέχετε μεγαλύτερη ακρίβεια και ευρύτερο πλαίσιο. Βλέπω Σχεδιασμός ροών εργασιών ανθρώπινης αναθεώρησης με το Amazon Translate και το Amazon Augmented AI και Δημιουργία μιας πολύγλωσσης ροής εργασίας μετάφρασης εγγράφων με προσαρμογή για συγκεκριμένο τομέα και γλώσσα για να ξεκινήσετε.
Σχετικά με τους Συγγραφείς
Anubha Singhal είναι Ανώτερος Αρχιτέκτονας Cloud στο Amazon Web Services στον οργανισμό AWS Professional Services.
Σον Λόρενς ήταν παλαιότερα Μηχανικός Front End στην AWS. Ειδικεύτηκε στην ανάπτυξη front end στον οργανισμό AWS Professional Services και στην ομάδα του Amazon Privacy.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- PlatoData.Network Vertical Generative Ai. Ενδυναμώστε τον εαυτό σας. Πρόσβαση εδώ.
- PlatoAiStream. Web3 Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- PlatoESG. Αυτοκίνητο / EVs, Ανθρακας, Cleantech, Ενέργεια, Περιβάλλον, Ηλιακός, Διαχείριση των αποβλήτων. Πρόσβαση εδώ.
- BlockOffsets. Εκσυγχρονισμός της περιβαλλοντικής αντιστάθμισης ιδιοκτησίας. Πρόσβαση εδώ.
- πηγή: https://aws.amazon.com/blogs/machine-learning/retain-original-pdf-formatting-to-view-translated-documents-with-amazon-textract-amazon-translate-and-pdfbox/
- :είναι
- :δεν
- :που
- $UP
- 1
- 10
- 100
- 15%
- 20
- 7
- 970
- a
- Σχετικα
- πρόσβαση
- Λογαριασμός
- ακρίβεια
- απέναντι
- πραγματικός
- προσθήκη
- Πρόσθετος
- διεύθυνση
- προσιτές
- αλγόριθμοι
- επιτρέπει
- Επίσης
- Amazon
- Textract Amazon
- Amazon Μετάφραση
- Amazon υπηρεσίες Web
- an
- και
- κάθε
- Apache
- Εφαρμογή
- πλησιάζω
- κατάλληλος
- αρχιτεκτονική
- ΕΙΝΑΙ
- AS
- At
- επαυξημένης
- Αυτοματοποιημένη
- αυτομάτως
- διαθέσιμος
- AWS
- Επαγγελματικές υπηρεσίες AWS
- βασίζονται
- BE
- είναι
- μεταξύ
- Πέρα
- Μαύρη
- Αποκλεισμός
- Μπλοκ
- Κουτί
- χτίζω
- Χτίζει
- επιχειρήσεις
- by
- υπολογίζεται
- CAN
- δυνατότητες
- περιπτώσεις
- Αλλαγές
- χαρακτήρας
- αναγνώριση χαρακτήρων
- χαρακτήρες
- Backup
- ομαδοποίηση
- κωδικός
- χρώμα
- Επικοινωνία
- πλήρης
- έχει ρυθμιστεί
- Περιέχει
- περιεχόμενο
- περιεχόμενα
- συμφραζόμενα
- Διορθώσεις
- Αντίστοιχος
- αποδοτική
- Δικαστικά έξοδα
- δημιουργία
- δημιουργήθηκε
- δημιουργεί
- Τη στιγμή
- παραμετροποίηση
- προσαρμόσετε
- ημερομηνία
- παραδίδει
- αποδεικνύουν
- παρατάσσω
- επιθυμητή
- λεπτομέρεια
- καθέκαστα
- Ανάπτυξη
- διαφορετικές
- δύσκολος
- διάφορα
- έγγραφο
- έγγραφα
- Όχι
- δυο
- κάθε
- ευκολότερη
- εύκολα
- προσπάθεια
- αλλιώς
- εργασία
- ενεργοποιήσετε
- τέλος
- μηχανικός
- Αγγλικά
- παράδειγμα
- παραδείγματα
- ακριβά
- εκχύλισμα
- Εκχυλίσματα
- ψευδής
- FAST
- συμπληρώστε
- οικονομικός
- Εύρεση
- Όνομα
- φλοτέρ
- εστιάζει
- Εξής
- εξής
- Για
- προηγουμένως
- μορφές
- Βρέθηκαν
- Γαλλικά
- από
- εμπρός
- εμπρόσθιο άκρο
- Μπροστινή ανάπτυξη
- πλήρη
- πλήρως
- παράγουν
- παραγωγής
- Γερμανικά
- παίρνω
- GitHub
- Παγκόσμιο
- Go
- πηγαίνει
- Έχω
- he
- υγειονομική περίθαλψη
- βαριά
- ύψος
- εδώ
- υψηλής ποιότητας
- Σπίτι
- Πως
- Πώς να
- HTML
- http
- HTTPS
- ανθρώπινος
- αναγνωριστικά
- προσδιορίσει
- if
- εικόνα
- εικόνες
- βελτίωση
- in
- Σε άλλες
- περιλαμβάνουν
- Συμπεριλαμβανομένου
- βιομηχανίες
- εισαγωγή
- ενσωματωθεί
- σε
- IT
- ΤΟΥ
- Java
- Γλώσσα
- Γλώσσες
- large
- στρώμα
- ΜΑΘΑΊΝΩ
- μάθηση
- ελάχιστα
- αριστερά
- μείον
- Επίπεδο
- βιβλιοθήκες
- Βιβλιοθήκη
- όρια
- γραμμή
- γραμμές
- Λιστα
- τοπικός
- λογική
- ματιά
- Χάνει
- μηχανή
- μάθηση μηχανής
- κάνω
- διαχειρίζεται
- Ταχύτητες
- πολοί
- Ενδέχεται..
- ιατρικών
- λεπτό
- ML
- τροποποιήσεις
- περισσότερο
- ονόματα
- Ανάγκη
- που απαιτούνται
- Νέα
- αριθμός
- αντικείμενο
- OCR
- of
- συχνά
- on
- Κατα παραγγελια
- ανοικτού κώδικα
- λειτουργία
- οπτική αναγνώριση χαρακτήρων
- or
- τάξη
- επιχειρήσεις
- πρωτότυπο
- ΑΛΛΑ
- παραγωγή
- δική
- σελίδα
- σελίδες
- ζεύγη
- πέρασε
- Πληρωμή
- εκτέλεση
- δικαιώματα
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- Πορτογάλος
- θέση
- Θέση
- παρουσιάζονται
- μυστικότητα
- ιδιωτικός
- προνόμιο
- διαδικασια μας
- Επεξεργασμένο
- μεταποίηση
- επαγγελματίας
- Προγραμματισμός
- γλώσσες προγραμματισμού
- παρέχουν
- παρέχει
- δημοσιεύθηκε
- ποιότητα
- γρήγορα
- Ανάγνωση
- αναγνώριση
- συνιστώ
- αρχεία
- περιοχή
- ρυθμιστές
- αξιόπιστος
- Εκθέσεις
- απαιτούν
- απαιτήσεις
- Απαιτεί
- περιορισμένος
- Αποτελέσματα
- διατηρώ
- συγκράτησης
- απόδοση
- ανασκόπηση
- τρέξιμο
- Αποθήκευση
- επεκτάσιμη
- σάρωση
- δευτερόλεπτα
- τμήματα
- δείτε
- αρχαιότερος
- υπηρεσία
- Υπηρεσίες
- σειρά
- θα πρέπει να
- δείχνουν
- έδειξε
- παρουσιάζεται
- Δείχνει
- παρόμοιες
- Απλούς
- καταστάσεων
- Μέγεθος
- επιβραδύνουν
- λύση
- Πηγή
- Ισπανικά
- ειδικευμένος
- συγκεκριμένες
- αυτόνομο
- ξεκίνησε
- Βήματα
- χώρος στο δίσκο
- κατάστημα
- Σπάγγος
- δομή
- τέτοιος
- υποστηριζόνται!
- Υποστηρίζει
- TAG
- Πάρτε
- φόρος
- Δοκιμές
- από
- ότι
- Η
- Η Πηγη
- Τους
- τότε
- Εκεί.
- Αυτοί
- αυτό
- Μέσω
- ώρα
- προς την
- πήρε
- κορυφή
- μεταφράζω
- Μετάφραση
- καταλαβαίνω
- μοναδικός
- χρήση
- μεταχειρισμένος
- Χρήστες
- χρησιμοποιεί
- χρησιμοποιώντας
- αξιοποιώντας
- ΕΠΙΚΥΡΩΝΩ
- επικύρωση
- ποικιλία
- διάφορα
- επαληθεύει
- κατακόρυφα
- Δες
- όγκους
- ήταν
- we
- ιστός
- διαδικτυακές υπηρεσίες
- ΛΟΙΠΌΝ
- Τι
- Ποιό
- ενώ
- άσπρο
- πλάτος
- με
- εντός
- χωρίς
- λόγια
- ροής εργασίας
- ροές εργασίας
- Εργατικό δυναμικό
- λειτουργεί
- γραπτή
- Εσείς
- Σας
- zephyrnet