Bedrijven in verschillende sectoren maken, scannen en slaan grote hoeveelheden PDF-documenten op. In veel gevallen is de inhoud tekstzwaar en vaak geschreven in een andere taal en vereist vertaling. Om dit aan te pakken, hebt u een geautomatiseerde oplossing nodig om de inhoud van deze pdf's te extraheren en snel en kostenefficiรซnt te vertalen.
Veel bedrijven hebben diverse wereldwijde gebruikers en moeten tekst vertalen om meertalige communicatie tussen hen mogelijk te maken. Dit is een handmatige, langzame en dure menselijke inspanning. Er moet een schaalbare, betrouwbare en kosteneffectieve oplossing worden gevonden om documenten te vertalen met behoud van de originele documentopmaak.
Voor branches zoals de gezondheidszorg hebben de vertaalde documenten vanwege wettelijke vereisten een extra mens nodig om de geldigheid van het automatisch vertaalde document te verifiรซren.
Als het vertaalde document de oorspronkelijke opmaak en structuur niet behoudt, verliest het zijn context. Dit kan het voor een menselijke recensent moeilijk maken om te valideren en correcties aan te brengen.
In dit bericht laten we zien hoe u een nieuwe vertaalde PDF kunt maken van een gescande PDF met behoud van de originele documentstructuur en opmaak met behulp van een op geometrie gebaseerde benadering met Amazon T-extract, Amazon Vertalen en Apache pdfbox.
Overzicht oplossingen
De oplossing die in dit bericht wordt gepresenteerd, maakt gebruik van de volgende componenten:
- Amazon T-extract โ Een volledig beheerde machine learning-service (ML) die automatisch afgedrukte tekst, handschrift en andere gegevens uit gescande documenten extraheert en verder gaat dan eenvoudige optische tekenherkenning (OCR) om gegevens uit formulieren en tabellen te identificeren, begrijpen en extraheren. Amazon Textract kan tekst detecteren in verschillende documenten, waaronder financiรซle rapporten, medische dossiers en belastingformulieren.
- Amazon Vertalen - Een dienst voor neurale machinevertaling die snelle, hoogwaardige en betaalbare taalvertalingen levert. Amazon Translate biedt hoogwaardige on-demand en batchvertalingsmogelijkheden voor meer dan 2,970 talenparen, terwijl je je vertaalkosten verlaagt.
- PDF Vertalen โ Een open-sourcebibliotheek geschreven in Java en gepubliceerd op AWS-voorbeelden in GitHub. Deze bibliotheek bevat logica om vertaalde PDF-documenten in de door u gewenste taal te genereren met Amazon Textract en Amazon Translate. Het gebruikt ook de open-source Java-bibliotheek Apache PDFBox om PDF-documenten te maken. Er zijn bijvoorbeeld vergelijkbare PDF-verwerkingsbibliotheken beschikbaar in andere programmeertalen Knooppunt PDFBox.
Tijdens het uitvoeren van automatische vertalingen kunt u situaties tegenkomen waarin u wilt voorkomen dat specifieke delen van de tekst worden vertaald, zoals namen of unieke identifiers. Amazon Translate staat tagwijzigingen toe, waarmee u kunt specificeren welke tekst niet moet worden vertaald. Amazon Translate ondersteunt ook formaliteitsaanpassing, waarmee u het formaliteitsniveau in uw vertaaluitvoer kunt aanpassen.
Raadpleeg voor meer informatie over Amazon Textract-limieten Quota in Amazon Textract.
De oplossing is beperkt tot de talen die kunnen worden geรซxtraheerd door Amazon Textract, dat momenteel Engels, Spaans, Italiaans, Portugees, Frans en Duits ondersteunt. Deze talen worden ook ondersteund door Amazon Translate. Raadpleeg voor de volledige lijst met talen die worden ondersteund door Amazon Translate Ondersteunde talen en taalcodes.
We gebruiken de volgende PDF om het vertalen van de tekst van het Engels naar het Spaans te demonstreren. De oplossing ondersteunt ook het genereren van het vertaalde document zonder enige opmaak. De positie van de vertaalde tekst blijft behouden. De bron en vertaalde pdf-documenten zijn ook te vinden in de AWS-voorbeelden GitHub-opslagplaats.
In de volgende secties laten we zien hoe u de vertaalcode op een lokale computer kunt uitvoeren en bekijken we de vertaalcode in meer detail.
Voorwaarden
Voordat u aan de slag gaat, stelt u uw AWS-account in en de AWS-opdrachtregelinterface (AWS CLI). Voor toegang tot alle AWS-services zoals Textract en Translate zijn de juiste IAM-machtigingen nodig. We raden aan om machtigingen met de minste bevoegdheden te gebruiken. Zie voor meer informatie over IAM-machtigingen Beleid en machtigingen in IAM net zoals Hoe Amazon Textract werkt met IAM en Hoe Amazon Translate werkt met IAM.
Voer de vertaalcode uit op een lokale computer
Deze oplossing richt zich op de zelfstandige Java-code om een โโPDF-document te extraheren en te vertalen. Dit is voor eenvoudiger testen en aanpassingen om het best weergegeven vertaalde PDF-document te krijgen. De code kan vervolgens worden geรฏntegreerd in een geautomatiseerde oplossing om in AWS te implementeren en uit te voeren. Zien PDF-documenten vertalen met Amazon Translate en Amazon Textract voor een voorbeeldarchitectuur die gebruikt Amazon eenvoudige opslagservice (Amazon S3) om de documenten op te slaan en AWS Lambda om de code uit te voeren.
Voer de volgende stappen uit om de code op een lokale computer uit te voeren. De codevoorbeelden zijn beschikbaar op de GitHub-opslagplaats.
- Kloon de GitHub-repo:
- Voer het volgende commando uit:
- Voer de volgende opdracht uit om van het Engels naar het Spaans te vertalen:
In de documentenmap worden twee vertaalde PDF-documenten gemaakt, met en zonder de originele opmaak (SampleOutput-es.pdf
en SampleOutput-min-es.pdf
).
Code om de vertaalde PDF te genereren
De volgende codefragmenten laten zien hoe u een PDF-document maakt en een bijbehorend vertaald PDF-document genereert. Het extraheert de tekst met behulp van Amazon Textract en maakt de vertaalde PDF door de vertaalde tekst als een laag aan de afbeelding toe te voegen. Het bouwt voort op de oplossing die in de post wordt getoond Automatisch doorzoekbare pdf's genereren van gescande documenten met Amazon Textract.
De code haalt eerst elke regel tekst op met Amazon Textract. Amazon Translate wordt gebruikt om vertaalde tekst te krijgen en de geometrie van de vertaalde tekst op te slaan.
De lettergrootte wordt als volgt berekend en kan eenvoudig worden geconfigureerd:
De vertaalde PDF wordt gemaakt op basis van de opgeslagen geometrie en vertaalde tekst. Wijzigingen in de kleur van de vertaalde tekst kunnen eenvoudig worden geconfigureerd.
De volgende afbeelding toont het in het Spaans vertaalde document met de originele opmaak (SampleOutput-es.pdf
).
De volgende afbeelding toont de vertaalde PDF in het Spaans zonder opmaak (SampleOutput-min-es.pdf
).
Verwerkingstijd
De pdf van de sollicitatiebrief duurde ongeveer 10 seconden om de vertaalde pdf te extraheren, te verwerken en weer te geven. De verwerkingstijd voor documenten met veel tekst, zoals het Verklaring van Onafhankelijkheid PDF duurde minder dan een minuut.
Kosten
Met Amazon Textract betaalt u naar gebruik op basis van het aantal verwerkte pagina's en afbeeldingen. Met Amazon Translate betaalt u naar gebruik op basis van het aantal teksttekens dat wordt verwerkt. Verwijzen naar Amazon Textract-prijzen en Amazon Translate-prijzen voor werkelijke kosten.
Conclusie
Dit bericht liet zien hoe je Amazon Textract en Amazon Translate kunt gebruiken om vertaalde PDF-documenten te genereren met behoud van de originele documentstructuur. U kunt optioneel Amazon Textract-resultaten nabewerken om de kwaliteit van de vertaling te verbeteren, bijvoorbeeld geรซxtraheerde woorden kunnen worden doorgegeven via ML-gebaseerde spellingcontroles zoals SymSpell voor gegevensvalidatie of clusteringalgoritmen kunnen worden gebruikt om de leesvolgorde te behouden. Je kan ook gebruiken Amazon Augmented AI (Amazon A2I) om menselijke beoordelingsworkflows te bouwen waarbij u uw eigen privรฉpersoneel kunt gebruiken om de originele en vertaalde PDF-documenten te beoordelen om meer nauwkeurigheid en context te bieden. Zien Ontwerpen van menselijke beoordelingsworkflows met Amazon Translate en Amazon Augmented AI en Een meertalige workflow voor documentvertaling bouwen met domeinspecifieke en taalspecifieke aanpassingen om aan de slag te gaan.
Over de auteurs
Anubha Singhal is een Senior Cloud Architect bij Amazon Web Services in de AWS Professional Services-organisatie.
Sean Lawrence was voorheen Front End Engineer bij AWS. Hij specialiseerde zich in front end development in de AWS Professional Services organisatie en het Amazon Privacy team.
- Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
- PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
- PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
- PlatoESG. Automotive / EV's, carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
- BlockOffsets. Eigendom voor milieucompensatie moderniseren. Toegang hier.
- Bron: https://aws.amazon.com/blogs/machine-learning/retain-original-pdf-formatting-to-view-translated-documents-with-amazon-textract-amazon-translate-and-pdfbox/
- :is
- :niet
- :waar
- $UP
- 1
- 10
- 100
- 15%
- 20
- 7
- 970
- a
- Over
- toegang
- Account
- nauwkeurigheid
- over
- daadwerkelijk
- toe te voegen
- Extra
- adres
- betaalbaar
- algoritmen
- toestaat
- ook
- Amazone
- Amazon T-extract
- Amazon Vertalen
- Amazon Web Services
- an
- en
- elke
- apache
- Aanvraag
- nadering
- passend
- architectuur
- ZIJN
- AS
- At
- aangevuld
- geautomatiseerde
- webmaster.
- Beschikbaar
- AWS
- AWS professionele services
- gebaseerde
- BE
- wezen
- tussen
- Verder
- Zwart
- Blok
- Blokken
- Box camera's
- bouw
- bouwt
- ondernemingen
- by
- berekend
- CAN
- mogelijkheden
- gevallen
- Wijzigingen
- karakter
- tekenherkenning
- tekens
- Cloud
- clustering
- code
- kleur
- Communicatie
- compleet
- geconfigureerd
- bevat
- content
- inhoud
- verband
- Correcties
- Overeenkomend
- kostenefficient
- Kosten
- en je merk te creรซren
- aangemaakt
- creรซert
- Op dit moment
- maatwerk
- aan te passen
- gegevens
- levert
- tonen
- implementeren
- gewenste
- detail
- gegevens
- Ontwikkeling
- anders
- moeilijk
- diversen
- document
- documenten
- Nee
- twee
- elk
- gemakkelijker
- gemakkelijk
- inspanning
- anders
- werk
- in staat stellen
- einde
- ingenieur
- Engels
- voorbeeld
- voorbeelden
- duur
- extract
- extracten
- vals
- SNELLE
- vullen
- financieel
- VIND DE PLEK DIE PERFECT VOOR JOU IS
- Voornaam*
- Vlotter
- richt
- volgend
- volgt
- Voor
- vroeger
- formulieren
- gevonden
- Frans
- oppompen van
- voor
- Voorkant
- Front-end ontwikkeling
- vol
- geheel
- voortbrengen
- het genereren van
- Duits
- krijgen
- GitHub
- Globaal
- Go
- Goes
- Hebben
- he
- gezondheidszorg
- zwaar
- Hoogte
- hier
- hoogwaardige
- Huis
- Hoe
- How To
- HTML
- http
- HTTPS
- menselijk
- identifiers
- identificeren
- if
- beeld
- afbeeldingen
- verbeteren
- in
- Anders
- omvatten
- Inclusief
- industrieรซn
- invoer
- geรฏntegreerde
- in
- IT
- HAAR
- Java
- taal
- Talen
- Groot
- lagen
- LEARN
- leren
- minst
- links
- minder
- Niveau
- bibliotheken
- Bibliotheek
- grenzen
- Lijn
- lijnen
- Lijst
- lokaal
- logica
- Kijk
- Verliest
- machine
- machine learning
- maken
- beheerd
- handboek
- veel
- Mei..
- medisch
- minuut
- ML
- wijzigingen
- meer
- namen
- Noodzaak
- nodig
- New
- aantal
- object
- OCR
- of
- vaak
- on
- On-Demand
- open source
- operatie
- optische tekenherkenning
- or
- bestellen
- organisatie
- origineel
- Overige
- uitgang
- het te bezitten.
- pagina
- paginas
- paren
- voorbij
- Betaal
- uitvoerend
- permissies
- Plato
- Plato gegevensintelligentie
- PlatoData
- Portugees
- positie
- Post
- gepresenteerd
- privacy
- privaat
- privilege
- Verwerkt
- verwerking
- professioneel
- Programming
- programmeertalen
- zorgen voor
- biedt
- gepubliceerde
- kwaliteit
- snel
- lezing
- erkenning
- adviseren
- archief
- regio
- regelgevers
- betrouwbaar
- Rapporten
- vereisen
- Voorwaarden
- vereist
- begrensd
- Resultaten
- behouden
- behoudende
- terugkeer
- beoordelen
- lopen
- Bespaar
- schaalbare
- aftasten
- seconden
- secties
- zien
- senior
- service
- Diensten
- reeks
- moet
- tonen
- vertoonde
- getoond
- Shows
- gelijk
- Eenvoudig
- situaties
- Maat
- traag
- oplossing
- bron
- Spaans
- gespecialiseerde
- specifiek
- standalone
- gestart
- Stappen
- mediaopslag
- shop
- Draad
- structuur
- dergelijk
- ondersteunde
- steunen
- TAG
- Nemen
- belasting
- team
- Testen
- neem contact
- dat
- De
- De Bron
- Ze
- harte
- Er.
- Deze
- dit
- Door
- niet de tijd of
- naar
- nam
- top
- vertalen
- Vertaling
- begrijpen
- unieke
- .
- gebruikt
- gebruikers
- toepassingen
- gebruik
- Gebruik makend
- BEVESTIG
- bevestiging
- variรซteit
- divers
- controleren
- verticals
- Bekijk
- volumes
- was
- we
- web
- webservices
- GOED
- Wat
- welke
- en
- wit
- Breedte
- Met
- binnen
- zonder
- woorden
- workflow
- workflows
- Workforce
- Bedrijven
- geschreven
- You
- Your
- zephyrnet