Empresas de vários setores criam, digitalizam e armazenam grandes volumes de documentos PDF. Em muitos casos, o conteúdo contém muito texto e geralmente é escrito em um idioma diferente e requer tradução. Para resolver isso, você precisa de uma solução automatizada para extrair o conteúdo desses PDFs e traduzi-los de forma rápida e econômica.
Muitas empresas têm diversos usuários globais e precisam traduzir texto para permitir a comunicação multilíngue entre eles. Este é um esforço humano manual, lento e caro. É necessário encontrar uma solução escalonável, confiável e econômica para traduzir documentos, mantendo a formatação do documento original.
Para verticais como saúde, devido a requisitos regulatórios, os documentos traduzidos exigem um humano adicional no circuito para verificar a validade do documento traduzido por máquina.
Se o documento traduzido não mantiver a formatação e a estrutura originais, ele perde seu contexto. Isso pode tornar difícil para um revisor humano validar e fazer correções.
Nesta postagem, demonstramos como criar um novo PDF traduzido a partir de um PDF digitalizado, mantendo a estrutura e a formatação do documento original usando uma abordagem baseada em geometria com amazontext, Amazon Tradutor e Apache PDFBox.
Visão geral da solução
A solução apresentada neste post usa os seguintes componentes:
- amazontext – Um serviço de aprendizado de máquina (ML) totalmente gerenciado que extrai automaticamente texto impresso, caligrafia e outros dados de documentos digitalizados que vai além do simples reconhecimento óptico de caracteres (OCR) para identificar, compreender e extrair dados de formulários e tabelas. O Amazon Textract pode detectar texto em vários documentos, incluindo relatórios financeiros, registros médicos e formulários de impostos.
- Amazon Tradutor – Um serviço de tradução automática neural que oferece tradução de idiomas rápida, de alta qualidade e acessível. O Amazon Translate oferece recursos de tradução em lote e sob demanda de alta qualidade em mais de 2,970 pares de idiomas, enquanto diminui seus custos de tradução.
- Traduzir PDF – Uma biblioteca de código aberto escrita em Java e publicada em Amostras da AWS no GitHub. Essa biblioteca contém lógica para gerar documentos PDF traduzidos no idioma desejado com o Amazon Textract e o Amazon Translate. Ele também usa a biblioteca Java de código aberto Apache PDFBox para criar documentos PDF. Existem bibliotecas de processamento de PDF semelhantes disponíveis em outras linguagens de programação, por exemplo Nó PDFBox.
Ao realizar traduções automáticas, você pode ter situações em que deseja impedir que seções específicas do texto sejam traduzidas, como nomes ou identificadores exclusivos. O Amazon Translate permite modificações de tags, o que permite especificar qual texto não deve ser traduzido. O Amazon Translate também oferece suporte à personalização de formalidade, o que permite personalizar o nível de formalidade na saída da tradução.
Para obter detalhes sobre os limites do Amazon Textract, consulte Cotas no Amazon Textract.
A solução é restrita aos idiomas que podem ser extraídos pelo Amazon Textract, que atualmente suporta inglês, espanhol, italiano, português, francês e alemão. Esses idiomas também são compatíveis com o Amazon Translate. Para obter a lista completa de idiomas compatíveis com o Amazon Translate, consulte Idiomas e códigos de idioma suportados.
Usamos o PDF a seguir para demonstrar a tradução do texto do inglês para o espanhol. A solução também suporta a geração do documento traduzido sem nenhuma formatação. A posição do texto traduzido é mantida. Os documentos PDF originais e traduzidos também podem ser encontrados no AWS Samples Repo GitHub.
Nas seções a seguir, demonstramos como executar o código de tradução em uma máquina local e examinamos o código de tradução com mais detalhes.
Pré-requisitos
Antes de começar, configure sua conta da AWS e o Interface de linha de comando da AWS (AWSCL). Para acessar qualquer serviço da AWS, como Textract e Translate, são necessárias as permissões apropriadas do IAM. Recomendamos a utilização de permissões de privilégio mínimo. Para saber mais sobre as permissões do IAM, consulte Políticas e permissões no IAM assim como Como o Amazon Textract funciona com o IAM e Como o Amazon Translate funciona com o IAM.
Execute o código de tradução em uma máquina local
Esta solução se concentra no código Java autônomo para extrair e traduzir um documento PDF. Isso é para testes e personalizações mais fáceis para obter o documento PDF traduzido com melhor renderização. O código pode então ser integrado a uma solução automatizada para implantar e executar na AWS. Ver Traduzindo documentos PDF usando o Amazon Translate e o Amazon Textract para uma arquitetura de amostra que usa Serviço de armazenamento simples da Amazon (Amazon S3) para armazenar os documentos e AWS Lambda para executar o código.
Para executar o código em uma máquina local, conclua as etapas a seguir. Os exemplos de código estão disponíveis no Repo do GitHub.
- Clone o repositório do GitHub:
- Execute o seguinte comando:
- Execute o seguinte comando para traduzir do inglês para o espanhol:
Dois documentos PDF traduzidos são criados na pasta de documentos, com e sem a formatação original (SampleOutput-es.pdf
e SampleOutput-min-es.pdf
).
Código para gerar o PDF traduzido
Os trechos de código a seguir mostram como pegar um documento PDF e gerar um documento PDF traduzido correspondente. Ele extrai o texto usando o Amazon Textract e cria o PDF traduzido adicionando o texto traduzido como uma camada à imagem. Ele se baseia na solução mostrada no post Gerando PDFs pesquisáveis a partir de documentos digitalizados automaticamente com o Amazon Textract.
O código obtém primeiro cada linha de texto com o Amazon Textract. O Amazon Translate é usado para obter o texto traduzido e salvar a geometria do texto traduzido.
O tamanho da fonte é calculado da seguinte forma e pode ser facilmente configurado:
O PDF traduzido é criado a partir da geometria salva e do texto traduzido. Alterações na cor do texto traduzido podem ser facilmente configuradas.
A imagem a seguir mostra o documento traduzido para o espanhol com a formatação original (SampleOutput-es.pdf
).
A imagem a seguir mostra o PDF traduzido em espanhol sem nenhuma formatação (SampleOutput-min-es.pdf
).
Tempo de processamento
O pdf do formulário de emprego levou cerca de 10 segundos para extrair, processar e renderizar o pdf traduzido. O tempo de processamento de documentos com muito texto, como o Declaração de independência PDF levou menos de um minuto.
Custo
Com o Amazon Textract, você paga conforme o uso com base no número de páginas e imagens processadas. Com o Amazon Translate, você paga conforme o uso com base no número de caracteres de texto processados. Referir-se Preços do Amazon Textract e Preços do Amazon Translate para custos reais.
Conclusão
Esta postagem mostrou como usar o Amazon Textract e o Amazon Translate para gerar documentos PDF traduzidos, mantendo a estrutura do documento original. Opcionalmente, você pode pós-processar os resultados do Amazon Textract para melhorar a qualidade da tradução, por exemplo, palavras extraídas podem ser passadas por verificações ortográficas baseadas em ML, como SymSpell para validação de dados, ou algoritmos de agrupamento podem ser usados para preservar a ordem de leitura. Você também pode usar IA aumentada da Amazon (Amazon A2I) para criar fluxos de trabalho de revisão humana onde você pode usar sua própria força de trabalho privada para revisar os documentos PDF originais e traduzidos para fornecer mais precisão e contexto. Ver Criando fluxos de trabalho de revisão humana com o Amazon Translate e o Amazon Augmented AI e Criação de um fluxo de trabalho de tradução de documentos multilíngue com personalização específica do domínio e do idioma para começar.
Sobre os autores
Anubha Singhal é Arquiteto de Nuvem Sênior na Amazon Web Services na organização AWS Professional Services.
Sean Lawrence anteriormente era engenheiro de front-end na AWS. Ele se especializou em desenvolvimento de front-end na organização AWS Professional Services e na equipe de privacidade da Amazon.
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
- PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
- PlatãoESG. Automotivo / EVs, Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
- BlockOffsets. Modernizando a Propriedade de Compensação Ambiental. Acesse aqui.
- Fonte: https://aws.amazon.com/blogs/machine-learning/retain-original-pdf-formatting-to-view-translated-documents-with-amazon-textract-amazon-translate-and-pdfbox/
- :é
- :não
- :onde
- $UP
- 1
- 10
- 100
- 15%
- 20
- 7
- 970
- a
- Sobre
- Acesso
- Conta
- precisão
- em
- real
- acrescentando
- Adicional
- endereço
- acessível
- algoritmos
- permite
- tb
- Amazon
- amazontext
- Amazon Tradutor
- Amazon Web Services
- an
- e
- qualquer
- apache
- Aplicação
- abordagem
- apropriado
- arquitetura
- SOMOS
- AS
- At
- aumentado
- Automatizado
- automaticamente
- disponível
- AWS
- Serviços Profissionais AWS
- baseado
- BE
- ser
- entre
- Pós
- Preto
- Bloquear
- Blocos
- Caixa
- construir
- Constrói
- negócios
- by
- calculado
- CAN
- capacidades
- casos
- Alterações
- personagem
- reconhecimento de caracteres
- caracteres
- Na nuvem
- agrupamento
- código
- cor
- Comunicação
- completar
- configurado
- contém
- conteúdo
- conteúdo
- contexto
- Correções
- Correspondente
- relação custo-benefício
- custos
- crio
- criado
- cria
- Atualmente
- personalização
- personalizar
- dados,
- entrega
- demonstrar
- implantar
- desejado
- detalhe
- detalhes
- Desenvolvimento
- diferente
- difícil
- diferente
- documento
- INSTITUCIONAIS
- Não faz
- dois
- cada
- mais fácil
- facilmente
- esforço
- outro
- emprego
- permitir
- final
- engenheiro
- Inglês
- exemplo
- exemplos
- caro
- extrato
- Extractos
- falso
- RÁPIDO
- preencher
- financeiro
- Encontre
- Primeiro nome
- Flutuador
- concentra-se
- seguinte
- segue
- Escolha
- Antigamente
- formas
- encontrado
- Francês
- da
- frente
- Front-end
- Desenvolvimento front-end
- cheio
- totalmente
- gerar
- gerando
- Alemão
- ter
- GitHub
- Global
- Go
- vai
- Ter
- he
- saúde
- pesado
- altura
- SUA PARTICIPAÇÃO FAZ A DIFERENÇA
- alta qualidade
- House
- Como funciona o dobrador de carta de canal
- Como Negociar
- HTML
- http
- HTTPS
- humano
- Identificadores
- identificar
- if
- imagem
- imagens
- melhorar
- in
- Em outra
- incluir
- Incluindo
- indústrias
- entrada
- integrado
- para dentro
- IT
- ESTÁ
- Java
- língua
- Idiomas
- grande
- camada
- APRENDER
- aprendizagem
- mínimo
- esquerda
- menos
- Nível
- bibliotecas
- Biblioteca
- limites
- Line
- linhas
- Lista
- local
- lógica
- olhar
- Perde
- máquina
- aprendizado de máquina
- fazer
- gerenciados
- manual
- muitos
- Posso..
- médico
- minuto
- ML
- modificações
- mais
- nomes
- você merece...
- necessário
- Novo
- número
- objeto
- OCR
- of
- frequentemente
- on
- Sob demanda
- open source
- operação
- reconhecimento de caracteres ópticos
- or
- ordem
- organização
- original
- Outros
- saída
- próprio
- página
- páginas
- pares
- passou
- Pagar
- realização
- permissões
- platão
- Inteligência de Dados Platão
- PlatãoData
- Português
- posição
- Publique
- apresentado
- política de privacidade
- privado
- privilégio
- processo
- Processado
- em processamento
- profissional
- Programação
- linguagens de programação
- fornecer
- fornece
- publicado
- qualidade
- rapidamente
- Leitura
- reconhecimento
- recomendar
- registros
- região
- reguladores
- confiável
- Relatórios
- requerer
- Requisitos
- exige
- restringido
- Resultados
- reter
- retenção
- retorno
- rever
- Execute
- Salvar
- escalável
- digitalização
- segundo
- seções
- Vejo
- senior
- serviço
- Serviços
- conjunto
- rede de apoio social
- mostrar
- mostrou
- mostrando
- Shows
- semelhante
- simples
- situações
- Tamanho
- lento
- solução
- fonte
- Espanhol
- especializado
- específico
- autônoma
- começado
- Passos
- armazenamento
- loja
- Tanga
- estrutura
- tal
- Suportado
- suportes
- TAG
- Tire
- imposto
- Profissionais
- ensaio
- do que
- que
- A
- A fonte
- Eles
- então
- Lá.
- Este
- isto
- Através da
- tempo
- para
- levou
- topo
- traduzir
- Tradução
- compreender
- único
- usar
- usava
- usuários
- usos
- utilização
- Utilizando
- VALIDAR
- validação
- variedade
- vário
- verificar
- Verticais
- Ver
- volumes
- foi
- we
- web
- serviços web
- BEM
- O Quê
- qual
- enquanto
- branco
- largura
- de
- dentro
- sem
- palavras
- de gestão de documentos
- fluxos de trabalho
- Força de trabalho
- trabalho
- escrito
- Vocês
- investimentos
- zefirnet