Crie um pipeline de análise de documentos rastreável, personalizado e de vários formatos com o Amazon Textract

Republicado por Platão

seguidores: 0

Os formulários organizacionais servem como a principal ferramenta de negócios em todos os setores, de serviços financeiros a saúde e muito mais. Considere, por exemplo, formulários de declaração de impostos no setor de gestão tributária, onde novos formulários são lançados a cada ano com basicamente as mesmas informações. Os clientes da AWS em todos os setores precisam processar e armazenar informações em formulários como parte de sua prática comercial diária. Esses formulários geralmente servem como um meio primário para que as informações fluam para uma organização onde os meios tecnológicos de captura de dados são impraticáveis.

Além de usar formulários para capturar informações, ao longo dos anos oferecendo amazontext, observamos que os clientes da AWS frequentemente criam versões de seus formulários organizacionais com base em alterações estruturais feitas, campos adicionados ou alterados ou outras considerações, como alteração de ano ou versão do formulário.

Quando a estrutura ou o conteúdo de um formulário muda, frequentemente isso pode causar desafios para os sistemas OCR tradicionais ou impactar as ferramentas downstream usadas para capturar informações, mesmo quando você precisa capturar as mesmas informações ano após ano e agregar os dados para uso independentemente do formato do documento.

Para resolver esse problema, nesta postagem, demonstramos como você pode criar e implantar um pipeline de análise de documentos multiformato, sem servidor e orientado a eventos com o Amazon Textract.

Visão geral da solução

O diagrama a seguir ilustra nossa arquitetura de solução:

Primeiro, a solução oferece ingestão de pipeline usando Serviço de armazenamento simples da Amazon (Amazon S3), notificações de eventos do Amazon S3 e um Serviço de fila simples da Amazon (Amazon SQS) para que o processamento comece quando um formulário chegar à partição de destino do Amazon S3. Um evento em Amazon Event Bridge é criado e enviado para um AWS Lambda target que aciona um trabalho do Amazon Textract.

Você pode usar serviços da AWS sem servidor, como Lambda e Funções de etapa da AWS para criar integrações de serviços assíncronas entre os serviços de IA da AWS e os serviços de AWS Analytics e Database para armazenamento, análise e IA e machine learning (ML). Nesta postagem, demonstramos como usar o Step Functions para controlar e manter de forma assíncrona o estado das solicitações para APIs assíncronas do Amazon Textract. Isso é obtido usando uma máquina de estado para gerenciar chamadas e respostas. Usamos o Lambda na máquina de estado para mesclar os dados de resposta da API paginada do Amazon Textract em um único objeto JSON contendo dados de texto semiestruturados extraídos usando OCR.

Em seguida, filtramos diferentes formulários usando uma abordagem padronizada para agregar esses dados de OCR em um formato estruturado comum usando Amazona atena e um JSON SQL Amazon Textract SerDe.

Você pode rastrear as etapas realizadas por meio desse pipeline usando o Step Functions sem servidor para rastrear o estado de processamento e reter a saída de cada estado. Isso é algo que os clientes em alguns setores preferem fazer ao trabalhar com dados em que você deve reter os resultados de todas as previsões de serviços como o Amazon Textract para promover a explicabilidade dos resultados do pipeline a longo prazo.

Por fim, você pode consultar os dados extraídos nas tabelas do Athena.

Nas seções a seguir, orientamos você na configuração do pipeline usando Formação da Nuvem AWS, testando o pipeline e adicionando novas versões de formulário. Esse pipeline fornece uma solução sustentável porque cada componente (ingestão, extração de texto, processamento de texto) é independente e isolado.

Definir parâmetros de entrada padrão para pilhas do CloudFormation

Para definir os parâmetros de entrada para as pilhas do CloudFormation, abra default.properties sob a params pasta e digite o seguinte código:

- set the default value for parameter 'pInputBucketName' for Input S3 bucket - set the default value for parameter 'pOutputBucketName' for Output S3 bucket - set the default value for parameter 'pInputQueueName' for Ingest SQS (a.k.a job scheduler)

Implante a solução

Para implantar seu pipeline, conclua as etapas a seguir:

Escolha Pilha de Lançamento:
Escolha Próximo.
Especifique os detalhes da pilha conforme mostrado na captura de tela a seguir e escolha Próximo.
No Configurar opções de pilha seção, adicione tags opcionais, permissões e outras configurações avançadas.
Escolha Próximo.
Revise os detalhes da pilha e selecione Eu reconheço que o AWS CloudFormation pode criar recursos IAM com nomes personalizados.
Escolha Criar pilha.

Isso inicia a implantação da pilha em sua conta da AWS.

Depois que a pilha for implantada com êxito, você poderá começar a testar o pipeline conforme descrito na próxima seção.

Teste o pipeline

Após uma implantação bem-sucedida, conclua as etapas a seguir para testar seu pipeline:

Faça o download do arquivos de amostra no seu computador.
Crie uma /uploads pasta (partição) no bucket do S3 de entrada recém-criado.
Crie as pastas separadas (partições) como jobapplications para /uploads.
Carregue a primeira versão do aplicativo de trabalho da pasta de documentos de amostra para o /uploads/jobapplications partição.

Quando o pipeline estiver concluído, você poderá encontrar o valor-chave extraído para esta versão do documento em /OuputS3/03-textract-parsed-output/jobapplications no console do Amazon S3.

Você também pode encontrá-lo na tabela Athena (applications_data_table) no banco de dados cardápio (jobapplicationsdatabase).

Carregue a segunda versão do aplicativo de trabalho da pasta de documentos de amostra para o /uploads/jobapplications partição.

Quando o pipeline estiver concluído, você poderá encontrar o valor-chave extraído para esta versão em /OuputS3/03-textract-parsed-output/jobapplications no console do Amazon S3.

Você também pode encontrá-lo na tabela Athena (applications_data_table) no banco de dados cardápio (jobapplicationsdatabase).

Você Terminou! Você implantou seu pipeline com sucesso.

Adicionar novas versões de formulário

Atualizar a solução para uma nova versão de formulário é simples — cada versão de formulário só precisa ser atualizada testando as consultas na pilha de processamento.

Depois de fazer as atualizações, você pode reimplantar o pipeline atualizado usando APIs do AWS CloudFormation e processar novos documentos, chegando aos mesmos pontos de dados padrão para seu esquema com o mínimo de interrupção e esforço de desenvolvimento necessários para fazer alterações em seu pipeline. Essa flexibilidade, que é alcançada ao desacoplar o comportamento de análise e extração e usar a funcionalidade JSON SerDe no Athena, torna esse pipeline uma solução sustentável para qualquer número de versões de formulário que sua organização precisa processar para coletar informações.

À medida que você executa a solução de ingestão, os dados dos formulários recebidos são preenchidos automaticamente no Athena com informações sobre os arquivos e as entradas associadas a eles. Quando os dados em seus formulários passam de dados não estruturados para dados estruturados, eles estão prontos para uso em aplicativos downstream, como análises, modelagem de ML e muito mais.

limpar

Para evitar cobranças contínuas, exclua os recursos que você criou como parte desta solução quando terminar.

No console do Amazon S3, exclua manualmente os buckets que você criou como parte da pilha do CloudFormation.
No console do AWS CloudFormation, escolha Pilhas no painel de navegação.
Selecione a pilha principal e escolha Apagar.

Isso exclui automaticamente as pilhas aninhadas.

Conclusão

Nesta postagem, demonstramos como os clientes que buscam rastrear e personalizar o processamento de documentos podem criar e implantar um pipeline de análise de documentos multiformato, sem servidor e orientado a eventos com o Amazon Textract. Esse pipeline fornece uma solução sustentável porque todos os componentes (ingestão, extração de texto, processamento de texto) são independentes e isolados, permitindo que as organizações operacionalizem suas soluções para atender a diversas necessidades de processamento.

Experimente a solução hoje e deixe seus comentários na seção de comentários.

Sobre os autores

Emily Soward é um cientista de dados com AWS Professional Services. Possui Mestrado em Ciências com Distinção em Inteligência Artificial pela Universidade de Edimburgo na Escócia, Reino Unido, com ênfase em Processamento de Linguagem Natural (PNL). Emily atuou em funções científicas e de engenharia aplicadas com foco em pesquisa e desenvolvimento de produtos habilitados para IA, excelência operacional e governança para cargas de trabalho de IA executadas em organizações do setor público e privado. Ela contribui para a orientação do cliente como palestrante sênior da AWS e, recentemente, como autora do AWS Well-Architected in the Machine Learning Lens.

Sandeep Singh é um cientista de dados com AWS Professional Services. Ele possui um Mestrado em Sistemas de Informação com concentração em IA e Ciência de Dados pela San Diego State University (SDSU), Califórnia. Ele é um Cientista de Dados de pilha completa com uma sólida formação em ciência da computação e consultor confiável com especialização em sistemas de IA e design de controle. Ele é apaixonado por ajudar os clientes a colocar seus projetos de alto impacto na direção certa, aconselhando e orientando-os em sua jornada para a nuvem e criando soluções habilitadas para IA/ML de última geração.

Carimbo de hora: 17 de março de 2022

Carimbo de hora: 20 de setembro de 2022

Crie um pipeline de análise de documentos rastreável, personalizado e multiformato com o Amazon Textract

Republicado por Platão

Visão geral da solução

Definir parâmetros de entrada padrão para pilhas do CloudFormation

Implante a solução

Teste o pipeline

Adicionar novas versões de formulário

limpar

Conclusão

Sobre os autores

Mais de Aprendizado de máquina da AWS

Identifique os principais insights de documentos de texto por meio de ajuste fino e HPO com o Amazon SageMaker JumpStart

Aplicar mascaramento de palavrões no Amazon Translate

Anunciando o Visual Conversation Builder para Amazon Lex

Crie resumos de gravações usando IA generativa com Amazon Bedrock e Amazon Transcribe | Amazon Web Services

Defina permissões personalizadas em minutos com o Amazon SageMaker Role Manager

Configurar um local de saída de consulta personalizado do Amazon S3 e uma política de retenção de dados para fontes de dados do Amazon Athena no Amazon SageMaker Data Wrangler

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta