Crie um reconhecedor de entidades personalizado para documentos PDF usando o Amazon Comprehend

Republicado por Platão

seguidores: 0

Em muitos setores, é fundamental extrair entidades personalizadas de documentos em tempo hábil. Isso pode ser desafiador. Reivindicações de seguros, por exemplo, geralmente contêm dezenas de atributos importantes (como datas, nomes, locais e relatórios) espalhados por documentos longos e densos. A verificação e extração manual dessas informações podem ser propensas a erros e demoradas. O software baseado em regras pode ajudar, mas, em última análise, é muito rígido para se adaptar aos diversos tipos e layouts de documentos.

Para ajudar a automatizar e acelerar esse processo, você pode usar Amazon Comprehend para detectar entidades personalizadas com rapidez e precisão usando aprendizado de máquina (ML). Essa abordagem é flexível e precisa, pois o sistema pode se adaptar a novos documentos usando o que aprendeu no passado. Até recentemente, no entanto, esse recurso só podia ser aplicado a documentos de texto simples, o que significava que as informações posicionais eram perdidas ao converter os documentos de seu formato nativo. Para resolver isso, foi anunciou recentemente que o Amazon Comprehend pode extrair entidades personalizadas em PDFs, imagens e formatos de arquivo do Word.

Neste post, apresentamos um exemplo concreto do setor de seguros de como você pode criar um reconhecedor personalizado usando anotações em PDF.

Visão geral da solução

Orientamos você pelas seguintes etapas de alto nível:

Crie anotações em PDF.
Use as anotações do PDF para treinar um modelo personalizado usando a API do Python.
Obtenha métricas de avaliação do modelo treinado.
Realizar inferência em um documento não visto.

Ao final deste post, queremos ser capazes de enviar um documento PDF bruto para nosso modelo treinado e fazer com que ele produza um arquivo estruturado com informações sobre nossos rótulos de interesse. Em particular, treinamos nosso modelo para detectar as cinco entidades a seguir que escolhemos devido à sua relevância para sinistros de seguros: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLoss e InsuredMailingAddress. Após a leitura da saída estruturada, podemos visualizar as informações do rótulo diretamente no documento PDF, conforme imagem a seguir.

Este post é acompanhado por um notebook Jupyter que contém as mesmas etapas. Sinta-se à vontade para acompanhar enquanto executa as etapas nesse caderno. Observe que você precisa configurar o Amazon Sage Maker ambiente para permitir que o Amazon Comprehend leia Serviço de armazenamento simples da Amazon (Amazon S3) conforme descrito na parte superior do notebook.

Criar anotações em PDF

Para criar anotações para documentos PDF, você pode usar Verdade no solo do Amazon SageMaker, um serviço de rotulagem de dados totalmente gerenciado que facilita a criação de conjuntos de dados de treinamento altamente precisos para ML.

Para este tutorial, já anotamos os PDFs em sua forma nativa (sem converter em texto simples) usando o Ground Truth. O trabalho do Ground Truth gera três caminhos necessários para treinar nosso modelo personalizado do Amazon Comprehend:

Fontes – O caminho para os PDFs de entrada.
Anotações – O caminho para os arquivos JSON de anotação que contêm as informações da entidade rotulada.
Manifesto – O arquivo que aponta para o local das anotações e PDFs de origem. Esse arquivo é usado para criar um trabalho de treinamento de reconhecimento de entidade personalizado do Amazon Comprehend e treinar um modelo personalizado.

A captura de tela a seguir mostra uma anotação de amostra.

O trabalho personalizado do Ground Truth gera uma anotação em PDF que captura informações em nível de bloco sobre a entidade. Essas informações em nível de bloco fornecem as coordenadas posicionais precisas da entidade (com os blocos filho representando cada palavra dentro do bloco de entidade). Isso é diferente de um trabalho padrão do Ground Truth em que os dados no PDF são nivelados para o formato textual e apenas as informações de deslocamento - mas não as informações de coordenadas precisas - são capturadas durante a anotação. As ricas informações posicionais que obtemos com esse paradigma de anotação personalizado nos permitem treinar um modelo mais preciso.

O manifesto gerado a partir desse tipo de trabalho é chamado de manifesto aumentado, em oposição a um CSV usado para anotações padrão. Para mais informações, veja Anotações.

Use as anotações do PDF para treinar um modelo personalizado usando a API Python

Um arquivo de manifesto aumentado deve ser formatado no formato JSON Lines. No formato JSON Lines, cada linha no arquivo é um objeto JSON completo seguido por um separador de nova linha.

O código a seguir é uma entrada nesse arquivo de manifesto aumentado.

Algumas coisas a observar:

Cinco tipos de rotulagem estão associados a este trabalho: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLoss e InsuredMailingAddress.
O arquivo de manifesto faz referência ao local do PDF de origem e ao local da anotação.
Os metadados sobre o trabalho de anotação (como data de criação) são capturados.
Use-textract-only está definido para False, o que significa que a ferramenta de anotação decide se deve usar PDFPlumber (para um PDF nativo) ou amazontext (para um PDF digitalizado). Se definido como true, o Amazon Textract é usado em ambos os casos (o que é mais caro, mas potencialmente mais preciso).

Agora podemos treinar o reconhecedor, conforme mostrado no código de exemplo a seguir.

Criamos um reconhecedor para reconhecer todos os cinco tipos de entidades. Poderíamos ter usado um subconjunto dessas entidades se preferíamos. Você pode usar até 25 entidades.

Para obter detalhes de cada parâmetro, consulte create_entity_recognizer.

Dependendo do tamanho do conjunto de treinamento, o tempo de treinamento pode variar. Para este conjunto de dados, o treinamento leva aproximadamente 1 hora. Para monitorar o status do trabalho de treinamento, você pode usar o describe_entity_recognizer API.

Obtenha métricas de avaliação do modelo treinado

O Amazon Comprehend fornece métricas de desempenho de modelo para um modelo treinado, que indica quão bem se espera que o modelo treinado faça previsões usando entradas semelhantes. Podemos obter métricas globais de precisão e recall, bem como métricas por entidade. Um modelo preciso tem alta precisão e alto recall. Alta precisão significa que o modelo geralmente está correto quando indica um rótulo específico; alto recall significa que o modelo encontrou a maioria dos rótulos. F1 é uma métrica composta (média harmônica) dessas medidas e, portanto, é alta quando ambos os componentes são altos. Para obter uma descrição detalhada das métricas, consulte Métricas do reconhecedor de entidade personalizada.

Quando você fornece os documentos para o trabalho de treinamento, o Amazon Comprehend os separa automaticamente em um conjunto de treinamento e teste. Quando o modelo atingiu TRAINED estado, pode utilizar o describe_entity_recognizer API novamente para obter as métricas de avaliação no conjunto de teste.

Veja a seguir um exemplo de métricas globais.

Veja a seguir um exemplo de métricas por entidade.

As pontuações altas indicam que o modelo aprendeu bem como detectar essas entidades.

Realizar inferência em um documento não visto

Vamos executar a inferência com nosso modelo treinado em um documento que não fazia parte do procedimento de treinamento. Podemos usar essa API assíncrona para NER padrão ou personalizado. Se estiver usando para NER personalizado (como neste post), devemos passar o ARN do modelo treinado.

Podemos revisar o trabalho enviado imprimindo a resposta.

Podemos formatar a saída do trabalho de detecção com Pandas em uma tabela. o Score valor indica o nível de confiança que o modelo tem sobre a entidade.

Por fim, podemos sobrepor as previsões nos documentos não vistos, o que dá o resultado conforme mostrado no início deste post.

Conclusão

Neste post, você viu como extrair entidades personalizadas em seu formato PDF nativo usando o Amazon Comprehend. Como próximos passos, considere mergulhar mais fundo:

Treine seu próprio reconhecedor usando o notebook que o acompanha SUA PARTICIPAÇÃO FAZ A DIFERENÇA. Lembre-se de excluir todos os recursos quando terminar para evitar cobranças futuras.
Configure seu próprio trabalho de anotação personalizado para coletar anotações em PDF para suas entidades de interesse. Para obter mais informações, consulte Anotação de documento personalizada para extrair entidades nomeadas em documentos usando o Amazon Comprehend.
Treine um modelo NER personalizado no console do Amazon Comprehend. Para mais informações, veja Extraia entidades personalizadas de documentos em seu formato nativo com o Amazon Comprehend.

Sobre os autores

Josué Levy é Cientista Aplicado Sênior no laboratório de Soluções de Aprendizado de Máquina da Amazon, onde ajuda os clientes a projetar e criar soluções de IA/ML para resolver os principais problemas de negócios.

André Ang é engenheiro de aprendizado de máquina no Amazon Machine Learning Solutions Lab, onde ajuda clientes de diversos setores a identificar e criar soluções de IA/ML para resolver seus problemas de negócios mais urgentes. Fora do trabalho, ele gosta de assistir vlogs de viagem e comida.

Alex Chirayath é engenheiro de software no Amazon Machine Learning Solutions Lab com foco na criação de soluções baseadas em casos de uso que mostram aos clientes como liberar o poder dos serviços de IA/ML da AWS para resolver problemas de negócios do mundo real.

Jennifer Zhu é um cientista aplicado do Amazon AI Machine Learning Solutions Lab. Ela trabalha com os clientes da AWS criando soluções de IA/ML para suas necessidades de negócios de alta prioridade.

Niharika Jayanthi é engenheiro de front-end no Amazon Machine Learning Solutions Lab – equipe Human in the Loop. Ela ajuda a criar soluções de experiência do usuário para clientes do Amazon SageMaker Ground Truth.

Boris Aronchik é gerente do Amazon AI Machine Learning Solutions Lab, onde lidera uma equipe de cientistas e engenheiros de ML para ajudar os clientes da AWS a atingir as metas de negócios aproveitando as soluções de IA/ML.

Carimbo de hora: 8 de abril de 2022

Carimbo de hora: 19 Dezembro, 2022

Crie um reconhecedor de entidade personalizado para documentos PDF usando o Amazon Comprehend

Republicado por Platão

Visão geral da solução

Criar anotações em PDF

Use as anotações do PDF para treinar um modelo personalizado usando a API Python

Obtenha métricas de avaliação do modelo treinado

Realizar inferência em um documento não visto

Conclusão

Sobre os autores

Mais de Aprendizado de máquina da AWS

Amazon SageMaker Autopilot agora oferece suporte a dados de série temporal

Organize sua jornada de machine learning com o Amazon SageMaker Experiments e o Amazon SageMaker Pipelines

Melhore a qualidade da previsão em modelos de classificação personalizados com o Amazon Comprehend | Amazon Web Services

Anunciando novas ferramentas e capacidades para permitir a inovação responsável em IA | Amazon Web Services

Reduza o tempo e o custo de treinamento de deep learning com o MosaicML Composer na AWS

Retreinar redes neurais automaticamente com Renate

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta