Amazon Comprehend Document Classifier adiciona suporte de layout para maior precisão

Republicado por Platão

seguidores: 0

A capacidade de lidar e processar efetivamente grandes quantidades de documentos tornou-se essencial para as empresas no mundo moderno. Devido ao fluxo contínuo de informações com que todas as empresas lidam, a classificação manual de documentos não é mais uma opção viável. Os modelos de classificação de documentos podem automatizar o procedimento e ajudar as organizações a economizar tempo e recursos. As técnicas tradicionais de categorização, como processamento manual e pesquisas baseadas em palavras-chave, tornam-se menos eficientes e consomem mais tempo à medida que o volume de documentos aumenta. Essa ineficiência causa menor produtividade e maiores despesas operacionais. Além disso, pode impedir que informações cruciais sejam acessadas quando necessário, o que pode levar a uma má experiência do cliente e impactar a tomada de decisões. No AWS re:Invent 2022, Amazon Comprehend, um serviço de processamento de linguagem natural (NLP) que usa aprendizado de máquina (ML) para descobrir insights de texto, lançado suporte para tipos de documentos nativos. Esse novo recurso oferece a capacidade de classificar documentos em formatos nativos (PDF, TIFF, JPG, PNG, DOCX) usando o Amazon Comprehend.

Hoje, temos o prazer de anunciar que o Amazon Comprehend agora oferece suporte ao treinamento de modelo de classificação personalizado com documentos como PDF, Word e formatos de imagem. Agora você pode treinar modelos de classificação de documentos sob medida em documentos nativos que suportam layout além de texto, aumentando a precisão dos resultados.

Nesta postagem, fornecemos uma visão geral de como você pode começar a treinar um modelo de classificação de documento personalizado do Amazon Comprehend.

Visão geral

A capacidade de entender as colocações relativas de objetos dentro de um espaço definido é referida como consciência de layout. Nesse caso, ajuda o modelo a entender como cabeçalhos, subtítulos, tabelas e gráficos se relacionam entre si dentro de um documento. O modelo pode categorizar um documento com mais eficiência com base em seu conteúdo quando está ciente da estrutura e do layout do texto.

O classificador de documentos Amazon Comprehend adiciona suporte de layout para maior precisão do PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Nesta postagem, percorremos as etapas de preparação de dados envolvidas, demonstramos o processo de treinamento do modelo e discutimos os benefícios de usar o novo modelo de classificação de documento personalizado no Amazon Comprehend. Como prática recomendada, você deve considerar os seguintes pontos antes de começar a treinar o modelo de classificação de documento personalizado.

Avalie suas necessidades de classificação de documentos

Identifique os vários tipos de documentos que você pode precisar classificar, junto com as diferentes classes ou categorias para dar suporte ao seu caso de uso. Determine a estrutura de classificação ou taxonomia adequada após avaliar a quantidade e os tipos de documentos que precisam ser categorizados. Os tipos de documento podem variar de PDF, Word, imagens e assim por diante. Certifique-se de ter acesso autorizado a um conjunto diversificado de documentos rotulados por meio de um sistema de gerenciamento de documentos ou de outros mecanismos de armazenamento.

Prepare seus dados

Certifique-se de que os arquivos de documentos que você pretende usar para treinamento de modelo não estejam criptografados ou bloqueados — por exemplo, certifique-se de que seus arquivos PDF não estejam criptografados e bloqueados com uma senha. Você deve descriptografar esses arquivos antes de poder usá-los para fins de treinamento. Rotule uma amostra de seus documentos com as categorias ou rótulos apropriados (aulas). Determine se a classificação de rótulo único (modo multi-classe) ou classificação multi-rótulo é apropriado para o seu caso de uso. O modo multiclasse associa apenas uma única classe a cada documento, enquanto o modo multilabel associa uma ou mais classes a um documento.

Considere a avaliação do modelo

Use o conjunto de dados rotulado para treinar o modelo para que ele aprenda a classificar novos documentos com precisão e avalie o desempenho da versão do modelo recém-treinado ao entender as métricas do modelo. Para entender as métricas fornecidas pelo treinamento pós-modelo do Amazon Comprehend, consulte Métricas do classificador personalizado. Após a conclusão do processo de treinamento, você pode começar a classificar os documentos de forma assíncrona ou em tempo real. Explicamos como treinar um modelo de classificação personalizado nas seções a seguir.

Preparar os dados de treinamento

Antes de treinarmos nosso modelo de classificação personalizado, precisamos preparar os dados de treinamento. Os dados de treinamento são compostos por um conjunto de documentos rotulados, que podem ser documentos pré-identificados de um repositório de documentos ao qual você já tem acesso. Para nosso exemplo, treinamos um modelo de classificação personalizado com alguns tipos de documentos diferentes que normalmente são encontrados em um processo de adjudicação de sinistro de seguro saúde: resumo de alta do paciente, faturas, recibos e assim por diante. Também precisamos preparar um arquivo de anotações no formato CSV. Veja a seguir um exemplo de dados de arquivo CSV de anotações necessários para o treinamento:

 discharge_summary,summary-1.pdf,1 discharge_summary,summary-2.pdf,1 invoice,invoice-1.pdf,1 invoice,invoice-1.pdf,2 invoice,invoice-2.pdf,1

O arquivo CSV de anotações deve conter três colunas. A primeira coluna contém a classe desejada (rótulo) para o documento, a segunda coluna é o nome do documento (nome do arquivo) e a última coluna é o número da página do documento que você deseja incluir no conjunto de dados de treinamento. Como o processo de treinamento oferece suporte a arquivos PDF e DOCX nativos de várias páginas, você deve especificar o número da página caso o documento seja um documento de várias páginas. Se quiser incluir todas as páginas de um documento de várias páginas no conjunto de dados de treinamento, especifique cada página como uma linha separada no arquivo de anotações CSV. Por exemplo, no arquivo de anotações anterior, invoice-1.pdf é um documento de duas páginas e queremos incluir ambas as páginas no conjunto de dados de classificação. Como arquivos como PDF, PNG e TIFF são formatos de imagem, o valor do número da página (terceira coluna) deve ser sempre 1. Se o seu conjunto de dados contiver arquivos TIF de vários quadros (várias páginas), você deve dividi-los em arquivos TIF separados em para utilizá-los no processo de treinamento.

Preparamos um arquivo de anotações chamado test.csv com os dados apropriados para treinar um modelo de classificação personalizado. Para cada documento de amostra, o arquivo CSV contém a classe à qual o documento pertence, a localização do documento em Serviço de armazenamento simples da Amazon (Amazon S3), como path/to/prefix/document.pdf, e o número da página (se aplicável). Como a maioria de nossos documentos são DOCX de página única, arquivos PDF ou arquivos TIF, JPG ou PNG, o número de página atribuído é 1. Como nossas anotações CSV e documentos de amostra estão todos sob o mesmo prefixo Amazon S3, não t precisa especificar explicitamente o prefixo na segunda coluna. Também preparamos pelo menos 10 amostras de documentos ou mais para cada aula e usamos uma mistura de arquivos JPG, PNG, DOCX, PDF e TIF para treinar o modelo. Observe que geralmente é recomendável ter um conjunto diversificado de documentos de amostra para treinamento de modelo para evitar o superajuste do modelo, o que afeta sua capacidade de reconhecer novos documentos. Também é recomendado que o número de amostras por classe seja equilibrado, embora não seja necessário ter exatamente o mesmo número de amostras por classe. A seguir, carregamos o test.csv arquivo de anotações e todos os documentos no Amazon S3. A imagem a seguir mostra parte do nosso arquivo CSV de anotações.

O classificador de documentos Amazon Comprehend adiciona suporte de layout para maior precisão do PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Treine um modelo de classificação personalizado

Agora que temos o arquivo de anotações e todos os nossos documentos de amostra prontos, configuramos um modelo de classificação personalizado e o treinamos. Antes de começar a configurar o treinamento do modelo de classificação personalizado, certifique-se de que as anotações CSV e os documentos de exemplo existam em um local do Amazon S3.

No console do Amazon Comprehend, escolha Classificação personalizada no painel de navegação.
Escolha Criar novo modelo.
Escolha Nome do modelo, insira um nome exclusivo.
Escolha Nome da versão, insira um nome de versão exclusivo.
Escolha Tipo de modelo de treinamento, selecione Documentos nativos.

Isso informa ao Amazon Comprehend que você pretende usar tipos de documentos nativos para treinar o modelo em vez de texto serializado.

Escolha Modo classificador, selecione Usando o modo de rótulo único.

Este modo informa ao classificador que pretendemos classificar os documentos em uma única classe. Se você precisa treinar um modelo com modo multi-rótulo, ou seja, um documento pode pertencer a uma ou mais de uma classe, você deve configurar o arquivo de anotações adequadamente, especificando as classes do documento separadas por um caractere especial nas anotações CSV arquivo. Nesse caso, você selecionaria o Usando o modo multi-rótulo opção.

Escolha Localização da anotação no S3, insira o caminho do arquivo CSV de anotações.
Escolha Localização dos dados de treinamento no S3, insira o local do Amazon S3 onde residem seus documentos.
Deixe todas as outras opções como padrão nesta seção.
No Dados de saída seção, especifique um local do Amazon S3 para sua saída.

Isso é opcional, mas é uma boa prática fornecer um local de saída porque o Amazon Comprehend gerará as métricas de avaliação de treinamento pós-modelo nesse local. Esses dados são úteis para avaliar o desempenho do modelo, iterar e melhorar a precisão do seu modelo.

No Papel do IAM seção, escolha um apropriado Gerenciamento de acesso e identidade da AWS (IAM) que permite que o Amazon Comprehend acesse o local do Amazon S3 e grave e leia a partir dele.
Escolha Crie para iniciar o treinamento do modelo.

O modelo pode levar vários minutos para treinar, dependendo do número de classes e do tamanho do conjunto de dados. Você pode revisar o status do treinamento no Classificação personalizada página. O processo de treinamento exibirá uma Enviado status logo após o início do processo de treinamento e mudará para Training status quando o processo de treinamento começa. Depois que seu modelo é treinado, o Estado da versão mudará para Treinado. Se o Amazon Comprehend encontrar inconsistências em seus dados de treinamento, o status será exibido Em erro junto com um alerta que mostra a mensagem de erro apropriada para que você possa tomar uma ação corretiva e reiniciar o processo de treinamento com os dados corrigidos.

O classificador de documentos Amazon Comprehend adiciona suporte de layout para maior precisão do PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Nesta postagem, demonstramos as etapas para treinar um modelo de classificador personalizado usando o console do Amazon Comprehend. Você também pode usar o SDK AWS em qualquer idioma (por exemplo, Boto3 para Python) Ou Interface de linha de comando da AWS (AWS CLI) para iniciar um treinamento de modelo de classificação personalizado. Com o SDK ou a AWS CLI, você pode usar o CreateDocumentClassificador API para iniciar o treinamento do modelo e, posteriormente, usar o DescreverClassificador de Documentos API para verificar o status do modelo.

Depois que o modelo é treinado, você pode executar análise em tempo real or tarefas de análise assíncrona (lote) em novos documentos. Para executar a classificação em tempo real em documentos, você deve implantar um endpoint em tempo real do Amazon Comprehend com o modelo de classificação personalizado treinado. Os endpoints em tempo real são mais adequados para casos de uso que exigem resultados de inferência em tempo real e de baixa latência, enquanto para classificar um grande conjunto de documentos, um trabalho de análise assíncrona é mais apropriado. Para saber como você pode executar inferência assíncrona em novos documentos usando um modelo de classificação treinado, consulte Apresentando a classificação em uma etapa e o reconhecimento de entidades com o Amazon Comprehend para processamento inteligente de documentos.

Benefícios do modelo de classificação personalizado com reconhecimento de layout

O novo modelo de classificador oferece várias melhorias. Além de ser mais fácil treinar o novo modelo, você também pode treinar um novo modelo com apenas algumas amostras para cada classe. Além disso, você não precisa mais extrair texto simples serializado de documentos digitalizados ou digitais, como imagens ou PDFs, para preparar o conjunto de dados de treinamento. A seguir estão algumas melhorias adicionais dignas de nota que você pode esperar do novo modelo de classificação:

Precisão aprimorada – O modelo agora leva em consideração o layout e a estrutura dos documentos, o que leva a um melhor entendimento da estrutura e do conteúdo dos documentos. Isso ajuda a distinguir entre documentos com texto semelhante, mas layouts ou estruturas diferentes, resultando em maior precisão de classificação.
Robustez – O modelo agora lida com variações na estrutura e formatação do documento. Isso o torna mais adequado para classificar documentos de fontes diferentes com layouts ou estilos de formatação variados, o que é um desafio comum em tarefas de classificação de documentos do mundo real. É compatível com vários tipos de documentos nativamente, tornando-o versátil e aplicável a diferentes setores e casos de uso.
Intervenção manual reduzida – Maior precisão leva a menos intervenção manual no processo de classificação. Isso pode economizar tempo e recursos e aumentar a eficiência operacional em sua carga de trabalho de processamento de documentos.

Conclusão

O novo modelo de classificação de documentos do Amazon Comprehend, que incorpora reconhecimento de layout, é um divisor de águas para empresas que lidam com grandes volumes de documentos. Ao entender a estrutura e o layout dos documentos, esse modelo oferece precisão e eficiência de classificação aprimoradas. A implementação de uma solução robusta e precisa de classificação de documentos usando um modelo com reconhecimento de layout pode ajudar sua empresa a economizar tempo, reduzir custos operacionais e aprimorar os processos de tomada de decisão.

Como próxima etapa, recomendamos que você experimente o novo modelo de classificação personalizada do Amazon Comprehend por meio do Console do Amazon Comprehend. Também recomendamos revisitar nossos anúncios de melhoria do modelo de classificação personalizada de ano passado e visitar o Repositório GitHub para amostras de código.

Sobre os autores

Anjan Biswas é arquiteto sênior de soluções de serviços de IA com foco em IA/ML e análise de dados. Anjan faz parte da equipe mundial de serviços de IA e trabalha com clientes para ajudá-los a entender e desenvolver soluções para problemas de negócios com IA e ML. Anjan tem mais de 14 anos de experiência trabalhando com organizações globais de cadeia de suprimentos, manufatura e varejo, e está ajudando ativamente os clientes a começar e escalar nos serviços de IA da AWS.

Godwin Sahayaraj Vicente é um arquiteto de soluções corporativas da AWS que é apaixonado por Machine Learning e fornece orientação aos clientes para projetar, implantar e gerenciar suas cargas de trabalho e arquiteturas da AWS. Nas horas vagas, adora jogar críquete com os amigos e tênis com os três filhos.

Wrick Talukdar é arquiteto sênior da equipe Amazon Comprehend Service. Ele trabalha com clientes da AWS para ajudá-los a adotar o aprendizado de máquina em grande escala. Fora do trabalho, gosta de ler e fotografar.