Apresentando classificação e reconhecimento de entidades em uma etapa com o Amazon Comprehend para processamento inteligente de documentos

Republicado por Platão

seguidores: 0

“As soluções de processamento inteligente de documentos (IDP) extraem dados para dar suporte à automação de tarefas repetitivas e de alto volume de processamento de documentos e para análise e insight. O IDP usa tecnologias de linguagem natural e visão computacional para extrair dados de conteúdo estruturado e não estruturado, especialmente de documentos, para oferecer suporte à automação e aumento.” – Gartner

O objetivo do processamento inteligente de documentos (IDP) da Amazon é automatizar o processamento de grandes quantidades de documentos usando aprendizado de máquina (ML) para aumentar a produtividade, reduzir os custos associados ao trabalho humano e fornecer uma experiência de usuário perfeita. Os clientes gastam uma quantidade significativa de tempo e esforço identificando documentos e extraindo informações críticas deles para vários casos de uso. Hoje, Amazon Comprehend oferece suporte à classificação de documentos de texto simples, o que exige que você pré-processe documentos em formatos semiestruturados (digitalizados, PDF digital ou imagens como PNG, JPG, TIFF) e, em seguida, use a saída de texto simples para executar a inferência com seu classificação personalizada modelo. Da mesma forma, para reconhecimento de entidade personalizada em tempo real, o pré-processamento para extrair texto é necessário para documentos semiestruturados, como PDF e arquivos de imagem. Esse processo de duas etapas introduz complexidades nos fluxos de trabalho de processamento de documentos.

No ano passado, nós anunciou suporte para formatos de documentos nativos com reconhecimento de entidade nomeada personalizada (NER) trabalhos assíncronos. Hoje, temos o prazer de anunciar a classificação de documentos em uma etapa e análise em tempo real para NER para documentos semiestruturados em formatos nativos (PDF, TIFF, JPG, PNG) usando o Amazon Comprehend. Especificamente, estamos anunciando os seguintes recursos:

Suporte para documentos em formatos nativos para análise em tempo real de classificação personalizada e trabalhos assíncronos
Suporte para documentos em formatos nativos para análise em tempo real de reconhecimento de entidade personalizada

Com esta nova versão, a classificação personalizada do Amazon Comprehend e o reconhecimento de entidade personalizado (NER) suportam documentos em formatos como PDF, TIFF, PNG e JPEG diretamente, sem a necessidade de extrair texto simples codificado em UTF8 deles. A figura a seguir compara o processo anterior com o novo procedimento e suporte.

Esse recurso simplifica os fluxos de trabalho de processamento de documentos, eliminando todas as etapas de pré-processamento necessárias para extrair texto simples de documentos e reduz o tempo total necessário para processá-los.

Nesta postagem, discutimos um projeto de solução de fluxo de trabalho IDP de alto nível, alguns casos de uso do setor, os novos recursos do Amazon Comprehend e como usá-los.

Visão geral da solução

Vamos começar explorando um caso de uso comum no setor de seguros. Um processo típico de reivindicação de seguro envolve um pacote de reivindicação que pode conter vários documentos. Quando uma reivindicação de seguro é registrada, ela inclui documentos como formulário de reivindicação de seguro, relatórios de incidentes, documentos de identidade e documentos de reivindicação de terceiros. O volume de documentos para processar e julgar uma reclamação de seguro pode chegar a centenas e até milhares de páginas, dependendo do tipo de reclamação e dos processos de negócios envolvidos. Os representantes e adjudicadores de sinistros de seguros geralmente gastam centenas de horas examinando, classificando e extraindo manualmente informações de centenas ou até milhares de registros de sinistros.

Semelhante ao caso de uso do setor de seguros, o setor de pagamentos também processa grandes volumes de documentos semiestruturados para acordos de pagamento internacionais, faturas e extratos cambiais. Os usuários corporativos passam a maior parte do tempo em atividades manuais, como identificação, organização, validação, extração e transmissão das informações necessárias para aplicativos downstream. Esse processo manual é tedioso, repetitivo, sujeito a erros, caro e difícil de dimensionar. Outros setores que enfrentam desafios semelhantes incluem hipotecas e empréstimos, saúde e ciências da vida, jurídico, contábil e gerenciamento tributário. É extremamente importante para as empresas processar grandes volumes de documentos em tempo hábil, com alto nível de precisão e esforço manual nominal.

O Amazon Comprehend fornece recursos importantes para automatizar a classificação de documentos e a extração de informações de um grande volume de documentos com alta precisão, de maneira escalável e econômica. O diagrama a seguir mostra um fluxo de trabalho lógico IDP com o Amazon Comprehend. O núcleo do fluxo de trabalho consiste na classificação de documentos e extração de informações usando o NER com modelos personalizados do Amazon Comprehend. O diagrama também demonstra como os modelos personalizados podem ser continuamente aprimorados para fornecer maior precisão à medida que os documentos e processos de negócios evoluem.

Classificação personalizada de documentos

Com a classificação personalizada do Amazon Comprehend, você pode organizar seus documentos em categorias predefinidas (classes). Em um alto nível, a seguir estão as etapas para configurar um classificador de documento personalizado e executar a classificação de documento:

Prepare dados de treinamento para treinar um classificador de documento personalizado.
Treine um classificador de documentos do cliente com os dados de treinamento.
Depois que o modelo for treinado, opcionalmente, implante um endpoint em tempo real.
Execute a classificação de documentos com um trabalho assíncrono ou em tempo real usando o endpoint.

As etapas 1 e 2 geralmente são executadas no início de um projeto de IDP, depois que as classes de documentos relevantes para o processo de negócios são identificadas. Um modelo de classificador personalizado pode então ser treinado periodicamente para melhorar a precisão e introduzir novas classes de documentos. Você pode treinar um modelo de classificação personalizado em modo multi-classe or modo multi-rótulo. O treinamento pode ser feito para cada um de duas maneiras: usando um arquivo CSV ou usando um arquivo de manifesto aumentado. Referir-se Preparando dados de treinamento para obter mais detalhes sobre como treinar um modelo de classificação personalizado. Depois que um modelo de classificador personalizado é treinado, um documento pode ser classificado usando análise em tempo real ou um trabalho assíncrono. A análise em tempo real requer um endpoint a ser implantado com o modelo treinado e é mais adequado para documentos pequenos, dependendo do caso de uso. Para um grande número de documentos, uma tarefa de classificação assíncrona é mais adequada.

Treine um modelo personalizado de classificação de documentos

Para demonstrar o novo recurso, treinamos um modelo de classificação personalizado no modo multirótulo, que pode classificar documentos de seguro em uma das sete classes diferentes. as aulas são INSURANCE_ID, PASSPORT, LICENSE, INVOICE_RECEIPT, MEDICAL_TRANSCRIPTION, DISCHARGE_SUMMARY e CMS1500. Queremos classificar documentos de amostra em formato PDF, PNG e JPEG nativos, armazenados em um Serviço de armazenamento simples da Amazon (Amazon S3), usando o modelo de classificação. Para iniciar uma tarefa de classificação assíncrona, conclua as seguintes etapas:

No console do Amazon Comprehend, escolha Trabalhos de análise no painel de navegação.
Escolha Criar emprego.
Escolha Nome, insira um nome para sua tarefa de classificação.
Escolha Tipo de análise¸ escolher Classificação personalizada.
Escolha Modelo classificador, escolha o modelo de classificação treinado apropriado.
Escolha Versão, escolha a versão do modelo apropriado.

No Dados de entrada seção, fornecemos o local onde nossos documentos são armazenados.

Escolha Formato de entrada, escolha Um documento por arquivo.
Escolha Modo de leitura de documento¸ escolher Forçar ação de leitura do documento.
Escolha Ação de leitura do documento, escolha Textract detecta o texto do documento.

Isso permite que o Amazon Comprehend use o amazontext DetectarDocumentoTexto API para ler os documentos antes de executar a classificação. o DetectDocumentText A API é útil para extrair linhas e palavras de texto dos documentos. Você também pode escolher Textract analisar documento para Ação de leitura do documento, caso em que o Amazon Comprehend usa o Amazon Textract Analisar Documento API para ler os documentos. Com o AnalyzeDocument API, você pode optar por extrair Tabelas, Formulários, ou ambos. O Modo de leitura de documento A opção permite que o Amazon Comprehend extraia o texto de documentos nos bastidores, o que ajuda a reduzir a etapa extra de extração de texto do documento, necessária em nosso fluxo de trabalho de processamento de documentos.

O classificador personalizado do Amazon Comprehend também pode processar respostas JSON brutas geradas pelo DetectDocumentText e AnalyzeDocument APIs, sem qualquer modificação ou pré-processamento. Isso é útil para fluxos de trabalho existentes nos quais o Amazon Textract já está envolvido na extração de texto dos documentos. Nesse caso, a saída JSON do Amazon Textract pode ser alimentada diretamente nas APIs de classificação de documentos do Amazon Comprehend.

No Dados de saída seção, para Localização S3, especifique um local do Amazon S3 onde deseja que o trabalho assíncrono grave os resultados da inferência.
Deixe as opções restantes como padrão.
Escolha Criar emprego para iniciar o trabalho.

Você pode visualizar o status do trabalho no Trabalhos de análise Disputas de Comerciais.

Quando o trabalho estiver concluído, podemos visualizar a saída do trabalho de análise, que é armazenado no local do Amazon S3 fornecido durante a configuração do trabalho. A saída de classificação para nosso documento CMS1500 de amostra em PDF de uma página é a seguinte. A saída é um arquivo no formato de linhas JSON, que foi formatado para melhorar a legibilidade.

{
  "Classes": [
    { "Name": "CMS1500", "Score": 0.9998 },
    { "Name": "DISCHARGE_SUMMARY", "Score": 0.0001 },
    { "Name": "INSURANCE_ID", "Score": 0 },
    { "Name": "PASSPORT", "Score": 0 },
    { "Name": "LICENSE", "Score": 0 },
    { "Name": "INVOICE_RECEIPT", "Score": 0 },
    { "Name": "MEDICAL_TRANSCRIPTION", "Score": 0 }
  ],
  "DocumentMetadata": {
    "PageNumber": 1,
    "Pages": 1
  },
  "DocumentType": "NativePDFScanned",
  "File": "sample-cms1500.pdf",
  "Version": "2022-08-30"
}

A amostra anterior é um documento PDF de uma página; no entanto, a classificação personalizada também pode lidar com documentos PDF de várias páginas. No caso de documentos de várias páginas, a saída contém várias linhas JSON, onde cada linha é o resultado da classificação de cada uma das páginas em um documento. Veja a seguir um exemplo de saída de classificação de várias páginas:

{"Classes": [{"Name": "CMS1500", "Score": 0.4718}, {"Name": "MEDICAL_TRANSCRIPTION", "Score": 0.0841}, {"Name": "PASSPORT", "Score": 0.0722}], "DocumentMetadata": {"PageNumber": 1, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 2, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 3, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 4, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

Reconhecimento de entidade personalizada

Com um reconhecedor de entidade personalizado do Amazon Comprehend, você pode analisar documentos e extrair entidades como códigos de produtos ou entidades específicas de negócios que atendam às suas necessidades específicas. Em um alto nível, a seguir estão as etapas para configurar um reconhecedor de entidade personalizado e executar a detecção de entidade:

Prepare dados de treinamento para treinar um reconhecedor de entidade personalizado.
Treine um reconhecedor de entidade personalizado com os dados de treinamento.
Depois que o modelo for treinado, opcionalmente, implante um endpoint em tempo real.
Execute a detecção de entidade com um trabalho assíncrono ou em tempo real usando o terminal.

Um modelo de reconhecedor de entidade personalizado pode ser treinado periodicamente para melhorar a precisão e introduzir novos tipos de entidade. Você pode treinar um modelo de reconhecedor de entidade personalizado com listas de entidades or anotações. Em ambos os casos, o Amazon Comprehend aprende sobre o tipo de documento e o contexto em que as entidades ocorrem para criar um modelo de reconhecedor de entidade que pode generalizar para detectar novas entidades. Referir-se Preparando os dados de treinamento para saber mais sobre como preparar dados de treinamento para o reconhecedor de entidade personalizado.

Depois que um modelo de reconhecedor de entidade personalizado é treinado, a detecção de entidade pode ser feita usando análise em tempo real ou um trabalho assíncrono. A análise em tempo real requer um endpoint a ser implantado com o modelo treinado e é mais adequado para documentos pequenos, dependendo do caso de uso. Para um grande número de documentos, uma tarefa de classificação assíncrona é mais adequada.

Treine um modelo de reconhecimento de entidade personalizado

Para demonstrar a detecção de entidade em tempo real, treinamos um modelo de reconhecedor de entidade personalizado com documentos de seguro e arquivos de manifesto aumentados usando anotações personalizadas e implantamos o endpoint usando o modelo treinado. Os tipos de entidade são Law Firm, Law Office Address, Insurance Company, Insurance Company Address, Policy Holder Name, Beneficiary Name, Policy Number, Payout, Required Action e Sender. Queremos detectar entidades de documentos de amostra em formato PDF, PNG e JPEG nativo, armazenados em um depósito S3, usando o modelo de reconhecimento.

Observe que você pode usar um modelo de reconhecimento de entidade personalizado treinado com documentos PDF para extrair entidades personalizadas de PDF, TIFF, imagem, Word e documentos de texto simples. Se seu modelo for treinado usando documentos de texto e uma lista de entidades, você só poderá usar documentos de texto simples para extrair as entidades.

Precisamos detectar entidades de um documento de amostra em qualquer formato PDF, PNG e JPEG nativo usando o modelo de reconhecimento. Para iniciar um trabalho de detecção de entidade síncrona, conclua as seguintes etapas:

No console do Amazon Comprehend, escolha Análise em tempo real no painel de navegação.
Debaixo Tipo de análise, selecione Personalizadas.
Escolha Reconhecimento de entidade personalizada, escolha o tipo de modelo personalizado.
Escolha Ponto final, escolha o endpoint em tempo real que você criou para seu modelo de reconhecedor de entidade.
Selecionar Enviar Arquivo e escolha Escolha Arquivo para carregar o PDF ou arquivo de imagem para inferência.
Expandir o Entrada avançada de documentos seção e para Modo de leitura de documento, escolha Serviço padrão.
Escolha Ação de leitura do documento, escolha Textract detecta o texto do documento.
Escolha Analise para analisar o documento em tempo real.

As entidades reconhecidas estão listadas no Insights seção. Cada entidade contém o valor da entidade (o texto), o tipo de entidade conforme definido por você durante o processo de treinamento e a pontuação de confiança correspondente.

Para obter mais detalhes e uma explicação completa sobre como treinar um modelo de reconhecedor de entidade personalizado e usá-lo para realizar inferência assíncrona usando trabalhos de análise assíncrona, consulte Extraia entidades personalizadas de documentos em seu formato nativo com o Amazon Comprehend.

Conclusão

Esta postagem demonstrou como você pode classificar e categorizar documentos semiestruturados em seu formato nativo e detectar entidades específicas de negócios deles usando o Amazon Comprehend. Você pode usar APIs em tempo real para casos de uso de baixa latência ou usar trabalhos de análise assíncrona para processamento de documentos em massa.

Como próximo passo, encorajamos você a visitar o Amazon Comprehend Repositório GitHub para obter exemplos de código completos para experimentar esses novos recursos. Você também pode visitar o Guia do desenvolvedor do Amazon Compreender e Recursos de desenvolvedor do Amazon Comprehend para vídeos, tutoriais, blogs e muito mais.

Sobre os autores

Wrick Talukdar é arquiteto sênior da equipe Amazon Comprehend Service. Ele trabalha com clientes da AWS para ajudá-los a adotar o aprendizado de máquina em grande escala. Fora do trabalho, gosta de ler e fotografar.

Anjan Biswas é arquiteto sênior de soluções de serviços de IA com foco em IA/ML e análise de dados. Anjan faz parte da equipe mundial de serviços de IA e trabalha com clientes para ajudá-los a entender e desenvolver soluções para problemas de negócios com IA e ML. Anjan tem mais de 14 anos de experiência trabalhando com organizações globais de cadeia de suprimentos, manufatura e varejo, e está ajudando ativamente os clientes a começar e escalar nos serviços de IA da AWS.

Godwin Sahayaraj Vicente é um Arquiteto de Soluções Corporativas da AWS que é apaixonado por aprendizado de máquina e fornece orientação aos clientes para projetar, implantar e gerenciar suas cargas de trabalho e arquiteturas da AWS. Nas horas vagas, adora jogar críquete com os amigos e tênis com os três filhos.

Carimbo de hora: 2 de dezembro de 20222 de dezembro de 2022

Mais de Aprendizado de máquina da AWS

Amazon SageMaker Feature Store agora oferece suporte para compartilhamento, descoberta e acesso entre contas | Amazon Web Services

Grupo de origem:

Aprendizado de máquina da AWS

Nó Fonte: 1947390

Carimbo de hora: 13 fevereiro de 2024

AWS realiza ajuste fino em um Large Language Model (LLM) para classificar fala tóxica para uma grande empresa de jogos | Amazon Web Services

Aprendizado de máquina da AWS

Nó Fonte: 1822975

Carimbo de hora: 7 de abril, 2023

Apresentando a classificação em uma etapa e o reconhecimento de entidades com o Amazon Comprehend para processamento inteligente de documentos

Republicado por Platão

Visão geral da solução

Classificação personalizada de documentos

Treine um modelo personalizado de classificação de documentos

Reconhecimento de entidade personalizada

Treine um modelo de reconhecimento de entidade personalizado

Conclusão

Sobre os autores

Mais de Aprendizado de máquina da AWS

Startups nos AWS Accelerators usam IA e ML para resolver desafios de missão crítica dos clientes

Use a visão computacional para medir o rendimento agrícola com os rótulos personalizados do Amazon Rekognition

Previsão fácil e precisa com AutoGluon-TimeSeries

Crie um detector de spam de e-mail usando o Amazon SageMaker | Amazon Web Services

Detecção e monitoramento de alta frequência de fontes pontuais de emissão de metano usando recursos geoespaciais do Amazon SageMaker | Amazon Web Services

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta