Processamento inteligente de documentos com serviços de IA da AWS no setor de seguros: parte 1

Republicado por Platão

seguidores: 0

O objetivo do processamento inteligente de documentos (IDP) é ajudar sua organização a tomar decisões mais rápidas e precisas, aplicando IA para processar sua papelada. Esta série de duas partes destaca as tecnologias de IA da AWS que as seguradoras podem usar para acelerar seus processos de negócios. Essas tecnologias de IA podem ser usadas em casos de uso de seguros, como reclamações, subscrição, correspondência de clientes, contratos ou resolução de disputas. Esta série se concentra em um caso de uso de processamento de sinistros no setor de seguros; para obter mais informações sobre os conceitos fundamentais da solução AWS IDP, consulte o seguinte série de duas partes.

O processamento de reclamações consiste em vários pontos de verificação em um fluxo de trabalho que é necessário para revisar, verificar a autenticidade e determinar a responsabilidade financeira correta para adjudicar uma reclamação. As companhias de seguros passam por esses postos de controle de sinistros antes da adjudicação dos sinistros. Se uma reclamação passar por todos esses pontos de verificação sem problemas, a seguradora aprova e processa qualquer pagamento. No entanto, eles podem exigir informações adicionais de apoio para julgar uma reclamação. Esse processo de processamento de solicitações geralmente é manual, tornando-o caro, propenso a erros e demorado. Os clientes de seguros podem automatizar esse processo usando os serviços de IA da AWS para automatizar o pipeline de processamento de documentos para processamento de sinistros.

Nesta série de duas partes, mostramos como você pode automatizar e processar documentos de maneira inteligente em escala usando os serviços de IA da AWS para um caso de uso de processamento de sinistros de seguro.

Processamento inteligente de documentos com serviços de IA e Analytics da AWS no setor de seguros

Visão geral da solução

O diagrama a seguir representa cada estágio que normalmente vemos em um pipeline de IDP. Percorremos cada uma dessas etapas e como elas se conectam às etapas envolvidas em um processo de solicitação de sinistros, desde o envio de uma solicitação até a investigação e o fechamento da solicitação. Neste post, abordamos os detalhes técnicos das etapas de captura, classificação e extração de dados. Dentro Parte 2, expandimos o estágio de extração de documentos e continuamos a documentar enriquecimento, revisão e verificação, e estendemos a solução para fornecer análises e visualizações para um caso de uso de fraude de sinistros.

O diagrama de arquitetura a seguir mostra os diferentes serviços da AWS usados durante as fases do pipeline IDP de acordo com os diferentes estágios de um aplicativo de processamento de declarações.

Diagrama de arquitetura IDP

A solução usa os seguintes serviços principais:

amazontext é um serviço de aprendizado de máquina (ML) que extrai automaticamente texto, manuscrito e dados de documentos digitalizados. Ele vai além do simples reconhecimento óptico de caracteres (OCR) para identificar, entender e extrair dados de formulários e tabelas. O Amazon Textract usa ML para ler e processar qualquer tipo de documento, extraindo com precisão texto, manuscrito, tabelas e outros dados sem esforço manual.
Amazon Comprehend é um serviço de processamento de linguagem natural (NLP) que usa ML para extrair informações do texto. O Amazon Comprehend pode detectar entidades como pessoa, local, data, quantidade e muito mais. Ele também pode detectar o idioma dominante, informações de identificação pessoal (PII) e classificar documentos em sua classe relevante.
IA aumentada da Amazon (Amazon A2I) é um serviço de ML que facilita a criação dos fluxos de trabalho necessários para revisão humana. O Amazon A2I leva a revisão humana a todos os desenvolvedores, removendo o trabalho pesado indiferenciado associado à criação de sistemas de revisão humana ou ao gerenciamento de um grande número de revisores humanos. O Amazon A2I integra tanto com amazontext e Amazon Comprehend para fornecer a capacidade de introduzir revisão ou validação humana no fluxo de trabalho do IDP.

Pré-requisitos

Nas seções seguintes, percorremos os diferentes serviços relativos às três primeiras fases da arquitetura, ou seja, as fases de captura, classificação e extração de dados.

Consulte o nosso Repositório GitHub para amostras de código completas junto com as amostras de documentos no pacote de processamento de declarações.

Fase de captura de dados

As reclamações e seus documentos de suporte podem vir por vários canais, como fax, e-mail, portal de administração e muito mais. Você pode armazenar esses documentos em um armazenamento altamente escalável e durável, como Serviço de armazenamento simples da Amazon (Amazônia S3). Esses documentos podem ser de vários tipos, como PDF, JPEG, PNG, TIFF e muito mais. Os documentos podem vir em vários formatos e layouts e podem vir de diferentes canais para o armazenamento de dados.

Fase de classificação

No estágio de classificação de documentos, podemos combinar o Amazon Comprehend com o Amazon Textract para converter texto em contexto de documento para classificar os documentos armazenados no estágio de captura de dados. Podemos então usar a classificação personalizada no Amazon Comprehend para organizar documentos em classes que definimos no pacote de processamento de declarações. A classificação personalizada também é útil para automatizar o processo de verificação de documentos e identificar quaisquer documentos ausentes do pacote. Há duas etapas na classificação personalizada, conforme mostrado no diagrama de arquitetura:

Extraia texto usando o Amazon Textract de todos os documentos no armazenamento de dados para preparar dados de treinamento para o classificador personalizado.
Treine um modelo de classificação personalizado do Amazon Comprehend (também chamado de documento classificador) para reconhecer as classes de interesse com base no conteúdo do texto.

Classificação de documentos do pacote de reclamações de seguro

Depois que o modelo de classificação personalizada do Amazon Comprehend for treinado, podemos usar o endpoint em tempo real para classificar documentos. O Amazon Comprehend retorna todas as classes de documentos com uma pontuação de confiança vinculada a cada classe em uma matriz de pares chave-valor (Doc_name - Confidence_score). Recomendamos consultar o código de amostra de classificação de documentos detalhado em GitHub.

Fase de extração

Na fase de extração, extraímos dados de documentos usando o Amazon Textract e o Amazon Comprehend. Para esta postagem, use os seguintes documentos de amostra no pacote de processamento de solicitações: um formulário de solicitação do Centro de Serviços Medicaid e Medicare (CMS)-1500, carteira de motorista e ID do seguro e fatura.

Extraia dados de um formulário de solicitação CMS-1500

O formulário CMS-1500 é o formulário de solicitação padrão usado por um provedor ou fornecedor não institucional para faturar as operadoras do Medicare.

É importante processar o formulário CMS-1500 com precisão, caso contrário, pode atrasar o processo de reclamação ou atrasar o pagamento pela transportadora. Com o Amazon Textract AnalyzeDocument API, podemos acelerar o processo de extração com maior precisão para extrair texto de documentos para entender mais informações no formulário de solicitação. O seguinte é um documento de amostra de um formulário de solicitação CMS-1500.

Um formulário de reivindicação CMS1500

Agora usamos o AnalyzeDocument API para extrair dois FeatureTypes, FORMS e TABLES, do documento:

from IPython.display import display, JSON
form_resp = textract.analyze_document(Document={'S3Object':{"Bucket": data_bucket, "Name": cms_key}}, FeatureTypes=['FORMS', 'TABLES'])

# print tables
print(get_string(textract_json=form_resp, output_type=[Textract_Pretty_Print.TABLES], table_format=Pretty_Print_Table_Format.fancy_grid))

# using our constructed helper function - values returned as a dictionary

display(JSON(getformkeyvalue(form_resp), root="Claim Form"))

Os resultados a seguir foram reduzidos para melhor legibilidade. Para informações mais detalhadas, consulte nosso Repo do GitHub.

A FORMS extração é identificada como pares chave-valor.

A TABLES extração contém células, células mescladas e cabeçalhos de coluna em uma tabela detectada no formulário de solicitação.

Extração de tabelas do formulário CMS1500

Extraia dados de documentos de identificação

Para documentos de identidade como ID de seguro, que podem ter layouts diferentes, podemos usar o Amazon Textract AnalyzeDocument API. Nós usamos o FeatureType FORMS como a configuração do AnalyzeDocument API para extrair os pares de chave-valor do ID do seguro (veja o exemplo a seguir):

Execute o seguinte código:

ins_form_resp = textract.analyze_document(Document={'S3Object':{"Bucket": data_bucket, "Name": ins_card_key}}, FeatureTypes=['FORMS'])

# using our constructed helper function - values returned as a dictionary

display(JSON(getformkeyvalue(ins_form_resp), root="Insurance card"))

Obtemos os pares chave-valor na matriz de resultados, conforme mostrado na captura de tela a seguir.

Para documentos de identificação, como carteira de motorista ou passaporte dos EUA, o Amazon Textract oferece suporte especializado para extrair automaticamente os principais termos sem a necessidade de modelos ou formatos, diferentemente do que vimos anteriormente para o exemplo de ID de seguro. Com o AnalyzeID API, as empresas podem extrair informações de forma rápida e precisa de documentos de identificação que possuem diferentes modelos ou formatos. o AnalyzeID A API retorna duas categorias de tipos de dados:

Pares de valores-chave disponíveis no ID, como data de nascimento, data de emissão, número do ID, classe e restrições
Campos implícitos no documento que podem não ter chaves explícitas associadas a eles, como nome, endereço e emissor

Usamos a seguinte amostra de carteira de motorista dos EUA de nosso pacote de processamento de reivindicações.

Execute o seguinte código:

ID_resp = textract.analyze_id(DocumentPages=[{'S3Object':{"Bucket": data_bucket, "Name": key}}])

# once again using the textract response parser
from trp.trp2_analyzeid import TAnalyzeIdDocument, TAnalyzeIdDocumentSchema

t_doc = TAnalyzeIdDocumentSchema().load(ID_resp)

list_of_results = t_doc.get_values_as_list()
print(tabulate([x[1:3] for x in list_of_results]))

A captura de tela a seguir mostra nosso resultado.

A partir da captura de tela dos resultados, você pode observar que são apresentadas determinadas chaves que não estavam na própria carteira de motorista. Por exemplo, Veteran não é uma chave encontrada na licença; no entanto, é um valor-chave pré-preenchido que AnalyzeID suporta, devido às diferenças encontradas nas licenças entre os estados.

Extraia dados de faturas e recibos

Semelhante ao AnalyzeID API, o AnalyzeExpense A API fornece suporte especializado para faturas e recibos para extrair informações relevantes, como nome do fornecedor, subtotais e valores totais e muito mais, de qualquer formato de documentos de fatura. Você não precisa de nenhum modelo ou configuração para extração. O Amazon Textract usa ML para entender o contexto de faturas e recibos ambíguos.

O seguinte é um exemplo de fatura de seguro médico.

Exemplo de fatura de seguro

Usamos o AnalyzeExpense API para ver uma lista de campos padronizados. Os campos que não são reconhecidos como campos padrão são categorizados como OTHER:

expense_resp = textract.analyze_expense(Document={'S3Object':{"Bucket": data_bucket, "Name": invc_key}})

# print invoice summary

print(get_expensesummary_string(textract_json=expense_resp, table_format=Pretty_Print_Table_Format.fancy_grid))

# print invoice line items

print(get_expenselineitemgroups_string(textract_json=expense_resp, table_format=Pretty_Print_Table_Format.fancy_grid))

Obtemos a seguinte lista de campos como pares de valores-chave (veja a captura de tela à esquerda) e toda a linha de itens de linha individuais comprados (veja a captura de tela à direita) nos resultados.

Processamento inteligente de documentos com serviços de IA da AWS no setor de seguros: parte 1 PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

Conclusão

Neste post, mostramos os desafios comuns no processamento de reclamações e como podemos usar os serviços de IA da AWS para automatizar um pipeline de processamento de documentos inteligente para julgar automaticamente uma reclamação. Vimos como classificar documentos em várias classes de documentos usando um classificador personalizado do Amazon Comprehend e como usar o Amazon Textract para extrair tipos de documentos não estruturados, semiestruturados, estruturados e especializados.

In Parte 2, expandimos a fase de extração com o Amazon Textract. Também usamos entidades predefinidas do Amazon Comprehend e entidades personalizadas para enriquecer os dados e mostramos como estender o pipeline de IDP para integração com serviços de análise e visualização para processamento adicional.

Recomendamos revisar as seções de segurança do Texto Amazon, Compreender a Amazônia, e Amazônia A2I documentação e seguindo as orientações fornecidas. Para saber mais sobre os preços da solução, consulte os detalhes de preços de Texto Amazon, Amazon Comprehend e Amazônia A2I.

Sobre os autores

Chinmayee Rane é arquiteto de soluções especialista em IA/ML na Amazon Web Services. Ela é apaixonada por matemática aplicada e aprendizado de máquina. Ela se concentra em projetar soluções inteligentes de processamento de documentos para clientes da AWS. Fora do trabalho, ela gosta de dançar salsa e bachata.

Sonali Sahu está liderando a equipe do Intelligent Document Processing AI/ML Solutions Architect na Amazon Web Services. Ela é uma tecnófila apaixonada e gosta de trabalhar com clientes para resolver problemas complexos usando inovação. Sua principal área de foco é inteligência artificial e aprendizado de máquina para processamento inteligente de documentos.

Tim Condello é arquiteto de soluções especialista em IA/ML sênior na Amazon Web Services. Seu foco é processamento de linguagem natural e visão computacional. Tim gosta de pegar as ideias dos clientes e transformá-las em soluções escaláveis.

Carimbo de hora: 3 de novembro de 2022 4 de novembro de 2022

Carimbo de hora: 2 de maio de 2023

Processamento inteligente de documentos com serviços de IA da AWS no setor de seguros: parte 1

Republicado por Platão

Visão geral da solução

Pré-requisitos

Fase de captura de dados

Fase de classificação

Fase de extração

Extraia dados de um formulário de solicitação CMS-1500

Extraia dados de documentos de identificação

Extraia dados de faturas e recibos

Conclusão

Sobre os autores

Mais de Aprendizado de máquina da AWS

Crie conjuntos de dados prontos para machine learning a partir do Amazon SageMaker offline Feature Store usando o Amazon SageMaker Python SDK | Amazon Web Services

A jornada do assistente virtual generativo de IA do PGA TOUR, do conceito ao desenvolvimento e ao protótipo | Amazon Web Services

Implementando o Amazon Forecast no setor de varejo: uma jornada do POC à produção

Personalize suas recomendações promovendo itens específicos usando regras de negócios com o Amazon Personalize

Apresentando o programa de modelo personalizado do AWS Generative AI Innovation Center para Anthropic Claude | Amazon Web Services

Acelere fluxos de trabalho multilíngues com uma solução de tradução personalizável criada com o Amazon Translate

Padrões de hospedagem de modelos no SageMaker: práticas recomendadas para testar e atualizar modelos no SageMaker

Amazon SageMaker com TensorBoard: uma visão geral de uma experiência hospedada do TensorBoard

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta