Cree un reconocedor de entidades personalizado para documentos PDF con Amazon Comprehend

Reeditado por Platón

seguidores: 0

En muchas industrias, es fundamental extraer entidades personalizadas de los documentos de manera oportuna. Esto puede ser un reto. Las reclamaciones de seguros, por ejemplo, a menudo contienen docenas de atributos importantes (como fechas, nombres, ubicaciones e informes) esparcidos en documentos extensos y densos. Escanear y extraer manualmente dicha información puede ser propenso a errores y llevar mucho tiempo. El software basado en reglas puede ayudar, pero en última instancia es demasiado rígido para adaptarse a los diferentes tipos y diseños de documentos.

Para ayudar a automatizar y acelerar este proceso, puede utilizar Amazon Comprehend para detectar entidades personalizadas de forma rápida y precisa mediante el aprendizaje automático (ML). Este enfoque es flexible y preciso, porque el sistema puede adaptarse a nuevos documentos utilizando lo que ha aprendido en el pasado. Sin embargo, hasta hace poco tiempo, esta capacidad solo podía aplicarse a documentos de texto sin formato, lo que significaba que la información de posición se perdía al convertir los documentos de su formato nativo. Para abordar esto, fue anunció recientemente que Amazon Comprehend puede extraer entidades personalizadas en archivos PDF, imágenes y formatos de archivo de Word.

En esta publicación, analizamos un ejemplo concreto de la industria de seguros de cómo puede crear un reconocedor personalizado utilizando anotaciones en PDF.

Resumen de la solución

Lo guiamos a través de los siguientes pasos de alto nivel:

Crea anotaciones en PDF.
Utilice las anotaciones de PDF para entrenar un modelo personalizado mediante la API de Python.
Obtenga métricas de evaluación del modelo entrenado.
Realizar inferencias sobre un documento no visto.

Al final de esta publicación, queremos poder enviar un documento PDF sin formato a nuestro modelo entrenado y que genere un archivo estructurado con información sobre nuestras etiquetas de interés. En particular, entrenamos nuestro modelo para detectar las siguientes cinco entidades que elegimos debido a su relevancia para las reclamaciones de seguros: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLossy InsuredMailingAddress. Después de leer la salida estructurada, podemos visualizar la información de la etiqueta directamente en el documento PDF, como en la siguiente imagen.

Esta publicación va acompañada de un cuaderno Jupyter que contiene los mismos pasos. Siéntase libre de seguir mientras ejecuta los pasos en ese cuaderno. Tenga en cuenta que debe configurar el Amazon SageMaker entorno para permitir que Amazon Comprehend lea de Servicio de almacenamiento simple de Amazon (Amazon S3) como se describe en la parte superior del portátil.

Crear anotaciones en PDF

Para crear anotaciones para documentos PDF, puede utilizar Verdad fundamental de Amazon SageMaker, un servicio de etiquetado de datos totalmente administrado que facilita la creación de conjuntos de datos de entrenamiento de alta precisión para ML.

Para este tutorial, ya hemos anotado los archivos PDF en su forma nativa (sin convertirlos a texto sin formato) usando Ground Truth. El trabajo de Ground Truth genera tres rutas que necesitamos para entrenar nuestro modelo personalizado de Amazon Comprehend:

Fuentes – La ruta a los archivos PDF de entrada.
Anotaciones – La ruta a los archivos JSON de anotación que contienen la información de la entidad etiquetada.
Manifiesto – El archivo que apunta a la ubicación de las anotaciones y los PDF de origen. Este archivo se utiliza para crear un trabajo de entrenamiento de reconocimiento de entidades personalizado de Amazon Comprehend y entrenar un modelo personalizado.

La siguiente captura de pantalla muestra una anotación de muestra.

El trabajo Ground Truth personalizado genera una anotación en PDF que captura información a nivel de bloque sobre la entidad. Dicha información a nivel de bloque proporciona las coordenadas de posición precisas de la entidad (con los bloques secundarios que representan cada palabra dentro del bloque de entidad). Esto es distinto de un trabajo de Ground Truth estándar en el que los datos en el PDF se aplanan a formato de texto y solo se captura la información de desplazamiento, pero no la información de coordenadas precisas, durante la anotación. La rica información posicional que obtenemos con este paradigma de anotación personalizada nos permite entrenar un modelo más preciso.

El manifiesto que se genera a partir de este tipo de trabajo se denomina manifiesto aumentado, a diferencia de un CSV que se usa para las anotaciones estándar. Para más información, ver Anotaciones.

Use las anotaciones de PDF para entrenar un modelo personalizado usando la API de Python

Un archivo de manifiesto aumentado debe estar formateado en formato JSON Lines. En formato JSON Lines, cada línea del archivo es un objeto JSON completo seguido de un separador de nueva línea.

El siguiente código es una entrada dentro de este archivo de manifiesto aumentado.

Algunas cosas a tener en cuenta:

Cinco tipos de etiquetado están asociados con este trabajo: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLossy InsuredMailingAddress.
El archivo de manifiesto hace referencia tanto a la ubicación del PDF de origen como a la ubicación de la anotación.
Se capturan los metadatos sobre el trabajo de anotación (como la fecha de creación).
Use-textract-only se establece a False, lo que significa que la herramienta de anotación decide si usar PDFPlumber (para un PDF nativo) o Amazon Textil (para un PDF escaneado). Si se establece en true, Amazon Textract se usa en cualquier caso (que es más costoso pero potencialmente más preciso).

Ahora podemos entrenar el reconocedor, como se muestra en el siguiente código de ejemplo.

Creamos un reconocedor para reconocer los cinco tipos de entidades. Podríamos haber usado un subconjunto de estas entidades si hubiéramos preferido. Puede utilizar hasta 25 entidades.

Para obtener más información sobre cada parámetro, consulte crear_entidad_recognizer.

Dependiendo del tamaño del conjunto de entrenamiento, el tiempo de entrenamiento puede variar. Para este conjunto de datos, el entrenamiento toma aproximadamente 1 hora. Para monitorear el estado del trabajo de entrenamiento, puede usar el describe_entity_recognizer API.

Obtener métricas de evaluación del modelo entrenado

Amazon Comprehend proporciona métricas de rendimiento del modelo para un modelo entrenado, lo que indica qué tan bien se espera que el modelo entrenado haga predicciones utilizando entradas similares. Podemos obtener tanto precisión global y métricas de recuperación como métricas por entidad. Un modelo preciso tiene alta precisión y alta recuperación. Alta precisión significa que el modelo suele ser correcto cuando indica una etiqueta en particular; recuerdo alto significa que el modelo encontró la mayoría de las etiquetas. F1 es una métrica compuesta (media armónica) de estas medidas y, por lo tanto, es alta cuando ambos componentes son altos. Para obtener una descripción detallada de las métricas, consulte Métricas de reconocimiento de entidades personalizadas.

Cuando proporciona los documentos para el trabajo de capacitación, Amazon Comprehend los separa automáticamente en un conjunto de capacitación y prueba. Cuando el modelo ha alcanzado TRAINED estado, puede utilizar el describe_entity_recognizer API de nuevo para obtener las métricas de evaluación en el conjunto de prueba.

El siguiente es un ejemplo de métricas globales.

El siguiente es un ejemplo de métricas por entidad.

Las puntuaciones altas indican que el modelo ha aprendido bien a detectar estas entidades.

Realizar inferencias en un documento no visto

Hagamos una inferencia con nuestro modelo entrenado en un documento que no formaba parte del procedimiento de entrenamiento. Podemos usar esta API asíncrona para NER estándar o personalizado. Si lo usa para NER personalizado (como en esta publicación), debemos pasar el ARN del modelo entrenado.

Podemos revisar el trabajo enviado imprimiendo la respuesta.

Podemos formatear la salida del trabajo de detección con Pandas en una tabla. Él Score El valor indica el nivel de confianza que tiene el modelo sobre la entidad.

Finalmente, podemos superponer las predicciones en los documentos no vistos, lo que da el resultado que se muestra en la parte superior de esta publicación.

Conclusión

En esta publicación, vio cómo extraer entidades personalizadas en su formato PDF nativo utilizando Amazon Comprehend. Como próximos pasos, considere profundizar más:

Entrene a su propio reconocedor usando el cuaderno adjunto esta página. Recuerde eliminar cualquier recurso cuando termine para evitar cargos futuros.
Configure su propio trabajo de anotación personalizado para recopilar anotaciones en PDF para sus entidades de interés. Para obtener más información, consulte Anotación de documentos personalizada para extraer entidades con nombre en documentos mediante Amazon Comprehend.
Entrene un modelo NER personalizado en la consola de Amazon Comprehend. Para más información, ver Extraiga entidades personalizadas de documentos en su formato nativo con Amazon Comprehend.

Acerca de los autores

Josué Levy es científico aplicado sénior en el laboratorio de soluciones de aprendizaje automático de Amazon, donde ayuda a los clientes a diseñar y crear soluciones de inteligencia artificial/aprendizaje automático para resolver problemas comerciales clave.

Andrés Ang es ingeniero de aprendizaje automático en el laboratorio de soluciones de aprendizaje automático de Amazon, donde ayuda a los clientes de un espectro diverso de industrias a identificar y crear soluciones de inteligencia artificial/aprendizaje automático para resolver sus problemas comerciales más apremiantes. Fuera del trabajo, disfruta viendo vlogs de viajes y comida.

Alex Chirayath es ingeniero de software en el laboratorio de soluciones de aprendizaje automático de Amazon y se enfoca en crear soluciones basadas en casos de uso que muestran a los clientes cómo desbloquear el poder de los servicios de IA/ML de AWS para resolver problemas comerciales del mundo real.

jennifer zhu es un científico aplicado del laboratorio de soluciones de aprendizaje automático de Amazon AI. Trabaja con los clientes de AWS en la creación de soluciones de IA/ML para sus necesidades comerciales de alta prioridad.

Niharika Jayanthi es ingeniero front-end en el equipo Human in the Loop del laboratorio de soluciones de aprendizaje automático de Amazon. Ayuda a crear soluciones de experiencia de usuario para los clientes de Amazon SageMaker Ground Truth.

Boris Aronchik es Gerente en el Laboratorio de Soluciones de Aprendizaje Automático de IA de Amazon, donde dirige un equipo de Científicos e Ingenieros de ML para ayudar a los clientes de AWS a alcanzar los objetivos comerciales aprovechando las soluciones de IA/ML.

Sello de tiempo: Abril 8, 2022

Sello de tiempo: 29 de marzo, 2022

Cree un reconocedor de entidades personalizado para documentos PDF con Amazon Comprehend

Reeditado por Platón

Resumen de la solución

Crear anotaciones en PDF

Use las anotaciones de PDF para entrenar un modelo personalizado usando la API de Python

Obtener métricas de evaluación del modelo entrenado

Realizar inferencias en un documento no visto

Conclusión

Acerca de los autores

Mas de Aprendizaje automático de AWS

Inferencia de aprendizaje automático rentable con modelos de varios marcos en Amazon SageMaker

Amazon Rekognition presenta Streaming Video Events para proporcionar alertas en tiempo real sobre transmisiones de video en vivo

Reduzca el consumo de energía de sus cargas de trabajo de aprendizaje automático hasta en un 90 % con los aceleradores especialmente diseñados de AWS | Servicios web de Amazon

Chronomics detecta los resultados de las pruebas de COVID-19 con las etiquetas personalizadas de Amazon Rekognition

T-Mobile US, Inc. utiliza inteligencia artificial a través de Amazon Transcribe y Amazon Translate para entregar mensajes de voz en el idioma elegido por sus clientes | Servicios web de Amazon

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta