En muchas industrias, es fundamental extraer entidades personalizadas de los documentos de manera oportuna. Esto puede ser un reto. Las reclamaciones de seguros, por ejemplo, a menudo contienen docenas de atributos importantes (como fechas, nombres, ubicaciones e informes) esparcidos en documentos extensos y densos. Escanear y extraer manualmente dicha información puede ser propenso a errores y llevar mucho tiempo. El software basado en reglas puede ayudar, pero en última instancia es demasiado rígido para adaptarse a los diferentes tipos y diseños de documentos.
Para ayudar a automatizar y acelerar este proceso, puede utilizar Amazon Comprehend para detectar entidades personalizadas de forma rápida y precisa mediante el aprendizaje automático (ML). Este enfoque es flexible y preciso, porque el sistema puede adaptarse a nuevos documentos utilizando lo que ha aprendido en el pasado. Sin embargo, hasta hace poco tiempo, esta capacidad solo podía aplicarse a documentos de texto sin formato, lo que significaba que la información de posición se perdía al convertir los documentos de su formato nativo. Para abordar esto, fue anunció recientemente que Amazon Comprehend puede extraer entidades personalizadas en archivos PDF, imágenes y formatos de archivo de Word.
En esta publicación, analizamos un ejemplo concreto de la industria de seguros de cómo puede crear un reconocedor personalizado utilizando anotaciones en PDF.
Resumen de la solución
Lo guiamos a través de los siguientes pasos de alto nivel:
- Crea anotaciones en PDF.
- Utilice las anotaciones de PDF para entrenar un modelo personalizado mediante la API de Python.
- Obtenga métricas de evaluación del modelo entrenado.
- Realizar inferencias sobre un documento no visto.
Al final de esta publicación, queremos poder enviar un documento PDF sin formato a nuestro modelo entrenado y que genere un archivo estructurado con información sobre nuestras etiquetas de interés. En particular, entrenamos nuestro modelo para detectar las siguientes cinco entidades que elegimos debido a su relevancia para las reclamaciones de seguros: DateOfForm
, DateOfLoss
, NameOfInsured
, LocationOfLoss
y InsuredMailingAddress
. Después de leer la salida estructurada, podemos visualizar la información de la etiqueta directamente en el documento PDF, como en la siguiente imagen.
Esta publicación va acompañada de un cuaderno Jupyter que contiene los mismos pasos. Siéntase libre de seguir mientras ejecuta los pasos en ese cuaderno. Tenga en cuenta que debe configurar el Amazon SageMaker entorno para permitir que Amazon Comprehend lea de Servicio de almacenamiento simple de Amazon (Amazon S3) como se describe en la parte superior del portátil.
Crear anotaciones en PDF
Para crear anotaciones para documentos PDF, puede utilizar Verdad fundamental de Amazon SageMaker, un servicio de etiquetado de datos totalmente administrado que facilita la creación de conjuntos de datos de entrenamiento de alta precisión para ML.
Para este tutorial, ya hemos anotado los archivos PDF en su forma nativa (sin convertirlos a texto sin formato) usando Ground Truth. El trabajo de Ground Truth genera tres rutas que necesitamos para entrenar nuestro modelo personalizado de Amazon Comprehend:
- Fuentes – La ruta a los archivos PDF de entrada.
- Anotaciones – La ruta a los archivos JSON de anotación que contienen la información de la entidad etiquetada.
- Manifiesto – El archivo que apunta a la ubicación de las anotaciones y los PDF de origen. Este archivo se utiliza para crear un trabajo de entrenamiento de reconocimiento de entidades personalizado de Amazon Comprehend y entrenar un modelo personalizado.
La siguiente captura de pantalla muestra una anotación de muestra.
El trabajo Ground Truth personalizado genera una anotación en PDF que captura información a nivel de bloque sobre la entidad. Dicha información a nivel de bloque proporciona las coordenadas de posición precisas de la entidad (con los bloques secundarios que representan cada palabra dentro del bloque de entidad). Esto es distinto de un trabajo de Ground Truth estándar en el que los datos en el PDF se aplanan a formato de texto y solo se captura la información de desplazamiento, pero no la información de coordenadas precisas, durante la anotación. La rica información posicional que obtenemos con este paradigma de anotación personalizada nos permite entrenar un modelo más preciso.
El manifiesto que se genera a partir de este tipo de trabajo se denomina manifiesto aumentado, a diferencia de un CSV que se usa para las anotaciones estándar. Para más información, ver Anotaciones.
Use las anotaciones de PDF para entrenar un modelo personalizado usando la API de Python
Un archivo de manifiesto aumentado debe estar formateado en formato JSON Lines. En formato JSON Lines, cada línea del archivo es un objeto JSON completo seguido de un separador de nueva línea.
El siguiente código es una entrada dentro de este archivo de manifiesto aumentado.
Algunas cosas a tener en cuenta:
- Cinco tipos de etiquetado están asociados con este trabajo:
DateOfForm
,DateOfLoss
,NameOfInsured
,LocationOfLoss
yInsuredMailingAddress
. - El archivo de manifiesto hace referencia tanto a la ubicación del PDF de origen como a la ubicación de la anotación.
- Se capturan los metadatos sobre el trabajo de anotación (como la fecha de creación).
Use-textract-only
se establece aFalse
, lo que significa que la herramienta de anotación decide si usar PDFPlumber (para un PDF nativo) o Amazon Textil (para un PDF escaneado). Si se establece entrue
, Amazon Textract se usa en cualquier caso (que es más costoso pero potencialmente más preciso).
Ahora podemos entrenar el reconocedor, como se muestra en el siguiente código de ejemplo.
Creamos un reconocedor para reconocer los cinco tipos de entidades. Podríamos haber usado un subconjunto de estas entidades si hubiéramos preferido. Puede utilizar hasta 25 entidades.
Para obtener más información sobre cada parámetro, consulte crear_entidad_recognizer.
Dependiendo del tamaño del conjunto de entrenamiento, el tiempo de entrenamiento puede variar. Para este conjunto de datos, el entrenamiento toma aproximadamente 1 hora. Para monitorear el estado del trabajo de entrenamiento, puede usar el describe_entity_recognizer
API.
Obtener métricas de evaluación del modelo entrenado
Amazon Comprehend proporciona métricas de rendimiento del modelo para un modelo entrenado, lo que indica qué tan bien se espera que el modelo entrenado haga predicciones utilizando entradas similares. Podemos obtener tanto precisión global y métricas de recuperación como métricas por entidad. Un modelo preciso tiene alta precisión y alta recuperación. Alta precisión significa que el modelo suele ser correcto cuando indica una etiqueta en particular; recuerdo alto significa que el modelo encontró la mayoría de las etiquetas. F1 es una métrica compuesta (media armónica) de estas medidas y, por lo tanto, es alta cuando ambos componentes son altos. Para obtener una descripción detallada de las métricas, consulte Métricas de reconocimiento de entidades personalizadas.
Cuando proporciona los documentos para el trabajo de capacitación, Amazon Comprehend los separa automáticamente en un conjunto de capacitación y prueba. Cuando el modelo ha alcanzado TRAINED
estado, puede utilizar el describe_entity_recognizer
API de nuevo para obtener las métricas de evaluación en el conjunto de prueba.
El siguiente es un ejemplo de métricas globales.
El siguiente es un ejemplo de métricas por entidad.
Las puntuaciones altas indican que el modelo ha aprendido bien a detectar estas entidades.
Realizar inferencias en un documento no visto
Hagamos una inferencia con nuestro modelo entrenado en un documento que no formaba parte del procedimiento de entrenamiento. Podemos usar esta API asíncrona para NER estándar o personalizado. Si lo usa para NER personalizado (como en esta publicación), debemos pasar el ARN del modelo entrenado.
Podemos revisar el trabajo enviado imprimiendo la respuesta.
Podemos formatear la salida del trabajo de detección con Pandas en una tabla. Él Score
El valor indica el nivel de confianza que tiene el modelo sobre la entidad.
Finalmente, podemos superponer las predicciones en los documentos no vistos, lo que da el resultado que se muestra en la parte superior de esta publicación.
Conclusión
En esta publicación, vio cómo extraer entidades personalizadas en su formato PDF nativo utilizando Amazon Comprehend. Como próximos pasos, considere profundizar más:
- Entrene a su propio reconocedor usando el cuaderno adjunto esta página. Recuerde eliminar cualquier recurso cuando termine para evitar cargos futuros.
- Configure su propio trabajo de anotación personalizado para recopilar anotaciones en PDF para sus entidades de interés. Para obtener más información, consulte Anotación de documentos personalizada para extraer entidades con nombre en documentos mediante Amazon Comprehend.
- Entrene un modelo NER personalizado en la consola de Amazon Comprehend. Para más información, ver Extraiga entidades personalizadas de documentos en su formato nativo con Amazon Comprehend.
Acerca de los autores
Josué Levy es científico aplicado sénior en el laboratorio de soluciones de aprendizaje automático de Amazon, donde ayuda a los clientes a diseñar y crear soluciones de inteligencia artificial/aprendizaje automático para resolver problemas comerciales clave.
Andrés Ang es ingeniero de aprendizaje automático en el laboratorio de soluciones de aprendizaje automático de Amazon, donde ayuda a los clientes de un espectro diverso de industrias a identificar y crear soluciones de inteligencia artificial/aprendizaje automático para resolver sus problemas comerciales más apremiantes. Fuera del trabajo, disfruta viendo vlogs de viajes y comida.
Alex Chirayath es ingeniero de software en el laboratorio de soluciones de aprendizaje automático de Amazon y se enfoca en crear soluciones basadas en casos de uso que muestran a los clientes cómo desbloquear el poder de los servicios de IA/ML de AWS para resolver problemas comerciales del mundo real.
jennifer zhu es un científico aplicado del laboratorio de soluciones de aprendizaje automático de Amazon AI. Trabaja con los clientes de AWS en la creación de soluciones de IA/ML para sus necesidades comerciales de alta prioridad.
Niharika Jayanthi es ingeniero front-end en el equipo Human in the Loop del laboratorio de soluciones de aprendizaje automático de Amazon. Ayuda a crear soluciones de experiencia de usuario para los clientes de Amazon SageMaker Ground Truth.
Boris Aronchik es Gerente en el Laboratorio de Soluciones de Aprendizaje Automático de IA de Amazon, donde dirige un equipo de Científicos e Ingenieros de ML para ayudar a los clientes de AWS a alcanzar los objetivos comerciales aprovechando las soluciones de IA/ML.
- Coinsmart. El mejor intercambio de Bitcoin y criptografía de Europa.
- Platoblockchain. Inteligencia del Metaverso Web3. Conocimiento amplificado. ACCESO LIBRE.
- CriptoHawk. Radar de altcoins. Prueba gratis.
- Fuente: https://aws.amazon.com/blogs/machine-learning/build-a-custom-entity-recognizer-for-pdf-documents-using-amazon-comprehend/
- "
- &
- 100
- Sobre
- preciso
- a través de
- dirección
- AI
- Todos
- ya haya utilizado
- Amazon
- abejas
- enfoque
- aproximadamente
- atributos
- aumentado
- automatizado
- AWS
- Bloquear
- build
- Construir la
- desafiante
- cargos
- sus hijos
- reclamaciones
- código
- recoger
- confianza
- Consola
- contiene
- coordinar
- podría
- creación
- crítico
- personalizado
- Clientes
- datos
- Fechas
- más profundo
- Diseño
- Detección
- directamente
- documentos
- ingeniero
- certificados
- entidades
- Entorno
- ejemplo
- esperado
- experience
- flexible
- seguir
- siguiendo
- Comida
- formulario
- formato
- encontrado
- Gratuito
- futuras
- Buscar
- Goals
- ayuda
- ayuda
- Alta
- altamente
- Cómo
- Como Hacer
- HTTPS
- humana
- Identifique
- imagen
- importante
- industrias
- energético
- información
- Las opciones de entrada
- aseguradora
- intereses
- IT
- Trabajos
- Clave
- el lab
- etiquetado
- Etiquetas
- Prospectos
- aprendido
- aprendizaje
- Nivel
- aprovechando
- línea
- Ubicación
- .
- máquina
- máquina de aprendizaje
- HACE
- gestionado
- gerente
- manera
- a mano
- sentido
- Métrica
- ML
- modelo
- Monitorear
- más,
- MEJOR DE TU
- nombres
- cuaderno
- compensar
- EL DESARROLLADOR
- paradigma
- (PDF)
- actuación
- industria
- Predicciones
- problemas
- proporcionar
- proporciona un
- con rapidez
- Crudo
- Reading
- mundo real
- darse cuenta de
- reconocer
- Informes
- Recursos
- respuesta
- una estrategia SEO para aparecer en las búsquedas de Google.
- Ejecutar
- correr
- exploración
- Científico
- los científicos
- de coches
- Servicios
- set
- similares
- sencillos
- Tamaño
- Software
- Ingeniero de Software
- Soluciones
- RESOLVER
- velocidad
- estándar
- Estado
- STORAGE
- estructurado
- Subido
- te
- equipo
- test
- La Fuente
- A través de esta formación, el personal docente y administrativo de escuelas y universidades estará preparado para manejar los recursos disponibles que derivan de la diversidad cultural de sus estudiantes. Además, un mejor y mayor entendimiento sobre estas diferencias y similitudes culturales permitirá alcanzar los objetivos de inclusión previstos.
- equipo
- prolongado
- del IRS
- parte superior
- Formación
- viajes
- desbloquear
- us
- utilizan el
- generalmente
- propuesta de
- ¿
- sean
- mientras
- dentro de
- sin
- Actividades:
- funciona
- mundo