Modere, clasifique y procese documentos con Amazon Rekognition y Amazon Textract

Reeditado por Platón

seguidores: 0

Muchas empresas se ven abrumadas por el abundante volumen de documentos que tienen que procesar, organizar y clasificar para servir mejor a sus clientes. Ejemplos de tales pueden ser solicitudes de préstamo, declaración de impuestos y facturación. Dichos documentos se reciben más comúnmente en formatos de imagen y en su mayoría son de varias páginas y en formato de baja calidad. Para ser más competitivas y rentables, y para mantenerse seguras y en cumplimiento al mismo tiempo, estas empresas deben desarrollar sus capacidades de procesamiento de documentos para reducir los tiempos de procesamiento y mejorar la precisión de la clasificación de forma automatizada y escalable. Estas empresas enfrentan los siguientes desafíos en el procesamiento de documentos:

Moderar los documentos para detectar contenido inapropiado, no deseado u ofensivo
La clasificación manual de documentos, que es adoptada por empresas más pequeñas, requiere mucho tiempo, es propensa a errores y costosa
Las técnicas de OCR con sistemas basados en reglas no son lo suficientemente inteligentes y no pueden adaptarse a los cambios en el formato del documento.
Las empresas que adoptan enfoques de aprendizaje automático (ML) a menudo no tienen recursos para escalar su modelo para manejar picos en el volumen de documentos entrantes.

Esta publicación aborda estos desafíos y proporciona una arquitectura que resuelve estos problemas de manera eficiente. Te mostramos cómo puedes usar Reconocimiento de amazonas y Amazon Textil para optimizar y reducir los esfuerzos humanos en el procesamiento de documentos. Amazon Rekognition identifica etiquetas de moderación en su documento y las clasifica usando Etiquetas personalizadas de Amazon Rekognition. Amazon Textract extrae texto de sus documentos.

En esta publicación, cubrimos la creación de dos canalizaciones de ML (entrenamiento e inferencia) para procesar documentos sin necesidad de ningún esfuerzo manual o código personalizado. Los pasos de alto nivel en la tubería de inferencia incluyen:

Realice la moderación de los documentos cargados mediante Amazon Rekognition.
Clasifique los documentos en diferentes categorías, como W-2, facturas, extractos bancarios y talones de pago utilizando las etiquetas personalizadas de Rekognition.
Extraiga texto de documentos como texto impreso, escrito a mano, formularios y tablas con Amazon Textract.

Resumen de la solución

Esta solución utiliza los siguientes servicios de IA, tecnologías sin servidor y servicios administrados para implementar una arquitectura escalable y rentable:

Amazon DynamoDB - Una base de datos de documentos y valores clave que ofrece un rendimiento de milisegundos de un solo dígito a cualquier escala.
Puente de eventos de Amazon – Un bus de eventos sin servidor para crear aplicaciones basadas en eventos a escala utilizando eventos generados a partir de sus aplicaciones, aplicaciones integradas de software como servicio (SaaS) y servicios de AWS.
AWS Lambda – Un servicio de cómputo sin servidor que le permite ejecutar código en respuesta a disparadores como cambios en los datos, cambios en el estado del sistema o acciones del usuario.
Reconocimiento de amazonas – Utiliza ML para identificar objetos, personas, texto, escenas y actividades en imágenes y videos, así como para detectar cualquier contenido inapropiado.
Etiquetas personalizadas de Amazon Rekognition – Utiliza AutoML para la visión por computadora y el aprendizaje de transferencia para ayudarlo a entrenar modelos personalizados para identificar los objetos y escenas en imágenes que son específicas para sus necesidades comerciales.
Servicio de almacenamiento simple de Amazon (Amazon S3) – Sirve como un almacén de objetos para sus documentos y permite una administración central con controles de acceso ajustados.
Funciones de paso de Amazon – Un orquestador de funciones sin servidor que facilita la secuenciación de funciones de Lambda y múltiples servicios en aplicaciones críticas para el negocio.
Amazon Textil - Utiliza ML para extraer texto y datos de documentos escaneados en formatos PDF, JPEG o PNG.

El siguiente diagrama ilustra la arquitectura de la canalización de inferencia.

Nuestro flujo de trabajo incluye los siguientes pasos:

El usuario carga documentos en el depósito S3 de entrada.
La carga desencadena un Notificación de eventos de Amazon S3 para entregar eventos en tiempo real directamente a EventBridge. Los eventos de Amazon S3 que coinciden con el “object created” filtro definido para un Regla de EventBridge inicia el flujo de trabajo de Step Functions.
El flujo de trabajo de Step Functions activa una serie de funciones de Lambda, que realizan las siguientes tareas:
1. La primera función realiza tareas de preprocesamiento y realiza llamadas API a Amazon Rekognition:
  - Si los documentos entrantes están en formato de imagen (como JPG o PNG), la función llama a la API de Amazon Rekognition y proporciona los documentos como objetos de S3. Sin embargo, si el documento está en formato PDF, la función transmite los bytes de la imagen cuando llama a la API de Amazon Rekognition.
  - Si un documento contiene varias páginas, la función divide el documento en páginas individuales y las guarda en una carpeta intermedia en el depósito de S3 de salida antes de procesarlas individualmente.
  - Cuando se completan las tareas de preprocesamiento, la función realiza una llamada de API a Amazon Rekognition para detectar contenido inapropiado, no deseado u ofensivo, y realiza otra llamada de API al modelo de etiquetas personalizadas de Rekognition capacitado para clasificar documentos.
2. La segunda función realiza una llamada API a Amazon Textract para iniciar un trabajo para extraer texto del documento de entrada y almacenarlo en el depósito S3 de salida.
3. La tercera función almacena los metadatos del documento, como la etiqueta de moderación, la clasificación del documento, la confianza de la clasificación, el ID del trabajo de Amazon Textract y la ruta del archivo en una tabla de DynamoDB.

Puede ajustar el flujo de trabajo según sus requisitos, por ejemplo, puede agregar una capacidad de procesamiento de lenguaje natural (NLP) en este flujo de trabajo usando Amazon Comprehend para obtener información sobre el texto extraído.

Tubería de formación

Antes de implementar esta arquitectura, entrenamos un modelo personalizado para clasificar documentos en diferentes categorías utilizando las etiquetas personalizadas de Rekognition. En la tubería de entrenamiento, etiquetamos los documentos usando Verdad fundamental de Amazon SageMaker. Luego usamos los documentos etiquetados para entrenar un modelo con etiquetas personalizadas de Rekognition. En este ejemplo, usamos un Amazon SageMaker notebook para realizar estos pasos, pero también puede anotar imágenes mediante la consola de etiquetas personalizadas de Rekognition. Para obtener instrucciones, consulte Etiquetado de imágenes.

Arquitectura de canalización de formación

Conjunto de datos

Para entrenar el modelo, usamos los siguientes conjuntos de datos públicos que contienen W2 y facturas:

Puede usar otro conjunto de datos relevante para su industria.

La siguiente tabla resume las divisiones del conjunto de datos entre entrenamiento y prueba.

Clase	Conjunto de entrenamiento	Equipo de prueba
Facturas	352	75
W-2s	86	16
Total	438	91

Implemente la canalización de capacitación con AWS CloudFormation

Implementas un Formación en la nube de AWS plantilla para aprovisionar lo necesario Gestión de identidades y accesos de AWS (IAM) roles y componentes de la canalización de capacitación, incluida una instancia de notebook de SageMaker.

Inicie la siguiente plantilla de CloudFormation en la región EE.UU. Este (Norte de Virginia):
Nombre de pila, ingrese un nombre, como document-processing-training-pipeline.
Elige Siguiente.
En Capacidades y transformaciones sección, seleccione la casilla de verificación para reconocer que AWS CloudFormation podría crear Recursos de IAM.
Elige Crear pila.

La página de detalles de la pila debe mostrar el estado de la pila como CREATE_IN_PROGRESS. El estado puede tardar hasta 5 minutos en cambiar a CREATE_COMPLETE. Cuando esté completo, puede ver las salidas en el Salidas .

Una vez que la pila se haya iniciado correctamente, abra la consola de SageMaker y elija Instancias de cuaderno en el nombre de navegación.
Busque una instancia con el DocProcessingNotebookInstance- prefijo y espere hasta que su estado sea InService.
under Acciones, escoger Jupyter abierto.

Ejecute el cuaderno de ejemplo

Para ejecutar su computadora portátil, complete los siguientes pasos:

Elija el Rekognition_Custom_Labels ejemplo de cuaderno.
Elige Ejecutar para ejecutar las celdas en el cuaderno de ejemplo en orden.

El cuaderno demuestra el ciclo de vida completo de preparación de imágenes de prueba y entrenamiento, etiquetándolas, creando archivos de manifiesto, entrenando un modelo y ejecutando el modelo entrenado con etiquetas personalizadas de Rekognition. Como alternativa, puede entrenar y ejecutar el modelo mediante la consola de etiquetas personalizadas de Rekognition. Para obtener instrucciones, consulte Entrenamiento de un modelo (Consola).

El cuaderno se explica por sí mismo; puede seguir los pasos para completar el entrenamiento del modelo.

Tome nota de la ProjectVersionArn para proporcionar la tubería de inferencia en un paso posterior.

Para las instancias de notebook de SageMaker, se le cobra por el tipo de instancia que elija, según la duración del uso. Si terminó de entrenar el modelo, puede detener la instancia del cuaderno para evitar el costo de los recursos inactivos.

Implemente la canalización de inferencia con AWS CloudFormation

Para implementar la canalización de inferencia, complete los siguientes pasos:

Inicie la siguiente plantilla de CloudFormation en la región EE.UU. Este (Norte de Virginia):
Nombre de pila, ingrese un nombre, como document-processing-inference-pipeline.
Nombre de tabla de DynamoDB, ingrese un nombre de tabla único de DynamoDB; por ejemplo, document-processing-table.
Nombre del depósito de entrada, ingrese un nombre único para el depósito S3 que crea la pila; por ejemplo, document-processing-input-bucket.

Los documentos de entrada se cargan en este depósito antes de que se procesen. Use solo caracteres en minúsculas y sin espacios cuando cree el nombre del depósito de entrada. Además, esta operación crea un nuevo depósito de S3, así que no use el nombre de un depósito existente. Para más información, ver Reglas para nombrar cubos.

Nombre del depósito de salida, ingrese un nombre único para su cubo de salida; por ejemplo, document-processing-output-bucket.

Este depósito almacena los documentos de salida después de que se procesan. También almacena páginas de documentos de entrada PDF de varias páginas después de que la función Lambda los divida. Siga las mismas reglas de nomenclatura que su depósito de entrada.

ReconocimientoCustomLabelModelARN, introducir el ProjectVersionArn valor que anotó en el cuaderno de Jupyter.
Elige Siguiente.
En Configurar opciones de pila página, establezca cualquier parámetro adicional para la pila, incluidas las etiquetas.
Elige Siguiente.
En Capacidades y transformaciones sección, seleccione la casilla de verificación para reconocer que AWS CloudFormation podría crear recursos de IAM.
Elige Crear pila.

Procesar un documento a través de la canalización

Implementamos canalizaciones de inferencia y capacitación, y ahora estamos listos para usar la solución y procesar un documento.

En la consola de Amazon S3, abra el depósito de entrada.
Cargue un documento de muestra en la carpeta S3.

Esto inicia el flujo de trabajo. El proceso llena la tabla de DynamoDB con etiquetas de clasificación y moderación de documentos. La salida de Amazon Texttract se entrega al depósito de salida S3 en el TextractOutput carpeta.

Enviamos algunos documentos de muestra diferentes al flujo de trabajo y recibimos la siguiente información en la tabla de DynamoDB.

Almacenamiento de metadatos en DynamoDB

Si no ve elementos en la tabla de DynamoDB o documentos cargados en el depósito de S3 de salida, verifique la Registros de Amazon CloudWatch para la función Lambda correspondiente y busque posibles errores que causaron la falla.

Limpiar

Complete los siguientes pasos para limpiar los recursos implementados para esta solución:

En la consola de CloudFormation, elija Stacks.
Seleccione las pilas implementadas para esta solución.
Elige Borrar.

Estos pasos no eliminan los depósitos de S3, la tabla de DynamoDB y el modelo de etiquetas personalizadas de Rekognition entrenado. Continúa incurriendo en cargos de almacenamiento si no se eliminan. Debe eliminar estos recursos directamente a través de sus respectivas consolas de servicio si ya no los necesita.

Conclusión

En esta publicación, presentamos un enfoque escalable, seguro y automatizado para moderar, clasificar y procesar documentos. Las empresas de múltiples industrias pueden usar esta solución para mejorar su negocio y servir mejor a sus clientes. Permite un procesamiento de documentos más rápido y una mayor precisión, y reduce la complejidad de la extracción de datos. También proporciona una mayor seguridad y cumplimiento de la legislación sobre datos personales al reducir la mano de obra humana involucrada en el procesamiento de los documentos entrantes.

Para obtener más información, consulte la sección de Guía de etiquetas personalizadas de Amazon Rekognition, Guía para desarrolladores de Amazon Rekognition y Guía para desarrolladores de Amazon Textract. Si es nuevo en las etiquetas personalizadas de Amazon Rekognition, pruébelo con nuestra capa gratuita, que dura 3 meses e incluye 10 horas de capacitación gratuitas al mes y 4 horas de inferencia gratuitas al mes. El nivel gratuito de Amazon Rekognition incluye el procesamiento de 5,000 imágenes al mes durante 12 meses. El nivel gratuito de Amazon Textract también tiene una duración de tres meses e incluye 1,000 páginas por mes para la API Detect Document Text.

Acerca de los autores

jay rao es Arquitecto Principal de Soluciones en AWS. Disfruta brindando orientación técnica y estratégica a los clientes y ayudándolos a diseñar e implementar soluciones en AWS.

Uchenna Egbé es Arquitecto de Soluciones Asociado en AWS. Pasa su tiempo libre investigando sobre hierbas, tés, superalimentos y cómo puede incorporarlos a su dieta diaria.

Sello de tiempo: 12 de mayo de 2022

Sello de tiempo: 22 de marzo, 2023

Modere, clasifique y procese documentos con Amazon Rekognition y Amazon Textract

Reeditado por Platón

Resumen de la solución

Tubería de formación

Conjunto de datos

Implemente la canalización de capacitación con AWS CloudFormation

Ejecute el cuaderno de ejemplo

Implemente la canalización de inferencia con AWS CloudFormation

Procesar un documento a través de la canalización

Limpiar

Conclusión

Acerca de los autores

Mas de Aprendizaje automático de AWS

Mejores prácticas y patrones de diseño para crear flujos de trabajo de aprendizaje automático con Amazon SageMaker Pipelines | Servicios web de Amazon

Acelere la gestión del éxito del cliente mediante la clasificación de correo electrónico con Hugging Face en Amazon SageMaker | Servicios web de Amazon

Cómo The Barcode Registry detecta productos falsificados mediante la detección de objetos y Amazon SageMaker

Resumen de texto con Amazon SageMaker y Hugging Face

Implemente RStudio en su entorno de AWS y acceda a su lago de datos utilizando los permisos de AWS Lake Formation

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta