Muchas empresas se ven abrumadas por el abundante volumen de documentos que tienen que procesar, organizar y clasificar para servir mejor a sus clientes. Ejemplos de tales pueden ser solicitudes de préstamo, declaración de impuestos y facturación. Dichos documentos se reciben más comúnmente en formatos de imagen y en su mayoría son de varias páginas y en formato de baja calidad. Para ser más competitivas y rentables, y para mantenerse seguras y en cumplimiento al mismo tiempo, estas empresas deben desarrollar sus capacidades de procesamiento de documentos para reducir los tiempos de procesamiento y mejorar la precisión de la clasificación de forma automatizada y escalable. Estas empresas enfrentan los siguientes desafíos en el procesamiento de documentos:
- Moderar los documentos para detectar contenido inapropiado, no deseado u ofensivo
- La clasificación manual de documentos, que es adoptada por empresas más pequeñas, requiere mucho tiempo, es propensa a errores y costosa
- Las técnicas de OCR con sistemas basados en reglas no son lo suficientemente inteligentes y no pueden adaptarse a los cambios en el formato del documento.
- Las empresas que adoptan enfoques de aprendizaje automático (ML) a menudo no tienen recursos para escalar su modelo para manejar picos en el volumen de documentos entrantes.
Esta publicación aborda estos desafíos y proporciona una arquitectura que resuelve estos problemas de manera eficiente. Te mostramos cómo puedes usar Reconocimiento de amazonas y Amazon Textil para optimizar y reducir los esfuerzos humanos en el procesamiento de documentos. Amazon Rekognition identifica etiquetas de moderación en su documento y las clasifica usando Etiquetas personalizadas de Amazon Rekognition. Amazon Textract extrae texto de sus documentos.
En esta publicación, cubrimos la creación de dos canalizaciones de ML (entrenamiento e inferencia) para procesar documentos sin necesidad de ningún esfuerzo manual o código personalizado. Los pasos de alto nivel en la tubería de inferencia incluyen:
- Realice la moderación de los documentos cargados mediante Amazon Rekognition.
- Clasifique los documentos en diferentes categorías, como W-2, facturas, extractos bancarios y talones de pago utilizando las etiquetas personalizadas de Rekognition.
- Extraiga texto de documentos como texto impreso, escrito a mano, formularios y tablas con Amazon Textract.
Resumen de la solución
Esta solución utiliza los siguientes servicios de IA, tecnologías sin servidor y servicios administrados para implementar una arquitectura escalable y rentable:
- Amazon DynamoDB - Una base de datos de documentos y valores clave que ofrece un rendimiento de milisegundos de un solo dígito a cualquier escala.
- Puente de eventos de Amazon – Un bus de eventos sin servidor para crear aplicaciones basadas en eventos a escala utilizando eventos generados a partir de sus aplicaciones, aplicaciones integradas de software como servicio (SaaS) y servicios de AWS.
- AWS Lambda – Un servicio de cómputo sin servidor que le permite ejecutar código en respuesta a disparadores como cambios en los datos, cambios en el estado del sistema o acciones del usuario.
- Reconocimiento de amazonas – Utiliza ML para identificar objetos, personas, texto, escenas y actividades en imágenes y videos, así como para detectar cualquier contenido inapropiado.
- Etiquetas personalizadas de Amazon Rekognition – Utiliza AutoML para la visión por computadora y el aprendizaje de transferencia para ayudarlo a entrenar modelos personalizados para identificar los objetos y escenas en imágenes que son específicas para sus necesidades comerciales.
- Servicio de almacenamiento simple de Amazon (Amazon S3) – Sirve como un almacén de objetos para sus documentos y permite una administración central con controles de acceso ajustados.
- Funciones de paso de Amazon – Un orquestador de funciones sin servidor que facilita la secuenciación de funciones de Lambda y múltiples servicios en aplicaciones críticas para el negocio.
- Amazon Textil - Utiliza ML para extraer texto y datos de documentos escaneados en formatos PDF, JPEG o PNG.
El siguiente diagrama ilustra la arquitectura de la canalización de inferencia.
Nuestro flujo de trabajo incluye los siguientes pasos:
- El usuario carga documentos en el depósito S3 de entrada.
- La carga desencadena un Notificación de eventos de Amazon S3 para entregar eventos en tiempo real directamente a EventBridge. Los eventos de Amazon S3 que coinciden con el “
object created
” filtro definido para un Regla de EventBridge inicia el flujo de trabajo de Step Functions. - El flujo de trabajo de Step Functions activa una serie de funciones de Lambda, que realizan las siguientes tareas:
- La primera función realiza tareas de preprocesamiento y realiza llamadas API a Amazon Rekognition:
- Si los documentos entrantes están en formato de imagen (como JPG o PNG), la función llama a la API de Amazon Rekognition y proporciona los documentos como objetos de S3. Sin embargo, si el documento está en formato PDF, la función transmite los bytes de la imagen cuando llama a la API de Amazon Rekognition.
- Si un documento contiene varias páginas, la función divide el documento en páginas individuales y las guarda en una carpeta intermedia en el depósito de S3 de salida antes de procesarlas individualmente.
- Cuando se completan las tareas de preprocesamiento, la función realiza una llamada de API a Amazon Rekognition para detectar contenido inapropiado, no deseado u ofensivo, y realiza otra llamada de API al modelo de etiquetas personalizadas de Rekognition capacitado para clasificar documentos.
- La segunda función realiza una llamada API a Amazon Textract para iniciar un trabajo para extraer texto del documento de entrada y almacenarlo en el depósito S3 de salida.
- La tercera función almacena los metadatos del documento, como la etiqueta de moderación, la clasificación del documento, la confianza de la clasificación, el ID del trabajo de Amazon Textract y la ruta del archivo en una tabla de DynamoDB.
- La primera función realiza tareas de preprocesamiento y realiza llamadas API a Amazon Rekognition:
Puede ajustar el flujo de trabajo según sus requisitos, por ejemplo, puede agregar una capacidad de procesamiento de lenguaje natural (NLP) en este flujo de trabajo usando Amazon Comprehend para obtener información sobre el texto extraído.
Tubería de formación
Antes de implementar esta arquitectura, entrenamos un modelo personalizado para clasificar documentos en diferentes categorías utilizando las etiquetas personalizadas de Rekognition. En la tubería de entrenamiento, etiquetamos los documentos usando Verdad fundamental de Amazon SageMaker. Luego usamos los documentos etiquetados para entrenar un modelo con etiquetas personalizadas de Rekognition. En este ejemplo, usamos un Amazon SageMaker notebook para realizar estos pasos, pero también puede anotar imágenes mediante la consola de etiquetas personalizadas de Rekognition. Para obtener instrucciones, consulte Etiquetado de imágenes.
Conjunto de datos
Para entrenar el modelo, usamos los siguientes conjuntos de datos públicos que contienen W2 y facturas:
- Conjunto de datos falsos W-2 (formulario de impuestos de EE. UU.)
- Conjunto de datos de verificación de sellos (StaVer)
Puede usar otro conjunto de datos relevante para su industria.
La siguiente tabla resume las divisiones del conjunto de datos entre entrenamiento y prueba.
Clase | Conjunto de entrenamiento | Equipo de prueba |
Facturas | 352 | 75 |
W-2s | 86 | 16 |
Total | 438 | 91 |
Implemente la canalización de capacitación con AWS CloudFormation
Implementas un Formación en la nube de AWS plantilla para aprovisionar lo necesario Gestión de identidades y accesos de AWS (IAM) roles y componentes de la canalización de capacitación, incluida una instancia de notebook de SageMaker.
- Inicie la siguiente plantilla de CloudFormation en la región EE.UU. Este (Norte de Virginia):
- Nombre de pila, ingrese un nombre, como
document-processing-training-pipeline
. - Elige Siguiente.
- En Capacidades y transformaciones sección, seleccione la casilla de verificación para reconocer que AWS CloudFormation podría crear Recursos de IAM.
- Elige Crear pila.
La página de detalles de la pila debe mostrar el estado de la pila como CREATE_IN_PROGRESS
. El estado puede tardar hasta 5 minutos en cambiar a CREATE_COMPLETE
. Cuando esté completo, puede ver las salidas en el Salidas .
- Una vez que la pila se haya iniciado correctamente, abra la consola de SageMaker y elija Instancias de cuaderno en el nombre de navegación.
- Busque una instancia con el
DocProcessingNotebookInstance-
prefijo y espere hasta que su estado sea InService. - under Acciones, escoger Jupyter abierto.
Ejecute el cuaderno de ejemplo
Para ejecutar su computadora portátil, complete los siguientes pasos:
- Elija el
Rekognition_Custom_Labels
ejemplo de cuaderno.
- Elige Ejecutar para ejecutar las celdas en el cuaderno de ejemplo en orden.
El cuaderno demuestra el ciclo de vida completo de preparación de imágenes de prueba y entrenamiento, etiquetándolas, creando archivos de manifiesto, entrenando un modelo y ejecutando el modelo entrenado con etiquetas personalizadas de Rekognition. Como alternativa, puede entrenar y ejecutar el modelo mediante la consola de etiquetas personalizadas de Rekognition. Para obtener instrucciones, consulte Entrenamiento de un modelo (Consola).
El cuaderno se explica por sí mismo; puede seguir los pasos para completar el entrenamiento del modelo.
- Tome nota de la
ProjectVersionArn
para proporcionar la tubería de inferencia en un paso posterior.
Para las instancias de notebook de SageMaker, se le cobra por el tipo de instancia que elija, según la duración del uso. Si terminó de entrenar el modelo, puede detener la instancia del cuaderno para evitar el costo de los recursos inactivos.
Implemente la canalización de inferencia con AWS CloudFormation
Para implementar la canalización de inferencia, complete los siguientes pasos:
- Inicie la siguiente plantilla de CloudFormation en la región EE.UU. Este (Norte de Virginia):
- Nombre de pila, ingrese un nombre, como
document-processing-inference-pipeline
. - Nombre de tabla de DynamoDB, ingrese un nombre de tabla único de DynamoDB; por ejemplo,
document-processing-table
. - Nombre del depósito de entrada, ingrese un nombre único para el depósito S3 que crea la pila; por ejemplo,
document-processing-input-bucket
.
Los documentos de entrada se cargan en este depósito antes de que se procesen. Use solo caracteres en minúsculas y sin espacios cuando cree el nombre del depósito de entrada. Además, esta operación crea un nuevo depósito de S3, así que no use el nombre de un depósito existente. Para más información, ver Reglas para nombrar cubos.
- Nombre del depósito de salida, ingrese un nombre único para su cubo de salida; por ejemplo, d
ocument-processing-output-bucket
.
Este depósito almacena los documentos de salida después de que se procesan. También almacena páginas de documentos de entrada PDF de varias páginas después de que la función Lambda los divida. Siga las mismas reglas de nomenclatura que su depósito de entrada.
- ReconocimientoCustomLabelModelARN, introducir el
ProjectVersionArn
valor que anotó en el cuaderno de Jupyter. - Elige Siguiente.
- En Configurar opciones de pila página, establezca cualquier parámetro adicional para la pila, incluidas las etiquetas.
- Elige Siguiente.
- En Capacidades y transformaciones sección, seleccione la casilla de verificación para reconocer que AWS CloudFormation podría crear recursos de IAM.
- Elige Crear pila.
La página de detalles de la pila debe mostrar el estado de la pila como CREATE_IN_PROGRESS
. El estado puede tardar hasta 5 minutos en cambiar a CREATE_COMPLETE
. Cuando esté completo, puede ver las salidas en el Salidas .
Procesar un documento a través de la canalización
Implementamos canalizaciones de inferencia y capacitación, y ahora estamos listos para usar la solución y procesar un documento.
- En la consola de Amazon S3, abra el depósito de entrada.
- Cargue un documento de muestra en la carpeta S3.
Esto inicia el flujo de trabajo. El proceso llena la tabla de DynamoDB con etiquetas de clasificación y moderación de documentos. La salida de Amazon Texttract se entrega al depósito de salida S3 en el TextractOutput
carpeta.
Enviamos algunos documentos de muestra diferentes al flujo de trabajo y recibimos la siguiente información en la tabla de DynamoDB.
Si no ve elementos en la tabla de DynamoDB o documentos cargados en el depósito de S3 de salida, verifique la Registros de Amazon CloudWatch para la función Lambda correspondiente y busque posibles errores que causaron la falla.
Limpiar
Complete los siguientes pasos para limpiar los recursos implementados para esta solución:
- En la consola de CloudFormation, elija Stacks.
- Seleccione las pilas implementadas para esta solución.
- Elige Borrar.
Estos pasos no eliminan los depósitos de S3, la tabla de DynamoDB y el modelo de etiquetas personalizadas de Rekognition entrenado. Continúa incurriendo en cargos de almacenamiento si no se eliminan. Debe eliminar estos recursos directamente a través de sus respectivas consolas de servicio si ya no los necesita.
Conclusión
En esta publicación, presentamos un enfoque escalable, seguro y automatizado para moderar, clasificar y procesar documentos. Las empresas de múltiples industrias pueden usar esta solución para mejorar su negocio y servir mejor a sus clientes. Permite un procesamiento de documentos más rápido y una mayor precisión, y reduce la complejidad de la extracción de datos. También proporciona una mayor seguridad y cumplimiento de la legislación sobre datos personales al reducir la mano de obra humana involucrada en el procesamiento de los documentos entrantes.
Para obtener más información, consulte la sección de Guía de etiquetas personalizadas de Amazon Rekognition, Guía para desarrolladores de Amazon Rekognition y Guía para desarrolladores de Amazon Textract. Si es nuevo en las etiquetas personalizadas de Amazon Rekognition, pruébelo con nuestra capa gratuita, que dura 3 meses e incluye 10 horas de capacitación gratuitas al mes y 4 horas de inferencia gratuitas al mes. El nivel gratuito de Amazon Rekognition incluye el procesamiento de 5,000 imágenes al mes durante 12 meses. El nivel gratuito de Amazon Textract también tiene una duración de tres meses e incluye 1,000 páginas por mes para la API Detect Document Text.
Acerca de los autores
jay rao es Arquitecto Principal de Soluciones en AWS. Disfruta brindando orientación técnica y estratégica a los clientes y ayudándolos a diseñar e implementar soluciones en AWS.
Uchenna Egbé es Arquitecto de Soluciones Asociado en AWS. Pasa su tiempo libre investigando sobre hierbas, tés, superalimentos y cómo puede incorporarlos a su dieta diaria.
- Coinsmart. El mejor intercambio de Bitcoin y criptografía de Europa.
- Platoblockchain. Inteligencia del Metaverso Web3. Conocimiento amplificado. ACCESO LIBRE.
- CriptoHawk. Radar de altcoins. Prueba gratis.
- Fuente: https://aws.amazon.com/blogs/machine-learning/moderate-classify-and-process-documents-using-amazon-rekognition-and-amazon-textract/
- "
- 000
- 10
- 100
- 116
- 12 meses
- Nuestra Empresa
- de la máquina
- a través de
- acciones
- actividades
- Adicionales
- AI
- Servicios de IA
- Amazon
- Otra
- abejas
- aplicaciones
- enfoque
- arquitectura
- Consejos
- Confirmación de Viaje
- AWS
- Banca
- antes
- facturación
- frontera
- Box
- build
- Construir la
- autobús
- llamar al
- capacidades
- causado
- central
- retos
- el cambio
- cargado
- cargos
- Elige
- clasificación
- código
- Empresas
- competitivos
- compliance
- obediente
- Calcular
- computadora
- confianza
- Consola
- contiene
- contenido
- continue
- Correspondiente
- rentable
- Protectora
- Para crear
- crea
- Creamos
- personalizado
- Clientes
- datos
- Base de datos
- liberado
- entrega
- desplegar
- desplegado
- Diseño
- detalles
- Developer
- Dieta
- una experiencia diferente
- directamente
- documentos
- eficiente.
- esfuerzo
- esfuerzos
- Participar
- Evento
- Eventos
- evoluciona
- ejemplo
- ejemplos
- existente
- Extractos
- Cara
- Fracaso
- más rápida
- Nombre
- seguir
- siguiendo
- formulario
- formato
- Formularios
- Gratuito
- función
- funciones
- Además
- encargarse de
- ayuda
- ayudando
- más alto
- Cómo
- Sin embargo
- HTTPS
- humana
- Identifique
- Identidad
- imagen
- implementar
- mejorar
- incluir
- incluye
- Incluye
- INSTRUMENTO individual
- industrias
- energético
- información
- Las opciones de entrada
- Insights
- COMPLETAMENTE
- De Operación
- involucra
- IT
- Trabajos
- etiquetado
- Etiquetas
- idioma
- lanzado
- aprendizaje
- Legislación
- máquina
- máquina de aprendizaje
- HACE
- gestionado
- Management
- manual
- Match
- podría
- ML
- modelo
- modelos
- Mes
- meses
- más,
- múltiples
- Natural
- Navegación
- necesario
- cuaderno
- habiertos
- Inteligente
- Optimización
- solicite
- Pagar
- (PDF)
- Personas
- actuación
- con
- datos personales
- posible
- Director de la escuela
- problemas
- tratamiento
- proporcionar
- proporciona un
- proporcionando
- público
- en tiempo real
- recibido
- reducir
- la reducción de
- Recursos
- respuesta
- reglas
- Ejecutar
- correr
- escalable
- Escala
- Escenas
- seguro
- EN LINEA
- Serie
- Sin servidor
- de coches
- Servicios
- set
- sencillos
- So
- Software
- software como servicio
- sólido
- a medida
- Soluciones
- Resuelve
- espacios
- dividido
- escisiones
- montón
- comienza
- Estado
- declaraciones
- Estado
- quedarse
- STORAGE
- tienda
- tiendas
- Estratégico
- Subido
- Con éxito
- te
- Todas las funciones a su disposición
- tareas
- deuda
- Técnico
- técnicas
- Tecnologías
- test
- Pruebas
- A través de esta formación, el personal docente y administrativo de escuelas y universidades estará preparado para manejar los recursos disponibles que derivan de la diversidad cultural de sus estudiantes. Además, un mejor y mayor entendimiento sobre estas diferencias y similitudes culturales permitirá alcanzar los objetivos de inclusión previstos.
- equipo
- prolongado
- veces
- Formación
- transferir
- único
- us
- utilizan el
- propuesta de
- Verificación
- Videos
- Ver
- Virginia
- visión
- volumen
- esperar
- sin
- Empleados