Cómo extraer texto o datos de una imagen PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Cómo extraer texto o datos de una imagen

Extraer texto de una imagen puede ser un proceso engorroso. La mayoría de las personas ingresan manualmente el texto o los datos de la imagen; pero esto consume mucho tiempo y es ineficiente cuando tiene muchas imágenes con las que lidiar.

Conversores de imagen a texto ofrecen una forma ordenada de extraer texto de las imágenes.

Si bien estas herramientas hacen un buen trabajo, el texto o los datos extraídos a menudo se presentan de manera no estructurada, lo que resulta en una gran cantidad de procesamiento posterior.

An OCR impulsado por IA como Nanonets puede extraer texto de imágenes y presentar los datos extraídos de una manera ordenada, organizada y estructurada.

Nanonets extrae datos de imágenes con precisión, a escala y en varios idiomas. Nanonets es el único OCR de reconocimiento de texto que presenta el texto extraído en formatos claramente estructurados que son completamente personalizables. Los datos capturados se pueden presentar como tablas, elementos de línea o cualquier otro formato.

  1. Haga clic para cargar su imagen a continuación
  2. El OCR de Nanonets reconoce automáticamente el contenido de su archivo y lo convierte en texto
  3. Descargue el texto extraído como un archivo de texto sin formato o intégrelo a través de API


Índice del contenido

Aquí hay tres métodos avanzados en los que puede usar Nanonets OCR para detectar y extraer texto de imágenes, extraer texto de PDFs, extraer datos de PDFs o analizar archivos PDF y otros tipos de documentos:

Extraer texto de una imagen usando Nanonets

Necesita un OCR en línea gratuito para imagen a texto, PDF a la mesa, PDF a textoo Extracción de datos en PDF? Echa un vistazo a Nanonets en línea API de OCR en acción y comience a crear modelos OCR personalizados de forma gratuita.


Nanonets tiene modelos de OCR previamente entrenados para los tipos de imágenes específicos que se enumeran a continuación. Cada modelo de OCR pre-entrenado está entrenado para relacionar con precisión el texto en el tipo de imagen con un campo apropiado como nombre, dirección, fecha, caducidad, etc. y presentar el texto extraído de manera ordenada y organizada.

  • Facturas
  • Recibos
  • Licencia de conducir (EE. UU.)
  • Pasaportes

Nanonetas API de OCR y OCR en línea tengo muchos interesantes casos de uso.


[Contenido incrustado]
Nanonets extrayendo texto de imágenes de recibos

Paso 1: seleccione un modelo de OCR apropiado

Acceder a Nanonets y seleccione un modelo de OCR que sea apropiado para la imagen de la que desea extraer texto y datos. Si ninguno de los modelos de OCR preentrenados se adapta a sus requisitos, puede avanzar para descubrir cómo crear un modelo de OCR personalizado.

Paso 2: agregar archivos

Agregue los archivos/imágenes de los que desea extraer texto. Puedes añadir tantas imágenes como quieras.

Paso 3: Test

Espere unos segundos para que el modelo se ejecute y extraiga el texto de la imagen.

Paso 4: verificar

Verifique rápidamente el texto extraído de cada archivo, revisando la vista de tabla a la derecha. Puede comprobar fácilmente si el texto se ha reconocido correctamente y se ha hecho coincidir con un campo o etiqueta apropiados.

Incluso puede optar por editar/corregir los valores de campo y las etiquetas en esta etapa. Nanonets no está sujeto a la plantilla de la imagen.

Editar el texto o los datos extraídos
Editar el texto o los datos extraídos

Los datos extraídos se pueden mostrar en formato "Vista de lista" o "JSON".

Puede marcar la casilla de verificación junto a cada valor o campo que verifique o hacer clic en "Verificar datos" para proceder instantáneamente.

Verifique los datos
Verifique los datos

Paso 5: Exportar

Una vez que se hayan verificado todos los archivos. Puede exportar los datos perfectamente organizados como un archivo xml, xlsx o csv.

Exportar los datos extraídos
Exportar los datos extraídos

Nanonets tiene interesantes casos de uso y único historias de éxito de clientes. Descubra cómo las nanorredes pueden impulsar su empresa para que sea más productiva.


Crear un modelo OCR personalizado con Nanonets es fácil. Por lo general, puede crear, entrenar e implementar un modelo para cualquier imagen o tipo de documento, en cualquier idioma, todo en menos de 25 minutos (dependiendo de la cantidad de archivos utilizados para entrenar el modelo).

Mire el video a continuación para seguir los primeros 4 pasos en este método:

[Contenido incrustado]
Cómo entrenar su propio modelo de OCR con nanorredes

Paso 1: cree su propio modelo de OCR

Acceder a Nanonets y haga clic en "Crear su propio modelo de OCR".

Paso 2: Cargue archivos / imágenes de entrenamiento

Cargue archivos de muestra que se utilizarán para entrenar los modelos de OCR. La precisión del modelo de OCR que cree dependerá en gran medida de la calidad y cantidad de los archivos / imágenes cargados en esta etapa.

Paso 3: anotar texto en los archivos / imágenes

Ahora anote cada fragmento de texto o datos con un campo o etiqueta apropiados. Este paso crucial le enseñará a su modelo de OCR a extraer el texto apropiado de las imágenes y asociarlo con campos personalizados que sean relevantes para sus necesidades.

También puede agregar una nueva etiqueta para anotar el texto o los datos. ¡Recuerde, Nanonets no está sujeto a la plantilla de la imagen!

Paso 4: Entrene el modelo de OCR personalizado

Una vez que se complete la anotación para todos los archivos / imágenes de entrenamiento, haga clic en "Entrenar modelo". La formación suele tardar entre 20 minutos y 2 horas, según la cantidad de archivos y modelos en cola para la formación. Usted puede actualizar a un plan pago para obtener resultados más rápidos en esta etapa (por lo general, menos de 20 minutos).

Nanonets aprovecha el aprendizaje profundo para construir varios modelos de OCR y los prueba entre sí para determinar su precisión. Luego, Nanonets elige el mejor modelo de OCR (según sus entradas y niveles de precisión).

La pestaña "Métricas del modelo" muestra las diversas mediciones y análisis comparativos que permitieron a Nanonets elegir el mejor modelo de OCR entre todos los que se construyeron. Puede volver a entrenar el modelo (proporcionando una gama más amplia de imágenes de entrenamiento y una mejor anotación) para lograr niveles más altos de precisión.

O, si está satisfecho con la precisión, haga clic en "Probar" para probar y verificar si este modelo de OCR personalizado funciona como se espera en una muestra de imágenes o archivos de los que se deben extraer texto / datos.

Paso 5: probar y verificar datos

Agregue un par de imágenes de muestra para probar y verificar el modelo OCR personalizado.

Verificar la exactitud del texto extraído
Probar y verificar la precisión del texto extraído

Si el texto ha sido reconocido, extraído y presentado correctamente, exporte el archivo. Como puede ver a continuación, los datos extraídos se han organizado y presentado en un formato ordenado.

Los datos exportados se enumeran prolijamente
Los datos exportados se enumeran prolijamente

Felicitaciones, ahora ha creado y entrenado un modelo de OCR personalizado para extraer texto de ciertos tipos de imágenes.


¿Su empresa se ocupa del reconocimiento de texto en documentos digitales, imágenes o PDF? ¿Te has preguntado cómo extraer texto de imágenes con precisión?


Entrene sus propios modelos de OCR con la API de NanoNets

Aquí hay un guía detallada para entrenar sus propios modelos de OCR usando el API de nanonetas. En la documentación, encontrará muestras de código listas para disparar en Python, Shell, Ruby, Golang, Java y C #, así como especificaciones API detalladas para diferentes puntos finales.

Aquí hay una guía paso a paso para entrenar su propio modelo usando la API de Nanonets:

Paso 1: Clonar el repositorio

git clone https://github.com/NanoNets/nanonets-ocr-sample-python
cd nanonets-ocr-sample-python
sudo pip install requests
sudo pip install tqdm

Paso 2: Obtenga su clave API gratuita

Obtenga su clave API gratuita de https://app.nanonets.com/#/keys

Paso 3: establezca la clave API como una variable de entorno

export NANONETS_API_KEY=YOUR_API_KEY_GOES_HERE

Paso 4: crea un nuevo modelo

python ./code/create-model.py

Nota: Esto genera un MODEL_ID que necesita para el siguiente paso

Paso 5: Agregar ID de modelo como variable de entorno

export NANONETS_MODEL_ID=YOUR_MODEL_ID

Paso 6: cargue los datos de entrenamiento

Recoge las imágenes del objeto que deseas detectar. Una vez que tenga listo el conjunto de datos en la carpeta images (archivos de imagen), comience a cargar el conjunto de datos.

python ./code/upload-training.py

Paso 7: modelo de tren

Una vez que se hayan cargado las imágenes, comience a entrenar al modelo

python ./code/train-model.py

Paso 8: Obtenga el estado del modelo

El modelo tarda unos 30 minutos en entrenar. Recibirá un correo electrónico una vez que el modelo esté capacitado. Mientras tanto, verifica el estado del modelo

watch -n 100 python ./code/model-state.py

Paso 9: Hacer predicción

Una vez que el modelo está entrenado. Puedes hacer predicciones usando el modelo

python ./code/prediction.py PATH_TO_YOUR_IMAGE.jpg

Los beneficios de usar Nanonets sobre otras API de OCR van más allá de una mejor precisión con respecto a la extracción de texto de las imágenes. Aquí hay 7 razones por las que debería considerar usar Nanonets OCR para el reconocimiento de texto:

1. Trabajar con datos personalizados

La mayoría de los programas de OCR son bastante rígidos en cuanto al tipo de datos con los que pueden trabajar. Entrenar un modelo de OCR para un caso de uso requiere un alto grado de flexibilidad con respecto a sus requisitos y especificaciones; ¡Un OCR para el procesamiento de facturas será muy diferente de un OCR para pasaportes! Nanonets no está sujeto a limitaciones tan rígidas. Nanonets utiliza sus propios datos para entrenar modelos de OCR que mejor se adapten a las necesidades particulares de su negocio.

2. Trabajar con varios idiomas distintos del inglés o

Dado que Nanonets se enfoca en el entrenamiento con datos personalizados, se encuentra en una posición única para construir un solo modelo de OCR que podría extraer texto de imágenes en cualquier idioma o en varios idiomas al mismo tiempo.

3. No requiere procesamiento posterior

El texto extraído mediante modelos OCR debe estructurarse de forma inteligente y presentarse en un formato inteligible; de lo contrario, se dedica mucho tiempo y recursos a reorganizar los datos en información significativa. Mientras que la mayoría de las herramientas de OCR simplemente capturan y descargan datos de las imágenes, Nanonets extrae solo los datos relevantes y los clasifica automáticamente en campos estructurados de manera inteligente, lo que facilita su visualización y comprensión.

4. Aprende continuamente

Las empresas a menudo enfrentan requisitos y necesidades que cambian dinámicamente. Para superar posibles obstáculos, Nanonets le permite volver a entrenar fácilmente sus modelos con nuevos datos. Esto permite que su modelo de OCR se adapte a cambios imprevistos.

5. Maneja las restricciones de datos comunes con facilidad

Nanonets aprovecha las técnicas de inteligencia artificial, aprendizaje automático y aprendizaje profundo para superar las limitaciones de datos comunes que afectan en gran medida el reconocimiento y la extracción de texto. Nanonets OCR puede reconocer y manejar texto escrito a mano, imágenes de texto en varios idiomas a la vez, imágenes con baja resolución, imágenes con fuentes nuevas o cursivas y tamaños variables, imágenes con texto sombreado, texto inclinado, texto no estructurado aleatorio, ruido de imagen, imágenes borrosas y más. Las API de OCR tradicionales simplemente no están equipadas para funcionar bajo tales restricciones; requieren datos con un nivel muy alto de fidelidad, lo que no es la norma en los escenarios de la vida real.

6. No requiere un equipo interno de desarrolladores

No debe preocuparse por contratar desarrolladores y adquirir talento para personalizar la API de Nanonets para los requisitos de su negocio. Nanonets fue creado para una integración sin problemas. También puede integrar fácilmente Nanonets con la mayoría de software CRM, ERP o RPA.

7. Personaliza, personaliza, personaliza

Puede capturar tantos campos de texto/datos como desee con Nanonets OCR. Incluso puede crear reglas de validación personalizadas que funcionen para sus requisitos específicos de reconocimiento y extracción de texto. Nanonets no está sujeto a la plantilla de su documento en absoluto. ¡Puede capturar datos en tablas o elementos de línea o en cualquier otro formato!


Nanonets tiene muchos casos de uso que podrían optimizar el rendimiento de su negocio, ahorrar costos e impulsar el crecimiento. Descubra cómo se pueden aplicar los casos de uso de Nanonets a su producto.

O echa un vistazo Nanonetas API de OCR en acción y comience a construir OCR modelos gratis!


Actualizar Julio 2022: este post fue publicado originalmente en Oct 2020 y desde entonces ha sido actualizado regularmente.

Aquí hay una diapositiva resumiendo los hallazgos en este artículo. Aquí hay un versión alternativa de esta publicación

Sello de tiempo:

Mas de IA y aprendizaje automático