Como extrair texto ou dados da imagem PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

Como extrair texto ou dados da imagem

Extrair texto de uma imagem pode ser um processo complicado. A maioria das pessoas digita manualmente o texto/dados da imagem; mas isso é demorado e ineficiente quando você tem muitas imagens para lidar.

Conversores de imagem para texto oferecem uma maneira elegante de extrair texto de imagens.

Embora essas ferramentas façam um bom trabalho, o texto/dados extraídos geralmente são apresentados de maneira não estruturada, o que resulta em muito pós-processamento.

An OCR orientado por IA como os Nanonets podem extrair texto de imagens e apresentar os dados extraídos de maneira organizada, organizada e estruturada.

Nanonets extrai dados de imagens com precisão, em escala e em vários idiomas. Nanonets é o único OCR de reconhecimento de texto que apresenta texto extraído em formatos bem estruturados e totalmente personalizáveis. Os dados capturados podem ser apresentados como tabelas, itens de linha ou qualquer outro formato.

  1. Clique para enviar sua imagem abaixo
  2. O OCR da Nanonets reconhece automaticamente o conteúdo do seu arquivo e o converte em texto
  3. Baixe o texto extraído como um arquivo de texto bruto ou integre via API


Conteúdo

Aqui estão três métodos avançados nos quais você pode usar o Nanonets OCR para detectar e extrair texto de imagens, extrair texto do PDFs, extrair dados de PDFs ou analisar PDFs e outros tipos de documentos:

Extraindo texto de uma imagem usando Nanonets

Precisa de um OCR online grátis para imagem para texto, PDF para mesa, PDF para textoou Extração de dados em PDF? Confira Nanonets online API OCR em ação e comece a construir modelos OCR personalizados de graça!


A Nanonets possui modelos de OCR pré-treinados para os tipos de imagem específicos listados abaixo. Cada modelo de OCR pré-treinado é treinado para relacionar com precisão o texto no tipo de imagem a um campo apropriado, como nome, endereço, data, validade, etc. e apresentar o texto extraído de maneira limpa e organizada.

  • Faturas
  • Recibos
  • Carteira de habilitação (EUA)
  • Passaportes

Nanoredes API OCR e OCR online tem muitos interessantes casos de uso.


[Conteúdo incorporado]
Nanonets extraindo texto de imagens de recibos

Etapa 1: Selecione um modelo de OCR apropriado

Entrar para Nanonets e selecione um modelo de OCR apropriado para a imagem da qual você deseja extrair texto e dados. Se nenhum dos modelos de OCR pré-treinados atender às suas necessidades, você pode pular para descobrir como criar um modelo de OCR personalizado.

Etapa 2: adicionar arquivos

Adicione os arquivos/imagens dos quais você deseja extrair o texto. Você pode adicionar quantas imagens quiser.

Passo 3: Teste

Aguarde alguns segundos para que o modelo seja executado e extraia o texto da imagem.

Etapa 4: verificar

Verifique rapidamente o texto extraído de cada arquivo, verificando a visualização da tabela à direita. Você pode verificar facilmente se o texto foi reconhecido corretamente e combinado com um campo ou tag apropriado.

Você pode até optar por editar/corrigir os valores e rótulos dos campos neste estágio. Nanonets não está vinculado ao modelo da imagem.

Edite o texto ou dados extraídos
Edite o texto ou dados extraídos

Os dados extraídos podem ser exibidos em um formato “Visualização de lista” ou “JSON”.

Você pode marcar a caixa de seleção ao lado de cada valor ou campo verificado ou clicar em “Verificar dados” para prosseguir instantaneamente.

Verificar os dados
Verificar os dados

Etapa 5: Exportar

Assim que todos os arquivos forem verificados. Você pode exportar os dados bem organizados como um arquivo xml, xlsx ou csv.

Exporte os dados extraídos
Exporte os dados extraídos

Nanonets tem interessante casos de uso e único histórias de sucesso de clientes. Descubra como as Nanonets podem impulsionar sua empresa para ser mais produtiva.


Construir um modelo de OCR personalizado com Nanonets é fácil. Normalmente, você pode criar, treinar e implantar um modelo para qualquer tipo de imagem ou documento, em qualquer idioma, tudo em menos de 25 minutos (dependendo do número de arquivos usados ​​para treinar o modelo).

Assista ao vídeo abaixo para seguir os 4 primeiros passos deste método:

[Conteúdo incorporado]
Como treinar seu próprio modelo de OCR com nanonetas

Etapa 1: Crie seu próprio modelo de OCR

Entrar para Nanonets e clique em “Criar seu próprio modelo de OCR”.

Etapa 2: fazer upload de arquivos / imagens de treinamento

Carregue os arquivos de amostra que serão usados ​​para treinar os modelos de OCR. A precisão do modelo de OCR que você construir dependerá em grande parte da qualidade e quantidade dos arquivos / imagens carregados nesta fase

Etapa 3: anotar o texto nos arquivos / imagens

Agora anote cada pedaço de texto ou dados com um campo ou rótulo apropriado. Esta etapa crucial ensinará seu modelo de OCR a extrair o texto apropriado de imagens e associá-lo a campos personalizados que são relevantes para suas necessidades.

Você também pode adicionar um novo rótulo para anotar o texto ou os dados. Lembre-se, Nanonets não está vinculado ao modelo da imagem!

Etapa 4: treinar o modelo de OCR personalizado

Assim que a anotação for concluída para todos os arquivos / imagens de treinamento, clique em “Train Model”. O treinamento geralmente leva de 20 minutos a 2 horas, dependendo do número de arquivos e modelos enfileirados para o treinamento. Você pode atualização a um plano pago para obter resultados mais rápidos nesta fase (normalmente menos de 20 minutos).

A Nanonets aproveita o aprendizado profundo para criar vários modelos de OCR e testá-los uns contra os outros quanto à precisão. Nanonets então escolhe o melhor modelo de OCR (com base em suas entradas e níveis de precisão).

A guia “Model Metrics” mostra as várias medidas e análises comparativas que permitiram aos Nanonets escolher o melhor modelo de OCR entre todos os que foram construídos. Você pode retreinar o modelo (fornecendo uma gama mais ampla de imagens de treinamento e melhores anotações) para atingir níveis mais altos de precisão.

Ou, se você estiver satisfeito com a precisão, clique em “Testar” para testar e verificar se este modelo de OCR personalizado tem o desempenho esperado em uma amostra de imagens ou arquivos dos quais texto / dados precisam ser extraídos.

Etapa 5: teste e verifique os dados

Adicione algumas imagens de amostra para testar e verificar o modelo de OCR personalizado.

Verifique a precisão do texto extraído
Teste e verifique a precisão do texto extraído

Se o texto foi reconhecido, extraído e apresentado adequadamente, exporte o arquivo. Como você pode ver abaixo, os dados extraídos foram organizados e apresentados em um formato elegante.

Dados exportados listados ordenadamente
Dados exportados listados ordenadamente

Parabéns, agora você criou e treinou um modelo de OCR personalizado para extrair texto de certos tipos de imagens!


Sua empresa lida com reconhecimento de texto em documentos digitais, imagens ou PDFs? Você já se perguntou como extrair texto de imagens com precisão?


Treine seus próprios modelos de OCR com a API NanoNets

Aqui está um guia detalhado para treinar seus próprios modelos de OCR usando o API de nanonets. No documentação, você encontrará amostras de código prontas para disparar em Python, Shell, Ruby, Golang, Java e C #, bem como especificações detalhadas de API para diferentes endpoints.

Aqui está um guia passo a passo para treinar seu próprio modelo usando a API Nanonets:

Etapa 1: clonar o repo

git clone https://github.com/NanoNets/nanonets-ocr-sample-python
cd nanonets-ocr-sample-python
sudo pip install requests
sudo pip install tqdm

Etapa 2: Obtenha sua chave de API gratuita

Obtenha sua chave de API gratuita em https://app.nanonets.com/#/keys

Etapa 3: defina a chave da API como uma variável de ambiente

export NANONETS_API_KEY=YOUR_API_KEY_GOES_HERE

Etapa 4: crie um novo modelo

python ./code/create-model.py

Nota: Isso gera um MODEL_ID que você precisa para a próxima etapa

Etapa 5: adicionar ID do modelo como variável de ambiente

export NANONETS_MODEL_ID=YOUR_MODEL_ID

Etapa 6: fazer upload dos dados de treinamento

Colete as imagens do objeto que você deseja detectar. Depois de ter o conjunto de dados pronto na pasta images (arquivos de imagem), comece a carregar o conjunto de dados.

python ./code/upload-training.py

Etapa 7: modelo de trem

Assim que as imagens forem carregadas, comece a treinar o modelo

python ./code/train-model.py

Etapa 8: obter o estado do modelo

O modelo leva cerca de 30 minutos para treinar. Você receberá um e-mail assim que o modelo for treinado. Enquanto isso, você verifica o estado do modelo

watch -n 100 python ./code/model-state.py

Etapa 9: faça a previsão

Uma vez que o modelo é treinado. Você pode fazer previsões usando o modelo

python ./code/prediction.py PATH_TO_YOUR_IMAGE.jpg

Os benefícios de usar Nanonets em relação a outras APIs de OCR vão além de apenas uma melhor precisão em relação à extração de texto de imagens. Aqui estão 7 razões pelas quais você deve considerar usar o OCR Nanonets para reconhecimento de texto:

1. Trabalhando com dados personalizados

A maioria dos softwares de OCR são bastante rígidos no tipo de dados com os quais podem trabalhar. O treinamento de um modelo de OCR para um caso de uso requer um grande grau de flexibilidade em relação aos seus requisitos e especificações; um OCR para processamento de faturas será muito diferente de um OCR para passaportes! Nanonets não está limitado por tais limitações rígidas. A Nanonets usa seus próprios dados para treinar os modelos de OCR mais adequados para atender às necessidades específicas do seu negócio.

2. Trabalhar com idiomas diferentes do inglês ou com vários idiomas

Como o Nanonets se concentra no treinamento com dados personalizados, ele está em uma posição única para criar um único modelo de OCR que pode extrair texto de imagens em qualquer idioma ou em vários idiomas ao mesmo tempo.

3. Não requer pós-processamento

O texto extraído usando modelos OCR precisa ser estruturado de forma inteligente e apresentado em um formato inteligível; caso contrário, tempo e recursos consideráveis ​​são gastos para reorganizar os dados em informações significativas. Enquanto a maioria das ferramentas de OCR simplesmente captura e despeja dados de imagens, o Nanonets extrai apenas os dados relevantes e os classifica automaticamente em campos estruturados de forma inteligente, facilitando a visualização e a compreensão.

4. Aprende continuamente

As empresas geralmente enfrentam requisitos e necessidades que mudam dinamicamente. Para superar possíveis obstáculos, os Nanonets permitem que você retreine facilmente seus modelos com novos dados. Isso permite que seu modelo de OCR se adapte a mudanças imprevistas.

5. Lida com restrições de dados comuns com facilidade

A Nanonets aproveita as técnicas de IA, ML e Deep Learning para superar as restrições de dados comuns que afetam muito o reconhecimento e a extração de texto. Nanonets OCR pode reconhecer e lidar com texto manuscrito, imagens de texto em vários idiomas ao mesmo tempo, imagens com baixa resolução, imagens com fontes novas ou cursivas e tamanhos variados, imagens com texto sombreado, texto inclinado, texto não estruturado aleatório, ruído de imagem, imagens borradas e mais. As APIs de OCR tradicionais simplesmente não estão equipadas para funcionar sob tais restrições; eles exigem dados em um nível muito alto de fidelidade, o que não é a norma em cenários da vida real.

6. Não requer equipe interna de desenvolvedores

Não há necessidade de se preocupar em contratar desenvolvedores e adquirir talentos para personalizar a API Nanonets para seus requisitos de negócios. Nanonets foi construído para integração sem complicações. Você também pode integrar facilmente Nanonets com a maioria dos softwares de CRM, ERP ou RPA.

7. Personalize, personalize, personalize

Você pode capturar quantos campos de texto/dados quiser com o Nanonets OCR. Você pode até criar regras de validação personalizadas que funcionem para seus requisitos específicos de reconhecimento de texto e extração de texto. Nanonets não está vinculado ao modelo do seu documento. Você pode capturar dados em tabelas ou itens de linha ou qualquer outro formato!


Nanonets tem muitos casos de uso que podem otimizar o desempenho do seu negócio, economizar custos e impulsionar o crescimento. Descobrir como os casos de uso das Nanonets podem ser aplicados ao seu produto.

Ou verifique Nanoredes API OCR em ação e comece a construir OCR modelos de graça!


Atualizar Julho 2022: este post foi publicado originalmente em Out 2020 e desde então foi atualizado regularmente.

Aqui está um slide resumindo as descobertas deste artigo. Aqui está um versão alternativa deste post.

Carimbo de hora:

Mais de IA e aprendizado de máquina