如何从图像中提取文本或数据

由柏拉图重新发布

关注： 0

从图像中提取文本可能是一个繁琐的过程。大多数人手动输入图像中的文本/数据；但是当您要处理大量图像时，这既耗时又低效。

图像到文本转换器提供一种从图像中提取文本的简洁方法。

虽然此类工具做得很好，但提取的文本/数据通常以非结构化方式呈现，导致大量后期处理。

An 人工智能驱动的 OCR Nanonets 可以从图像中提取文本，并以整洁、有组织和结构化的方式呈现提取的数据。

Nanonets 以多种语言准确、大规模地从图像中提取数据。 Nanonets 是唯一的文本识别 OCR，它以完全可定制的结构整齐的格式呈现提取的文本。捕获的数据可以以表格、行项目或任何其他格式呈现。

点击下方上传您的图片
Nanonets 的 OCR 自动识别文件中的内容并将其转换为文本
将提取的文本下载为原始文本文件或通过 API 集成

使用 NanoNets API 训练您自己的 OCR 模型

这里有一个详细的训练指南您自己的 OCR 模型使用纳米网络API。在文件，您会发现可以在 Python、Shell、Ruby、Golang、Java 和 C# 中触发代码示例，以及针对不同端点的详细 API 规范。

以下是使用 Nanonets API 训练您自己的模型的分步指南：

第1步：克隆仓库

git clone https://github.com/NanoNets/nanonets-ocr-sample-python
cd nanonets-ocr-sample-python
sudo pip install requests
sudo pip install tqdm

第2步：获取免费的API密钥

从以下位置获取免费的API密钥 https://app.nanonets.com/#/keys

步骤3：将API密钥设置为环境变量

export NANONETS_API_KEY=YOUR_API_KEY_GOES_HERE

步骤4：建立新模型

python ./code/create-model.py

注意：这将生成下一步所需的MODEL_ID

步骤5：将模型ID添加为环境变量

export NANONETS_MODEL_ID=YOUR_MODEL_ID

第6步：上传培训数据

收集要检测的对象的图像。在文件夹中准备好数据集后 images （图像文件），开始上传数据集。

python ./code/upload-training.py

步骤7：训练模型

图片上传后，开始训练模型

python ./code/train-model.py

步骤8：获取模型状态

该模型需要大约30分钟的训练时间。一旦训练好模型，您将收到一封电子邮件。同时，您检查模型的状态

watch -n 100 python ./code/model-state.py

步骤9：进行预测

一旦模型被训练。您可以使用模型进行预测

python ./code/prediction.py PATH_TO_YOUR_IMAGE.jpg

与其他 OCR API 相比，使用 Nanonets 的好处不仅仅在于从图像中提取文本的准确性更高。以下是您应该考虑使用 Nanonets OCR 进行文本识别的 7 个原因：

1. 使用自定义数据

大多数 OCR 软件对它们可以使用的数据类型都非常严格。为用例训练 OCR 模型需要在其要求和规范方面具有很大的灵活性；用于发票处理的 OCR 将与用于护照的 OCR 大不相同！ Nanonets 不受如此严格的限制。 Nanonets 使用您自己的数据来训练最适合满足您业务特定需求的 OCR 模型。

2. 使用非英语或多种语言

由于 Nanonets 专注于使用自定义数据进行训练，因此它具有独特的优势，可以构建单个 OCR 模型，该模型可以同时从任何语言或多种语言的图像中提取文本。

3. 无需后期处理

使用 OCR 模型提取的文本需要智能结构化并以可理解的格式呈现；否则，需要大量时间和资源将数据重新组织成有意义的信息。虽然大多数 OCR 工具只是简单地从图像中抓取和转储数据，但 Nanonets 仅提取相关数据并自动将它们分类到智能结构化的字段中，使其更易于查看和理解。

4.不断学习

企业经常面临动态变化的需求和需求。为了克服潜在的障碍，Nanetets 允许您使用新数据轻松地重新训练您的模型。这使您的 OCR 模型能够适应不可预见的变化。

5. 轻松处理常见数据约束

Nanonets 利用 AI、ML 和深度学习技术来克服严重影响文本识别和提取的常见数据限制。 Nanonets OCR 可以同时识别和处理手写文本、多种语言的文本图像、低分辨率图像、具有新字体或草书字体和不同大小的图像、带有阴影文本的图像、倾斜文本、随机非结构化文本、图像噪声、模糊图像和更多。传统的 OCR API 只是无法在这种限制下执行；他们需要非常高保真度的数据，这在现实生活场景中并不常见。

6. 不需要内部开发团队

无需担心雇用开发人员和获取人才来个性化 Nanonets API 以满足您的业务需求。 Nanonets 专为轻松集成而构建。您还可以轻松地将 Nanonets 与大多数 CRM、ERP 或 RPA 软件集成。

7.定制，定制，定制

您可以使用 Nanonets OCR 捕获任意数量的文本/数据字段。您甚至可以构建适用于您的特定文本识别和文本提取要求的自定义验证规则。 Nanonets 完全不受文档模板的约束。您可以捕获表格或行项目或任何其他格式的数据！

Nanonets有许多用例，可以优化您的业务绩效，节省成本并促进增长。 找出 Nanonets的用例如何适用于您的产品。

或退房纳米网文字识别API 行动起来并开始建立自定义 OCR 模特免费！

更新七月 2022: 这篇文章最初发表于十月 2020 并且已经更新经常.

这是一张幻灯片总结本文中的发现。这是一个备用版本这个职位。

时间戳记： 2022 年 7 月 17 日2022 年 7 月 18 日

时间戳记： 2023 年 4 月 10 日

目录

步骤1：选择合适的OCR模型

步骤2：添加文件

步骤3：测试

步骤4：验证

步骤5：汇出

步骤1：建立您自己的OCR模型

第2步：上传培训文件/图像

步骤3：在文件/图像上注释文本

步骤4：训练自定义OCR模型

第5步：测试和验证数据