从图像中提取数据

由柏拉图重新发布

关注： 0

从图像中提取数据

如果您的图像涉及发票、收据、护照或驾照，请查看 Nanonets 预先训练的图像到文本提取器 免费.

只需选择适当的提取器，上传图像，提取并导出文本。现在从图像中提取文本：

从图像中提取文本可能是一个繁琐的过程。大多数人只是重新输入图像中的文本/数据；但当您有大量图像需要处理时，这既耗时又低效。

图像到文本转换器通常作为图像/文档处理程序的子功能内置，提供了一种从图像中提取文本的巧妙方法。

Snagit 和 OneNote 等工具利用基本的 OCR 功能从图像中提取文本。 Workbench 或 img2text 等在线转换器也可以使用 OCR 从图像中提取文本。 (什么是OCR？ – 这是一个 OCR详细解释)

虽然此类工具做得很好，但提取的文本/数据通常以非结构化方式呈现，从而导致大量后处理。一个人工智能驱动的 OCR Nanonets 可以从图像中提取文本，并以整洁、有组织和结构化的方式呈现提取的数据。

Nanonets 以多种语言准确、大规模地从图像中提取数据。 Nanonets 是唯一的文本识别 OCR，它以完全可定制的结构整齐的格式呈现提取的文本。捕获的数据可以以表格、行项目或任何其他格式呈现。

您可以通过以下三种方式使用 Nanonets OCR 检测和提取图像中的文本：从PDF中提取文本s, 从PDF提取数据s或解析 PDF 和其他文件类型：

使用 Nanonets 预训练的 OCR 模型从图像中提取文本

Nanonets 具有针对下面列出的特定图像类型的预训练 OCR 模型。每个预训练的 OCR 模型都经过训练，可以准确地将图像类型中的文本与适当的字段（如姓名、地址、日期、到期日等）相关联，并以整洁有序的方式呈现提取的文本。

费用单据
收
驾驶执照（美国）
护照

纳米网在线OCR和OCR API 有很多有趣的用例.

Nanonets 从收据图像中提取文本

步骤1：选择合适的OCR模型

登录到 Nanonets 并选择适合您要从中提取文本和数据的图像的 OCR 模型。如果没有一个预训练的 OCR 模型符合您的要求，您可以跳过以了解如何创建自定义 OCR 模型。

步骤2：添加文件

添加要从中提取文本的文件/图像。您可以添加任意数量的图像。

步骤3：测试

让模型运行几秒钟并从图像中提取文本。

步骤4：验证

通过检查右侧的表格视图，快速验证从每个文件中提取的文本。您可以轻松地仔细检查文本是否已被正确识别并与适当的字段或标签匹配。

您甚至可以在此阶段选择编辑/更正字段值和标签。 Nanonets 不受图像模板的约束。

提取的数据可以以“列表视图”或“ JSON”格式显示。

您可以勾选要验证的每个值或字段旁边的复选框，或单击“验证数据”以立即进行。

步骤5：汇出

一旦所有文件都经过验证。您可以将整理整齐的数据导出为xml，xlsx或csv文件。

Nanonets有意思用例而独特的客户成功案例. 了解Nanonets如何推动您的业务提高生产力。

通过构建自定义 Nanonets OCR 模型从图像中提取文本

使用 Nanonets 构建自定义 OCR 模型很容易。您通常可以在 25 分钟内以任何语言为任何图像或文档类型构建、训练和部署模型（取决于用于训练模型的文件数量）。

观看下面的视频以遵循此方法的前 4 个步骤：

如何使用Nanonets训练自己的OCR模型

步骤1：建立您自己的OCR模型

登录到Nanonets，然后单击“创建自己的OCR模型”。

第2步：上传培训文件/图像

上载将用于训练OCR模型的样本文件。您建立的OCR模型的准确性将在很大程度上取决于此阶段上传的文件/图像的质量和数量

步骤3：在文件/图像上注释文本

现在，用适当的字段或标签注释每段文本或数据。此关键步骤将指导您的OCR模型从图像中提取适当的文本，并将其与与您的需求相关的自定义字段相关联。

您还可以添加新标签来注释文本或数据。请记住，Nanetes 不受图像模板的约束！

步骤4：训练自定义OCR模型

为所有训练文件/图像完成注释后，单击“训练模型”。培训通常需要20分钟至2个小时，具体取决于要培训的文件和排队模型的数量。您可以升级付费计划，以便在此阶段（通常不到20分钟）获得更快的结果。

Nanonets 利用深度学习来构建各种 OCR 模型并相互测试它们的准确性。 Nanonets 然后挑选出最好的 OCR 模型（根据您的输入和准确度级别）。

“模型度量”选项卡显示了各种测量和比较分析，这些结果使Nanonets可以在所有已构建的模型中选择最佳的OCR模型。您可以重新训练模型（通过提供更广泛的训练图像和更好的注释）来达到更高的准确性。

或者，如果您对准确性满意，请单击“测试”以测试和验证此自定义OCR模型在需要从中提取文本/数据的图像或文件样本中是否按预期执行。

第5步：测试和验证数据

添加几个示例图像以测试和验证自定义OCR模型。

如果文本已被正确识别、提取和呈现，则导出文件。正如您在下面看到的，提取的数据已被组织并以简洁的格式呈现。

恭喜，您现在已经构建并训练了一个自定义 OCR 模型来从某些类型的图像中提取文本！

您的公司是否处理数字文档，图像或PDF中的文本识别？您是否想知道如何从图像中准确提取文本？

使用 NanoNets API 训练您自己的 OCR 模型

这里有一个详细的训练指南您自己的 OCR 模型使用纳米网络API。在文件，您会发现可以在 Python、Shell、Ruby、Golang、Java 和 C# 中触发代码示例，以及针对不同端点的详细 API 规范。

以下是使用 Nanonets API 训练您自己的模型的分步指南：

第1步：克隆仓库

git clone https://github.com/NanoNets/nanonets-ocr-sample-python
cd nanonets-ocr-sample-python
sudo pip install requests
sudo pip install tqdm

第2步：获取免费的API密钥

从以下位置获取免费的API密钥 https://app.nanonets.com/#/keys

步骤3：将API密钥设置为环境变量

export NANONETS_API_KEY=YOUR_API_KEY_GOES_HERE

步骤4：建立新模型

python ./code/create-model.py

注意：这将生成下一步所需的MODEL_ID

步骤5：将模型ID添加为环境变量

export NANONETS_MODEL_ID=YOUR_MODEL_ID

第6步：上传培训数据

收集要检测的对象的图像。在文件夹中准备好数据集后 images （图像文件），开始上传数据集。

python ./code/upload-training.py

步骤7：训练模型

图片上传后，开始训练模型

python ./code/train-model.py

步骤8：获取模型状态

该模型需要大约30分钟的训练时间。一旦训练好模型，您将收到一封电子邮件。同时，您检查模型的状态

watch -n 100 python ./code/model-state.py

步骤9：进行预测

一旦模型被训练。您可以使用模型进行预测

python ./code/prediction.py PATH_TO_YOUR_IMAGE.jpg

为什么 Nanonets 是从图像中提取文本的最佳 OCR

与其他 OCR API 相比，使用 Nanonets 的好处不仅仅在于从图像中提取文本的准确性更高。以下是您应该考虑使用 Nanonets OCR 进行文本识别的 7 个原因：

1. 使用自定义数据

大多数 OCR 软件对它们可以使用的数据类型都非常严格。为用例训练 OCR 模型需要在其要求和规范方面具有很大的灵活性；用于发票处理的 OCR 将与用于护照的 OCR 大不相同！ Nanonets 不受如此严格的限制。 Nanonets 使用您自己的数据来训练最适合满足您业务特定需求的 OCR 模型。

2. 使用非英语或多种语言

由于 Nanonets 专注于使用自定义数据进行训练，因此它具有独特的优势，可以构建单个 OCR 模型，该模型可以同时从任何语言或多种语言的图像中提取文本。

3. 无需后期处理

使用 OCR 模型提取的文本需要智能结构化并以可理解的格式呈现；否则，需要大量时间和资源将数据重新组织成有意义的信息。虽然大多数 OCR 工具只是简单地从图像中抓取和转储数据，但 Nanonets 仅提取相关数据并自动将它们分类到智能结构化的字段中，使其更易于查看和理解。

4.不断学习

企业经常面临动态变化的需求和需求。为了克服潜在的障碍，Nanetets 允许您使用新数据轻松地重新训练您的模型。这使您的 OCR 模型能够适应不可预见的变化。

5. 轻松处理常见数据约束

Nanonets 利用人工智能、机器学习和深度学习技术来克服极大影响文本识别和提取的常见数据限制。 Nanonets OCR 可以同时识别和处理手写文本、多种语言的文本图像、低分辨率图像、具有新字体或草书字体和不同尺寸的图像、具有阴影文本的图像、倾斜文本、随机非结构化文本、图像噪声、模糊图像和更多。传统的 OCR API 无法在此类限制下执行；他们需要非常高保真度的数据，这在现实生活场景中并不常见。

6. 不需要内部开发团队

无需担心雇用开发人员和获取人才来个性化 Nanonets API 以满足您的业务需求。 Nanonets 专为轻松集成而构建。您还可以轻松地将 Nanonets 与大多数 CRM、ERP 或 RPA 软件集成。

7.定制，定制，定制

您可以使用 Nanonets OCR 捕获任意数量的文本/数据字段。您甚至可以构建适用于您的特定文本识别和文本提取要求的自定义验证规则。 Nanonets 完全不受文档模板的约束。您可以捕获表格或行项目或任何其他格式的数据！

Nanonets有许多用例，可以优化您的业务绩效，节省成本并促进增长。 找出 Nanonets 的用例如何应用于您的产品。

或退房纳米网文字识别API 行动起来并开始建立自定义 OCR 模特免费！

更新六月 2022: 这篇文章最初发表于十月 2020 并且已经更新经常.

这是一张幻灯片总结本文中的发现。这是一个备用版本这个职位。

时间戳记： 2022 年 6 月 27 日

时间戳记： 2023 年 12 月 17 日

目录