使用 OCR 和深度学习自动化发票处理

由柏拉图重新发布

关注： 0

使用OCR和深度学习自动进行发票处理

要自动化发票处理？查看 Nanonets 的预训练发票 OCR or 建立你自己的 定制发票OCR。你也可以 安排演示 了解有关我们的 AP 用例的更多信息！

介绍

长期以来，我们一直依靠纸质发票来处理付款和维护帐户。协调发票通常涉及某人手动花费数小时来浏览多个发票，并将事情记入分类账。

但是，是否可以在减少纸张，人力和时间的情况下更好，更有效地完成此过程呢？

手动执行这些程序的几个缺点包括较高的成本，较高的人力需求，重复性任务中消耗的时间更多以及碳足迹更大。

发票数字化的过程可分为4个步骤：

将实际文件转换为数字版本–可以通过以下方式完成
- 发票扫描
- 通过相机点击图像
信息提取–这可以通过以下方式完成
- 人工-由审阅者手动完成，他们将分析发票中的错误，阅读发票中的文字并将其输入到软件中进行存储和将来检索。
- 机器–
  - 光学字符识别–识别文档中存在的文本和数字。
  - 信息提取–完成OCR过程后，重要的是要确定哪段文本对应于哪个提取字段。如果字段是总计，小计，发票日期，供应商等。
数据转储–信息提取后，需要以可检索的格式存储，例如
- 数据库
- Excel表格
- ERP系统。

这篇文章主要关注 OCR 和信息提取。在我们深入探讨 OCR 和信息提取的当前状态存在什么问题之前发票处理，让我们首先看看为什么我们应该首先关心发票数字化。

纳米网支持发票收取, 发票管理 & 发票自动化超过60种语言。立即建立您自己的模型或索取演示！

为什么要数字化发票？

数字化信息具有企业可以从多个方面获得的多个优势。企业可以更好地跟踪其流程，可以提供更好的客户服务，提高员工的生产率并降低成本。

以下是一些您应考虑将自己的业务的发票数字化的原因。

自动化流程
借助深度学习和OCR，您可以自动拍摄这些发票图像，从中提取表格和文本，提取不同字段的值，进行错误更正，检查产品是否与可批准的库存匹配以及如果一切都已检查完，最后处理索赔。与保险业传统上的做法相比，这是一个巨大的飞跃，但是它仍然可以证明是非常有益的。
为了提高效率
通过将发票数字化，可以使多个流程变得更快、更顺畅。以一家零售连锁店为例，该连锁店与一些固定的商品供应商打交道，并在每个月末处理付款。这家商店可以通过自动化流程节省大量时间发票管理。供应商只需在应用程序或网站上上传账单，他们就可以获得即时反馈，了解图像是否具有良好的分辨率、图像是否属于整个发票、图像是假的或经过数字处理等，从而节省大量成本时间。
降低成本
通过使用 OCR 和深度学习实现发票数字化自动化，同一家零售店的特许经营权节省了大量资金。一张发票必须经过三名审阅者之手才能没有错误，这样就减少到了一名。计算机处理的发票数量比人类快几倍。时间包括检查发票是否欺诈、发票是否包含所有信息、所有信息是否正确、将所有数据手动输入电子表格或数据库、运行计算并最终处理付款。
为了更好的存储
如有争议，供应商可以访问应用程序并浏览他/她上载的所有发票以及每个发票的后处理结果，解释商品，数量，成本，税收和折扣。该公司已经自动化了将这些数据输入数据库的过程，现在也可以随时检索此信息。
增加客户满意度
以类似的方式处理发票也可以帮助公司改善客户服务。您从电子商务平台发货时缺少产品吗？联系他们，向他们发送发票并解释缺少的内容，公司将自动阅读发票收据，找到离开他们仓库的产品并向您发送回复，告知您丢失的产品现已在路上！
减少生态足迹
做一些简单的计算相关信息我们意识到，一个中等规模的组织每月要处理50000万张发票，最终每年要牺牲30多棵树。由于发票重复，该数字在大多数情况下会增加。同样量的纸，也将需要2.5万公升的水才能生产。在这样的时间里，采取组织减少其生态足迹的必要步骤对保护环境大有帮助。

开票流程的演变

随着时间的流逝，发票的审查过程已经发生了很大的变化。技术的发展使发票处理过程经历了三个主要阶段。

阶段1：手动审核

考虑一个用例，其中组织正在经历向其常规供应商偿还当月费用的流程。

按照以下步骤处理发票–

人们应亲自向有关组织的联系人提交多张发票。
然后，此人会将所有发票转发给审阅者，审阅者将完全审阅每个文档。这包括将每个细节记录下来或输入到软件中，例如进行购买的人的姓名，购买商店的名称，购买日期和时间，购买的物品，其成本，折扣和税金。
使用该软件，再次手动计算或如果数据输入软件是专门为会计目的设计的，则计算出每张发票的总和。
最终账单/收据根据最终数字进行计算并处理付款。

阶段2：发票扫描和人工审核

随着OCR技术的出现，自动节省了很多时间从数字图像中提取文本任何发票或单据。当前，大多数组织将OCR用于任何形式的自动化。

发票的数字副本通过以下方式获得扫描发票或使用相机拍照。
提取文字使用OCR从这些发票中提取。这样就可以提供数字文本，从而使数据输入更加容易。但是仍然需要手动完成许多工作。
必须适当解析每张发票的OCR结果，以找到相关数据并丢弃不相关的数据。
完成此操作后，必须将数据输入软件，该软件为审阅者提供模板以简化其任务。该模板对于每个用例、组织以及主要针对每种不同类型的发票都是唯一的。虽然 OCR 流程有助于发票处理，但由于 OCR 结果非结构化，它并不能解决许多繁琐的部分。
输入的数据将通过手动检查来更正错误。由于当前可用的OCR工具的性能较差，因此需要经过多个审阅者，因此此过程需要一些时间。
最后，完成计算，并将付款明细转发给财务部门。

如何更好地数字化发票？

通过使用OCR和深度学习，我们使机器的性能更好，在某些情况下甚至甚至比人类更好。

发票数字化涉及几个人工审核步骤：

用户拍摄和上传的发票的数字图像。
已验证图像适合进一步处理-分辨率好，图像中所有可见数据，验证日期等。
图像检查有无欺诈。
这些图像中的文本被提取并以正确的格式放置。
输入到表格，电子表格，数据库，资产负债表等中的文本数据。

阶段3：深度学习和OCR

深度学习方法已经在阅读文本以及从图像中提取结构化和非结构化信息这一特定问题中取得了进步。通过将现有的深度学习方法与光学字符识别技术相结合，公司和个人已经能够自动执行数字化文件并简化了手动数据输入过程，更好的日志记录和存储，更少的错误和更快的响应时间。

市场和开放源代码社区中有几种工具可用于此类任务，它们各有利弊。其中一些是Google Vision API，Amazon Rekognition和Microsoft Cognitive Services。最常用的开源工具是注意OCR 和正方体.

所有这些工具都以相同的方式出现缺陷–准确性很差，需要手动纠正错误，并且需要遵循基于规则的引擎来执行以下操作：文字提取实际上能够以任何有意义的方式使用数据。我们将在接下来的部分中更多地讨论这些问题。

是什么使这个问题有趣？

OCR景观主要由基于规则的引擎组成，这些引擎通过匹配模式或定义强制OCR结果适合的特定模板而严重依赖于对OCR结果的后处理。这种方法虽然取得了一些成功，但需要在OCR之上构建一层软件。 OCR引擎是一项消耗资源的任务。

这种基于规则的方法存在的一个更大的问题是，每次您处理新的发票模板时，都必须重新设计这一增加的软件层。与OCR一起使模板过程自动化，会对使用发票的任何人产生巨大的影响。

这正是我们面临的问题纳米网下定决心解决。

鲜为人知的解决此问题的方法包括使用机器学习来学习文档或发票本身的结构，允许我们处理数据，定位需要首先提取的字段，就好像我们正在解决对象检测问题一样（并且而不是OCR），然后再删除其中的文字。这可以通过对神经网络进行建模来完成，以学习如何识别和提取表，了解表中的列和字段，发票中常见的格式（包括格式）的方式来完成。

这种方法的优势在于，有可能制作一种机器学习模型，该模型可被通用化为任何类型的文档或发票，并且无需任何定制即可直接使用。通过收集新数据和定期重新训练模型来添加一个连续的学习循环，可以在大量数据上带来出色的性能。

有OCR问题吗？要数字化发票，PDF或车牌号吗？前往纳米网并免费构建OCR模型！

为什么当前的深度学习工具还不够？

即使有所有好处自动发票处理不得不说的是，OCR 和深度学习技术尚未在各行业得到广泛采用，其原因有几个。

让我们尝试通过一个例子来理解——一家处理处方和发票的健康保险公司。通过让用户通过在手机或计算机上拍照或上传发票图像来自动化保险公司的索赔处理扫描发票将增加顾客的便利并吸引更多顾客。这些上传的图像通常会经过几轮手动审核，您将验证发票是否合法（如果数字加起来），即发票中提到的产品收对于保险索赔等有效。但通过发票处理自动化，这些任务只需手动完成所需时间的一小部分即可完成，并且所需的人力至少减少 50%。

但是，构建按行业用例执行的端到端方法存在障碍，可以在确保错误不会花费大量预算的同时驱动自动化，同时还可以提高客户入职率。

OCR技术的准确性

当前，市场上最好的OCR工具不能令人满意地针对任何用例大规模应用这些API。根据这个刊文, Google视觉，最好文字识别API 现在可用只能提供80％的准确性。市场上其他产品的准确性，例如亚马逊重新认识和微软认知服务令人沮丧。 Microsoft的执行准确度为65％，而AWS rekognition的执行准确度仅为21％。

这些API不允许对公司最常使用的特定数据进行自定义培训，这使情况变得更糟。投资在准确性方面比人类更差的软件，仍然需要人工输入，人工纠错和人工审查，似乎是在浪费时间和金钱。

深度学习专业知识

像 Google Vision 这样的 OCR 产品在处理不同方向、不同语言、阴影或噪声文本时面临着一些缺点。它们不允许您使用数据并构建自定义模型，从而使产品难以直接集成到组织的工作流程中。很多时候，为了解决这样的问题，组织必须聘请数据科学或机器学习团队并为自己构建这些工具。这需要时间、金钱和精力。

此后，数据科学家必须将他们的知识和专长与公司目标保持一致，并准确确定要优化以实现这些结果的指标。这要求数据科学家理解业务命题，将其转化为数学问题，了解公司SLA，找到正确的数据，构建机器学习模型，对其进行调整以获取所需的准确性，同时确保正确处理错误案例。

获取正确的数据

构建正确的机器学习模型的一个非常重要的部分是找到正确的数据，但没有足够的数据供我们使用。有一些数据集可用于 OCR，用于车牌识别或手写识别等任务，但这些数据集几乎不足以获得保险索赔处理或供应商还款分配所需的准确性。

这些用例要求我们构建模型并根据我们将要处理最多的数据类型对其进行训练，同时确保错误最小化和数据集平衡。处理，比如医生的处方或收来自小型供应商的要求我们的模型在数字和手写文本文档上表现良好。

计算资源

构建内部ML解决方案的任务不仅涉及聘请最好的机器学习工程师来以最佳精度设计算法。在图像数据上构建模型的计算要求很高，通常包括本地或云中的GPU。在Google Cloud Platform上运行K-80 GPU实例的费用约为每月230美元。当您必须训练模型或使用新数据重新训练旧模型时，这些成本会急剧上升。

如果您选择构建内部解决方案，则必须通过增加客户注册数量，增加处理发票的速度以及减少所需的人工审阅者的数量来补偿构建内部解决方案的成本。

为您的业务需求量身定制解决方案

例如，建立供应商还款系统需要我们包括几个步骤。寻找适合您组织需求的工作流与构建可以提高准确性的机器学习模型不同。

您需要的模型可以：

至少达到人类水平的准确性
可以处理各种数据
适应错误处理
增加人工监督的便利
提供透明的数据处理步骤
检查欺诈
允许OCR后处理结果放入结构中
允许确保所有必填字段均在其中且值正确
允许轻松存储和数据库化此数据
允许根据结果自动执行通知程序

正如您可能已经猜到的那样，这是一个漫长而困难的过程，通常没有那么直接的解决方案。

纳米网支持发票收取 & 发票自动化超过60种语言。立即建立您自己的模型或索取演示！

输入纳米网

纳米网您不必担心寻找机器学习人才，构建模型，了解云基础架构或部署。您所需要的只是需要解决方案的业务问题。

易于使用的基于Web的GUI

Nanonets提供了一个易于使用的基于Web的GUI，可与其API进行通信，并允许您创建模型，对数据进行训练，获取诸如精度和准确性之类的重要指标以及对图像进行推理，而无需编写任何代码。

云托管模型

除了提供可以直接使用的几种模型以获取解决方案外，用户还可以构建其模型，这些模型托管在云中，并且可以通过API请求进行访问以进行推理。无需担心会获得GCP实例或GPU进行培训。

最先进的算法

建立的模型使用最新算法来为您提供最佳结果。随着越来越多的数据和更好的技术，更好的架构设计以及更强大的超参数设置，这些模型不断发展成为更好的模型。

现场提取

构建发票数字化产品的最大挑战是为提取的文本提供结构。通过我们的OCR API，可以更轻松地完成此操作，该API自动提取带有值的所有必需字段，并将它们以表或JSON格式放置，以供您轻松访问和构建。

自动化驱动

Nanonets的我们相信，诸如发票数字化之类的自动化流程可以在金钱利益，客户满意度和员工满意度方面对您的组织产生巨大影响。 Nanonets努力使机器学习无处不在，为此，我们的目标仍然是使您解决的任何业务问题都以在未来需要最少的人力监督和预算的方式进行。

带有纳米网的OCR

纳米网平台使您可以轻松构建OCR模型。您可以上传数据，对其进行注释，设置模型以进行训练并等待通过基于浏览器的UI进行预测，而无需编写任何代码，也不必担心GPU或为深度学习模型找到合适的架构。

更新：我们的模型更加准确。我们添加了新字段，例如采购订单号、电子邮件 ID 和表格提取，以进一步改进您的发票自动化工作流程.

开始使用Nanonets将发票数字化 – 1单击数字化:

设置演示

设置演示以了解Nanonets如何帮助您解决此问题

‌‌

使用OCR和深度学习自动进行发票处理

由柏拉图重新发布

介绍

为什么要数字化发票？