인보이스 구문 분석 - PDF 및 스캔 문서에 대한 인보이스 데이터 추출 PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

인보이스 구문 분석 – PDF 및 스캔 문서에 대한 인보이스 데이터 추출

인보이스를 수동으로 처리해야 하는 경우 프로세스가 얼마나 시간 소모적이고 지루한지 알 수 있습니다. 말할 것도 없이, 모든 것을 손으로 할 때 뭔가를 놓치기 쉽기 때문에 실수하기 쉽습니다.

이것이 바로 인보이스 파서가 필요한 이유입니다. 이러한 도구는 인보이스에서 데이터를 추출하는 프로세스를 자동화하여 필요한 정보를 빠르고 쉽게 얻을 수 있도록 합니다. 이렇게 하면 많은 시간과 번거로움을 줄일 수 있고 송장이 정확하게 처리되도록 할 수 있습니다.

이 기사에서는 테이블 추출, 고급 OCR 및 딥 러닝을 포함하여 가장 좋은 방법에 대해 설명하면서 인보이스 파서를 사용한 인보이스 데이터 추출 프로세스를 살펴봅니다.

또한 수동 처리보다 자동화된 송장 데이터 추출의 이점도 살펴보겠습니다. 바로 뛰어들자.

송장 파서란 무엇입니까?

송장 파서는 송장 문서를 읽고 해석하도록 설계된 소프트웨어 유형입니다. 여기에는 PDF, 이미지 및 기타 유형의 파일이 포함될 수 있습니다.

인보이스 파서의 목적은 인보이스 ID, 총액, 인보이스 날짜, 고객 이름 등과 같은 인보이스에서 주요 정보를 추출하는 것입니다. 송장 파서는 수동 데이터 추출에서 발생할 수 있는 실수를 방지하여 정확성을 보장하는 데 도움이 될 수 있습니다.

이 정보는 다음과 같은 다양한 목적으로 사용될 수 있습니다. AP 자동화, 월말 회계 마감 프로세스, 송장 관리.

송장 파서는 독립 실행형 프로그램이거나 더 큰 비즈니스 소프트웨어 시스템에 통합될 수 있습니다. 이러한 도구를 사용하면 팀에서 보고서를 생성하거나 데이터를 Excel과 같은 다른 응용 프로그램으로 내보내는 것이 더 쉬워지며 다른 비즈니스 관리 응용 프로그램과 함께 자주 사용됩니다.

시장에는 다양한 인보이스 구문 분석 소프트웨어 솔루션이 있으므로 특정 요구 사항에 맞는 솔루션을 선택하는 것이 중요합니다.

송장 파서는 어떻게 작동합니까?

인보이스 파서의 작동 방식을 이해하려면 파서에 대한 실무 지식이 있어야 합니다.

파서는 특정 마크업 언어로 작성된 문서를 해석하고 처리하는 데 사용됩니다. 그들은 문서를 토큰이라고 하는 더 작은 조각으로 나눈 다음 각 토큰을 분석하여 의미와 문서의 전체 구조에 맞는 방법을 결정합니다.

이를 위해 파서는 사용된 마크업 언어의 문법을 잘 이해하고 있어야 합니다. 이를 통해 개별 토큰을 식별하고 토큰 간의 관계를 올바르게 이해할 수 있습니다. 파서에 따라 이 프로세스는 수동 또는 자동일 수 있습니다. 수동 파서는 누군가가 문서를 살펴보고 각 토큰을 식별해야 하는 반면 자동 파서는 알고리즘을 사용하여 토큰을 자동으로 감지하고 처리합니다. 어느 쪽이든 파서는 마크업 언어로 작성된 문서를 이해하는 데 필수적인 역할을 합니다.

데이터 추출에서 인보이스 구문 분석은 인보이스 문서를 분석하고 관련 정보를 추출할 수 있습니다.

예를 들어 많은 송장을 받았고 그 데이터를 구조화된 형식으로 저장하려는 경우를 생각해 보십시오. 송장 구문 분석을 사용하면 모든 파일을 로드하고 광학 문자 인식(OCR)을 실행할 수 있으므로 데이터를 읽고 모든 키-값 쌍을 몇 분 안에 추출할 수 있습니다. 다음으로 일부 후처리 알고리즘을 사용하여 JSON 또는 CSV와 같은 읽기 쉬운 형식으로 저장할 수 있습니다. 당신은 또한 수 빌드 프로세스 및 워크플로 인보이스 구문 분석을 사용하여 비즈니스 기록에서 인보이스 추출을 자동화합니다.

Python으로 인보이스 구문 분석

Python은 송장 구문 분석을 포함하여 다양한 데이터 추출 작업을 위한 프로그래밍 언어입니다. 이 섹션에서는 Python 라이브러리를 사용하여 송장에서 데이터를 추출하는 방법을 설명합니다.

텍스트 읽기, 언어, 글꼴 처리, 문서 정렬, 키-값 쌍 추출과 같은 다양한 작업이 포함되어 있기 때문에 모든 데이터 유형에서 실행할 수 있는 일반적인 최첨단 인보이스 파서를 구축하는 것은 어렵습니다. 그러나 오픈 소스 프로젝트와 약간의 독창성 덕분에 우리는 이러한 문제 중 몇 가지를 해결하고 시작할 수 있었습니다.

예를 들어 샘플 인보이스에서 tabula라는 도구를 사용합니다. 이 도구는 인보이스 구문 분석을 위해 테이블을 추출하는 Python 라이브러리입니다. 아래 코드 스니펫을 실행하려면 Python과 tabula/tabulate가 모두 로컬 시스템에 설치되어 있는지 확인하십시오.

샘플 송장.pdf.

from tabula import read_pdf
from tabulate import tabulate
# PDF file to extract tables from
file = "sample-invoice.pdf"

# extract all the tables in the PDF file
#reads table from pdf file
df = read_pdf(file ,pages="all") #address of pdf file
print(tabulate(df[0]))
print(tabulate(df[1]))

산출

-  ------------  ----------------
0  Order Number  12345
1  Invoice Date  January 25, 2016
2  Due Date      January 31, 2016
3  Total Due     $93.50
-  ------------  ----------------

-  -  -------------------------------  ------  -----  ------
0  1  Web Design                       $85.00  0.00%  $85.00
      This is a sample description...
-  -  -------------------------------  ------  -----  ------

몇 줄의 코드로 PDF 파일에서 테이블을 추출할 수 있습니다. 이는 PDF 파일이 형식이 잘 지정되고 정렬되고 전자적으로 생성되었기 때문입니다(카메라로 캡처되지 않음). 대조적으로, 문서가 전자적으로 생성되는 대신 카메라로 캡처되었다면 이러한 알고리즘이 데이터를 추출하는 것이 훨씬 더 어려웠을 것입니다. 여기서 광학 문자 인식이 작동합니다.

사용합시다 테세 랙트, 인보이스를 구문 분석하는 Python용 OCR 엔진입니다.

import cv2
import pytesseract
from pytesseract import Output

img = cv2.imread('sample-invoice.jpg')

d = pytesseract.image_to_data(img, output_type=Output.DICT)
print(d.keys())

결과는 다음과 같습니다.

dict_keys(['level', 'page_num', 'block_num', 'par_num', 'line_num', 'word_num', 'left', 'top', 'width', 'height', 'conf', 'text'])

이 사전을 사용하여 감지된 각 단어, 경계 상자 정보, 텍스트 및 신뢰도 점수를 얻을 수 있습니다.

아래 코드를 사용하여 상자를 그릴 수 있습니다.

n_boxes = len(d['text'])
for i in range(n_boxes):
    if float(d['conf'][i]) > 60:
        (x, y, w, h) = (d['left'][i], d['top'][i], d['width'][i], d['height'][i])
        img = cv2.rectangle(img, (x, y), (x + w, y + h), (0, 255, 0), 2)

cv2.imshow('img', img)
cv2.waitKey(0)

다음 출력이 표시됩니다.

이것이 인보이스의 영역을 사용하고 인식하는 방법입니다. 그러나 키-값 쌍 추출을 위해 사용자 지정 알고리즘을 구축해야 합니다. 다음 섹션에서 이에 대해 자세히 알아보겠습니다.

레거시 인보이스 파서의 문제(규칙 기반 캡처)

오늘날 많은 조직이 여전히 송장 데이터 추출을 위해 레거시 시스템에 의존하고 있습니다.

이러한 "규칙 기반" 시스템은 송장의 각 항목을 구문 분석한 다음 이를 일련의 규칙과 비교하여 정보를 데이터베이스에 추가해야 하는지 여부를 결정합니다.

이 방법은 오랫동안 사용되어 왔지만 몇 가지 단점이 있습니다. 레거시 인보이스 파서가 직면한 몇 가지 일반적인 문제를 살펴보겠습니다.

  • 스캔 중 페이지 기울기: 규칙 기반 인보이스 파서의 한 가지 문제점은 "페이지 기울기"에 어려움이 있을 수 있다는 것입니다. 이는 인보이스의 필드가 직선으로 배치되지 않아 파서가 데이터를 정확하게 식별하고 추출하기 어려운 경우에 발생합니다. 이는 고르게 인쇄되지 않는 프린터나 올바르게 정렬되지 않은 데이터를 수동으로 입력하여 발생하는 경우가 많습니다.
  • 형식 변경: 비즈니스가 직면하는 가장 일반적인 문제 중 하나는 표준 형식이 아닌 인보이스입니다. 송장에서 데이터를 추출하려고 할 때 문제가 발생할 수 있습니다. 예를 들어, 다른 글꼴을 사용할 수 있고 송장 레이아웃이 한 달에서 다른 달로 변경될 수 있습니다. 데이터를 구문 분석하고 각 열이 나타내는 내용을 결정하는 것은 어렵습니다. 예를 들어, 일부 새 필드를 송장에 추가하거나 일부 기존 필드를 다른 위치에 배치할 수 있습니다. 또는 일반 규칙 기반 파서가 송장을 올바르게 인식할 수 없는 완전히 새로운 구조가 있을 수 있습니다.
  • 테이블 추출: 규칙 기반 테이블 추출기는 종종 테이블에서 데이터를 추출하는 가장 간단하고 쉬운 방법입니다. 그러나 헤더를 포함하지 않거나 특정 열에 null 값을 포함하는 테이블을 처리할 때 제한 사항이 있습니다. 이러한 시나리오는 처리 중에 무한 루프를 일으켜 메모리에 무한히 긴 행을 로드하는 데 시간을 낭비하거나 아무 것도 출력하지 않기 때문입니다. 전혀) 해당 속성을 포함하는 종속 표현식도 있는 경우. 또한 테이블이 여러 페이지에 걸쳐 있는 경우 규칙 기반 파서는 테이블을 하나가 아닌 다른 테이블로 처리하므로 추출 프로세스를 오도합니다.

Nanonets로 AI 기반 인보이스 파서 구축

OCR(광학 문자 인식) 및 딥 러닝이 포함된 송장 파서는 스캔하거나 PDF로 변환한 송장에서 데이터를 추출할 수 있습니다. 그런 다음 이 데이터는 회계 소프트웨어를 채우고 비용을 추적하며 보고서를 생성할 수 있습니다.

딥 러닝 알고리즘은 고객 이름, 주소 및 제품 정보와 같은 송장의 특정 요소를 식별하는 방법을 학습할 수 있습니다. 이를 통해 보다 정확한 데이터 추출이 가능하고 수동으로 시스템에 데이터를 입력하는 데 필요한 시간을 줄일 수 있습니다. 그러나 이러한 알고리즘을 구축하려면 많은 시간과 전문 지식이 필요하지만 걱정하지 마십시오. 나노넷이 당신의 뒤를 이을 것입니다!

Nanonets는 인공 지능을 사용하여 PDF 문서, 이미지 및 스캔한 파일에서 표 추출을 자동화하는 OCR 소프트웨어입니다. 다른 솔루션과 달리 새 문서 유형마다 별도의 규칙과 템플릿이 필요하지 않습니다. 대신 인지 지능에 의존하여 반구조화되고 보이지 않는 문서를 처리하는 동시에 시간이 지남에 따라 개선됩니다. 원하는 테이블이나 데이터 항목만 추출하도록 출력을 사용자 정의할 수도 있습니다.

빠르고 정확하며 사용하기 쉽고 사용자가 처음부터 맞춤형 OCR 모델을 구축할 수 있으며 깔끔한 Zapier 통합 기능이 있습니다. 간단하고 직관적인 인터페이스에서 API를 통해 문서를 디지털화하고, 테이블 또는 데이터 필드를 추출하고, 일상적인 앱과 통합하십시오.

[포함 된 콘텐츠]

Nanonets가 최고의 PDF 파서인 이유는 무엇입니까?

  • 나노넷은 페이지 내 데이터를 추출할 수 있는 반면 명령줄 PDF 파서는 (제목, #페이지, 암호화 상태 등) 개체, 헤더 및 메타데이터만 추출합니다.
  • Nanonets PDF 구문 분석 기술은 템플릿 기반이 아닙니다. 널리 사용되는 사용 사례에 대해 사전 학습 된 모델을 제공하는 것 외에도 Nanonets PDF 구문 분석 알고리즘은 보이지 않는 문서 유형도 처리 할 수 ​​있습니다!
  • 기본 PDF 문서를 처리하는 것 외에도 Nanonet의 내장 OCR 기능을 사용하면 스캔한 문서와 이미지도 처리할 수 있습니다!
  • AI 및 ML 기능을 갖춘 강력한 자동화 기능.
  • 나노넷은 구조화되지 않은 데이터, 공통 데이터 제약 조건, 다중 페이지 PDF 문서, 테이블 및 다중 라인 항목을 쉽게 처리합니다.
  • Nanonets는 사후 처리가 필요 없는 출력을 제공하기 위해 사용자 지정 데이터에 대해 지속적으로 학습 및 재훈련할 수 있는 코드 없는 도구입니다.

Nanonet을 사용한 자동화된 인보이스 구문 분석 – 완전히 비접촉식 인보이스 처리 워크플로 생성

기존 도구를 Nanonet과 통합하고 데이터 수집, 내보내기 저장 및 부기를 자동화하십시오.

Nanonet은 다음을 통해 송장 구문 분석 워크플로를 자동화하는 데도 도움이 됩니다.

  • 이메일, 스캔한 문서, 디지털 파일/이미지, 클라우드 스토리지, ERP, API 등 다양한 소스에서 송장 데이터 가져오기 및 통합
  • 인보이스, 영수증, 청구서 및 기타 재무 문서에서 인보이스 데이터를 지능적으로 캡처하고 추출합니다.
  • 비즈니스 규칙에 따라 트랜잭션을 분류하고 코딩합니다.
  • 내부 승인을 받고 예외를 관리하기 위해 자동화된 승인 워크플로를 설정합니다.
  • 모든 거래를 조정합니다.
  • Quickbooks, Sage, Xero, Netsuite 등과 같은 ERP 또는 회계 소프트웨어와 원활하게 통합됩니다.

타임 스탬프 :

더보기 AI 및 머신 러닝