양식 데이터 추출

플라톤에 의해 재발행

팔로워 : 0

양식 데이터 추출

인쇄되거나 손으로 쓴 양식에서 데이터를 추출하고 싶으십니까? 확인해 보세요 나노 넷™ 양식 데이터 추출기 무료로 모든 형식의 정보 내보내기를 자동화하세요!

양식은 어디에나 있습니다. 참가자에게 필요한 정보를 특정 형식으로 작성하도록 요청하여 정보를 수집하기 위해 작성된 문서로 정의됩니다. 짧은 시간에 많은 데이터를 수집할 수 있기 때문에 도움이 됩니다. 그러나 모든 양식이 동일한 데이터 수집 용량을 갖고 있는 것은 아니며 나중에 수동 작업이 필요한 경우가 많습니다. 따라서 우리는 양식 데이터 추출 프로세스를 지능적으로 자동화하는 도구와 알고리즘을 사용합니다. 이 블로그 게시물에서는 OCR 및 딥 러닝을 사용하여 양식에서 데이터를 추출하는 다양한 시나리오와 기술에 대해 자세히 알아봅니다.

양식 데이터 추출이란 무엇입니까?
무엇이 문제를 어렵게 만드는가?
양식 추출 문제의 깊이
양식 데이터 추출 솔루션은 어떻게 발전했나요?
OCR을 사용한 양식 데이터 추출
딥러닝을 사용한 양식 데이터 추출 해결
나노 넷 입력

양식 데이터 추출이란 무엇입니까?

양식 데이터 추출은 온라인과 오프라인 모두에서 양식에서 데이터를 추출하는 프로세스입니다. 이 데이터는 일반적으로 관련 정보가 포함된 양식을 포함하여 어떤 형식으로든 찾을 수 있습니다. 그러나 많은 레이아웃과 디자인에서는 텍스트를 쉽게 선택할 수 없기 때문에 이 데이터를 추출하는 것이 항상 쉬운 작업은 아닙니다. 데이터를 복사하는 기본 방법은 없습니다. 따라서 우리는 보다 효과적이고 오류가 발생할 가능성이 적은 양식에서 데이터를 추출하는 데 도움이 되는 자동화된 기술을 사용합니다.

양식 데이터 추출이란 무엇입니까?

예를 들어, 오늘날 많은 사용자는 PDF 기반 양식을 사용하여 연락처 정보를 수집합니다. 이는 발신자와 수신자가 입력을 제공할 필요가 없기 때문에 정보를 수집하는 매우 효율적인 방법입니다. 그러나 PDF 형식에서 이 데이터를 추출하는 것은 어렵고 비용이 많이 들 수 있습니다.

여기서 양식 데이터 추출은 PDF 양식에서 이름, 이메일 주소, 전화번호 등과 같은 데이터를 추출하는 데 도움이 될 수 있습니다. Excel, 스프레드시트 또는 기타 구조화된 형식과 같은 다른 애플리케이션으로 가져올 수 있습니다. 작동 방식은 추출 도구가 PDF 파일을 읽고 필요한 것을 자동으로 꺼내어 읽기 쉬운 형식으로 구성하는 것입니다. 이 데이터는 Excel, CSV, JSON 및 기타 잘 구성된 데이터 형식과 같은 다른 형식으로 내보낼 수 있습니다. 다음 섹션에서는 양식 데이터 추출 알고리즘을 구축할 때 자주 직면하는 몇 가지 문제를 살펴보겠습니다.

인쇄되거나 손으로 쓴 양식에서 데이터를 추출하고 싶으십니까? 나노넷을 확인해보세요™ 무료로 양식 데이터 추출기를 사용하고 모든 양식에서 정보 내보내기를 자동화하세요!

양식 데이터 추출이 어려운 이유는 무엇입니까?

데이터 추출은 여러 가지 이유로 흥미로운 문제입니다. 우선, 이미지 인식 문제이지만, 이미지에 존재할 수 있는 텍스트와 양식의 레이아웃도 고려해야 하므로 알고리즘 구축이 더욱 복잡해집니다. 이 섹션에서는 양식 데이터 추출 알고리즘을 구축할 때 사람들이 직면하는 몇 가지 일반적인 문제에 대해 설명합니다.

데이터 부족: 데이터 추출 알고리즘은 일반적으로 강력한 딥러닝과 컴퓨터 비전 기반 알고리즘을 사용하여 구축됩니다. 이는 일반적으로 최첨단 성능을 달성하기 위해 방대한 양의 데이터에 의존합니다. 따라서 일관되고 신뢰할 수 있는 데이터 세트를 찾고 이를 처리하는 것은 모든 형태의 데이터 추출 도구 또는 소프트웨어에 매우 중요합니다. 예를 들어, 여러 템플릿이 포함된 양식이 있다고 가정하면 이러한 알고리즘은 광범위한 양식을 이해할 수 있어야 합니다. 따라서 강력한 데이터 세트에서 교육하면 더 정확한 성능을 얻을 수 있습니다.
글꼴, 언어 및 레이아웃 처리: 다양한 종류의 양식 데이터에 사용할 수 있는 다양한 서체, 디자인 및 템플릿이 엄청나게 많습니다. 완전히 다른 여러 분류에 속할 수 있으므로 고려해야 할 문자 유형이 엄청나게 많을 때 정확한 인식을 보장하기가 어렵습니다. 따라서 문서를 적절하게 처리하면 원활하게 흐르는 많은 프로세스가 생성되므로 글꼴 컬렉션을 특정 언어 및 유형으로 제한하는 것이 중요합니다. 다국어의 경우, 여러 언어의 문자 간 저글링을 준비하고 복잡한 타이포그래피를 처리해야 합니다.

이미지 출처 : 중급

방향 및 기울이기(회전): 데이터 큐레이션 중에 우리는 종종 이미지를 스캔하여 입력 데이터 수집을 위한 알고리즘을 교육합니다. 스캐너나 디지털 카메라를 사용해 본 적이 있다면 문서 이미지를 캡처하는 각도로 인해 문서가 왜곡되어 보일 수 있다는 사실을 눈치채셨을 것입니다. 이것은 각도의 정도를 나타내는 왜도(skewness)로 알려져 있습니다. 이러한 왜도는 모델의 정확도를 감소시킬 수 있습니다. 다행히도 소프트웨어가 이미지의 특정 영역에서 특징을 감지하는 방식을 간단히 수정하면 다양한 기술을 사용하여 이 문제를 해결할 수 있습니다. 이러한 기술의 예로는 모양, 치수 및 질감 인식에서 훨씬 더 깔끔한 결과를 제공하는 투영 프로파일 방법 또는 푸리에 변환 방법이 있습니다! 방향과 왜곡은 단순한 실수일 수 있지만 이는 모델의 정확도에 큰 영향을 미칠 수 있습니다.

이미지 출처 : 파이이미지검색

데이터 보안: 데이터 수집을 위해 다양한 소스에서 데이터를 추출하는 경우 현재 시행 중인 보안 조치를 숙지하는 것이 중요합니다. 그렇지 않으면 전송되는 정보가 손상될 위험이 있습니다. 이로 인해 개인정보가 침해되거나 API로 전송되는 정보가 안전하지 않은 상황이 발생할 수 있습니다. 따라서 데이터 추출을 위해 ETL 스크립트 및 온라인 API를 사용하는 동안 데이터 보안 문제도 알고 있어야 합니다.
테이블 추출: 때로는 테이블 내부에 양식 데이터가 표시되는 경우가 있습니다. 양식 추출과 테이블 추출을 모두 처리할 수 있는 강력한 알고리즘을 구축하는 것은 어려울 수 있습니다. 일반적인 접근 방식은 이러한 알고리즘을 독립적으로 구축하여 데이터에 적용하는 것이지만, 이로 인해 더 많은 계산 능력이 사용되어 비용이 증가하게 됩니다. 따라서 이상적인 양식 추출은 주어진 문서에서 양식 데이터와 데이터를 모두 추출할 수 있어야 합니다.

이미지 출처 : GCN

사후 처리/출력 내보내기: 모든 데이터 추출의 출력 데이터는 직선적이지 않습니다. 따라서 개발자는 후처리 기술을 사용하여 결과를 보다 구조화된 형식으로 필터링합니다. 데이터를 처리한 후 CSV, Excel 또는 데이터베이스와 같은 보다 구조화된 형식으로 내보냅니다. 조직에서는 타사 통합에 의존하거나 API를 개발하여 이 프로세스를 자동화하는데, 이는 역시 시간이 많이 소요됩니다. 따라서 이상적인 데이터 추출 알고리즘은 유연하고 외부 데이터 소스와 쉽게 통신할 수 있어야 합니다.

양식 데이터 추출의 후처리

다양한 시나리오를 통한 양식 추출의 깊이 이해

지금까지 양식 데이터 추출의 기본 사항과 과제에 대해 논의했습니다. 이 섹션에서는 다양한 시나리오를 자세히 살펴보고 양식 데이터 추출의 깊이를 이해합니다. 또한 이러한 특정 시나리오에 대해 추출 프로세스를 자동화할 수 있는 방법도 살펴보겠습니다.

시나리오 #1: 오프라인 양식에 대한 필기 인식

오프라인 형태는 일상생활에서 흔히 접하게 됩니다. 양식을 쉽게 작성하고 제출할 수 있어야 합니다. 오프라인 양식을 수동으로 디지털화하는 것은 정신없고 비용이 많이 드는 작업일 수 있으므로 딥 러닝 알고리즘이 필요합니다. 손으로 쓴 문서는 손으로 쓴 문자의 복잡성으로 인해 데이터를 추출하는 데 큰 어려움이 있습니다. 따라서 기계가 손으로 쓴 텍스트를 읽고 해석하는 방법을 배우는 데 데이터 인식 알고리즘이 많이 사용됩니다. 이 프로세스에는 손으로 쓴 단어의 이미지를 스캔하고 이를 알고리즘으로 처리하고 분석할 수 있는 데이터로 변환하는 과정이 포함됩니다. 그런 다음 알고리즘은 획을 기반으로 문자 맵을 생성하고 해당 문자를 인식하여 텍스트를 추출합니다.

이미지 출처 : NSIT 데이터세트

시나리오 #2: 양식의 확인란 식별

체크박스 양식은 입력 필드에서 사용자로부터 정보를 수집하는 데 사용되는 데이터 입력 형식입니다. 이러한 유형의 데이터는 일반적으로 사용자가 연락하려는 항목과 같이 하나 이상의 항목을 선택해야 하는 목록 및 테이블에서 찾을 수 있습니다. 온라인 양식, 설문지, 설문 조사 등 다양한 장소에서 찾을 수 있습니다. 오늘날 일부 알고리즘은 체크박스에서도 데이터 추출 프로세스를 자동화할 수 있습니다. 이 알고리즘의 주요 목표는 컴퓨터 비전 기술을 사용하여 입력 영역을 식별하는 것입니다. 여기에는 선(수평 및 수직) 식별, 필터, 윤곽선 적용 및 이미지 가장자리 감지가 포함됩니다. 입력 영역이 식별되면 표시되거나 표시되지 않은 확인란 내용을 쉽게 추출할 수 있습니다.

양식 데이터 추출 시 체크박스 식별

시나리오 #3: 때때로 양식의 레이아웃 변경

양식을 작성할 때 일반적으로 두 가지 유형의 옵션이 있습니다. 일부 양식의 경우 모든 관련 필드를 작성하여 정보를 제공해야 하지만, 다른 양식의 경우 몇 가지 확인란을 선택하여 정보를 제공할 수 있습니다. 양식의 레이아웃도 양식 유형과 해당 컨텍스트에 따라 변경됩니다. 따라서 구조화되지 않은 여러 문서를 처리하고 양식 레이블에 따라 콘텐츠를 지능적으로 추출할 수 있는 알고리즘을 구축하는 것이 필수적입니다. 문서 레이아웃을 처리하기 위한 딥 러닝 아키텍처의 인기 있는 기술 중 하나는 그래프 CNN입니다. GCN(Graph Convolutional Networks)의 기본 아이디어는 뉴런 활성화가 데이터 기반임을 보장하는 것입니다. 노드와 에지로 구성된 그래프에서 작동하도록 설계되었습니다. 그래프 컨벌루션 레이어는 작업별 훈련 신호가 없어도 패턴을 인식할 수 있습니다. 따라서 이는 데이터가 견고할 때 적합합니다.

시나리오 #4: 테이블 셀 감지

어떤 경우에는 기업이 테이블 셀로 구성된 특별한 종류의 양식을 접하게 됩니다. 테이블 셀은 데이터가 저장되는 테이블 내부의 직사각형 영역입니다. 헤더, 행, 열로 분류할 수 있습니다. 이상적인 알고리즘은 이러한 모든 유형의 셀과 경계를 식별하여 셀에서 데이터를 추출해야 합니다. 테이블 추출에 널리 사용되는 기술로는 Stream과 Lattice가 있습니다. 이는 이미지에 대한 간단한 동형 연산을 사용하여 선, 모양, 다각형을 감지하는 데 도움이 되는 알고리즘입니다.

양식 데이터 추출 솔루션은 어떻게 발전했나요?

양식 데이터 추출은 사람들이 종이 양식을 처리했던 컴퓨터 이전 시대에 시작되었습니다. 컴퓨팅의 출현으로 데이터를 전자적으로 저장하는 것이 가능해졌습니다. 컴퓨터 프로그램은 데이터를 사용하여 판매 통계와 같은 보고서를 만들 수 있습니다. 이 소프트웨어는 고객의 이름 및 주소와 같은 우편물 라벨을 인쇄하고 지불 금액 및 배송 주소와 같은 송장을 인쇄하는 데에도 사용할 수 있습니다. 그러나 오늘날 우리는 양식 데이터 추출 소프트웨어의 다른 버전을 볼 수 있습니다. 이는 매우 정확하고 빠르며 고도로 조직적이고 구조화된 방식으로 데이터를 전달합니다. 이제 다양한 유형의 양식 데이터 추출 기술에 대해 간략하게 설명하겠습니다.

데이터 추출에서 규칙 기반: 규칙 기반 추출은 특정 템플릿 형식에서 자동으로 데이터를 추출하는 기술입니다. 사람의 개입 없이 데이터를 추출할 수 있습니다. 그들은 페이지의 다양한 필드를 검사하고 주변 텍스트, 레이블 및 기타 상황별 단서를 기반으로 추출할 필드를 결정하는 방식으로 작업합니다. 이러한 알고리즘은 일반적으로 ETL 스크립트 또는 웹 스크래핑을 사용하여 개발되고 자동화됩니다. 그러나 보이지 않는 데이터로 테스트하면 완전히 실패합니다.
OCR을 이용한 양식 데이터 추출: OCR은 모든 형태의 데이터 추출 문제에 적합한 솔루션입니다. 그러나 정확한 성능을 얻으려면 추가 스크립트와 프로그램을 작성해야 합니다. OCR이 작동하려면 텍스트가 포함된 이미지를 입력해야 합니다. 그런 다음 소프트웨어는 각 픽셀을 읽고 각 픽셀을 해당 문자와 비교합니다. 일치하는 경우 해당 문자와 문자에 충분히 가까운 숫자 또는 기호를 출력합니다. OCR의 가장 큰 과제는 문자를 분리하는 방법을 찾는 것입니다. 예를 들어 "a"와 "e"처럼 음표가 서로 가깝거나 겹치는 경우입니다. 따라서 오프라인 양식을 추출할 때는 작동하지 않을 수 있습니다.
양식 데이터 추출을 위한 NER: 명명된 엔터티 인식은 자연어 텍스트에서 미리 정의된 엔터티를 식별하고 분류하는 작업입니다. 이는 사람들이 이름, 주소, 설명 등을 입력하는 양식에서 정보를 추출하는 데 자주 사용됩니다. 명명된 엔터티를 인식하는 작업은 동일한 엔터티에 대한 언급이 해당 엔터티를 참조하는지 여부를 결정하는 보다 광범위한 상호 참조 해결 작업과 밀접하게 관련되어 있습니다. 동일한 실제 개체. 오늘날 고급 프로그래밍 도구 및 프레임워크를 통해 사전 훈련된 모델을 활용하여 정보 추출 작업을 위한 NER 기반 모델을 구축할 수 있습니다.

이미지 출처 : 중급

양식 데이터 추출을 위해 딥러닝 사용: 딥 러닝은 새로운 것이 아니며 수십 년 동안 존재해 왔지만 최근 딥 러닝 아키텍처와 컴퓨팅 성능의 발전으로 획기적인 결과가 나왔습니다. 딥 러닝을 사용한 양식 데이터 추출은 디지털이든 필기이든 거의 모든 형식에서 최첨단 성능을 달성했습니다. 이 프로세스는 심층 신경망(DNN)에 라벨이 붙은 수천 또는 수백만 개의 서로 다른 예제를 제공하는 것으로 시작됩니다. 예를 들어 이름, 이메일, ID 등과 같은 엔터티가 포함된 이미지 형식 레이블입니다. DNN은 이 모든 정보를 처리하고 이러한 조각이 어떻게 연결되는지 자체적으로 학습합니다. 그러나 매우 정확한 모델을 구축하려면 많은 전문 지식과 실험이 필요합니다.

양식 데이터 추출을 위한 딥러닝

OCR을 사용한 양식 데이터 추출

양식에서 데이터를 추출하는 데 사용할 수 있는 다양한 라이브러리가 있습니다. 하지만 양식 이미지에서 데이터를 추출하려면 어떻게 해야 할까요? 이것이 바로 Tesseract OCR(광학 문자 인식)이 등장하는 곳입니다. Tesseract는 HP에서 개발한 오픈 소스 OCR(광학 문자 인식) 엔진입니다. Tesseract OCR을 사용하면 종이 송장, 영수증, 수표 등 스캔한 문서를 검색 및 편집 가능한 디지털 파일로 변환할 수 있습니다. 여러 언어로 제공되며 다양한 이미지 형식의 문자를 인식할 수 있습니다. Tesseract는 일반적으로 다른 라이브러리와 함께 사용되어 이미지를 처리하여 텍스트를 추출합니다.

이를 테스트하려면 로컬 컴퓨터에 Tesseract를 설치해야 합니다. OCR을 실행하기 위해 Tesseract CLI 또는 Python 바인딩을 사용할 수 있습니다. Python-tesseract는 Google의 Tesseract-OCR 엔진용 래퍼입니다. jpeg, png, gif, bmp, tiff 등을 포함하여 Pillow 및 Leptonica 이미징 라이브러리에서 지원하는 모든 이미지 유형을 읽는 데 사용할 수 있습니다. 필요한 경우 테서랙트를 위한 독립 실행형 호출 스크립트로 쉽게 사용할 수 있습니다.

이제 양식 데이터가 포함된 영수증을 가져와 Computer Vision과 Tesseract를 사용하여 텍스트의 위치를 식별해 보겠습니다.

import pytesseract
from pytesseract import Output
import cv2 img = cv2.imread('receipt.jpg')
d = pytesseract.image_to_data(img, output_type=Output.DICT)
n_boxes = len(d['level'])
for i in range(n_boxes): (x, y, w, h) = (d['left'][i], d['top'][i], d['width'][i], d['height'][i]) img = cv2.rectangle(img, (x, y), (x + w, y + h), (0, 0, 255), 2) cv2.imshow(img,'img')

OCR을 사용한 양식 데이터 추출

여기서 볼 수 있듯이 출력에서 프로그램은 양식 내부의 모든 텍스트를 식별할 수 있었습니다. 이제 여기에 OCR을 적용하여 모든 정보를 추출해 보겠습니다. 우리는 간단히 다음을 사용하여 이 작업을 수행할 수 있습니다. image_to_string 파이썬에서 함수.

extracted_text = pytesseract.image_to_string(img, lang = 'deu')

출력:

Berghotel
Grosse Scheidegg
3818 Grindelwald
Familie R.Müller Rech.Nr. 4572 30.07.2007/13:29: 17
Bar Tisch 7/01
2xLatte Macchiato &ä 4.50 CHF 9,00
1xGloki a 5.00 CH 5.00
1xSchweinschnitzel ä 22.00 CHF 22.00
IxChässpätz 1 a 18.50 CHF 18.50 Total: CHF 54.50 Incl. 7.6% MwSt 54.50 CHF: 3.85 Entspricht in Euro 36.33 EUR
Es bediente Sie: Ursula MwSt Nr. : 430 234
Tel.: 033 853 67 16
Fax.: 033 853 67 19
E-mail: grossescheidegs@b luewin. Ch

여기서는 양식에서 모든 정보를 추출할 수 있습니다. 그러나 대부분의 경우 추출된 데이터는 완전히 구조화되지 않으므로 OCR만 사용하는 것은 도움이 되지 않습니다. 따라서 사용자는 ID, 날짜, 세액 등과 같은 특정 엔터티만 식별할 수 있는 양식의 키-값 쌍 추출에 의존합니다. 이는 딥 러닝을 통해서만 가능합니다. 다음 섹션에서는 다양한 딥러닝 기술을 활용하여 정보 추출 알고리즘을 구축하는 방법을 살펴보겠습니다.

딥러닝을 사용한 양식 데이터 추출 해결

시각적으로 풍부한 문서에서 멀티 모달 정보 추출을위한 그래프 컨벌루션

그래프 컨벌루션 네트워크(그래프 CNN) 노드와 에지 구조를 보존하면서 그래프 데이터 구조의 고도로 비선형적인 특징을 효과적으로 학습할 수 있는 심층 컨벌루션 신경망(CNN) 클래스입니다. 그래프 데이터 구조를 입력으로 사용하고 노드와 가장자리에 대한 '특징 맵'을 생성할 수 있습니다. 결과 기능은 그래프 분류, 클러스터링 또는 커뮤니티 감지에 사용될 수 있습니다. GCN은 송장 및 영수증과 같이 시각적으로 풍부한 대용량 문서에서 정보를 추출하는 강력한 솔루션을 제공합니다. 이를 처리하려면 각 이미지를 노드와 에지로 구성된 그래프로 변환해야 합니다. 이미지의 모든 단어는 자체 노드로 표시됩니다. 나머지 데이터의 시각화는 노드의 특징 벡터에 인코딩됩니다.

문서 그래프. 그래프의 모든 노드는 서로 완전히 연결되어 있습니다.(SRC)

이 모델은 먼저 문서의 각 텍스트 세그먼트를 그래프 임베딩으로 인코딩합니다. 이렇게 하면 텍스트 블록 내의 위치 또는 위치와 함께 각 텍스트 요소를 둘러싼 시각적 및 텍스트 컨텍스트가 캡처됩니다. 그런 다음 이러한 그래프를 텍스트 임베딩과 결합하여 문서 구조와 그 안에 작성된 내용을 전체적으로 표현합니다. 모델은 서로 상대적인 위치와 더 큰 독자 블록 내에 나타나는 컨텍스트를 기반으로 엔터티일 가능성이 있는 텍스트에 더 높은 가중치를 할당하는 방법을 학습합니다. 마지막으로 엔터티 추출을 위해 표준 BiLSTM-CRF 모델을 적용합니다. 결과는 이 알고리즘이 기본 모델(BiLSTM-CRF)보다 넓은 마진을 능가한다는 것을 보여줍니다.

LayoutLM: 문서 이미지 이해를 위한 텍스트 및 레이아웃 사전 훈련

LayoutLM 모델의 아키텍처는 BERT에서 많은 영감을 받았으며 Faster R-CNN의 이미지 임베딩을 통합합니다. LayoutLM 입력 임베딩은 텍스트 임베딩과 위치 임베딩의 조합으로 생성된 다음 Faster R-CNN 모델에서 생성된 이미지 임베딩과 결합됩니다. Masked Visual-Language Models 및 Multi-Label Document Classification은 주로 LayoutLM의 사전 학습 작업으로 사용됩니다. LayoutLM 모델은 양식/영수증 추출, 문서 이미지 분류 또는 시각적 질문 응답과 같이 레이아웃 이해가 필요한 모든 작업에 대해 가치 있고 역동적이며 강력합니다. 이 교육 모델을 사용하면 수행할 수 있습니다.

이미지 출처 : 레이아웃ML

LayoutLM 모델은 IIT-CDIP 테스트 컬렉션 1.0에서 훈련되었습니다. 여기에는 6만 개 이상의 문서와 11만 개 이상의 스캔 문서 이미지, 총 12GB 이상의 데이터가 포함되어 있습니다. 이 모델은 양식 이해, 영수증 이해 및 스캔한 문서 이미지 분류 작업에서 여러 SOTA 사전 학습 모델보다 훨씬 뛰어난 성능을 보였습니다.

Form2Seq: 고차 양식 구조 추출을 위한 프레임워크

Form2Seq는 위치 시퀀스를 사용하여 입력 텍스트에서 구조를 추출하는 데 초점을 맞춘 프레임워크입니다. 기존 seq2seq 프레임워크와 달리 Form2Seq는 순서가 아닌 구조의 상대적 공간 위치를 활용합니다.

이 방법에서는 먼저 더 나은 처리 및 구성을 가능하게 하는 하위 수준 요소를 분류합니다. 필드 캡션, 목록 항목 등 10가지 유형의 양식이 있습니다. 다음으로 텍스트 필드 및 ChoiceFields와 같은 하위 수준 요소를 ChoiceGroups라는 상위 구조로 그룹화합니다. 이는 양식에서 정보 수집 메커니즘으로 사용되는 텍스트 필드, ChoiceFields 및 ChoiceGroups와 같은 고차 구성에 대한 더 나은 사용자 경험을 제공하기 위한 정보 수집 메커니즘으로 사용됩니다. 이는 구성 요소를 자연스러운 읽기 순서에 따라 선형 순서로 배열하고 해당 요소의 공간 및 텍스트 표현을 Seq2Seq 프레임워크에 공급함으로써 가능합니다. Seq2Seq 프레임워크는 문맥에 따라 문장의 각 요소를 순차적으로 예측합니다. 이를 통해 더 많은 정보를 처리하고 현재 작업을 더 잘 이해할 수 있습니다.

요소 유형 분류를 위한 Form2seq 모델 아키텍처. 다양한 단계에는 문자(SRC).

이 모델은 분류 작업에서 90%의 정확도를 달성했는데, 이는 분할 기반 기준 모델보다 높은 수준입니다. 텍스트 블록, 텍스트 필드 및 선택 필드의 F1은 각각 86.01%, 61.63%였습니다. 이 프레임워크는 테이블 구조 인식을 위한 ICDAR 데이터 세트의 결과 상태를 달성했습니다.

Nanonets AI 기반 OCR이 최선의 선택인 이유

OCR 소프트웨어는 스캔한 텍스트 이미지를 PDF, DOC, PPT와 같은 형식의 디지털 파일로 변환할 수 있지만 항상 정확하지는 않습니다. Nanonets AI 기반 OCR 딥 러닝 시스템과 같은 오늘날의 최첨단 소프트웨어는 스캔한 문서에서 편집 가능한 파일을 생성하는 동안 기존 OCR 시스템이 직면했던 많은 문제를 극복했습니다. 노이즈, 그래픽 요소 및 형식 변경에 대해 높은 정확도와 높은 허용 수준을 제공할 수 있기 때문에 데이터 추출을 위한 최고의 옵션이 되었습니다. 이제 AI 기반 OCR이 어떻게 최선의 선택인지에 대해 몇 가지 사항을 논의해 보겠습니다.

Nanonets - 양식 데이터 추출

논의된 바와 같이 OCR은 데이터를 추출하는 간단한 기술입니다. 그러나 보이지 않거나 새로운 데이터를 입력하면 일관되게 작동하지 않습니다. 그러나 AI 기반 OCR은 광범위한 데이터를 학습하므로 이러한 상황을 처리할 수 있습니다.
일반 OCR은 양식 데이터 추출을 위한 복잡한 레이아웃을 처리할 수 없습니다. 따라서 딥러닝이나 AI를 활용하면 데이터의 레이아웃, 텍스트, 컨텍스트를 이해하여 최상의 결과를 얻을 수 있습니다.
왜곡, 저조도 스캔 이미지 등과 같이 데이터에 노이즈가 있는 경우 OCR의 성능이 저하될 수 있지만 딥 러닝 모델은 이러한 조건을 처리하면서도 여전히 매우 정확한 결과를 반환할 수 있습니다.
AI 기반 OCR은 기존 OCR에 비해 사용자 정의가 가능하고 유연합니다. 다양한 종류의 데이터를 기반으로 구축되어 구조화되지 않은 데이터를 구조화된 형식으로 변환할 수 있습니다.
AI 기반 OCR의 후처리 출력은 일반 OCR에 비해 액세스 가능합니다. 모델에서 직접 JSON, CSV, Excel 시트 또는 Postgres와 같은 데이터베이스와 같은 데이터 형식으로 내보낼 수 있습니다.
AI 기반 OCR은 사전 훈련된 모델을 사용하여 간단한 API로 내보낼 수 있습니다. 이는 다른 전통적인 방법에서도 여전히 가능하지만 적시에 지속적으로 모델을 개선하는 것은 어려울 수 있습니다. AI 기반 OCR에서는 오류에 따라 자동으로 조정할 수 있습니다.
Straight OCR을 사용하면 테이블 추출이 거의 불가능합니다. 그러나 AI/DL의 힘으로 쉽게 할 수 있습니다. 오늘날 AI 기반 OCR은 문서 내의 테이블 기반 양식을 긍정적으로 가리키고 정보를 추출할 수 있습니다.
문서에 금융 또는 기밀 데이터가 있는 경우 AI 모델은 사기 검사도 수행할 수 있습니다. 기본적으로 스캔한 문서에서 편집/흐린 텍스트를 찾아 관리자에게 알립니다. 이러한 모델을 통해 중복된 문서나 정보도 식별할 수 있습니다. 이러한 경우 OCR은 단순히 실패합니다.

타임 스탬프 : 2022 년 3 월 6 일

타임 스탬프 : 11월 15, 2023

양식 데이터 추출

플라톤에 의해 재발행

양식 데이터 추출이란 무엇입니까?

양식 데이터 추출이 어려운 이유는 무엇입니까?

다양한 시나리오를 통한 양식 추출의 깊이 이해

시나리오 #1: 오프라인 양식에 대한 필기 인식

시나리오 #2: 양식의 확인란 식별

시나리오 #3: 때때로 양식의 레이아웃 변경

시나리오 #4: 테이블 셀 감지

양식 데이터 추출 솔루션은 어떻게 발전했나요?

OCR을 사용한 양식 데이터 추출

딥러닝을 사용한 양식 데이터 추출 해결

Nanonets AI 기반 OCR이 최선의 선택인 이유

더보기 AI 및 머신 러닝

2024년 AP(미지급금) 보고 및 보고 가이드

비용 영수증이란 무엇입니까?

12년에 놓쳐서는 안 될 2022가지 흥미로운 RPA 통계

전화번호 추출기: 알아야 할 모든 것

Argus 모델링: 데이터 기반 부동산 결정 추진

공급업체 관리 프로세스: 중요성, 이점 및 과제

미지급일수는 얼마입니까? DPO를 계산하는 방법은 무엇입니까?

지급 계정의 디지털 혁신을 위한 완벽한 가이드

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정