PDF 데이터를 JSON으로 변환하는 방법

플라톤에 의해 재발행

팔로워 : 0

PDF는 비즈니스 문서에 가장 많이 사용되는 데이터 형식 중 하나입니다. 많은 기업과 조직에서 이러한 PDF 문서를 만들고 읽기 위해 다양한 도구에 의존하고 있습니다.

그러나 PDF에서 특정/중요 데이터를 선택적으로 추출하는 것은 어렵습니다.

이것이 JSON(Javascript Object Notation)이 그림에 등장하는 곳입니다.

정보 교환을 위해 가장 사랑받는 데이터 형식 중 하나입니다. 특히 웹 애플리케이션의 경우 대부분의 데이터는 API를 통해 JSON을 사용하여 통신하고 DB 쿼리.

이 블로그 게시물에서는 다음을 살펴볼 것입니다.

Nanonets가 복잡한 비즈니스 PDF 문서에서 구조화된 JSON 파일로 복잡한 데이터 변환을 자동화하는 방법.
Python, Linux 및 Javascript 모듈을 사용하여 PDF를 JSON으로 변환하기 위한 몇 가지 무료 오픈 소스 기술.
- 테이블 및 특정 텍스트 문자열과 같은 PDF에서 특정/복잡한 데이터를 추출하는 방법.
- PDF를 JSON으로 변환하는 프로세스를 자동화하는 데 도움이 되는 사용자 정의 워크플로.

특정 PDF 데이터를 JSON 출력으로 변환하는 나노넷

PDF 문서에서 특정 데이터를 추출하고 JSON으로 변환하고 싶으십니까? 체크 아웃 나노 넷 API 모든 종류의 기술 문서에서 배치 PDF를 JSON으로 자동 변환합니다!

Nanonets 자동화된 PDF-JSON 변환기

가입하기 100페이지 크레딧을 제공하는 Nanonets의 무료 플랜을 위해 – 신용 카드가 필요하지 않습니다.
비즈니스 PDF 파일 배치 추가
나노넷은 다양한 문서 유형(인보이스, 영수증, 운전 면허증, 여권 및 테이블)의 필드를 자동 캡처합니다.
- 또한 모든 종류의 문서에서 관심 있는 데이터 필드만 감지/캡처하도록 Nanonets의 AI를 훈련할 수 있습니다!
추출된 데이터를 확인하고 JSON 출력으로 내보내기
- 또한 Nanonet을 다양한 ERP 소프트웨어와 통합할 수 있습니다. 통화 예약 AI 전문가와 함께 사용 사례를 테스트하십시오.
체크 아웃 우리 OCR API PDF를 JSON으로 자동화하는 워크플로

PDF 데이터를 JSON PlatoBlockchain Data Intelligence로 변환하는 방법. 수직 검색. 일체 포함. — Nanonet을 사용한 PDF에서 JSON으로 변환

MMCC에 대해 더 살갑게 듣고 싶으시다면, 데이터 캡처 PDF 문서에서 JSON, csv 또는 뛰어나다? Nanonet이 어떻게 도움이 되는지 알아보십시오.

PDF에서 JSON으로 변환의 필요성

거의 모든 비즈니스는 정보 공유를 위해 문서에 의존합니다. 문서, 송장, 세금 신고서, 영수증, 의료 보고서 등이 될 수 있습니다.

이러한 문서는 종종 PDF로 공유/수신됩니다.

그러나 중요한 정보를 검색하거나 모든 중요한 정보를 분석 및 저장하는 대시보드를 구축하려는 경우 이러한 PDF에서 수동으로 데이터를 수집하는 것은 힘든 작업이 될 수 있습니다.

PDF가 전자적으로 생성된 경우 정보를 복사하여 데이터 소스에 붙여넣을 수 있습니다. 그렇지 않으면 우리는해야 할 수도 있습니다 OCR 사용 정보를 추출하는 기계 학습 기술.

또한 PDF의 데이터는 구성되어 있지 않거나 직접 기계 판독이 가능하지 않습니다. 따라서 수동으로 정보를 검색해야 할 수도 있습니다.

그러나 JSON의 경우 모든 것이 키-값 쌍으로 구성됩니다. 여기 예가 있습니다.

{
  "company_name": "Company Name",
  "Invoice_date": "Date ",
  "Invoice_total":"$0.00",
  "Invoice_line_items: "",
  "Invoice_tax": ""
}

위의 JSON 형식을 볼 수 있다면 데이터가 더 정리되고, 이 정보를 웹에서도 더 편리하게 공유할 수 있습니다. 이것이 많은 회사에서 PDF에서 JSON으로 데이터를 내보내는 것이 중요한 이유입니다.

JSON과 함께 제공되는 비즈니스 이점

JSON 데이터 형식은 기업용 PDF에 비해 많은 이점이 있습니다.

JSON이 더 빠름: JSON 구문은 사용하기 쉽습니다. JSON 데이터를 구문 분석하려고 할 때마다 PDF 및 기타 데이터 형식과 비교할 때 실행이 훨씬 빠릅니다. 이는 구문이 가볍고 응답을 빠르게 실행하기 때문입니다.
더 읽기 쉬운: JSON 데이터가 더 읽기 쉽습니다. 우리는 키와 값이있는 간단한 데이터 매핑을 갖게 될 것입니다. 따라서 PDF에서 무언가를 검색하거나 데이터를 구성하는 경우 JSON이 더 편리합니다. 또한 JSON은 데이터 중첩을 지원하며이를 통해 테이블의 데이터를보다 효율적으로 저장할 수 있습니다.
편리한 스키마 : JSON은 대부분의 운영 체제 및 프로그래밍 언어에 보편적입니다. 따라서 비즈니스 자동화를위한 소프트웨어 또는 웹 애플리케이션을 구축하는 경우 JSON이 올바른 데이터 형식이어야합니다. 또한 대부분의 웹 브라우저는 JSON 형식을 지원합니다. 따라서 JSON 데이터를 읽기 위해 타사 소프트웨어를 사용하기 위해 추가 노력을 기울일 필요가 없습니다.
간편한 공유: JSON은 큰 테이블이나 텍스트 등 모든 크기의 데이터를 공유하는 데 가장 적합한 도구입니다. 이는 JSON이 배열에 데이터를 저장하기 때문에 데이터 전송이 더 쉽게 액세스 할 수 있기 때문입니다. 이러한 이유로 JSON은 웹 API 및 웹 개발을위한 우수한 파일 형식입니다.

다음 섹션에서는 PDF를 JSON 형식으로 변환할 때 직면할 수 있는 몇 가지 문제를 살펴보겠습니다.

나노 넷에는 많은 흥미로운 사용 사례 비즈니스 성과를 최적화하고 비용을 절감하며 성장을 촉진 할 수 있습니다. 찾아 Nanonets의 사용 사례를 제품에 적용하는 방법

PDF에서 JSON으로 변환시 문제점

PDF에서 JSON으로 내보낼 때의 몇 가지 문제를 살펴보겠습니다.

글꼴 감지: 사람들은 PDF 문서 내에서 다른 글꼴, 색상 및 정렬을 사용합니다. 따라서 파서가 이것을 읽는 것은 정말 어렵습니다. 또한 이것을 내보내는 동안 파서가 데이터를 추출한 후 모든 정보가 JSON 형식으로 올바르게 매핑되도록 특정 규칙을 정의해야합니다. 이러한 경우 정규식은 특정 텍스트를 선택한 다음 JSON 형식의 올바른 키로 내보내는 데 널리 사용됩니다.
스캔 한 문서에서 텍스트 감지 : 논의했듯이 PDF가 전자적으로 생성되지 않은 경우 OCR을 사용해야하며 OCR을 선택하는 것이 중요합니다. 많은 사용자가 tesseract와 같은 오픈 소스 도구를 사용하지만 고유 한 한계가 있습니다. 예를 들어, 캡처 할 때 텍스트가 잘못 캡처되거나 잘못 정렬 된 경우 tesseract가 작동하지 않을 수 있으며 다른 도구를 선택하는 데 많은 비용이들 수 있습니다.

테이블 식별: 대부분의 비즈니스 문서에는 테이블 형식 정보가 포함되어 있으며 PDF 문서에서 이러한 테이블을 확인하고 JSON으로 변환하는 것은 어려운 작업입니다. 전자적으로 만들어진 PDF 문서에서 테이블을 추출하는 데 도움이되는 Python 및 Java 기반 라이브러리가 있습니다.
스캔 한 PDF에서 표 식별 : PDF를 스캔할 때 대부분의 패키지가 작동하지 않습니다. 이 경우 tesseract와 같은 오픈 소스 OCR을 선택하면 텍스트를 추출할 수 있지만 모든 테이블 서식이 손실될 수 있습니다. 따라서 잘못된 형식의 개요 항목을 선택하기가 어렵습니다. 여기서 기계 학습 및 딥 러닝 기반 알고리즘을 사용해야 합니다. 일부 인기 있는 알고리즘은 CNN을 기반으로 하며 이러한 알고리즘을 개선하기 위한 많은 연구가 진행되었습니다.

다음은 문서에서 테이블 추출 문제를 해결하는 몇 가지 연구 논문입니다.

다음 섹션에서는 PDF에서 데이터를 구문 분석하여 JSON 파일을 생성하는 방법을 살펴 보겠습니다.

Python 및 Linux를 사용하여 PDF에서 데이터 구문 분석 및 JSON 파일 생성

개발자 경험이 있는 경우 PDF를 통해 구문 분석하는 것은 복잡한 작업이 아닙니다.

먼저 PDF 파일에 텍스트 데이터가 포함되어 있는지 또는 스캔한 이미지로 구성되어 있는지 확인해야 합니다. 텍스트 데이터를 추출하거나 텍스트가 반환되지 않은 경우 OCR 라이브러리를 통해 파일을 파이프할 수 있는지 확인해야 합니다.

이는 Python 라이브러리를 사용하거나 일부 Linux 명령줄 유틸리티를 사용하여 수행할 수 있습니다.

PDF 텍스트 전자 PDF를 구문 분석하는 가장 인기 있는 라이브러리 중 하나입니다. 이것을 사용하여 모든 PDF 데이터를 텍스트 형식으로 변환한 다음 JSON 형식으로 푸시할 수 있습니다.

다음은 사용 방법에 대한 몇 가지 지침입니다. pdftotext Linux 시스템에서 PDF를 통해 구문 분석합니다.

먼저 명령 줄 도구를 설치합니다.

sudo apt-get install poppler-utils

다음으로 pdftotext 명령을 실행하고 PDF 파일의 소스 경로와 대상 텍스트 파일 위치를 추가합니다.

pdftotext {PDF-file} {text-file}

이를 통해 PDF 파일에서 읽을 수있는 모든 텍스트를 추출 할 수 있어야합니다.

JSON 파일을 생성하려면 텍스트를 구문 분석하고 관련 키-값 쌍으로 내보낼 수 있는 데이터 기반 스크립트 작업을 다시 해야 합니다.

다음은 Python으로 작성한 간단한 스크립트를 변환하는 예제 스크립트입니다. .txt 파일을 JSON 형식으로.

import json
  
filename = 'data.txt'
 
dict1 = {}
  
with open(filename) as fh:
  
    for line in fh:
        command, description = line.strip().split(None, 1)
        dict1[command] = description.strip()
  
# creating json file
# the JSON file is named as test1
out_file = open("test1.json", "w")
json.dump(dict1, out_file, indent = 4, sort_keys = False)
out_file.close()

텍스트 파일 내부의 데이터는 다음과 같습니다.

invoice_id #234
invoice_name Invoice from AWS
invoice_total $345

여기에서 먼저 내장 된 JSON 라이브러리를 가져 왔습니다. 이제 텍스트 파일의 모든 키-값 쌍을 저장할 사전 데이터 유형을 만듭니다. 다음으로, 파일의 모든 줄을 반복하고 명령, 설명으로 분리하고 생성 된 사전에 보관합니다. 마지막으로 새 JSON 파일을 만들고 json.dump 정렬 및 들여 쓰기를 포함하는 특정 구성을 사용하여 사전을 JSON 파일로 덤프하는 메소드입니다.

그러나 PDF의 데이터는 예제에 제공된 것처럼 구성되지 않습니다. 따라서 복잡한 텍스트 서식을 적용하려면 사용자 지정 파이프 라인과 스크립트를 사용해야 할 수 있습니다. 이러한 경우 다음과 같은 도구가 나노 넷 다음 섹션에서는 Nanonets가이 문제를 훨씬 더 쉽게 해결하는 방법을 살펴볼 것입니다.

그 전에 node.js를 사용하여 PDF를 JSON으로 변환하는 라이브러리를 하나 더 살펴 보겠습니다.

pdf2json 하는 node.js PDF를 바이너리에서 JSON 형식으로 구문 분석하고 변환하는 모듈; 그것은 pdf.js 브라우저 외부에서 구문 분석하는 대화 형 양식 요소 및 텍스트 콘텐츠로 확장합니다.

다음은이 모듈을 사용하여 JSON 파일을 구문 분석하는 예입니다.

먼저 npm 다음 명령을 사용하여 모듈을 설치하고 설치하십시오.

npm install pdf2json

다음으로 노드 서버에서 다음 스 니펫을 사용하여 pdf2json pdf를 JSON으로 내 보냅니다.

let fs = require('fs'),
        PDFParser = require("pdf2json");
 
    let pdfParser = new PDFParser();
 
    pdfParser.on("pdfParser_dataError", errData => console.error(errData.parserError) );
    pdfParser.on("pdfParser_dataReady", pdfData => {
        fs.writeFile("./pdf2json/test/F1040EZ.json", JSON.stringify(pdfData));
    });
 
    pdfParser.loadPDF("./pdf2json/test/pdf/fd/form/F1040EZ.pdf");

위의 코드 스 니펫은 모듈의 예제 JSON 파일을 사용하고이를 JSON 파일로 내 보냅니다. ./test/target/ 프로젝트의 폴더. 비

아래에서 모듈이 JSON 파일을 내보내는 방법에 대한 스크린샷을 찾을 수 있습니다.

테이블의 PDF를 구문 분석하는 경우 이러한 라이브러리가 작동하지 않을 수 있습니다!

테이블 형식 데이터를 JSON으로 추출하려면 OCR 및 기계 학습 알고리즘을 활용해야 합니다. Nanonets는 아래에서 볼 수 있듯이 바로 그 역할을 합니다.

PDF에서 JSON으로 맞춤형 데이터 변환

때때로 비즈니스 문서에서 데이터를 추출하는 동안 사용자 정의가 필요할 수 있습니다. 예를 들어 특정 페이지 나 표만 원하는 경우 직접 수행 할 수 없다고 가정 해보십시오. 이 경우 파서에 추가 규칙을 제공해야 할 수 있으며 이는 다시 시간 소모적입니다. 그러나 대부분의 사람들이 필요로하는 사용자 지정 및 작업을 수행하는 방법을 살펴 보겠습니다.

다음은 PDF에서 JSON으로 변환하는 사용자 지정에 필요한 몇 가지 작업입니다.

PDF에서 특정 텍스트 또는 페이지 만 추출
PDF 문서에서 모든 테이블 추출
PDF의 특정 테이블에서 특정 열 추출
PDF를 JSON으로 내보내기 전에 텍스트 필터링
PDF에서 추출 된 데이터를 기반으로 중첩 된 JSON 생성
데이터를 기반으로 JSON 구조 형식 지정
추출 후 JSON의 특정 필드 값 생성, 삭제, 업데이트

이는 다양한 방식으로 데이터를 저장하거나 애플리케이션 용 API를 구축하고 있는지 여부를 나타내는 데 자주 필요한 작업입니다. 이를 어떻게 달성 할 수 있는지 살펴 보겠습니다.

특정 텍스트 추출: PDF에서 정규 표현식을 사용하여 특정 텍스트를 추출 할 수 있습니다. 예를 들어 정규식을 사용하여 모든 이메일과 전화 번호를 원하는 경우 선택할 수 있습니다. PDF가 스캔 된 형식 인 경우 PDF의 레이아웃을 이해하고 훈련 데이터에 적용된 좌표 및 주석을 기반으로 필드를 추출 할 수있는 딥 러닝 알고리즘으로 훈련해야합니다. 문서 레이아웃을 이해하고 텍스트를 추출하기위한 가장 인기있는 오픈 소스 리포지토리 중 하나는 LayoutML이며 사용자 지정 텍스트 추출을 위해 BERT 모델을 학습합니다. 그러나 텍스트 추출의 정확도를 높이려면 충분한 데이터가 있어야합니다.

테이블 사용자 지정 : 논의 된 바와 같이 테이블은 Camelot 및 Tabula-py와 같은 라이브러리를 사용하거나 OCR 및 딥 러닝 기반 알고리즘을 사용하여 추출 할 수 있습니다. 그러나 커스터마이징을 위해서는 pandas와 같은 라이브러리를 사용해야합니다. 이를 통해 테이블에서 데이터를 생성, 업데이트 및 직렬화 할 수 있습니다. 테이블 데이터를 조작하고 사용자 정의하는 데 널리 사용되는 데이터 프레임이라는 사용자 정의 데이터 유형을 사용합니다. Pandas 사용의 다른 장점으로는 추출 프로세스 중에 특정 수학 연산을 수행 할 수있는 사용자 지정 함수를 작성하는 것입니다.

JSON 데이터 형식화: PDF를 JSON으로 내 보낸 후에는 키-값 쌍인보다 사용자 정의 가능한 데이터 유형이 있으므로 서식을 지정하는 것은 간단한 작업입니다. 간단한 스크립트를 개발하거나 온라인 도구를 사용하여 이러한 키-값 쌍을 검색하고 형식을 지정할 수 있습니다. 서식 지정을위한 가장 일반적인 매개 변수에는 들여 쓰기, 구분 기호, 정렬 키, 순환 검사, 데이터 검사가 있습니다. JSON이 API로 사용되는 경우 Postman 또는 브라우저 확장을 사용하여 데이터 형식을 지정하고 API와 상호 작용할 수 있습니다.

PDF 문서에서 정보를 추출하고 JSON 형식으로 변환하고 싶으십니까? PDF 문서에서 JSON으로 정보 내보내기를 자동화하려면 Nanonets를 확인하십시오.

타임 스탬프 : 2022 년 8 월 10 일2022 년 8 월 11 일

타임 스탬프 : 1년 2023월 XNUMX일

PDF 데이터를 JSON으로 변환하는 방법

플라톤에 의해 재발행

Nanonets 자동화된 PDF-JSON 변환기

PDF에서 JSON으로 변환의 필요성

JSON과 함께 제공되는 비즈니스 이점

PDF에서 JSON으로 변환시 문제점

Python 및 Linux를 사용하여 PDF에서 데이터 구문 분석 및 JSON 파일 생성

PDF에서 JSON으로 맞춤형 데이터 변환

더보기 AI 및 머신 러닝

8년 최고의 제조 OCR 소프트웨어 2024개

은행 화해를 통한 통제 강화 | 나노넷

인보이스 처리란 무엇입니까? | 인보이스 처리 단계 설명

송장이란 무엇입니까?

지능형 자동화를 사용하여 OCR을 재개하는 방법

Oracle NetSuite의 송장 관리 가이드

전화번호 추출기: 알아야 할 모든 것

문서 워크플로우 자동화란 무엇입니까?

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정