Cara Mengonversi data PDF ke JSON PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Cara Mengonversi data PDF ke JSON

PDF adalah salah satu format data yang paling banyak digunakan untuk dokumen bisnis. Banyak bisnis dan organisasi bergantung pada berbagai alat untuk membuat dan membaca dokumen PDF ini.

Namun, sulit untuk mengekstrak data tertentu/penting dari PDF secara selektif.

Di sinilah JSON (Javascript Object Notation) muncul.

Ini adalah salah satu format data yang paling disukai untuk pertukaran informasi. Terutama dalam hal aplikasi web, sebagian besar data dikomunikasikan menggunakan JSON melalui API dan Pertanyaan DB.

Dalam posting blog ini, kita akan melihat:

  • Bagaimana Nanonets mengotomatiskan konversi data kompleks dari dokumen PDF bisnis yang rumit ke file JSON terstruktur.
  • Beberapa teknik open source gratis untuk mengonversi PDF menjadi JSON menggunakan modul Python, Linux, dan Javascript.
    • Cara mengekstrak data spesifik/kompleks dari PDF seperti tabel dan string teks tertentu.
    • Alur kerja khusus yang dapat membantu mengotomatiskan proses konversi PDF ke JSON.

Nanonet mengonversi data PDF tertentu ke output JSON

Ingin mengekstrak data tertentu dari dokumen PDF dan mengonversi ke JSON? Periksa API Nanonets untuk mengotomatiskan konversi PDF ke JSON batch dari segala jenis dokumen teknis!


Konverter PDF ke JSON Nanonets Otomatis

  • Mendaftarlah untuk paket gratis Nanonets yang menawarkan kredit 100 halaman โ€“ tidak perlu kartu kredit.
  • Tambahkan kumpulan file PDF bisnis Anda
  • Nanonets secara otomatis mengambil bidang dari berbagai jenis dokumen (faktur, kuitansi, SIM, paspor & tabel)
    • Anda juga dapat melatih AI Nanonets untuk mendeteksi/menangkap hanya bidang data yang Anda minati dari jenis dokumen apa pun!
  • Verifikasi data yang diekstraksi dan ekspor sebagai output JSON
    • Anda juga dapat mengintegrasikan Nanonets dengan sejumlah perangkat lunak ERP โ€“ jadwalkan panggilan dengan pakar AI kami untuk menguji kasus penggunaan Anda.
  • Lihat kami API OCR untuk mengotomatiskan alur kerja PDF ke JSON
Cara Mengonversi data PDF ke JSON PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Konversi PDF ke JSON dengan Nanonets

Ingin menangkap data dari dokumen PDF dan konversikan ke JSON, csv atau Excel? Cari tahu bagaimana Nanonets dapat membantu.

Cara Mengonversi data PDF ke JSON PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Pengguna Nanonets yang sangat bahagia


Perlunya Konversi PDF ke JSON

Hampir setiap bisnis bergantung pada dokumen untuk berbagi informasi. Ini bisa berupa dokumentasi, faktur, pengajuan pajak, kuitansi, laporan medis, dan banyak lagi.

Dokumen-dokumen ini sering dibagikan/diterima sebagai PDF.

Tetapi jika Anda ingin mencari informasi penting atau membuat dasbor untuk menganalisis dan menyimpan semua informasi penting, mengumpulkan data secara manual dari PDF ini bisa menjadi tugas yang berat.

Jika PDF dibuat secara elektronik, kami dapat menyalin dan menempelkan informasi ke sumber data; lain, kita mungkin harus gunakan OCR dan teknik pembelajaran mesin untuk mengekstrak informasi.

Selain itu, data dalam PDF tidak diatur atau langsung dapat dibaca oleh mesin. Oleh karena itu, kita mungkin harus mencari informasi secara manual.

Tetapi ketika berbicara tentang JSON, semuanya diatur dalam pasangan nilai kunci. Berikut ini contoh.

{
  "company_name": "Company Name",
  "Invoice_date": "Date ",
  "Invoice_total":"$0.00",
  "Invoice_line_items: "",
  "Invoice_tax": ""
} 

Jika Anda dapat melihat format JSON di atas, data lebih terorganisir, dan Anda juga dapat membagikan informasi ini di web dengan lebih nyaman. Inilah sebabnya mengapa mengekspor data dari PDF ke JSON sangat penting bagi banyak perusahaan.

Manfaat Bisnis yang Datang dengan JSON

Format data JSON memiliki banyak keunggulan dibandingkan PDF untuk bisnis:

  1. JSON Lebih Cepat: sintaks JSON mudah digunakan; setiap kali Anda mencoba mengurai data JSON apa pun, eksekusinya jauh lebih cepat jika dibandingkan dengan PDF dan format data lainnya. Ini karena sintaksnya ringan dan mengeksekusi respons dengan cepat.
  2. Lebih Mudah Dibaca: data JSON lebih mudah dibaca; kita akan memiliki pemetaan data langsung dengan kunci dan nilai. Oleh karena itu, jika Anda mencari sesuatu atau mengatur data dari PDF, JSON akan lebih nyaman. Selain itu, JSON mendukung pengumpulan data, dan dengan ini, data dari tabel dapat disimpan dengan lebih efisien.
  3. Skema Nyaman: JSON bersifat universal untuk sebagian besar sistem operasi dan bahasa pemrograman; Oleh karena itu, jika Anda sedang membangun perangkat lunak atau aplikasi web untuk mengotomatisasi bisnis Anda, JSON harus menjadi format data yang tepat. Selain itu, sebagian besar browser web mendukung format JSON; maka kita tidak perlu melakukan upaya tambahan untuk menggunakan perangkat lunak pihak ketiga untuk membaca data JSON.
  4. Berbagi dengan Mudah: JSON adalah alat terbaik untuk berbagi data dalam berbagai ukuran, bahkan tabel atau teks besar, dll. Ini karena JSON menyimpan data dalam array, sehingga transfer data membuatnya lebih mudah diakses. Untuk alasan ini, JSON adalah format file yang unggul untuk API web dan pengembangan web.

Di bagian selanjutnya, mari kita lihat beberapa tantangan yang mungkin kita hadapi saat mengonversi PDF ke format JSON.


Nanonets memiliki banyak hal menarik gunakan kasing yang dapat mengoptimalkan kinerja bisnis Anda, menghemat biaya, dan mendorong pertumbuhan. Temukan bagaimana kasus penggunaan Nanonet dapat diterapkan pada produk Anda.


Tantangan dengan Mengonversi dari PDF ke JSON

Mari kita lihat beberapa tantangan dalam mengekspor dari PDF ke JSON.

  1. Mendeteksi font: Orang-orang menggunakan font, warna, dan perataan yang berbeda di dalam dokumen PDF. Oleh karena itu, sangat sulit bagi parser untuk membaca ini. Juga, saat mengekspor ini, kita harus menentukan aturan khusus sehingga setelah parser mengekstrak data, semua informasi harus dipetakan dengan benar dalam format JSON. Dalam kasus seperti itu, ekspresi reguler banyak digunakan untuk memilih teks tertentu dan kemudian mengekspornya ke kunci yang benar dalam format JSON.
  2. Mendeteksi teks dari dokumen yang dipindai: Seperti yang telah dibahas, ketika PDF tidak dihasilkan secara elektronik, kita harus menggunakan OCR dan memilih OCR sangat penting. Meskipun banyak pengguna mencoba alat sumber terbuka seperti tesseract, mereka memiliki batasannya sendiri. Misalnya, jika teks ditangkap dengan tidak benar atau tidak sejajar saat diambil, tesseract mungkin tidak berfungsi, dan memilih alat lain bisa mahal.
  1. Mengidentifikasi Tabel: Sebagian besar dokumen bisnis berisi informasi tabular, dan menentukan tabel ini dari dokumen PDF dan mengubahnya menjadi JSON adalah tugas yang menantang. Ada beberapa perpustakaan berbasis Python dan Java yang dapat membantu mengekstrak tabel dari dokumen PDF yang dibuat secara elektronik.
  2. Mengidentifikasi Tabel dari PDF yang Dipindai: Saat PDF dipindai, sebagian besar paket tidak berfungsi. Dalam hal ini, jika kita memilih OCR open-source seperti tesseract, itu bisa mengekstrak teks tetapi bisa kehilangan semua pemformatan tabel. Oleh karena itu, sulit untuk memilih item kerangka dalam format yang salah. Di sinilah kita harus menggunakan algoritma berbasis Machine Learning dan Deep Learning. Beberapa algoritme populer didasarkan pada CNN, dan ada banyak penelitian yang dilakukan untuk meningkatkan algoritme ini.

Di bawah ini adalah beberapa makalah penelitian yang memecahkan masalah ekstraksi tabel dari dokumen:

Di bagian selanjutnya, mari kita lihat cara mengurai data dari PDF untuk menghasilkan file JSON.

Parsing Data dari PDF dan Menghasilkan File JSON menggunakan Python dan Linux

Parsing melalui PDF bukanlah tugas yang rumit jika Anda memiliki pengalaman pengembang.

Pertama, kita harus memeriksa apakah file PDF kita berisi data teks atau terdiri dari gambar yang dipindai. Kami harus memeriksa apakah kami dapat mengekstrak data teks atau menyalurkan file melalui perpustakaan OCR jika tidak ada teks yang dikembalikan.

Ini dapat dicapai dengan menggunakan pustaka Python atau dengan mengandalkan beberapa utilitas baris perintah Linux.

Pdftoteks adalah salah satu perpustakaan paling populer untuk mengurai PDF elektronik. Kita dapat menggunakan ini untuk mengonversi semua data PDF ke dalam format teks dan kemudian mendorongnya ke dalam format JSON.

Berikut adalah beberapa petunjuk tentang bagaimana kita dapat menggunakan pdftotext dan parsing melalui PDF pada mesin Linux.

Pertama, instal alat baris perintah:

sudo apt-get install poppler-utils

Selanjutnya, gunakan pdftotext perintah dan tambahkan jalur sumber file PDF dan lokasi file teks tujuan.

pdftotext {PDF-file} {text-file}

Dengan ini, kita harus dapat mengekstrak semua teks yang dapat dibaca dari file PDF.

Untuk menghasilkan file JSON, kita harus kembali mengerjakan skrip berdasarkan data kita yang dapat menguraikan teks dan mengekspornya ke pasangan nilai kunci yang relevan.

Berikut adalah contoh skrip yang kami tulis dengan Python yang mengubah sederhana .txt file ke dalam format JSON.

import json
  
filename = 'data.txt'
 
dict1 = {}
  
with open(filename) as fh:
  
    for line in fh:
        command, description = line.strip().split(None, 1)
        dict1[command] = description.strip()
  
# creating json file
# the JSON file is named as test1
out_file = open("test1.json", "w")
json.dump(dict1, out_file, indent = 4, sort_keys = False)
out_file.close()

Pertimbangkan data di dalam file teks menjadi:

invoice_id #234
invoice_name Invoice from AWS
invoice_total $345

Di sini, pertama-tama kita mengimpor perpustakaan JSON bawaan. Kami sekarang membuat tipe data kamus untuk menyimpan semua pasangan nilai kunci dari file teks. Selanjutnya, kami mengulangi setiap baris dalam file dan menghapusnya menjadi perintah, deskripsi, dan menyimpannya di kamus yang dibuat. Terakhir, kami membuat file JSON baru dan menggunakan json.dump metode untuk membuang kamus ke file JSON dengan konfigurasi khusus yang mencakup penyortiran dan indentasi.

Namun, data kami dari PDF tidak akan terorganisir seperti yang diberikan dalam contoh; oleh karena itu, kita mungkin harus menggunakan saluran dan skrip khusus untuk melakukan pemformatan teks yang rumit. Dalam kasus seperti itu, alat seperti Nanonet akan menjadi pilihan yang bagus, dan kita juga akan melihat bagaimana Nanonets memecahkan masalah ini dengan cara yang jauh lebih mudah di bagian berikut.

Sebelum itu, mari kita lihat satu lagi library yang mengonversi PDF ke JSON menggunakan node.js:

pdf2json adalah node.js modul yang mem-parsing dan mengonversi PDF dari format biner ke JSON; itu dibangun dengan pdf.js dan memperluasnya dengan elemen formulir interaktif dan penguraian konten teks di luar browser.

Berikut adalah contoh penggunaan modul ini untuk mengurai file JSON Anda:

Pertama, pastikan untuk memiliki npm instal dan instal modul menggunakan perintah berikut:

npm install pdf2json

Selanjutnya, di server simpul Anda, Anda dapat menggunakan cuplikan berikut yang memuat pdf2json dan mengekspor pdf ke JSON:

let fs = require('fs'),
        PDFParser = require("pdf2json");
 
    let pdfParser = new PDFParser();
 
    pdfParser.on("pdfParser_dataError", errData => console.error(errData.parserError) );
    pdfParser.on("pdfParser_dataReady", pdfData => {
        fs.writeFile("./pdf2json/test/F1040EZ.json", JSON.stringify(pdfData));
    });
 
    pdfParser.loadPDF("./pdf2json/test/pdf/fd/form/F1040EZ.pdf");

Cuplikan kode di atas menggunakan contoh file JSON dari modul dan mengekspornya ke file JSON, kita dapat memeriksanya di ./test/target/ folder di proyek Anda. B

berikut, Anda akan menemukan tangkapan layar tentang bagaimana modul mengekspor file JSON:

Cara Mengonversi data PDF ke JSON PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Ekspor JSON

Untuk menguraikan PDF dalam tabel, perpustakaan ini mungkin tidak berfungsi!


Anda harus memanfaatkan algoritme OCR & Pembelajaran Mesin untuk mengekstrak data tabular ke dalam JSON. Nanonets melakukan hal itu seperti yang Anda lihat di bawah:

Cara Mengonversi data PDF ke JSON PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Nanonet mengonversi data dari PDF ke JSON 


Konversi Data yang Disesuaikan dari PDF ke JSON

Terkadang, saat mengekstrak data dari dokumen bisnis, kami mungkin memerlukan penyesuaian. Misalnya, jika kita hanya menginginkan halaman atau tabel tertentu, kita tidak bisa melakukannya secara langsung. Dalam hal ini, kita mungkin perlu memberikan aturan tambahan ke parser, yang lagi-lagi memakan waktu. Tapi mari kita lihat bagaimana kita bisa melakukan kustomisasi dan tindakan yang dibutuhkan kebanyakan orang.

Berikut adalah beberapa tindakan yang diperlukan untuk penyesuaian dalam konversi PDF ke JSON:

  • Ekstrak hanya teks atau halaman tertentu dari PDF
  • Ekstrak semua tabel dari dokumen PDF
  • Ekstrak kolom tertentu dari tabel tertentu dalam PDF
  • Filter teks dari PDF sebelum mengekspornya ke JSON
  • Membuat JSON bersarang berdasarkan data yang diekstraksi dari PDF
  • Format struktur JSON berdasarkan data
  • Buat, hapus, perbarui nilai bidang tertentu di JSON setelah ekstraksi

Ini adalah beberapa tindakan yang sering diperlukan untuk menyimpan data kita dengan cara yang berbeda, atau katakanlah jika kita sedang membangun API untuk suatu aplikasi. Mari kita lihat bagaimana kita bisa mencapai ini.

Mengekstrak Teks Tertentu: Dalam PDF, kita dapat mengekstrak teks tertentu menggunakan ekspresi reguler; misalnya, jika kita ingin semua email dan nomor telepon menggunakan regex, kita dapat memilihnya. Jika PDF dalam format yang dipindai, kita perlu melatihnya pada algoritme pembelajaran mendalam yang dapat memahami tata letak PDF dan mengekstrak bidang berdasarkan koordinat dan anotasi yang dibuat pada data pelatihan. Salah satu repositori sumber terbuka paling populer untuk memahami tata letak dokumen dan mengekstraksi teks adalah LayoutML, dan ini melatih model BERT untuk ekstraksi teks kustom. Namun, kita harus memiliki data yang cukup untuk mencapai akurasi yang lebih tinggi dalam mengekstraksi teks.

Kustomisasi Tabel: Seperti yang telah dibahas, tabel dapat diekstraksi menggunakan pustaka seperti Camelot dan Tabula-py atau menggunakan OCR dan algoritma berbasis pembelajaran mendalam. Tetapi untuk penyesuaian, kita harus menggunakan perpustakaan seperti panda; ini akan memungkinkan kita untuk membuat, memperbarui, dan membuat serial data dari tabel. Ini menggunakan tipe data khusus yang disebut bingkai data, yang banyak digunakan untuk memanipulasi dan menyesuaikan data tabel. Keuntungan lain menggunakan panda termasuk menulis fungsi khusus yang dapat melakukan operasi matematika tertentu selama proses ekstraksi.

Memformat Data JSON: Setelah mengekspor PDF ke JSON, memformatnya adalah tugas yang mudah, karena kami memiliki tipe data yang lebih dapat disesuaikan yang merupakan pasangan nilai kunci. Kami dapat mengembangkan skrip sederhana atau menggunakan alat online untuk menelusuri pasangan nilai kunci ini dan memformatnya. Beberapa parameter yang paling umum untuk pemformatan termasuk indentasi, pemisah, kunci pengurutan, pemeriksaan melingkar, pemeriksaan data. Jika JSON digunakan sebagai API, kita dapat menggunakan Postman atau ekstensi browser apa pun untuk memformat data dan berinteraksi dengan API.


Ingin mengekstrak informasi dari dokumen PDF dan mengubahnya menjadi format JSON? Lihat Nanonets untuk mengotomatiskan ekspor informasi apa pun dari dokumen PDF apa pun ke JSON.


Stempel Waktu:

Lebih dari AI & Pembelajaran Mesin