Ekstraksi Data Formulir

Diterbitkan Ulang Oleh Plato

Followers: 0

Ingin mengekstrak data dari formulir cetak atau tulisan tangan? Periksa Nanonet™ bentuk ekstraktor data gratis & mengotomatiskan ekspor informasi dari bentuk apa pun!

Formulir ada di mana-mana; mereka didefinisikan sebagai dokumen yang dibuat untuk mengumpulkan informasi dengan meminta peserta untuk mengisi informasi yang dibutuhkan dalam format tertentu. Mereka sangat membantu karena kemampuan mereka untuk mengumpulkan banyak data dalam waktu singkat. Namun, tidak semua formulir memiliki kapasitas yang sama untuk mengumpulkan data dan seringkali membutuhkan pekerjaan manual nantinya. Oleh karena itu, kami mengandalkan alat dan algoritme untuk mengotomatiskan proses ekstraksi data formulir secara cerdas. Posting blog ini akan menyelam jauh ke dalam skenario dan teknik yang berbeda untuk mengekstrak data dari formulir menggunakan OCR dan Deep Learning.

Apa itu Ekstraksi Data Formulir?
Apa yang Membuat Masalah Menantang?
Kedalaman Masalah Ekstraksi Formulir
Bagaimana Solusi Ekstraksi Data Formulir Berkembang?
Ekstraksi Data Formulir Menggunakan OCR
Memecahkan Ekstraksi Data Formulir Menggunakan Pembelajaran Mendalam
Masukkan Nanonet

Apa itu Ekstraksi Data Formulir?

Ekstraksi Data Formulir adalah proses mengekstraksi data dari formulir – baik online maupun offline. Data ini dapat ditemukan dalam format apa pun, biasanya berisi formulir dengan informasi yang relevan. Namun, mengekstrak data ini tidak selalu merupakan tugas yang mudah karena banyak tata letak dan desain tidak memungkinkan teks untuk dipilih dengan mudah. Tidak ada cara asli untuk menyalin data dari mereka. Oleh karena itu, kami mengandalkan teknik otomatis untuk membantu mengekstrak data dari formulir yang lebih efektif dan tidak terlalu rawan kesalahan.

Apa itu ekstraksi data formulir?

Misalnya, saat ini, banyak pengguna bergantung pada formulir berbasis PDF untuk mengumpulkan informasi kontak. Ini adalah cara yang sangat efisien untuk mengumpulkan informasi karena tidak memerlukan pengirim dan penerima untuk memberikan masukan. Tetapi mengekstrak data ini dari bentuk PDF bisa jadi menantang dan mahal.

Di sini, ekstraksi data formulir dapat membantu mengekstrak data dari formulir PDF, seperti nama, alamat email, nomor telepon, dll. Itu dapat diimpor ke aplikasi lain seperti Excel, Spreadsheet, atau format terstruktur lainnya. Cara kerjanya adalah alat ekstraksi membaca file PDF, secara otomatis mengeluarkan apa yang dibutuhkan, dan mengaturnya dalam format yang mudah dibaca. Data ini dapat diekspor ke format lain seperti Excel, CSV, JSON, dan format data terstruktur lainnya. Di bagian berikutnya, mari kita lihat beberapa tantangan yang sering dihadapi saat membangun algoritma ekstraksi data formulir.

Ingin mengekstrak data dari formulir cetak atau tulisan tangan? Lihat Nanonet™ formulir ekstraktor data gratis & otomatisasi ekspor informasi dari bentuk apa pun!

Apa yang Membuat Ekstraksi Data Formulir Menantang?

Ekstraksi data merupakan masalah yang menarik karena berbagai alasan. Pertama, ini adalah masalah pengenalan gambar, tetapi juga harus mempertimbangkan teks yang mungkin ada dalam gambar dan tata letak formulir, yang membuat pembuatan algoritma menjadi lebih kompleks. Bagian ini membahas beberapa tantangan umum yang dihadapi orang saat membangun algoritma ekstraksi data formulir.

Kurangnya Data: Algoritme Ekstraksi Data biasanya dibuat menggunakan pembelajaran mendalam yang kuat dan algoritme berbasis visi komputer. Ini biasanya bergantung pada sejumlah besar data untuk mencapai kinerja canggih. Dengan demikian, menemukan kumpulan data yang konsisten dan andal serta memprosesnya sangat penting untuk segala bentuk alat atau perangkat lunak ekstraksi data. Misalnya, katakanlah kita memiliki formulir dengan banyak templat, maka algoritme ini harus dapat memahami berbagai bentuk; oleh karena itu melatih mereka pada kumpulan data yang kuat akan memiliki kinerja yang lebih akurat.
Menangani Font, Bahasa, dan Tata Letak: Ada jumlah yang memusingkan dari berbagai tipografi, desain, dan templat yang tersedia untuk berbagai jenis data formulir. Mereka mungkin termasuk dalam beberapa klasifikasi yang sama sekali berbeda, yang membuatnya sulit untuk memastikan pengenalan yang akurat ketika ada banyak jenis karakter yang berbeda untuk diperhitungkan. Oleh karena itu, penting untuk membatasi koleksi font pada bahasa dan jenis tertentu karena akan membuat banyak proses yang mengalir dengan lancar setelah Anda memproses dokumen tersebut dengan benar. Dalam kasus multibahasa, juggling antar karakter dari berbagai bahasa perlu dipersiapkan dan juga menjaga tipografi yang kompleks.

Sumber Gambar: Medium

Orientasi dan Kemiringan (Rotasi): Selama kurasi data, kami sering memindai gambar untuk melatih algoritme untuk pengumpulan data input. Jika Anda pernah menggunakan pemindai atau kamera digital, Anda mungkin memperhatikan bahwa sudut pengambilan gambar dokumen terkadang dapat menyebabkan dokumen tampak miring. Ini dikenal sebagai skewness yang mengacu pada derajat sudut. Kemiringan ini dapat mengurangi keakuratan model. Untungnya, berbagai teknik dapat digunakan untuk memperbaiki masalah ini hanya dengan memodifikasi cara perangkat lunak kami mendeteksi fitur di wilayah tertentu dari gambar. Contoh teknik tersebut adalah metode Profil Proyeksi atau metode Transformasi Fourier, yang memungkinkan hasil yang jauh lebih bersih dalam pengenalan bentuk, dimensi, dan tekstur! Meskipun orientasi dan kemiringan mungkin merupakan kesalahan sederhana, ini dapat memengaruhi keakuratan model dalam jumlah besar.

Sumber Gambar: pencarian gambar

Keamanan Data: Jika Anda mengekstrak data dari berbagai sumber untuk pengumpulan data, penting untuk mengetahui langkah-langkah keamanan yang ada. Jika tidak, Anda berisiko membahayakan informasi yang sedang ditransfer. Hal ini dapat menyebabkan situasi di mana informasi pribadi dilanggar atau informasi yang dikirim ke API tidak aman. Oleh karena itu, saat bekerja dengan skrip ETL dan API online untuk ekstraksi data, Anda juga harus menyadari masalah keamanan data.
Ekstraksi Tabel: Terkadang, kita melihat data formulir di dalam tabel; membangun algoritma yang kuat yang dapat menangani ekstraksi bentuk dan ekstraksi tabel dapat menjadi tantangan. Pendekatan yang biasa dilakukan adalah membangun algoritme ini secara independen dan menerapkannya pada data, tetapi ini akan mengarah pada penggunaan lebih banyak daya komputasi yang meningkatkan biaya. Oleh karena itu, ekstraksi formulir yang ideal harus dapat mengekstrak data formulir maupun data dari dokumen yang diberikan.

Sumber Gambar: GCN

Pemrosesan Pasca / Pengeksporan Output: Data keluaran dari ekstraksi data pun tidak lurus. Oleh karena itu, pengembang mengandalkan teknik pasca-pemrosesan untuk menyaring hasil ke dalam format yang lebih terstruktur. Setelah diproses, data tersebut diekspor ke format yang lebih terstruktur seperti CSV, Excel, atau database. Organisasi mengandalkan integrasi pihak ketiga atau mengembangkan API untuk mengotomatiskan proses ini, yang lagi-lagi memakan waktu. Oleh karena itu, algoritma ekstraksi data yang ideal harus fleksibel dan mudah untuk berkomunikasi dengan sumber data eksternal.

Pasca-pemrosesan dalam Ekstraksi Data Formulir

Ingin mengekstrak data dari formulir cetak atau tulisan tangan? Lihat Nanonet™ formulir ekstraktor data gratis & otomatisasi ekspor informasi dari bentuk apa pun!

Memahami Kedalaman Ekstraksi Formulir dengan Berbagai Skenario

Sejauh ini, kita telah membahas dasar-dasar dan tantangan ekstraksi data formulir. Di bagian ini, kita akan menyelami skenario yang berbeda dan memahami kedalaman ekstraksi data formulir. Kami juga akan melihat bagaimana kami dapat mengotomatiskan proses ekstraksi untuk skenario khusus ini.

Skenario #1: Pengenalan Tulisan Tangan untuk Formulir Offline

Bentuk offline sering kita jumpai dalam kehidupan sehari-hari. Formulir harus mudah diisi dan diserahkan. Mendigitalkan formulir offline secara manual bisa menjadi tugas yang sibuk dan mahal, itulah sebabnya algoritma pembelajaran mendalam diperlukan. Dokumen tulisan tangan merupakan tantangan utama untuk mengekstrak data karena kompleksitas karakter tulisan tangan. Oleh karena itu, algoritma pengenalan data banyak digunakan di mana mesin belajar membaca dan menafsirkan teks tulisan tangan. Prosesnya melibatkan pemindaian gambar kata-kata tulisan tangan dan mengubahnya menjadi data yang dapat diproses dan dianalisis oleh suatu algoritma. Algoritme kemudian membuat peta karakter berdasarkan goresan dan mengenali huruf yang sesuai untuk mengekstrak teks.

Sumber Gambar: Kumpulan Data NSIT

Skenario #2: Identifikasi Kotak Centang pada Formulir

Formulir kotak centang adalah bentuk input data yang digunakan untuk mengumpulkan informasi dari pengguna di bidang input. Tipe data ini biasanya ditemukan dalam daftar dan tabel yang mengharuskan pengguna untuk memilih satu atau beberapa item, seperti item yang ingin mereka hubungi. Ini dapat ditemukan di sejumlah tempat- formulir online, kuesioner dan survei, dan sebagainya. Saat ini, beberapa algoritme dapat mengotomatiskan proses ekstraksi data bahkan dari kotak centang. Tujuan utama dari algoritma ini adalah untuk mengidentifikasi daerah input menggunakan teknik computer vision. Ini melibatkan mengidentifikasi garis (horizontal dan vertikal), menerapkan filter, kontur dan mendeteksi tepi pada gambar. Setelah wilayah input diidentifikasi, mudah untuk mengekstrak konten kotak centang yang ditandai atau tidak ditandai.

Identifikasi kotak centang dalam ekstraksi data formulir

Skenario #3: Tata Letak Perubahan bentuk dari waktu ke waktu

Ketika datang untuk mengisi formulir, biasanya ada dua jenis opsi yang berbeda. Untuk beberapa formulir, kami perlu memberikan informasi kami dengan menulis di semua bidang yang relevan, sedangkan untuk yang lain, kami dapat memberikan informasi dengan memilih dari beberapa kotak centang. Tata letak formulir juga berubah tergantung pada jenis formulir dan konteksnya. Oleh karena itu, penting untuk membangun algoritme yang dapat menangani banyak dokumen tidak terstruktur dan mengekstrak konten secara cerdas bergantung pada label formulir. Salah satu teknik populer arsitektur pembelajaran mendalam untuk menangani tata letak dokumen adalah Grafik CNN. Gagasan di balik Graph Convolutional Networks (GCNs) adalah untuk memastikan bahwa aktivasi neuron didorong oleh data. Mereka dirancang untuk berfungsi pada grafik, yang terdiri dari node dan edge. Lapisan konvolusi grafik mampu mengenali pola tanpa adanya sinyal pelatihan khusus tugas. Oleh karena itu, ini cocok ketika datanya kuat.

Skenario #4: Deteksi Sel Tabel

Dalam beberapa kasus, bisnis menemukan jenis formulir khusus yang terdiri dari sel tabel. Sel tabel adalah area persegi panjang di dalam tabel tempat data disimpan. Mereka dapat diklasifikasikan sebagai header, baris, atau kolom. Algoritme yang ideal harus mengidentifikasi semua jenis sel ini dan batasnya untuk mengekstrak data darinya. Beberapa teknik populer untuk ekstraksi tabel termasuk Stream dan Lattice; ini adalah algoritma yang dapat membantu mendeteksi garis, bentuk, poligon dengan menggunakan operasi isomorfik sederhana pada gambar.

Bagaimana Solusi Ekstraksi Data Formulir Berkembang?

Ekstraksi data formulir berawal pada masa pra-komputer ketika orang menangani formulir kertas. Dengan munculnya komputasi, menjadi mungkin untuk menyimpan data secara elektronik. Program komputer dapat menggunakan data untuk membuat laporan, seperti statistik penjualan. Perangkat lunak ini juga dapat digunakan untuk mencetak label surat, seperti nama dan alamat pelanggan, dan mencetak faktur, seperti jumlah yang harus dibayar dan alamat tujuan pengiriman. Namun, hari ini kita melihat versi yang berbeda dari perangkat lunak ekstraksi data formulir; ini sangat akurat, lebih cepat, dan mengirimkan data dengan cara yang sangat terorganisir dan terstruktur. Sekarang, mari kita bahas secara singkat berbagai jenis teknik ekstraksi data formulir.

Berbasis aturan Dari Ekstraksi Data: Ekstraksi berbasis aturan adalah teknik yang secara otomatis mengekstrak data dari formulir templat tertentu. Itu dapat mengekstrak data tanpa campur tangan manusia. Mereka bekerja dengan memeriksa berbagai bidang pada halaman dan memutuskan mana yang akan diekstraksi berdasarkan teks di sekitarnya, label, dan petunjuk kontekstual lainnya. Algoritma ini biasanya dikembangkan dan diotomatisasi menggunakan skrip ETL atau web scraping. Namun, ketika mereka diuji pada data yang tidak terlihat, mereka gagal sepenuhnya.
Ekstraksi Data Formulir menggunakan OCR: OCR adalah solusi masuk untuk segala bentuk masalah ekstraksi data. Namun, seseorang harus menulis skrip dan program tambahan untuk mencapai kinerja yang akurat. Agar OCR berfungsi, diperlukan input gambar dengan teks di atasnya. Perangkat lunak kemudian membaca setiap piksel dan membandingkan setiap piksel dengan huruf yang sesuai. Jika cocok, itu akan menampilkan huruf itu dan angka atau simbol apa pun yang cukup dekat dengan huruf itu. Tantangan terbesar dengan OCR adalah mencari cara untuk memisahkan huruf. Misalnya, ketika nada-nadanya berdekatan atau tumpang tindih, seperti "a" dan "e". Oleh karena itu, ini mungkin tidak berfungsi saat kami mengekstrak formulir offline.
NER untuk Ekstraksi Data Formulir: Pengenalan entitas bernama adalah tugas untuk mengidentifikasi dan mengklasifikasikan entitas yang telah ditentukan sebelumnya dalam teks bahasa alami. Hal ini sering digunakan untuk mengekstrak informasi dari formulir, di mana orang mengetikkan nama, alamat, komentar, dll. Tugas mengenali entitas bernama terkait erat dengan tugas resolusi koreferensi yang lebih luas, yang menentukan apakah penyebutan entitas yang sama merujuk ke entitas dunia nyata yang sama. Saat ini dengan alat dan kerangka kerja pemrograman tingkat lanjut, kami dapat memanfaatkan model yang telah dilatih sebelumnya untuk membangun model berbasis APM untuk tugas ekstraksi informasi.

Sumber Gambar: Medium

Menggunakan Pembelajaran Mendalam untuk Ekstraksi Data Formulir: Pembelajaran mendalam bukanlah hal baru, telah ada selama beberapa dekade, tetapi perkembangan terbaru dalam arsitektur pembelajaran mendalam dan kekuatan komputasi telah menghasilkan hasil terobosan. Ekstraksi data formulir menggunakan pembelajaran mendalam mencapai kinerja mutakhir di hampir semua format, baik digital atau tulisan tangan. Prosesnya dimulai dengan memberi makan jaringan saraf dalam (DNN) ribuan atau jutaan contoh berbeda yang diberi label dengan apa adanya. Misalnya, label bentuk gambar dengan entitasnya seperti nama, email, id, dll. DNN memproses semua informasi ini dan mempelajari sendiri bagaimana bagian-bagian ini terhubung. Namun, membangun model yang sangat akurat membutuhkan banyak keahlian dan eksperimen.

Pembelajaran Mendalam untuk Ekstraksi Data Formulir

Ingin mengekstrak data dari formulir cetak atau tulisan tangan? Lihat Nanonet™ formulir ekstraktor data gratis & otomatisasi ekspor informasi dari bentuk apa pun!

Ekstraksi Data Formulir Menggunakan OCR

Ada banyak perpustakaan berbeda yang tersedia untuk mengekstraksi data dari formulir. Tetapi bagaimana jika Anda ingin mengekstrak data dari gambar formulir? Di sinilah Tesseract OCR (Optical Character Recognition) masuk. Tesseract adalah mesin OCR (Optical Character Recognition) open-source yang dikembangkan oleh HP. Menggunakan Tesseract OCR, dimungkinkan untuk mengonversi dokumen yang dipindai seperti faktur kertas, kwitansi, dan cek menjadi file digital yang dapat dicari dan dapat diedit. Ini tersedia dalam beberapa bahasa dan dapat mengenali karakter dalam berbagai format gambar. Tesseract biasanya digunakan dalam kombinasi dengan perpustakaan lain untuk memproses gambar untuk mengekstrak teks.

Untuk mengujinya, pastikan Anda menginstal Tesseract di komputer lokal Anda. Anda dapat menggunakan Tesseract CLI atau binding Python untuk menjalankan OCR. Python-tesseract adalah pembungkus untuk Mesin Tesseract-OCR Google. Ini dapat digunakan untuk membaca semua jenis gambar yang didukung oleh perpustakaan pencitraan Bantal dan Leptonica, termasuk jpeg, png, gif, bmp, tiff, dan lainnya. Anda dapat menggunakannya dengan mudah sebagai skrip permintaan yang berdiri sendiri untuk tesseract jika diperlukan.

Sekarang, mari kita ambil tanda terima yang berisi data formulir dan coba mengidentifikasi lokasi teks menggunakan Computer Vision dan Tesseract.

import pytesseract
from pytesseract import Output
import cv2 img = cv2.imread('receipt.jpg')
d = pytesseract.image_to_data(img, output_type=Output.DICT)
n_boxes = len(d['level'])
for i in range(n_boxes): (x, y, w, h) = (d['left'][i], d['top'][i], d['width'][i], d['height'][i]) img = cv2.rectangle(img, (x, y), (x + w, y + h), (0, 0, 255), 2) cv2.imshow(img,'img')

Ekstraksi Data Formulir Menggunakan OCR

Di sini, dalam output, seperti yang kita lihat, program dapat mengidentifikasi semua teks di dalam formulir. Sekarang, mari kita terapkan OCR untuk mengekstrak semua informasi. Kita cukup melakukan ini dengan menggunakan gambar_ke_string fungsi dalam Python.

extracted_text = pytesseract.image_to_string(img, lang = 'deu')

Keluaran:

Berghotel
Grosse Scheidegg
3818 Grindelwald
Familie R.Müller Rech.Nr. 4572 30.07.2007/13:29: 17
Bar Tisch 7/01
2xLatte Macchiato &ä 4.50 CHF 9,00
1xGloki a 5.00 CH 5.00
1xSchweinschnitzel ä 22.00 CHF 22.00
IxChässpätz 1 a 18.50 CHF 18.50 Total: CHF 54.50 Incl. 7.6% MwSt 54.50 CHF: 3.85 Entspricht in Euro 36.33 EUR
Es bediente Sie: Ursula MwSt Nr. : 430 234
Tel.: 033 853 67 16
Fax.: 033 853 67 19
E-mail: grossescheidegs@b luewin. Ch

Di sini kami dapat mengekstrak semua informasi dari formulir. Namun, dalam banyak kasus, hanya menggunakan OCR tidak akan membantu karena data yang diekstraksi akan sepenuhnya tidak terstruktur. Oleh karena itu, pengguna mengandalkan ekstraksi pasangan nilai kunci pada formulir, yang hanya dapat mengidentifikasi entitas tertentu seperti ID, Tanggal, Jumlah Pajak, dll. Ini hanya dimungkinkan dengan pembelajaran mendalam. Di bagian berikutnya, mari kita lihat bagaimana kita dapat memanfaatkan berbagai teknik pembelajaran mendalam untuk membangun algoritme ekstraksi informasi.

Memecahkan Ekstraksi Data Formulir Menggunakan Pembelajaran Mendalam

Konvolusi Grafik untuk Ekstraksi Informasi Multimoda dari Dokumen yang Secara Visual Kaya

Graph Convolutional Networks (Grafik CNN) adalah kelas jaringan saraf convolutional dalam (CNN) yang mampu secara efektif mempelajari fitur yang sangat non-linear dalam struktur data grafik sambil mempertahankan struktur simpul dan tepi. Mereka dapat mengambil struktur data grafik sebagai input dan menghasilkan 'peta fitur' untuk node dan edge. Fitur yang dihasilkan dapat digunakan untuk klasifikasi grafik, clustering, atau deteksi komunitas. GCN memberikan solusi canggih untuk mengekstrak informasi dari dokumen besar yang kaya visual seperti faktur dan tanda terima. Untuk memproses ini, setiap gambar harus diubah menjadi grafik yang terdiri dari node dan edge. Setiap kata pada gambar diwakili oleh simpulnya sendiri; visualisasi dari sisa data dikodekan dalam vektor fitur node.

Grafik dokumen. Setiap simpul dalam graf terhubung sepenuhnya satu sama lain.(SRC)

Model ini pertama-tama mengkodekan setiap segmen teks dalam dokumen ke dalam penyematan grafik. Melakukannya menangkap konteks visual dan tekstual yang mengelilingi setiap elemen teks, bersama dengan posisi atau lokasinya dalam blok teks. Kemudian menggabungkan grafik ini dengan embeddings teks untuk membuat representasi keseluruhan dari struktur dokumen dan apa yang tertulis di dalamnya. Model belajar untuk menetapkan bobot yang lebih tinggi pada teks yang kemungkinan besar merupakan entitas berdasarkan lokasinya relatif terhadap satu sama lain dan konteks di mana teks tersebut muncul dalam blok pembaca yang lebih besar. Akhirnya, ini menerapkan model BiLSTM-CRF standar untuk ekstraksi entitas. Hasilnya menunjukkan bahwa algoritma ini mengungguli model dasar (BiLSTM-CRF) pada margin yang lebar.

LayoutLM: Pra-pelatihan Teks dan Tata Letak untuk Pemahaman Gambar Dokumen

Arsitektur model LayoutLM sangat terinspirasi oleh BERT dan menggabungkan embeddings gambar dari Faster R-CNN. Penyematan masukan LayoutLM dihasilkan sebagai kombinasi penyematan teks dan posisi, kemudian digabungkan dengan penyematan gambar yang dihasilkan oleh model Faster R-CNN. Model Bahasa Visual Bertopeng dan Klasifikasi Dokumen Multi-Label terutama digunakan sebagai tugas prapelatihan untuk LayoutLM. Model LayoutLM berharga, dinamis, dan cukup kuat untuk pekerjaan apa pun yang memerlukan pemahaman tata letak, seperti ekstraksi formulir/tanda terima, klasifikasi gambar dokumen, atau bahkan menjawab pertanyaan secara visual dapat dilakukan dengan model pelatihan ini.

Sumber Gambar: Tata LetakML

Model LayoutLM dilatih pada IIT-CDIP Test Collection 1.0, yang mencakup lebih dari 6 juta dokumen dan lebih dari 11 juta gambar dokumen yang dipindai dengan total lebih dari 12GB data. Model ini secara substansial mengungguli beberapa model pra-latihan SOTA dalam pemahaman bentuk, pemahaman penerimaan, dan tugas klasifikasi gambar dokumen yang dipindai.

Form2Seq: Kerangka Kerja untuk Ekstraksi Struktur Formulir Tingkat Tinggi

Form2Seq adalah kerangka kerja yang berfokus pada mengekstraksi struktur dari teks input menggunakan urutan posisi. Tidak seperti kerangka seq2seq tradisional, Form2Seq memanfaatkan posisi spasial relatif dari struktur, daripada urutannya.

Dalam metode ini, pertama, kami mengklasifikasikan elemen tingkat rendah yang memungkinkan pemrosesan dan pengorganisasian yang lebih baik. Ada 10 jenis form, seperti field caption, list item, dan lain sebagainya. Selanjutnya, kami mengelompokkan elemen tingkat yang lebih rendah, seperti Text Fields dan ChoiceFields, ke dalam konstruksi tingkat tinggi yang disebut ChoiceGroups. Ini digunakan sebagai mekanisme pengumpulan informasi untuk mencapai pengalaman pengguna yang lebih baik dari elemen tingkat rendah ke konstruksi tingkat tinggi, seperti Bidang Teks, ChoiceFields, dan ChoiceGroups, yang digunakan sebagai mekanisme pengumpulan informasi dalam formulir. Ini dimungkinkan dengan mengatur elemen-elemen penyusunnya dalam urutan linier dalam urutan pembacaan alami dan memasukkan representasi spasial dan tekstualnya ke kerangka Seq2Seq. Kerangka kerja Seq2Seq secara berurutan membuat prediksi untuk setiap elemen kalimat tergantung pada konteksnya. Ini memungkinkannya untuk memproses lebih banyak informasi dan sampai pada pemahaman yang lebih baik tentang tugas yang ada.

Arsitektur Model Form2seq untuk klasifikasi tipe elemen. Tahapan yang berbeda dianotasi dengan huruf (SRC).

Model mencapai akurasi 90% pada tugas klasifikasi, yang lebih tinggi dari model dasar segmentasi. F1 pada blok teks, bidang teks dan bidang pilihan masing-masing adalah 86.01%, 61.63%. Kerangka kerja ini mencapai keadaan hasil pada dataset ICDAR untuk pengenalan struktur tabel.

Ingin mengekstrak data dari formulir cetak atau tulisan tangan? Lihat Nanonet™ formulir ekstraktor data gratis & otomatisasi ekspor informasi dari bentuk apa pun!

Mengapa OCR Berbasis AI Nanonet adalah Pilihan Terbaik

Meskipun perangkat lunak OCR dapat mengonversi gambar teks yang dipindai menjadi file digital yang diformat seperti PDF, DOC, dan PPT, itu tidak selalu akurat. Perangkat lunak terdepan saat ini seperti sistem pembelajaran mendalam OCR berbasis Nanonets AI telah mengatasi banyak tantangan yang dihadapi sistem OCR tradisional saat membuat file yang dapat diedit dari dokumen yang dipindai. Ini telah menjadi pilihan terbaik untuk ekstraksi data karena dapat memberikan tingkat akurasi yang tinggi dan tingkat toleransi yang tinggi untuk noise, elemen grafis, dan perubahan format. Sekarang, mari kita bahas beberapa poin tentang bagaimana OCR berbasis AI menjadi pilihan terbaik.

Nanonet – Ekstraksi Data Formulir

OCR, seperti yang dibahas, adalah teknik langsung untuk mengekstrak data. Namun, mereka tidak akan bekerja secara konsisten ketika memakai data yang tidak terlihat/baru. Namun, OCR berbasis AI dapat menangani situasi seperti ini, karena mereka melatih berbagai data.
OCR normal tidak dapat menangani tata letak yang rumit untuk ekstraksi data formulir. Oleh karena itu, ketika didukung dengan pembelajaran mendalam atau AI, mereka memberikan hasil terbaik dengan memahami tata letak, teks, dan konteks data.
OCR mungkin berperforma buruk saat ada noise dalam data, seperti kemiringan, gambar pindaian cahaya rendah, dll., sedangkan model pembelajaran mendalam dapat menangani kondisi tersebut dan tetap memberikan hasil yang sangat akurat.
OCR berbasis AI sangat dapat disesuaikan dan fleksibel dibandingkan dengan OCR tradisional; mereka dapat dibangun di atas berbagai jenis data untuk mengubah data tidak terstruktur menjadi format terstruktur apa pun.
Output pasca-pemrosesan dari OCR berbasis AI dapat diakses dibandingkan dengan OCR biasa; mereka dapat diekspor ke format data apa pun seperti JSON, CSV, Excel Sheets, atau bahkan database seperti Postgres langsung dari model.
OCR Berbasis AI dapat diekspor sebagai API sederhana menggunakan model yang telah dilatih sebelumnya. Ini masih mungkin dalam metode tradisional lainnya, tetapi mungkin sulit untuk meningkatkan model secara konsisten pada waktu yang tepat. Sedangkan pada OCR berbasis AI, secara otomatis dapat disetel oleh kesalahan.
Ekstraksi tabel sangat tidak mungkin menggunakan OCR langsung. Namun, itu dapat dilakukan dengan mudah dengan kekuatan AI/DL. Saat ini, OCR berbasis AI dapat secara positif menunjukkan formulir berbasis tabel di dalam dokumen dan mengekstrak informasi.
Jika ada data keuangan atau rahasia dalam dokumen, model AI juga dapat melakukan pemeriksaan penipuan. Ini pada dasarnya mencari teks yang diedit/kabur dari dokumen yang dipindai dan memberi tahu administrator. Dokumen atau informasi duplikat juga dapat diidentifikasi melalui model ini. Sementara OCR gagal dalam kasus seperti itu.

Stempel Waktu: 6 Maret, 2022

Stempel Waktu: Desember 6, 2023

Ekstraksi Data Formulir

Diterbitkan Ulang Oleh Plato

Apa itu Ekstraksi Data Formulir?

Apa yang Membuat Ekstraksi Data Formulir Menantang?

Memahami Kedalaman Ekstraksi Formulir dengan Berbagai Skenario

Skenario #1: Pengenalan Tulisan Tangan untuk Formulir Offline

Skenario #2: Identifikasi Kotak Centang pada Formulir

Skenario #3: Tata Letak Perubahan bentuk dari waktu ke waktu

Skenario #4: Deteksi Sel Tabel

Bagaimana Solusi Ekstraksi Data Formulir Berkembang?

Ekstraksi Data Formulir Menggunakan OCR

Memecahkan Ekstraksi Data Formulir Menggunakan Pembelajaran Mendalam

Mengapa OCR Berbasis AI Nanonet adalah Pilihan Terbaik

Lebih dari AI & Pembelajaran Mesin

Apa itu Rekonsiliasi Buku Besar?

Cara Mengotomatiskan Alur Kerja Dokumen

Cara OCR dengan Tesseract, OpenCV dan Python

Panduan Laporan & Pelaporan Hutang Usaha (AP) Tahun 2024

Pencocokan 3 Arah untuk Hutang Usaha: Panduan Mendalam

Mengintegrasikan AI ke dalam Fungsi Keuangan Anda | Blog nanonet

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun