PDF-tietojen muuntaminen JSON PlatoBlockchain Data Intelligenceksi. Pystysuuntainen haku. Ai.

Kuinka muuntaa PDF-tiedot JSON-muotoon

PDF-tiedostot ovat yksi eniten käytetyistä yritysasiakirjojen tietomuodoista. Monet yritykset ja organisaatiot ovat riippuvaisia ​​erilaisista työkaluista näiden PDF-dokumenttien luomiseen ja lukemiseen.

On kuitenkin vaikeaa poimia tiettyjä/tärkeitä tietoja PDF-tiedostoista valikoivasti.

Tässä JSON (Javascript Object Notation) tulee kuvaan.

Se on yksi rakastetuimmista tiedonvaihdon tietomuodoista. Etenkin verkkosovelluksissa suurin osa tiedoista välitetään JSONin avulla API:iden ja DB-kyselyt.

Tässä blogikirjoituksessa tarkastelemme:

  • Kuinka Nanonets automatisoi monimutkaisen tiedon muuntamisen monimutkaisista yritys PDF-dokumenteista jäsennellyiksi JSON-tiedostoiksi.
  • Joitakin ilmaisia ​​avoimen lähdekoodin tekniikoita PDF-tiedostojen muuntamiseen JSON-muotoon Python-, Linux- ja Javascript-moduuleilla.
    • Tiettyjen/monimutkaisten tietojen, kuten taulukoiden ja tiettyjen tekstijonojen, poimiminen PDF-tiedostoista.
    • Mukautetut työnkulut, jotka voivat auttaa automatisoimaan PDF-tiedostojen muuntamisen JSON-muotoon.

Nanonetit, jotka muuntavat tietyt PDF-tiedot JSON-tuloksi

Haluatko poimia tiettyjä tietoja PDF-dokumenteista ja muuntaa JSON-muotoon? Tarkista Nanonets-sovellusliittymä automatisoida PDF-erämuunnos JSON-muotoon mistä tahansa teknisestä asiakirjasta!


Nanonets Automatisoitu PDF JSON Converter

  • Luo tili Nanonetsin ilmaiselle sopimukselle, joka tarjoaa 100 sivun hyvityksen – luottokorttia ei tarvita.
  • Lisää joukko yrityksesi PDF-tiedostoja
  • Nanonets kaappaa kentät automaattisesti useista asiakirjatyypeistä (laskut, kuitit, ajokortti, passit ja taulukot)
    • Voit myös kouluttaa Nanonetsin tekoälyä havaitsemaan/kaappaamaan vain sinua kiinnostavat tietokentät mistä tahansa dokumentista!
  • Tarkista puretut tiedot ja vie JSON-lähtöinä
    • Voit myös integroida Nanonetit useisiin ERP-ohjelmistoihin – varaa puhelu AI-asiantuntijoidemme kanssa testaamaan käyttötapauksesi.
  • Tutustu OCR-sovellusliittymä automatisoida PDF to JSON työnkulkuja
PDF-tietojen muuntaminen JSON PlatoBlockchain Data Intelligenceksi. Pystysuuntainen haku. Ai.
PDF-muunnos JSON-muotoon Nanonetsilla

Haluatko kaappaa tietoja PDF-dokumenteista ja muunna JSON-, csv- tai kunnostautua? Ota selvää, kuinka Nanonets voi auttaa.

PDF-tietojen muuntaminen JSON PlatoBlockchain Data Intelligenceksi. Pystysuuntainen haku. Ai.
Erittäin iloinen Nanonets-käyttäjä


Tarve PDF: stä JSON-muunnokseen

Lähes jokainen yritys luottaa asiakirjoihin tiedon jakamiseen. Näitä voivat olla asiakirjat, laskut, veroilmoitukset, kuitit, lääkärinraportit ja paljon muuta.

Nämä asiakirjat jaetaan/vastaanotetaan usein PDF-tiedostoina.

Mutta jos haluat etsiä tärkeitä tietoja tai rakentaa kojelaudan analysoimaan ja tallentaaksesi kaikki tärkeät tiedot, tietojen manuaalinen kerääminen näistä PDF-tiedostoista voi olla ylämäkeen vaikea tehtävä.

Jos PDF-tiedostot on luotu sähköisesti, voimme kopioida ja liittää tiedot tietolähteisiin; muuten meidän on ehkä pakko käytä OCR:ää ja koneoppimistekniikat tiedon poimimiseen.

Myös PDF-tiedostojen tiedot eivät ole järjestettyjä tai suoraan koneellisesti luettavissa. Siksi meidän on ehkä etsittävä tietoja manuaalisesti.

Mutta mitä tulee JSONiin, kaikki on järjestetty avainarvopareihin. Tässä on esimerkki.

{
  "company_name": "Company Name",
  "Invoice_date": "Date ",
  "Invoice_total":"$0.00",
  "Invoice_line_items: "",
  "Invoice_tax": ""
} 

Jos näet yllä olevan JSON-muodon, tiedot ovat järjestäytyneempiä ja voit myös jakaa nämä tiedot verkossa kätevämmin. Tästä syystä tietojen vieminen PDF-tiedostoista JSON-muotoon on erittäin tärkeää monille yrityksille.

JSONin mukana tulevat liiketoiminnan edut

JSON-tietomuodolla on paljon etuja PDF-tiedostoihin verrattuna yrityksille:

  1. JSON on nopeampi: JSON-syntaksi on helppokäyttöinen; aina kun yrität jäsentää JSON-tietoja, suoritus on paljon nopeampaa verrattuna PDF-tiedostoihin ja muihin tietomuotoihin. Tämä johtuu siitä, että syntaksi on kevyt ja suorittaa vastauksen nopeasti.
  2. Luettavampi: JSON-tiedot ovat luettavampia; meillä on yksinkertainen tietojen kartoitus avaimilla ja arvoilla. Siksi, jos etsit jotain tai järjestät tietoja PDF-tiedostoista, JSON on helpompaa. Lisäksi JSON tukee tietojen pesimistä, ja tämän avulla taulukoiden tietoja voidaan tallentaa tehokkaammin.
  3. Kätevä malli: JSON on universaali useimmille käyttöjärjestelmille ja ohjelmointikielille; Siksi, jos rakennat mitään ohjelmistoa tai verkkosovellusta liiketoimintasi automatisoimiseksi, JSONin pitäisi olla oikea tietomuoto. Useimmat verkkoselaimet tukevat myös JSON-muotoa; Siksi meidän ei tarvitse ponnistella kolmansien osapuolten ohjelmistojen käyttämiseksi JSON-tietojen lukemiseen.
  4. Helppo jakaminen: JSON on paras työkalu kaiken kokoisten tietojen, jopa suurten taulukoiden tai tekstin jne. Jakamiseen. Tämä johtuu siitä, että JSON tallentaa tietoja matriiseihin, joten tiedonsiirto tekee niistä helpommin käytettävissä. Tästä syystä JSON on ylivoimainen tiedostomuoto web-sovellusliittymille ja verkkokehitykselle.

Seuraavassa osiossa tarkastellaan joitain haasteita, joita saatamme kohdata muuntaessamme PDF-tiedostoja JSON-muotoon.


Nanonetsillä on paljon mielenkiintoista Käytä koteloita mikä voisi optimoida liiketoimintasi suorituskyvyn, säästää kustannuksia ja vauhdittaa kasvua. Selvittää miten Nanonetsin käyttötapaukset voivat soveltua tuotteeseesi.


Muuntamisen PDF-tiedostosta JSON-muotoon haasteita

Katsotaanpa joitain PDF-tiedostoista JSON-muotoon viemisen haasteita.

  1. Tunnistaa fontit: Ihmiset käyttävät erilaisia ​​fontteja, värejä ja tasauksia PDF-dokumenttien sisällä. Siksi jäsenten on todella vaikea lukea näitä. Lisäksi tätä vietäessä meidän on määriteltävä erityiset säännöt, jotta jäsentäjän poimimien tietojen jälkeen kaikki tiedot tulisi kartoittaa oikein JSON-muodossa. Tällaisissa tapauksissa säännöllisiä lausekkeita käytetään laajalti tietyn tekstin valitsemiseen ja sen viemiseen sitten oikeaan avaimeen JSON-muodossa.
  2. Tekstin tunnistaminen skannatuista asiakirjoista: Kuten keskusteltiin, kun PDF-tiedostoja ei luoda sähköisesti, meidän on käytettävä tekstintunnistusta ja OCR: n valinta on ratkaisevan tärkeää. Vaikka monet käyttäjät kokeilevat avoimen lähdekoodin työkaluja, kuten tesseract, heillä on omat rajoituksensa. Esimerkiksi, jos teksti on siepattu väärin tai kohdistettu väärin sieppauksen aikana, tesseract ei välttämättä toimi, ja muiden työkalujen valitseminen voi olla kallista.
  1. Tunnistetaulukot: Useimmat yritysasiakirjat sisältävät taulukkotietoja, ja näiden taulukoiden määrittäminen PDF-dokumenteista ja niiden muuntaminen JSONiksi on haastava tehtävä. On joitain Python- ja Java-pohjaisia ​​kirjastoja, jotka voivat auttaa poimimaan taulukoita sähköisesti tehdyistä PDF-dokumenteista.
  2. Taulukoiden tunnistaminen skannatuista PDF-tiedostoista: Kun PDF-tiedostot skannataan, useimmat paketit eivät toimi. Tässä tapauksessa, jos valitsemme avoimen lähdekoodin OCR:n, kuten tesseractin, se voi poimia tekstiä, mutta voi menettää kaiken taulukon muotoilun. Siksi on haastavaa valita ääriviivakohteita väärässä muodossa. Tässä meidän on käytettävä koneoppimiseen ja syvään oppimiseen perustuvia algoritmeja. Jotkut suositut algoritmit perustuvat CNN-verkkoihin, ja näiden algoritmien parantamiseksi on tehty paljon tutkimusta.

Alla on joitain tutkimuspapereita, jotka ratkaisevat taulukon poiminnan ongelman asiakirjoista:

Seuraavassa osassa tarkastellaan, miten jäsennetään tietoja PDF-tiedostosta JSON-tiedostojen luomiseksi.

PDF-tiedostojen tietojen jäsentäminen ja JSON-tiedostojen luominen Pythonilla ja Linuxilla

PDF-tiedostojen jäsentäminen ei ole monimutkainen tehtävä, jos sinulla on kehittäjäkokemusta.

Ensinnäkin meidän on tarkistettava, sisältävätkö PDF-tiedostomme tekstidataa vai sisältävätkö ne skannattuja kuvia. Meidän on tarkistettava, voimmeko purkaa tekstidataa tai siirtää tiedostot OCR-kirjaston läpi, jos tekstiä ei palautettu.

Tämä voidaan saavuttaa käyttämällä Python-kirjastoa tai tukeutumalla joihinkin Linuxin komentorivin apuohjelmiin.

Pdftoteksti on yksi suosituimmista kirjastoista sähköisten PDF-tiedostojen jäsentämiseen. Voisimme käyttää tätä muuntamaan kaikki PDF-tiedot tekstimuotoon ja työntämään sen sitten JSON-muotoon.

Tässä on joitain ohjeita, kuinka voimme käyttää pdftotext ja jäsentää PDF-tiedostona Linux-koneella.

Asenna ensin komentorivityökalut:

sudo apt-get install poppler-utils

Seuraavaksi käytä pdftotext komento ja lisää PDF-tiedoston lähdepolku ja kohdetekstitiedoston sijainti.

pdftotext {PDF-file} {text-file}

Tämän avulla meidän pitäisi pystyä purkamaan kaikki luettava teksti PDF-tiedostoista.

JSON-tiedoston luomiseksi meidän on jälleen työstettävä tietoihimme perustuvaa komentosarjaa, joka voi jäsentää tekstin ja viedä ne asiaankuuluviksi avain-arvo-pareiksi.

Tässä on esimerkkiskripti, jonka kirjoitimme Pythonissa ja joka muuntaa yksinkertaisen .txt tiedosto JSON-muotoon.

import json
  
filename = 'data.txt'
 
dict1 = {}
  
with open(filename) as fh:
  
    for line in fh:
        command, description = line.strip().split(None, 1)
        dict1[command] = description.strip()
  
# creating json file
# the JSON file is named as test1
out_file = open("test1.json", "w")
json.dump(dict1, out_file, indent = 4, sort_keys = False)
out_file.close()

Pidä tekstitiedoston sisällä olevia tietoja seuraavina:

invoice_id #234
invoice_name Invoice from AWS
invoice_total $345

Täällä tuotiin ensin sisäänrakennettu JSON-kirjasto. Luomme nyt sanakirjan tietotyypin kaikkien avainarvoparien tallentamiseksi tekstitiedostoista. Seuraavaksi iteroidaan jokaisen tiedoston rivin läpi ja riisutaan se komennoksi, kuvaukseksi ja pidetään se luotussa sanakirjassa. Viimeiseksi teemme uuden JSON-tiedoston ja käytämme json.dump menetelmä sanakirjan pudottamiseksi JSON-tiedostoon tietyllä kokoonpanolla, joka sisältää lajittelun ja sisennyksen.

Tietomme PDF-tiedostoista eivät kuitenkaan ole niin järjestettyjä kuin esimerkissä on annettu; siksi meidän on ehkä käytettävä mukautettuja putkilinjoja ja komentosarjoja monimutkaisen tekstin muotoilun läpi. Tällaisissa tapauksissa työkalut, kuten Nanonetit on loistava valinta, ja seuraavissa osioissa tarkastelemme myös sitä, kuinka Nanonets ratkaisee tämän ongelman paljon helpommin.

Ennen sitä tarkastellaan vielä yhtä kirjastoa, joka muuntaa PDF-tiedoston JSON-muotoon node.js: n avulla:

pdf2json on Node.js moduuli, joka jäsentää ja muuntaa PDF-tiedoston binaarimuodosta JSON-muotoon; se on rakennettu pdf.js ja laajentaa sitä interaktiivisilla lomake-elementeillä ja selaimen ulkopuolella jäsennetyllä tekstisisällöllä.

Tässä on esimerkki tämän moduulin käytöstä JSON-tiedostojesi jäsentämiseen:

Varmista ensin, että sinulla on npm asennusohjelma ja asenna moduuli seuraavalla komennolla:

npm install pdf2json

Seuraavaksi voit käyttää solmupalvelimessa seuraavaa koodinpätkää, joka lataa pdf2json ja vie pdf-tiedostot JSON: iin:

let fs = require('fs'),
        PDFParser = require("pdf2json");
 
    let pdfParser = new PDFParser();
 
    pdfParser.on("pdfParser_dataError", errData => console.error(errData.parserError) );
    pdfParser.on("pdfParser_dataReady", pdfData => {
        fs.writeFile("./pdf2json/test/F1040EZ.json", JSON.stringify(pdfData));
    });
 
    pdfParser.loadPDF("./pdf2json/test/pdf/fd/form/F1040EZ.pdf");

Yllä oleva koodinpätkä käyttää JSON-esimerkkitiedostoa moduulista ja vie sen JSON-tiedostoon, voimme tarkistaa tämän ./test/target/ kansio projektiisi. B

elow, löydät kuvakaappauksen siitä, kuinka moduuli vie JSON-tiedostot:

PDF-tietojen muuntaminen JSON PlatoBlockchain Data Intelligenceksi. Pystysuuntainen haku. Ai.
JSON-vienti

Nämä kirjastot eivät välttämättä toimi taulukoissa olevien PDF-tiedostojen jäsentämiseen!


Sinun on hyödynnettävä OCR- ja koneoppimisalgoritmeja poimiaksesi taulukkomuotoisia tietoja JSONiin. Nanonets tekee juuri sen, kuten näet alla:

PDF-tietojen muuntaminen JSON PlatoBlockchain Data Intelligenceksi. Pystysuuntainen haku. Ai.
Nanonetit muuntavat tiedot PDF-tiedostosta JSON-muotoon 


Räätälöity tietojen muunnos PDF: stä JSON: ksi

Joskus saatamme vaatia mukauttamista, kun poimimme tietoja yritysasiakirjoista. Esimerkiksi, jos haluamme vain tiettyjä sivuja tai taulukoita, emme voi tehdä sitä suoraan. Tässä tapauksessa meidän on ehkä annettava jäsentäjille lisäsääntöjä, mikä on taas aikaa vievää. Mutta katsotaanpa, miten voimme tehdä räätälöinnin ja toimet, joita useimmat ihmiset tarvitsevat.

Alla on joitain toimintoja, joita tarvitaan mukauttamiseen PDF: stä JSON-muunnokseen:

  • Pura vain tietty teksti tai sivut PDF-tiedostoista
  • Pura kaikki taulukot PDF-tiedostoista
  • Pura tietyt sarakkeet tietyistä PDF-tiedostojen taulukoista
  • Suodata teksti PDF-tiedostoista ennen niiden viemistä JSON-tiedostoon
  • Sisäkkäisen JSON-tiedoston luominen PDF-tiedostoista poimittujen tietojen perusteella
  • Alusta JSON-rakenne tietojen perusteella
  • Luo, poista ja päivitä tiettyjen JSON-kenttien arvoja purkamisen jälkeen

Nämä ovat joitain toimintoja, joita tarvitaan usein tietojemme tallentamiseen eri tavoin, tai sanotaanko, että rakennamme sovellusliittymiä sovellukselle. Katsotaanpa, miten voimme saavuttaa nämä.

Tietyn tekstin purkaminen: PDF-tiedostoissa voisimme purkaa tietyn tekstin säännöllisten lausekkeiden avulla; Esimerkiksi, jos haluamme kaikki sähköpostit ja puhelinnumerot käyttämällä regexiä, voimme valita ne. Jos PDF-tiedostot ovat skannatussa muodossa, meidän on joko koulutettava ne syvälle oppimisalgoritmille, joka ymmärtää PDF-tiedostojen asettelut ja poimi kentät harjoitustietoihin tehtyjen koordinaattien ja merkintöjen perusteella. Yksi suosituimmista avoimen lähdekoodin arkistoista asiakirjojen asettelun ymmärtämiseksi ja tekstin purkamiseksi on LayoutML, ja se kouluttaa BERT-malleja mukautetun tekstin purkamista varten. Meillä pitäisi kuitenkin olla riittävästi tietoja tekstin poiminnan tarkkuuden saavuttamiseksi.

Taulukon mukauttaminen: Kuten keskusteltiin, taulukot voidaan purkaa käyttämällä kirjastoja, kuten Camelot ja Tabula-py, tai käyttämällä OCR: ää ja syvään oppimiseen perustuvia algoritmeja. Mutta räätälöimiseksi meidän on käytettävä kirjastoja, kuten pandoja; Tämän avulla voimme luoda, päivittää ja sarjoittaa tietoja taulukoista. Se käyttää mukautettua tietotyyppiä, jota kutsutaan tietokehykseksi, jota käytetään laajalti taulukon tietojen käsittelyyn ja mukauttamiseen. Muita pandojen käytön etuja ovat mukautettujen toimintojen kirjoittaminen, jotka voivat suorittaa tiettyjä matemaattisia operaatioita purkamisen aikana.

JSON-tietojen muotoilu: Kun olet vienyt PDF-tiedostot JSON-tiedostoon, niiden muotoilu on yksinkertainen tehtävä, koska meillä on muokattavampi tietotyyppi, joka on avain-arvo-parit. Voisimme joko kehittää yksinkertaisia ​​komentosarjoja tai käyttää online-työkaluja etsimään näitä avainarvopareja ja muotoilemaan ne. Joitakin yleisimpiä muotoiluparametreja ovat sisennys, erottimet, lajitteluavaimet, kiertotarkistukset, tietojen tarkistukset. Jos JSON: ää käytetään sovellusliittymänä, voimme muotoilla tietoja ja olla vuorovaikutuksessa sovellusliittymien kanssa Postmanin tai minkä tahansa selainlaajennuksen avulla.


Haluatko poimia tietoja PDF-dokumenteista ja muuntaa ne JSON-muotoon? Tutustu Nanonetsiin automatisoidaksesi minkä tahansa tiedon viennin mistä tahansa PDF-dokumentista JSON-muotoon.


Aikaleima:

Lisää aiheesta Tekoäly ja koneoppiminen