Πώς να μετατρέψετε δεδομένα PDF σε JSON PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Πώς να μετατρέψετε δεδομένα PDF σε JSON

Τα PDF είναι μια από τις πιο χρησιμοποιούμενες μορφές δεδομένων για επαγγελματικά έγγραφα. Πολλές επιχειρήσεις και οργανισμοί εξαρτώνται από διάφορα εργαλεία για τη δημιουργία και την ανάγνωση αυτών των εγγράφων PDF.

Ωστόσο, είναι δύσκολο να εξαγάγετε επιλεκτικά συγκεκριμένα/σημαντικά δεδομένα από αρχεία PDF.

Αυτό είναι όπου το JSON (Javascript Object Notation) εμφανίζεται στην εικόνα.

Είναι μια από τις πιο αγαπημένες μορφές δεδομένων για ανταλλαγή πληροφοριών. Ειδικά όταν πρόκειται για διαδικτυακές εφαρμογές, τα περισσότερα δεδομένα μεταδίδονται χρησιμοποιώντας JSON μέσω API και Ερωτήματα DB.

Σε αυτήν την ανάρτηση ιστολογίου, θα εξετάσουμε:

  • Πώς το Nanonets αυτοματοποιεί τη μετατροπή σύνθετων δεδομένων από περίπλοκα επαγγελματικά έγγραφα PDF σε δομημένα αρχεία JSON.
  • Μερικές δωρεάν τεχνικές ανοιχτού κώδικα για τη μετατροπή αρχείων PDF σε JSON χρησιμοποιώντας λειτουργικές μονάδες Python, Linux και Javascript.
    • Πώς να εξαγάγετε συγκεκριμένα/σύνθετα δεδομένα από αρχεία PDF, όπως πίνακες και συγκεκριμένες συμβολοσειρές κειμένου.
    • Προσαρμοσμένες ροές εργασίας που μπορούν να βοηθήσουν στην αυτοματοποίηση της διαδικασίας μετατροπής αρχείων PDF σε JSON.

Νανοδίκτυα που μετατρέπουν συγκεκριμένα δεδομένα PDF σε εξόδους JSON

Θέλετε να εξαγάγετε συγκεκριμένα δεδομένα από έγγραφα PDF και να τα μετατρέψετε σε JSON; Ολοκλήρωση αγοράς API Nanonets για αυτοματοποίηση μαζικής μετατροπής PDF σε JSON από κάθε είδους τεχνικό έγγραφο!


Αυτοματοποιημένος μετατροπέας PDF σε JSON της Nanonets

  • Εγγραφή για το δωρεάν πρόγραμμα της Nanonets που προσφέρει πίστωση 100 σελίδων – δεν απαιτείται πιστωτική κάρτα.
  • Προσθέστε μια δέσμη αρχείων PDF της επιχείρησής σας
  • Τα Nanonets καταγράφουν αυτόματα πεδία από μια σειρά τύπων εγγράφων (τιμολόγια, αποδείξεις, άδεια οδήγησης, διαβατήρια και πίνακες)
    • Μπορείτε επίσης να εκπαιδεύσετε το AI της Nanonets για να ανιχνεύει/αποτυπώνει μόνο τα πεδία δεδομένων που σας ενδιαφέρουν από κάθε είδους έγγραφο!
  • Επαληθεύστε τα εξαγόμενα δεδομένα και εξάγετε ως εξόδους JSON
    • Μπορείτε επίσης να ενσωματώσετε Nanonets με ένα πλήθος λογισμικού ERP – προγραμματίστε μια κλήση με τους ειδικούς μας AI για να δοκιμάσετε την περίπτωση χρήσης σας.
  • Αναχώρηση μας API OCR για την αυτοματοποίηση των ροών εργασίας PDF σε JSON
Πώς να μετατρέψετε δεδομένα PDF σε JSON PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
Μετατροπή PDF σε JSON με Nanonets

Θέλετε να λήψη δεδομένων από έγγραφα PDF και μετατροπή σε JSON, csv ή Excel? Μάθετε πώς μπορούν να βοηθήσουν τα Nanonets.

Πώς να μετατρέψετε δεδομένα PDF σε JSON PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
Ένας πολύ χαρούμενος χρήστης Nanonets


Η ανάγκη μετατροπής PDF σε JSON

Σχεδόν κάθε επιχείρηση βασίζεται σε έγγραφα για την ανταλλαγή πληροφοριών. Αυτά μπορεί να είναι έγγραφα, τιμολόγια, φορολογικές δηλώσεις, αποδείξεις, ιατρικές εκθέσεις και πολλά άλλα.

Αυτά τα έγγραφα συχνά κοινοποιούνται/λαμβάνονται ως PDF.

Αλλά αν θέλετε να αναζητήσετε κρίσιμες πληροφορίες ή να δημιουργήσετε έναν πίνακα εργαλείων για να αναλύσετε και να αποθηκεύσετε όλες τις σημαντικές πληροφορίες, η μη αυτόματη συλλογή δεδομένων από αυτά τα PDF μπορεί να είναι μια δύσκολη εργασία.

Εάν τα PDF δημιουργούνται ηλεκτρονικά, μπορούμε να αντιγράψουμε και να επικολλήσουμε πληροφορίες σε πηγές δεδομένων. αλλιώς, ίσως χρειαστεί χρησιμοποιήστε OCR και τεχνικές μηχανικής μάθησης για την εξαγωγή πληροφοριών.

Επίσης, τα δεδομένα στα PDF δεν είναι οργανωμένα ή άμεσα αναγνώσιμα από μηχανή. Επομένως, ίσως χρειαστεί να αναζητήσουμε πληροφορίες με μη αυτόματο τρόπο.

Αλλά όταν πρόκειται για JSON, όλα είναι οργανωμένα σε ζεύγη κλειδιών-τιμών. Εδώ είναι ένα παράδειγμα.

{
  "company_name": "Company Name",
  "Invoice_date": "Date ",
  "Invoice_total":"$0.00",
  "Invoice_line_items: "",
  "Invoice_tax": ""
} 

Εάν μπορείτε να δείτε την παραπάνω μορφή JSON, τα δεδομένα είναι πιο οργανωμένα και θα μπορούσατε επίσης να μοιραστείτε αυτές τις πληροφορίες στον ιστό πιο άνετα. Αυτός είναι ο λόγος για τον οποίο η εξαγωγή δεδομένων από αρχεία PDF σε JSON είναι ζωτικής σημασίας για πολλές εταιρείες.

Επιχειρηματικά οφέλη που συνοδεύουν το JSON

Η μορφή δεδομένων JSON έχει πολλά πλεονεκτήματα σε σχέση με τα PDF για επιχειρήσεις:

  1. Το JSON είναι πιο γρήγορο: Η σύνταξη JSON είναι εύκολη στη χρήση. κάθε φορά που προσπαθείτε να αναλύσετε οποιαδήποτε δεδομένα JSON, η εκτέλεση είναι πολύ πιο γρήγορη σε σύγκριση με αρχεία PDF και άλλες μορφές δεδομένων. Αυτό συμβαίνει επειδή η σύνταξη είναι ελαφριά και εκτελεί την απόκριση γρήγορα.
  2. Περισσότερα αναγνώσιμο: Τα δεδομένα JSON είναι πιο ευανάγνωστα. θα έχουμε μια απλή χαρτογράφηση δεδομένων με κλειδιά και τιμές. Επομένως, εάν αναζητάτε κάτι ή οργανώνετε τα δεδομένα από PDF, το JSON θα είναι πιο βολικό. Επιπλέον, το JSON υποστηρίζει την ένθεση δεδομένων και με αυτό, τα δεδομένα από πίνακες μπορούν να αποθηκευτούν πιο αποτελεσματικά.
  3. Βολικό σχήμα: Το JSON είναι καθολικό για τα περισσότερα λειτουργικά συστήματα και γλώσσες προγραμματισμού. Επομένως, εάν δημιουργείτε λογισμικό ή εφαρμογή ιστού για την αυτοματοποίηση της επιχείρησής σας, το JSON θα πρέπει να είναι η σωστή μορφή δεδομένων. Επίσης, τα περισσότερα προγράμματα περιήγησης στο Web υποστηρίζουν τη μορφή JSON. Ως εκ τούτου, δεν χρειάζεται να καταβάλουμε επιπλέον προσπάθεια για τη χρήση λογισμικού τρίτων για την ανάγνωση δεδομένων JSON.
  4. Εύκολη κοινή χρήση: Το JSON είναι το καλύτερο εργαλείο για κοινή χρήση δεδομένων οποιουδήποτε μεγέθους, ακόμη και μεγάλων πινάκων ή κειμένου κ.λπ. Αυτό συμβαίνει επειδή το JSON αποθηκεύει δεδομένα στις συστοιχίες, επομένως η μεταφορά δεδομένων το καθιστά πιο προσβάσιμο. Για αυτόν τον λόγο, το JSON είναι μια ανώτερη μορφή αρχείου για API ιστού και ανάπτυξη ιστού.

Στην επόμενη ενότητα, ας δούμε μερικές από τις προκλήσεις που μπορεί να αντιμετωπίσουμε κατά τη μετατροπή αρχείων PDF σε μορφή JSON.


Τα Nanonets έχουν πολλά ενδιαφέροντα περιπτώσεις χρήσης που θα μπορούσαν να βελτιστοποιήσουν την απόδοση της επιχείρησής σας, να εξοικονομήσουν κόστος και να αυξήσουν την ανάπτυξη. Βρίσκω πώς μπορούν να εφαρμοστούν οι περιπτώσεις χρήσης Nanonets στο προϊόν σας.


Προκλήσεις με μετατροπή από PDF σε JSON

Ας δούμε μερικές από τις προκλήσεις στην εξαγωγή από PDF σε JSON.

  1. Εντοπισμός γραμματοσειρών: Οι άνθρωποι χρησιμοποιούν διαφορετικές γραμματοσειρές, χρώματα και ευθυγραμμίσεις μέσα σε έγγραφα PDF. Επομένως, είναι πολύ δύσκολο για τους αναλυτές να τα διαβάσουν. Επίσης, κατά την εξαγωγή αυτού, θα πρέπει να καθορίσουμε συγκεκριμένους κανόνες, έτσι ώστε μετά το πρόγραμμα ανάλυσης να εξαγάγει τα δεδομένα, όλες οι πληροφορίες θα πρέπει να αντιστοιχιστούν σωστά στη μορφή JSON. Σε τέτοιες περιπτώσεις, οι κανονικές εκφράσεις χρησιμοποιούνται ευρέως για την επιλογή συγκεκριμένου κειμένου και στη συνέχεια για την εξαγωγή τους στο σωστό κλειδί στη μορφή JSON.
  2. Εντοπισμός κειμένου από σαρωμένα έγγραφα: Όπως συζητήθηκε, όταν τα PDF δεν δημιουργούνται ηλεκτρονικά, θα πρέπει να χρησιμοποιήσουμε ένα OCR και η επιλογή ενός OCR είναι κρίσιμη. Αν και πολλοί χρήστες δοκιμάζουν εργαλεία ανοιχτού κώδικα όπως το tesseract, έχουν τους δικούς τους περιορισμούς. Για παράδειγμα, εάν το κείμενο καταγράφεται ακατάλληλα ή δεν ευθυγραμμίζεται κατά τη λήψη, το tesseract ενδέχεται να μην λειτουργεί και η επιλογή άλλων εργαλείων μπορεί να είναι δαπανηρή.
  1. Αναγνώριση πινάκων: Τα περισσότερα επιχειρηματικά έγγραφα περιέχουν πληροφορίες πίνακα και ο καθορισμός αυτών των πινάκων από έγγραφα PDF και η μετατροπή τους σε JSON είναι μια δύσκολη εργασία. Υπάρχουν ορισμένες βιβλιοθήκες που βασίζονται σε Python και Java που μπορούν να βοηθήσουν στην εξαγωγή πινάκων από ηλεκτρονικά έγγραφα PDF.
  2. Προσδιορισμός πινάκων από σαρωμένα PDF: Όταν σαρώνονται τα αρχεία PDF, τα περισσότερα πακέτα δεν λειτουργούν. Σε αυτήν την περίπτωση, εάν επιλέξουμε ένα OCR ανοιχτού κώδικα όπως το tesseract, θα μπορούσε να εξαγάγει κείμενο, αλλά μπορεί να χάσει όλη τη μορφοποίηση του πίνακα. Ως εκ τούτου, είναι δύσκολο να επιλέξετε στοιχεία περιγράμματος σε εσφαλμένη μορφή. Εδώ θα πρέπει να χρησιμοποιήσουμε αλγόριθμους Machine Learning και Deep Learning. Μερικοί δημοφιλείς αλγόριθμοι βασίζονται σε CNN και έχει γίνει πολλή έρευνα για τη βελτίωση αυτών των αλγορίθμων.

Ακολουθούν μερικές από τις ερευνητικές εργασίες που επιλύουν το πρόβλημα της εξαγωγής πίνακα από έγγραφα:

Στην επόμενη ενότητα, ας δούμε πώς να αναλύσουμε δεδομένα από το PDF για να δημιουργήσουμε αρχεία JSON.

Ανάλυση δεδομένων από αρχεία PDF και δημιουργία αρχείων JSON χρησιμοποιώντας Python και Linux

Η ανάλυση μέσω αρχείων PDF δεν είναι περίπλοκη εργασία, εάν έχετε εμπειρία προγραμματιστή.

Αρχικά, θα πρέπει να ελέγξουμε εάν τα αρχεία PDF περιέχουν δεδομένα κειμένου ή αποτελούνται από σαρωμένες εικόνες. Θα πρέπει να ελέγξουμε αν μπορούμε να εξαγάγουμε δεδομένα κειμένου ή να διοχετεύσουμε τα αρχεία μέσω μιας βιβλιοθήκης OCR, εάν δεν επιστράφηκε κείμενο.

Αυτό θα μπορούσε να επιτευχθεί χρησιμοποιώντας μια βιβλιοθήκη Python ή βασιζόμενοι σε ορισμένα βοηθητικά προγράμματα γραμμής εντολών Linux.

Pdfttext είναι μια από τις πιο δημοφιλείς βιβλιοθήκες για την ανάλυση ηλεκτρονικών PDF. Θα μπορούσαμε να το χρησιμοποιήσουμε για να μετατρέψουμε όλα τα δεδομένα PDF σε μορφή κειμένου και στη συνέχεια να τα προωθήσουμε σε μορφή JSON.

Εδώ είναι μερικές από τις οδηγίες για το πώς μπορούμε να χρησιμοποιήσουμε pdftotext και ανάλυση του PDF σε μια μηχανή Linux.

Αρχικά, εγκαταστήστε εργαλεία γραμμής εντολών:

sudo apt-get install poppler-utils

Στη συνέχεια, χρησιμοποιήστε το pdftotext εντολή και προσθέστε τη διαδρομή προέλευσης του αρχείου PDF και τη θέση του αρχείου κειμένου προορισμού.

pdftotext {PDF-file} {text-file}

Με αυτό, θα πρέπει να μπορούμε να εξαγάγουμε όλο το αναγνώσιμο κείμενο από τα αρχεία PDF.

Για να δημιουργήσουμε ένα αρχείο JSON, θα πρέπει να εργαστούμε ξανά σε ένα σενάριο που βασίζεται στα δεδομένα μας που μπορεί να αναλύσει το κείμενο και να το εξαγάγει σε σχετικά ζεύγη κλειδιών-τιμών.

Ακολουθεί ένα παράδειγμα σεναρίου που γράψαμε στην Python που μετατρέπει ένα απλό .txt αρχείο σε μορφή JSON.

import json
  
filename = 'data.txt'
 
dict1 = {}
  
with open(filename) as fh:
  
    for line in fh:
        command, description = line.strip().split(None, 1)
        dict1[command] = description.strip()
  
# creating json file
# the JSON file is named as test1
out_file = open("test1.json", "w")
json.dump(dict1, out_file, indent = 4, sort_keys = False)
out_file.close()

Θεωρήστε ότι τα δεδομένα μέσα στο αρχείο κειμένου είναι:

invoice_id #234
invoice_name Invoice from AWS
invoice_total $345

Εδώ, εισαγάγαμε για πρώτη φορά την ενσωματωμένη βιβλιοθήκη JSON. Δημιουργούμε τώρα έναν τύπο δεδομένων λεξικού για να αποθηκεύουμε όλα τα ζεύγη κλειδιών-τιμών από τα αρχεία κειμένου. Στη συνέχεια, επαναλαμβάνουμε κάθε γραμμή του αρχείου και την αφαιρούμε σε εντολή, περιγραφή και τη διατηρούμε στο λεξικό που δημιουργήθηκε. Τέλος, δημιουργούμε ένα νέο αρχείο JSON και χρησιμοποιούμε το json.dump μέθοδο για την απόρριψη του λεξικού στο αρχείο JSON με μια συγκεκριμένη διαμόρφωση που περιλαμβάνει ταξινόμηση και εσοχή.

Ωστόσο, τα δεδομένα μας από PDF δεν θα είναι τόσο οργανωμένα όπως δίδεται στο παράδειγμα. Επομένως, ίσως χρειαστεί να χρησιμοποιήσουμε προσαρμοσμένους αγωγούς και σενάρια για να περάσουμε από περίπλοκη μορφοποίηση κειμένου. Σε τέτοιες περιπτώσεις, εργαλεία όπως Νανοδίκτυα θα είναι εξαιρετικής επιλογής και θα δούμε επίσης πώς τα Nanonets λύνουν αυτό το πρόβλημα με πολύ πιο εύκολο τρόπο στις ακόλουθες ενότητες.

Πριν από αυτό, ας δούμε μια ακόμη βιβλιοθήκη που μετατρέπει το PDF σε JSON χρησιμοποιώντας το node.js:

pdf2json είναι ένα node.js ενότητα που αναλύει και μετατρέπει PDF από δυαδικό σε μορφή JSON. είναι χτισμένο με pdf.js και το επεκτείνει με διαδραστικά στοιχεία φόρμας και περιεχόμενο κειμένου που αναλύει έξω από το πρόγραμμα περιήγησης.

Ακολουθεί ένα παράδειγμα χρήσης αυτής της λειτουργικής μονάδας για την ανάλυση των αρχείων JSON:

Πρώτα, βεβαιωθείτε ότι έχετε npm εγκαταστήστε και εγκαταστήστε τη λειτουργική μονάδα χρησιμοποιώντας την ακόλουθη εντολή:

npm install pdf2json

Στη συνέχεια, στον διακομιστή κόμβων, μπορείτε να χρησιμοποιήσετε το ακόλουθο απόσπασμα που φορτώνει το pdf2json και εξάγει pdf σε JSON:

let fs = require('fs'),
        PDFParser = require("pdf2json");
 
    let pdfParser = new PDFParser();
 
    pdfParser.on("pdfParser_dataError", errData => console.error(errData.parserError) );
    pdfParser.on("pdfParser_dataReady", pdfData => {
        fs.writeFile("./pdf2json/test/F1040EZ.json", JSON.stringify(pdfData));
    });
 
    pdfParser.loadPDF("./pdf2json/test/pdf/fd/form/F1040EZ.pdf");

Το παραπάνω απόσπασμα κώδικα χρησιμοποιεί ένα παράδειγμα αρχείου JSON από τη λειτουργική μονάδα και το εξάγει σε ένα αρχείο JSON, μπορούμε να το ελέγξουμε στο ./test/target/ φάκελο στο έργο σας. σι

elow, θα βρείτε ένα στιγμιότυπο οθόνης του τρόπου με τον οποίο η μονάδα εξάγει τα αρχεία JSON:

Πώς να μετατρέψετε δεδομένα PDF σε JSON PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
Εξαγωγή JSON

Για ανάλυση αρχείων PDF σε πίνακες, αυτές οι βιβλιοθήκες μπορεί απλώς να μην λειτουργούν!


Θα πρέπει να αξιοποιήσετε αλγόριθμους OCR & Machine Learning για να εξαγάγετε δεδομένα σε πίνακα σε JSON. Το Nanonets κάνει ακριβώς αυτό, όπως μπορείτε να δείτε παρακάτω:

Πώς να μετατρέψετε δεδομένα PDF σε JSON PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
Νανοδίκτυα μετατρέπουν δεδομένα από PDF σε JSON 


Προσαρμοσμένη μετατροπή δεδομένων από PDF σε JSON

Μερικές φορές, κατά την εξαγωγή των δεδομένων από επαγγελματικά έγγραφα, ενδέχεται να χρειαστεί προσαρμογή. Για παράδειγμα, ας πούμε αν θέλουμε μόνο συγκεκριμένες σελίδες ή πίνακες, δεν μπορούμε να το κάνουμε απευθείας. Σε αυτήν την περίπτωση, ίσως χρειαστεί να παρέχουμε πρόσθετους κανόνες στους αναλυτές, κάτι που είναι και πάλι χρονοβόρο. Αλλά ας δούμε πώς μπορούμε να κάνουμε την προσαρμογή και τις ενέργειες που χρειάζονται οι περισσότεροι άνθρωποι.

Ακολουθούν μερικές από τις ενέργειες που απαιτούνται για προσαρμογή σε μετατροπή σε PDF σε JSON:

  • Εξαγάγετε μόνο συγκεκριμένο κείμενο ή σελίδες από PDF
  • Εξαγάγετε όλους τους πίνακες από έγγραφα PDF
  • Εξαγωγή συγκεκριμένων στηλών από συγκεκριμένους πίνακες σε PDF
  • Φιλτράρετε κείμενο από PDF πριν τα εξαγάγετε στο JSON
  • Δημιουργία ένθετου JSON με βάση τα εξαγόμενα δεδομένα από PDF
  • Μορφοποιήστε τη δομή JSON βάσει δεδομένων
  • Δημιουργήστε, διαγράψτε, ενημερώστε τιμές ορισμένων πεδίων στο JSON μετά την εξαγωγή

Αυτές είναι μερικές από τις ενέργειες που απαιτούνται συχνά για την αποθήκευση των δεδομένων μας με διαφορετικούς τρόπους ή για παράδειγμα εάν δημιουργούμε API για μια εφαρμογή. Ας δούμε πώς μπορούμε να τα επιτύχουμε.

Εξαγωγή συγκεκριμένου κειμένου: Σε PDF, θα μπορούσαμε να εξαγάγουμε το συγκεκριμένο κείμενο χρησιμοποιώντας κανονικές εκφράσεις. για παράδειγμα, ας πούμε αν θέλουμε όλα τα email και τους αριθμούς τηλεφώνου να χρησιμοποιούν regex, μπορούμε να τα διαλέξουμε. Εάν τα PDF είναι σε σαρωμένη μορφή, πρέπει είτε να τα εκπαιδεύσουμε σε έναν αλγόριθμο βαθιάς μάθησης που μπορεί να κατανοήσει τις διατάξεις των PDF και να εξαγάγει πεδία με βάση τις συντεταγμένες και τον σχολιασμό των δεδομένων εκπαίδευσης. Ένα από τα πιο δημοφιλή αποθετήρια ανοιχτού κώδικα για την κατανόηση των διατάξεων εγγράφων και την εξαγωγή κειμένου είναι το LayoutML και εκπαιδεύει σε μοντέλα BERT για εξαγωγή προσαρμοσμένου κειμένου. Ωστόσο, θα πρέπει να έχουμε αρκετά δεδομένα για να επιτύχουμε μεγαλύτερη ακρίβεια στην εξαγωγή κειμένου.

Προσαρμογή πίνακα: Όπως συζητήθηκε, οι πίνακες μπορούν να εξαχθούν χρησιμοποιώντας βιβλιοθήκες όπως το Camelot και το Tabula-py ή χρησιμοποιώντας OCR και αλγόριθμους βασισμένους στη μάθηση. Αλλά για προσαρμογή, θα πρέπει να χρησιμοποιήσουμε βιβλιοθήκες όπως τα panda. Αυτό θα μας επιτρέψει να δημιουργήσουμε, να ενημερώσουμε και να σειριοποιήσουμε τα δεδομένα από τους πίνακες. Χρησιμοποιεί έναν προσαρμοσμένο τύπο δεδομένων που ονομάζεται πλαίσιο δεδομένων, ο οποίος χρησιμοποιείται ευρέως για τον χειρισμό και την προσαρμογή των δεδομένων πίνακα. Άλλα πλεονεκτήματα της χρήσης pandas περιλαμβάνουν τη σύνταξη προσαρμοσμένων λειτουργιών που μπορούν να εκτελέσουν συγκεκριμένες μαθηματικές λειτουργίες κατά τη διαδικασία εξαγωγής.

Μορφοποίηση δεδομένων JSON: Μετά την εξαγωγή PDF σε JSON, η μορφοποίησή τους είναι μια απλή εργασία, καθώς έχουμε έναν πιο προσαρμόσιμο τύπο δεδομένων που είναι τα ζεύγη κλειδιών-τιμών. Θα μπορούσαμε είτε να αναπτύξουμε απλά σενάρια είτε να χρησιμοποιήσουμε διαδικτυακά εργαλεία για να αναζητήσουμε αυτά τα ζεύγη κλειδιών-τιμών και να τα μορφοποιήσουμε. Μερικές από τις πιο κοινές παραμέτρους για μορφοποίηση περιλαμβάνουν εσοχή, διαχωριστικά, πλήκτρα ταξινόμησης, κυκλικούς ελέγχους, ελέγχους δεδομένων. Εάν το JSON χρησιμοποιείται ως API, θα μπορούσαμε να χρησιμοποιήσουμε τον Postman ή τυχόν επεκτάσεις προγράμματος περιήγησης για τη μορφοποίηση των δεδομένων και την αλληλεπίδραση με τα API.


Θέλετε να εξαγάγετε πληροφορίες από έγγραφα PDF και να τα μετατρέψετε σε μορφή JSON; Ρίξτε μια ματιά στα Nanonets για να αυτοματοποιήσετε την εξαγωγή οποιασδήποτε πληροφορίας από οποιοδήποτε έγγραφο PDF σε JSON.


Σφραγίδα ώρας:

Περισσότερα από AI και μηχανική μάθηση