Μετατροπή δεδομένων PDF σε καταχωρίσεις βάσης δεδομένων PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Μετατροπή δεδομένων PDF σε καταχωρήσεις βάσης δεδομένων

Αρκετοί οργανισμοί και επιχειρήσεις βασίζονται σε έγγραφα PDF για την κοινή χρήση σημαντικών εγγράφων, όπως τιμολόγια, εκκαθαριστικά, οικονομικά στοιχεία, εντολές εργασίας, αποδείξεις και άλλα. Ωστόσο, τα PDF δεν είναι οι βασικές μορφές για την αποθήκευση ιστορικών δεδομένων, καθώς δεν μπορούν εύκολα να εξαχθούν και να οργανωθούν σε ροές εργασίας. Έτσι, οι άνθρωποι χρησιμοποιούν αλγόριθμους εξαγωγής πληροφοριών για την ψηφιοποίηση αρχείων PDF και σαρωμένων εγγράφων σε δομημένες μορφές όπως JSON, CSV, Tables ή Excel που μπορούν εύκολα να μετατραπούν σε άλλες οργανωτικές ροές εργασιών.

Σε ορισμένες περιπτώσεις, τα PDF περιέχουν βασικές πληροφορίες για επεξεργασία σε διαφορετικά ERP, CMS και άλλα συστήματα που βασίζονται σε βάσεις δεδομένων. Δυστυχώς, τα έγγραφα PDF δεν έχουν εύκολη λειτουργία PDF στη βάση δεδομένων και η σύνταξη σεναρίων ή η δημιουργία μιας ροής εργασίας γύρω από αυτήν την εργασία είναι λίγο περίπλοκη. Εδώ εμφανίζονται οι αλγόριθμοι OCR και Deep Learning (DL) για την εξαγωγή δεδομένων από αυτές τις μορφές PDF και την εξαγωγή τους σε μια βάση δεδομένων. Σε αυτήν την ανάρτηση ιστολογίου, θα εξετάσουμε διαφορετικούς τρόπους για το πώς μπορείτε να το πετύχετε αυτό χρησιμοποιώντας τεχνολογίες DL καθώς και ορισμένα δημοφιλή API στην αγορά.

Τι είναι η μετατροπή PDF σε βάση δεδομένων;

Η μετατροπή PDF σε βάση δεδομένων είναι η εργασία εξαγωγής δεδομένων από αρχεία PDF σε μια βάση δεδομένων όπως Postgres, Mongo, MySQL κ.λπ.

Ας υποθέσουμε ότι επρόκειτο να δημιουργήσουμε μια εφαρμογή Ιστού ή ένα σύστημα ERP που διατηρεί και διατηρεί πληροφορίες τιμολογίων από διαφορετικές πηγές. Η μη αυτόματη προσθήκη ιστορικών τιμολογίων σε μια βάση δεδομένων είναι μια δύσκολη εργασία και είναι εξαιρετικά επιρρεπής σε σφάλματα. Από την άλλη πλευρά, η χρήση ενός απλού OCR ενδέχεται να μην εξαγάγει με ακρίβεια πίνακες από τιμολόγια.

Εδώ είναι χρήσιμη η προηγμένη μετατροπή PDF σε βάση δεδομένων βάσει τεχνητής νοημοσύνης!

Μπορεί αυτή η διαδικασία μετατροπής PDF σε βάση δεδομένων που βασίζεται σε AI να αυτοματοποιηθεί; - Ναί.

Στις παρακάτω ενότητες, χρησιμοποιούμε την όραση υπολογιστή και τη βαθιά εκμάθηση για να ανιχνεύσουμε περιοχές πίνακα από σαρωμένα έγγραφα. Αυτοί οι πίνακες αποθηκεύονται περαιτέρω σε μια συγκεκριμένη μορφή δεδομένων όπως CSV ή excel και θα προωθηθούν απευθείας σε βάσεις δεδομένων.

Πριν τα συζητήσουμε, ας καταλάβουμε ορισμένες περιπτώσεις χρήσης όπου ο εντοπισμός PDF σε βάση δεδομένων μπορεί να είναι χρήσιμος.

Διαφορετικές περιπτώσεις χρήσης για PDF σε βάσεις δεδομένων

Οι βάσεις δεδομένων είναι οι καλύτεροι τρόποι αποθήκευσης πληροφοριών τόσο στο cloud όσο και στο τοπικό χώρο αποθήκευσης. Μας επιτρέπουν να εκτελούμε διαφορετικές λειτουργίες και χειρισμούς χρησιμοποιώντας απλά ερωτήματα. Ακολουθούν ορισμένες περιπτώσεις χρήσης που θα μπορούσαν να βελτιστοποιηθούν σε μεγάλο βαθμό με μια αυτοματοποιημένη ροή εργασιών μετατροπής PDF σε βάση δεδομένων:

  1. Διαχείριση τιμολογίων στον Ιστό: Οι επιχειρήσεις και οι οργανισμοί ασχολούνται με πολλά τιμολόγια καθημερινά. και είναι δύσκολο για αυτούς να επεξεργαστούν κάθε τιμολόγιο χειροκίνητα. Επίσης, μερικές φορές, συγκεντρώνουν και λαμβάνουν τιμολόγια σε μη ψηφιακή μορφή, γεγονός που καθιστά πιο δύσκολη την παρακολούθηση τους. Ως εκ τούτου, βασίζονται σε εφαρμογές που βασίζονται στον ιστό που μπορούν να αποθηκεύσουν όλα τα τιμολόγιά τους σε ένα μέρος. Ένας μετατροπέας PDF σε βάση δεδομένων θα μπορούσε να αυτοματοποιήσει την εξαγωγή δεδομένων από τα τιμολόγια στην εφαρμογή Ιστού. Για να αυτοματοποιήσουμε αποτελεσματικά αυτές τις εργασίες, θα μπορούσαμε να εκτελέσουμε εργασίες cron και να τις ενσωματώσουμε με υπηρεσίες τρίτων, όπως το n8n και το Zapier – όταν ένα νέο τιμολόγιο σαρώνεται και αποστέλλεται, μπορεί να εκτελέσει τον αλγόριθμο και να το προωθήσει αυτόματα σε πίνακες.
  2. ECom Inventory Management: Πολλά προγράμματα διαχείρισης αποθέματος e-com εξακολουθούν να εκτελούνται μέσω της μη αυτόματης εισαγωγής προϊόντων από αρχεία PDF και σαρωμένα αντίγραφα. Ωστόσο, πρέπει να ανεβάζουν όλα τα δεδομένα τους σε λογισμικό διαχείρισης χρεώσεων για να παρακολουθούν όλα τα προϊόντα και τις πωλήσεις τους. Ως εκ τούτου, η χρήση του αλγόριθμου μετατροπής πίνακα σε βάση δεδομένων μπορεί να βοηθήσει στην αυτοματοποίηση της μη αυτόματης καταχώρισής τους και στην εξοικονόμηση πόρων. Αυτή η διαδικασία συνήθως περιλαμβάνει τη σάρωση της λίστας αποθέματος από σαρωμένα έγγραφα και την εξαγωγή τους σε συγκεκριμένους πίνακες βάσης δεδομένων με βάση διαφορετικούς επιχειρηματικούς κανόνες και συνθήκες.
  3. Εξαγωγή Δεδομένων από Έρευνες: Για να συλλέξουμε σχόλια και άλλες πολύτιμες πληροφορίες, διεξάγουμε συνήθως μια έρευνα. Παρέχουν μια κρίσιμη πηγή δεδομένων και γνώσεων για σχεδόν όλους όσους ασχολούνται με την οικονομία της πληροφορίας, από τις επιχειρήσεις και τα μέσα ενημέρωσης έως την κυβέρνηση και τους ακαδημαϊκούς. Όταν συλλέγονται ηλεκτρονικά, είναι εύκολο να εξαγάγετε την κατάσταση των δεδομένων πίνακα με βάση την απόκριση του χρήστη και να την ανεβάσετε σε μια βάση δεδομένων. Ωστόσο, στις περισσότερες περιπτώσεις, οι απαντήσεις της έρευνας είναι στα χαρτιά. Σε τέτοιες περιπτώσεις, είναι εξαιρετικά δύσκολο να συλλέξετε με μη αυτόματο τρόπο πληροφορίες και να τις αποθηκεύσετε σε ψηφιακή μορφή. Επομένως, η χρήση αλγορίθμων από πίνακα σε βάση δεδομένων μπορεί να εξοικονομήσει χρόνο και επίσης να μειώσει το πρόσθετο κόστος.

Πώς να εξαγάγετε πληροφορίες από αρχεία PDF σε σχεσιακές και μη σχεσιακές βάσεις δεδομένων;

Ένα αρχείο PDF θεωρείται ως δύο διαφορετικοί τύποι, ηλεκτρονικά και μη ηλεκτρονικά.

  1. Ηλεκτρονικά PDF: Αυτό το σαρωμένο έγγραφο PDF μπορεί να έχει κρυφό κείμενο πίσω από την εικόνα. Αυτά αναφέρονται επίσης ως ηλεκτρονικά δημιουργημένα PDF.
  2. Μη ηλεκτρονικά PDF: Σε αυτόν τον τύπο, βλέπουμε περισσότερο περιεχόμενο κωδικοποιημένο ως εικόνες. Αυτό συμβαίνει όταν έχετε σαρώσει ένα έντυπο έγγραφο σε αρχείο PDF.

Θα μπορούσαμε να βασιστούμε σε απλές γλώσσες προγραμματισμού και πλαίσια όπως Python και Java για τον πρώτο τύπο (ηλεκτρονικά δημιουργημένο). Για τα αρχεία PDF που δεν δημιουργούνται ηλεκτρονικά, θα χρειαστεί να χρησιμοποιήσουμε τεχνικές Computer Vision με OCR και βαθιά εκμάθηση. Ωστόσο, αυτοί οι αλγόριθμοι ενδέχεται να μην είναι ίδιοι για όλους τους αλγόριθμους εξαγωγής πινάκων και θα πρέπει να αλλάξουν ανάλογα με τον τύπο των δεδομένων για να επιτευχθεί μεγαλύτερη ακρίβεια. Το NLP (Natural Language Processing) χρησιμοποιείται επίσης για την κατανόηση των δεδομένων μέσα στους πίνακες και την εξαγωγή τους σε ορισμένες περιπτώσεις.

Από την άλλη πλευρά, υπάρχουν δύο είδη βάσεων δεδομένων (σχεσιακές και μη σχεσιακές). Κάθε μία από αυτές τις βάσεις δεδομένων έχει διαφορετικά σύνολα κανόνων με βάση την αρχιτεκτονική τους. Μια σχεσιακή βάση δεδομένων είναι δομημένη, που σημαίνει ότι τα δεδομένα είναι οργανωμένα σε πίνακες. Μερικά παραδείγματα περιλαμβάνουν MySQL, Postgres, κ.λπ.

Αντίθετα, η μη σχεσιακή βάση δεδομένων είναι προσανατολισμένη στα έγγραφα, που σημαίνει ότι όλες οι πληροφορίες αποθηκεύονται περισσότερο με μια σειρά πλυντηρίων. Μέσα σε ένα μόνο έγγραφο κατασκευής, θα έχετε όλα τα δεδομένα σας στη λίστα - για παράδειγμα, MongoDB.

PDF σε μια βάση δεδομένων όταν τα έγγραφα δημιουργούνται ηλεκτρονικά

Όπως αναφέρθηκε, για τα ηλεκτρονικά δημιουργημένα αρχεία PDF, η διαδικασία εξαγωγής πινάκων είναι απλή. Η ιδέα είναι να εξαγάγετε πίνακες και στη συνέχεια να χρησιμοποιήσετε απλά σενάρια για να τους μετατρέψετε ή να τους προσθέσετε σε πίνακες. Για την εξαγωγή πινάκων από αρχεία PDF, υπάρχουν κυρίως δύο τεχνικές.

Τεχνική #1 Ροή: Ο αλγόριθμος αναλύει πίνακες με βάση τα κενά μεταξύ των κελιών για να προσομοιώσει μια δομή πίνακα—προσδιορίζοντας πού δεν υπάρχει το κείμενο. Είναι χτισμένο στη λειτουργικότητα του PDFMiner για ομαδοποίηση χαρακτήρων σε μια σελίδα σε λέξεις και προτάσεις χρησιμοποιώντας περιθώρια. Σε αυτήν την τεχνική, πρώτα, οι σειρές ανιχνεύονται κάνοντας πρόχειρες εικασίες με βάση τη θέση του άξονα y του κειμένου (δηλ. το ύψος). Όλο το κείμενο στην ίδια γραμμή θεωρείται μέρος της ίδιας σειράς. Στη συνέχεια, ο αναγνώστης ομαδοποιείται και συντάσσεται ως διαφορετική ομάδα για να προσδιορίσει τις στήλες στον πίνακα. Τέλος, ο πίνακας συντάσσεται με βάση τις γραμμές και τις στήλες που εντοπίστηκαν σε προηγούμενα βήματα.

Τεχνική #2 Διχτυωτό: Σε αντίθεση με το ρεύμα, το Lattice είναι πιο ντετερμινιστικό. Αυτό σημαίνει ότι δεν βασίζεται σε εικασίες. πρώτα αναλύει τους πίνακες που έχουν καθορισμένες γραμμές μεταξύ των κελιών. Στη συνέχεια, μπορεί να αναλύσει αυτόματα πολλούς πίνακες που υπάρχουν σε μια σελίδα. Αυτή η τεχνική ουσιαστικά λειτουργεί κοιτάζοντας το σχήμα των πολυγώνων και προσδιορίζοντας το κείμενο μέσα στα κελιά του πίνακα. Αυτό θα ήταν απλό εάν ένα PDF έχει μια δυνατότητα που μπορεί να αναγνωρίσει πολύγωνα. Αν είχε, θα είχε εύλογα μια μέθοδο για να διαβάσει τι υπάρχει μέσα του. Ωστόσο, δεν το κάνει. Ως εκ τούτου, η όραση υπολογιστή χρησιμοποιείται ευρέως για τον εντοπισμό αυτών των σχημάτων και την εξαγωγή των περιεχομένων του πίνακα.

Οι εξαγόμενοι πίνακες αποθηκεύονται κυρίως σε μορφή πλαισίου δεδομένων. Είναι ένας από τους εγγενείς τύπους δεδομένων που προσφέρεται από ένα από τα πιο δημοφιλή panda βιβλιοθηκών Python. Υπάρχουν πολλά πλεονεκτήματα της αποθήκευσης δεδομένων πίνακα σε ένα πλαίσιο δεδομένων. Ο χειρισμός, ο χειρισμός και η εξαγωγή τους μπορούν εύκολα να γίνουν σε διαφορετικές μορφές όπως JSON, CSV ή πίνακες. Ωστόσο, προτού προωθήσουμε αυτά τα πλαίσια δεδομένων σε πίνακες, θα πρέπει πρώτα να συνδεθούμε στη βάση δεδομένων του DB-Client και, στη συνέχεια, να μετεγκαταστήσουμε τον πίνακα. Χρησιμοποιώντας γλώσσες όπως η Python, μπορούμε να βρούμε πολλές βιβλιοθήκες που μπορούν να συνδεθούν με αυτές τις πηγές δεδομένων και να εξάγουν δεδομένα.

PDF στη βάση δεδομένων όταν τα έγγραφα δημιουργούνται μη ηλεκτρονικά

Οι τεχνικές που συζητήθηκαν παραπάνω ενδέχεται να μην λειτουργούν για αρχεία PDF που δεν δημιουργούνται ηλεκτρονικά, καθώς τα δεδομένα εδώ σαρώνονται με μη αυτόματο τρόπο μέσω διαφορετικής πηγής. Αυτός είναι ο λόγος για τον οποίο θα χρησιμοποιούμε τεχνικές OCR και Deep Learning για την εξαγωγή δεδομένων από σαρωμένα έγγραφα και την εξαγωγή τους σε βάσεις δεδομένων.

Εν ολίγοις, το Optical Character Recognition, το OCR είναι ένα ειδικό εργαλείο που μετατρέπει εκτυπωμένα γράμματα από σαρωμένα έγγραφα σε επεξεργάσιμο κείμενο. Για την αναγνώριση πινάκων PDF από έγγραφα, πρώτα, πρέπει να προσδιορίσουμε τη θέση του πίνακα και στη συνέχεια να εφαρμόσουμε OCR για να εξαγάγουμε δεδομένα από τα κελιά του πίνακα. Ακολουθούν τα βήματα για το πώς επιτυγχάνεται:

  1. Αρχικά, ανιχνεύουμε τα τμήματα γραμμής εφαρμόζοντας οριζόντια και κάθετα περιγράμματα.
  2. Οι τομές γραμμών μεταξύ γραμμών ανιχνεύονται εξετάζοντας την ένταση των pixel όλων των γραμμών. Εάν ένα εικονοστοιχείο γραμμής έχει μεγαλύτερη ένταση από το υπόλοιπο του εικονοστοιχείου, είναι μέρος δύο γραμμών και, επομένως, μια τομή.
  3. Οι άκρες του πίνακα καθορίζονται κοιτάζοντας την ένταση των pixel των τεμνόμενων γραμμών. Εδώ λαμβάνονται όλα τα εικονοστοιχεία μιας γραμμής και οι περισσότερες εξωτερικές γραμμές αντιπροσωπεύουν τα όρια του πίνακα.
  4. Η ανάλυση εικόνας μεταφράζεται στις συντεταγμένες PDF, όπου προσδιορίζονται τα κελιά. Το κείμενο εκχωρείται σε ένα κελί με βάση τις συντεταγμένες x και y του.
  5. Το OCR εφαρμόζεται στις συντεταγμένες για την εξαγωγή του κειμένου
  6. Το εξαγόμενο κείμενο εξάγεται σε ένα πλαίσιο δεδομένων με βάση τη θέση του πίνακα.

Έτσι μπορούμε να εξαγάγουμε πίνακες χρησιμοποιώντας βιογραφικό. Ωστόσο, υπάρχουν μερικά μειονεκτήματα εδώ. Αυτοί οι αλγόριθμοι αποτυγχάνουν για μεγάλους πίνακες και πίνακες με διαφορετικά στυλ προτύπων. Εδώ μπαίνει η βαθιά μάθηση. χρησιμοποιούν ένα ειδικό είδος πλαισίου νευρωνικών δικτύων για να μάθουν από δεδομένα και να προσδιορίσουν παρόμοια μοτίβα με βάση τις μαθησίες. Την τελευταία δεκαετία, έχουν επιτύχει επιδόσεις αιχμής, ειδικά για εργασίες όπως η εξαγωγή πληροφοριών. Τώρα, ας δούμε πώς τα βαθιά νευρωνικά δίκτυα μπορούν να μάθουν από δεδομένα και να εξάγουν πίνακες από οποιοδήποτε έγγραφο.

Η εκπαίδευση σε βαθιά νευρωνικά δίκτυα περιλαμβάνει μια συγκεκριμένη ροή εργασίας. Αυτές οι ροές εργασίας συχνά αλλάζουν με βάση τον τύπο των δεδομένων με τα οποία εργαζόμαστε και την απόδοση του μοντέλου τους. Η πρώτη φάση της ροής εργασιών περιλαμβάνει τη συλλογή των δεδομένων και την επεξεργασία τους με βάση το μοντέλο μας. Στην περίπτωσή μας εξαγωγής των πινάκων από τα έγγραφα PDF, το σύνολο δεδομένων θα πρέπει ιδανικά να περιέχει μη δομημένα έγγραφα. Αυτά τα έγγραφα μετατρέπονται σε εικόνες, φορτώνονται ως τανυστές και ετοιμάζονται ως τάξη φόρτωσης δεδομένων για εκπαίδευση. Στη συνέχεια, ορίζουμε συνήθως όλες τις υπερπαραμέτρους που απαιτούνται για την εκπαίδευση. Αυτά περιλαμβάνουν συνήθως τη ρύθμιση του μεγέθους παρτίδας, τη λειτουργία απώλειας, τη βελτιστοποίηση για το μοντέλο. Τέλος, μια αρχιτεκτονική νευρωνικού δικτύου ορίζεται ή χτίζεται πάνω από ένα προκαθορισμένο μοντέλο. Αυτό το μοντέλο θα εκπαιδευτεί πάνω από τα δεδομένα και θα τελειοποιηθεί με βάση τις μετρήσεις απόδοσης.

Ακολουθεί ένα στιγμιότυπο οθόνης των διαφορετικών βημάτων που εμπλέκονται στην εκπαίδευση ενός μοντέλου βαθιάς μάθησης:

Τυπική ροή εργασίας ML (Πηγή)

Εξαγωγή δεδομένων από pdf και εξαγωγή τους στη βάση δεδομένων SQL χρησιμοποιώντας Python

Μέχρι στιγμής, μάθαμε τι είναι η μετατροπή από pdf σε βάση δεδομένων και έχουμε συζητήσει ορισμένες περιπτώσεις χρήσης όπου μπορεί να είναι χρήσιμη. Αυτή η ενότητα θα προσεγγίσει πρακτικά αυτό το πρόβλημα χρησιμοποιώντας το Computer Vision και θα εντοπίσει πίνακες σε σαρωμένα pdf και θα τους εξαγάγει σε βάσεις δεδομένων. Για να ακολουθήσετε, φροντίστε να εγκαταστήσετε την Python και το OpenCV στον τοπικό σας υπολογιστή. Εναλλακτικά, μπορείτε να χρησιμοποιήσετε ένα ηλεκτρονικό σημειωματάριο Google Collab.

Βήμα 1: Εγκαταστήστε το Tabula και το Panda

Σε αυτό το παράδειγμα, θα χρησιμοποιήσουμε Tabula και Panda για εξαγωγή και προώθηση πινάκων σε βάσεις δεδομένων. Ας τα εγκαταστήσουμε μέσω pip και ας τα εισαγάγουμε στο πρόγραμμά μας.

import tabula
import pandas as pd

Βήμα 2: Ανάγνωση πινάκων στο Dataframe

Τώρα, θα χρησιμοποιήσουμε το read_pdf λειτουργία από πίνακα για ανάγνωση πινάκων από αρχεία PDF. Σημειώστε ότι αυτή η βιβλιοθήκη λειτουργεί μόνο σε έγγραφα PDF που δημιουργούνται ηλεκτρονικά. Ακολουθεί το απόσπασμα κώδικα:

table = tabula.read_pdf("sample.pdf",pages='all',multiple_tables=False)

df = pd.concat(table)

Εδώ, όπως μπορούμε να δούμε, πρώτα χρησιμοποιούμε για να διαβάσουμε τα περιεχόμενα για το αρχείο PDF, ορίζουμε την παράμετρο multiple_tables σε False, καθώς το έγγραφο που χρησιμοποιείται στο παράδειγμα έχει μόνο έναν πίνακα.

Τώρα, θα φορτώσουμε αυτήν τη λίστα σε ένα πλαίσιο δεδομένων χρησιμοποιώντας panda και μπορείτε να ελέγξετε τον τύπο του πίνακα χρησιμοποιώντας τη μέθοδο τύπου. Αυτό θα επιστρέψει ένα εγγενές πλαίσιο δεδομένων panda.

Βήμα 3: Μετεγκατάσταση Dataframe σε Postres

Πριν ωθήσουμε τον πίνακά μας σε βάσεις δεδομένων, πρώτα, θα πρέπει να δημιουργήσουμε μια σύνδεση με αυτόν από το πρόγραμμά μας και μπορούμε να το κάνουμε αυτό χρησιμοποιώντας το sqlalchemy πελάτης σε python. Ομοίως, διαφορετικές γλώσσες προγραμματισμού προσφέρουν αυτού του είδους τους πελάτες βάσεων δεδομένων για αλληλεπίδραση με βάσεις δεδομένων απευθείας από τα προγράμματά μας.

Σε αυτό το πρόγραμμα, θα χρησιμοποιήσουμε το create_engine μέθοδο που μας επιτρέπει να συνδεθούμε με τη βάση δεδομένων. φροντίστε να αντικαταστήσετε τα διαπιστευτήρια της βάσης δεδομένων στη δεδομένη συμβολοσειρά για να λειτουργήσει. Στη συνέχεια, χρησιμοποιούμε το write_frame λειτουργία για εξαγωγή του εξαγόμενου πίνακα στη συνδεδεμένη βάση δεδομένων.

engine = create_engine('postgresql+psycopg2://username:password@host:port/database')

sql.write_frame(df, 'table_name', con, flavor='postgresql')

Και ακριβώς έτσι, μπορέσαμε να εξάγουμε πίνακες από αρχεία PDF στη βάση δεδομένων, αυτό φαίνεται αρκετά απλό και εύκολο καθώς χρησιμοποιήσαμε ένα απλό επεξεργασμένο ηλεκτρονικά δημιουργημένο PDF. Για την εξαγωγή πινάκων από πίνακες που δεν δημιουργούνται ηλεκτρονικά, ακολουθούν δημοφιλείς τεχνικές βαθιάς εκμάθησης που μπορούν να χρησιμοποιηθούν:

  1. Έγγραφα με κωδικό – GFTE: Εξαγωγή χρηματοοικονομικού πίνακα βάσει γραφήματος
  2. Papers with Code – PubTables-1M: Προς ένα καθολικό σύνολο δεδομένων και μετρήσεων για εκπαίδευση και αξιολόγηση μοντέλων εξαγωγής πινάκων
  3. TableNet: Μοντέλο βαθιάς μάθησης για ανίχνευση πίνακα από άκρη σε άκρη και εξαγωγή δεδομένων πίνακα από σαρωμένες εικόνες εγγράφων

Εισαγάγετε Nanonets: Advanced OCR για μετατροπή πίνακα PDF σε βάση δεδομένων

Αυτή η ενότητα θα εξετάσει πώς τα Nanonets μπορούν να μας βοηθήσουν να εκτελέσουμε πίνακες στη βάση δεδομένων με πιο προσαρμόσιμο και ευκολότερο τρόπο.

Το Nanonets™ είναι ένα OCR που βασίζεται σε σύννεφο που μπορεί να σας βοηθήσει να αυτοματοποιήσετε τη μη αυτόματη εισαγωγή δεδομένων σας χρησιμοποιώντας AI. Θα έχουμε έναν πίνακα ελέγχου όπου μπορούμε να δημιουργήσουμε/εκπαιδεύσουμε τα μοντέλα OCR στα δεδομένα μας και να τα μεταφέρουμε σε JSON/CSV ή σε οποιαδήποτε επιθυμητή μορφή. Εδώ είναι μερικά από τα πλεονεκτήματα της χρήσης Nanonets ως σαρωτή εγγράφων PDF.

Ένα από τα κυριότερα σημεία των Nanonets είναι η απλότητα που προσφέρει η υπηρεσία. Κάποιος μπορεί να επιλέξει αυτές τις υπηρεσίες χωρίς κανένα υπόβαθρο προγραμματισμού και να εξαγάγει εύκολα δεδομένα PDF με τεχνολογία αιχμής. Ακολουθεί μια σύντομη περιγραφή του πόσο εύκολη είναι η μετατροπή PDF στη βάση δεδομένων.

Βήμα 1: Μεταβείτε στο nanonets.com και εγγραφείτε/συνδεθείτε.

Μετατροπή δεδομένων PDF σε καταχωρίσεις βάσης δεδομένων PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Βήμα 2: Μετά την εγγραφή, μεταβείτε στην περιοχή "Επιλογή για να ξεκινήσετε", όπου μπορείτε να χρησιμοποιήσετε τους προκατασκευασμένους εξαγωγείς ή να δημιουργήσετε έναν μόνοι μας χρησιμοποιώντας το σύνολο δεδομένων σας. Εδώ, θα χρησιμοποιήσουμε τον προκατασκευασμένο εξολκέα τιμολογίων.

Μετατροπή δεδομένων PDF σε καταχωρίσεις βάσης δεδομένων PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Βήμα 3: Ανεβάστε PDF εικόνων, για να εκτελέσετε εξαγωγή δεδομένων και επιλέξτε αυτόματη εξαγωγή.

Μετατροπή δεδομένων PDF σε καταχωρίσεις βάσης δεδομένων PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Βήμα 4: Δημιουργήστε μια νέα ενσωμάτωση ενσωμάτωσης MySQL για εξαγωγή εξαγόμενων δεδομένων στη βάση δεδομένων. Εναλλακτικά, μπορείτε να επιλέξετε διάφορες επιλογές με βάση τις βάσεις δεδομένων της επιλογής σας.

Μετατροπή δεδομένων PDF σε καταχωρίσεις βάσης δεδομένων PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Δημιουργήστε σύνδεση δεδομένων και κάντε κλικ στην προσθήκη ενοποίησης. Με αυτό, τα δεδομένα θα εξάγονται και θα φορτώνονται αυτόματα σε μια βάση δεδομένων κάθε φορά που ανεβαίνουν αρχεία. Εάν δεν βρείτε τις απαιτούμενες ενσωματώσεις, μπορείτε πάντα να χρησιμοποιήσετε το Nanonets API και να γράψετε απλά σενάρια για να ολοκληρώσετε την αυτοματοποίηση.

Σφραγίδα ώρας:

Περισσότερα από AI και μηχανική μάθηση