So konvertieren Sie PDF-Daten in JSON

Neuauflage von Plato

Verfolger: 0

PDFs sind eines der am häufigsten verwendeten Datenformate für Geschäftsdokumente. Viele Unternehmen und Organisationen verlassen sich auf verschiedene Tools, um diese PDF-Dokumente zu erstellen und zu lesen.

Es ist jedoch schwierig, spezifische/wichtige Daten selektiv aus PDFs zu extrahieren.

Hier kommt JSON (Javascript Object Notation) ins Spiel.

Es ist eines der beliebtesten Datenformate für den Informationsaustausch. Insbesondere bei Webanwendungen werden die meisten Daten mit JSON über APIs und kommuniziert DB-Abfragen.

In diesem Blogbeitrag werden wir uns ansehen:

Wie Nanonets die komplexe Datenkonvertierung von komplizierten geschäftlichen PDF-Dokumenten in strukturierte JSON-Dateien automatisiert.
Einige kostenlose Open-Source-Techniken zum Konvertieren von PDFs in JSON mit Python-, Linux- und Javascript-Modulen.
- So extrahieren Sie spezifische/komplexe Daten aus PDFs wie Tabellen und bestimmte Textfolgen.
- Benutzerdefinierte Workflows, die helfen können, den Prozess der Konvertierung von PDFs in JSON zu automatisieren.

Nanonets konvertieren bestimmte PDF-Daten in JSON-Ausgaben

Möchten Sie bestimmte Daten aus PDF-Dokumenten extrahieren und in JSON konvertieren? Kasse Nanonets-API um die Batch-Konvertierung von PDF in JSON aus jeder Art von technischen Dokumenten zu automatisieren!

Nanonets Automatisierter PDF-zu-JSON-Konverter

Verein registrieren für den kostenlosen Plan von Nanonets, der ein Guthaben von 100 Seiten bietet – keine Kreditkarte erforderlich.
Fügen Sie einen Stapel Ihrer geschäftlichen PDF-Dateien hinzu
Nanonets erfasst automatisch Felder aus einer Reihe von Dokumenttypen (Rechnungen, Quittungen, Führerscheine, Pässe und Tabellen)
- Sie können die KI von Nanonets auch so trainieren, dass sie nur die Datenfelder Ihres Interesses aus jeder Art von Dokument erkennt/erfasst!
Überprüfen Sie die extrahierten Daten und exportieren Sie sie als JSON-Ausgaben
- Sie können Nanonets auch mit einer Vielzahl von ERP-Software integrieren – einen Anruf planen mit unseren KI-Experten, um Ihren Anwendungsfall zu testen.
Verpasse nicht unseren OCR-API zur Automatisierung von PDF-zu-JSON-Workflows

So konvertieren Sie PDF-Daten in JSON PlatoBlockchain Data Intelligence. Vertikale Suche. Ai. — PDF-zu-JSON-Konvertierung mit Nanonets

Wollen Daten erfassen aus PDF-Dokumenten und konvertieren in JSON, csv oder Excel? Finden Sie heraus, wie Nanonets helfen kann.

Die Notwendigkeit einer Konvertierung von PDF in JSON

Fast jedes Unternehmen verlässt sich auf Dokumente für den Informationsaustausch. Dies können Dokumente, Rechnungen, Steuererklärungen, Quittungen, medizinische Berichte und vieles mehr sein.

Diese Dokumente werden oft als PDFs geteilt/empfangen.

Wenn Sie jedoch nach kritischen Informationen suchen oder ein Dashboard erstellen möchten, um alle wichtigen Informationen zu analysieren und zu speichern, kann das manuelle Sammeln von Daten aus diesen PDFs eine schwierige Aufgabe sein.

Wenn die PDFs elektronisch generiert werden, können wir Informationen kopieren und in Datenquellen einfügen; sonst müssen wir vielleicht Verwenden Sie OCR und Techniken des maschinellen Lernens zum Extrahieren von Informationen.

Außerdem sind die Daten in den PDFs nicht organisiert oder direkt maschinenlesbar. Daher müssen wir möglicherweise manuell nach Informationen suchen.

Aber wenn es um JSON geht, ist alles in Schlüssel-Wert-Paaren organisiert. Hier ist ein Beispiel.

{
  "company_name": "Company Name",
  "Invoice_date": "Date ",
  "Invoice_total":"$0.00",
  "Invoice_line_items: "",
  "Invoice_tax": ""
}

Wenn Sie das obige JSON-Format sehen können, sind die Daten besser organisiert, und Sie können diese Informationen auch bequemer im Internet teilen. Aus diesem Grund ist der Export von Daten aus PDFs in JSON für viele Unternehmen von entscheidender Bedeutung.

Mit JSON verbundene Geschäftsvorteile

Das JSON-Datenformat hat viele Vorteile gegenüber PDFs für Unternehmen:

JSON ist schneller: Die JSON-Syntax ist einfach zu verwenden; Wenn Sie versuchen, JSON-Daten zu analysieren, ist die Ausführung im Vergleich zu PDFs und anderen Datenformaten viel schneller. Dies liegt daran, dass die Syntax leichtgewichtig ist und die Antwort schnell ausführt.
Lesbarer: JSON-Daten sind besser lesbar; Wir haben eine einfache Datenzuordnung mit Schlüsseln und Werten. Wenn Sie also nach etwas suchen oder die Daten aus PDFs organisieren, ist JSON bequemer. Darüber hinaus unterstützt JSON das Verschachteln von Daten, wodurch Daten aus Tabellen effizienter gespeichert werden können.
Praktisches Schema: JSON ist für die meisten Betriebssysteme und Programmiersprachen universell; Wenn Sie also eine Software oder Webanwendung erstellen, um Ihr Unternehmen zu automatisieren, sollte JSON das richtige Datenformat sein. Außerdem unterstützen die meisten Webbrowser das JSON-Format. Daher müssen wir keinen zusätzlichen Aufwand betreiben, um Software von Drittanbietern zum Lesen von JSON-Daten zu verwenden.
Einfaches Teilen: JSON ist das beste Tool zum Teilen von Daten jeder Größe, sogar von großen Tabellen oder Text usw. Dies liegt daran, dass JSON Daten in den Arrays speichert, sodass die Datenübertragung leichter zugänglich ist. Aus diesem Grund ist JSON ein überlegenes Dateiformat für Web-APIs und Webentwicklung.

Sehen wir uns im nächsten Abschnitt einige der Herausforderungen an, denen wir bei der Konvertierung von PDFs in das JSON-Format begegnen können.

Nanonette hat viele interessante Anwendungsfälle die Ihre Geschäftsleistung optimieren, Kosten sparen und das Wachstum steigern können. Finden Sie heraus Wie können die Anwendungsfälle von Nanonets auf Ihr Produkt angewendet werden?

Herausforderungen beim Konvertieren von PDF zu JSON

Sehen wir uns einige der Herausforderungen beim Exportieren von PDFs in JSON an.

Schriftarten erkennen: Menschen verwenden unterschiedliche Schriftarten, Farben und Ausrichtungen in PDF-Dokumenten. Daher ist es für Parser wirklich schwer, diese zu lesen. Außerdem müssen wir beim Exportieren bestimmte Regeln definieren, damit nach dem Extrahieren der Daten durch den Parser alle Informationen korrekt im JSON-Format abgebildet werden. In solchen Fällen werden häufig reguläre Ausdrücke verwendet, um bestimmten Text auszuwählen und ihn dann in den richtigen Schlüssel im JSON-Format zu exportieren.
Text aus gescannten Dokumenten erkennen: Wie bereits erwähnt, müssen wir, wenn die PDFs nicht elektronisch generiert werden, eine OCR verwenden, und die Auswahl einer OCR ist entscheidend. Obwohl viele Benutzer Open-Source-Tools wie Tesseract ausprobieren, haben sie ihre eigenen Einschränkungen. Wenn beispielsweise der Text beim Erfassen falsch erfasst oder falsch ausgerichtet ist, funktioniert Tesseract möglicherweise nicht und die Auswahl anderer Tools kann teuer werden.

Identifizieren von Tabellen: Die meisten Geschäftsdokumente enthalten tabellarische Informationen, und diese Tabellen aus PDF-Dokumenten zu ermitteln und in JSON zu konvertieren, ist eine anspruchsvolle Aufgabe. Es gibt einige auf Python und Java basierende Bibliotheken, die beim Extrahieren von Tabellen aus elektronisch erstellten PDF-Dokumenten helfen können.
Identifizieren von Tabellen aus gescannten PDFs: Wenn die PDFs gescannt werden, funktionieren die meisten Pakete nicht. Wenn wir in diesem Fall eine Open-Source-OCR wie Tesseract wählen, könnte sie Text extrahieren, aber die gesamte Tabellenformatierung verlieren. Daher ist es schwierig, Gliederungselemente in einem falschen Format auszuwählen. Hier müssen wir auf maschinelles Lernen und auf Deep Learning basierende Algorithmen zurückgreifen. Einige beliebte Algorithmen basieren auf CNNs, und es wurde viel geforscht, um diese Algorithmen zu verbessern.

Im Folgenden sind einige der Forschungsarbeiten aufgeführt, die das Problem der Tabellenextraktion aus Dokumenten lösen:

Im nächsten Abschnitt sehen wir uns an, wie Sie Daten aus PDF analysieren, um JSON-Dateien zu generieren.

Analysieren von Daten aus PDFs und Generieren von JSON-Dateien mit Python und Linux

Das Analysieren von PDFs ist keine komplizierte Aufgabe, wenn Sie über Entwicklererfahrung verfügen.

Zunächst müssen wir prüfen, ob unsere PDF-Dateien Textdaten enthalten oder aus gescannten Bildern bestehen. Wir müssten prüfen, ob wir Textdaten extrahieren oder die Dateien durch eine OCR-Bibliothek leiten können, wenn kein Text zurückgegeben wird.

Dies könnte mit einer Python-Bibliothek oder durch das Verlassen auf einige Linux-Befehlszeilen-Dienstprogramme erreicht werden.

PDF-Text ist eine der beliebtesten Bibliotheken zum Parsen elektronischer PDFs. Wir könnten dies verwenden, um alle PDF-Daten in ein Textformat zu konvertieren und sie dann in ein JSON-Format zu pushen.

Hier sind einige der Anweisungen, wie wir verwenden können pdftotext und durch PDF auf einem Linux-Rechner parsen.

Installieren Sie zunächst Befehlszeilentools:

sudo apt-get install poppler-utils

Als nächstes benutze die pdftotext Befehl und fügen Sie den Quellpfad und den Speicherort der Zieltextdatei der PDF-Datei hinzu.

pdftotext {PDF-file} {text-file}

Damit sollten wir in der Lage sein, den gesamten lesbaren Text aus den PDF-Dateien zu extrahieren.

Um eine JSON-Datei zu generieren, müssen wir erneut an einem Skript arbeiten, das auf unseren Daten basiert und den Text parsen und in relevante Schlüssel-Wert-Paare exportieren kann.

Hier ist ein Beispielskript, das wir in Python geschrieben haben und das eine einfache .txt Datei in das JSON-Format.

import json
  
filename = 'data.txt'
 
dict1 = {}
  
with open(filename) as fh:
  
    for line in fh:
        command, description = line.strip().split(None, 1)
        dict1[command] = description.strip()
  
# creating json file
# the JSON file is named as test1
out_file = open("test1.json", "w")
json.dump(dict1, out_file, indent = 4, sort_keys = False)
out_file.close()

Betrachten Sie die Daten in der Textdatei als:

invoice_id #234
invoice_name Invoice from AWS
invoice_total $345

Hier haben wir zuerst die eingebaute JSON-Bibliothek importiert. Wir erstellen nun einen Dictionary-Datentyp, um alle Schlüssel-Wert-Paare aus den Textdateien zu speichern. Als nächstes durchlaufen wir jede Zeile in der Datei und gliedern sie in Befehl, Beschreibung und behalten sie im erstellten Wörterbuch bei. Zuletzt erstellen wir eine neue JSON-Datei und verwenden die json.dump -Methode zum Ausgeben des Wörterbuchs in die JSON-Datei mit einer bestimmten Konfiguration, die Sortierung und Einrückung umfasst.

Unsere Daten aus PDFs werden jedoch nicht so organisiert sein, wie im Beispiel angegeben; Daher müssen wir möglicherweise benutzerdefinierte Pipelines und Skripts verwenden, um komplizierte Textformatierungen durchzuführen. In solchen Fällen sind Tools wie Nanonetze wird eine gute Wahl sein, und wir werden uns in den folgenden Abschnitten auch ansehen, wie Nanonets dieses Problem viel einfacher löst.

Schauen wir uns zuvor eine weitere Bibliothek an, die PDF mithilfe von node.js in JSON konvertiert:

pdf2json ist eine node.js Modul zum Parsen und Konvertieren von PDF vom Binär- in das JSON-Format; es ist mit gebaut pdf.js und erweitert es um interaktive Formularelemente und das Parsen von Textinhalten außerhalb des Browsers.

Hier ist ein Beispiel für die Verwendung dieses Moduls zum Parsen Ihrer JSON-Dateien:

Stellen Sie zunächst sicher, dass Sie npm installer und installieren Sie das Modul mit dem folgenden Befehl:

npm install pdf2json

Als Nächstes können Sie in Ihrem Knotenserver das folgende Snippet verwenden, das die pdf2json und exportiert PDFs in JSON:

let fs = require('fs'),
        PDFParser = require("pdf2json");
 
    let pdfParser = new PDFParser();
 
    pdfParser.on("pdfParser_dataError", errData => console.error(errData.parserError) );
    pdfParser.on("pdfParser_dataReady", pdfData => {
        fs.writeFile("./pdf2json/test/F1040EZ.json", JSON.stringify(pdfData));
    });
 
    pdfParser.loadPDF("./pdf2json/test/pdf/fd/form/F1040EZ.pdf");

Das obige Code-Snippet verwendet eine JSON-Beispieldatei aus dem Modul und exportiert sie in eine JSON-Datei ./test/target/ Ordner in Ihrem Projekt. B

Nachfolgend finden Sie einen Screenshot, der zeigt, wie das Modul die JSON-Dateien exportiert:

Zum Analysieren von PDFs in Tabellen funktionieren diese Bibliotheken möglicherweise nicht!

Sie müssen OCR- und maschinelle Lernalgorithmen nutzen, um tabellarische Daten in JSON zu extrahieren. Nanonets tut genau das, wie Sie unten sehen können:

Maßgeschneiderte Datenkonvertierung von PDF nach JSON

Manchmal müssen wir beim Extrahieren der Daten aus Geschäftsdokumenten Anpassungen vornehmen. Sagen wir zum Beispiel, wenn wir nur bestimmte Seiten oder Tabellen haben wollen, können wir dies nicht direkt tun. In diesem Fall müssen wir den Parsern möglicherweise zusätzliche Regeln bereitstellen, was wiederum zeitaufwändig ist. Aber sehen wir uns an, wie wir die Anpassung und die Aktionen durchführen können, die die meisten Leute brauchen.

Im Folgenden sind einige der Aktionen aufgeführt, die für die Anpassung bei der PDF-zu-JSON-Konvertierung erforderlich sind:

Extrahieren Sie nur bestimmten Text oder Seiten aus PDFs
Extrahieren Sie alle Tabellen aus PDF-Dokumenten
Extrahieren Sie bestimmte Spalten aus bestimmten Tabellen in PDFs
Filtern Sie Text aus PDFs, bevor Sie sie in JSON exportieren
Erstellen von verschachteltem JSON basierend auf den extrahierten Daten aus PDFs
JSON-Struktur basierend auf Daten formatieren
Erstellen, löschen, aktualisieren Sie Werte bestimmter Felder in JSON nach der Extraktion

Dies sind einige der Aktionen, die häufig erforderlich sind, um unsere Daten auf unterschiedliche Weise zu speichern, oder wenn wir APIs für eine Anwendung erstellen. Mal sehen, wie wir diese erreichen können.

Extrahieren von bestimmten Texten: In PDFs könnten wir den jeweiligen Text mit regulären Ausdrücken extrahieren; Sagen wir zum Beispiel, wenn wir alle E-Mails und Telefonnummern mit Regex haben möchten, können wir sie auswählen. Wenn die PDFs im gescannten Format vorliegen, müssen wir sie entweder mit einem Deep-Learning-Algorithmus trainieren, der die Layouts der PDFs verstehen und Felder basierend auf den Koordinaten und Anmerkungen zu den Trainingsdaten extrahieren kann. Eines der beliebtesten Open-Source-Repositorys zum Verständnis von Dokumentlayouts und zum Extrahieren von Text ist LayoutML, und es trainiert auf BERT-Modellen für die benutzerdefinierte Textextraktion. Wir sollten jedoch über genügend Daten verfügen, um eine höhere Genauigkeit beim Extrahieren von Text zu erreichen.

Tabellenanpassung: Wie bereits erwähnt, können Tabellen mithilfe von Bibliotheken wie Camelot und Tabula-py oder mithilfe von OCR und Deep-Learning-basierten Algorithmen extrahiert werden. Aber für die Anpassung müssen wir Bibliotheken wie Pandas verwenden; Dadurch können wir die Daten aus den Tabellen erstellen, aktualisieren und serialisieren. Es verwendet einen benutzerdefinierten Datentyp namens Datenrahmen, der häufig zum Bearbeiten und Anpassen der Tabellendaten verwendet wird. Zu den weiteren Vorteilen der Verwendung von Pandas gehört das Schreiben von benutzerdefinierten Funktionen, die während des Extraktionsprozesses bestimmte mathematische Operationen ausführen können.

Formatieren von JSON-Daten: Nach dem Exportieren von PDFs in JSON ist das Formatieren eine einfache Aufgabe, da wir einen anpassbareren Datentyp haben, nämlich die Schlüssel-Wert-Paare. Wir könnten entweder einfache Skripte entwickeln oder Online-Tools verwenden, um diese Schlüssel-Wert-Paare zu durchsuchen und zu formatieren. Zu den gebräuchlichsten Parametern für die Formatierung gehören Einrückung, Trennzeichen, Sortierschlüssel, Umlaufprüfungen, Datenprüfungen. Wenn JSON als API verwendet wird, können wir Postman oder beliebige Browsererweiterungen verwenden, um die Daten zu formatieren und mit den APIs zu interagieren.

Möchten Sie Informationen aus PDF-Dokumenten extrahieren und sie in ein JSON-Format konvertieren? Probieren Sie Nanonets aus, um den Export beliebiger Informationen aus beliebigen PDF-Dokumenten in JSON zu automatisieren.

Zeitstempel: 10. August 202211. August 2022

Zeitstempel: 1. August 2023

So konvertieren Sie PDF-Daten in JSON

Neuauflage von Plato

Nanonets Automatisierter PDF-zu-JSON-Konverter

Die Notwendigkeit einer Konvertierung von PDF in JSON

Mit JSON verbundene Geschäftsvorteile

Herausforderungen beim Konvertieren von PDF zu JSON

Analysieren von Daten aus PDFs und Generieren von JSON-Dateien mit Python und Linux

Maßgeschneiderte Datenkonvertierung von PDF nach JSON

Mehr von KI & Maschinelles Lernen

8 beste OCR-Software für die Fertigung im Jahr 2024

Stärken Sie die Kontrolle mit Bank Reconciliation | Nanonetze

Was ist Rechnungsbearbeitung? | Erklärte Schritte zur Rechnungsverarbeitung

Was ist eine Rechnung?

OCR-Lebensläufe mit intelligenter Automatisierung

Ein Leitfaden zur Rechnungsverwaltung in Oracle NetSuite

Telefonnummern-Extraktor: Alles, was Sie wissen müssen

Was ist Dokumenten-Workflow-Automatisierung?

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto