Invoice Parse - Fakturadataudtræk til PDF'er og scannede dokumenter

Genudgivet af Platon

Abonnenter: 0

Hvis du nogensinde har skullet behandle en faktura manuelt, ved du, hvor tidskrævende og trættende processen kan være. For ikke at nævne, det er tilbøjeligt til at fejle, da det er nemt at gå glip af noget, når du laver alt i hånden.

Det er her, fakturaparsere kommer ind i billedet. Disse værktøjer automatiserer processen med at udtrække data fra fakturaer, hvilket gør det hurtigt og nemt at få de oplysninger, du har brug for. Dette kan spare dig for en masse tid og besvær og være med til at sikre, at dine fakturaer behandles præcist.

Denne artikel udforsker processen med udtræk af fakturadata ved hjælp af fakturaparsere med en diskussion af nogle af de bedste metoder til at gøre det, herunder tabeludtræk, avanceret OCR og dyb læring.

Vi vil også undersøge fordelene ved automatisk udtræk af fakturadata frem for manuel behandling. Lad os dykke lige ind.

Hvad er en fakturaparser?

En fakturaparser er en type software, der er designet til at læse og fortolke fakturadokumenter. Dette kan omfatte PDF'er, billeder og andre typer filer.

Formålet med en fakturaparser er at udtrække nøgleoplysninger fra en faktura, såsom faktura-id, det samlede forfaldne beløb, fakturadatoen, kundenavnet og så videre. Fakturaparsere kan hjælpe med at sikre nøjagtighed ved at undgå fejl, der kan opstå fra manuel dataudtræk.

Disse oplysninger kan så bruges til forskellige formål, som f.eks AP -automatisering, månedsafslutnings regnskabsafslutningsprocesog fakturahåndtering.

Fakturaparsere kan være selvstændige programmer eller integreres i større forretningssoftwaresystemer. Disse værktøjer gør det nemmere for teams at generere rapporter eller eksportere dataene til andre applikationer, såsom Excel og bruges ofte sammen med andre applikationer til virksomhedsstyring.

Der findes mange forskellige softwareløsninger til fakturaparsing på markedet, så det er vigtigt at vælge en, der opfylder dine specifikke behov.

Hvordan fungerer en fakturaparser?

For at forstå, hvordan fakturaparsere fungerer, er det vigtigt at have et praktisk kendskab til parsere.

Parsere bruges til at fortolke og behandle dokumenter skrevet i et specifikt markup-sprog. De opdeler dokumentet i mindre stykker, kaldet tokens, og analyserer derefter hvert token for at bestemme dets betydning, og hvordan det passer ind i dokumentets overordnede struktur.

For at gøre dette skal parsere have en stærk forståelse af grammatikken i det anvendte opmærkningssprog. Dette giver dem mulighed for at identificere individuelle tokens og korrekt forstå forholdet mellem dem. Afhængigt af parseren kan denne proces enten være manuel eller automatisk. Manuelle parsere kræver, at nogen går gennem dokumentet og identificerer hvert token, mens automatiske parsere bruger algoritmer til at registrere og behandle tokens automatisk. Uanset hvad, spiller parsere en væsentlig rolle i at give mening i dokumenter skrevet på markup-sprog.

Ved dataudtræk kan fakturaparsing analysere et fakturadokument og udtrække relevant information.

Overvej for eksempel det tilfælde, hvor du har fået mange fakturaer og ønsker at gemme data fra dem i et struktureret format. Fakturaparsing giver dig mulighed for at indlæse alle filerne og køre optisk tegngenkendelse (OCR), så dataene kan læses og alle nøgleværdiparrene udtrækkes inden for få minutter. Dernæst kan du bruge nogle efterbehandlingsalgoritmer til at gemme dem i mere læsbare formater som JSON eller CSV. Du kan også opbygge processer og arbejdsgange ved at bruge fakturaparsing til at automatisere udtræk af fakturaer fra din virksomheds optegnelser.

Fakturaparsing med Python

Python er et programmeringssprog til forskellige dataudtræksopgaver, herunder fakturaparsing. Dette afsnit vil lære dig, hvordan du bruger Python-biblioteker til at udtrække data fra fakturaer.

Det er vanskeligt at bygge en generisk avanceret fakturaparser, der kan køre på alle datatyper, da den omfatter forskellige opgaver såsom læsning af tekst, håndtering af sprog, skrifttyper, dokumentjustering og udtrækning af nøgleværdi-par. Men med hjælp fra open source-projekter og en vis opfindsomhed kunne vi i det mindste løse et par af disse problemer og komme i gang.

For eksempel vil vi bruge et værktøj kaldet tabula på en eksempelfaktura - et pythonbibliotek til at udtrække tabeller til fakturaparsing. For at køre nedenstående kodestykke skal du sørge for, at både Python og tabula/tabulate er installeret på den lokale maskine.

prøve-faktura.pdf.

from tabula import read_pdf
from tabulate import tabulate
# PDF file to extract tables from
file = "sample-invoice.pdf"

# extract all the tables in the PDF file
#reads table from pdf file
df = read_pdf(file ,pages="all") #address of pdf file
print(tabulate(df[0]))
print(tabulate(df[1]))

Produktion

-  ------------  ----------------
0  Order Number  12345
1  Invoice Date  January 25, 2016
2  Due Date      January 31, 2016
3  Total Due     $93.50
-  ------------  ----------------

-  -  -------------------------------  ------  -----  ------
0  1  Web Design                       $85.00  0.00%  $85.00
      This is a sample description...
-  -  -------------------------------  ------  -----  ------

Vi kunne udtrække tabellerne fra en PDF-fil med et par linjer kode. Dette skyldes, at PDF-filen var godt formateret, justeret og oprettet elektronisk (ikke fanget af kamera). I modsætning hertil, hvis dokumentet var blevet fanget af et kamera i stedet for at blive produceret elektronisk, ville det have været meget sværere for disse algoritmer at udtrække dataene - det er her, optisk tegngenkendelse kommer i spil.

Lad os bruge Tesseract, en populær OCR-motor til python, til at parse gennem en faktura.

import cv2
import pytesseract
from pytesseract import Output

img = cv2.imread('sample-invoice.jpg')

d = pytesseract.image_to_data(img, output_type=Output.DICT)
print(d.keys())

Dette skulle give dig følgende output -

dict_keys(['level', 'page_num', 'block_num', 'par_num', 'line_num', 'word_num', 'left', 'top', 'width', 'height', 'conf', 'text'])

Ved at bruge denne ordbog kan vi få registreret hvert ord, deres afgrænsningsrammeoplysninger, teksten i dem og deres tillidsscore.

Du kan plotte boksene ved at bruge koden nedenfor –

n_boxes = len(d['text'])
for i in range(n_boxes):
    if float(d['conf'][i]) > 60:
        (x, y, w, h) = (d['left'][i], d['top'][i], d['width'][i], d['height'][i])
        img = cv2.rectangle(img, (x, y), (x + w, y + h), (0, 255, 0), 2)

cv2.imshow('img', img)
cv2.waitKey(0)

Du vil se følgende output:

Sådan kan vi bruge og genkende regionerne på en faktura. Der skal dog bygges tilpassede algoritmer til ekstraktion af nøgleværdipar. Vi lærer mere om dette i de følgende afsnit.

Problemerne med ældre fakturaparsere (regelbaseret registrering)

I dag er mange organisationer stadig afhængige af ældre systemer til udtræk af fakturadata.

Disse "regelbaserede" systemer analyserer hver linjepost på fakturaer og sammenligner dem derefter med et sæt regler for at afgøre, om oplysningerne skal tilføjes til deres database.

Denne metode har været brugt i lang tid, men har flere ulemper. Lad os se på nogle almindelige problemer, som ældre fakturaparsere står over for.

Sidehældning under scanning: Et problem med regelbaserede fakturaparsere er, at de kan have problemer med "sidetilt". Dette sker, når felterne i en faktura ikke er placeret i en lige linje, hvilket gør det vanskeligt for parseren nøjagtigt at identificere og udtrække dataene. Dette kan ofte være forårsaget af printere, der ikke udskriver jævnt, eller af manuel input af data, der muligvis ikke er justeret korrekt.
Formatændring: Et af de mest almindelige problemer, en virksomhed står over for, er fakturaer, der ikke er formateret i et standardformat. Dette kan give problemer, når du forsøger at udtrække data fra en faktura. For eksempel kan der bruges forskellige skrifttyper, og fakturalayoutet kan ændre sig fra en måned til en anden. Det er svært at analysere dataene og bestemme, hvad hver kolonne repræsenterer. For eksempel kan nogle nye felter tilføjes til fakturaen, eller nogle eksisterende felter kan placeres i forskellige positioner. Eller der kan være tale om en helt ny struktur, hvorved en almindelig regelbaseret parser ikke vil være i stand til at genkende fakturaer korrekt.
Bordudtræk: Regelbaserede tabeludtrækker er ofte den mest ligetil og nemme måde at udtrække data fra en tabel. De har dog deres begrænsninger, når de har at gøre med tabeller, der ikke indeholder nogen overskrifter eller inkluderer null-værdier i specifikke kolonner, fordi disse scenarier vil forårsage en uendelig løkke under behandlingen, hvilket resulterer i enten at spilde tid på at indlæse uendeligt lange rækker i hukommelsen (eller ikke udsende noget overhovedet), hvis der var afhængige udtryk, der også involverede disse attributter. Derudover, når tabeller strækker sig over flere sider, behandler regelbaserede parsere dem som forskellige tabeller i stedet for én og vildleder således udtrækningsprocessen.

Byg en AI-baseret fakturaparser med Nanonets

Fakturaparsere med optisk tegngenkendelse (OCR) og deep learning kan udtrække data fra fakturaer, der er blevet scannet eller konverteret til PDF'er. Disse data kan derefter udfylde regnskabssoftware, spore udgifter og generere rapporter.

Deep learning-algoritmer kan lære at identificere specifikke elementer i en faktura, såsom kundens navn, adresse og produktinformation. Dette giver mulighed for mere nøjagtig dataudtræk og kan reducere den tid, der er nødvendig for manuelt at indtaste data i et system. Opbygning af sådanne algoritmer kræver dog meget tid og ekspertise, men bare rolig; Nanonetter har din ryg!

Nanonets er en OCR-software, der bruger kunstig intelligens til at automatisere udtrækning af tabeller fra PDF-dokumenter, billeder og scannede filer. I modsætning til andre løsninger kræver det ikke separate regler og skabeloner for hver ny dokumenttype. I stedet er den afhængig af kognitiv intelligens til at håndtere semi-strukturerede og usete dokumenter, mens den forbedres over tid. Du kan også tilpasse output til kun at udtrække tabeller eller dataindtastninger af din interesse.

Den er hurtig, præcis, nem at bruge, giver brugerne mulighed for at bygge brugerdefinerede OCR-modeller fra bunden og har nogle pæne Zapier-integrationer. Digitaliser dokumenter, udtræk tabeller eller datafelter, og integrer med dine hverdagsapps via API'er i en enkel, intuitiv grænseflade.

[Indlejret indhold]

Hvorfor er Nanonets den bedste PDF-parser?

Nanonetter kan udtrække data på siden, mens kommandolinje-PDF-parsere kun udtrækker objekter, overskrifter og metadata såsom (titel, #sider, krypteringsstatus osv.)
Nanonets PDF-parsingteknologi er ikke skabelonbaseret. Udover at tilbyde forudtrænede modeller til populære brugssager, kan Nanonets PDF-parsingalgoritme også håndtere usete dokumenttyper!
Udover at håndtere indbyggede PDF-dokumenter, gør Nanonets indbyggede OCR-funktioner det også muligt at håndtere scannede dokumenter og billeder!
Robuste automatiseringsfunktioner med AI- og ML-funktioner.
Nanonetter håndterer let ustrukturerede data, almindelige databegrænsninger, PDF-dokumenter på flere sider, tabeller og flere linjer.
Nanonets er et kodefrit værktøj, der kontinuerligt kan lære og genoptræne sig på tilpassede data for at levere output, der ikke kræver efterbehandling.

Automatiseret fakturaparsing med Nanonets – skaber fuldstændig berøringsfri fakturabehandlingsarbejdsgange

Integrer dine eksisterende værktøjer med Nanonets og automatiser dataindsamling, eksportlagring og bogføring.

Nanonets kan også hjælpe med at automatisere arbejdsgange til fakturaparsing ved at:

Import og konsolidering af fakturadata fra flere kilder – e-mail, scannede dokumenter, digitale filer/billeder, cloud storage, ERP, API osv.
Indsamling og udtrækning af fakturadata intelligent fra fakturaer, kvitteringer, regninger og andre finansielle dokumenter.
Kategorisering og kodning af transaktioner baseret på forretningsregler.
Opsætning af automatiserede godkendelsesarbejdsgange for at få interne godkendelser og administrere undtagelser.
Afstemning af alle transaktioner.
Problemfri integration med ERP'er eller regnskabssoftware som Quickbooks, Sage, Xero, Netsuite og mere.

Tidsstempel: August 19, 2022August 19, 2022

Tidsstempel: April 12, 2024

Invoice Parse – Fakturadataudtræk til PDF'er og scannede dokumenter

Genudgivet af Platon

Hvad er en fakturaparser?

Hvordan fungerer en fakturaparser?

Fakturaparsing med Python

Problemerne med ældre fakturaparsere (regelbaseret registrering)

Byg en AI-baseret fakturaparser med Nanonets

Hvorfor er Nanonets den bedste PDF-parser?

Automatiseret fakturaparsing med Nanonets – skaber fuldstændig berøringsfri fakturabehandlingsarbejdsgange

Mere fra AI og maskinindlæring

Sådan importeres CSV-filer til PostgreSQL?

Hvordan fjerner man irrelevante sider fra fakturaer?

Introduktion til Google Vision OCR

Top 10 japanske OCR-værktøjer

Fremtiden for RPA i revision

Automatisering i intern revision

Hvorfor du har brug for kontoafstemningstjenester: Vigtigste fordele

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto