Jeg ville ikke overdrevet hvis jeg sa at en gjennomsnittlig person sender/mottar minst 10 fakturaer per uke. Med den økende digitaliseringen håndterer bedrifter enorme mengder fakturaer hver dag. Tradisjonelt har fakturabehandling vært en manuell og tidkrevende prosess, som krever betydelige ressurser og er utsatt for feil.
Med bruken av AI og Natural Language Processing kan fakturabehandling nå automatiseres og strømlinjeformes, noe som fører til forbedret effektivitet og nøyaktighet. GPT står for "Generative Pre-trained Transformer" og refererer til en familie av kraftige språkbehandlingsmodeller utviklet av OpenAI. GPT-modellene er forhåndstrent på store mengder tekstdata og kan deretter finjusteres for spesifikke oppgaver, inkludert fakturabehandling.
La oss ta tilfellet med fakturabehandling for bestillinger fra en bokhandel, en eksempelfaktura vises på bildet nedenfor. Denne fakturaen inneholder informasjon om frakt, fakturering, varer og priser. Tenk deg manuelt å måtte samle inn data fra tusenvis av fakturaer! Heldigvis har vi AI-verktøy som fremskynder prosessen.
I denne bloggen vil jeg lede deg gjennom trinnene for å behandle fakturaen din med GPT-4 og Nanonets. Ta en kopp kaffe og gjør deg klar!
Trinn 1: Opprett en Nanonets-konto og last opp bildet
Det første trinnet er å trekke ut tekstdataene fra bildet av fakturaen vår. OCR-teknikker (Optical Character Recognition) bruker algoritmer for mønstergjenkjenning for å identifisere og konvertere tegn til tekst på bilder eller skannede dokumenter. Den skybaserte plattformen for kunstig intelligens (AI) Nanonets tilbyr kurerte OCR-verktøy for spesifikke oppgaver, inkludert Invoice OCR. Du kan ganske enkelt registrere deg her. og få tilgang til deres Invoice OCR-verktøy gratis.
Når du logger på og klikker på Faktura OCR, kan du finne alternativet "Last opp filer". Nanonets er veldig brukervennlig og lar deg laste opp filer fra over 6 apper.
Jeg lastet opp eksempelfakturaen fra Agatha Book Store her. Ekstraheringen vil bli fullført i løpet av noen få minutter, og du vil få de utrangerte resultatene som vist. Her brukes en forhåndstrent dyplæringsmodell for å trekke ut enhetene og deres verdier.
Alle tekstfeltene identifisert av nanonetter er avgrenset av separate bokser. Verdiene som er hentet ut for disse feltene kan sees i fanen 'ENDELIG RESULTATER' til høyre. Denne enhetsutvinningen utført av Nanonets, kan forbedres ved å bruke GPT-4. Nanonets gir også alternativer for å legge til eller endre feltnavnene, noe som forbedrer tilpasningen og brukeropplevelsen for kundene.
Ønsker du å automatisere dine manuelle AP-prosesser? Bestill en 30-minutters live-demo for å se hvordan Nanonets kan hjelpe teamet ditt med å implementere ende-til-ende AP-automatisering.
Trinn 2: Last ned OCR-tekstdata
De utpakkede OCR-tekstdataene kan lastes ned i flere former. Sjekk GIF-en nedenfor for å se demonstrasjonen av nedlasting av fakturadata til en Excel- eller CSV-fil. I CSV-filen lagres alle enhets-/datafeltnavnene som kolonner, og verdiene deres er i tilsvarende rader.
Vi kopierer og limer inn dataene fra den nedlastede CSV-en og henter den OCR-genererte teksten. Her er teksten jeg lastet ned fra eksempelfakturaen vår i Nanonets.
Den OCR-genererte teksten kan forbedres ved hjelp av Chat GPT3 med de neste trinnene.
Entitetsutvinningen kan oppskaleres for å støtte forskjellige spørringer hvis vi bruker GPT4-modeller på toppen av den Nanonets-behandlede teksten. Du kan registrere deg for en Open AI-konto fra her. og få tilgang til de store språkmodellene. Når du har konfigurert kontoen din, vil du motta en unik API-nøkkel. Det er for sikkerhetstiltak, for å autentisere og autorisere forespørslene til OpenAI sine servere. Importer OpenAI-pakken og angi API-nøkkelverdien.
Å utforme en forespørsel på en klar, strukturert måte er hemmeligheten bak å frigjøre kraften til store språkmodeller. For å trekke ut datafelt eller -enheter og deres verdier, kan vi bruke ledeteksten nedenfor.
#definer forespørselen din
prompt_text= Dette er den OCR-genererte teksten til fakturaer for bokhandelsbestillinger" +ocr_generated_text" + "Trekk ut enheter og deres verdier som et nøkkelverdi-par fra den oppgitte OCR-teksten og utdata i formatet nøkkel: verdi"
Når du har fått en melding, kan du sende den til en hvilken som helst forhåndstrent modell av OpenAI og få svar gjennom " openai.Completion.create()”-funksjonen. Det er noen få parametere du kan velge for å oppnå best resultat.
Parametre for GPT:
- motor: Denne parameteren lar deg velge en spesifikk forhåndstrent storspråkmodell (LLM) du vil bruke for å generere teksten. Den kan settes til en forhåndstrent modell eller en tilpasset finjustert modell. Tekst Davinci er et kraftig og effektivt valg.
- Spør: Det er den første tekstmeldingen som skal gis til modellen for å begynne å generere teksten. I vårt tilfelle, "prompt_text"-variabelen vi definerte tidligere.
- Maks_tokens: Angir maksimalt antall tokens som modellen kan generere for en gitt ledetekst. Du kan kontrollere lengden på den genererte teksten gjennom dette.
- Temperatur: Bruk den til å kontrollere graden av tilfeldighet eller kreativitet i den genererte teksten. En lavtemperaturverdi gir en mer konservativ og forutsigbar effekt, mens en høytemperaturverdi fører til mer kreativ og variert produksjon. Temperaturverdien varierer fra 0 til 1, hvor 1 er det mest kreative.
Nå som du er kjent med GPT-parametere, la oss skrive koden for å generere utdata ved å sende ledeteksten sammen med andre parametere.
Vi fikk utgangen som:
Entitetene og deres verdier har blitt raskt hentet ut med bare noen få trinn!
Trinn 4: Forbedre datakorreksjoner
Blant de tusenvis av fakturaer som sirkuleres i enhver virksomhet, er inkonsekvenser og mindre feil i kundedata uunngåelige. For eksempel kan noen kunder ha oppgitt et ugyldig e-postformat eller kontaktnummer, eller datoen kan være i forskjellige formater. Med Nanonets og GPT-4 kan du enkelt identifisere disse problemene og utføre datakorrigeringer. Vi kan implementere regelbaserte valideringer, for å verifisere riktigheten og formatet og også sjekke for inkonsekvenser.
Jeg ber GPT om å utføre validering av dato og e-post for oss.
prompt_text= "I de ekstraherte enhetsdataene, valider om formatet på dato (DD/MM/ÅÅÅÅ) og e-post er riktige?"
LLM gir en Python-kode ved å bruke regulære uttrykk for å se etter formatet, som vist i bildet nedenfor. I et regulært uttrykk søker vi etter et bestemt mønster og matcher det. De utpakkede enhetene lagres i en ordbok, og funksjoner er definert separat for å validere e-posten og datoene for fakturaen.
Etter å ha definert, kan man sende en hvilken som helst dato som ('Fakturadato'), selger eller kjøpers e-post-ID til disse funksjonene for å få resultatet.
GPT hjelper deg også med å gjøre rettelser og endringer i dataene på en rask og praktisk måte. Merk at i vår faktura er datoen '02/05/2023'. Jeg gir beskjeden nedenfor om å konvertere datoen til formatet "MM/DD/ÅÅ".
prompt=” endre formatet på dataene i utpakkede enheter til 'MM/DD/YY'. Behold bare de to siste sifrene i året"
I utgangen er dataene korrigert etter ønske. Vi kan gi lignende meldinger for å sjekke om kontaktnummeret har 10 sifre, om adressen er i ønsket format og også sjekke for manglende dataverdier.
Sett opp berøringsfrie AP-arbeidsflyter og effektivisere leverandørgjeld-prosessen på sekunder. Bestill en 30-minutters live demo nå.
Trinn 5: Se etter dataproblemer
Eventuell inkoherens i dataene kan enkelt identifiseres med GPT-4. I vårt eksempel kan du sjekke om det totale forfalte beløpet som ikke samsvarer med summen av individuelle varepriser. La oss gi en melding om det.
prompt=" Sjekk om den totale saldoen på fakturaen stemmer overens med mengden og vareprisene på fakturaen"
GPT-4 gir ut en funksjon i Python som beregner summeringen av prisene for alle bestillinger, ved å multiplisere antallet og individuelle varepris. I tilfelle den totale saldoen er inkonsistent med beløpet som er skrevet på fakturaen, flagges og undersøkes den aktuelle fakturaen. Dette kan hjelpe bedrifter med å unngå feil, avvik og validere sine økonomiske data.
Hvis du har et stort datasett med fakturaer, kan du også sjekke konsistens på tvers av flere fakturaer. Du kan for eksempel sammenligne selger- og kjøperinformasjon på tvers av flere fakturaer for å identifisere eventuelle avvik eller uregelmessigheter.
Trinn 6: Spørre med GPT
Når du har trukket ut enhetene, kan GPT også brukes til å få svar på spesifikke spørsmål fra hele informasjonen. Hva om du for eksempel vil vite informasjonen om fraktdetaljene til et bestemt fakturanr.
La oss lage en melding om det:
#definer forespørselen din
prompt_text= "Trekk ut detaljene om frakt fra enhetsnøkkel-verdi-parene"
Fullføringen som ble generert for denne ledeteksten var:
>> Klart det! Basert på OCR-dataene som er oppgitt, kan vi trekke ut fraktinformasjonen og faktureringsinformasjonen i to grupper som følger:
Fraktinformasjon:
"fakturanummer": "3522"
ship_to_name: Gayathri Natarajan
ship_to_address: 600053 No.22B , Chetpet , Chennai , Tamil Nadu , India: Tanaya Pakahale
En lignende spørring kan også utføres for å få selgerdetaljer. Her er hentet informasjon om selgere fra de oppgitte dataene:
- selgernavn: AGATHA BOKHUS
- selgeradresse: No.13 , 2nd avenue , Indiranagar, Bangalore , Karnataka , India , 721302
- selgertelefon: 6783456723
Når vi jobber med flere dokumenter, kan vi også søke og filtrere fakturaene med en total saldo på mer enn Rs.5000 for å analysere massebestillingene. Siden GPT har muligheten til å beholde tidligere meldinger i minnet, gir det den beste brukervennligheten.
Ønsker du å automatisere dine manuelle AP-prosesser? Bestill en 30-minutters live-demo for å se hvordan Nanonets kan hjelpe teamet ditt med å implementere ende-til-ende AP-automatisering.
Hvorfor velge Nanonets + Chat GPT for fakturabehandling?
- GPT kan analysere teksten på fakturaer og nøyaktig identifisere og trekke ut relevante enheter, selv når de er skrevet i forskjellige formater eller har variasjoner i stavemåte eller ordlyd. Dette kan bidra til å redusere feil og øke nøyaktigheten
- Automat og skalere opp datapipeline for bedrifter
- Den mest effektive metoden for å behandle store mengder fakturaer. Reduserer tiden som trengs for dataregistrering og -behandling betydelig.
- Verktøyene gir fleksibilitet og tilpasningsevne. Disse verktøyene kan være enkelt integrert inn i eksisterende systemer og kan tilpasses for å passe spesifikke forretningsbehov
- En av fordelene med Nanonets sin faktura OCR-løsning er dens evne til lære av sine feil. Systemet bruker maskinlæring for å forbedre nøyaktigheten over tid, noe som gjør den mer presis for hver ny faktura som behandles. Plattformen lar også brukere gjennomgå og rette eventuelle feil manuelt, for å sikre at de utpakkede dataene er nøyaktige og pålitelige.
Selv om det er mange fordeler, må vi også forstå begrensningene ved denne metoden. Nøyaktigheten er dårlig i situasjoner der bilde/PDF-kvaliteten er lav. Al-baserte verktøy er også gjenstand for skjevheter eller feil som er iboende i treningsdataene.
Samlet sett kan utnyttelse av GPT for enhetsutvinning i fakturabehandling hjelpe bedrifter med å effektivisere driften, redusere manuelt arbeid og forbedre nøyaktigheten, noe som fører til bedre økonomistyring og beslutningstaking.
Sett opp berøringsfrie AP-arbeidsflyter og effektivisere leverandørgjeld-prosessen på sekunder. Bestill en 30-minutters live demo nå.
- SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
- EVM Finans. Unified Interface for desentralisert økonomi. Tilgang her.
- Quantum Media Group. IR/PR forsterket. Tilgang her.
- PlatoAiStream. Web3 Data Intelligence. Kunnskap forsterket. Tilgang her.
- kilde: https://nanonets.com/blog/improving-invoice-processing-accuracy-nanonets-chat-gpt-4/
- : har
- :er
- :ikke
- :hvor
- $OPP
- 1
- 10
- 13
- 5000
- 7
- 72
- a
- evne
- Om oss
- adgang
- Logg inn
- kontoer
- leverandørgjeld
- nøyaktighet
- nøyaktig
- nøyaktig
- tvers
- legge til
- adresse
- fordeler
- advent
- AI
- algoritmer
- Alle
- tillater
- langs
- også
- beløp
- beløp
- an
- analysere
- og
- svar
- noen
- api
- apps
- ER
- kunstig
- kunstig intelligens
- Kunstig intelligens (AI)
- AS
- At
- godkjenne
- autorisere
- automatisere
- Automatisert
- Avenue
- gjennomsnittlig
- unngå
- Balansere
- basert
- BE
- vært
- være
- under
- BEST
- Bedre
- skjevheter
- fakturering
- Blogg
- bok
- bokser
- virksomhet
- bedrifter
- KJØPER..
- by
- CAN
- saken
- endring
- Endringer
- karakter
- karaktergjenkjenning
- tegn
- ChatGPT
- sjekk
- Chennai
- valg
- Velg
- fjerne
- klikk
- kode
- Kaffe
- samle
- kolonner
- COM
- sammenligne
- Terminado
- ferdigstillelse
- konservativ
- konsistent
- kontakt
- kontroll
- Praktisk
- konvertere
- korrigere
- Korrigert
- Korreksjoner
- Tilsvarende
- kunne
- skape
- Kreativ
- kreativitet
- kopp
- kuratert
- skikk
- kunde
- kunde Data
- Kunder
- tilpasning
- tilpasset
- dato
- dataregistrering
- Dato
- datoer
- dag
- håndtering
- Beslutningstaking
- dyp
- dyp læring
- definert
- definere
- Grad
- demo
- ønsket
- detaljer
- utviklet
- forskjellig
- digitalisering
- sifre
- dokumenter
- gjør
- gjort
- nedlasting
- to
- hver enkelt
- Tidligere
- lette
- brukervennlighet
- lett
- effektivitet
- effektiv
- emalje
- ende til ende
- forbedret
- Forbedrer
- sikrer
- Hele
- enheter
- enhet
- entry
- feil
- Selv
- Hver
- hver dag
- eksempel
- Excel
- eksisterende
- erfaring
- uttrykk
- uttrykkene
- trekke ut
- kjent
- familie
- FAST
- Noen få
- felt
- Felt
- filet
- Filer
- filtrere
- finansiell
- Økonomiske data
- Finn
- Først
- passer
- flaggede
- fleksibilitet
- følger
- Til
- format
- skjemaer
- Gratis
- fra
- funksjon
- funksjoner
- Gear
- generere
- generert
- genererer
- generative
- få
- gif
- Gi
- gitt
- grip
- Gruppens
- Økende
- Ha
- å ha
- hjelpe
- hjelper
- her.
- Hvordan
- HTTPS
- i
- JEG VIL
- ID
- identifisert
- identifisere
- if
- bilde
- bilder
- forestille
- iverksette
- importere
- forbedre
- forbedret
- bedre
- in
- Inkludert
- Øke
- india
- individuelt
- informasjon
- iboende
- innledende
- Intelligens
- inn
- faktura ocr
- fakturabehandling
- saker
- IT
- varer
- DET ER
- bare
- Hold
- nøkkel
- Vet
- Språk
- stor
- Siste
- ledende
- Fører
- LÆRE
- læring
- minst
- Lengde
- Lar
- utnytte
- begrensninger
- leve
- LLM
- logg
- Lot
- Lav
- maskin
- maskinlæring
- laget
- gjøre
- Making
- ledelse
- håndbok
- manuelt arbeid
- manuelt
- massive
- Match
- maksimal
- Kan..
- målinger
- Minne
- metode
- kunne
- mindre
- minutter
- mangler
- feil
- modell
- modeller
- modifisere
- mer
- mest
- flere
- multiplisere
- navn
- Naturlig
- Natural Language Processing
- Trenger
- nødvendig
- behov
- Ny
- neste
- Nei.
- nå
- Antall
- tall
- få
- å skaffe seg
- OCR
- OCR-løsning
- ocr verktøy
- of
- Tilbud
- on
- gang
- ONE
- bare
- åpen
- OpenAI
- Drift
- Optisk karaktergjenkjennelse
- Alternativ
- alternativer
- or
- rekkefølge
- ordrer
- Annen
- vår
- produksjon
- enn
- pakke
- par
- parameter
- parametere
- Spesielt
- passere
- Passerer
- Past
- Mønster
- Utfør
- utført
- person
- rørledning
- plattform
- plato
- Platon Data Intelligence
- PlatonData
- dårlig
- makt
- kraftig
- presis
- Forutsigbar
- pris
- Prisene
- prosess
- Bearbeidet
- Prosesser
- prosessering
- produserer
- gi
- forutsatt
- gir
- Python
- kvalitet
- kvantitet
- spørsmål
- raskt
- tilfeldig
- motta
- anerkjennelse
- redusere
- reduserer
- refererer
- regelmessig
- relevant
- pålitelig
- forespørsler
- Ressurser
- svar
- resultere
- Resultater
- beholde
- anmeldelse
- ikke sant
- s
- Sa
- Skala
- Søk
- sekunder
- Secret
- sikkerhet
- Sikkerhetstiltak
- se
- sett
- selgere
- separat
- Servere
- sett
- Levering
- Shop
- vist
- undertegne
- signifikant
- betydelig
- lignende
- ganske enkelt
- siden
- situasjoner
- løsning
- noen
- spesifikk
- fart
- står
- Begynn
- Trinn
- Steps
- oppbevare
- lagret
- effektivisere
- strømlinjeformet
- strukturert
- emne
- slik
- støtte
- system
- Systemer
- Ta
- oppgaver
- lag
- teknikker
- enn
- Det
- De
- informasjonen
- deres
- deretter
- Der.
- Disse
- de
- denne
- tusener
- Gjennom
- tid
- tidkrevende
- til
- tokens
- også
- verktøy
- verktøy
- topp
- Totalt
- berøringsfri
- tradisjonelt
- Kurs
- transformator
- to
- forstå
- unik
- opplåsing
- lastet opp
- us
- bruke
- brukt
- Bruker
- Brukererfaring
- brukervennlig
- Brukere
- bruker
- ved hjelp av
- VALIDERE
- validering
- verdi
- Verdier
- verifisere
- veldig
- volumer
- ønsker
- var
- Vei..
- we
- uke
- Hva
- når
- hvilken
- mens
- vil
- med
- ordlyden
- Arbeid
- arbeidsflyt
- arbeid
- ville
- skrive
- skrevet
- Du
- Din
- zephyrnet