Sådan OCR en PDF

Genudgivet af Platon

Abonnenter: 0

Sådan OCR en PDF PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

OCR (Optical Character Recognition) er en game changer for alle, der arbejder med PDF-dokumenter. PDF-filer er berygtet for at være svære at redigere og søge igennem. Når du OCR en PDF, sikrer det, at teksten scannes og udpakkes, hvilket gør den fuldt søgbar, redigerbar og tilgængelig.

I denne vejledning vil vi sammenligne forskellige metoder til OCR-ing af PDF'er for at hjælpe dig med at vælge den bedste, der passer til dine krav. Vi vil diskutere Adobe Acrobat, open source-værktøjer og AI-drevne løsninger. Derudover vil vi besvare almindelige spørgsmål, såsom hvordan man OCR en PDF på en Mac, gør en PDF OCR søgbar og deler tips til at forbedre OCR-nøjagtigheden.

Følg med for at transformere dine PDF-arbejdsgange.

1. Brug af Adobe Acrobat Pro

Adobe Acrobat Pro betragtes som guldstandarden for OCR-ing af PDF'er. Som brancheleder inden for PDF-software pakker Adobe Acrobat Pro med avancerede OCR-funktioner, der nemt håndterer komplekse dokumenter.

Du kan OCR et dokument ved hjælp af Acrobat Pro på to måder:

Metode 1

Åbn PDF-filen i Adobe Acrobat Pro.
Klik på "Alle værktøjer" i værktøjslinjen.
En menu vises med alle tilgængelige værktøjer. Klik på "Rediger PDF".
Acrobat anvender automatisk OCR og konverterer teksten.
Dokumentet er nu fuldt redigerbart og søgbart. Skift skrifttype eller tilføj anmærkninger efter behov. Du kan også søge i dokumentet ved hjælp af Find-værktøjet.

Metode 2

Åbn Adobe Acrobat Pro.
Klik på "Alle værktøjer" i værktøjslinjen.
En menu vises med alle tilgængelige værktøjer. Klik på "Scan og OCR".
I værktøjet Scan og OCR skal du vælge den PDF-fil, du vil OCR, eller scanne et fysisk dokument direkte ved hjælp af en tilsluttet scanner.
Klik på "Forbedr", hvis billedet skal ryddes op. Dette vil forbedre OCR-nøjagtigheden.
Klik på "Genkend tekst" for at starte OCR-processen. Når den er færdig, vil PDF'en blive søgbar og redigerbar. Du kan nu redigere tekst.

Den væsentlige fordel ved at bruge Acrobat Pro er dens avancerede OCR-motor, som kan håndtere komplekse layouts, dokumenter med flere kolonner, scanninger i lav opløsning og håndskrevet tekst med høj nøjagtighed. Den er tilgængelig på Windows-, Mac- og Android-enheder, og du kan også få adgang til disse funktioner online. Desuden er den forbundet til din Adobe Mobile Scan-app, så du kan scanne dokumenter på farten og synkronisere dem til dit Acrobat-bibliotek.

Du skal dog være Acrobat Pro-abonnent for at få adgang til OCR-funktionerne. Abonnementet er prissat til 19.99 USD/md. Derudover, mens det giver dig mulighed for at uploade flere filer, bliver du nødt til at OCR hver fil én efter én manuelt. Så hvis du har mange filer, der skal behandles, kan det blive kedeligt.

Open source OCR-værktøjer som Tesseract tilbyder et gratis alternativ til at konvertere PDF-filer til søgbare, redigerbare filer. Selvom de måske ikke er lige så omfattende som kommercielle løsninger som Adobe Acrobat, giver de et anstændigt niveau af nøjagtighed til de fleste brugssager.

Tesseract er tilgængelig til Windows, Mac og Linux. Du skal først installere det på din computer for at bruge det. Når det er installeret, kan du følge disse trin for at OCR en PDF:

Åbn PDF-filen i et fremviser- eller redigeringsværktøj som PDFelement.
Vælg det område eller den side, du vil OCR, og tag et skærmbillede. Beskær billedet om nødvendigt.
Åbn Terminal for at få adgang til Tesseract. Hvis Tesseract ikke findes i Terminal, skal du redigere stien til miljøvariablen for at dirigere til Tesseract installationsmappen.
Kopier stien til den billedfil, du vil OCR. For eksempel: "C:UsersJohnDoePicturesScreenshotsScreenshot 230844.png"
Indtast følgende kommando i Terminal: "C:UsersJohnDoePicturesScreenshots>tesseract Screenshot 230844.png". Dette vil køre OCR på billedet og konvertere al tekst, det finder, til et redigerbart format.
Når OCR er færdig, vil Tesseract generere en fil, der indeholder al den udpakkede tekst.
Åbn denne fil i en hvilken som helst teksteditor for at se og redigere det OCR-redigerede indhold. Du kan også indtaste kommandoen `–help` for at få den komplette liste over Tesseract-indstillinger, hvis det er nødvendigt.

Den kritiske fordel ved Tesseract er, at det er helt gratis og åben kildekode, så du behøver ikke at betale nogen licensgebyrer. Det fungerer godt på rene scanninger og maskinskrevne dokumenter.

Det kæmper dog med håndskrevet tekst, komplekse layouts, farvede baggrunde og scanninger i lav opløsning. Hvis dine dokumenter er rene og maskinskrevne, tilbyder Tesseract en gratis løsning til grundlæggende OCR-behov.

Du kan forbedre Tesseracts nøjagtighed ved at forbehandle scanninger, før du kører OCR - justering af lysstyrke eller kontrast, anvendelse af filtre, opskalering af billeder og meget mere.

3. Brug af Nanonets' PDF OCR

Nanonets er en AI-drevet dokumentbehandlingsløsning, der tilbyder avancerede OCR-funktioner. I modsætning til Acrobat Pro eller Tesseract er Nanonets helt online og kræver ingen installation. Du uploader blot dine PDF'er til deres cloud-platform, og den begynder straks at behandle dem ved hjælp af avancerede OCR-algoritmer. Det kan endda behandle hele mapper og hundredvis af PDF-filer på én gang.

Nanonets kan håndtere alt fra simple maskinskrevne dokumenter til komplekse layouts med håndskrevne annoteringer, farvede baggrunde, grafer og tabeller, ved hjælp af deep learning-modeller for at opnå høj nøjagtighed på alle dokumenttyper.

Her er hvordan det virker:

Besøg Nanonets.com og opret en gratis konto.
Vælg en OCR-model fra Nanonets' brede udvalg af fortrænede modeller til fakturaer, kvitteringer eller indkøbsordrer. Du kan også bygge en brugerdefineret model, der er skræddersyet til dine specifikke dokumenttyper.
Upload dokumenter, der repræsenterer de forskellige layouts og datafelter, du skal udtrække. Nanonets analyserer disse prøver for at forstå strukturen af dine dokumenter.
Definer de nøglefelter, du vil fange, såsom dato, samlet beløb og tabeldata. Du kan fange data i næsten ethvert format, inklusive tabeller, tekst, JSON eller XML. Nanonets vil automatisk udtrække dataene fra dine PDF'er og udlæse dem i det krævede format.
Når de er konfigureret, uploader du dine PDF-dokumenter, der skal OCR-redigeres. Nanonets vil behandle filerne ved hjælp af avanceret OCR og intelligente dataekstraktionsalgoritmer for at konvertere dem til søgbare, redigerbare formater med struktureret dataoutput.
De udtrukne data er pænt organiseret og struktureret, så du kan indtage dem direkte i andre forretningssystemer uden manuel indsats. Du kan eksportere det som JSON, XML eller brugerdefinerede formater.

Nanonets tilbyder en gratis version med op til 500 behandlingssider, så du kan teste den uden omkostninger. Herefter koster det $ 0.3 pr. Side til OCR.

I modsætning til andre løsninger er Nanonets meget skalerbar. Den kan behandle tusindvis af sider i timen, hvilket sikrer, at uanset volumen, bliver dine filer behandlet næsten øjeblikkeligt.

Du kan konfigurere webhooks til at streame behandlede data til andre apps eller bruge Nanonets' udvikler-API'er til at bygge tilpassede integrationer.

Sådan forbedres PDF OCR-processen

OCR-teknologi kan, når den implementeres effektivt, spare dig tid og ressourcer. Forestil dig at kunne reducere dataindtastningstid pr. felt med 95 %. Dit team kunne fokusere på mere meningsfulde opgaver end almindelig dataindtastning.

Lad os udforske tips til at forbedre nøjagtigheden og effektiviteten af din PDF OCR-proces:

1. Forbehandle scanninger før OCR

Hvis du har at gøre med scannede dokumenter, kan du justere lysstyrken, kontrasten og skarpheden og anvende filtre eller billedforbedringsteknikker for at reducere støj og forbedre klarheden.

Dette vil øge OCR-nøjagtigheden markant. Adobes Scanner-app kommer med indbyggede billedforbedringsfunktioner. Du kan også bruge værktøjer som PaperScan og NAPS2 til at rydde op i scanninger. Efter disse redigeringer kan du gemme de redigerede billeder som PDF'er, før du kører OCR.

2. Opsæt valideringsarbejdsgange og godkendelseshierarkier

Forbedre datakvaliteten ved at opsætte valideringsregler for udtrukne data. For eksempel, hvis ordrenummeret i et dokument ikke har fem cifre, bliver det automatisk afvist eller markeret til manuel gennemgang. På denne måde kan du fange udtræksfejl og kun godkende gyldige data. Du kan også integrere dit OCR-system med databaser for at validere udtrukne data.

Du kan opsætte godkendelseshierarkier, hvor juniormedarbejdere gennemgår data først, efterfulgt af seniormedarbejdere til endelig afmelding. Med automatiserede meddelelser og live statusopdateringer kan du bevare gennemsigtigheden og undgå godkendelsesjagt, hvilket fører til hurtigere dokumentbehandling.

3. Byg automatiserede arbejdsgange

Forestil dig at køre en biludlejning og være i stand til automatisk at eksportere kunders kørekortdata til Salesforce eller sende fakturadata til QuickBooks uden manuelt arbejde. Ikke kun vil det optimere din PDF OCR, men også downstream-aktiviteter.

At integrere din OCR-løsning med business apps via API'er gør denne automatisering mulig. For eksempel med Nanonets opsætter du blot triggere baseret på hændelser som færdiggørelse af dokumentbehandling, dataudtræk eller en ny filupload. Integrationen vil automatisk eksportere strukturerede data fra Nanonets til ønskede forretningssystemer – inklusive QuickBooks, Xero, Microsoft Dynamics, Zendesk og mange andre – og fjerne manuelle anstrengelser og sikre problemfri datastrøm mellem systemerne.

4. Invester i avanceret OCR med AI/ML-funktioner

I modsætning til regelbaseret OCR er AI-modeller adaptive - lærer løbende af menneskelige rettelser og forbedres over tid. For eksempel tilbyder Nanonets en proprietær AI-model, der er trænet på millioner af dokumenter, så den kan håndtere komplekse og udfordrende layouts effektivt.

AI-drevet OCR sikrer, at du kan udtrække information fra dokumenter uden at miste kontekst. Det kan håndtere forskellige sprog, monetære, juridiske eller måleenheder. Dette intelligensniveau er ikke muligt med skabelonbaseret eller regeldrevet udtræk, der er afhængig af nøjagtige feltplaceringer.

5. Træn AI-OCR-modellerne

Mens AI-drevne OCR-løsninger kommer med præ-trænede modeller, kan træning af dem yderligere på dine specifikke dokumenttyper og layout øge nøjagtigheden endnu mere. For eksempel giver Nanonets dig mulighed for at uploade et eksempelsæt af dokumenter, der repræsenterer de forskellige skabeloner, formater og felter, du vil fange.

Disse eksempler hjælper modellen med at forstå strukturen af dine dokumenter og finjustere PDF OCR-processen. Du kan også give feedback ved at rette ekstraktionsfejl, der er identificeret under valideringen. Denne human-in-the-loop-træning forbedrer konstant AI-modellens ydeevne.

6. Byg tilpassede OCR-modeller efter behov

Nogle gange dækker forudtrænede modeller muligvis ikke alle kompleksiteten i dine dokumenter. For eksempel kan du have branchespecifikke dokumenter med unikke felter og formater. I sådanne tilfælde kan du arbejde med din OCR-leverandør for at bygge brugerdefinerede AI-modeller, der er trænet specifikt på dine dokumenter.

Med Nanonets kan brugere oprette brugerdefinerede modeller, der er specifikke for deres dokumenttyper og felter, der skal udtrækkes. De kan uploade eksempeldokumenter og annotere dem med de etiketter, de vil udtrække. AI'en lærer derefter af disse eksempler og trænes i at genkende og udtrække den specificerede information. Systemet kræver mindst ti eksempler for hver etiket for at opnå optimal nøjagtighed, og brugerne kan overvåge antallet af eksempler for hver etiket og tilføje flere efter behov.

Sådan kommer du i gang med Nanonets PDF OCR

Nanonets gør det nemt at komme i gang med PDF OCR. Du skal blot tilmelde dig en gratis konto på Nanonets hjemmeside. Du behøver ikke oplyse et kreditkort.

Her er en guide til at hjælpe dig i gang:

Tilmeld dig en gratis konto: Besøg Nanonets.com og tilmeld dig en gratis konto – intet kreditkort påkrævet.
Opret eller vælg en model: Du kan bygge en brugerdefineret OCR-model til dine specifikke dokumenttyper eller vælge fra Nanonets' præ-trænede modeller til fakturaer, kvitteringer og mere.
Konfigurer automatisk import: Videresend e-mails eller tilslut cloud storage for at importere nye PDF'er til Nanonets for automatisk kontinuerlig OCR-behandling.
Upload eksempeldokumenter: Upload mindst 10 eksempeldokumenter, der repræsenterer forskellige skabeloner, formater og datafelter, du vil udtrække. Dette vil hjælpe med at træne AI-modellen.
Definer felter, der skal udtrækkes: Angiv blot navne på de kritiske datafelter, du vil udtrække fra dine dokumenter, såsom Dato, Beløb, Tabeldata osv.
Opsæt valideringer: Konfigurer regler for at validere udtrukne data og markere eventuelle fejl til rettelse for at sikre nøjagtighed.
Behandle dine filer: Upload dine PDF-dokumenter. Nanonets vil øjeblikkeligt behandle dem med OCR og intelligent dataudtræk.
Gennemgå og godkend data: Tjek udtrukne data og godkend gyldige indtastninger. Oprethold gennemsigtighed med statusopdateringer.
Eksporter data til forretningssystemer: Når du er godkendt, eksporterer du problemfrit strukturerede data til dine ERP-, regnskabs-, CRM- eller andre systemer.
Automatiser arbejdsgange: Konfigurer triggere til at streame data til apps, når et dokument behandles eller data udtrækkes. Fjern manuelle anstrengelser.

Samlet set gør Nanonets det hurtigt og nemt at tilføje intelligente OCR-funktioner til dine dokumentarbejdsgange. Den selvlærende AI-motor leverer høj nøjagtighed fra begyndelsen, mens den tillader tilpasning til at håndtere komplekse dokumenter. Sømløse integrationer med forretningssystemer muliggør ægte end-to-end-automatisering.

Indpakning op

Intelligent OCR og dataudtræk kan hjælpe med at låse op for en enorm værdi fra dokumentarbejdsgange. Nøglen er at vælge en løsning som Nanonets, der tilbyder AI-drevet OCR fra starten og tillader tilpasning til specifikke behov.

Med selvbetjeningsmuligheder til at bygge brugerdefinerede modeller forbedres nøjagtigheden og automatiseringen løbende, selvom dine dokumenter udvikler sig. I sidste ende sikrer dette, at du kan håndtere ustrukturerede data i stor skala for at drive produktivitet og vækst.