Kuidas lugeda või välja võtta teksti PDF-ist PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Kuidas PDF-i teksti lugeda või välja võtta

Kuidas PDF-i teksti lugeda või välja võtta

Kui teie PDF-failid käsitlevad arveid, kviitungeid, passe või juhilubasid, vaadake Nanonetsit võrgus OCR or PDF-teksti ekstraktor PDF-dokumentidest teksti eraldamiseks tasuta. Selle kohta lisateabe saamiseks klõpsake allpool Nanonetsi PDF-kaabits.


Äriprotsessid nõuavad sageli PDF-dokumentidest teksti tõmbamist. PDF-id on võltsimiskindlad, turvalised ning eelistatuim vorming andmete ja teabe vahetamiseks; kuid kahjuks ei saa neid muuta.

Kui valite teksti käsitsi ekstraktimise või andmed PDF-ist faili aruande koostamiseks või esitluse tegemiseks, võib see võtta palju aega! Teksti lugemine PDF-failidest on sageli vajalik tavaliste dokumendipõhiste töövoogude osana.

Enamik lahendusi, mis suudavad tõhusalt lugeda PDF-failidest teksti (v.a PDF-parserid) kasutavad tänapäeval OCR-i (Optical Character Recognition) võimalusi. OCR-tehnoloogiat saab kasutada tuvastamiseks ja pildilt teksti väljavõtes, PDF-id ja muud mitteredigeeritavad failivormingud. Olenevalt PDF-dokumentide mahust ja keerukusest võite vajada erineva tasemega OCR-i võimalusi; näiteks võiks isegi ekstrakti tabelid PDF-ist dokumendid.

Veebipõhised PDF-i teisendajad või PDF-i ekstraktimise tööriistad saavad väikestest PDF-dokumentidest teksti välja võtta lihtsa vorminguga. Kuid kui teil on suur hulk keerulise vorminguga dokumente, tabeleid, graafikuid ja pilte, vajate täpsemat OCR-tarkvara nagu Nanonetid PDF-failidest asjakohase teksti täpseks eraldamiseks. (Mis on OCR or OCR PDF? - siin on a üksikasjalik selgitaja on mis on OCR-tarkvara)

Vaatame erinevaid viise, kuidas saate nanonettide abil PDF-dokumentidest teksti hõlpsalt, täpselt ja mastaapselt eraldada.

Sisukord

Kuidas PDF-i teksti lugeda või välja võtta

Tahad kraapige andmed PDF-ist dokumendid, teisendada PDF-ist XML-i or automatiseerida tabeli väljavõtmist? Vaadake Nanonetsi PDF-kaabits or PDF-i parser teisendada PDF-id andmebaasi sissekandeid!


Kuidas eraldada PDF-ist teksti Nanonetsi tasuta OCR-iga?

OCR-tööriistad võimaldab teil PDF-dokumentidest teksti hõlpsalt eraldada ja toortekstifailiks teisendada. Siin on sammud.

  1. Külastage Nanonetsi tasuta OCR-tööriista siin - nanonets.com/online-ocr
  2. Laadige üles oma PDF-fail
  3. Nanonetsi OCR tuvastab automaatselt teie faili sisu ja teisendab selle tekstiks
  4. Laadige ekstraktitud tekst alla toortekstifailina

See meetod sobib enamikule teie lihtsatest PDF-i tekstiks kasutamise juhtudest. See lähenemisviis ei pruugi sobida keerukamate dokumentide ja tabelistruktuuride jaoks. Keerulisemate PDF-teksti väljavõtmisnõuete kohta vaadake allolevaid meetodeid.

Kuidas eraldada teksti PDF-ist, kasutades Nanonetsi eelkoolitatud OCR-mudeleid?

Nanonets koolitas Kviitungi OCR-i mudeli töös

Kui teie PDF-failid kuuluvad mõne järgmistest allpool loetletud dokumenditüüpidest, saate kasutada sobivat Nanonetsi eelkoolitatud mudelit, et teksti koheselt puhtalt ja organiseeritult eraldada.

  • Arved
  • tulu
  • Juhiluba (USA)
  • Passid
  • Menüükaardid
  • jätkub
  • Numbrimärgid
  • Arvesti näidud
  • Saatekonteinerid

1. samm – valige oma kasutusjuhtumi jaoks eelkoolitatud mudel

Logi sisse Nanonetsile ja valige mudel, mis vastab dokumenditüübile, millest soovite teksti eraldada. Kui ükski eelkoolitatud OCR-mudel ei kirjelda teie dokumenti, jätke see meetod vahele ja lugege edasi, et teada saada, kuidas luua kohandatud Nanonetsi OCR-mudel.

2. samm – failide lisamine

Lisage PDF-failid/dokumendid, millest soovite teksti eraldada. Saate lisada nii palju PDF-e, kui soovite.

3. samm – testige ja kontrollige

Laske mudelil mõni sekund töötada ja PDF-dokumentidest teksti ekstraktida. Tabelivaates kuvatakse igast PDF-failist ekstraheeritud teksti loend. Kontrollige kiiresti ekstraheeritud teksti, et kontrollida, kas midagi jäi vahele või on valesti ekstraktitud. Jätkamiseks klõpsake nuppu "Kinnita andmed".

4. samm – eksport

Kui kõik on kontrollitud, saate kogu ekstraheeritud teksti eksportida kenasti organiseerituna xml, xlsx või csv-fail.


Vajate tasuta võrgus OCR-i pildilt teksti väljavõte , ekstrakti tabelid PDF-istvõi eraldage andmed PDF-ist? Tutvuge Nanonetsidega ja looge kohandatud OCR-mudeleid tasuta!


Kuidas ekstraheerida PDF-ist teksti, luues kohandatud Nanonetsi OCR-mudeli?

Kohandatud Nanonetsi OCR-mudeli loomine PDF-failidest teksti eraldamiseks on üsna lihtne. Tavaliselt saate luua, koolitada ja juurutada mudeli mis tahes dokumenditüübi jaoks, mis tahes keeles, seda kõike vähem kui 25 minutiga (olenevalt mudeli koolitamiseks kasutatud failide arvust).

Kohandatud Nanonetsi OCR-mudeli loomine

1. samm: looge kohandatud OCR-mudel

Logi sisse Nanonetsile ja klõpsake nuppu "Loo oma OCR-mudel".

2. samm: laadige üles treeningfailid

Laadige üles näidis-PDF-failid. Need on OCR-mudeli koolituskomplektiks, kuidas teksti vastavalt teie vajadustele eraldada. Teie loodud OCR-mudeli täpsus sõltub suuresti üleslaaditud PDF-failide kvaliteedist ja kogusest.

3. samm: tehke PDF-i teksti märkused

Märkige iga tekstiosa vastava välja või sildiga. See õpetab OCR-mudelit tuvastama PDF-is asjakohaseid tekstiosi. Samuti saate teksti märkimiseks lisada uue sildi. Nanonets ei ole seotud dokumendi malliga!

4. samm: treenige kohandatud OCR-mudelit

Kui märkus on lõpetatud, klõpsake nuppu "Rongi mudel". Treening kestab tavaliselt 20 minutit kuni 2 tundi, olenevalt koolituse järjekorras olevate mudelite ja failide arvust. Kiiremate tulemuste saamiseks (alla 20 minuti) saate minna üle tasulisele plaanile. Nanonets kasutab süvaõpet erinevate OCR-mudelite koostamiseks ja testib neid üksteise suhtes täpsuse osas. Seejärel valib Nanonets välja kõige täpsema OCR-mudeli.

Vahekaardil Mudeli mõõdikud kuvatakse erinevad mõõtmised ja võrdlevad analüüsid, mis võimaldasid Nanonetsil valida kõigi ehitatud OCR-mudeli. Suurema täpsuse saavutamiseks saate mudelit ümber õpetada (pakkudes laiemat valikut treeningpilte ja paremaid märkusi).

Või kui olete rahul, klõpsake kohandatud OCR-mudeli testimiseks ja kontrollimiseks värske PDF-faili näidisega nuppu "Testi".

5. toiming: testige ja kontrollige andmeid

Lisage kohandatud OCR-mudeli testimiseks ja kinnitamiseks paar näidispilti. Kui tekst on tuvastatud, ekstraheeritud ja õigesti esitatud, eksportige fail.


Nanonetid võrgus OCR ja OCR API on palju huvitavaid kasutage juhtumeid tmüts võib teie ettevõtte toimivust optimeerida, kulusid kokku hoida ja kasvu kiirendada. Uuri välja kuidas saab Nanonetsi kasutusjuhtumeid teie tootele rakendada.


Kuidas koolitada kohandatud mudeleid PDF-teksti muunduriks Nanonets API abil?

Kui soovite õpetada oma OCR-mudeleid PDF-teksti muunduri loomiseks, vaadake Nanonets API. Aasta dokumentatsioon, leiate Shelli, Ruby, Golangi, Java, C# ja Pythoni käivitamiseks valmis koodinäidised, samuti üksikasjalikud API spetsifikatsioonid erinevate lõpp-punktide jaoks.

Miks valida PDF-failidest teksti eraldamiseks nanonetid?

Nanonetside kasutamise eelised võrreldes muu PDF-teksti muundamistarkvaraga ulatuvad palju kaugemale lihtsalt paremast täpsusest ja mastaabist. Siin on 7 põhjustel Miks peaksite kaaluma Nanonetsi kasutamist PDF-dokumentidest teksti eraldamiseks muude tööriistade ja automatiseeritud tarkvara asemel.


Värskendused Mai 2022: see postitus avaldati algselt aastal Aprill 2021 ja on sellest ajast alates uuendatud.

Siin on slaid võttes kokku selle artikli järeldused. Siin on an asendusversioon sellest postitusest.

Ajatempel:

Veel alates Tehisintellekt ja masinõpe