Kuidas pildist teksti või andmeid ekstraheerida

Taasavaldanud Platon

järgijaid: 0

Pildilt teksti eraldamine võib olla tülikas protsess. Enamik inimesi sisestab pildilt teksti/andmed käsitsi; kuid see on nii aeganõudev kui ka ebaefektiivne, kui teil on palju pilte.

Pildi tekstiks teisendajad pakuvad kena viisi piltidelt teksti eraldamiseks.

Kuigi sellised tööriistad teevad head tööd, esitatakse ekstraktitud tekst/andmed sageli struktureerimata, mis toob kaasa palju järeltöötlust.

An AI-põhine OCR Nagu Nanonets, saavad piltidelt teksti välja tõmmata ja ekstraheeritud andmeid korralikult, organiseeritult ja struktureeritult esitada.

Nanonets ekstraheerib piltidelt andmeid täpselt, suures ulatuses ja mitmes keeles. Nanonets on ainus tekstituvastuse OCR, mis esitab ekstraheeritud teksti korralikult struktureeritud vormingus, mida saab täielikult kohandada. Jäädvustatud andmeid saab esitada tabelite, reaüksustena või mis tahes muus vormingus.

Klõpsake oma pildi üleslaadimiseks allpool
Nanonetsi OCR tuvastab automaatselt teie faili sisu ja teisendab selle tekstiks
Laadige ekstraktitud tekst alla toortekstifailina või integreerige API kaudu

Sisukord

Siin on kolm täiustatud meetodit, mille abil saate kasutada Nanonetsi OCR-i piltide teksti tuvastamiseks ja eraldamiseks, teksti väljavõtte PDF-failists, eraldage andmed PDF-ists või parsi PDF-e ja muud tüüpi dokumendid:

Nanonetside abil pildilt teksti eraldamine

Vajate tasuta võrgus OCR-i pilt tekstiks, PDF tabelisse, PDF tekstiksvõi PDF-andmete ekstraheerimine? Tutvuge Nanonetsiga Internetis OCR API tegevuses ja hakake tasuta kohandatud OCR-mudeleid ehitama!

Nanonetsil on eelnevalt väljaõpetatud OCR-mudeleid allpool loetletud konkreetsete pilditüüpide jaoks. Iga eelkoolitatud OCR-mudel on koolitatud täpselt seostama pilditüübi teksti sobiva väljaga, nagu nimi, aadress, kuupäev, aegumisaeg jne, ning esitama eraldatud teksti puhtal ja organiseeritud viisil.

Arved
tulu
Juhiluba (USA)
Passid

Nanonetid võrgus OCR ja OCR API on palju huvitavaid kasutage juhtumeid.

[Varjatud sisu]

Nanonetid ekstraheerivad teksti kviitungite piltidelt

1. samm: valige sobiv OCR-mudel

Logi sisse Nanonetsile ja valige OCR-mudel, mis sobib pildile, millest soovite teksti ja andmeid eraldada. Kui ükski eelkoolitatud OCR-mudel ei vasta teie vajadustele, võite edasi uurida, kuidas luua kohandatud OCR-mudel.

2. samm: lisage failid

Lisage failid/pildid, millest soovite teksti ekstraktida. Saate lisada nii palju pilte, kui soovite.

Samm 3: test

Laske mudelil mõni sekund käitada ja pildilt teksti ekstraheerida.

4. samm: kinnitage

Kontrollige kiiresti igast failist ekstraheeritud teksti, kontrollides paremal asuvat tabelivaadet. Saate hõlpsasti kontrollida, kas tekst on õigesti tuvastatud ja sobitatud sobiva välja või sildiga.

Selles etapis saate isegi väljade väärtusi ja silte muuta/parandada. Nanonets ei ole pildi malliga seotud.

Redigeerige ekstraktitud teksti või andmeid

Ekstraheeritud andmeid saab kuvada "loendivaate" või "JSON" vormingus.

Kuidas ekstraheerida teksti või andmeid Image PlatoBlockchaini andmeluurest. Vertikaalne otsing. Ai. — Ekstraheeritud tekst kuvatakse loendina või JSON-väljundina

Saate märkida linnukese iga kontrollitava väärtuse või välja kõrval või klõpsata koheseks jätkamiseks nuppu „Kinnita andmed”.

5. samm: eksportimine

Kui kõik failid on kinnitatud. Saate eksportida korralikult korraldatud andmed xml-, xlsx- või csv-failina.

Nanonetsil on huvitav kasutage juhtumeid ja ainulaadne klientide edulood. Siit saate teada, kuidas nanonetid võivad teie ettevõtet tootlikumaks muuta.

Nanonetsidega kohandatud OCR-mudeli loomine on lihtne. Tavaliselt saate luua, koolitada ja juurutada mudeli mis tahes pildi- või dokumenditüübi jaoks, mis tahes keeles, seda kõike vähem kui 25 minutiga (olenevalt mudeli koolitamiseks kasutatud failide arvust).

Selle meetodi nelja esimese sammu järgimiseks vaadake allolevat videot.

[Varjatud sisu]

Kuidas treenida oma OCR-mudelit nanovõrkudega

1. samm: looge oma OCR-mudel

Logi sisse Nanonetsile ja klõpsake nuppu "Loo oma OCR-mudel".

2. samm: laadige üles treeningfailid/pildid

Laadige üles näidisfailid, mida kasutatakse OCR-mudelite koolitamiseks. Teie loodud OCR-mudeli täpsus sõltub suuresti selles etapis üles laaditud failide/piltide kvaliteedist ja kogusest

3. samm: lisage failidele/piltidele tekst

Nüüd märkige iga tekstiosa või andmed sobiva välja või sildiga. See oluline samm õpetab teie OCR-mudelit piltidelt sobivat teksti eraldama ja seostama selle teie vajadustele vastavate kohandatud väljadega.

Samuti saate teksti või andmete märkimiseks lisada uue sildi. Pidage meeles, et Nanonets ei ole pildi malliga seotud!

4. samm: treenige kohandatud OCR-mudelit

Kui kõigi treeningfailide/piltide annotatsioon on lõpetatud, klõpsake nuppu "Rongi mudel". Treening kestab tavaliselt 20 minutit kuni 2 tundi, olenevalt failide arvust ja treeningu järjekorras olevatest mudelitest. Sa saad upgrade tasulisele plaanile, et saada selles etapis kiiremaid tulemusi (tavaliselt alla 20 minuti).

Nanonets kasutab süvaõpet erinevate OCR-mudelite koostamiseks ja testib neid üksteise suhtes täpsuse osas. Seejärel valib Nanonets välja parima OCR-mudeli (teie sisendite ja täpsustasemete põhjal).

Vahekaardil Mudeli mõõdikud kuvatakse erinevad mõõtmised ja võrdlevad analüüsid, mis võimaldasid Nanonetsil valida kõigi ehitatud OCR-mudeli. Suurema täpsuse saavutamiseks saate mudelit ümber õpetada (pakkudes laiemat valikut treeningpilte ja paremaid märkusi).

Või kui olete täpsusega rahul, klõpsake nuppu "Testi", et testida ja kontrollida, kas see kohandatud OCR-mudel toimib ootuspäraselt piltide või failide näidisel, millest tuleb teksti/andmeid ekstraheerida.

5. toiming: testige ja kontrollige andmeid

Lisage kohandatud OCR-mudeli testimiseks ja kinnitamiseks paar näidispilti.

Kontrollige väljatõmmatud teksti täpsust — Katsetage ja kontrollige ekstraheeritud teksti täpsust

Kui tekst on tuvastatud, ekstraheeritud ja õigesti esitatud, eksportige fail. Nagu allpool näete, on eraldatud andmed korrastatud ja esitatud korralikus vormingus.

Eksporditud andmed on korralikult loetletud

Õnnitleme, olete nüüd loonud ja välja õpetanud kohandatud OCR-mudeli, et eraldada teksti teatud tüüpi piltidest!

Kas teie ettevõte tegeleb tekstituvastusega digitaalsetes dokumentides, piltides või PDF-ides? Kas olete mõelnud, kuidas piltidelt teksti täpselt eraldada?

Treenige oma OCR-mudeleid NanoNetsi API-ga

Siin on a üksikasjalik koolitusjuhend oma OCR-mudeleid kasutades Nanonets API. Aasta dokumentatsioon, leiate Pythoni, Shelli, Ruby, Golangi, Java ja C# käivitamiseks valmis koodinäidised, samuti üksikasjalikud API spetsifikatsioonid erinevate lõpp-punktide jaoks.

Siin on samm-sammuline juhend oma mudeli treenimiseks Nanonets API abil.

1. samm: Kloonige Repo

git clone https://github.com/NanoNets/nanonets-ocr-sample-python
cd nanonets-ocr-sample-python
sudo pip install requests
sudo pip install tqdm

2. samm: hankige oma tasuta API võti

Hankige oma tasuta API võti aadressilt https://app.nanonets.com/#/keys

3. samm: määrake API võti keskkonnamuutujaks

export NANONETS_API_KEY=YOUR_API_KEY_GOES_HERE

4. samm: looge uus mudel

python ./code/create-model.py

Märkus. See loob MODEL_ID, mida vajate järgmiseks sammuks

5. samm: lisage keskkonnamuutujana mudeli ID

export NANONETS_MODEL_ID=YOUR_MODEL_ID

6. samm: laadige üles koolitusandmed

Koguge pildid objektist, mida soovite tuvastada. Kui olete andmestiku kaustas valmis saanud images (pildifailid), alustage andmestiku üleslaadimist.

python ./code/upload-training.py

7. samm: treenige mudel

Kui pildid on üles laaditud, alustage mudeli treenimist

python ./code/train-model.py

8. toiming: hankige mudeli olek

Modelli treenimiseks kulub ~30 minutit. Kui modell on koolitatud, saate meili. Vahepeal kontrollite mudeli olekut

watch -n 100 python ./code/model-state.py

9. samm: ennustage

Kui modell on koolitatud. Mudelit kasutades saate teha ennustusi

python ./code/prediction.py PATH_TO_YOUR_IMAGE.jpg

Nanonettide kasutamise eelised võrreldes teiste OCR-i API-dega ulatuvad kaugemale ainult paremast täpsusest, mis puudutab piltidelt teksti eraldamist. Siin on 7 põhjust, miks peaksite selle asemel tekstituvastuseks kasutama Nanonetsi OCR-i:

1. Töötamine kohandatud andmetega

Enamik OCR-tarkvara on üsna jäik andmete tüübi osas, millega nad saavad töötada. OCR-mudeli väljaõpetamine kasutusjuhtumi jaoks nõuab selle nõuete ja spetsifikatsioonide osas suurt paindlikkust; arvete töötlemiseks mõeldud OCR erineb oluliselt passide OCR-ist! Nanonetsid ei seo nii jäigad piirangud. Nanonets kasutab teie enda andmeid, et koolitada välja OCR-mudeleid, mis vastavad teie ettevõtte konkreetsetele vajadustele kõige paremini.

2. Mitte-inglise keele või mitme keelega töötamine

Kuna Nanonets keskendub kohandatud andmetega treenimisele, on sellel ainulaadne võimalus luua ühtne OCR-mudel, mis suudaks piltidelt teksti eraldada mis tahes keeles või mitmes keeles korraga.

3. Ei vaja järeltöötlust

OCR-mudelite abil ekstraheeritud tekst peab olema arukalt struktureeritud ja esitatud arusaadavas vormingus; Vastasel juhul kulub andmete sisuliseks teabeks ümberkorraldamiseks palju aega ja ressursse. Kui enamik OCR-tööriistu lihtsalt haarab ja tühjendab piltidelt andmeid, siis Nanonets eraldab ainult asjakohased andmed ja sorteerib need automaatselt arukalt struktureeritud väljadesse, muutes nende vaatamise ja mõistmise lihtsamaks.

4. Õpib pidevalt

Ettevõtted seisavad sageli silmitsi dünaamiliselt muutuvate nõuete ja vajadustega. Võimalike teetõkete ületamiseks võimaldab Nanonets hõlpsasti oma mudeleid uute andmetega ümber koolitada. See võimaldab teie OCR-mudelil kohaneda ettenägematute muutustega.

5. Käsitleb hõlpsasti levinud andmepiiranguid

Nanonets kasutab AI, ML ja Deep Learning tehnikaid, et ületada levinud andmepiirangud, mis mõjutavad suuresti tekstituvastust ja väljavõtmist. Nanonets OCR suudab tuvastada ja käsitleda käsitsi kirjutatud teksti, korraga mitmes keeles tekstipilte, madala eraldusvõimega pilte, uute või kursiivfondidega ja erineva suurusega pilte, varjulise tekstiga pilte, kallutatud teksti, juhuslikku struktureerimata teksti, pildimüra, häguseid pilte ja veel. Traditsioonilised optilise tekstituvastuse API-liidesed ei ole lihtsalt varustatud selliste piirangute korral; need nõuavad väga kõrge täpsustasemega andmeid, mis ei ole päriselus stsenaariumide puhul norm.

6. Ei vaja ettevõttesisest arendajate meeskonda

Pole vaja muretseda arendajate palkamise ja talentide hankimise pärast, et kohandada Nanonetsi API-t oma ärinõuetele vastavaks. Nanonets loodi probleemivabaks integreerimiseks. Samuti saate hõlpsasti integreerida Nanonetid enamiku CRM-, ERP- või RPA-tarkvaradega.

7. Kohanda, kohandada, kohandada

Nanonetsi OCR-iga saate jäädvustada nii palju teksti-/andmevälju, mis teile meeldivad. Saate isegi luua kohandatud valideerimisreegleid, mis vastavad teie konkreetsetele tekstituvastuse ja teksti ekstraheerimise nõuetele. Nanonets ei ole teie dokumendi malliga üldse seotud. Saate andmeid jäädvustada tabelites või reaüksustes või mis tahes muus vormingus!

Nanonetsil on palju kasutusjuhtumeid, mis võivad teie ettevõtte toimivust optimeerida, kulusid kokku hoida ja kasvu kiirendada. Uuri välja kuidas saab Nanonetsi kasutusjuhtumeid teie tootele rakendada.

Või vaadake välja Nanonetid OCR API tegevuses ja asuge kohandama OCR mudelid tasuta!

Värskendused Juuli 2022: see postitus avaldati algselt aastal oktoober 2020 ja on sellest ajast alates uuendatud regulaarselt.

Siin on slaid võttes kokku selle artikli järeldused. Siin on an asendusversioon sellest postitusest.

Ajatempel: Juuli 17, 2022Juuli 18, 2022

Ajatempel: Aprill 10, 2023