Als uw afbeeldingen betrekking hebben op facturen, bonnen, paspoorten of rijbewijzen, kijk dan eens naar Nanonets vooraf getrainde afbeelding naar tekstextractors gratis.
Selecteer gewoon de juiste extractor, upload de afbeeldingen, extraheer en exporteer de tekst. Extraheer nu tekst uit afbeeldingen:
Het extraheren van tekst uit een afbeelding kan een omslachtig proces zijn. De meeste mensen typen gewoon de tekst/gegevens van de afbeelding opnieuw; maar dit is zowel tijdrovend als inefficiรซnt als u veel afbeeldingen moet verwerken.
Beeld-naar-tekstconversieprogramma's, vaak ingebouwd als een subfunctie in beeld-/documentverwerkingsprogramma's, bieden een handige manier om tekst uit afbeeldingen te extraheren.
Tools zoals Snagit & OneNote maken gebruik van basis OCR-mogelijkheden om tekst uit afbeeldingen te extraheren. En online converters zoals Workbench of img2text halen ook tekst uit afbeeldingen met OCR. (Wat is OCR? - hier is een gedetailleerde uitleg over OCR)
Hoewel dergelijke tools goed werken, worden de geรซxtraheerde tekst/gegevens vaak op een ongestructureerde manier gepresenteerd, wat resulteert in veel nabewerking. Een AI-gestuurde OCR zoals Nanonets kan tekst uit afbeeldingen halen en de geรซxtraheerde gegevens op een nette, georganiseerde en gestructureerde manier presenteren.
Nanonets haalt gegevens nauwkeurig, op schaal en in meerdere talen uit afbeeldingen. Nanonets is de enige tekstherkenning OCR die geรซxtraheerde tekst presenteert in netjes gestructureerde formaten die volledig aanpasbaar zijn. Vastgelegde gegevens kunnen worden gepresenteerd als tabellen, regelitems of een ander formaat.
Hier zijn drie manieren waarop u Nanonets OCR kunt gebruiken om tekst uit afbeeldingen te detecteren en te extraheren, extraheer tekst uit PDFs, extraheer gegevens uit PDFs of ontleden pdf's en andere documenttypen:
Inhoudsopgave
- Extraheer tekst uit de afbeelding met behulp van vooraf getrainde OCR-modellen van Nanonets
- Extraheer tekst uit de afbeelding door een aangepast Nanonets OCR-model te bouwen
- Train uw eigen OCR-modellen met NanoNets API
- Waarom Nanonets de beste OCR is voor tekstextractie uit afbeeldingen
Een gratis online OCR nodig voor afbeelding naar tekst, PDF naar tafel, PDF naar tekstof PDF-gegevensextractie? Bekijk Nanonetten online OCR-API in actie en begin gratis met het bouwen van aangepaste OCR-modellen!
Extraheer tekst uit de afbeelding met behulp van vooraf getrainde OCR-modellen van Nanonets
Nanonets heeft voorgetrainde OCR-modellen voor de onderstaande specifieke afbeeldingstypen. Elk vooraf getraind OCR-model is getraind om tekst in het afbeeldingstype nauwkeurig te relateren aan een geschikt veld zoals naam, adres, datum, vervaldatum enz. en de geรซxtraheerde tekst op een nette en georganiseerde manier te presenteren.
- Facturen
- Ontvangsten
- Rijbewijs (VS)
- Paspoorten
Nanonetten online OCR & OCR API hebben veel interessante use cases.
Stap 1: Selecteer een geschikt OCR-model
Inloggen naar Nanonetten en selecteer een OCR-model dat past bij de afbeelding waaruit u tekst en gegevens wilt extraheren. Als geen van de vooraf getrainde OCR-modellen aan uw vereisten voldoet, kunt u verder gaan om erachter te komen hoe u een aangepast OCR-model kunt maken.
Stap 2: bestanden toevoegen
Voeg de bestanden/afbeeldingen toe waaruit u tekst wilt extraheren. U kunt zoveel afbeeldingen toevoegen als u wilt.
Stap 3: Test
Geef het model enkele seconden de tijd om uit te voeren en tekst uit de afbeelding te extraheren.
Stap 4: Verifieer
Controleer snel de tekst die uit elk bestand is geรซxtraheerd door de tabelweergave aan de rechterkant te bekijken. U kunt eenvoudig controleren of de tekst correct is herkend en gekoppeld aan een geschikt veld of label.
U kunt er in dit stadium zelfs voor kiezen om de veldwaarden en labels te bewerken/corrigeren. Nanonets is niet gebonden aan de sjabloon van de afbeelding.
De geรซxtraheerde gegevens kunnen worden weergegeven in een "List View" of "JSON" -formaat.
U kunt het selectievakje naast elke waarde of elk veld dat u verifieert, aanvinken of op "Gegevens verifiรซren" klikken om direct verder te gaan.
Stap 5: Export
Zodra alle bestanden zijn geverifieerd. U kunt de netjes georganiseerde gegevens exporteren als een xml-, xlsx- of csv-bestand.
Nanonets heeft interessante use cases en uniek succesverhalen van klanten. Ontdek hoe Nanonets uw bedrijf productiever kan maken.
Extraheer tekst uit de afbeelding door een aangepast Nanonets OCR-model te bouwen
Het bouwen van een aangepast OCR-model met Nanonets is eenvoudig. U kunt doorgaans in minder dan 25 minuten een model bouwen, trainen en implementeren voor elk type afbeelding of document, in elke taal (afhankelijk van het aantal bestanden dat is gebruikt om het model te trainen).
Bekijk onderstaande video om de eerste 4 stappen in deze methode te volgen:
Stap 1: Maak uw eigen OCR-model
Inloggen naar Nanonets en klik op "Maak uw eigen OCR-model".
Stap 2: Upload trainingsbestanden / afbeeldingen
Upload voorbeeldbestanden die zullen worden gebruikt om de OCR-modellen te trainen. De nauwkeurigheid van het OCR-model dat u maakt, hangt grotendeels af van de kwaliteit en kwantiteit van de bestanden / afbeeldingen die in dit stadium worden geรผpload
Stap 3: annoteer tekst op de bestanden / afbeeldingen
Annoteer nu elk stuk tekst of gegevens met een geschikt veld of label. Deze cruciale stap leert uw OCR-model om de juiste tekst uit afbeeldingen te extraheren en deze te koppelen aan aangepaste velden die relevant zijn voor uw behoeften.
U kunt ook een nieuw label toevoegen om de tekst of gegevens te annoteren. Onthoud dat Nanonets niet gebonden is aan het sjabloon van de afbeelding!
Stap 4: Train het aangepaste OCR-model
Zodra de annotatie voor alle trainingsbestanden / afbeeldingen is voltooid, klikt u op "Train Model". De training duurt gewoonlijk tussen de 20 en 2 uur, afhankelijk van het aantal bestanden en modellen in de wachtrij voor training. Jij kan upgrade naar een betaald plan om in dit stadium snellere resultaten te krijgen (meestal minder dan 20 minuten).
Nanonets maakt gebruik van deep learning om verschillende OCR-modellen te bouwen en ze tegen elkaar te testen op nauwkeurigheid. Nanonets kiest vervolgens het beste OCR-model (op basis van uw invoer en nauwkeurigheidsniveaus).
Het tabblad "Model Metrics" toont de verschillende metingen en vergelijkende analyses waarmee Nanonets het beste OCR-model kon kiezen uit alle modellen. U kunt het model opnieuw trainen (door een breder scala aan trainingsafbeeldingen en betere annotaties te bieden) om een โโhogere nauwkeurigheid te bereiken.
Of, als u tevreden bent met de nauwkeurigheid, klikt u op "Test" om te testen en te verifiรซren of dit aangepaste OCR-model presteert zoals verwacht op een steekproef van afbeeldingen of bestanden waaruit tekst / gegevens moeten worden geรซxtraheerd.
Stap 5: Test en verifieer gegevens
Voeg een aantal voorbeeldafbeeldingen toe om het aangepaste OCR-model te testen en te verifiรซren.
Als de tekst is herkend, geรซxtraheerd en op de juiste manier is gepresenteerd, exporteert u het bestand. Zoals u hieronder kunt zien, zijn de geรซxtraheerde gegevens georganiseerd en gepresenteerd in een nette indeling.
Gefeliciteerd, je hebt nu een aangepast OCR-model gebouwd en getraind om tekst uit bepaalde soorten afbeeldingen te extraheren!
Heeft uw bedrijf te maken met tekstherkenning in digitale documenten, afbeeldingen of pdf's? Heeft u zich afgevraagd hoe u nauwkeurig tekst uit afbeeldingen kunt extraheren?
Train uw eigen OCR-modellen met NanoNets API
Hier is een gedetailleerde gids om te trainen uw eigen OCR-modellen met behulp van de Nanonets-API. In de documentatie, vindt u kant-en-klare codevoorbeelden in Python, Shell, Ruby, Golang, Java en C#, evenals gedetailleerde API-specificaties voor verschillende eindpunten.
Hier is een stapsgewijze handleiding voor het trainen van uw eigen model met behulp van de Nanonets API:
Stap 1: Kloon de opslagplaats
git clone https://github.com/NanoNets/nanonets-ocr-sample-python
cd nanonets-ocr-sample-python
sudo pip install requests
sudo pip install tqdm
Stap 2: Ontvang uw gratis API-sleutel
Haal uw gratis API-sleutel op https://app.nanonets.com/#/keys
Stap 3: Stel de API-sleutel in als omgevingsvariabele
export NANONETS_API_KEY=YOUR_API_KEY_GOES_HERE
Stap 4: maak een nieuw model
python ./code/create-model.py
Opmerking: dit genereert een MODEL_ID die u nodig heeft voor de volgende stap
Stap 5: Model-ID toevoegen als omgevingsvariabele
export NANONETS_MODEL_ID=YOUR_MODEL_ID
Stap 6: Upload de trainingsgegevens
Verzamel de afbeeldingen van het object dat u wilt detecteren. Zodra u de dataset klaar heeft in de map images
(afbeeldingsbestanden), start met het uploaden van de dataset.
python ./code/upload-training.py
Stap 7: Train Model
Zodra de afbeeldingen zijn geรผpload, begint u met het trainen van het model
python ./code/train-model.py
Stap 8: Verkrijg de modelstatus
Het model heeft ongeveer 30 minuten nodig om te trainen. U ontvangt een e-mail zodra het model is getraind. Ondertussen check je de staat van het model
watch -n 100 python ./code/model-state.py
Stap 9: Maak een voorspelling
Zodra het model is opgeleid. Met het model kun je voorspellingen doen
python ./code/prediction.py PATH_TO_YOUR_IMAGE.jpg
Waarom Nanonets de beste OCR is voor tekstextractie uit afbeeldingen
De voordelen van het gebruik van Nanonetten ten opzichte van andere OCR-API's gaan verder dan alleen een betere nauwkeurigheid met betrekking tot het extraheren van tekst uit afbeeldingen. Hier zijn 7 redenen waarom u zou moeten overwegen om Nanonets OCR te gebruiken voor tekstherkenning:
1. Werken met aangepaste gegevens
De meeste OCR-software zijn vrij rigide wat betreft het type gegevens waarmee ze kunnen werken. Het trainen van een OCR-model voor een use case vereist een grote mate van flexibiliteit met betrekking tot de vereisten en specificaties; een OCR voor factuurverwerking zal enorm verschillen van een OCR voor paspoorten! Nanonetten is niet gebonden aan zulke rigide beperkingen. Nanonets gebruikt uw eigen gegevens om OCR-modellen te trainen die het beste aansluiten bij de specifieke behoeften van uw bedrijf.
2. Werken met niet-Engels of meerdere talen
Omdat Nanonets zich richt op training met aangepaste gegevens, is het uniek geplaatst om รฉรฉn enkel OCR-model te bouwen dat tekst uit afbeeldingen in elke taal of meerdere talen tegelijk kan extraheren.
3. Vereist geen nabewerking
Tekst geรซxtraheerd met behulp van OCR-modellen moet intelligent worden gestructureerd en in een begrijpelijk formaat worden gepresenteerd; anders gaan er veel tijd en middelen in het reorganiseren van de gegevens in zinvolle informatie. Terwijl de meeste OCR-tools eenvoudig gegevens uit afbeeldingen halen en dumpen, extraheert Nanonets alleen de relevante gegevens en sorteert deze automatisch in intelligent gestructureerde velden, waardoor ze gemakkelijker te bekijken en te begrijpen zijn.
4. Leert continu
Bedrijven worden vaak geconfronteerd met dynamisch veranderende eisen en behoeften. Om mogelijke obstakels te overwinnen, kunt u met Nanonets uw modellen eenvoudig opnieuw trainen met nieuwe gegevens. Hierdoor kan uw OCR-model zich aanpassen aan onvoorziene veranderingen.
5. Kan gemakkelijk omgaan met veelvoorkomende gegevensbeperkingen
Nanonets maakt gebruik van AI-, ML- en Deep Learning-technieken om algemene databeperkingen te overwinnen die een grote invloed hebben op tekstherkenning en -extractie. Nanonets OCR kan handgeschreven tekst herkennen en verwerken, afbeeldingen van tekst in meerdere talen tegelijk, afbeeldingen met een lage resolutie, afbeeldingen met nieuwe of cursieve lettertypen en verschillende groottes, afbeeldingen met schimmige tekst, gekantelde tekst, willekeurige ongestructureerde tekst, beeldruis, wazige afbeeldingen en meer. Traditionele OCR-API's zijn gewoon niet uitgerust om onder dergelijke beperkingen te presteren; ze vereisen gegevens met een zeer hoog betrouwbaarheidsniveau, wat niet de norm is in scenario's uit het echte leven.
6. Vereist geen intern team van ontwikkelaars
U hoeft zich geen zorgen te maken over het inhuren van ontwikkelaars en het werven van talent om Nanonets API te personaliseren voor uw zakelijke vereisten. Nanonets is gebouwd voor probleemloze integratie. U kunt Nanonets ook eenvoudig integreren met de meeste CRM-, ERP- of RPA-software.
7. Aanpassen, aanpassen, aanpassen
U kunt zoveel velden met tekst/gegevens vastleggen als u wilt met Nanonets OCR. U kunt zelfs aangepaste validatieregels maken die geschikt zijn voor uw specifieke vereisten voor tekstherkenning en tekstextractie. Nanonets is helemaal niet gebonden aan de template van uw document. U kunt gegevens vastleggen in tabellen of regelitems of in een ander formaat!
Nanonets heeft veel gebruiksscenario's die uw bedrijfsprestaties kunnen optimaliseren, kosten kunnen besparen en groei kunnen stimuleren. Ontdek hoe de use cases van Nanonets van toepassing kunnen zijn op uw product.
Of bekijk het Nanonetten OCR-API in actie en begin met het bouwen van maatwerk OCR modellen gratis!
bijwerken Juni 2022: dit bericht is oorspronkelijk gepubliceerd in oktober 2020 en is sindsdien bijgewerkt regelmatig.
Hier is een dia samenvatting van de bevindingen in dit artikel. Hier is een alternatieve versie van dit bericht.
- &
- 100
- 7
- 9
- a
- Over
- Bereiken
- verwerven
- Actie
- adres
- invloed hebben op
- tegen
- vooruit
- AI
- Alles
- toestaat
- onder
- api
- APIs
- Solliciteer
- passend
- op gepaste wijze
- dit artikel
- Associรซren
- webmaster.
- achtergrond
- onder
- betekent
- BEST
- Betere
- tussen
- Verder
- pin
- boost
- grens
- bouw
- Gebouw
- bedrijfsdeskundigen
- mogelijkheden
- vangen
- geval
- gevallen
- CD
- zeker
- controleren
- Kies
- code
- Gemeen
- Overwegen
- Kosten
- kon
- Koppel
- en je merk te creรซren
- CRM
- cruciaal
- gewoonte
- aanpasbare
- aan te passen
- gegevens
- transactie
- deep
- Afhankelijk
- implementeren
- gedetailleerd
- ontwikkelaars
- verschillen
- anders
- digitaal
- documenten
- storten
- elk
- gemakkelijk
- Milieu
- uitgerust
- etc
- verwacht
- extracten
- Gezicht
- sneller
- trouw
- Velden
- Brand
- Voornaam*
- Flexibiliteit
- richt
- volgen
- formaat
- Gratis
- oppompen van
- goed
- grijpen
- sterk
- gids
- handvat
- hier
- Hoge
- hoger
- Verhuring
- Hoe
- How To
- HTTPS
- beeld
- afbeeldingen
- informatie
- installeren
- integreren
- integratie
- IT
- Java
- Jobomschrijving:
- sleutel
- label
- labels
- taal
- Talen
- Groot
- leren
- Niveau
- niveaus
- Hefboomwerking
- hefbomen
- Vergunning
- licenties
- Lijn
- Lijst
- opgesomd
- maken
- maken
- manier
- zinvolle
- ML
- model
- modellen
- Maand
- meer
- meest
- meervoudig
- behoeften
- volgende
- Geluid
- aantal
- bieden
- online.
- Optimaliseer
- Georganiseerd
- Overige
- anders-
- het te bezitten.
- betaald
- bijzonder
- Mensen
- prestatie
- Verpersoonlijken
- stuk
- potentieel
- energie
- Voorspellingen
- presenteren
- cadeautjes
- verwerking
- Product
- Programma's
- het verstrekken van
- gepubliceerde
- kwaliteit
- reeks
- RE
- echte leven
- redenen
- herkennen
- erkend
- relevante
- verzoeken
- vereisen
- Voorwaarden
- vereist
- Resources
- Resultaten
- wegversperringen
- Zuid-Afrika
- reglement
- lopen
- dezelfde
- Bespaar
- Scale
- seconden
- reeks
- Shell
- sinds
- single
- maten
- Software
- solide
- specifiek
- specificaties
- Stadium
- begin
- Land
- gestructureerde
- succes
- Talent
- team
- technieken
- proef
- testen
- De
- drie
- niet de tijd of
- tijdrovend
- tools
- traditioneel
- Trainen
- Trainingen
- types
- typisch
- voor
- begrijpen
- unieke
- us
- .
- doorgaans
- bevestiging
- waarde
- divers
- controleren
- Video
- Bekijk
- manieren
- of
- en
- bredere
- Mijn werk
- werkzaam
- XML
- Your
- youtube