Form Verisi Çıkarma

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Form Verisi Çıkarma

Basılı veya elle yazılmış formlardan veri çıkarmak mı istiyorsunuz? Çıkış yapmak Nanonetler™ form veri çıkarıcı ücretsiz ve herhangi bir formdaki bilgilerin dışa aktarımını otomatikleştirin!

Formlar her yerdedir; katılımcılardan ihtiyaç duyulan bilgileri belirli bir formatta doldurmalarının istenerek bilgi toplamak amacıyla oluşturulan belgeler olarak tanımlanır. Kısa sürede çok fazla veri toplama yetenekleri nedeniyle faydalıdırlar. Ancak tüm formlar veri toplama konusunda aynı kapasiteye sahip değildir ve genellikle daha sonra manuel çalışma gerektirir. Bu nedenle form verilerinin çıkarılması sürecini akıllı bir şekilde otomatikleştirmek için araçlara ve algoritmalara güveniyoruz. Bu blog yazısında, OCR ve Derin Öğrenme kullanarak formlardan veri çıkarmak için farklı senaryolara ve tekniklere derinlemesine değinilecektir.

Form Veri Çıkarma Nedir?
Sorunu Zorlaştıran Nedir?
Form Çıkarma Sorununun Derinliği
Form Veri Çıkarma Çözümleri Nasıl Evrimleşti?
OCR Kullanarak Form Veri Çıkarma
Derin Öğrenmeyi Kullanarak Form Veri Çıkarmayı Çözme
Nanonets girin

Form Veri Çıkarma Nedir?

Form Veri Çıkarma, hem çevrimiçi hem de çevrimdışı formlardan veri çıkarma işlemidir. Bu veriler, genellikle ilgili bilgileri içeren bir form içeren herhangi bir formatta bulunabilir. Ancak bu verileri çıkarmak her zaman kolay bir iş değildir çünkü birçok düzen ve tasarım metnin kolayca seçilmesine izin vermez. Onlardan veri kopyalamanın yerel bir yolu yoktur. Bu nedenle formlardan daha etkili ve daha az hataya açık veri çıkarmaya yardımcı olmak için otomatik tekniklere güveniyoruz.

Form verisi çıkarma nedir?

Örneğin günümüzde pek çok kullanıcı iletişim bilgilerini toplamak için PDF tabanlı formlara güveniyor. Bu, bilgi toplamanın son derece etkili bir yoludur çünkü gönderenin ve alıcının girdi sağlamasını gerektirmez. Ancak bu verileri bir PDF formundan çıkarmak zorlu ve pahalı olabilir.

Burada form verilerinin çıkarılması, bir PDF formundan ad, e-posta adresi, telefon numarası vb. verilerin çıkarılmasına yardımcı olabilir. Bu veriler Excel, E-Tablolar veya başka herhangi bir yapılandırılmış format gibi başka bir uygulamaya aktarılabilir. Çalışma şekli, çıkarma araçlarının PDF dosyası üzerinden okuması, ihtiyaç duyduğu şeyi otomatik olarak çıkarması ve okunması kolay bir formatta düzenlemesidir. Bu veriler Excel, CSV, JSON gibi diğer formatlara ve diğer iyi yapılandırılmış veri formatlarına aktarılabilir. Bir sonraki bölümde, formdan veri çıkarma algoritmaları oluştururken sıklıkla karşılaşılan zorluklardan bazılarına göz atalım.

Basılı veya elle yazılmış formlardan veri çıkarmak mı istiyorsunuz? Nanonets'e göz atın™ ücretsiz form veri çıkarıcı ve herhangi bir formdaki bilgilerin dışa aktarımını otomatikleştirin!

Form Verisi Çıkarmayı Zorlaştıran Nedir?

Veri çıkarma, çeşitli nedenlerden dolayı heyecan verici bir sorundur. Birincisi, bu bir görüntü tanıma problemidir, ancak aynı zamanda görüntüde mevcut olabilecek metni ve formun düzenini de dikkate almak zorundadır, bu da bir algoritma oluşturmayı daha karmaşık hale getirir. Bu bölümde insanların formdan veri çıkarma algoritmaları oluştururken karşılaştıkları bazı genel zorluklar tartışılmaktadır.

Veri eksikliği: Veri Çıkarma algoritmaları genellikle güçlü derin öğrenme ve bilgisayar görüşü tabanlı algoritmalar kullanılarak oluşturulur. Bunlar genellikle en gelişmiş performansı elde etmek için büyük miktarda veriye dayanır. Bu nedenle tutarlı ve güvenilir bir veri kümesi bulmak ve bunları işlemek, her türlü veri çıkarma aracı veya yazılımı için çok önemlidir. Örneğin, birden fazla şablona sahip formlarımız olduğunu varsayalım, o zaman bu algoritmalar çok çeşitli formları anlayabilmelidir; bu nedenle onları sağlam bir veri kümesi üzerinde eğitmek daha doğru bir performansa sahip olacaktır.
Yazı Tiplerini, Dilleri ve Düzenleri Kullanma: Farklı türdeki form verileri için baş döndürücü miktarda farklı yazı tipleri, tasarımlar ve şablonlar mevcuttur. Tamamen farklı birkaç sınıflandırmaya girebilirler, bu da dikkate alınması gereken çok sayıda farklı karakter türü olduğunda doğru tanınmayı sağlamayı zorlaştırır. Bu nedenle yazı tipi koleksiyonunu belirli bir dil ve türle sınırlamak önemlidir çünkü bu belgeler uygun şekilde işlendikten sonra sorunsuz bir şekilde akan birçok süreç yaratacaktır. Çok dilli durumlarda, birden çok dildeki karakterler arasında hokkabazlık yapmaya hazırlıklı olunmalı ve aynı zamanda karmaşık tipografiyle de ilgilenilmelidir.

Resim Kaynak: Orta

Yönlendirme ve Eğim (Döndürme): Veri iyileştirme sırasında, giriş verilerinin toplanmasına yönelik algoritmaları eğitmek için sıklıkla görüntüleri tararız. Daha önce bir tarayıcı veya dijital kamera kullandıysanız, belge resimlerini yakaladığınız açının bazen belgelerin eğri görünmesine neden olabileceğini fark etmiş olabilirsiniz. Bu, açının derecesini ifade eden çarpıklık olarak bilinir. Bu çarpıklık modelin doğruluğunu azaltabilir. Neyse ki yazılımımızın görüntünün belirli bölgelerindeki özellikleri algılama biçimini değiştirerek bu sorunu çözmek için çeşitli teknikler kullanılabilir. Böyle bir tekniğe örnek olarak şekil, boyut ve doku tanımada çok daha temiz sonuçlara olanak tanıyan Projeksiyon Profili yöntemleri veya Fourier Dönüşüm yöntemleri verilebilir! Yönlendirme ve çarpıklık basit hatalar olsa da, bunlar modelin doğruluğunu büyük miktarlarda etkileyebilir.

Resim Kaynak: Pyimagesearch

Veri Güvenliği: Veri toplamak amacıyla çeşitli kaynaklardan veri çekiyorsanız, mevcut güvenlik önlemlerinin farkında olmanız önemlidir. Aksi takdirde aktarılan bilgilerin tehlikeye girmesi riskiyle karşı karşıya kalırsınız. Bu, kişisel bilgilerin ihlal edildiği veya API'ye gönderilen bilgilerin güvenli olmadığı durumlara yol açabilir. Bu nedenle, veri çıkarmak için ETL komut dosyaları ve çevrimiçi API'lerle çalışırken veri güvenliği sorunlarının da farkında olunmalıdır.
Tablo Çıkarma: Bazen form verilerini tabloların içinde görüyoruz; Hem form çıkarma hem de tablo çıkarma işlemlerini gerçekleştirebilecek sağlam bir algoritma oluşturmak zor olabilir. Genel yaklaşım, bu algoritmaları bağımsız olarak oluşturmak ve verilere uygulamaktır ancak bu, daha fazla hesaplama gücünün kullanılmasına yol açacak ve bu da maliyetleri artıracaktır. Bu nedenle, ideal bir form çıkarma işlemi, belirli bir belgeden hem form verilerini hem de verileri çıkarabilmelidir.

Resim Kaynak: GCN'ler

İşlem Sonrası / Çıktıyı Dışa Aktarma: Herhangi bir veri çıkarma işleminden elde edilen çıktı verileri düz değildir. Bu nedenle geliştiriciler, sonuçları daha yapılandırılmış bir formatta filtrelemek için işlem sonrası tekniklere güvenirler. Veriler işlendikten sonra CSV, Excel veya veritabanı gibi daha yapılandırılmış bir formata aktarılır. Kuruluşlar, yine zaman alıcı olan bu süreci otomatikleştirmek için üçüncü taraf entegrasyonlarına güveniyor veya API'ler geliştiriyor. Bu nedenle ideal veri çıkarma algoritmaları esnek olmalı ve dış veri kaynaklarıyla iletişim kurması kolay olmalıdır.

Form Veri Çıkarmada İşlem Sonrası

Çeşitli Senaryolarla Form Çıkarmanın Derinliğini Anlamak

Şu ana kadar form verilerini çıkarmanın temellerini ve zorluklarını tartıştık. Bu bölümde farklı senaryolara derinlemesine dalacağız ve form veri çıkarmanın derinliğini anlayacağız. Ayrıca bu spesifik senaryolar için çıkarma sürecini nasıl otomatikleştirebileceğimize de bakacağız.

Senaryo #1: Çevrimdışı Formlar için Elle Yazılı Tanıma

Çevrimdışı formlara günlük hayatta sıklıkla rastlanır. Formların doldurulması ve gönderilmesinin kolay olması zorunludur. Çevrimdışı formların manuel olarak dijitalleştirilmesi telaşlı ve pahalı bir iş olabilir; bu nedenle derin öğrenme algoritmalarına ihtiyaç duyulur. El yazısıyla yazılan belgeler, el yazısı karakterlerin karmaşıklığı nedeniyle veri çıkarmak için büyük bir zorluktur. Bu nedenle, bir makinenin el yazısı metni okumayı ve yorumlamayı öğrenmesini sağlayan veri tanıma algoritmaları yoğun olarak kullanılır. Süreç, el yazısı kelimelerin görsellerinin taranmasını ve bunların bir algoritma tarafından işlenebilecek ve analiz edilebilecek verilere dönüştürülmesini içeriyor. Algoritma daha sonra vuruşlara dayalı bir karakter haritası oluşturur ve metni çıkarmak için karşılık gelen harfleri tanır.

Resim Kaynak: NSIT Veri Kümesi

Senaryo #2: Formlarda Onay Kutusu Tanımlaması

Onay kutusu formları, bir giriş alanındaki kullanıcıdan bilgi toplamak için kullanılan bir veri girişi biçimidir. Bu tür veriler genellikle kullanıcının iletişim kurulmasını istediği öğeler gibi bir veya daha fazla öğeyi seçmesini gerektiren listelerde ve tablolarda bulunur. Herhangi bir sayıda yerde bulunabilir: çevrimiçi formlar, anketler ve anketler vb. Günümüzde bazı algoritmalar veri çıkarma işlemini onay kutularından bile otomatikleştirebilmektedir. Bu algoritmanın temel amacı bilgisayarlı görme tekniklerini kullanarak girdi bölgelerini belirlemektir. Bunlar, çizgilerin tanımlanmasını (yatay ve dikey), filtrelerin, konturların uygulanmasını ve görüntülerdeki kenarların tespit edilmesini içerir. Giriş bölgesi tanımlandıktan sonra işaretli veya işaretsiz onay kutusu içeriklerini çıkarmak kolaydır.

Form veri çıkarma işleminde onay kutusu tanımlama

Senaryo #3: Zaman zaman formun düzen değişiklikleri

Formları doldurmaya gelince, genellikle iki farklı seçenek türü vardır. Bazı formlar için bilgilerimizi ilgili tüm alanlara yazarak sağlamamız gerekirken, bazı formlar için birkaç onay kutusundan seçim yaparak bilgileri sağlayabiliriz. Formun düzeni de formun türüne ve içeriğine bağlı olarak değişir. Bu nedenle, birden fazla yapılandırılmamış belgeyi işleyebilecek ve form etiketlerine bağlı olarak içeriği akıllıca çıkarabilecek bir algoritma oluşturmak önemlidir. Belge düzenlerini işlemek için derin öğrenme mimarisinin popüler tekniklerinden biri Grafik CNN'lerdir. Grafik Evrişimli Ağların (GCN'ler) arkasındaki fikir, nöron aktivasyonlarının veri odaklı olmasını sağlamaktır. Düğümlerden ve kenarlardan oluşan grafikler üzerinde çalışacak şekilde tasarlanmıştır. Bir grafik evrişim katmanı, göreve özgü bir eğitim sinyalinin yokluğunda kalıpları tanıyabilmektedir. Bu nedenle veriler sağlam olduğunda bunlar uygundur.

Senaryo #4: Tablo Hücresi Tespiti

Bazı durumlarda işletmeler tablo hücrelerinden oluşan özel formlarla karşılaşmaktadır. Tablo hücreleri, tablonun içinde verilerin depolandığı dikdörtgen alanlardır. Başlıklar, satırlar veya sütunlar olarak sınıflandırılabilirler. İdeal bir algoritma, bu hücre türlerinin tümünü ve onlardan veri çıkarmak için sınırlarını tanımlamalıdır. Tablo çıkarma için bazı popüler teknikler arasında Akış ve Kafes; bunlar görüntüler üzerinde basit izomorfik işlemler kullanarak çizgileri, şekilleri, çokgenleri tespit etmeye yardımcı olabilen algoritmalardır.

Form Veri Çıkarma Çözümleri Nasıl Gelişti?

Form verilerinin çıkarılmasının kökeni, insanların kağıt formları kullandığı bilgisayar öncesi günlere dayanmaktadır. Bilgisayar teknolojisinin gelişmesiyle birlikte verilerin elektronik ortamda saklanması mümkün hale geldi. Bilgisayar programları, satış istatistikleri gibi raporlar oluşturmak için verileri kullanabilir. Bu yazılım aynı zamanda müşterilerin adı ve adresi gibi posta etiketlerini yazdırmak ve ödenmesi gereken tutar ve gönderilmesi gereken adres gibi faturaları yazdırmak için de kullanılabilir. Ancak bugün form veri çıkarma yazılımının farklı bir versiyonunu görüyoruz; bunlar son derece doğrudur, daha hızlıdır ve verileri son derece organize ve yapılandırılmış bir şekilde sunar. Şimdi farklı form veri çıkarma tekniklerini kısaca tartışalım.

Veri Çıkarmadan Kural Tabanlı: Kural tabanlı çıkarma, verileri belirli bir şablon formundan otomatik olarak çıkaran bir tekniktir. Herhangi bir insan müdahalesi olmadan verileri çıkarabilir. Sayfadaki farklı alanları inceleyerek ve çevredeki metin, etiketler ve diğer bağlamsal ipuçlarına dayanarak hangilerinin çıkarılacağına karar vererek çalışırlar. Bu algoritmalar genellikle ETL komut dosyaları veya web kazıma kullanılarak geliştirilir ve otomatikleştirilir. Ancak görünmeyen veriler üzerinde test edildiklerinde tamamen başarısız olurlar.
OCR kullanarak Form Veri Çıkarma: OCR, her türlü veri çıkarma sorunu için başvurulacak bir çözümdür. Ancak doğru performansı elde etmek için ek komut dosyaları ve programlar yazılmalıdır. OCR'nin çalışması için üzerinde metin bulunan bir görüntünün girilmesi gerekir. Yazılım daha sonra her pikseli okur ve her pikseli karşılık gelen harfle karşılaştırır. Eşleşirse, o harfi ve bu harfe yeterince yakın olan sayıları veya sembolleri çıktı olarak verecektir. OCR ile ilgili en büyük zorluk, harflerin nasıl ayrılacağını bulmaktır. Örneğin, "a" ve "e" gibi notalar birbirine yakın veya üst üste geldiğinde. Bu nedenle çevrimdışı formları çıkarırken bunlar çalışmayabilir.
Form Veri Çıkarma için NER: Adlandırılmış varlık tanıma, doğal dil metnindeki önceden tanımlanmış varlıkları tanımlama ve sınıflandırma görevidir. Genellikle insanların adları, adresleri, yorumları vb. yazdığı formlardan bilgi çıkarmak için kullanılır. Adlandırılmış varlıkları tanıma görevi, aynı varlıklardan söz edilenlerin aynı varlıklara atıfta bulunup bulunmadığını belirleyen daha geniş çekirdek referans çözümleme göreviyle yakından ilgilidir. aynı gerçek dünya varlıkları. Bugün, gelişmiş programlama araçları ve çerçeveleri sayesinde, bilgi çıkarma görevleri için NER tabanlı modeller oluşturmak amacıyla önceden eğitilmiş modellerden yararlanabiliyoruz.

Resim Kaynak: Orta

Form Veri Çıkarma için Derin Öğrenmeyi Kullanma: Derin öğrenme yeni değil, onlarca yıldır var ancak derin öğrenme mimarileri ve bilgi işlem gücündeki son gelişmeler çığır açıcı sonuçlara yol açtı. Derin öğrenmeyi kullanarak form verilerinin çıkarılması, ister dijital ister el yazısı olsun, hemen hemen her formatta son teknoloji ürünü performansa ulaştı. Süreç, derin sinir ağının (DNN) binlerce veya milyonlarca farklı örneğin etiketlendiği şekilde beslenmesiyle başlar. Örneğin, ad, e-posta, kimlik vb. varlıkları içeren resim biçimindeki etiketler. DNN, tüm bu bilgileri işler ve bu parçaların nasıl bağlandığını kendi başına öğrenir. Ancak son derece doğru bir model oluşturmak, çok fazla uzmanlık ve deney gerektirir.

Form Veri Çıkarma için Derin Öğrenme

OCR Kullanarak Form Veri Çıkarma

Formlardan veri çıkarmak için birçok farklı kütüphane mevcuttur. Peki ya bir formun görüntüsünden veri çıkarmak istiyorsanız? Tesseract OCR (Optik Karakter Tanıma) işte burada devreye giriyor. Tesseract, HP tarafından geliştirilen açık kaynaklı bir OCR (Optik Karakter Tanıma) motorudur. Tesseract OCR'yi kullanarak kağıt fatura, makbuz ve çek gibi taranmış belgeleri aranabilir, düzenlenebilir dijital dosyalara dönüştürmek mümkündür. Birçok dilde mevcuttur ve çeşitli görüntü formatlarındaki karakterleri tanıyabilir. Tesseract, metin çıkarmak amacıyla görüntüleri işlemek için genellikle diğer kitaplıklarla birlikte kullanılır.

Bunu test etmek için Tesseract'ı yerel makinenize yüklediğinizden emin olun. OCR'yi çalıştırmak için Tesseract CLI veya Python bağlamalarını kullanabilirsiniz. Python-tesseract, Google'ın Tesseract-OCR Motoru için bir sarmalayıcıdır. Pillow ve Leptonica görüntüleme kitaplıkları tarafından desteklenen jpeg, png, gif, bmp, tiff ve diğerleri dahil tüm görüntü türlerini okumak için kullanılabilir. Gerektiğinde tesseract yapmak için bunu tek başına bir çağırma betiği olarak kolayca kullanabilirsiniz.

Şimdi form verilerini içeren bir makbuz alalım ve Computer Vision ve Tesseract'ı kullanarak metnin konumunu belirlemeye çalışalım.

import pytesseract
from pytesseract import Output
import cv2 img = cv2.imread('receipt.jpg')
d = pytesseract.image_to_data(img, output_type=Output.DICT)
n_boxes = len(d['level'])
for i in range(n_boxes): (x, y, w, h) = (d['left'][i], d['top'][i], d['width'][i], d['height'][i]) img = cv2.rectangle(img, (x, y), (x + w, y + h), (0, 0, 255), 2) cv2.imshow(img,'img')

OCR Kullanarak Form Veri Çıkarma

Burada çıktıda gördüğümüz gibi program formun içindeki tüm metni tanımlamayı başardı. Şimdi tüm bilgileri çıkarmak için buna OCR uygulayalım. Bunu basitçe kullanarak yapabiliriz. image_to_string Python'da işlev.

extracted_text = pytesseract.image_to_string(img, lang = 'deu')

Çıktı:

Berghotel
Grosse Scheidegg
3818 Grindelwald
Familie R.Müller Rech.Nr. 4572 30.07.2007/13:29: 17
Bar Tisch 7/01
2xLatte Macchiato &ä 4.50 CHF 9,00
1xGloki a 5.00 CH 5.00
1xSchweinschnitzel ä 22.00 CHF 22.00
IxChässpätz 1 a 18.50 CHF 18.50 Total: CHF 54.50 Incl. 7.6% MwSt 54.50 CHF: 3.85 Entspricht in Euro 36.33 EUR
Es bediente Sie: Ursula MwSt Nr. : 430 234
Tel.: 033 853 67 16
Fax.: 033 853 67 19
E-mail: grossescheidegs@b luewin. Ch

Burada formdaki tüm bilgileri çıkarabiliyoruz. Ancak çoğu durumda, yalnızca OCR kullanmak, çıkarılan veriler tamamen yapılandırılmamış olacağından yardımcı olmayacaktır. Bu nedenle kullanıcılar, yalnızca Kimlik, Tarihler, Vergi Tutarı vb. gibi belirli varlıkları tanımlayabilen formlardaki anahtar/değer çifti çıkarımına güvenir. Bu yalnızca derin öğrenmeyle mümkündür. Bir sonraki bölümde, bilgi çıkarma algoritmaları oluşturmak için farklı derin öğrenme tekniklerinden nasıl yararlanabileceğimize bakalım.

Derin Öğrenmeyi Kullanarak Form Veri Çıkarmayı Çözme

Görsel Açıdan Zengin Belgelerden Çok Modlu Bilgi Çıkarma için Grafik Evrişimi

Grafik Evrişimli Ağlar (Grafik CNN'ler) Düğüm ve kenar yapısını korurken grafik veri yapılarındaki oldukça doğrusal olmayan özellikleri etkili bir şekilde öğrenebilen bir derin evrişimli sinir ağları (CNN'ler) sınıfıdır. Grafik veri yapılarını girdi olarak alabilir ve düğümler ve kenarlar için 'özellik haritaları' oluşturabilirler. Ortaya çıkan özellikler grafik sınıflandırması, kümeleme veya topluluk tespiti için kullanılabilir. GCN'ler, fatura ve makbuz gibi büyük, görsel açıdan zengin belgelerden bilgi çıkarmak için güçlü bir çözüm sunar. Bunları işlemek için her görüntünün düğümlerden ve kenarlardan oluşan bir grafiğe dönüştürülmesi gerekir. Görüntüdeki herhangi bir kelime kendi düğümüyle temsil edilir; Verilerin geri kalanının görselleştirilmesi düğümün özellik vektöründe kodlanır.

Belge grafiği. Grafikteki her düğüm birbirine tamamen bağlıdır.(SRC)

Bu model ilk önce belgedeki her metin parçasını grafik yerleştirmeye kodlar. Bunu yapmak, her bir metin öğesini çevreleyen görsel ve metinsel bağlamı, bir metin bloğu içindeki konumu veya konumuyla birlikte yakalar. Daha sonra belgenin yapısının ve içinde yazılanların genel bir temsilini oluşturmak için bu grafikleri metin yerleştirmeleriyle birleştirir. Model, birbirlerine göre konumlarına ve daha büyük bir okuyucu bloğu içinde göründükleri bağlama göre varlık olma olasılığı yüksek olan metinlere daha yüksek ağırlıklar atamayı öğrenir. Son olarak varlık çıkarımı için standart bir BiLSTM-CRF modelini uygular. Sonuçlar, bu algoritmanın temel modelden (BiLSTM-CRF) geniş bir farkla daha iyi performans gösterdiğini göstermektedir.

LayoutLM: Belge Görüntüsünü Anlamak için Metin ve Mizanpaj Ön Eğitimi

LayoutLM modelinin mimarisi büyük ölçüde BERT'ten esinlenmiştir ve Faster R-CNN'den görüntü yerleştirmeleri içermektedir. LayoutLM giriş yerleştirmeleri, metin ve konum yerleştirmelerinin bir kombinasyonu olarak oluşturulur ve daha sonra Faster R-CNN modeli tarafından oluşturulan görüntü yerleştirmeleriyle birleştirilir. Maskelenmiş Görsel Dil Modelleri ve Çok Etiketli Belge Sınıflandırması öncelikle LayoutLM için ön eğitim görevleri olarak kullanılır. LayoutLM modeli değerli, dinamik ve form/makbuz çıkarma, belge görüntüsü sınıflandırma ve hatta görsel soru yanıtlama gibi düzen anlayışı gerektiren herhangi bir iş için yeterince güçlüdür ve bu eğitim modeliyle gerçekleştirilebilir.

Resim Kaynak: Düzen ML

LayoutLM modeli, 1.0 milyondan fazla belge ve 6 milyondan fazla taranmış belge görüntüsü içeren ve toplamda 11 GB'ın üzerinde veri içeren IIT-CDIP Test Koleksiyonu 12 üzerinde eğitilmiştir. Bu model, form anlama, makbuz anlama ve taranmış belge görüntüsü sınıflandırma görevlerinde SOTA'nın önceden eğitilmiş birçok modelinden önemli ölçüde daha iyi performans gösterdi.

Form2Seq: Yüksek Dereceli Form Yapısı Çıkarma Çerçevesi

Form2Seq, konumsal dizileri kullanarak giriş metninden yapılar çıkarmaya odaklanan bir çerçevedir. Geleneksel seq2seq çerçevelerinin aksine Form2Seq, yapıların sıralarından ziyade göreceli mekansal konumlarından yararlanır.

Bu yöntemde öncelikle daha iyi işleme ve organizasyona olanak sağlayacak düşük seviyeli unsurları sınıflandırıyoruz. Alan başlıkları, liste öğeleri vb. gibi 10 tür form vardır. Daha sonra, Metin Alanları ve Seçim Alanları gibi alt düzey öğeleri, Seçim Grupları adı verilen daha yüksek düzeyli yapılar halinde gruplandırıyoruz. Bunlar, formlarda bilgi toplama mekanizmaları olarak kullanılan Metin Alanları, Seçim Alanları ve Seçim Grupları gibi alt düzey öğelerin daha yüksek düzey yapılara dönüştürülmesiyle daha iyi kullanıcı deneyimi elde etmek için bilgi toplama mekanizmaları olarak kullanılır. Bu, kurucu unsurların doğal okuma düzeninde doğrusal bir düzende düzenlenmesi ve bunların mekansal ve metinsel temsillerinin Seq2Seq çerçevesine beslenmesiyle mümkündür. Seq2Seq çerçevesi, bağlama bağlı olarak bir cümlenin her öğesi için sırayla tahminler yapar. Bu, daha fazla bilgiyi işlemesine ve eldeki görevi daha iyi anlamasına olanak tanır.

Eleman türü sınıflandırması için Form2seq Model Mimarisi. Farklı aşamalar harflerle açıklanmıştır (SRC).

Model, sınıflandırma görevinde segmentasyona dayalı temel modellerden daha yüksek olan %90'lık bir doğruluk elde etti. Metin blokları, metin alanları ve seçim alanlarındaki F1 sırasıyla %86.01 ve %61.63 idi. Bu çerçeve, tablo yapısının tanınmasına yönelik ICDAR veri kümesindeki sonuçların durumunu elde etti.

Nanonets Yapay Zeka Tabanlı OCR Neden En İyi Seçenektir?

OCR yazılımı, taranmış metin görüntülerini PDF, DOC ve PPT gibi formatlanmış dijital dosyalara dönüştürebilse de, bu her zaman doğru değildir. Nanonets AI tabanlı OCR derin öğrenme sistemi gibi günümüzün öncü yazılımları, geleneksel OCR sistemlerinin taranmış bir belgeden düzenlenebilir bir dosya oluştururken karşılaştığı birçok zorluğun üstesinden gelmiştir. Gürültü, grafik öğeler ve biçimlendirme değişiklikleri için yüksek doğruluk oranları ve yüksek tolerans seviyeleri sağlayabildiğinden veri çıkarma için en iyi seçenek haline geldi. Şimdi yapay zeka tabanlı OCR'nin nasıl en iyi seçenek olduğuna dair birkaç noktayı tartışalım.

Nanonetler – Form Veri Çıkarma

OCR, tartışıldığı gibi, veri çıkarmak için basit bir tekniktir. Ancak, görülmemiş/yeni veriler eklendiğinde tutarlı bir şekilde çalışmazlar. Ancak yapay zeka tabanlı OCR, çok çeşitli veriler üzerinde eğitim aldığından bu gibi durumların üstesinden gelebilir.
Normal OCR'ler form verilerinin çıkarılmasına yönelik karmaşık düzenleri işleyemez. Bu nedenle, derin öğrenme veya yapay zeka ile güçlendirildiğinde verilerin düzenini, metnini ve bağlamını anlayarak en iyi sonuçları verirler.
OCR'ler, verilerde çarpıklık, düşük ışıkta taranan görüntüler vb. gibi parazitler olduğunda düşük performans gösterebilirken, derin öğrenme modelleri bu tür koşulları işleyebilir ve yine de oldukça doğru sonuçlar verebilir.
Yapay zeka tabanlı OCR'ler, geleneksel OCR'lara kıyasla oldukça özelleştirilebilir ve esnektir; yapılandırılmamış verileri herhangi bir yapılandırılmış formata dönüştürmek için çeşitli veriler üzerine oluşturulabilirler.
Yapay zeka tabanlı OCR'nin işlem sonrası çıktılarına, düz OCR'ye kıyasla erişilebilir; doğrudan modelden JSON, CSV, Excel Sayfaları gibi herhangi bir veri formatına ve hatta Postgres gibi bir veritabanına aktarılabilirler.
Yapay Zeka Tabanlı OCR, önceden eğitilmiş modeller kullanılarak basit bir API olarak dışa aktarılabilir. Bu, diğer geleneksel yöntemlerde hâlâ mümkündür, ancak modelleri tutarlı bir şekilde ve zamanında geliştirmek zor olabilir. Yapay zeka tabanlı OCR'dayken hatalara göre otomatik olarak ayarlama yapılabilir.
Düz OCR kullanarak tablo çıkarmak oldukça imkansızdır. Ancak AI/DL'nin gücüyle bu kolaylıkla yapılabilir. Günümüzde yapay zeka tabanlı OCR'ler, belgelerin içindeki tablo tabanlı formları olumlu bir şekilde işaretleyebiliyor ve bilgi çıkarabiliyor.
Belgelerde herhangi bir finansal veya gizli veri varsa yapay zeka modelleri sahtekarlık kontrolleri de gerçekleştirebiliyor. Temel olarak taranan belgelerdeki düzenlenmiş/bulanık metinleri arar ve yöneticilere bildirir. Bu modeller aracılığıyla mükerrer belge veya bilgiler de tespit edilebilir. OCR bu gibi durumlarda başarısız olurken.

Zaman Damgası: 6 Mart, 2022

Zaman Damgası: Kasım 15, 2023

Form Verisi Çıkarma

Plato tarafından yeniden yayınlandı

Form Veri Çıkarma Nedir?

Form Verisi Çıkarmayı Zorlaştıran Nedir?

Çeşitli Senaryolarla Form Çıkarmanın Derinliğini Anlamak

Senaryo #1: Çevrimdışı Formlar için Elle Yazılı Tanıma

Senaryo #2: Formlarda Onay Kutusu Tanımlaması

Senaryo #3: Zaman zaman formun düzen değişiklikleri

Senaryo #4: Tablo Hücresi Tespiti

Form Veri Çıkarma Çözümleri Nasıl Gelişti?

OCR Kullanarak Form Veri Çıkarma

Derin Öğrenmeyi Kullanarak Form Veri Çıkarmayı Çözme

Nanonets Yapay Zeka Tabanlı OCR Neden En İyi Seçenektir?

Den fazla AI ve Makine Öğrenimi

2024'te Borç Hesapları (AP) Raporları ve Raporlama Kılavuzu

Gider Makbuzu Nedir?

12'de kaçıramayacağınız 2022 heyecan verici RPA İstatistikleri

Telefon Numarası Çıkarıcı: Bilmeniz Gereken Her Şey

Argus Modelleme: Veriye Dayalı Gayrimenkul Kararlarını Yönlendirme

Satıcı Yönetim Süreci: Önemi, Faydaları ve Zorlukları

Ödenmemiş ödenecek gün sayısı nedir? Ve DPO nasıl hesaplanır?

Borç Hesaplarında Dijital Dönüşüm İçin Eksiksiz Bir Kılavuz

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap