Amazon Metin Yazısı herhangi bir belge veya görüntüden metni, el yazısını ve verileri otomatik olarak çıkaran bir makine öğrenimi (ML) hizmetidir. Amazon Texttract'ın içinde bir Tablolar özelliği vardır. Analiz etBelge Herhangi bir belgeden tablo yapılarını otomatik olarak çıkarma olanağı sunan API. Bu yazıda, yapılan iyileştirmelerden bahsedeceğiz. tablolar özelliği ve çok çeşitli belgelerden tablo yapılarındaki bilgilerin çıkarılmasının nasıl kolaylaştırıldığı.
Mali raporlar, maaş bordroları ve analiz sertifikası dosyaları gibi belgelerdeki tablo yapıları genellikle bilgilerin kolay yorumlanmasına olanak sağlayacak şekilde biçimlendirilir. Daha iyi okunabilirlik ve organizasyon için genellikle tablo başlığı, tablo altbilgisi, bölüm başlığı ve özet satırları gibi bilgileri tablo yapısı içinde içerirler. Bu geliştirmeden önceki benzer bir belge için, içindeki Tablolar özelliği AnalyzeDocument
bu öğeleri hücre olarak tanımladı ve tablonun sınırları dışında bulunan başlıkları ve alt bilgileri çıkarmadı. Bu gibi durumlarda, bu tür bilgileri tanımlamak veya API'nin JSON çıkışından ayrı olarak çıkarmak için özel işlem sonrası mantığı gerekliydi. Tablo özelliğinde yapılan bu geliştirme duyurusu ile tablo verilerinin çeşitli yönlerinin çıkarılması çok daha basit hale geliyor.
Nisan 2023'te Amazon Textract, Tablolar özelliği aracılığıyla belgelerde bulunan başlıkları, alt bilgileri, bölüm başlıklarını ve özet satırlarını otomatik olarak algılama özelliğini tanıttı. Bu yazıda bu geliştirmeleri tartışıyor ve bunları belge işleme iş akışlarınızda anlamanıza ve kullanmanıza yardımcı olacak örnekler veriyoruz. API'yi kullanmak ve yanıtı işlemek için kod örnekleri aracılığıyla bu iyileştirmelerin nasıl kullanılacağını açıklıyoruz. Amazon Textract Textractor kitaplığı.
Çözüme genel bakış
Aşağıdaki görüntü, güncellenen modelin yalnızca belgedeki tabloyu değil aynı zamanda ilgili tüm tablo üstbilgilerini ve altbilgilerini de tanımladığını gösterir. Bu örnek mali rapor belgesinde tablo başlığı, alt bilgi, bölüm başlığı ve özet satırları bulunur.
Tablolar özelliği geliştirmesi, API yanıtında bu tablo öğelerinin her birini kolaylıkla çıkarmanıza olanak tanıyan dört yeni öğe için destek ekler ve tablo türünü ayırt etme yeteneği ekler.
Tablo öğeleri
Amazon Textract, tablo hücreleri ve birleştirilmiş hücreler gibi bir tablonun çeşitli bileşenlerini tanımlayabilir. olarak bilinen bu bileşenler Block
nesneler, sınırlayıcı geometri, ilişkiler ve güven puanı gibi bileşenle ilgili ayrıntıları kapsar. A Block
bir belgede birbirine yakın bir piksel grubu içinde tanınan öğeleri temsil eder. Aşağıdakiler yeni Masa Blokları Bu geliştirmede sunulanlar:
- Tablo başlığı - Yeni
Block
denilen türTABLE_TITLE
belirli bir tablonun başlığını tanımlamanızı sağlar. Başlıklar bir veya daha fazla satırdan oluşabilir ve bunlar genellikle bir tablonun üzerinde yer alır veya tablonun içinde bir hücre olarak gömülür. - Tablo altbilgileri - Yeni
Block
denilen türTABLE_FOOTER
belirli bir tabloyla ilişkili altbilgileri tanımlamanıza olanak tanır. Altbilgiler genellikle tablonun altında bulunan veya tablonun içine hücre olarak gömülen bir veya daha fazla satır olabilir. - Bölüm başlığı - Yeni
Block
denilen türTABLE_SECTION_TITLE
Bu, algılanan hücrenin bir bölüm başlığı olup olmadığını belirlemenizi sağlar. - Özet hücreleri - Yeni
Block
denilen türTABLE_SUMMARY
bu, hücrenin, ödeme kütüğündeki toplamlar hücresi gibi bir özet hücresi olup olmadığını belirlemenizi sağlar.
Tablo türleri
Amazon Textract bir belgede bir tablo tespit ettiğinde tablonun tüm ayrıntılarını üst düzey bir tabloya çıkarır. Block
bir çeşit TABLE
. Tablolar çeşitli şekil ve boyutlarda olabilir. Örneğin, belgeler sıklıkla fark edilebilir bir tablo başlığına sahip olan veya olmayan tablolar içerir. Bu tür tabloları ayırt etmeye yardımcı olmak amacıyla, bir tablo için iki yeni varlık türü ekledik. TABLE Block
: SEMI_STRUCTURED_TABLE
ve STRUCTURED_TABLE
. Bu varlık türleri, yapılandırılmış tablo ile yarı yapılandırılmış tablo arasında ayrım yapmanıza yardımcı olur.
Yapılandırılmış tablolar, açıkça tanımlanmış sütun başlıklarına sahip tablolardır. Ancak yarı yapılandırılmış tablolarda veriler katı bir yapıya uymayabilir. Örneğin veriler, tanımlanmış başlıklara sahip bir tablo olmayan tablo yapısında görünebilir. Yeni varlık türleri, işlem sonrası sırasında hangi tabloların tutulacağını veya kaldırılacağını seçme esnekliği sunar. Aşağıdaki resimde bir örnek gösterilmektedir STRUCTURED_TABLE
ve SEMI_STRUCTURED_TABLE
.
API çıktısını analiz etme
Bu bölümde bu özelliği nasıl kullanabileceğinizi araştırıyoruz. Amazon Textract Textractor kitaplığı API çıktısını sonradan işlemek için AnalyzeDocument
Tablolar özelliği geliştirmeleri ile. Bu, tablolardan ilgili bilgileri çıkarmanıza olanak tanır.
Textractor, API'lerin döndürdüğü JSON yanıtlarını daha sonra programlanabilir nesnelere dönüştürmek için Amazon Textract API'leri ve yardımcı programlarıyla sorunsuz bir şekilde çalışacak şekilde oluşturulmuş bir kitaplıktır. Bunu ayrıca belgedeki varlıkları görselleştirmek ve verileri virgülle ayrılmış değerler (CSV) dosyaları gibi formatlarda dışa aktarmak için de kullanabilirsiniz. Amazon Textract müşterilerinin işlem sonrası işlem hatlarını ayarlamalarına yardımcı olmayı amaçlamaktadır.
Örneklerimizde 10-K SEC dosyalama belgesinden aşağıdaki örnek sayfayı kullanıyoruz.
Aşağıdaki kodu bölümümüzde bulabilirsiniz. GitHub deposu. Bu belgeyi işlemek için Textractor kitaplığını kullanıyoruz ve API çıktılarını sonradan işlemek ve verileri görselleştirmek için onu içe aktarıyoruz:
İlk adım Amazon Texttract'ı aramaktır AnalyzeDocument
ile gösterilen Tablolar özelliği ile features=[TextractFeatures.TABLES]
Tablo bilgilerini çıkarmak için parametre. Bu yöntemin gerçek zamanlı (veya senkronize) yöntemi çağırdığını unutmayın. Analiz etBelge Tek sayfalı belgeleri destekleyen API. Ancak şunları kullanabilirsiniz: eşzamanlı olmayan StartDocumentAnalysis
Çok sayfalı belgeleri (3,000 sayfaya kadar) işlemek için API.
The document
nesne belge hakkında incelenebilecek meta verileri içerir. Belgedeki diğer varlıklarla birlikte belgedeki bir tabloyu tanıdığına dikkat edin:
Artık tablo bilgilerini içeren API çıktısına sahip olduğumuza göre, daha önce tartışılan yanıt yapısını kullanarak tablonun farklı öğelerini görselleştiriyoruz:
Textractor kitaplığı, algılanan tablo içindeki çeşitli varlıkları, her tablo öğesi için farklı bir renk koduyla vurgular. Her bir elementi nasıl çıkarabileceğimizi daha derinlemesine inceleyelim. Aşağıdaki kod parçacığı tablonun başlığının çıkarılmasını gösterir:
Benzer şekilde tablonun altbilgilerini çıkarmak için aşağıdaki kodu kullanabiliriz. table_footers'ın bir liste olduğuna dikkat edin; bu, tabloyla ilişkilendirilmiş bir veya daha fazla altbilgi olabileceği anlamına gelir. Mevcut tüm altbilgileri görmek için bu listeyi yineleyebiliriz ve aşağıdaki kod parçacığında gösterildiği gibi çıktıda üç altbilgi görüntülenir:
Aşağı yönde alım için veri oluşturma
Textractor kitaplığı aynı zamanda tablo verilerinin aşağı akış sistemlerine veya diğer iş akışlarına aktarılmasını basitleştirmenize de yardımcı olur. Örneğin, çıkarılan tablo verilerini insan tarafından okunabilen bir Microsoft Excel dosyasına aktarabilirsiniz. Bu yazının yazıldığı sırada, birleştirilmiş tabloları destekleyen tek format budur.
Bunu ayrıca şuna da dönüştürebiliriz: Pandalar Veri Çerçevesi. DataFrame, Python ve R gibi programlama dillerinde veri işleme, analiz ve görselleştirme için popüler bir seçimdir.
Python'da DataFrame, Pandas kütüphanesindeki birincil veri yapısıdır. Esnek ve güçlüdür ve genellikle çeşitli veri analizi ve makine öğrenimi görevleri için veri analizi profesyonellerinin ilk tercihidir. Aşağıdaki kod parçacığı, çıkarılan tablo bilgilerinin tek satır kodla bir DataFrame'e nasıl dönüştürüleceğini gösterir:
Son olarak tablo verilerini CSV dosyasına dönüştürebiliriz. CSV dosyaları genellikle verileri ilişkisel veritabanlarına veya veri ambarlarına almak için kullanılır. Aşağıdaki koda bakın:
Sonuç
Bu yeni blok ve varlık türlerinin tanıtımı (TABLE_TITLE
, TABLE_FOOTER
, STRUCTURED_TABLE
, SEMI_STRUCTURED_TABLE
, TABLE_SECTION_TITLE
, TABLE_FOOTER
, ve TABLE_SUMMARY
) Amazon Textract ile belgelerden tablo yapılarının çıkarılmasında önemli bir ilerlemeye işaret ediyor.
Bu araçlar, hem yapılandırılmış hem de yarı yapılandırılmış tablolara hitap ederek ve bir belgedeki konumu ne olursa olsun hiçbir önemli verinin gözden kaçırılmamasını sağlayarak daha incelikli ve esnek bir yaklaşım sağlar.
Bu, artık çeşitli veri türlerini ve tablo yapılarını gelişmiş verimlilik ve doğrulukla işleyebileceğimiz anlamına geliyor. Belge işleme iş akışlarında otomasyonun gücünü benimsemeye devam ettikçe, bu iyileştirmeler hiç şüphesiz daha akıcı iş akışlarının, daha yüksek üretkenliğin ve daha kapsamlı veri analizinin önünü açacaktır. Daha fazla bilgi için AnalyzeDocument
ve Tablolar özelliği için bkz. Analiz etBelge.
yazarlar hakkında
Raj Pathak Finansal Hizmetler (Sigorta, Bankacılık, Sermaye Piyasaları) ve Makine Öğrenimi alanlarında uzmanlaşmış Kıdemli Çözüm Mimarı ve Teknoloji Uzmanıdır. Doğal Dil İşleme (NLP), Büyük Dil Modelleri (LLM) ve Makine Öğrenimi altyapı ve operasyon projelerinde (MLOps) uzmanlaşmıştır.
Anjan Biswas AI/ML ve Veri Analitiğine odaklanan Kıdemli AI Hizmetleri Çözümleri Mimarıdır. Anjan, dünya çapındaki AI hizmetleri ekibinin bir parçasıdır ve AI ve ML ile iş sorunlarını anlamalarına ve bunlara çözümler geliştirmelerine yardımcı olmak için müşterilerle birlikte çalışır. Anjan, küresel tedarik zinciri, üretim ve perakende kuruluşlarıyla 14 yılı aşkın deneyime sahiptir ve müşterilerin AWS AI hizmetlerini başlatmasına ve ölçeklendirmesine aktif olarak yardımcı olmaktadır.
Lalita Reddi Amazon Textract ekibinde Kıdemli Teknik Ürün Yöneticisidir. AWS müşterileri için makine öğrenimi tabanlı hizmetler oluşturmaya odaklanmıştır. Lalita boş zamanlarında masa oyunları oynamayı ve yürüyüşe çıkmayı seviyor.
- SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
- EVM Finans. Merkezi Olmayan Finans için Birleşik Arayüz. Buradan Erişin.
- Kuantum Medya Grubu. IR/PR Güçlendirilmiş. Buradan Erişin.
- PlatoAiStream. Web3 Veri Zekası. Bilgi Genişletildi. Buradan Erişin.
- Kaynak: https://aws.amazon.com/blogs/machine-learning/announcing-enhanced-table-extractions-with-amazon-textract/
- :vardır
- :dır-dir
- :olumsuzluk
- $UP
- 000
- 1
- 10
- 100
- 11
- 116
- 14
- İNDİRİM
- 16
- 20
- 2021
- 2022
- 2023
- 22
- İNDİRİM
- 30
- 31
- 7
- 8
- a
- kabiliyet
- Hakkımızda
- yukarıdaki
- Hesaplar
- doğruluk
- aktif
- katma
- Ekler
- gelişme
- ajans
- AI
- AI hizmetleri
- AI / ML
- Yardım
- Türkiye
- veriyor
- boyunca
- Ayrıca
- Amazon
- Amazon Metin Yazısı
- Amazon Web Servisleri
- tutarları
- an
- analiz
- analytics
- ve
- duyuru
- Duyurusu
- herhangi
- api
- API'ler
- görünmek
- yaklaşım
- yaklaşık olarak
- Nisan
- ARE
- AS
- yönleri
- Varlıklar
- ilişkili
- At
- otomatik olarak
- Otomasyon
- AWS
- Bakiye
- bilançolar
- Bankacılık
- temel
- BE
- olur
- altında
- Daha iyi
- arasında
- Milyar
- Engellemek
- yazı tahtası
- Masa Oyunları
- her ikisi de
- bina
- iş
- fakat
- by
- çağrı
- denilen
- CAN
- Başkent
- Sermaye piyasaları
- durumlarda
- Nakit
- Hücreler
- belli
- sertifika
- zincir
- seçim
- Klinik
- sınıflandırmak
- Açıkça
- müşteri
- Kapanış
- kod
- Tamamlayıcı
- renk
- Sütun
- nasıl
- taahhütler
- bileşen
- bileşenler
- güven
- içermek
- içeren
- devam etmek
- dönüştürmek
- Kurumsal
- uyan
- Ücret
- çevrimiçi kurslar düzenliyorlar.
- kredi
- görenek
- Müşteriler
- veri
- veri analizi
- Veri Analizi
- Veri yapısı
- veritabanları
- Borç
- Aralık
- derin
- tanımlı
- gösteriyor
- ayrıntılar
- algılandı
- geliştirmek
- farklı
- yön
- İndirim
- tartışmak
- tartışılan
- görüntüler
- ayırmak
- çeşitli
- belge
- evraklar
- şüphe
- gereken
- sırasında
- her
- kolaylaştırmak
- kolay
- kolay
- verim
- eleman
- elemanları
- gömülü
- kucaklamak
- sağlar
- gelişmiş
- geliştirmeleri
- kişiler
- varlık
- öz kaynak
- eşdeğerleri
- arazi
- tahmini
- örnek
- örnekler
- Excel
- deneyim
- keşfetmek
- ihracat
- çıkarmak
- Hulasa
- adil
- Özellikler(Hazırlık aşamasında)
- fileto
- dosyalar
- Dosyalama
- mali
- finansal rapor
- finansal hizmetler
- Ad
- sabit
- sabit gelir
- Esneklik
- esnek
- odak
- odaklanmış
- takip et
- takip etme
- İçin
- yabancı
- biçim
- bulundu
- dört
- itibaren
- para
- Kazanç
- Kazançlar
- Games
- almak
- GitHub
- Vermek
- verilmiş
- Küresel
- Go
- Hükümet
- brüt
- grup
- vardı
- sap
- Var
- he
- başlıkları
- yardım et
- yardım
- yardımcı olur
- onu
- hiyerarşi
- daha yüksek
- Vurgulanan
- özeti
- zamları
- tutar
- Ne kadar
- Nasıl Yapılır
- Ancak
- HTML
- HTTPS
- insan
- tespit
- tanımlar
- belirlemek
- Kimlik
- if
- görüntü
- ithalat
- önemli
- iyileştirmeler
- in
- dahil
- Gelir
- bilgi
- Altyapı
- kurmak
- sigorta
- yönelik
- yorumlama
- içine
- tanıttı
- Giriş
- yatırım
- çağırır
- IT
- ürün
- ONUN
- jpg
- json
- yargı
- tutmak
- bilinen
- Eksiklik
- dil
- Diller
- büyük
- öğrenme
- az
- seviye
- Kütüphane
- seviyor
- çizgi
- hatları
- Liste
- Yüksek Lisans
- yükler
- yer
- mantık
- uzun
- kayıp
- kayıp
- makine
- makine öğrenme
- yapılmış
- büyük
- yapmak
- YAPAR
- Yapımı
- müdür
- hile
- üretim
- pazar
- Piyasalar
- Mayıs..
- anlamına geliyor
- Metadata
- yöntem
- Microsoft
- olabilir
- milyon
- milyonlarca
- ML
- MLO'lar
- model
- modelleri
- değiştirmek
- para
- para piyasası
- ay
- Daha
- çok
- Doğal (Madenden)
- Doğal Dil İşleme
- gerekli
- net
- yeni
- nlp
- yok hayır
- Fark etme..
- şimdi
- nesne
- nesneler
- of
- teklif
- Teklifler
- sık sık
- on
- ONE
- bir tek
- Operasyon
- or
- kuruluşlar
- organizasyonlar
- Diğer
- aksi takdirde
- bizim
- çıktı
- dışında
- tekrar
- Kanal
- pandalar
- parametre
- Bölüm
- kaldırım döşemek
- Platon
- Plato Veri Zekası
- PlatoVeri
- OYNA
- Popüler
- kısım
- Çivi
- güç kelimesini seçerim
- güçlü
- mevcut
- Önceden
- öncelikle
- birincil
- Önceki
- sorunlar
- süreç
- işleme
- PLATFORM
- ürün müdürü
- verimlilik
- profesyoneller
- Programlama
- Programlama dilleri
- Projeler
- sağlamak
- Python
- Q1
- Q3
- Q3 2021
- q3 2022
- sorgular
- gerçek
- gayrimenkul
- gerçek zaman
- tanınan
- tanır
- kaydedilmiş
- yinelenen
- Ne olursa olsun
- bölge
- düzenleyici
- ilgili
- İlişkiler
- uygun
- Kaldır
- rapor
- Raporlar
- temsil
- gereklidir
- sırasıyla
- yanıt
- yanıtları
- kısıtlamak
- kısıtlı
- kısıtlamaları
- Ortaya çıkan
- perakende
- Yorumlar
- s
- satış
- ölçek
- Gol
- sorunsuz
- SEC
- SEC dosyalama
- Bölüm
- Senetler
- güvenlik
- görmek
- Satıcılar
- kıdemli
- Eylül
- hizmet
- Hizmetler
- ayar
- birkaç
- şekiller
- o
- gösterilen
- Gösteriler
- İmzalar
- önemli
- benzer
- basitleştirmek
- tek
- boyutları
- Çözümler
- uzmanlaşmış
- uzmanlaşmış
- başladı
- adım
- aerodinamik
- Sıkı
- yapı
- yapılandırılmış
- konu
- Daha sonra
- böyle
- ÖZET
- arz
- tedarik zinciri
- destek
- Destekler
- Sistemler
- tablo
- görevleri
- takım
- Teknik
- teknoloji uzmanı
- göre
- o
- The
- ve bazı Asya
- Onları
- Orada.
- Bunlar
- onlar
- üçüncü şahıslara ait
- Re-Tweet
- Bu
- üç
- İçinden
- zaman
- Başlık
- başlıkları
- için
- araçlar
- Üst düzey
- Toplam
- Ticaret
- iki
- tip
- türleri
- tipik
- bize
- ABD hükümeti
- anlamak
- gerçekleşmemiş kayıplar
- güncellenmiş
- us
- kullanım
- Kullanılmış
- kullanma
- kamu hizmetleri
- değer
- Değerler
- çeşitlilik
- çeşitli
- Karşı
- üzerinden
- görüntüleme
- oldu
- Yol..
- we
- ağ
- web hizmetleri
- hangi
- geniş
- irade
- ile
- içinde
- sözler
- İş
- iş akışları
- çalışma
- çalışır
- olur
- yazı yazıyor
- yıl
- Sen
- zefirnet