Kurumsal formlar, finansal hizmetlerden sağlık hizmetlerine ve daha fazlasına kadar sektörler arasında birincil iş aracı olarak hizmet eder. Örneğin, her yıl büyük ölçüde aynı bilgilerle yeni formların ortaya çıktığı vergi yönetimi endüstrisindeki vergi dosyalama formlarını düşünün. Sektörlerdeki AWS müşterilerinin günlük iş uygulamalarının bir parçası olarak bilgileri formlarda işlemesi ve depolaması gerekir. Bu formlar genellikle, teknolojik veri yakalama araçlarının pratik olmadığı bir organizasyona bilgi akışı için birincil araçlar olarak hizmet eder.
Yıllar boyunca bilgi toplamak için formları kullanmanın yanı sıra, Amazon Metin Yazısı, AWS müşterilerinin yapılan yapısal değişikliklere, eklenen veya değiştirilen alanlara veya yıl veya formun sürümü değişikliği gibi diğer hususlara dayalı olarak organizasyon formlarını sık sık sürümlendirdiğini gözlemledik.
Bir formun yapısı veya içeriği değiştiğinde, bu genellikle geleneksel OCR sistemleri için zorluklara neden olabilir veya her yıl aynı bilgiyi yakalamanız ve formattan bağımsız olarak verileri kullanım için toplamanız gerektiğinde bile bilgi yakalamak için kullanılan aşağı akış araçlarını etkileyebilir. belgenin.
Bu sorunu çözmek için bu gönderide, Amazon Textract ile olay odaklı, sunucusuz, çok formatlı bir belge ayrıştırma işlem hattını nasıl oluşturabileceğinizi ve dağıtabileceğinizi gösteriyoruz.
Çözüme genel bakış
Aşağıdaki şema, çözüm mimarimizi göstermektedir:
İlk olarak, çözüm, aşağıdakileri kullanarak boru hattı alımını sunar: Amazon Basit Depolama Hizmeti (Amazon S3), Amazon S3 Etkinlik Bildirimleri ve Amazon Basit Kuyruk Hizmeti (Amazon SQS) kuyruğu, böylece bir form hedef Amazon S3 bölümüne ulaştığında işleme başlar. Bir etkinlik Amazon EventBridge oluşturulur ve bir AWS Lambda Amazon Textract işini tetikleyen hedef.
Lambda gibi sunucusuz AWS hizmetlerini kullanabilirsiniz ve AWS Basamak İşlevleri AWS AI hizmetleri ile ambarlama, analitik ve AI ve makine öğrenimi (ML) için AWS Analytics ve Veritabanı hizmetleri arasında eşzamansız hizmet entegrasyonları oluşturmak. Bu gönderide, Amazon Textract eşzamansız API'lerine yönelik isteklerin durumunu eşzamansız olarak kontrol etmek ve sürdürmek için Adım İşlevlerinin nasıl kullanılacağını gösteriyoruz. Bu, çağrıları ve yanıtları yönetmek için bir durum makinesi kullanılarak elde edilir. Amazon Textract'tan sayfalandırılmış API yanıt verilerini, OCR kullanılarak ayıklanan yarı yapılandırılmış metin verilerini içeren tek bir JSON nesnesinde birleştirmek için durum makinesinde Lambda kullanıyoruz.
Ardından, bu OCR verilerini ortak bir yapılandırılmış formatta toplamak için standart bir yaklaşım kullanarak farklı formlar arasında filtre uygularız. Amazon Atina ve bir SQL Amazon Textract JSON SerDe.
İşlem durumunu izlemek ve her bir durumun çıktısını korumak için sunucusuz Step Functions kullanarak bu ardışık düzen aracılığıyla atılan adımları izleyebilirsiniz. Bu, bazı sektörlerdeki müşterilerin, işlem hattı sonuçlarınızın uzun vadede açıklanabilirliğini artırmak için Amazon Textract gibi hizmetlerden gelen tüm tahminlerin sonuçlarını saklamanız gereken verilerle çalışırken yapmayı tercih ettiği bir şeydir.
Son olarak, ayıklanan verileri Athena tablolarında sorgulayabilirsiniz.
Aşağıdaki bölümlerde, aşağıdakileri kullanarak boru hattını kurma konusunda size yol göstereceğiz: AWS CloudFormation, işlem hattını test etme ve yeni form sürümleri ekleme. Bu ardışık düzen, her bileşen (alma, metin çıkarma, metin işleme) bağımsız ve yalıtılmış olduğundan, sürdürülebilir bir çözüm sağlar.
CloudFormation yığınları için varsayılan giriş parametrelerini tanımlayın
CloudFormation yığınları için giriş parametrelerini tanımlamak için default.properties
altında params
klasörüne gidin ve aşağıdaki kodu girin:
Çözümü dağıtın
İşlem hattınızı dağıtmak için aşağıdaki adımları tamamlayın:
- Klinik Yığını Başlat:
- Klinik Sonraki.
- Aşağıdaki ekran görüntüsünde gösterildiği gibi yığın ayrıntılarını belirtin ve Sonraki.
- içinde Yığın seçeneklerini yapılandırma bölümüne isteğe bağlı etiketler, izinler ve diğer gelişmiş ayarlar ekleyin.
- Klinik Sonraki.
- Yığın ayrıntılarını gözden geçirin ve AWS CloudFormation'ın özel adlarla IAM kaynakları oluşturabileceğini kabul ediyorum.
- Klinik Yığın oluştur.
Bu, AWS hesabınızda yığın dağıtımını başlatır.
Yığın başarıyla dağıtıldıktan sonra, sonraki bölümde açıklandığı gibi işlem hattını test etmeye başlayabilirsiniz.
Boru hattını test edin
Başarılı bir dağıtımdan sonra işlem hattınızı test etmek için aşağıdaki adımları tamamlayın:
- Atomic Cüzdanı indirin : örnek dosyalar Bilgisayarınıza.
- Bir oluşturma
/uploads
yeni oluşturulan giriş S3 kovasının altındaki klasör (bölüm).
- Gibi ayrı klasörler (bölümler) oluşturun
jobapplications
altında/uploads
.
- Örnek dokümanlar klasöründen iş başvurusunun ilk sürümünü şuraya yükleyin:
/uploads/jobapplications
bölüm.
İşlem hattı tamamlandığında, belgenin bu sürümü için çıkarılan anahtar/değer çiftini şurada bulabilirsiniz: /OuputS3/03-textract-parsed-output/jobapplications
Amazon S3 konsolunda.
Athena tablosunda da bulabilirsiniz (applications_data_table
) üzerinde veritabanı Menü (jobapplicationsdatabase
).
- Örnek dokümanlar klasöründen iş başvurusunun ikinci sürümünü şuraya yükleyin:
/uploads/jobapplications
bölüm.
İşlem hattı tamamlandığında, bu sürüm için çıkarılan anahtar/değer çiftini şurada bulabilirsiniz: /OuputS3/03-textract-parsed-output/jobapplications
Amazon S3 konsolunda.
Athena tablosunda da bulabilirsiniz (applications_data_table
) üzerinde veritabanı Menü (jobapplicationsdatabase
).
Sen bittin! İşlem hattınızı başarıyla dağıttınız.
Yeni form sürümleri ekle
Yeni bir form sürümü için çözümü güncellemek basittir; her form sürümünün yalnızca işleme yığınındaki sorguları test ederek güncellenmesi gerekir.
Güncellemeleri yaptıktan sonra, AWS CloudFormation API'lerini kullanarak güncellenmiş işlem hattını yeniden dağıtabilir ve yeni belgeleri işleyebilir, işlem hattınızda değişiklik yapmak için gereken minimum kesinti ve geliştirme çabasıyla şemanız için aynı standart veri noktalarına ulaşabilirsiniz. Athena'da ayrıştırma ve çıkarma davranışını ayırarak ve JSON SerDe işlevselliğini kullanarak elde edilen bu esneklik, bu ardışık düzeni kuruluşunuzun bilgi toplamak için işlemesi gereken herhangi bir sayıda form sürümü için sürdürülebilir bir çözüm haline getirir.
Alma çözümünü çalıştırırken, gelen formlardan gelen veriler, dosyalar ve bunlarla ilişkili girdiler hakkındaki bilgilerle otomatik olarak Athena'ya doldurulur. Formlarınızdaki veriler yapılandırılmamış verilerden yapılandırılmış verilere geçtiğinde, analitik, makine öğrenimi modelleme ve daha fazlası gibi aşağı akış uygulamaları için kullanıma hazırdır.
Temizlemek
Devam eden ücretlere maruz kalmamak için işiniz bittiğinde bu çözümün bir parçası olarak oluşturduğunuz kaynakları silin.
- Amazon S3 konsolunda, CloudFormation yığınının parçası olarak oluşturduğunuz paketleri manuel olarak silin.
- AWS CloudFormation konsolunda şunu seçin: Yığınları Gezinti bölmesinde.
- Ana yığını seçin ve Sil.
Bu, iç içe geçmiş yığınları otomatik olarak siler.
Sonuç
Bu gönderide, belge işlemeyi izlemek ve özelleştirmek isteyen müşterilerin Amazon Textract ile olay odaklı, sunucusuz, çok formatlı bir belge ayrıştırma işlem hattını nasıl oluşturup dağıtabileceğini gösterdik. Bu ardışık düzen, her bileşen (alma, metin çıkarma, metin işleme) bağımsız ve yalıtılmış olduğundan, kuruluşların çözümlerini farklı işleme ihtiyaçlarını karşılayacak şekilde operasyonel hale getirmelerine olanak tanıdığı için sürdürülebilir bir çözüm sunar.
Çözümü bugün deneyin ve görüşlerinizi yorumlar bölümünde bırakın.
Yazarlar Hakkında
Emily Soward AWS Profesyonel Hizmetlerine sahip bir Veri Bilimcisidir. Birleşik Krallık, İskoçya'daki Edinburgh Üniversitesi'nden Doğal Dil İşleme (NLP) ağırlıklı olmak üzere Yapay Zeka alanında Üstün Bilim Yüksek Lisansına sahiptir. Emily, kamu ve özel sektör kuruluşlarında çalışan AI iş yükleri için AI özellikli ürün araştırma ve geliştirme, operasyonel mükemmellik ve yönetişime odaklanan uygulamalı bilimsel ve mühendislik rollerinde hizmet vermiştir. AWS Kıdemli Konuşmacısı olarak ve yakın zamanda AWS Well-Architected in the Machine Learning Lens'in yazarı olarak müşteri rehberliğine katkıda bulunuyor.
Sandeep Singh AWS Profesyonel Hizmetlerine sahip bir Veri Bilimcisidir. San Diego Eyalet Üniversitesi'nden (SDSU), California'dan Yapay Zeka ve Veri Bilimi alanında yoğunlaşan Bilgi Sistemleri Yüksek Lisans derecesine sahiptir. Güçlü bir bilgisayar bilimi geçmişine sahip eksiksiz bir Veri Bilimcisi ve Yapay Zeka Sistemleri ve Kontrol tasarımında uzmanlığa sahip Güvenilir danışmandır. Müşterilerin yüksek etkiye sahip projelerini doğru yönde almalarına yardımcı olmak, onlara Bulut yolculuklarında tavsiyelerde bulunmak ve rehberlik etmek ve son teknoloji AI/ML özellikli çözümler oluşturmak konusunda tutkulu.
- Akıllı para. Avrupa'nın En İyi Bitcoin ve Kripto Borsası.
- Plato blok zinciri. Web3 Metaverse Zekası. Bilgi Güçlendirildi. SERBEST ERİŞİM.
- KriptoHawk. Altcoin Radarı. Ücretsiz deneme.
- Kaynak: https://aws.amazon.com/blogs/machine-learning/build-a-traceable-custom-multi-format-document-parsing-pipeline-with-amazon-texttract/
- "
- 100
- Hakkımızda
- Hesap
- elde
- karşısında
- adres
- ileri
- AI
- AI hizmetleri
- Türkiye
- Izin
- Amazon
- analytics
- api
- API'ler
- Uygulama
- uygulamaları
- yaklaşım
- mimari
- yapay
- yapay zeka
- AWS
- arka fon
- sınır
- inşa etmek
- bina
- iş
- Kaliforniya
- Sebeb olmak
- zorluklar
- değişiklik
- yükler
- bulut
- kod
- yorumlar
- ortak
- bileşen
- Bilgisayar Bilimleri
- konsantrasyon
- konsolos
- içerik
- kontrol
- Müşteriler
- veri
- veri bilimi
- veri bilimcisi
- veritabanı
- gösterdi
- dağıtmak
- açılma
- Dizayn
- gelişme
- farklı
- Bozulma
- evraklar
- Mühendislik
- Etkinlikler
- örnek
- geribesleme
- Alanlar
- mali
- finansal hizmetler
- Ad
- Esneklik
- akış
- odaklanmış
- takip etme
- Airdrop Formu
- biçim
- formlar
- tam
- işlevsellik
- yönetim
- sağlık
- Yüksek
- tutar
- Ne kadar
- Nasıl Yapılır
- HTTPS
- darbe
- Endüstri
- sanayi
- bilgi
- entegrasyonlar
- İstihbarat
- IT
- İş
- Krallık
- dil
- öğrenme
- Ayrılmak
- Uzun
- makine
- makine öğrenme
- korumak
- yönetim
- yönetme
- el ile
- ML
- Doğal (Madenden)
- Navigasyon
- numara
- teklif
- Teklifler
- açık
- kuruluşlar
- örgütsel
- organizasyonlar
- Diğer
- uygulama
- Tahminler
- birincil
- özel
- Sorun
- süreç
- PLATFORM
- profesyonel
- Projeler
- sağlar
- halka açık
- araştırma
- araştırma ve geliştirme
- Kaynaklar
- yanıt
- Sonuçlar
- koşmak
- koşu
- San
- Bilim
- bilim adamı
- sektör
- Sektörler
- arayan
- Serverless
- hizmet
- Hizmetler
- set
- ayar
- Basit
- So
- çözüm
- Çözümler
- ÇÖZMEK
- bir şey
- konuşmacı
- yığın
- başlama
- Eyalet
- state-of-the-art
- hafızası
- mağaza
- güçlü
- başarılı
- Başarılı olarak
- Sistemler
- Hedef
- vergi
- test
- Test yapmak
- İçinden
- bugün
- araç
- araçlar
- iz
- geleneksel
- Birleşik
- İngiltere
- üniversite
- Güncellemeler
- kullanım
- değer
- içinde
- çalışma
- yıl
- yıl