Buat Saluran Parsing Dokumen Multi-format yang Dapat Dilacak, Kustom, Dengan Amazon Textract

Diterbitkan Ulang Oleh Plato

Followers: 0

Formulir organisasi berfungsi sebagai alat bisnis utama di seluruh industri—mulai dari layanan keuangan, hingga perawatan kesehatan, dan banyak lagi. Pertimbangkan, misalnya, formulir pengajuan pajak di industri manajemen pajak, di mana formulir baru keluar setiap tahun dengan sebagian besar informasi yang sama. Pelanggan AWS lintas sektor perlu memproses dan menyimpan informasi dalam bentuk sebagai bagian dari praktik bisnis harian mereka. Bentuk-bentuk ini sering berfungsi sebagai sarana utama informasi mengalir ke dalam organisasi di mana sarana teknologi pengambilan data tidak praktis.

Selain menggunakan formulir untuk menangkap informasi, selama bertahun-tahun menawarkan Teks Amazon, kami telah mengamati bahwa pelanggan AWS sering membuat versi formulir organisasi mereka berdasarkan perubahan struktural yang dibuat, bidang yang ditambahkan atau diubah, atau pertimbangan lain seperti perubahan tahun atau versi formulir.

Ketika struktur atau konten formulir berubah, seringkali ini dapat menyebabkan tantangan bagi sistem OCR tradisional atau memengaruhi alat hilir yang digunakan untuk menangkap informasi, bahkan ketika Anda perlu menangkap informasi yang sama dari tahun ke tahun dan menggabungkan data untuk digunakan terlepas dari formatnya. dari dokumen.

Untuk mengatasi masalah ini, dalam posting ini kami mendemonstrasikan bagaimana Anda dapat membangun dan menerapkan pipeline parsing dokumen multi-format yang digerakkan oleh peristiwa, tanpa server dengan Amazon Textract.

Ikhtisar solusi

Diagram berikut menggambarkan arsitektur solusi kami:

Pertama, solusinya menawarkan penyerapan pipa menggunakan Layanan Penyimpanan Sederhana Amazon (Amazon S3), Pemberitahuan Peristiwa Amazon S3, dan Layanan Antrian Sederhana Amazon (Amazon SQS) agar pemrosesan dimulai saat formulir mendarat di partisi Amazon S3 target. Sebuah acara di Jembatan Acara Amazon dibuat dan dikirim ke AWS Lambda target yang memicu pekerjaan Amazon Textract.

Anda dapat menggunakan layanan AWS tanpa server seperti Lambda dan Fungsi Langkah AWS untuk membuat integrasi layanan asinkron antara layanan AWS AI dan layanan AWS Analytics dan Database untuk pergudangan, analitik, serta AI dan pembelajaran mesin (ML). Dalam postingan ini, kami mendemonstrasikan cara menggunakan Step Functions untuk mengontrol dan mempertahankan status permintaan ke API asinkron Amazon Textract secara asinkron. Hal ini dicapai dengan menggunakan mesin negara untuk mengelola panggilan dan tanggapan. Kami menggunakan Lambda dalam mesin status untuk menggabungkan data respons API yang diberi halaman dari Amazon Textract ke dalam satu objek JSON yang berisi data teks semi-terstruktur yang diekstraksi menggunakan OCR.

Kemudian kami memfilter berbagai bentuk menggunakan pendekatan standar untuk menggabungkan data OCR ini ke dalam format terstruktur umum menggunakan Amazon Athena dan SQL Amazon Textract JSON SerDe.

Anda dapat melacak langkah-langkah yang diambil melalui pipa ini menggunakan Fungsi Langkah tanpa server untuk melacak status pemrosesan dan mempertahankan output dari setiap status. Ini adalah sesuatu yang lebih disukai pelanggan di beberapa industri saat bekerja dengan data di mana Anda harus mempertahankan hasil semua prediksi dari layanan seperti Amazon Textract untuk mempromosikan kemampuan menjelaskan hasil saluran Anda dalam jangka panjang.

Terakhir, Anda dapat mengkueri data yang diekstraksi di tabel Athena.

Di bagian berikut, kami memandu Anda menyiapkan saluran menggunakan Formasi AWS Cloud, menguji saluran, dan menambahkan versi formulir baru. Pipeline ini memberikan solusi yang dapat dipelihara karena setiap komponen (serap, ekstraksi teks, pemrosesan teks) bersifat independen dan terisolasi.

Tentukan parameter input default untuk tumpukan CloudFormation

Untuk menentukan parameter input untuk tumpukan CloudFormation, buka default.properties bawah params folder dan masukkan kode berikut:

- set the default value for parameter 'pInputBucketName' for Input S3 bucket - set the default value for parameter 'pOutputBucketName' for Output S3 bucket - set the default value for parameter 'pInputQueueName' for Ingest SQS (a.k.a job scheduler)

Terapkan solusinya

Untuk men-deploy pipeline Anda, selesaikan langkah-langkah berikut:

Pilih Luncurkan Stack:
Pilih Selanjutnya.
Tentukan detail tumpukan seperti yang ditunjukkan pada tangkapan layar berikut dan pilih Selanjutnya.
Dalam majalah Konfigurasikan opsi tumpukan bagian, tambahkan tag opsional, izin, dan pengaturan lanjutan lainnya.
Pilih Selanjutnya.
Tinjau detail tumpukan dan pilih Saya mengakui bahwa AWS CloudFormation dapat membuat sumber daya IAM dengan nama khusus.
Pilih Buat tumpukan.

Ini memulai penerapan tumpukan di akun AWS Anda.

Setelah tumpukan berhasil di-deploy, Anda dapat mulai menguji pipeline seperti yang dijelaskan di bagian berikutnya.

Uji pipa

Setelah penerapan berhasil, selesaikan langkah-langkah berikut untuk menguji saluran Anda:

Download file sampel ke komputer Anda.
Buat /uploads folder (partisi) di bawah ember S3 input yang baru dibuat.
Buat folder terpisah (partisi) seperti jobapplications bawah /uploads.
Unggah versi pertama lamaran pekerjaan dari folder contoh dokumen ke /uploads/jobapplications partisi.

Ketika pipeline selesai, Anda dapat menemukan nilai kunci yang diekstrak untuk versi dokumen ini di /OuputS3/03-textract-parsed-output/jobapplications di konsol Amazon S3.

Anda juga dapat menemukannya di tabel Athena (applications_data_table) pada Basis Data Tidak bisa (jobapplicationsdatabase).

Unggah versi kedua lamaran pekerjaan dari folder contoh dokumen ke /uploads/jobapplications partisi.

Ketika saluran selesai, Anda dapat menemukan nilai kunci yang diekstraksi untuk versi ini di /OuputS3/03-textract-parsed-output/jobapplications di konsol Amazon S3.

Anda juga dapat menemukannya di tabel Athena (applications_data_table) pada Basis Data Tidak bisa (jobapplicationsdatabase).

Kamu sudah selesai! Anda telah berhasil men-deploy pipeline Anda.

Tambahkan versi formulir baru

Memperbarui solusi untuk versi formulir baru sangatlah mudah—setiap versi formulir hanya perlu diperbarui dengan menguji kueri di tumpukan pemrosesan.

Setelah Anda melakukan pembaruan, Anda dapat menerapkan ulang pipeline yang diperbarui menggunakan AWS CloudFormation API dan memproses dokumen baru, sampai pada titik data standar yang sama untuk skema Anda dengan gangguan minimal dan upaya pengembangan yang diperlukan untuk membuat perubahan pada pipeline Anda. Fleksibilitas ini, yang dicapai dengan memisahkan perilaku penguraian dan ekstraksi dan menggunakan fungsionalitas JSON SerDe di Athena, menjadikan saluran pipa ini solusi yang dapat dipelihara untuk sejumlah versi formulir yang perlu diproses organisasi Anda untuk mengumpulkan informasi.

Saat Anda menjalankan solusi penyerapan, data dari formulir yang masuk secara otomatis diisi ke Athena dengan informasi tentang file dan input yang terkait dengannya. Saat data dalam formulir Anda berpindah dari data tidak terstruktur ke data terstruktur, data tersebut siap digunakan untuk aplikasi hilir seperti analitik, pemodelan ML, dan lainnya.

Membersihkan

Untuk menghindari timbulnya tagihan berkelanjutan, hapus sumber daya yang Anda buat sebagai bagian dari solusi ini setelah selesai.

Di konsol Amazon S3, hapus secara manual bucket yang Anda buat sebagai bagian dari tumpukan CloudFormation.
Pada konsol AWS CloudFormation, pilih Tumpukan di panel navigasi.
Pilih tumpukan utama dan pilih Delete.

Ini secara otomatis menghapus tumpukan bersarang.

Kesimpulan

Dalam postingan ini, kami mendemonstrasikan bagaimana pelanggan yang ingin melacak dan menyesuaikan pemrosesan dokumen dapat membangun dan menerapkan pipeline parsing dokumen multi-format yang digerakkan oleh peristiwa, tanpa server dengan Amazon Textract. Pipeline ini memberikan solusi yang dapat dipelihara karena setiap komponen (serap, ekstraksi teks, pemrosesan teks) bersifat independen dan terisolasi, memungkinkan organisasi untuk mengoperasionalkan solusi mereka untuk memenuhi kebutuhan pemrosesan yang beragam.

Coba solusinya hari ini dan tinggalkan tanggapan Anda di bagian komentar.

Tentang Penulis

Emily Soward adalah Ilmuwan Data dengan Layanan Profesional AWS. Beliau meraih gelar Master of Science with Distinction in Artificial Intelligence dari University of Edinburgh di Skotlandia, Inggris dengan penekanan pada Natural Language Processing (NLP). Emily telah bertugas dalam peran ilmiah dan teknik terapan yang berfokus pada penelitian dan pengembangan produk berkemampuan AI, keunggulan operasional, dan tata kelola untuk beban kerja AI yang berjalan di organisasi di sektor publik dan swasta. Dia berkontribusi pada panduan pelanggan sebagai Pembicara Senior AWS dan baru-baru ini, sebagai penulis untuk AWS Well-Architected in the Machine Learning Lens.

Sandeep Singh adalah Ilmuwan Data dengan Layanan Profesional AWS. Meraih gelar Master of Science in Information Systems dengan konsentrasi AI dan Data Science dari San Diego State University (SDSU), California. Dia adalah Ilmuwan Data lengkap dengan latar belakang ilmu komputer yang kuat dan penasihat Tepercaya dengan spesialisasi dalam Sistem AI dan desain Kontrol. Dia bersemangat membantu pelanggan untuk mendapatkan proyek berdampak tinggi mereka ke arah yang benar, menasihati dan membimbing mereka dalam perjalanan Cloud mereka, dan membangun solusi berkemampuan AI/ML yang canggih.

Stempel Waktu: 17 Maret, 2022

Stempel Waktu: April 4, 2022

Bangun saluran penguraian dokumen multi-format yang dapat dilacak, kustom, dengan Amazon Textract

Diterbitkan Ulang Oleh Plato

Ikhtisar solusi

Tentukan parameter input default untuk tumpukan CloudFormation

Terapkan solusinya

Uji pipa

Tambahkan versi formulir baru

Membersihkan

Kesimpulan

Tentang Penulis

Lebih dari Pembelajaran Mesin AWS

Sempurnakan Kode Llama di Amazon SageMaker JumpStart | Layanan Web Amazon

Dukungan format data baru yang diperluas di Amazon Kendra

Buat audio untuk konten dalam berbagai bahasa dengan persona suara TTS yang sama di Amazon Polly

Bagaimana Sportradar menggunakan Perpustakaan Deep Java untuk membangun platform ML skala produksi untuk meningkatkan kinerja dan efisiensi

AlexaTM 20B kini tersedia di Amazon SageMaker JumpStart

Buat backend ringkasan rapat tanpa server dengan model bahasa besar di Amazon SageMaker JumpStart | Layanan Web Amazon

Bangun saluran analisis sentimen MLOps menggunakan Amazon SageMaker Ground Truth dan Databricks MLflow

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun