Moderasi, Klasifikasikan, Dan Proses Dokumen Menggunakan Amazon Rekognition Dan Amazon Textract

Diterbitkan Ulang Oleh Plato

Followers: 0

Banyak perusahaan kewalahan dengan banyaknya volume dokumen yang harus mereka proses, atur, dan klasifikasikan untuk melayani pelanggan mereka dengan lebih baik. Contohnya seperti aplikasi pinjaman, pengajuan pajak, dan penagihan. Dokumen tersebut lebih sering diterima dalam format gambar dan sebagian besar multi-halaman dan dalam format berkualitas rendah. Agar lebih kompetitif dan hemat biaya, dan untuk tetap aman dan patuh pada saat yang sama, perusahaan-perusahaan ini harus mengembangkan kemampuan pemrosesan dokumen mereka untuk mengurangi waktu pemrosesan dan meningkatkan akurasi klasifikasi dengan cara yang otomatis dan terukur. Perusahaan-perusahaan ini menghadapi tantangan berikut dalam memproses dokumen:

Melakukan moderasi pada dokumen untuk mendeteksi konten yang tidak pantas, tidak diinginkan, atau menyinggung
Klasifikasi dokumen manual, yang diadopsi oleh perusahaan kecil, memakan waktu, rawan kesalahan, dan mahal
Teknik OCR dengan sistem berbasis aturan tidak cukup cerdas dan tidak dapat mengadopsi perubahan dalam format dokumen
Perusahaan yang mengadopsi pendekatan pembelajaran mesin (ML) sering kali tidak memiliki sumber daya untuk menskalakan model mereka guna menangani lonjakan volume dokumen yang masuk

Posting ini menangani tantangan ini dan menyediakan arsitektur yang secara efisien memecahkan masalah ini. Kami menunjukkan bagaimana Anda dapat menggunakan Rekognisi Amazon dan Teks Amazon untuk mengoptimalkan dan mengurangi upaya manusia dalam memproses dokumen. Amazon Rekognition mengidentifikasi label moderasi dalam dokumen Anda dan mengklasifikasikannya menggunakan Label Kustom Amazon Rekognition. Amazon Textract mengekstrak teks dari dokumen Anda.

Dalam posting ini, kami membahas membangun dua pipeline ML (pelatihan dan inferensi) untuk memproses dokumen tanpa perlu upaya manual atau kode kustom. Langkah-langkah tingkat tinggi dalam pipa inferensi meliputi:

Lakukan moderasi pada dokumen yang diunggah menggunakan Amazon Rekognition.
Klasifikasikan dokumen ke dalam kategori yang berbeda seperti W-2, faktur, laporan mutasi bank, dan potongan pembayaran menggunakan Label Kustom Pengakuan.
Ekstrak teks dari dokumen seperti teks tercetak, tulisan tangan, formulir, dan tabel menggunakan Amazon Textract.

Ikhtisar solusi

Solusi ini menggunakan layanan AI berikut, teknologi tanpa server, dan layanan terkelola untuk mengimplementasikan arsitektur yang dapat diskalakan dan hemat biaya:

Amazon DynamoDB - Database nilai kunci dan dokumen yang memberikan kinerja milidetik satu digit pada skala apa pun.
Jembatan Acara Amazon – Bus peristiwa tanpa server untuk membangun aplikasi berbasis peristiwa dalam skala besar menggunakan peristiwa yang dihasilkan dari aplikasi Anda, aplikasi perangkat lunak sebagai layanan (SaaS) terintegrasi, dan layanan AWS.
AWS Lambda – Layanan komputasi tanpa server yang memungkinkan Anda menjalankan kode sebagai respons terhadap pemicu seperti perubahan data, perubahan status sistem, atau tindakan pengguna.
Rekognisi Amazon – Menggunakan ML untuk mengidentifikasi objek, orang, teks, adegan, dan aktivitas dalam gambar dan video, serta mendeteksi konten yang tidak pantas.
Label Kustom Amazon Rekognition – Menggunakan AutoML untuk visi komputer dan pembelajaran transfer guna membantu Anda melatih model khusus untuk mengidentifikasi objek dan pemandangan dalam gambar yang khusus untuk kebutuhan bisnis Anda.
Layanan Penyimpanan Sederhana Amazon (Amazon S3) – Berfungsi sebagai penyimpanan objek untuk dokumen Anda dan memungkinkan pengelolaan terpusat dengan kontrol akses yang disesuaikan.
Fungsi Langkah Amazon – Orkestra fungsi tanpa server yang memudahkan pengurutan fungsi Lambda dan beberapa layanan ke dalam aplikasi penting bisnis.
Teks Amazon - Menggunakan ML untuk mengekstrak teks dan data dari dokumen yang dipindai dalam format PDF, JPEG, atau PNG.

Diagram berikut menggambarkan arsitektur pipa inferensi.

Alur kerja kami mencakup langkah-langkah berikut:

Pengguna mengunggah dokumen ke dalam ember S3 input.
Unggahan tersebut memicu Pemberitahuan Acara Amazon S3 untuk menyampaikan acara waktu nyata langsung ke EventBridge. Acara Amazon S3 yang cocok dengan “object created” filter yang ditentukan untuk Aturan EventBridge memulai alur kerja Fungsi Langkah.
Alur kerja Step Functions memicu serangkaian fungsi Lambda, yang melakukan tugas berikut:
1. Fungsi pertama melakukan tugas prapemrosesan dan membuat panggilan API ke Amazon Rekognition:
  - Jika dokumen yang masuk dalam format gambar (seperti JPG atau PNG), fungsi akan memanggil API Amazon Rekognition dan menyediakan dokumen sebagai objek S3. Namun, jika dokumen dalam format PDF, fungsi tersebut mengalirkan byte gambar saat memanggil Amazon Rekognition API.
  - Jika dokumen berisi beberapa halaman, fungsi akan membagi dokumen menjadi halaman individual dan menyimpannya dalam folder perantara di bucket S3 keluaran sebelum memprosesnya satu per satu.
  - Saat tugas pra-pemrosesan selesai, fungsi membuat panggilan API ke Amazon Rekognition untuk mendeteksi konten yang tidak pantas, tidak diinginkan, atau menyinggung, dan membuat panggilan API lain ke model Label Kustom Rekognition terlatih untuk mengklasifikasikan dokumen.
2. Fungsi kedua membuat panggilan API ke Amazon Textract untuk memulai pekerjaan mengekstraksi teks dari dokumen input dan menyimpannya di bucket S3 output.
3. Fungsi ketiga menyimpan metadata dokumen seperti label moderasi, klasifikasi dokumen, keyakinan klasifikasi, ID pekerjaan Amazon Textract, dan jalur file ke dalam tabel DynamoDB.

Anda dapat menyesuaikan alur kerja sesuai kebutuhan Anda, misalnya Anda dapat menambahkan kemampuan pemrosesan bahasa alami (NLP) dalam alur kerja ini menggunakan Amazon Comprehend untuk mendapatkan wawasan tentang teks yang diekstraksi.

Jalur pelatihan

Sebelum menerapkan arsitektur ini, kami melatih model kustom untuk mengklasifikasikan dokumen ke dalam kategori yang berbeda menggunakan Label Kustom Pengakuan. Di jalur pelatihan, kami memberi label pada dokumen menggunakan Kebenaran Dasar Amazon SageMaker. Kami kemudian menggunakan dokumen berlabel untuk melatih model dengan Label Kustom Pengakuan. Dalam contoh ini, kami menggunakan Amazon SageMaker notebook untuk melakukan langkah-langkah ini, tetapi Anda juga dapat membuat anotasi pada gambar menggunakan konsol Rekognition Custom Labels. Untuk petunjuk, lihat Memberi label pada gambar.

Pelatihan Arsitektur Pipeline

Dataset

Untuk melatih model, kami menggunakan kumpulan data publik berikut yang berisi W2 dan faktur:

Anda dapat menggunakan kumpulan data lain yang relevan untuk industri Anda.

Tabel berikut merangkum pemisahan set data antara pelatihan dan pengujian.

Kelas	Perlengkapan latihan	Perangkat tes
Faktur	352	75
W-2	86	16
Total	438	91

Terapkan alur pelatihan dengan AWS CloudFormation

Anda menerapkan Formasi AWS Cloud template untuk menyediakan yang diperlukan Identitas AWS dan Manajemen Akses (IAM) peran dan komponen alur pelatihan, termasuk instans notebook SageMaker.

Luncurkan template CloudFormation berikut di Wilayah AS Timur (Virginia Utara):
Untuk Nama tumpukan, masukkan nama, seperti document-processing-training-pipeline.
Pilih Selanjutnya.
Dalam majalah Kemampuan dan transformasi bagian, pilih kotak centang untuk mengakui bahwa AWS CloudFormation mungkin membuat Sumber daya IAM.
Pilih Buat tumpukan.

Halaman detail tumpukan harus menunjukkan status tumpukan sebagai CREATE_IN_PROGRESS. Diperlukan waktu hingga 5 menit untuk mengubah status CREATE_COMPLETE. Setelah selesai, Anda dapat melihat hasilnya di Output Tab.

Setelah tumpukan berhasil diluncurkan, buka konsol SageMaker dan pilih Contoh notebook dalam nama navigasi.
Cari contoh dengan DocProcessingNotebookInstance- awalan dan tunggu sampai statusnya InService.
Bawah tindakan, pilih Buka Jupyter.

Jalankan buku catatan contoh

Untuk menjalankan buku catatan Anda, selesaikan langkah-langkah berikut:

Pilih Rekognition_Custom_Labels contoh buku catatan.
Pilih Run untuk menjalankan sel dalam contoh notebook secara berurutan.

Notebook ini mendemonstrasikan seluruh siklus proses mempersiapkan gambar pelatihan dan pengujian, melabelinya, membuat file manifes, melatih model, dan menjalankan model terlatih dengan Label Kustom Pengakuan. Atau, Anda dapat melatih dan menjalankan model menggunakan konsol Rekognition Custom Labels. Untuk petunjuk, lihat Melatih model (Konsol).

Buku catatan itu cukup jelas; Anda dapat mengikuti langkah-langkah untuk menyelesaikan pelatihan model.

Buat catatan tentang ProjectVersionArn untuk menyediakan saluran inferensi pada langkah selanjutnya.

Untuk instans notebook SageMaker, Anda dikenakan biaya untuk jenis instans yang Anda pilih, berdasarkan durasi penggunaan. Jika Anda telah selesai melatih model, Anda dapat menghentikan instans notebook untuk menghindari biaya sumber daya yang menganggur.

Terapkan saluran inferensi dengan AWS CloudFormation

Untuk men-deploy pipeline inferensi, selesaikan langkah-langkah berikut:

Luncurkan template CloudFormation berikut di Wilayah AS Timur (Virginia Utara):
Untuk Nama tumpukan, masukkan nama, seperti document-processing-inference-pipeline.
Untuk NamaDynamoDBTable, masukkan nama tabel DynamoDB yang unik; Misalnya, document-processing-table.
Untuk MasukanBucketName, masukkan nama unik untuk ember S3 yang dibuat tumpukan; Misalnya, document-processing-input-bucket.

Dokumen masukan diunggah ke keranjang ini sebelum diproses. Gunakan hanya karakter huruf kecil dan tanpa spasi saat Anda membuat nama keranjang input. Selanjutnya, operasi ini membuat bucket S3 baru, jadi jangan gunakan nama bucket yang ada. Untuk informasi lebih lanjut, lihat Aturan untuk Penamaan Bucket.

Untuk NamaKeluaranBucket, masukkan nama unik untuk keranjang keluaran Anda; misalnya document-processing-output-bucket.

Bucket ini menyimpan dokumen keluaran setelah diproses. Itu juga menyimpan halaman dokumen input PDF multi-halaman setelah dipisahkan oleh fungsi Lambda. Ikuti aturan penamaan yang sama dengan bucket input Anda.

Untuk PengakuanCustomLabelModelARN, Masukkan ProjectVersionArn nilai yang Anda catat dari buku catatan Jupyter.
Pilih Selanjutnya.
pada Konfigurasikan opsi tumpukan halaman, setel parameter tambahan untuk tumpukan, termasuk tag.
Pilih Selanjutnya.
Dalam majalah Kemampuan dan transformasi bagian, pilih kotak centang untuk mengakui bahwa AWS CloudFormation mungkin membuat sumber daya IAM.
Pilih Buat tumpukan.

Memproses dokumen melalui pipa

Kami telah menerapkan jalur pelatihan dan inferensi, dan sekarang siap untuk menggunakan solusi dan memproses dokumen.

Di konsol Amazon S3, buka keranjang input.
Unggah dokumen sampel ke dalam folder S3.

Ini memulai alur kerja. Proses mengisi tabel DynamoDB dengan klasifikasi dokumen dan label moderasi. Output dari Amazon Textract dikirimkan ke bucket S3 output di TextractOutput folder.

Kami mengirimkan beberapa contoh dokumen berbeda ke alur kerja dan menerima informasi berikut yang diisikan dalam tabel DynamoDB.

Penyimpanan metadata di DynamoDB

Jika Anda tidak melihat item di tabel DynamoDB atau dokumen yang diunggah di bucket S3 keluaran, periksa: Log Amazon CloudWatch untuk fungsi Lambda yang sesuai dan cari potensi kesalahan yang menyebabkan kegagalan.

Membersihkan

Selesaikan langkah-langkah berikut untuk membersihkan sumber daya yang digunakan untuk solusi ini:

Di konsol CloudFormation, pilih Tumpukan.
Pilih tumpukan yang digunakan untuk solusi ini.
Pilih Delete.

Langkah-langkah ini tidak menghapus bucket S3, tabel DynamoDB, dan model Label Kustom Pengakuan yang terlatih. Anda terus dikenakan biaya penyimpanan jika tidak dihapus. Anda harus menghapus sumber daya ini secara langsung melalui konsol layanan masing-masing jika Anda tidak lagi membutuhkannya.

Kesimpulan

Dalam posting ini, kami menyajikan pendekatan yang terukur, aman, dan otomatis untuk memoderasi, mengklasifikasikan, dan memproses dokumen. Perusahaan di berbagai industri dapat menggunakan solusi ini untuk meningkatkan bisnis mereka dan melayani pelanggan mereka dengan lebih baik. Ini memungkinkan pemrosesan dokumen yang lebih cepat dan akurasi yang lebih tinggi, dan mengurangi kerumitan ekstraksi data. Ini juga memberikan keamanan dan kepatuhan yang lebih baik terhadap undang-undang data pribadi dengan mengurangi tenaga kerja manusia yang terlibat dalam pemrosesan dokumen yang masuk.

Untuk informasi lebih lanjut, lihat Panduan Label Kustom Pengakuan Amazon, Panduan pengembang Amazon Rekognition dan Panduan pengembang Amazon Textract. Jika Anda baru mengenal Label Kustom Amazon Rekognition, cobalah menggunakan Tingkat Gratis kami, yang berlangsung selama 3 bulan dan mencakup 10 jam pelatihan gratis per bulan dan 4 jam inferensi gratis per bulan. Tingkat gratis Amazon Rekognition mencakup pemrosesan 5,000 gambar per bulan selama 12 bulan. Tingkat gratis Amazon Textract juga berlaku selama tiga bulan dan mencakup 1,000 halaman per bulan untuk Detect Document Text API.

Tentang Penulis

Jay Rao adalah Arsitek Solusi Utama di AWS. Dia senang memberikan panduan teknis dan strategis kepada pelanggan dan membantu mereka merancang dan mengimplementasikan solusi di AWS.

Uchenna Egbe adalah Associate Solutions Architect di AWS. Dia menghabiskan waktu luangnya untuk meneliti tentang herbal, teh, makanan super, dan bagaimana dia bisa memasukkannya ke dalam makanan sehari-harinya.

Stempel Waktu: 12 Mei 2022

Stempel Waktu: Mar 22, 2023

Moderasi, klasifikasikan, dan proses dokumen menggunakan Amazon Rekognition dan Amazon Textract

Diterbitkan Ulang Oleh Plato

Ikhtisar solusi

Jalur pelatihan

Dataset

Terapkan alur pelatihan dengan AWS CloudFormation

Jalankan buku catatan contoh

Terapkan saluran inferensi dengan AWS CloudFormation

Memproses dokumen melalui pipa

Membersihkan

Kesimpulan

Tentang Penulis

Lebih dari Pembelajaran Mesin AWS

Praktik terbaik dan pola desain untuk membangun alur kerja pembelajaran mesin dengan Amazon SageMaker Pipelines | Layanan Web Amazon

Percepat manajemen kesuksesan klien melalui klasifikasi email dengan Hugging Face di Amazon SageMaker | Layanan Web Amazon

Bagaimana Barcode Registry mendeteksi produk palsu menggunakan deteksi objek dan Amazon SageMaker

Peringkasan teks dengan Amazon SageMaker dan Hugging Face

Terapkan RStudio di lingkungan AWS Anda dan akses data lake Anda menggunakan izin AWS Lake Formation

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun