Sejumlah besar dokumen bisnis diproses setiap hari di seluruh industri. Banyak dari dokumen ini berbasis kertas, dipindai ke dalam sistem Anda sebagai gambar, atau dalam format tidak terstruktur seperti PDF. Setiap perusahaan dapat menerapkan aturan unik yang terkait dengan latar belakang bisnisnya saat memproses dokumen-dokumen ini. Bagaimana mengekstrak informasi secara akurat dan memprosesnya secara fleksibel merupakan tantangan yang dihadapi banyak perusahaan.
Amazon Intelligent Document Processing (IDP) memungkinkan Anda memanfaatkan teknologi machine learning (ML) terdepan di industri tanpa pengalaman ML sebelumnya. Posting ini memperkenalkan solusi yang termasuk dalam Lokakarya Amazon IDP menunjukkan cara memproses dokumen untuk menyajikan aturan bisnis yang fleksibel menggunakan layanan Amazon AI. Anda dapat menggunakan langkah-langkah berikut Notebook Jupyter untuk menyelesaikan laboratorium.
Teks Amazon membantu Anda mengekstrak teks dari berbagai dokumen dengan mudah, dan Amazon Augmented AI (Amazon A2I) memungkinkan Anda menerapkan tinjauan manusia terhadap prediksi ML. Template Amazon A2I default memungkinkan Anda membangun saluran tinjauan manusia berdasarkan aturan, seperti ketika skor keyakinan ekstraksi lebih rendah dari ambang batas yang ditentukan sebelumnya atau kunci yang diperlukan tidak ada. Namun dalam lingkungan produksi, Anda memerlukan alur pemrosesan dokumen untuk mendukung aturan bisnis yang fleksibel, seperti memvalidasi format string, memverifikasi tipe dan rentang data, dan memvalidasi bidang di seluruh dokumen. Posting ini menunjukkan bagaimana Anda dapat menggunakan Amazon Textract dan Amazon A2I untuk menyesuaikan alur pemrosesan dokumen umum yang mendukung aturan bisnis yang fleksibel.
Ikhtisar solusi
Untuk solusi sampel kami, kami menggunakan Formulir Pajak 990, formulir IRS (Internal Revenue Service) AS yang memberikan informasi keuangan kepada publik tentang organisasi nonprofit. Untuk contoh ini, kami hanya membahas logika ekstraksi untuk beberapa bidang pada halaman pertama formulir. Anda dapat menemukan lebih banyak contoh dokumen di Situs web IRS.
Diagram berikut mengilustrasikan alur IDP yang mendukung aturan bisnis yang disesuaikan dengan tinjauan manusia.
Arsitektur terdiri dari tiga tahap logis:
- Pencabutan โ Ekstrak data dari Formulir Pajak 990 (kami menggunakan halaman 1 sebagai contoh).
- Ambil contoh gambar yang disimpan dalam Layanan Penyimpanan Sederhana Amazon (Amazon S3).
- Panggil API Amazon Textract analyze_document menggunakan Pertanyaan fitur untuk mengekstrak teks dari halaman.
- Pengesahan โ Terapkan aturan bisnis yang fleksibel dengan tinjauan langsung.
- Validasi data yang diekstraksi terhadap aturan bisnis, seperti memvalidasi panjang bidang ID.
- Kirim dokumen ke Amazon A2I untuk ditinjau oleh manusia jika ada aturan bisnis yang gagal.
- Peninjau menggunakan UI Amazon A2I (situs web yang dapat disesuaikan) untuk memverifikasi hasil ekstraksi.
- visualisasi BI - Kita gunakan Amazon QuickSight untuk membangun dasbor intelijen bisnis (BI) yang menunjukkan wawasan proses.
Sesuaikan aturan bisnis
Anda dapat menentukan aturan bisnis umum dalam format JSON berikut. Dalam kode contoh, kami mendefinisikan tiga aturan:
- Aturan pertama adalah untuk bidang ID pemberi kerja. Aturan gagal jika skor kepercayaan Amazon Textract lebih rendah dari 99%. Untuk posting ini, kami menetapkan ambang batas skor kepercayaan tinggi, yang akan dipatahkan oleh desain. Anda dapat menyesuaikan ambang batas ke nilai yang lebih masuk akal untuk mengurangi upaya manusia yang tidak perlu di lingkungan dunia nyata, seperti 90%.
- Aturan kedua adalah untuk bidang DLN (pengidentifikasi unik formulir pajak), yang diperlukan untuk logika pemrosesan hilir. Aturan ini gagal jika bidang DLN tidak ada atau memiliki nilai kosong.
- Aturan ketiga juga untuk bidang DLN tetapi dengan tipe kondisi yang berbeda: LengthCheck. Aturan rusak jika panjang DLN bukan 16 karakter.
Kode berikut menunjukkan aturan bisnis kami dalam format JSON:
Anda dapat memperluas solusi dengan menambahkan lebih banyak aturan bisnis mengikuti struktur yang sama.
Ekstrak teks menggunakan kueri Amazon Textrac
Dalam contoh solusi, kami menyebut API Amazon Textract analyze_document pertanyaan fitur untuk mengekstrak bidang dengan mengajukan pertanyaan spesifik. Anda tidak perlu mengetahui struktur data dalam dokumen (tabel, formulir, bidang tersirat, data bersarang) atau khawatir tentang variasi di seluruh versi dan format dokumen. Kueri menggunakan kombinasi isyarat visual, spasial, dan bahasa untuk mengekstrak informasi yang Anda cari dengan akurasi tinggi.
Untuk mengekstrak nilai untuk bidang DLN, Anda dapat mengirim permintaan dengan pertanyaan dalam bahasa alami, seperti "Apa itu DLN?" Amazon Textract mengembalikan teks, keyakinan, dan metadata lainnya jika menemukan informasi yang sesuai pada gambar atau dokumen. Berikut adalah contoh permintaan kueri Amazon Textract:
Tentukan model datanya
Solusi sampel menyusun data dalam format terstruktur untuk melayani evaluasi aturan bisnis umum. Untuk mempertahankan nilai yang diekstrak, Anda dapat menentukan model data untuk setiap halaman dokumen. Gambar berikut menunjukkan bagaimana teks pada halaman 1 dipetakan ke bidang JSON.
Setiap bidang mewakili teks dokumen, kotak centang, atau sel tabel/formulir di halaman. Objek JSON terlihat seperti kode berikut:
Anda dapat menemukan definisi struktur JSON terperinci di GitHub repo.
Mengevaluasi data terhadap aturan bisnis
Solusi sampel dilengkapi dengan kelas Kondisiโmesin aturan umum yang mengambil data yang diekstraksi (sebagaimana didefinisikan dalam model data) dan aturan (sebagaimana didefinisikan dalam aturan bisnis yang disesuaikan). Ini mengembalikan dua daftar dengan kondisi gagal dan puas. Kami dapat menggunakan hasilnya untuk memutuskan apakah kami harus mengirim dokumen ke Amazon A2I untuk ditinjau oleh manusia.
Kode sumber kelas Kondisi ada dalam sampel GitHub repo. Ini mendukung logika validasi dasar, seperti memvalidasi panjang string, rentang nilai, dan ambang batas skor kepercayaan. Anda dapat memodifikasi kode untuk mendukung lebih banyak tipe kondisi dan logika validasi yang kompleks.
Buat UI web Amazon A2I yang disesuaikan
Amazon A2I memungkinkan Anda untuk menyesuaikan UI web pengulas dengan mendefinisikan a templat tugas pekerja. Template adalah halaman web statis dalam HTML dan JavaScript. Anda dapat meneruskan data ke halaman pengulas yang disesuaikan menggunakan Cair sintaks.
Dalam larutan sampel, templat UI Amazon A2I kustom menampilkan halaman di sebelah kiri dan kondisi kegagalan di sebelah kanan. Peninjau dapat menggunakannya untuk mengoreksi nilai ekstraksi dan menambahkan komentar mereka.
Tangkapan layar berikut menunjukkan UI Amazon A2I kami yang disesuaikan. Ini menunjukkan dokumen gambar asli di sebelah kiri dan kondisi gagal berikut di sebelah kanan:
- Nomor DLN harus terdiri dari 16 karakter. DLN sebenarnya memiliki 15 karakter.
- Skor kepercayaan dari employer_id lebih rendah dari 99%. Skor kepercayaan diri yang sebenarnya adalah sekitar 98%.
Peninjau dapat memverifikasi hasil ini secara manual dan menambahkan komentar di GANTI ALASAN kotak teks.
Untuk informasi selengkapnya tentang mengintegrasikan Amazon A2I ke dalam alur kerja ML kustom apa pun, lihat lebih dari 60 templat pekerja yang dibuat sebelumnya di repo GitHub dan Gunakan Amazon Augmented AI dengan Jenis Tugas Kustom.
Memproses keluaran Amazon A2I
Setelah peninjau menggunakan UI khusus Amazon A2I memverifikasi hasilnya dan memilih Kirim, Amazon A2I menyimpan file JSON di folder bucket S3. File JSON menyertakan informasi berikut di tingkat root:
- Definisi aliran Amazon A2I ARN dan nama loop manusia
- Jawaban manusia (masukan pengulas dikumpulkan oleh UI Amazon A2I yang disesuaikan)
- Konten input (data asli yang dikirim ke Amazon A2I saat memulai tugas human loop)
Berikut ini adalah contoh JSON yang dihasilkan oleh Amazon A2I:
Anda dapat menerapkan logika ekstrak, transformasi, dan muat (ETL) untuk mengurai informasi dari JSON keluaran Amazon A2I dan menyimpannya dalam file atau database. Solusi sampel dilengkapi dengan File CSV dengan data yang diproses. Anda dapat menggunakannya untuk membuat dasbor BI dengan mengikuti petunjuk di bagian selanjutnya.
Buat dasbor di Amazon QuickSight
Solusi sampel mencakup tahap pelaporan dengan dasbor visualisasi yang disajikan oleh Amazon QuickSight. Dasbor BI menunjukkan metrik utama seperti jumlah dokumen yang diproses secara otomatis atau manual, bidang paling populer yang memerlukan tinjauan manusia, dan wawasan lainnya. Dasbor ini dapat membantu Anda mengawasi alur pemrosesan dokumen dan menganalisis alasan umum yang menyebabkan peninjauan manusia. Anda dapat mengoptimalkan alur kerja dengan mengurangi input manusia lebih lanjut.
Dasbor sampel mencakup metrik dasar. Anda dapat memperluas solusi menggunakan Amazon QuickSight untuk menampilkan lebih banyak wawasan tentang data.
Perluas solusi untuk mendukung lebih banyak dokumen dan aturan bisnis
Untuk memperluas solusi guna mendukung lebih banyak halaman dokumen dengan aturan bisnis yang sesuai, Anda perlu membuat perubahan berikut:
- Buat model data untuk halaman baru dalam struktur JSON yang mewakili semua nilai yang ingin Anda ekstrak dari halaman. Mengacu kepada Tentukan model datanya bagian untuk format rinci.
- Gunakan Amazon Textract untuk mengekstrak teks dari dokumen dan mengisi nilai ke model data.
- Tambahkan aturan bisnis yang sesuai dengan halaman dalam format JSON. Mengacu kepada Sesuaikan aturan bisnis bagian untuk format rinci.
UI Amazon A2I kustom dalam solusi bersifat umum, yang tidak memerlukan perubahan untuk mendukung aturan bisnis baru.
Kesimpulan
Pemrosesan dokumen cerdas sangat diminati, dan perusahaan memerlukan saluran khusus untuk mendukung logika bisnis unik mereka. Amazon A2I juga menawarkan template bawaan yang terintegrasi dengan Amazon Textract untuk mengimplementasikan kasus penggunaan tinjauan manusia Anda. Ini juga memungkinkan Anda untuk menyesuaikan halaman peninjau untuk memenuhi persyaratan yang fleksibel.
Posting ini memandu Anda melalui solusi referensi menggunakan Amazon Textract dan Amazon A2I untuk membangun pipeline IDP yang mendukung aturan bisnis yang fleksibel. Anda dapat mencobanya menggunakan Notebook Jupyter di repo bengkel IDP GitHub.
Tentang penulis
Lana Zhang adalah Sr. Solutions Architect di tim AWS WWSO AI Services dengan keahlian dalam AI dan ML untuk pemrosesan dokumen cerdas dan moderasi konten. Dia bersemangat dalam mempromosikan layanan AWS AI dan membantu pelanggan mengubah solusi bisnis mereka.
Sonali Sahu memimpin tim Intelligent Document Processing AI/ML Solutions Architect di Amazon Web Services. Dia adalah seorang technophile yang bersemangat dan senang bekerja dengan pelanggan untuk memecahkan masalah kompleks menggunakan inovasi. Area fokus utamanya adalah Artificial Intelligence & Machine Learning untuk Intelligent Document Processing.
- Lanjutan (300)
- AI
- ai seni
- generator seni ai
- punya robot
- Amazon Augmented AI
- Amazon QuickSight
- Teks Amazon
- kecerdasan buatan
- sertifikasi kecerdasan buatan
- kecerdasan buatan dalam perbankan
- robot kecerdasan buatan
- robot kecerdasan buatan
- perangkat lunak kecerdasan buatan
- Pembelajaran Mesin AWS
- blockchain
- konferensi blockchain
- kecerdasan
- kecerdasan buatan percakapan
- konferensi kripto
- dall's
- belajar mendalam
- google itu
- Mesin belajar
- plato
- plato ai
- Kecerdasan Data Plato
- Permainan Plato
- Data Plato
- permainan plato
- skala ai
- sintaksis
- Petunjuk Teknis
- zephyrnet.dll