Memperkenalkan Klasifikasi Satu Langkah dan Pengenalan Entitas Dengan Amazon Comprehensid Untuk Pemrosesan Dokumen Cerdas

Diterbitkan Ulang Oleh Plato

Followers: 0

“Solusi pemrosesan dokumen cerdas (IDP) mengekstrak data untuk mendukung otomatisasi tugas pemrosesan dokumen berulang dan bervolume tinggi serta untuk analisis dan wawasan. IDP menggunakan teknologi bahasa alami dan visi komputer untuk mengekstrak data dari konten terstruktur dan tidak terstruktur, terutama dari dokumen, untuk mendukung otomatisasi dan augmentasi.” – Gartner

Sasaran pemrosesan dokumen cerdas (IDP) Amazon adalah untuk mengotomatiskan pemrosesan dokumen dalam jumlah besar menggunakan pembelajaran mesin (ML) untuk meningkatkan produktivitas, mengurangi biaya yang terkait dengan tenaga kerja manusia, dan memberikan pengalaman pengguna yang mulus. Pelanggan menghabiskan banyak waktu dan upaya untuk mengidentifikasi dokumen dan mengekstraksi informasi penting darinya untuk berbagai kasus penggunaan. Hari ini, Amazon Comprehend mendukung klasifikasi untuk dokumen teks biasa, yang mengharuskan Anda memproses dokumen dalam format semi-terstruktur (pindaian, PDF digital atau gambar seperti PNG, JPG, TIFF) dan kemudian menggunakan keluaran teks biasa untuk menjalankan inferensi dengan klasifikasi khusus model. Demikian pula untuk pengakuan entitas kustom secara real time, preprocessing untuk mengekstrak teks diperlukan untuk dokumen semi-terstruktur seperti file PDF dan gambar. Proses dua langkah ini menimbulkan kerumitan dalam alur kerja pemrosesan dokumen.

Tahun lalu, kita mengumumkan dukungan untuk format dokumen asli dengan pengakuan entitas bernama kustom (NER) pekerjaan asinkron. Hari ini, kami dengan senang hati mengumumkan klasifikasi dokumen satu langkah dan analisis waktu nyata untuk NER untuk dokumen semi-terstruktur dalam format asli (PDF, TIFF, JPG, PNG) menggunakan Amazon Comprehend. Secara khusus, kami mengumumkan kemampuan berikut:

Dukungan untuk dokumen dalam format asli untuk analisis real-time klasifikasi khusus dan pekerjaan asinkron
Dukungan untuk dokumen dalam format asli untuk analisis real-time pengenalan entitas kustom

Dengan rilis baru ini, klasifikasi kustom dan pengenalan entitas kustom (NER) Amazon Comprehend mendukung dokumen dalam format seperti PDF, TIFF, PNG, dan JPEG secara langsung, tanpa perlu mengekstrak teks biasa berenkode UTF8 dari dokumen tersebut. Gambar berikut membandingkan proses sebelumnya dengan prosedur dan dukungan baru.

Fitur ini menyederhanakan alur kerja pemrosesan dokumen dengan meniadakan langkah prapemrosesan yang diperlukan untuk mengekstrak teks biasa dari dokumen, dan mengurangi keseluruhan waktu yang diperlukan untuk memprosesnya.

Dalam postingan ini, kami membahas desain solusi alur kerja IDP tingkat tinggi, beberapa kasus penggunaan industri, fitur baru Amazon Comprehend, dan cara menggunakannya.

Ikhtisar solusi

Mari kita mulai dengan menjelajahi kasus penggunaan umum di industri asuransi. Proses klaim asuransi tipikal melibatkan paket klaim yang mungkin berisi banyak dokumen. Saat klaim asuransi diajukan, itu termasuk dokumen seperti formulir klaim asuransi, laporan insiden, dokumen identitas, dan dokumen klaim pihak ketiga. Volume dokumen untuk memproses dan mengadili klaim asuransi dapat mencapai ratusan bahkan ribuan halaman tergantung pada jenis klaim dan proses bisnis yang terlibat. Perwakilan dan juri klaim asuransi biasanya menghabiskan ratusan jam secara manual untuk memilah, menyortir, dan mengekstraksi informasi dari ratusan atau bahkan ribuan pengajuan klaim.

Mirip dengan kasus penggunaan industri asuransi, industri pembayaran juga memproses dokumen semi-terstruktur dalam jumlah besar untuk perjanjian pembayaran lintas batas, faktur, dan pernyataan valas. Pengguna bisnis menghabiskan sebagian besar waktunya untuk aktivitas manual seperti mengidentifikasi, mengatur, memvalidasi, mengekstraksi, dan meneruskan informasi yang diperlukan ke aplikasi hilir. Proses manual ini membosankan, berulang, rawan kesalahan, mahal, dan sulit diukur. Industri lain yang menghadapi tantangan serupa termasuk hipotek dan pinjaman, perawatan kesehatan dan ilmu kehidupan, hukum, akuntansi, dan manajemen pajak. Sangatlah penting bagi bisnis untuk memproses dokumen dalam jumlah besar secara tepat waktu dengan tingkat akurasi yang tinggi dan upaya manual nominal.

Amazon Comprehend memberikan kemampuan utama untuk mengotomatisasi klasifikasi dokumen dan ekstraksi informasi dari volume besar dokumen dengan akurasi tinggi, dengan cara yang dapat diskalakan dan hemat biaya. Diagram berikut menunjukkan alur kerja logis IDP dengan Amazon Comprehend. Inti alur kerja terdiri dari klasifikasi dokumen dan ekstraksi informasi menggunakan NER dengan model kustom Amazon Comprehend. Diagram tersebut juga menunjukkan bagaimana model kustom dapat terus ditingkatkan untuk memberikan akurasi yang lebih tinggi seiring berkembangnya dokumen dan proses bisnis.

Klasifikasi dokumen kustom

Dengan klasifikasi khusus Amazon Comprehend, Anda dapat mengatur dokumen Anda ke dalam kategori (kelas) yang telah ditentukan sebelumnya. Pada tingkat tinggi, berikut adalah langkah-langkah untuk menyiapkan pengklasifikasi dokumen kustom dan melakukan klasifikasi dokumen:

Siapkan data pelatihan untuk melatih pengklasifikasi dokumen kustom.
Latih pengklasifikasi dokumen pelanggan dengan data pelatihan.
Setelah model dilatih, terapkan titik akhir real-time secara opsional.
Lakukan klasifikasi dokumen dengan pekerjaan asinkron atau secara real time menggunakan titik akhir.

Langkah 1 dan 2 biasanya dilakukan pada awal proyek IDP setelah kelas dokumen yang relevan dengan proses bisnis diidentifikasi. Model pengklasifikasi khusus kemudian dapat dilatih ulang secara berkala untuk meningkatkan akurasi dan memperkenalkan kelas dokumen baru. Anda dapat melatih model klasifikasi khusus baik di mode multi-kelas or mode multi-label. Pelatihan dapat dilakukan untuk masing-masing dengan salah satu dari dua cara: menggunakan file CSV, atau menggunakan file manifes yang diperbesar. Mengacu pada Menyiapkan data pelatihan untuk detail selengkapnya tentang melatih model klasifikasi khusus. Setelah model pengklasifikasi khusus dilatih, dokumen dapat diklasifikasikan menggunakan analisis waktu nyata atau pekerjaan asinkron. Analisis waktu nyata membutuhkan titik akhir yang akan dikerahkan dengan model terlatih dan paling cocok untuk dokumen kecil tergantung pada kasus penggunaan. Untuk sejumlah besar dokumen, pekerjaan klasifikasi asinkron paling cocok.

Latih model klasifikasi dokumen kustom

Untuk mendemonstrasikan fitur baru, kami melatih model klasifikasi khusus dalam mode multi-label, yang dapat mengklasifikasikan dokumen asuransi ke dalam salah satu dari tujuh kelas berbeda. Kelas-kelasnya adalah INSURANCE_ID, PASSPORT, LICENSE, INVOICE_RECEIPT, MEDICAL_TRANSCRIPTION, DISCHARGE_SUMMARY, dan CMS1500. Kami ingin mengklasifikasikan dokumen sampel dalam format PDF, PNG, dan JPEG asli, disimpan dalam file Layanan Penyimpanan Sederhana Amazon (Amazon S3) bucket, menggunakan model klasifikasi. Untuk memulai tugas klasifikasi asinkron, selesaikan langkah-langkah berikut:

Di konsol Amazon Comprehend, pilih Pekerjaan analisis di panel navigasi.
Pilih Ciptakan pekerjaan.
Untuk Nama, masukkan nama untuk pekerjaan klasifikasi Anda.
Untuk Jenis analisis¸ pilih Klasifikasi khusus.
Untuk Model pengklasifikasi, pilih model klasifikasi terlatih yang sesuai.
Untuk Versi, pilih versi model yang sesuai.

Dalam majalah Memasukan data bagian, kami menyediakan lokasi tempat dokumen kami disimpan.

Untuk Masukkan format, pilih Satu dokumen per file.
Untuk Mode baca dokumen¸ pilih Paksa tindakan baca dokumen.
Untuk Tindakan membaca dokumen, pilih Teks mendeteksi teks dokumen.

Ini memungkinkan Amazon Comprehend untuk menggunakan Teks Amazon DeteksiTeks Dokumen API untuk membaca dokumen sebelum menjalankan klasifikasi. Itu DetectDocumentText API sangat membantu dalam mengekstraksi baris dan kata teks dari dokumen. Anda juga dapat memilih Dokumen analisis teks untuk Tindakan membaca dokumen, dalam hal ini Amazon Comprehend menggunakan Amazon Textract Analisis Dokumen API untuk membaca dokumen. Dengan AnalyzeDocument API, Anda dapat memilih untuk mengekstrak Meja, Formulir, atau keduanya. Itu Mode baca dokumen opsi memungkinkan Amazon Comprehend untuk mengekstrak teks dari dokumen di belakang layar, yang membantu mengurangi langkah tambahan untuk mengekstraksi teks dari dokumen, yang diperlukan dalam alur kerja pemrosesan dokumen kami.

Pengklasifikasi kustom Amazon Comprehend juga dapat memproses respons JSON mentah yang dihasilkan oleh DetectDocumentText dan AnalyzeDocument API, tanpa modifikasi atau prapemrosesan apa pun. Ini berguna untuk alur kerja yang sudah ada di mana Amazon Textract sudah terlibat dalam mengekstraksi teks dari dokumen. Dalam hal ini, output JSON dari Amazon Textract dapat diumpankan langsung ke API klasifikasi dokumen Amazon Comprehend.

Dalam majalah Data keluaran bagian, untuk Lokasi S3, tentukan lokasi Amazon S3 tempat Anda ingin pekerjaan asinkron menulis hasil inferensi.
Biarkan opsi yang tersisa sebagai default.
Pilih Ciptakan pekerjaan untuk memulai pekerjaan.

Anda dapat melihat status pekerjaan di Pekerjaan analisis .

Saat tugas selesai, kami dapat melihat output tugas analisis, yang disimpan di lokasi Amazon S3 yang disediakan selama konfigurasi tugas. Keluaran klasifikasi untuk dokumen CMS1500 contoh PDF satu halaman kami adalah sebagai berikut. Outputnya adalah file dalam format garis JSON, yang telah diformat untuk meningkatkan keterbacaan.

{
  "Classes": [
    { "Name": "CMS1500", "Score": 0.9998 },
    { "Name": "DISCHARGE_SUMMARY", "Score": 0.0001 },
    { "Name": "INSURANCE_ID", "Score": 0 },
    { "Name": "PASSPORT", "Score": 0 },
    { "Name": "LICENSE", "Score": 0 },
    { "Name": "INVOICE_RECEIPT", "Score": 0 },
    { "Name": "MEDICAL_TRANSCRIPTION", "Score": 0 }
  ],
  "DocumentMetadata": {
    "PageNumber": 1,
    "Pages": 1
  },
  "DocumentType": "NativePDFScanned",
  "File": "sample-cms1500.pdf",
  "Version": "2022-08-30"
}

Sampel sebelumnya adalah dokumen PDF satu halaman; namun, klasifikasi khusus juga dapat menangani dokumen PDF multi-halaman. Dalam kasus dokumen multi-halaman, keluarannya berisi beberapa baris JSON, di mana setiap baris adalah hasil klasifikasi dari setiap halaman dalam dokumen. Berikut ini adalah contoh keluaran klasifikasi multi-halaman:

{"Classes": [{"Name": "CMS1500", "Score": 0.4718}, {"Name": "MEDICAL_TRANSCRIPTION", "Score": 0.0841}, {"Name": "PASSPORT", "Score": 0.0722}], "DocumentMetadata": {"PageNumber": 1, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 2, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 3, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 4, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

Pengakuan entitas kustom

Dengan pengenal entitas kustom Amazon Comprehend, Anda dapat menganalisis dokumen dan mengekstrak entitas seperti kode produk atau entitas khusus bisnis yang sesuai dengan kebutuhan khusus Anda. Pada tingkat tinggi, berikut adalah langkah-langkah untuk menyiapkan pengenal entitas kustom dan melakukan deteksi entitas:

Menyiapkan data pelatihan untuk melatih pengenal entitas kustom.
Latih pengenal entitas kustom dengan data pelatihan.
Setelah model dilatih, terapkan titik akhir real-time secara opsional.
Lakukan deteksi entitas dengan pekerjaan asinkron atau secara real time menggunakan titik akhir.

Model pengenal entitas kustom dapat dilatih ulang secara berkala untuk meningkatkan akurasi dan memperkenalkan tipe entitas baru. Anda dapat melatih model pengenal entitas kustom dengan keduanya daftar entitas or penjelasan. Dalam kedua kasus tersebut, Amazon Comprehend mempelajari tentang jenis dokumen dan konteks tempat terjadinya entitas untuk membangun model pengenal entitas yang dapat menggeneralisasi untuk mendeteksi entitas baru. Mengacu pada Mempersiapkan data pelatihan untuk mempelajari selengkapnya tentang menyiapkan data pelatihan untuk pengenal entitas kustom.

Setelah model pengenal entitas kustom dilatih, deteksi entitas dapat dilakukan dengan menggunakan analisis waktu nyata atau pekerjaan asinkron. Analisis waktu nyata membutuhkan titik akhir yang akan dikerahkan dengan model terlatih dan paling cocok untuk dokumen kecil tergantung pada kasus penggunaan. Untuk sejumlah besar dokumen, pekerjaan klasifikasi asinkron paling cocok.

Latih model pengenalan entitas kustom

Untuk mendemonstrasikan deteksi entitas secara real time, kami melatih model pengenal entitas kustom dengan dokumen asuransi dan file manifes yang ditambah menggunakan anotasi kustom dan menerapkan titik akhir menggunakan model yang dilatih. Jenis entitas adalah Law Firm, Law Office Address, Insurance Company, Insurance Company Address, Policy Holder Name, Beneficiary Name, Policy Number, Payout, Required Action, dan Sender. Kami ingin mendeteksi entitas dari dokumen sampel dalam format PDF, PNG, dan JPEG asli, disimpan dalam bucket S3, menggunakan model pengenal.

Perhatikan bahwa Anda dapat menggunakan model pengenalan entitas kustom yang dilatih dengan dokumen PDF untuk mengekstrak entitas kustom dari dokumen PDF, TIFF, gambar, Word, dan teks biasa. Jika model Anda dilatih menggunakan dokumen teks dan daftar entitas, Anda hanya dapat menggunakan dokumen teks biasa untuk mengekstrak entitas.

Kami perlu mendeteksi entitas dari dokumen sampel dalam format PDF, PNG, dan JPEG asli apa pun menggunakan model pengenal. Untuk memulai pekerjaan deteksi entitas sinkron, selesaikan langkah-langkah berikut:

Di konsol Amazon Comprehend, pilih Analisis waktu nyata di panel navigasi.
Bawah Jenis analisis, pilih Kustom.
Untuk Pengakuan entitas kustom, pilih jenis model kustom.
Untuk Titik akhir, pilih titik akhir real-time yang Anda buat untuk model pengenal entitas Anda.
Pilih Unggah data Dan pilihlah Pilih File untuk mengunggah file PDF atau gambar untuk inferensi.
Pilih Input dokumen tingkat lanjut bagian dan untuk Mode baca dokumen, pilih Standar layanan.
Untuk Tindakan membaca dokumen, pilih Teks mendeteksi teks dokumen.
Pilih Menganalisa untuk menganalisis dokumen secara real time.

Entitas yang diakui tercantum dalam Wawasan bagian. Setiap entitas berisi nilai entitas (teks), jenis entitas seperti yang ditentukan oleh Anda selama proses pelatihan, dan skor kepercayaan yang sesuai.

Untuk detail selengkapnya dan panduan lengkap tentang cara melatih model pengenal entitas kustom dan menggunakannya untuk melakukan inferensi asinkron menggunakan tugas analisis asinkron, lihat Ekstrak entitas kustom dari dokumen dalam format aslinya dengan Amazon Comprehend.

Kesimpulan

Posting ini menunjukkan bagaimana Anda dapat mengklasifikasikan dan mengkategorikan dokumen semi-terstruktur dalam format aslinya dan mendeteksi entitas khusus bisnis dari dokumen tersebut menggunakan Amazon Comprehend. Anda dapat menggunakan API real-time untuk kasus penggunaan latensi rendah, atau menggunakan tugas analisis asinkron untuk pemrosesan dokumen massal.

Sebagai langkah selanjutnya, kami mendorong Anda untuk mengunjungi Amazon Comprehend Repositori GitHub untuk contoh kode lengkap untuk mencoba fitur baru ini. Anda juga dapat mengunjungi Panduan Pengembang Amazon Comprehend dan Amazon Memahami sumber daya pengembang untuk video, tutorial, blog, dan lainnya.

Tentang penulis

Wrick Talukdar adalah Arsitek Senior di tim Amazon Comprehend Service. Dia bekerja dengan pelanggan AWS untuk membantu mereka mengadopsi pembelajaran mesin dalam skala besar. Di luar pekerjaan, ia senang membaca dan fotografi.

Anjan Biswas adalah Arsitek Solusi Layanan AI Senior dengan fokus pada AI/ML dan Analisis Data. Anjan adalah bagian dari tim layanan AI di seluruh dunia dan bekerja dengan pelanggan untuk membantu mereka memahami dan mengembangkan solusi untuk masalah bisnis dengan AI dan ML. Anjan memiliki lebih dari 14 tahun pengalaman bekerja dengan rantai pasokan global, manufaktur, dan organisasi ritel, dan secara aktif membantu pelanggan memulai dan meningkatkan layanan AI AWS.

Godwin Sahayaraj Vincent adalah Arsitek Solusi Perusahaan di AWS yang sangat tertarik dengan pembelajaran mesin dan memberikan panduan kepada pelanggan untuk merancang, menerapkan, dan mengelola beban kerja dan arsitektur AWS mereka. Di waktu luangnya, dia suka bermain kriket dengan teman-temannya dan tenis dengan ketiga anaknya.

Stempel Waktu: Desember 2, 2022Desember 2, 2022

Lebih dari Pembelajaran Mesin AWS

Amazon SageMaker Feature Store kini mendukung berbagi, penemuan, dan akses lintas akun | Layanan Web Amazon

Kluster Sumber:

Pembelajaran Mesin AWS

Node Sumber: 1947390

Stempel Waktu: Februari 13, 2024

AWS melakukan penyempurnaan pada Large Language Model (LLM) untuk mengklasifikasikan ucapan beracun untuk perusahaan game besar | Layanan Web Amazon

Pembelajaran Mesin AWS

Node Sumber: 1822975

Stempel Waktu: April 7, 2023

Memperkenalkan klasifikasi satu langkah dan pengenalan entitas dengan Amazon Comprehend untuk pemrosesan dokumen cerdas

Diterbitkan Ulang Oleh Plato

Ikhtisar solusi

Klasifikasi dokumen kustom

Latih model klasifikasi dokumen kustom

Pengakuan entitas kustom

Latih model pengenalan entitas kustom

Kesimpulan

Tentang penulis

Lebih dari Pembelajaran Mesin AWS

Startup di seluruh AWS Accelerators menggunakan AI dan ML untuk menyelesaikan tantangan pelanggan yang sangat penting

Gunakan visi komputer untuk mengukur hasil pertanian dengan Label Kustom Amazon Rekognition

Peramalan yang mudah dan akurat dengan AutoGluon-TimeSeries

Bangun pendeteksi spam email menggunakan Amazon SageMaker | Layanan Web Amazon

Deteksi dan pemantauan frekuensi tinggi sumber titik emisi metana menggunakan kemampuan geospasial Amazon SageMaker | Layanan Web Amazon

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun