Bangun Pengenal Entitas Kustom Untuk Dokumen PDF Menggunakan Amazon Comprehend

Diterbitkan Ulang Oleh Plato

Followers: 0

Di banyak industri, sangat penting untuk mengekstrak entitas kustom dari dokumen secara tepat waktu. Ini bisa jadi menantang. Klaim asuransi, misalnya, sering kali berisi lusinan atribut penting (seperti tanggal, nama, lokasi, dan laporan) yang tersebar di seluruh dokumen yang panjang dan padat. Memindai dan mengekstrak informasi tersebut secara manual dapat rawan kesalahan dan memakan waktu. Perangkat lunak berbasis aturan dapat membantu, tetapi pada akhirnya terlalu kaku untuk beradaptasi dengan berbagai jenis dan tata letak dokumen.

Untuk membantu mengotomatisasi dan mempercepat proses ini, Anda dapat menggunakan Amazon Comprehend untuk mendeteksi entitas kustom dengan cepat dan akurat menggunakan machine learning (ML). Pendekatan ini fleksibel dan akurat, karena sistem dapat beradaptasi dengan dokumen baru dengan menggunakan apa yang telah dipelajari di masa lalu. Namun, hingga saat ini, kemampuan ini hanya dapat diterapkan pada dokumen teks biasa, yang berarti bahwa informasi posisi hilang saat mengonversi dokumen dari format aslinya. Untuk mengatasi ini, itu adalah baru-baru ini mengumumkan bahwa Amazon Comprehend dapat mengekstrak entitas kustom dalam PDF, gambar, dan format file Word.

Dalam posting ini, kami membahas contoh nyata dari industri asuransi tentang bagaimana Anda dapat membuat pengenal khusus menggunakan anotasi PDF.

Ikhtisar solusi

Kami memandu Anda melalui langkah-langkah tingkat tinggi berikut:

Buat anotasi PDF.
Gunakan anotasi PDF untuk melatih model khusus menggunakan Python API.
Dapatkan metrik evaluasi dari model yang dilatih.
Lakukan inferensi pada dokumen yang tidak terlihat.

Pada akhir posting ini, kami ingin dapat mengirim dokumen PDF mentah ke model terlatih kami, dan membuatnya menghasilkan file terstruktur dengan informasi tentang label yang kami minati. Secara khusus, kami melatih model kami untuk mendeteksi lima entitas berikut yang kami pilih karena relevansinya dengan klaim asuransi: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLoss, dan InsuredMailingAddress. Setelah membaca keluaran terstruktur, kita dapat memvisualisasikan informasi label secara langsung pada dokumen PDF, seperti pada gambar berikut.

Posting ini disertai dengan notebook Jupyter yang berisi langkah-langkah yang sama. Jangan ragu untuk mengikuti sambil menjalankan langkah-langkahnya buku catatan. Perhatikan bahwa Anda perlu mengatur Amazon SageMaker lingkungan untuk memungkinkan Amazon Comprehend membaca dari Layanan Penyimpanan Sederhana Amazon (Amazon S3) seperti yang dijelaskan di bagian atas notebook.

Buat anotasi PDF

Untuk membuat anotasi untuk dokumen PDF, Anda dapat menggunakan Kebenaran Dasar Amazon SageMaker, layanan pelabelan data terkelola sepenuhnya yang memudahkan pembuatan set data pelatihan yang sangat akurat untuk ML.

Untuk tutorial ini, kami telah membuat anotasi PDF dalam bentuk aslinya (tanpa mengonversi ke teks biasa) menggunakan Ground Truth. Pekerjaan Ground Truth menghasilkan tiga jalur yang kami butuhkan untuk melatih model Amazon Comprehend kustom kami:

sumber – Jalur ke PDF masukan.
Penjelasan – Jalur ke file JSON anotasi yang berisi informasi entitas berlabel.
Nyata – File yang menunjuk ke lokasi anotasi dan PDF sumber. File ini digunakan untuk membuat tugas pelatihan pengenalan entitas kustom Amazon Comprehend dan melatih model kustom.

Tangkapan layar berikut menunjukkan contoh anotasi.

Pekerjaan Ground Truth kustom menghasilkan anotasi PDF yang menangkap informasi tingkat blok tentang entitas. Informasi tingkat blok tersebut memberikan koordinat posisi yang tepat dari entitas (dengan blok anak yang mewakili setiap kata dalam blok entitas). Ini berbeda dari pekerjaan Ground Truth standar di mana data dalam PDF diratakan ke format tekstual dan hanya informasi offset—tetapi bukan informasi koordinat yang tepat—diambil selama anotasi. Informasi posisi yang kaya yang kami peroleh dengan paradigma anotasi khusus ini memungkinkan kami untuk melatih model yang lebih akurat.

Manifes yang dihasilkan dari jenis pekerjaan ini disebut manifes augmented, berbeda dengan CSV yang digunakan untuk anotasi standar. Untuk informasi lebih lanjut, lihat Penjelasan.

Gunakan anotasi PDF untuk melatih model khusus menggunakan API Python

File manifes yang diperbesar harus diformat dalam format JSON Lines. Dalam format JSON Lines, setiap baris dalam file adalah objek JSON lengkap diikuti oleh pemisah baris baru.

Kode berikut adalah entri dalam file manifes yang diperbesar ini.

Beberapa hal yang perlu diperhatikan:

Lima jenis pelabelan dikaitkan dengan pekerjaan ini: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLoss, dan InsuredMailingAddress.
File manifes merujuk ke lokasi PDF sumber dan lokasi anotasi.
Metadata tentang pekerjaan anotasi (seperti tanggal pembuatan) ditangkap.
Use-textract-only diatur ke False, artinya alat anotasi memutuskan apakah akan menggunakan PDFPlumber (untuk PDF asli) atau Teks Amazon (untuk PDF yang dipindai). Jika diatur ke true, Amazon Textract digunakan dalam kedua kasus (yang lebih mahal tetapi berpotensi lebih akurat).

Sekarang kita dapat melatih pengenal, seperti yang ditunjukkan pada contoh kode berikut.

Kami membuat pengenal untuk mengenali kelima jenis entitas. Kita bisa menggunakan subset dari entitas ini jika kita mau. Anda dapat menggunakan hingga 25 entitas.

Untuk detail setiap parameter, lihat buat_entity_recognizer.

Tergantung pada ukuran set pelatihan, waktu pelatihan dapat bervariasi. Untuk dataset ini, pelatihan membutuhkan waktu kurang lebih 1 jam. Untuk memantau status pekerjaan pelatihan, Anda dapat menggunakan describe_entity_recognizer API.

Dapatkan metrik evaluasi dari model terlatih

Amazon Comprehend menyediakan metrik kinerja model untuk model terlatih, yang menunjukkan seberapa baik model terlatih diharapkan membuat prediksi menggunakan input serupa. Kami dapat memperoleh metrik presisi dan ingatan global serta metrik per entitas. Model yang akurat memiliki presisi tinggi dan daya ingat tinggi. Presisi tinggi berarti model biasanya benar ketika menunjukkan label tertentu; mengingat tinggi berarti bahwa model menemukan sebagian besar label. F1 adalah metrik komposit (rata-rata harmonik) dari ukuran ini, dan karena itu tinggi ketika kedua komponen tinggi. Untuk deskripsi mendetail tentang metrik, lihat Metrik Pengenal Entitas Kustom.

Saat Anda memberikan dokumen ke tugas pelatihan, Amazon Comprehend secara otomatis memisahkannya ke dalam rangkaian pelatihan dan pengujian. Ketika model telah mencapai TRAINED status, Anda dapat menggunakan describe_entity_recognizer API lagi untuk mendapatkan metrik evaluasi pada set pengujian.

Berikut ini adalah contoh metrik global.

Berikut ini adalah contoh metrik per entitas.

Skor tinggi menunjukkan bahwa model telah belajar dengan baik bagaimana mendeteksi entitas ini.

Lakukan inferensi pada dokumen yang tidak terlihat

Mari kita jalankan inferensi dengan model terlatih kita pada dokumen yang bukan bagian dari prosedur pelatihan. Kita dapat menggunakan API asinkron ini untuk NER standar atau kustom. Jika menggunakannya untuk NER khusus (seperti dalam posting ini), kita harus melewati ARN dari model yang dilatih.

Kami dapat meninjau pekerjaan yang dikirimkan dengan mencetak tanggapan.

Kita dapat memformat output dari pekerjaan pendeteksian dengan Pandas ke dalam sebuah tabel. Itu Score nilai menunjukkan tingkat kepercayaan yang dimiliki model tentang entitas.

Akhirnya, kita dapat melapisi prediksi pada dokumen yang tidak terlihat, yang memberikan hasil seperti yang ditunjukkan di bagian atas posting ini.

Kesimpulan

Dalam posting ini, Anda melihat cara mengekstrak entitas kustom dalam format PDF asli mereka menggunakan Amazon Comprehend. Sebagai langkah selanjutnya, pertimbangkan untuk menyelam lebih dalam:

Latih pengenal Anda sendiri menggunakan buku catatan yang disertakan di sini. Ingatlah untuk menghapus sumber daya apa pun setelah selesai untuk menghindari biaya di masa mendatang.
Siapkan pekerjaan anotasi kustom Anda sendiri untuk mengumpulkan anotasi PDF untuk entitas yang Anda minati. Untuk informasi lebih lanjut, lihat Anotasi dokumen khusus untuk mengekstrak entitas bernama dalam dokumen menggunakan Amazon Comprehend.
Latih model NER khusus di konsol Amazon Comprehend. Untuk informasi lebih lanjut, lihat Ekstrak entitas kustom dari dokumen dalam format aslinya dengan Amazon Comprehend.

Tentang Penulis

Joshua Levy adalah Ilmuwan Terapan Senior di lab Amazon Machine Learning Solutions, tempat dia membantu pelanggan merancang dan membangun solusi AI/ML untuk memecahkan masalah bisnis utama.

Andrew Ang adalah Machine Learning Engineer di Amazon Machine Learning Solutions Lab, tempat dia membantu pelanggan dari berbagai spektrum industri mengidentifikasi dan membangun solusi AI/ML untuk memecahkan masalah bisnis mereka yang paling mendesak. Di luar pekerjaan, dia suka menonton vlog perjalanan & makanan.

Alex Chirayath adalah Software Engineer di Amazon Machine Learning Solutions Lab yang berfokus pada pembuatan solusi berbasis kasus penggunaan yang menunjukkan kepada pelanggan cara membuka kekuatan layanan AWS AI/ML untuk memecahkan masalah bisnis dunia nyata.

Jennifer Zhu adalah Ilmuwan Terapan dari Amazon AI Machine Learning Solutions Lab. Dia bekerja dengan pelanggan AWS yang membangun solusi AI/ML untuk kebutuhan bisnis prioritas tinggi mereka.

Niharika Jayanti adalah Front End Engineer di Amazon Machine Learning Solutions Lab – Human in the Loop team. Dia membantu menciptakan solusi pengalaman pengguna untuk pelanggan Amazon SageMaker Ground Truth.

Boris Aronchiko adalah Manajer di Amazon AI Machine Learning Solutions Lab di mana dia memimpin tim Ilmuwan dan Insinyur ML untuk membantu pelanggan AWS mewujudkan tujuan bisnis dengan memanfaatkan solusi AI/ML.

Stempel Waktu: 8 April, 2022

Stempel Waktu: Mar 29, 2022

Buat pengenal entitas kustom untuk dokumen PDF menggunakan Amazon Comprehend

Diterbitkan Ulang Oleh Plato

Ikhtisar solusi

Buat anotasi PDF

Gunakan anotasi PDF untuk melatih model khusus menggunakan API Python

Dapatkan metrik evaluasi dari model terlatih

Lakukan inferensi pada dokumen yang tidak terlihat

Kesimpulan

Tentang Penulis

Lebih dari Pembelajaran Mesin AWS

Inferensi ML hemat biaya dengan model multi-framework di Amazon SageMaker

Amazon Rekognition memperkenalkan Acara Video Streaming untuk memberikan peringatan real-time pada streaming video langsung

Kurangi konsumsi energi beban kerja pembelajaran mesin Anda hingga 90% dengan akselerator AWS yang dibuat khusus | Layanan Web Amazon

Chronomics mendeteksi hasil tes COVID-19 dengan Amazon Rekognition Custom Labels

T-Mobile US, Inc. menggunakan kecerdasan buatan melalui Amazon Transcribe dan Amazon Translate untuk mengirimkan pesan suara dalam bahasa pilihan pelanggan mereka | Layanan Web Amazon

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun