Teks Amazon adalah layanan pembelajaran mesin (ML) yang secara otomatis mengekstrak teks, tulisan tangan, dan data dari dokumen yang dipindai. Pertanyaan adalah fitur yang memungkinkan Anda mengekstrak informasi tertentu dari berbagai dokumen kompleks menggunakan bahasa alami. Kueri Khusus memberikan cara bagi Anda untuk menyesuaikan fitur Kueri untuk dokumen non-standar khusus bisnis Anda seperti kontrak pinjaman mobil, cek, dan laporan pembayaran, dengan cara layanan mandiri. Dengan menyesuaikan fitur untuk mengenali istilah unik, struktur, dan informasi penting yang spesifik untuk jenis dokumen ini, Anda dapat memenuhi kebutuhan pemrosesan hilir dengan lebih presisi dan intervensi manusia minimal. Kueri Kustom mudah diintegrasikan ke dalam pipeline Textract yang ada dan Anda terus mendapatkan manfaat dari fitur pemrosesan dokumen cerdas yang terkelola sepenuhnya di Amazon Textract tanpa harus berinvestasi dalam keahlian ML atau manajemen infrastruktur.
Dalam postingan ini, kami menunjukkan bagaimana Kueri Khusus dapat secara akurat mengekstrak data dari pemeriksaan yang merupakan dokumen non-standar yang kompleks. Selain itu, kami mendiskusikan manfaat Kueri Khusus dan berbagi praktik terbaik untuk menggunakan fitur ini secara efektif.
Ikhtisar solusi
Saat memulai dengan kasus penggunaan baru, Anda dapat mengevaluasi kinerja Kueri Textract pada dokumen Anda dengan menavigasi ke Konsol teks dan menggunakan Demo Analisis Dokumen atau Pengunggah Dokumen Massal. Mengacu pada Praktik Terbaik untuk Kueri untuk menyusun kueri yang berlaku untuk kasus penggunaan Anda. Jika Anda mengidentifikasi kesalahan dalam respons kueri karena sifat dokumen bisnis Anda, Anda dapat menggunakan Kueri Kustom untuk meningkatkan akurasi. Dalam beberapa jam, Anda dapat membuat anotasi pada dokumen sampel Anda menggunakan Konsol Manajemen AWS dan melatih sebuah adaptor. Adaptor adalah komponen yang dihubungkan ke model pembelajaran mendalam Amazon Textract yang telah dilatih sebelumnya, dan menyesuaikan outputnya berdasarkan dokumen beranotasi Anda. Anda dapat menggunakan adaptor untuk inferensi dengan meneruskan pengidentifikasi adaptor sebagai parameter tambahan ke Analisis Kueri Dokumen permintaan API.
Mari kita periksa caranya Kueri Khusus dapat meningkatkan akurasi ekstraksi dalam skenario dunia nyata yang menantang seperti ekstraksi data dari pemeriksaan. Tantangan utama saat memproses cek muncul dari tingginya variasi yang tergantung pada jenisnya (misalnya, cek pribadi atau kasir), lembaga keuangan, dan negara (misalnya, format jalur MICR). . Variasi tersebut dapat mencakup penempatan nama penerima pembayaran, jumlah dalam angka dan kata, tanggal, dan tanda tangan. Mengenali dan beradaptasi terhadap variasi ini dapat menjadi tugas yang rumit selama ekstraksi data. Untuk meningkatkan ekstraksi data, organisasi sering kali menerapkan proses verifikasi dan validasi manual, yang meningkatkan biaya dan waktu proses ekstraksi.
Kueri Khusus mengatasi tantangan ini dengan memungkinkan Anda menyesuaikan fitur Kueri terlatih pada berbagai variasi pemeriksaan. Penyesuaian fitur terlatih membantu Anda mencapai akurasi ekstraksi data yang tinggi pada variasi tata letak tertentu yang Anda proses.
Dalam kasus penggunaan kami, lembaga keuangan ingin mengekstrak bidang berikut dari cek: nama penerima pembayaran, nama pembayar, nomor rekening, nomor perutean, jumlah pembayaran (dalam angka), jumlah pembayaran (dalam kata), nomor cek, tanggal, dan memo.
Mari kita jelajahi proses pembuatan adaptor (komponen yang menyesuaikan keluaran) untuk pemrosesan pemeriksaan. Adaptor dapat dibuat melalui konsol atau secara terprogram melalui API. Posting ini merinci pengalaman konsol; namun, jika Anda ingin membuat adaptor secara terprogram, lihat contoh kode di permintaan-kustom-pemeriksaan-blog.ipynb Buku catatan Jupyter (Opsi 2).
Proses pembuatan adaptor melibatkan lima langkah tingkat tinggi: membuat adaptor, mengunggah dokumen sampel, memberi anotasi pada dokumen, melatih adaptor, dan mengevaluasi metrik kinerja.
Buat adaptor
Di konsol Amazon Textract, buat adaptor baru dengan memberikan nama, deskripsi, dan tag opsional yang dapat membantu Anda mengidentifikasi adaptor. Anda memiliki opsi untuk mengaktifkan pembaruan otomatis, yang memungkinkan Amazon Textract memperbarui adaptor Anda ketika fitur Kueri yang mendasarinya diperbarui dengan kemampuan baru.
Setelah adaptor dibuat, Anda akan melihat halaman detail adaptor dengan daftar langkah-langkah di dalamnya Cara kerjanya bagian. Bagian ini akan mengaktifkan langkah Anda selanjutnya saat Anda menyelesaikannya secara berurutan.
Unggah contoh dokumen
Fase awal dalam pembuatan adaptor melibatkan pemilihan yang cermat atas serangkaian dokumen sampel yang sesuai untuk anotasi, pelatihan, dan pengujian. Kami memiliki opsi untuk membagi dokumen secara otomatis menjadi kumpulan data pengujian dan pelatihan; namun, untuk proses ini, kami membagi kumpulan data secara manual.
Penting untuk diperhatikan bahwa Anda dapat membuat adaptor dengan sedikitnya lima sampel pengujian dan lima sampel pelatihan, namun penting untuk memastikan bahwa kumpulan sampel ini beragam dan mewakili beban kerja yang dihadapi dalam lingkungan produksi.
Untuk tutorial ini, kami telah menyusun contoh kumpulan data pemeriksaan yang Anda bisa Download. Kumpulan data kami mencakup variasi seperti cek pribadi, cek kasir, cek stimulus, dan cek yang tertanam dalam slip pembayaran. Kami juga menyertakan cek tulisan tangan dan cetakan; bersama dengan variasi bidang seperti baris memo.
Beri anotasi pada dokumen sampel
Sebagai langkah berikutnya, Anda memberi anotasi pada dokumen sampel dengan mengaitkan kueri dengan jawaban terkait melalui konsol. Anda dapat memulai anotasi melalui pelabelan otomatis atau pelabelan manual. Pelabelan otomatis menggunakan Kueri Amazon Textract untuk memberi label awal pada kumpulan data. Kami merekomendasikan penggunaan pelabelan otomatis untuk mempercepat proses anotasi.
Untuk kasus penggunaan pemrosesan pemeriksaan ini, kami menggunakan kueri berikut. Jika kasus penggunaan Anda melibatkan tipe dokumen lain, lihat Praktik Terbaik untuk Kueri untuk menyusun kueri yang berlaku untuk kasus penggunaan Anda.
- Siapa penerima pembayarannya?
- Apa ceknya#?
- Di mana alamat penerima pembayaran?
- Tanggal berapa?
- Apa akunnya#?
- Berapa jumlah cek dalam kata-kata?
- Apa nama rekening/nama pembayar/penarik?
- Berapa jumlah dolarnya?
- Apa nama bank/nama penariknya?
- Berapa nomor perutean banknya?
- Apa itu garis MICR?
- Apa memonya?
Ketika proses pelabelan otomatis selesai, Anda memiliki opsi untuk meninjau dan mengedit jawaban yang diberikan untuk setiap dokumen. Memilih Mulailah meninjau untuk meninjau anotasi terhadap setiap gambar.
Jika respons terhadap kueri hilang atau salah, Anda bisa menambahkan atau mengedit respons dengan menggambar kotak pembatas atau memasukkan respons secara manual.
Untuk mempercepat penelusuran Anda, kami telah memberi anotasi awal pada sampel pemeriksaan untuk Anda salin ke akun AWS Anda. Jalankan permintaan-kustom-pemeriksaan-blog.ipynb Buku catatan Jupyter di dalam Sampel kode Amazon Textract perpustakaan untuk memperbarui anotasi Anda secara otomatis.
Latih adaptornya
Setelah Anda meninjau semua contoh dokumen untuk memastikan keakuratan anotasi, Anda dapat memulai proses pelatihan adaptor. Pada langkah ini, Anda perlu menentukan lokasi penyimpanan tempat adaptor harus disimpan. Durasi proses pelatihan akan bervariasi tergantung pada ukuran dataset yang digunakan untuk pelatihan. API pelatihan juga dapat dipanggil secara terprogram jika Anda memilih untuk menggunakan alat anotasi pilihan Anda sendiri dan meneruskan file masukan yang relevan ke API. Mengacu pada Kueri Khusus lebih lanjut.
Evaluasi metrik kinerja
Setelah adaptor menyelesaikan pelatihan, Anda dapat menilai kinerjanya dengan memeriksa metrik evaluasi seperti Skor F1, presisi, dan recall. Anda dapat menganalisis metrik ini secara kolektif atau per dokumen. Dengan menggunakan kumpulan data pemeriksaan sampel kami, Anda akan melihat metrik akurasi (skor F1) meningkat dari 68% menjadi 92% dengan adaptor terlatih.
Selain itu, Anda dapat menguji keluaran adaptor pada dokumen baru dengan memilih Coba Adaptor.
Setelah evaluasi, Anda dapat memilih untuk meningkatkan kinerja adaptor dengan memasukkan dokumen sampel tambahan ke dalam kumpulan data pelatihan atau dengan menganotasi ulang dokumen dengan skor yang lebih rendah dari ambang batas Anda. Untuk membuat anotasi ulang dokumen, pilih Verifikasi dokumen pada halaman detail adaptor, pilih dokumen, dan pilih Tinjau anotasi.
Uji adaptor secara terprogram
Setelah pelatihan berhasil diselesaikan, Anda kini dapat menggunakan adaptor di perangkat Anda Analisis Dokumen panggilan API. Permintaan API mirip dengan permintaan API Amazon Textract Query, dengan tambahan AdaptersConfig
obyek.
Anda dapat menjalankan kode contoh berikut atau langsung menjalankannya di dalam permintaan-kustom-pemeriksaan-blog.ipynb Buku catatan Jupyter. Contoh buku catatan juga menyediakan kode untuk membandingkan hasil antara Kueri Amazon Textract dan Kueri Kustom Amazon Textract.
Buat Konfigurasi Adaptor objek dengan ID adaptor dan versi adaptor, dan secara opsional sertakan halaman tempat Anda ingin menerapkan adaptor:
Membuat QueriesConfig
objek dengan kueri yang Anda gunakan untuk melatih adaptor dan memanggil API Amazon Textract. Perhatikan bahwa Anda juga dapat menyertakan kueri tambahan yang belum dilatih oleh adaptor. Amazon Textract akan secara otomatis menggunakan fitur Kueri untuk pertanyaan-pertanyaan ini dan bukan Kueri Kustom, sehingga memberikan Anda fleksibilitas untuk menggunakan Kueri Kustom hanya jika diperlukan.
Terakhir, kami membuat tabulasi hasil kami agar lebih mudah dibaca:
Membersihkan
Untuk membersihkan sumber daya Anda, selesaikan langkah-langkah berikut:
- Di konsol Amazon Textract, pilih Kueri Khusus di panel navigasi.
- Pilih adaptor yang ingin Anda hapus.
- Pilih Delete.
Manajemen adaptor
Anda dapat meningkatkan adaptor secara berkala dengan membuat versi baru dari adaptor yang dibuat sebelumnya. Untuk membuat adaptor versi baru, Anda menambahkan dokumen sampel baru ke adaptor yang sudah ada, memberi label pada dokumen, dan melakukan pelatihan. Anda dapat memelihara beberapa versi adaptor secara bersamaan untuk digunakan dalam jalur pengembangan Anda. Untuk memperbarui adaptor Anda dengan lancar, jangan mengubah atau menghapus adaptor Anda Layanan Penyimpanan Sederhana Amazon (Amazon S3) tempat menyimpan file yang diperlukan untuk pembuatan adaptor.
Praktik terbaik
Saat menggunakan Kueri Khusus pada dokumen Anda, lihat Praktik terbaik untuk Kueri Kustom Amazon Textract untuk pertimbangan tambahan dan praktik terbaik.
Manfaat Kueri Khusus
Kueri Khusus menawarkan manfaat berikut:
- Pemahaman dokumen yang ditingkatkan โ Melalui kemampuannya mengekstrak dan menormalkan data dengan akurasi tinggi, Kueri Khusus mengurangi ketergantungan pada tinjauan manual dan audit, serta memungkinkan Anda membangun otomatisasi yang lebih andal untuk alur kerja pemrosesan dokumen cerdas Anda.
- Waktu yang lebih cepat untuk menilai โ Saat Anda menemukan jenis dokumen baru yang memerlukan akurasi lebih tinggi, Anda dapat menggunakan Kueri Khusus untuk membuat adaptor dengan cara layanan mandiri dalam beberapa jam. Anda tidak perlu menunggu pembaruan model terlatih saat Anda menemukan tipe dokumen baru atau variasi dari yang sudah ada di alur kerja Anda. Anda memiliki kendali penuh atas alur Anda dan tidak perlu bergantung pada Amazon Textract untuk mendukung jenis dokumen baru Anda.
- Privasi data โ Kueri Khusus tidak menyimpan atau menggunakan data yang digunakan dalam menghasilkan adaptor untuk menyempurnakan model umum kami yang telah dilatih sebelumnya dan tersedia bagi semua pelanggan. Adaptor terbatas pada akun pelanggan atau akun lain yang secara eksplisit ditunjuk oleh pelanggan, memastikan bahwa hanya akun tersebut yang dapat mengakses perbaikan yang dilakukan menggunakan data pelanggan.
- Praktis โKueri Khusus memberikan pengalaman inferensi yang terkelola sepenuhnya serupa dengan Kueri. Pelatihan adaptor gratis dan Anda hanya akan membayar untuk inferensi. Kueri Khusus menghemat biaya overhead dan biaya pelatihan dan pengoperasian model khusus.
Kesimpulan
Dalam postingan ini, kami membahas manfaat Kueri Khusus, menunjukkan bagaimana Kueri Khusus dapat mengekstrak data dari pemeriksaan secara akurat, dan berbagi praktik terbaik untuk memanfaatkan fitur ini secara efektif. Hanya dalam beberapa jam, Anda dapat membuat adaptor menggunakan konsol dan menggunakannya di API AnalyzeDocument untuk kebutuhan ekstraksi data Anda. Untuk informasi lebih lanjut, lihat Kueri Khusus.
Tentang penulis
Shibin Michaelraj adalah Manajer Produk Senior di tim Amazon Textract. Dia fokus membangun produk berbasis AI/ML untuk pelanggan AWS. Dia bersemangat membantu pelanggan memecahkan tantangan bisnis mereka yang kompleks dengan memanfaatkan teknologi AI dan ML. Di waktu luangnya, dia menikmati berlari, mendengarkan podcast, dan mengasah keterampilan tenis amatirnya.
Keith Mascarenhas adalah Sr. Solutions Architect dengan tim layanan Amazon Textract. Dia bersemangat menyelesaikan masalah bisnis dalam skala besar menggunakan pembelajaran mesin, dan saat ini membantu pelanggan kami di seluruh dunia mengotomatiskan pemrosesan dokumen mereka untuk mencapai waktu pemasaran yang lebih cepat dengan biaya operasional yang lebih rendah.
- Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
- PlatoData.Jaringan Vertikal Generatif Ai. Berdayakan Diri Anda. Akses Di Sini.
- PlatoAiStream. Intelijen Web3. Pengetahuan Diperkuat. Akses Di Sini.
- PlatoESG. Karbon, teknologi bersih, energi, Lingkungan Hidup, Tenaga surya, Penanganan limbah. Akses Di Sini.
- PlatoHealth. Kecerdasan Uji Coba Biotek dan Klinis. Akses Di Sini.
- Sumber: https://aws.amazon.com/blogs/machine-learning/customize-amazon-textract-with-business-specific-documents-using-custom-queries/
- :memiliki
- :adalah
- :bukan
- :Di mana
- $NAIK
- 1
- 10
- 100
- 17
- 36
- 7
- a
- kemampuan
- Tentang Kami
- mempercepat
- mengakses
- Akun
- Akun
- ketepatan
- akurat
- Mencapai
- beradaptasi
- menambahkan
- tambahan
- Tambahan
- alamat
- alamat
- terhadap
- AI
- Semua
- memungkinkan
- sepanjang
- juga
- amatir
- Amazon
- Teks Amazon
- Amazon Web Services
- jumlah
- an
- menganalisa
- dan
- jawaban
- api
- berlaku
- terapan
- sesuai
- ADALAH
- AS
- menilai
- At
- audit
- mobil
- mengotomatisasikan
- secara otomatis
- secara otomatis
- Otomatisasi
- tersedia
- AWS
- Bank
- berdasarkan
- dasar
- BE
- menjadi
- mulai
- manfaat
- Manfaat
- TERBAIK
- Praktik Terbaik
- Lebih baik
- antara
- Kotak
- membangun
- Bangunan
- bisnis
- tapi
- by
- panggilan
- Panggilan
- CAN
- kemampuan
- hati-hati
- kasus
- menantang
- tantangan
- menantang
- Perubahan
- memeriksa
- Cek
- pilihan
- Pilih
- memilih
- membersihkan
- kode
- kolektif
- membandingkan
- lengkap
- Lengkap
- kompleks
- komponen
- komponen
- pertimbangan
- konsul
- membangun
- terus
- kontrak
- kontrol
- Sesuai
- Biaya
- Biaya
- negara
- membuat
- dibuat
- membuat
- dikuratori
- Sekarang
- adat
- pelanggan
- pelanggan
- kustomisasi
- menyesuaikan
- data
- kumpulan data
- Tanggal
- mendalam
- belajar mendalam
- Derajat
- demo
- Tergantung
- deskripsi
- ditunjuk
- rincian
- Pengembangan
- berbeda
- langsung
- membahas
- dibahas
- beberapa
- do
- dokumen
- dokumen
- tidak
- Dolar
- Dont
- draf
- gambar
- dua
- lamanya
- selama
- e
- setiap
- Mudah
- efektif
- antara
- tertanam
- dipekerjakan
- aktif
- memungkinkan
- memungkinkan
- mempertinggi
- memastikan
- memastikan
- memasuki
- Lingkungan Hidup
- kesalahan
- penting
- mengevaluasi
- evaluasi
- memeriksa
- Memeriksa
- gembira
- ada
- biaya
- pengalaman
- keahlian
- secara eksplisit
- menyelidiki
- ekstrak
- ekstraksi
- Ekstrak
- f1
- lebih cepat
- Fitur
- Fitur
- beberapa
- Fields
- File
- keuangan
- lembaga keuangan
- lima
- keluwesan
- terfokus
- berikut
- Untuk
- format
- Gratis
- dari
- sepenuhnya
- Umum
- menghasilkan
- dihasilkan
- menghasilkan
- generasi
- GitHub
- lebih besar
- Memiliki
- memiliki
- he
- membantu
- membantu
- membantu
- High
- tingkat tinggi
- lebih tinggi
- -nya
- JAM
- Seterpercayaapakah Olymp Trade? Kesimpulan
- Namun
- HTML
- http
- HTTPS
- manusia
- ID
- identifier
- mengenali
- if
- gambar
- mengimpor
- penting
- memperbaiki
- perbaikan
- in
- memasukkan
- termasuk
- termasuk
- menggabungkan
- Meningkatkan
- informasi
- Infrastruktur
- mulanya
- memulai
- memasukkan
- install
- Lembaga
- mengintegrasikan
- Cerdas
- Pemrosesan dokumen cerdas
- intervensi
- ke
- Menginvestasikan
- dipanggil
- IT
- NYA
- jpg
- hanya
- kunci
- label
- pelabelan
- bahasa
- pengetahuan
- pinjaman
- leveraging
- Perpustakaan
- 'like'
- Terbatas
- baris
- Daftar
- tempat
- menurunkan
- mesin
- Mesin belajar
- terbuat
- memelihara
- membuat
- berhasil
- pengelolaan
- manajer
- cara
- panduan
- manual
- Pasar
- Pelajari
- Memo
- metrik
- Metrik
- minimal
- hilang
- ML
- model
- model
- lebih
- beberapa
- nama
- Alam
- Alam
- menavigasi
- Navigasi
- Perlu
- dibutuhkan
- kebutuhan
- New
- berikutnya
- buku catatan
- sekarang
- jumlah
- nomor
- obyek
- of
- Penawaran
- sering
- on
- yang
- hanya
- operasi
- operasional
- pilihan
- or
- organisasi
- Lainnya
- kami
- keluaran
- lebih
- sendiri
- halaman
- halaman
- pane
- parameter
- lulus
- Lewat
- bergairah
- Membayar
- pembayaran
- Melakukan
- prestasi
- melakukan
- pribadi
- tahap
- potongan-potongan
- pipa saluran
- penempatan
- plato
- Kecerdasan Data Plato
- Data Plato
- steker
- Podcast
- Pos
- praktek
- Ketelitian
- sebelumnya
- primer
- masalah
- proses
- proses
- pengolahan
- Produk
- manajer produk
- Produksi
- Produk
- disediakan
- menyediakan
- menyediakan
- query
- Pertanyaan
- dunia nyata
- mengenali
- mengenali
- sarankan
- mengurangi
- mengurangi
- lihat
- pengilangan
- secara teratur
- relevan
- dapat diandalkan
- kepercayaan
- wakil
- permintaan
- Sumber
- tanggapan
- tanggapan
- Hasil
- menahan
- ulasan
- review jurnal
- Review
- rute
- Run
- berjalan
- disimpan
- Skala
- skenario
- skor
- mulus
- Bagian
- melihat
- seleksi
- Swalayan
- layanan
- Layanan
- set
- Share
- berbagi
- harus
- Menunjukkan
- menunjukkan
- tanda tangan
- mirip
- Sederhana
- serentak
- Ukuran
- keterampilan
- Solusi
- MEMECAHKAN
- Memecahkan
- tertentu
- membagi
- Mulai
- Laporan
- Langkah
- Tangga
- rangsangan
- pemeriksaan stimulus
- penyimpanan
- struktur
- berhasil
- seperti itu
- mendukung
- tugas
- tim
- Teknologi
- istilah
- uji
- pengujian
- teks
- dari
- bahwa
- Grafik
- mereka
- Mereka
- dengan demikian
- Ini
- ini
- ambang
- Melalui
- waktu
- untuk
- alat
- Pelatihan VE
- terlatih
- Pelatihan
- TRP
- menyetel
- tutorial
- mengetik
- jenis
- pokok
- unik
- Memperbarui
- diperbarui
- Pembaruan
- menggunakan
- gunakan case
- kegunaan
- menggunakan
- dimanfaatkan
- Memanfaatkan
- pengesahan
- variasi
- bervariasi
- Verifikasi
- versi
- Versi
- melalui
- menunggu
- walkthrough
- ingin
- ingin
- Cara..
- we
- jaringan
- layanan web
- Apa
- Apa itu
- ketika
- yang
- SIAPA
- Wikipedia
- akan
- dengan
- dalam
- tanpa
- kata
- alur kerja
- Alur kerja
- industri udang di seluruh dunia.
- Salah
- Kamu
- Anda
- zephyrnet.dll
- Zip