Aktifkan pencarian Amazon Kendra untuk dokumen teks yang dipindai atau berbasis gambar, PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Aktifkan pencarian Amazon Kendra untuk dokumen teks yang dipindai atau berbasis gambar

AmazonKendra adalah layanan pencarian cerdas yang didukung oleh pembelajaran mesin (ML). Amazon Kendra menata ulang pencarian situs web dan aplikasi Anda sehingga karyawan dan pelanggan Anda dapat dengan mudah menemukan konten yang mereka cari, bahkan ketika konten tersebut tersebar di beberapa lokasi dan repositori konten dalam organisasi Anda.

Amazon Kendra mendukung berbagai format dokumen, seperti Microsoft Word, PDF, dan teks. Saat bekerja dengan pelanggan Edtech terkemuka, kami diminta untuk membangun solusi pencarian perusahaan yang juga menggunakan gambar dan file PPT. Posting ini berfokus pada perluasan dukungan dokumen di Amazon Kendra sehingga Anda dapat melakukan praproses gambar teks dan dokumen pindaian (format JPEG, PNG, atau PDF) agar dapat dicari. Solusinya menggabungkan Teks Amazon untuk prapemrosesan dokumen dan pengenalan karakter optik (OCR), dan Amazon Kendra untuk pencarian cerdas.

Dengan fitur Pengayaan Dokumen Kustom baru di Amazon Kendra, Anda sekarang dapat melakukan praproses dokumen Anda selama penyerapan dan menambah dokumen Anda dengan metadata baru. Pengayaan Dokumen Kustom memungkinkan Anda untuk memanggil layanan eksternal seperti Amazon Comprehend, Amazon Textract, dan Amazon Transkripsikan untuk mengekstrak teks dari gambar, menyalin audio, dan menganalisis video. Untuk informasi lebih lanjut tentang menggunakan Pengayaan Dokumen Kustom, lihat Perkaya konten dan metadata Anda untuk meningkatkan pengalaman pencarian Anda dengan pengayaan dokumen khusus di Amazon Kendra.

Dalam posting ini, kami mengusulkan metode alternatif untuk pra-pemrosesan konten sebelum memanggil proses penyerapan di Amazon Kendra.

Ikhtisar solusi

Amazon Textract adalah layanan ML yang secara otomatis mengekstrak teks, tulisan tangan, dan data dari dokumen yang dipindai dan melampaui OCR dasar untuk mengidentifikasi, memahami, dan mengekstrak data dari formulir dan tabel. Saat ini, banyak perusahaan secara manual mengekstrak data dari dokumen yang dipindai seperti PDF, gambar, tabel, dan formulir melalui perangkat lunak OCR dasar yang memerlukan konfigurasi manual, yang seringkali memerlukan konfigurasi ulang saat formulir berubah.

Untuk mengatasi proses manual dan mahal ini, Amazon Textract menggunakan pembelajaran mesin untuk membaca dan memproses berbagai dokumen, mengekstrak teks, tulisan tangan, tabel, dan data lainnya secara akurat tanpa upaya manual. Anda dapat dengan cepat mengotomatiskan pemrosesan dokumen dan mengambil tindakan atas informasi yang diambil, apakah itu mengotomatiskan pemrosesan pinjaman atau mengekstrak informasi dari faktur dan tanda terima.

AmazonKendra adalah layanan pencarian perusahaan yang mudah digunakan yang memungkinkan Anda untuk menambahkan kemampuan pencarian ke aplikasi Anda sehingga pengguna akhir dapat dengan mudah menemukan informasi yang disimpan di berbagai sumber data dalam perusahaan Anda. Ini dapat mencakup faktur, dokumen bisnis, manual teknis, laporan penjualan, glosarium perusahaan, situs web internal, dan banyak lagi. Anda dapat memanen informasi ini dari solusi penyimpanan seperti Layanan Penyimpanan Sederhana Amazon (Amazon S3) dan OneDrive; aplikasi seperti Salesforce, SharePoint, dan ServiceNow; atau database relasional seperti Layanan Database Relasional Amazon (RDS Amazon).

Solusi yang diusulkan memungkinkan Anda untuk membuka potensi pencarian dalam dokumen yang dipindai, memperluas kemampuan Amazon Kendra untuk menemukan jawaban yang akurat dalam rentang jenis dokumen yang lebih luas. Alur kerja mencakup langkah-langkah berikut:

  1. Unggah dokumen (atau berbagai jenis dokumen) ke Amazon S3.
  2. Peristiwa tersebut memicu AWS Lambda fungsi yang menggunakan API Amazon Textract sinkron (DetectDocumentText).
  3. Amazon Textract membaca dokumen di Amazon S3, mengekstrak teks darinya, dan mengembalikan teks yang diekstrak ke fungsi Lambda.
  4. Sumber data pada file teks baru perlu diindeks ulang.
  5. Saat pengindeksan ulang selesai, Anda dapat mencari dataset baru baik melalui konsol Amazon Kendra atau API.

Diagram berikut menggambarkan arsitektur solusi.

Aktifkan pencarian Amazon Kendra untuk dokumen teks yang dipindai atau berbasis gambar, PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Di bagian berikut, kami mendemonstrasikan cara mengonfigurasi fungsi Lambda, membuat pemicu peristiwa, memproses dokumen, lalu mengindeks ulang data.

Konfigurasikan fungsi Lambda

Untuk mengonfigurasi fungsi Lambda Anda, tambahkan kode berikut ke editor fungsi Python:

import urllib
import boto3 textract = boto3.client('textract')
def handler(event, context): source_bucket = event['Records'][0]['s3']['bucket']['name'] object_key = urllib.parse.unquote_plus(event['Records'][0]['s3']['object']['key']) textract_result = textract.detect_document_text( Document={ 'S3Object': { 'Bucket': source_bucket, 'Name': object_key } }) page="" blocks = [x for x in textract_result['Blocks'] if x['BlockType'] == "LINE"] for block in blocks: page += " " + block['Text'] print(page) s3 = boto3.resource('s3') object = s3.Object('demo-kendra-test', 'text/apollo11-summary.txt') object.put(Body=page)

Kami menggunakan DeteksiTeks Dokumen API untuk mengekstrak teks dari gambar (JPEG atau PNG) yang diambil di Amazon S3.

Buat pemicu acara di Amazon S3

Pada langkah ini, kami membuat pemicu peristiwa untuk memulai fungsi Lambda saat dokumen baru diunggah ke keranjang tertentu. Tangkapan layar berikut menunjukkan fungsi baru kami di konsol Amazon S3.

Aktifkan pencarian Amazon Kendra untuk dokumen teks yang dipindai atau berbasis gambar, PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Anda juga dapat memverifikasi pemicu peristiwa di konsol Lambda.

Aktifkan pencarian Amazon Kendra untuk dokumen teks yang dipindai atau berbasis gambar, PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Memproses dokumen

Untuk menguji prosesnya, kami mengunggah gambar ke folder S3 yang kami tentukan untuk pemicu peristiwa S3. Kami menggunakan contoh gambar berikut.

Aktifkan pencarian Amazon Kendra untuk dokumen teks yang dipindai atau berbasis gambar, PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Ketika fungsi Lambda selesai, kita bisa pergi ke amazoncloudwatch konsol untuk memeriksa output. Tangkapan layar berikut menunjukkan teks yang diekstraksi, yang mengonfirmasi bahwa fungsi Lambda berhasil dijalankan.

Aktifkan pencarian Amazon Kendra untuk dokumen teks yang dipindai atau berbasis gambar, PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Mengindeks ulang data dengan Amazon Kendra

Kami sekarang dapat mengindeks ulang data kami.

  1. Di konsol Amazon Kendra, di bawah Manajemen data di panel navigasi, pilih Sumber data.
  2. Pilih sumber data demo-s3-datasource.
  3. Pilih Sync sekarang.

Status sinkronisasi berubah menjadi Synching - crawling.

Aktifkan pencarian Amazon Kendra untuk dokumen teks yang dipindai atau berbasis gambar, PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Saat sinkronisasi selesai, status sinkronisasi berubah menjadi Succeeded dan status sinkronisasi berubah menjadi Idle.

Aktifkan pencarian Amazon Kendra untuk dokumen teks yang dipindai atau berbasis gambar, PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Sekarang kita dapat kembali ke konsol pencarian dan melihat pencarian faceted kita beraksi.

  1. Di panel navigasi, pilih Cari konsol.
    Aktifkan pencarian Amazon Kendra untuk dokumen teks yang dipindai atau berbasis gambar, PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Kami menambahkan metadata untuk beberapa item; dua di antaranya adalah algoritma ML XGBoost dan BlazingText.

  1. Ayo coba cari Sagemaker.
    Aktifkan pencarian Amazon Kendra untuk dokumen teks yang dipindai atau berbasis gambar, PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Pencarian kami berhasil, dan kami mendapat daftar hasil. Mari kita lihat apa yang kita miliki untuk segi.

  1. Lihat lebih lanjut Filter hasil pencarian.

Kami memiliki category dan tags aspek yang merupakan bagian dari metadata item kami.

  1. Pilih Teks Berkobar untuk menyaring hasil hanya untuk algoritma itu.
    Aktifkan pencarian Amazon Kendra untuk dokumen teks yang dipindai atau berbasis gambar, PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.
  2. Sekarang mari kita lakukan pencarian pada file gambar yang baru diunggah. Tangkapan layar berikut menunjukkan pencarian pada dokumen praproses baru.
    Aktifkan pencarian Amazon Kendra untuk dokumen teks yang dipindai atau berbasis gambar, PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Kesimpulan

Blog ini akan membantu dalam meningkatkan efektivitas hasil pencarian dan pengalaman pencarian. Anda dapat menggunakan Amazon Textract untuk mengekstrak teks dari gambar pindaian yang ditambahkan sebagai metadata dan kemudian tersedia sebagai faset untuk berinteraksi dengan hasil pencarian. Ini hanyalah ilustrasi tentang bagaimana Anda dapat menggunakan layanan asli AWS untuk menciptakan pengalaman pencarian yang berbeda bagi pengguna Anda. Ini juga membantu dalam membuka potensi penuh dari aset pengetahuan Anda.

Untuk mengetahui lebih dalam tentang apa yang dapat Anda capai dengan menggabungkan layanan AWS lainnya dengan Amazon Kendra, lihat Jadikan file audio dan video Anda dapat dicari menggunakan Amazon Transcribe dan Amazon KendraBangun solusi pencarian cerdas dengan pengayaan konten otomatis, dan postingan lainnya di blog amazon kendra.


Tentang Penulis

Aktifkan pencarian Amazon Kendra untuk dokumen teks yang dipindai atau berbasis gambar, PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.Sanjaya Tiwary adalah Spesialis Solusi Arsitek AI/ML. Dia menghabiskan waktunya bekerja dengan pelanggan strategis untuk menentukan kebutuhan bisnis, menyediakan sesi L300 seputar kasus penggunaan tertentu, dan merancang aplikasi dan layanan ML yang skalabel, andal, dan berkinerja. Dia telah membantu meluncurkan dan menskalakan layanan Amazon SageMaker yang didukung AI/ML dan telah menerapkan beberapa bukti konsep menggunakan layanan Amazon AI. Dia juga telah mengembangkan platform analitik canggih sebagai bagian dari perjalanan transformasi digital.

Stempel Waktu:

Lebih dari Pembelajaran Mesin AWS