Mencari wawasan dalam gudang dokumen teks bentuk bebas bisa seperti menemukan jarum di tumpukan jerami. Pendekatan tradisional mungkin menggunakan penghitungan kata atau analisis dasar lainnya untuk mengurai dokumen, namun dengan kekuatan Amazon AI dan alat pembelajaran mesin (ML), kita dapat mengumpulkan pemahaman yang lebih mendalam tentang konten.
Amazon Comprehend adalah layanan terkelola sepenuhnya yang menggunakan pemrosesan bahasa alami (NLP) untuk mengekstrak wawasan tentang konten dokumen. Amazon Comprehend mengembangkan wawasan dengan mengenali entitas, frasa kunci, sentimen, tema, dan elemen khusus dalam dokumen. Amazon Comprehend dapat membuat wawasan baru berdasarkan pemahaman struktur dokumen dan hubungan entitas. Misalnya, dengan Amazon Comprehend, Anda dapat memindai seluruh repositori dokumen untuk mencari frasa kunci.
Amazon Comprehend memungkinkan pakar non-ML dengan mudah melakukan tugas yang biasanya memakan waktu berjam-jam. Amazon Comprehend menghilangkan banyak waktu yang diperlukan untuk membersihkan, membangun, dan melatih model Anda sendiri. Untuk membangun model kustom yang lebih mendalam di NLP atau domain lainnya, Amazon SageMaker memungkinkan Anda membangun, melatih, dan menerapkan model dalam alur kerja ML yang lebih konvensional jika diinginkan.
Dalam postingan ini, kami menggunakan Amazon Comprehend dan layanan AWS lainnya untuk menganalisis dan mengekstrak wawasan baru dari repositori dokumen. Lalu, kami menggunakan Amazon QuickSight untuk menghasilkan visual cloud kata yang sederhana namun kuat untuk dengan mudah menemukan tema atau tren.
Ikhtisar solusi
Diagram berikut menggambarkan arsitektur solusi.
Untuk memulai, kami mengumpulkan data untuk dianalisis dan memuatnya ke dalam sebuah Layanan Penyimpanan Sederhana Amazon (Amazon S3) bucket di akun AWS. Dalam contoh ini, kami menggunakan file berformat teks. Data tersebut kemudian dianalisis oleh Amazon Comprehend. Amazon Comprehend membuat output berformat JSON yang perlu diubah dan diproses menjadi format database menggunakan Lem AWS. Kami memverifikasi data dan mengekstrak tabel data berformat tertentu menggunakan Amazon Athena untuk analisis QuickSight menggunakan cloud kata. Untuk informasi lebih lanjut tentang visualisasi, lihat Memvisualisasikan data di Amazon QuickSight.
Prasyarat
Untuk penelusuran ini, Anda harus memiliki prasyarat berikut:
Unggah data ke ember S3
Unggah data Anda ke bucket S3. Untuk postingan ini, kami menggunakan teks Konstitusi AS berformat UTF-8 sebagai file masukan. Kemudian Anda siap menganalisis data dan membuat visualisasi.
Analisis data menggunakan Amazon Comprehend
Ada banyak jenis informasi berbasis teks dan gambar yang dapat diproses menggunakan Amazon Comprehend. Selain file teks, Anda dapat menggunakan Amazon Comprehend untuk klasifikasi satu langkah dan pengenalan entitas untuk menerima file gambar, file PDF, dan file Microsoft Word sebagai masukan, yang tidak dibahas dalam postingan ini.
Untuk menganalisis data Anda, selesaikan langkah-langkah berikut:
- Di konsol Amazon Comprehend, pilih Pekerjaan analisis di panel navigasi.
- Pilih Buat tugas analisis.
- Masukkan nama untuk pekerjaan Anda.
- Untuk Jenis analisis, pilih Frase kunci.
- Untuk Bahasaยธ pilih Inggris.
- Untuk Masukkan lokasi data, tentukan folder yang Anda buat sebagai prasyarat.
- Untuk Keluaran lokasi data, tentukan folder yang Anda buat sebagai prasyarat.
- Pilih Buat peran IAM.
- Masukkan akhiran untuk nama peran.
- Pilih Ciptakan pekerjaan.
Pekerjaan akan berjalan dan statusnya akan ditampilkan di Pekerjaan analisis .
Tunggu hingga pekerjaan analisis selesai. Amazon Comprehend akan membuat file dan menempatkannya di folder data keluaran yang Anda berikan. File dalam format .gz atau GZIP.
File ini perlu diunduh dan dikonversi ke format non-terkompresi. Anda dapat mengunduh objek dari folder data atau bucket S3 menggunakan konsol Amazon S3.
- Di konsol Amazon S3, pilih objek dan pilih Unduh. Jika Anda ingin mengunggah objek ke folder tertentu, pilih Unduh pada tindakan menu.
- Setelah Anda mengunduh file ke komputer lokal Anda, buka file zip dan simpan sebagai file yang tidak terkompresi.
File yang tidak terkompresi harus diunggah ke folder output sebelum crawler AWS Glue dapat memprosesnya. Untuk contoh ini, kami mengunggah file yang tidak dikompresi ke folder keluaran yang sama yang kami gunakan pada langkah selanjutnya.
- Di konsol Amazon S3, navigasikan ke bucket S3 Anda dan pilih Unggah.
- Pilih Tambahkan file.
- Pilih file yang tidak terkompresi dari komputer lokal Anda.
- Pilih Unggah.
Setelah Anda mengunggah file, hapus file zip asli.
- Di konsol Amazon S3, pilih bucket dan pilih Delete.
- Konfirmasikan nama file untuk menghapus file secara permanen dengan memasukkan nama file di kotak teks.
- Pilih Hapus objek.
Ini akan menyisakan satu file tersisa di folder keluaran: file yang tidak terkompresi.
Konversikan data JSON ke format tabel menggunakan AWS Glue
Pada langkah ini, Anda menyiapkan output Amazon Comprehend untuk digunakan sebagai input ke Athena. Output Amazon Comprehend dalam format JSON. Anda dapat menggunakan AWS Glue untuk mengubah JSON menjadi struktur database yang pada akhirnya dapat dibaca oleh QuickSight.
- Di konsol AWS Glue, pilih Perayap di panel navigasi.
- Pilih Buat perayap.
- Masukkan nama untuk perayap Anda.
- Pilih Selanjutnya.
- Untuk Apakah data Anda sudah dipetakan ke tabel Lem?, pilih Belum.
- Tambahkan sumber data.
- Untuk jalur S3, masukkan lokasi folder data keluaran Amazon Comprehend.
Pastikan untuk menambahkan tambahannya /
ke nama jalur. AWS Glue akan mencari jalur folder untuk semua file.
- Pilih Merayapi semua sub-folder.
- Pilih Tambahkan sumber data S3.
- Buat yang baru Identitas AWS dan Manajemen Akses (IAM) peran untuk crawler.
- Masukkan nama untuk peran IAM.
- Pilih Perbarui peran IAM yang dipilih untuk memastikan peran baru ditetapkan ke crawler.
- Pilih Selanjutnya untuk memasukkan informasi keluaran (database).
- Pilih Tambahkan database.
- Masukkan nama basis data.
- Pilih Selanjutnya.
- Pilih Buat perayap.
- Pilih Jalankan crawler untuk menjalankan perayap.
Anda dapat memantau status crawler di konsol AWS Glue.
Gunakan Athena untuk menyiapkan tabel untuk QuickSight
Athena akan mengekstrak data dari tabel database yang dibuat oleh crawler AWS Glue untuk menyediakan format yang akan digunakan QuickSight untuk membuat kata cloud.
- Di konsol Athena, pilih Editor-kueri di panel navigasi.
- Untuk Sumber data, pilih Katalog AwsData.
- Untuk Basis Data, pilih database yang dibuat crawler.
Untuk membuat tabel yang kompatibel dengan QuickSight, data harus tidak disarangkan dari array.
- Langkah pertama adalah membuat database sementara dengan data Amazon Comprehend yang relevan:
- Pernyataan berikut membatasi frasa yang terdiri dari setidaknya tiga kata dan kelompok berdasarkan frekuensi frasa:
Gunakan QuickSight untuk memvisualisasikan keluaran
Terakhir, Anda dapat membuat keluaran visual dari analisis.
- Pada konsol QuickSight, pilih Analisis baru.
- Pilih Dataset baru.
- Untuk Buat kumpulan data, pilih Dari sumber data baru.
- Pilih Athena sebagai sumber datanya.
- Masukkan nama untuk sumber data dan pilih Buat sumber data.
- Pilih Membayangkan.
Pastikan QuickSight memiliki akses ke bucket S3 tempat tabel Athena disimpan.
- Di konsol QuickSight, pilih ikon profil pengguna dan pilih Kelola QuickSight.
- Pilih Keamanan & izin.
- Cari bagian Akses QuickSight ke layanan AWS.
Dengan mengonfigurasi akses ke layanan AWS, QuickSight dapat mengakses data di layanan tersebut. Akses oleh pengguna dan grup dapat dikontrol melalui opsi.
- Verifikasi Amazon S3 diberikan akses.
Sekarang Anda dapat membuat kata cloud.
- Pilih kata cloud di bawah Jenis visual.
- Seret teks ke Kelompok oleh dan hitung sampai Ukuran.
Pilih menu opsi (tiga titik) dalam visualisasi untuk mengakses opsi edit. Misalnya, Anda mungkin ingin menyembunyikan istilah โlainnyaโ dari tampilan. Anda juga dapat mengedit item seperti judul dan subjudul untuk visual Anda. Untuk mengunduh kata cloud sebagai PDF, pilih Unduh pada bilah alat QuickSight.
Membersihkan
Untuk menghindari timbulnya biaya berkelanjutan, hapus semua data dan proses atau sumber daya yang tidak digunakan yang disediakan di konsol layanan masing-masing.
Kesimpulan
Amazon Comprehend menggunakan NLP untuk mengekstrak wawasan tentang konten dokumen. Ini mengembangkan wawasan dengan mengenali entitas, frasa kunci, bahasa, sentimen, dan elemen umum lainnya dalam dokumen. Anda dapat menggunakan Amazon Comprehend untuk membuat produk baru berdasarkan pemahaman struktur dokumen. Misalnya, dengan Amazon Comprehend, Anda dapat memindai seluruh repositori dokumen untuk mencari frasa kunci.
Posting ini menjelaskan langkah-langkah membangun cloud kata untuk memvisualisasikan analisis konten teks dari Amazon Comprehend menggunakan alat AWS dan QuickSight untuk memvisualisasikan data.
Mari tetap berhubungan melalui bagian komentar!
Tentang Penulis
Kris Gedman adalah pemimpin penjualan AS Timur untuk Ritel & CPG di Amazon Web Services. Saat tidak bekerja, dia senang menghabiskan waktu bersama teman dan keluarganya, terutama saat musim panas di Cape Cod. Kris adalah Prajurit Ninja yang pensiun sementara, tetapi dia suka menonton dan melatih kedua putranya untuk saat ini.
Clark Lefavor adalah pemimpin Arsitek Solusi di Amazon Web Services, yang mendukung pelanggan perusahaan di wilayah Timur. Clark tinggal di New England dan senang menghabiskan waktu merancang resep di dapur.
- Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
- PlatoData.Jaringan Vertikal Generatif Ai. Berdayakan Diri Anda. Akses Di Sini.
- PlatoAiStream. Intelijen Web3. Pengetahuan Diperkuat. Akses Di Sini.
- PlatoESG. Otomotif / EV, Karbon, teknologi bersih, energi, Lingkungan Hidup, Tenaga surya, Penanganan limbah. Akses Di Sini.
- PlatoHealth. Kecerdasan Uji Coba Biotek dan Klinis. Akses Di Sini.
- ChartPrime. Tingkatkan Game Trading Anda dengan ChartPrime. Akses Di Sini.
- BlockOffset. Modernisasi Kepemilikan Offset Lingkungan. Akses Di Sini.
- Sumber: https://aws.amazon.com/blogs/machine-learning/visualize-an-amazon-comprehend-analysis-with-a-word-cloud-in-amazon-quicksight/
- :memiliki
- :adalah
- :bukan
- :Di mana
- 1
- 10
- 100
- 11
- 12
- 13
- 17
- 23
- 500
- 7
- 8
- 9
- a
- Tentang Kami
- Setuju
- mengakses
- Akun
- menambahkan
- tambahan
- AI
- Semua
- sudah
- juga
- Amazon
- Amazon Comprehend
- Amazon QuickSight
- Amazon Web Services
- an
- analisis
- menganalisa
- dianalisis
- dan
- Apa pun
- pendekatan
- arsitektur
- ADALAH
- AS
- ditugaskan
- At
- menghindari
- AWS
- Lem AWS
- berdasarkan
- dasar
- BE
- sebelum
- mulai
- Kotak
- membangun
- Bangunan
- tapi
- by
- CAN
- beban
- Pilih
- terpilih
- klasifikasi
- awan
- pembinaan
- komentar
- Umum
- cocok
- lengkap
- memahami
- komputer
- konsul
- Konstitusi
- Konten
- dikendalikan
- konvensional
- mengubah
- dikonversi
- perhitungan
- cpg
- crawler
- membuat
- dibuat
- menciptakan
- Cross
- adat
- pelanggan
- data
- Basis Data
- lebih dalam
- menyebarkan
- dijelaskan
- diinginkan
- mengembangkan
- dibahas
- Display
- ditampilkan
- do
- dokumen
- dokumen
- domain
- Download
- mudah
- Timur
- elemen
- menghilangkan
- memungkinkan
- Inggris
- Enter
- memasuki
- Enterprise
- Seluruh
- entitas
- entitas
- terutama
- contoh
- ahli
- ekstrak
- keluarga
- File
- File
- temuan
- Pertama
- berikut
- Untuk
- format
- Frekuensi
- teman
- dari
- sepenuhnya
- mengumpulkan
- menghasilkan
- diberikan
- Kelompok
- Grup
- Memiliki
- he
- menyembunyikan
- -nya
- JAM
- HTML
- http
- HTTPS
- ICON
- identitas
- if
- menggambarkan
- gambar
- in
- informasi
- memasukkan
- wawasan
- ke
- IT
- item
- Pekerjaan
- ikut
- jpg
- json
- kunci
- bahasa
- kemudian
- pemimpin
- pengetahuan
- paling sedikit
- Meninggalkan
- Lets
- 'like'
- batas
- memuat
- lokal
- tempat
- mencintai
- mesin
- Mesin belajar
- berhasil
- banyak
- menu
- Microsoft
- mungkin
- ML
- model
- model
- Memantau
- lebih
- banyak
- harus
- nama
- Alam
- Pengolahan Bahasa alami
- Arahkan
- Navigasi
- dibutuhkan
- kebutuhan
- New
- produk baru
- ninja
- nLP
- biasanya
- sekarang
- obyek
- of
- on
- ONE
- terus-menerus
- Buka
- Opsi
- or
- urutan
- asli
- Lainnya
- keluaran
- sendiri
- halaman
- pane
- path
- tetap
- frase
- Tempat
- plato
- Kecerdasan Data Plato
- Data Plato
- Pos
- kekuasaan
- kuat
- Mempersiapkan
- prasyarat
- proses
- Diproses
- proses
- pengolahan
- Produk
- Profil
- memberikan
- disediakan
- Baca
- siap
- mengenali
- lihat
- wilayah
- Hubungan
- relevan
- yang tersisa
- gudang
- Sumber
- itu
- eceran
- Peran
- Run
- penjualan
- sama
- Save
- pemindaian
- skor
- Pencarian
- Bagian
- sentimen
- perasaan
- layanan
- Layanan
- harus
- Sederhana
- larutan
- Solusi
- sumber
- tertentu
- Pengeluaran
- Spot
- Pernyataan
- Status
- tinggal
- Langkah
- Tangga
- penyimpanan
- tersimpan
- struktur
- seperti itu
- pendukung
- yakin
- tabel
- Mengambil
- tugas
- sementara
- istilah
- teks
- bahwa
- Grafik
- mereka
- tema
- kemudian
- ini
- itu
- tiga
- Melalui
- waktu
- Judul
- untuk
- alat
- menyentuh
- tradisional
- Trailing
- Pelatihan VE
- berubah
- Tren
- dua
- jenis
- Akhirnya
- bawah
- pemahaman
- terpakai
- upload
- us
- menggunakan
- bekas
- Pengguna
- Pengguna
- kegunaan
- menggunakan
- memeriksa
- melalui
- visualisasi
- membayangkan
- walkthrough
- ingin
- menonton
- we
- jaringan
- layanan web
- ketika
- yang
- akan
- dengan
- Word
- kata
- alur kerja
- kerja
- namun
- Kamu
- Anda
- zephyrnet.dll