Email spam, juga dikenal sebagai email sampah, dikirim ke sejumlah besar pengguna sekaligus dan sering kali berisi penipuan, konten phishing, atau pesan rahasia. Email spam terkadang dikirim secara manual oleh manusia, namun paling sering dikirim menggunakan bot. Contoh email spam mencakup iklan palsu, email berantai, dan upaya peniruan identitas. Ada risiko email spam yang disamarkan dengan baik dapat masuk ke kotak masuk Anda, yang bisa berbahaya jika diklik. Penting untuk mengambil tindakan pencegahan ekstra untuk melindungi perangkat dan informasi sensitif Anda.
Seiring dengan kemajuan teknologi, pendeteksian email spam menjadi tugas yang menantang karena sifatnya yang berubah. Spam sangat berbeda dari jenis ancaman keamanan lainnya. Pada awalnya mungkin tampak seperti pesan yang mengganggu dan bukan a ancaman, tapi dampaknya langsung terasa. Spammer juga sering mengadaptasi teknik baru. Organisasi yang menyediakan layanan email ingin meminimalkan spam sebanyak mungkin untuk menghindari kerugian pada pelanggan akhir mereka.
Dalam postingan ini, kami menunjukkan betapa mudahnya membuat pendeteksi spam email menggunakan Amazon SageMaker. Built-in Algoritme BlazingText menawarkan implementasi yang dioptimalkan dari algoritma Word2vec dan klasifikasi teks. Word2vec berguna untuk berbagai tugas pemrosesan bahasa alami (NLP), seperti analisis sentimen, pengenalan entitas bernama, dan terjemahan mesin. Klasifikasi teks sangat penting untuk aplikasi seperti pencarian web, pengambilan informasi, pemeringkatan, dan klasifikasi dokumen.
Ikhtisar solusi
Posting ini menunjukkan bagaimana Anda dapat mengatur pendeteksi spam email dan memfilter email spam menggunakan SageMaker. Mari kita lihat cara kerja pendeteksi spam, seperti yang ditunjukkan pada diagram berikut.
Email dikirim melalui pendeteksi spam. Email dikirim ke folder spam jika pendeteksi spam mendeteksinya sebagai spam. Jika tidak, itu akan dikirim ke kotak masuk pelanggan.
Kami memandu Anda melalui langkah-langkah berikut untuk menyiapkan model pendeteksi spam kami:
- Unduh contoh kumpulan data dari repo GitHub.
- Muat data dalam sebuah Studio Amazon SageMaker buku catatan.
- Siapkan data untuk model.
- Latih, terapkan, dan uji model.
Prasyarat
Sebelum mendalami kasus penggunaan ini, selesaikan prasyarat berikut:
- Siapkan Akun AWS.
- Mengatur Domain SageMaker.
- Buat Layanan Penyimpanan Sederhana Amazon (Amazon S3) ember. Untuk instruksi, lihat Buat ember S3 pertama Anda.
Unduh kumpulan datanya
Unduh email_dataset.csv dari GitHub dan unggah file ke bucket S3.
Algoritme BlazingText mengharapkan satu file teks yang telah diproses sebelumnya dengan token yang dipisahkan spasi. Setiap baris dalam file harus berisi satu kalimat. Jika Anda perlu melatih beberapa file teks, gabungkan file tersebut menjadi satu file dan unggah file tersebut di saluran masing-masing.
Muat data di SageMaker Studio
Untuk melakukan pemuatan data, lakukan langkah-langkah berikut:
- Download
spam_detector.ipynb
file dari GitHub dan unggah file di SageMaker Studio. - Di buku catatan Studio Anda, buka
spam_detector.ipynb
buku catatan. - Jika Anda diminta untuk memilih Kernel, pilih kernel Python 3 (Data Science 3.0) dan pilih Pilih. Jika tidak, verifikasi bahwa kernel yang tepat telah dipilih secara otomatis.
- Impor pustaka Python yang diperlukan dan atur peran serta bucket S3. Tentukan bucket S3 dan awalan tempat Anda mengunggah email_dataset.csv.
- Jalankan langkah pemuatan data di buku catatan.
- Periksa apakah dataset seimbang atau tidak berdasarkan label Kategori.
Kami dapat melihat dataset kami seimbang.
Siapkan datanya
Algoritme BlazingText mengharapkan data dalam format berikut:
Berikut ini adalah contohnya:
Memeriksa Format Data Pelatihan dan Validasi untuk Algoritma BlazingText.
Anda sekarang menjalankan langkah persiapan data di buku catatan.
- Pertama, Anda perlu mengonversi kolom Kategori menjadi bilangan bulat. Sel berikut menggantikan nilai SPAM dengan 1 dan nilai HAM dengan 0.
- Sel berikutnya menambahkan awalan
__label__
ke setiap nilai Kategori dan memberi token pada kolom Pesan.
- Langkah selanjutnya adalah membagi kumpulan data menjadi kumpulan data pelatihan dan validasi serta mengunggah file ke bucket S3.
Latih modelnya
Untuk melatih model, selesaikan langkah-langkah berikut di buku catatan:
- Siapkan estimator BlazingText dan buat instance estimator yang meneruskan gambar container.
- Atur hyperparameter mode pembelajaran ke diawasi.
BlazingText memiliki mode pembelajaran tanpa pengawasan dan diawasi. Kasus penggunaan kami adalah klasifikasi teks, yang merupakan pembelajaran yang diawasi.
- Buat saluran data pelatihan dan validasi.
- Mulai latih modelnya.
- Dapatkan keakuratan dataset pelatihan dan validasi.
Menyebarkan model
Pada langkah ini, kami menerapkan model terlatih sebagai titik akhir. Pilih instans pilihan Anda
Uji modelnya
Mari kita berikan contoh tiga pesan email yang ingin kita prediksi:
- Klik tautan di bawah, berikan detail Anda dan menangkan penghargaan ini
- Kesepakatan musim panas terbaik di sini
- Sampai jumpa di kantor pada hari Jumat.
Tokenisasikan pesan email dan tentukan payload yang akan digunakan saat memanggil REST API.
Sekarang kita dapat memprediksi klasifikasi email untuk setiap email. Panggil metode prediksi pengklasifikasi teks, dengan meneruskan contoh kalimat yang diberi token (payload) ke dalam argumen data.
Membersihkan
Terakhir, Anda dapat menghapus titik akhir untuk menghindari biaya tak terduga.
Hapus juga file data dari ember S3.
Kesimpulan
Dalam postingan ini, kami memandu Anda melalui langkah-langkah membuat pendeteksi spam email menggunakan Algoritma SageMaker BlazingText. Dengan algoritma BlazingText, Anda dapat menskalakan ke kumpulan data yang besar. BlazingText digunakan untuk analisis tekstual dan masalah klasifikasi teks, serta memiliki mode pembelajaran tanpa pengawasan dan pengawasan. Anda dapat menggunakan algoritme untuk kasus penggunaan seperti analisis sentimen pelanggan dan klasifikasi teks.
Untuk mempelajari lebih lanjut tentang algoritma BlazingText, lihat Algoritme BlazingText.
tentang Penulis
Dhiraj Thakur adalah Arsitek Solusi dengan Amazon Web Services. Dia bekerja dengan pelanggan dan mitra AWS untuk memberikan panduan tentang adopsi cloud perusahaan, migrasi, dan strategi. Dia sangat menyukai teknologi dan suka membangun serta bereksperimen dalam ruang analitik dan AI / ML.
- Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
- PlatoData.Jaringan Vertikal Generatif Ai. Berdayakan Diri Anda. Akses Di Sini.
- PlatoAiStream. Intelijen Web3. Pengetahuan Diperkuat. Akses Di Sini.
- PlatoESG. Otomotif / EV, Karbon, teknologi bersih, energi, Lingkungan Hidup, Tenaga surya, Penanganan limbah. Akses Di Sini.
- BlockOffset. Modernisasi Kepemilikan Offset Lingkungan. Akses Di Sini.
- Sumber: https://aws.amazon.com/blogs/machine-learning/build-an-email-spam-detector-using-amazon-sagemaker/
- :memiliki
- :adalah
- :bukan
- :Di mana
- $NAIK
- 1
- 7
- a
- Tentang Kami
- ketepatan
- menyesuaikan
- Menambahkan
- Adopsi
- iklan
- AI / ML
- algoritma
- algoritma
- juga
- Amazon
- Amazon SageMaker
- Amazon Web Services
- an
- analisis
- analisis
- dan
- Apa pun
- api
- muncul
- aplikasi
- ADALAH
- argumen
- AS
- At
- Mencoba
- secara otomatis
- menghindari
- AWS
- berdasarkan
- BE
- menjadi
- menjadi
- di bawah
- Bot
- kedua
- membangun
- Bangunan
- built-in
- tapi
- by
- panggilan
- panggilan
- CAN
- kasus
- kasus
- Kategori
- rantai
- menantang
- mengubah
- Saluran
- saluran
- memeriksa
- Pilih
- klasifikasi
- awan
- adopsi cloud
- Kolom
- lengkap
- mengandung
- Wadah
- Konten
- mengubah
- Biaya
- membuat
- pelanggan
- pelanggan
- Berbahaya
- data
- Persiapan data
- ilmu data
- kumpulan data
- transaksi
- menunjukkan
- menyebarkan
- rincian
- Deteksi
- alat
- berbeda
- dokumen
- dua
- setiap
- efek
- akhir
- Titik akhir
- Enterprise
- entitas
- penting
- contoh
- contoh
- mengharapkan
- tambahan
- gadungan
- iklan palsu
- File
- File
- menyaring
- Pertama
- berikut
- Untuk
- format
- Jumat
- dari
- mendapatkan
- GitHub
- bimbingan
- he
- Seterpercayaapakah Olymp Trade? Kesimpulan
- HTML
- HTTPS
- manusia
- if
- gambar
- Segera
- penting
- meningkatkan
- in
- memasukkan
- informasi
- contoh
- instruksi
- ke
- IT
- NYA
- jpg
- dikenal
- Label
- Tanah
- bahasa
- besar
- BELAJAR
- pengetahuan
- Perpustakaan
- 'like'
- baris
- LINK
- memuat
- mesin
- manual
- Mungkin..
- pesan
- pesan
- metode
- migrasi
- mode
- model
- mode
- lebih
- paling
- banyak
- beberapa
- Bernama
- Alam
- Pengolahan Bahasa alami
- Alam
- Perlu
- New
- berikutnya
- nLP
- buku catatan
- sekarang
- jumlah
- of
- Penawaran
- Office
- sering
- on
- sekali
- ONE
- Buka
- dioptimalkan
- or
- organisasi
- Lainnya
- jika tidak
- kami
- di luar
- khususnya
- rekan
- Lewat
- bergairah
- Melakukan
- Phishing
- plato
- Kecerdasan Data Plato
- Data Plato
- mungkin
- Pos
- meramalkan
- Prediksi
- disukai
- persiapan
- prasyarat
- masalah
- pengolahan
- melindungi
- memberikan
- Ular sanca
- Peringkat
- pengakuan
- wajib
- itu
- ISTIRAHAT
- benar
- Risiko
- peran
- Run
- pembuat bijak
- Contoh kumpulan data
- Skala
- penipuan
- Ilmu
- keamanan
- Ancaman keamanan
- melihat
- terpilih
- peka
- mengirim
- putusan pengadilan
- sentimen
- Layanan
- set
- harus
- Menunjukkan
- ditunjukkan
- Sederhana
- tunggal
- Solusi
- Space
- Spam
- membagi
- Langkah
- Tangga
- penyimpanan
- mudah
- Penyelarasan
- studio
- seperti itu
- musim panas
- Mengambil
- tugas
- tugas
- teknik
- Teknologi
- uji
- Klasifikasi Teks
- bahwa
- Grafik
- mereka
- Mereka
- Sana.
- mereka
- ini
- ancaman
- tiga
- Melalui
- untuk
- dipatok
- Token
- Pelatihan VE
- terlatih
- Pelatihan
- Terjemahan
- jenis
- khas
- Tiba-tiba
- upload
- menggunakan
- gunakan case
- bekas
- Pengguna
- menggunakan
- pengesahan
- nilai
- berbagai
- memeriksa
- berjalan
- ingin
- we
- jaringan
- layanan web
- ketika
- yang
- SIAPA
- menang
- dengan
- bekerja
- Kamu
- Anda
- zephyrnet.dll