Email rác hay còn gọi là thư rác được gửi tới một số lượng lớn người dùng cùng một lúc và thường chứa nội dung lừa đảo, lừa đảo hoặc tin nhắn khó hiểu. Email spam đôi khi được gửi thủ công bởi con người, nhưng hầu hết chúng thường được gửi bằng bot. Ví dụ về email spam bao gồm quảng cáo giả mạo, email chuỗi và nỗ lực mạo danh. Có nguy cơ một email spam được ngụy trang đặc biệt có thể rơi vào hộp thư đến của bạn, điều này có thể gây nguy hiểm nếu nhấp vào. Điều quan trọng là phải thực hiện các biện pháp phòng ngừa bổ sung để bảo vệ thiết bị và thông tin nhạy cảm của bạn.
Khi công nghệ ngày càng cải tiến, việc phát hiện email rác trở thành một nhiệm vụ đầy thách thức do tính chất thay đổi của nó. Thư rác khá khác biệt so với các loại mối đe dọa bảo mật khác. Lúc đầu, nó có thể trông giống như một tin nhắn gây khó chịu chứ không phải là một tin nhắn mối đe dọa, nhưng nó có tác dụng ngay lập tức. Ngoài ra những kẻ gửi thư rác thường thích ứng với các kỹ thuật mới. Các tổ chức cung cấp dịch vụ email muốn giảm thiểu thư rác nhiều nhất có thể để tránh mọi thiệt hại cho khách hàng cuối của họ.
Trong bài đăng này, chúng tôi cho thấy việc xây dựng trình phát hiện thư rác email bằng cách sử dụng nó đơn giản như thế nào. Amazon SageMaker. Tích hợp sẵn Thuật toán BlazingText cung cấp triển khai tối ưu hóa Word2vec và thuật toán phân loại văn bản. Word2vec rất hữu ích cho các tác vụ xử lý ngôn ngữ tự nhiên (NLP) khác nhau, chẳng hạn như phân tích tình cảm, nhận dạng thực thể được đặt tên và dịch máy. Phân loại văn bản rất cần thiết cho các ứng dụng như tìm kiếm trên web, truy xuất thông tin, xếp hạng và phân loại tài liệu.
Tổng quan về giải pháp
Bài đăng này trình bày cách bạn có thể thiết lập trình phát hiện thư rác và lọc email thư rác bằng SageMaker. Hãy xem cách hoạt động của trình phát hiện thư rác, như thể hiện trong sơ đồ sau.
Email được gửi thông qua một trình phát hiện thư rác. Một email sẽ được gửi đến thư mục thư rác nếu trình phát hiện thư rác phát hiện đó là thư rác. Nếu không, nó sẽ được gửi đến hộp thư đến của khách hàng.
Chúng tôi sẽ hướng dẫn bạn các bước sau để thiết lập mô hình trình phát hiện thư rác của chúng tôi:
- Tải xuống tập dữ liệu mẫu từ repo GitHub.
- Tải dữ liệu trong một Xưởng sản xuất Amazon SageMaker sổ tay.
- Chuẩn bị dữ liệu cho mô hình.
- Đào tạo, triển khai và thử nghiệm mô hình.
Điều kiện tiên quyết
Trước khi đi sâu vào trường hợp sử dụng này, hãy hoàn thành các điều kiện tiên quyết sau:
- Thiết lập một Tài khoản AWS.
- Thiết lập một Miền SageMaker.
- tạo một Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3). Để biết hướng dẫn, xem Tạo nhóm S3 đầu tiên của bạn.
Tải xuống tập dữ liệu
Tải xuống email_dataset.csv từ GitHub và tải tệp lên nhóm S3.
Thuật toán BlazingText yêu cầu một tệp văn bản được xử lý trước duy nhất có các mã thông báo được phân tách bằng dấu cách. Mỗi dòng trong tệp phải chứa một câu duy nhất. Nếu bạn cần đào tạo trên nhiều tệp văn bản, hãy ghép chúng thành một tệp và tải tệp lên kênh tương ứng.
Tải dữ liệu trong SageMaker Studio
Để thực hiện tải dữ liệu, hãy hoàn thành các bước sau:
- Tải về
spam_detector.ipynb
tập tin từ GitHub và tải tệp lên SageMaker Studio. - Trong sổ ghi chép Studio của bạn, hãy mở
spam_detector.ipynb
sổ tay. - Nếu bạn được nhắc chọn Kernel, hãy chọn kernel Python 3 (Data Science 3.0) và chọn Chọn. Nếu không, hãy xác minh rằng kernel bên phải đã được chọn tự động.
- Nhập thư viện Python cần thiết và đặt vai trò cũng như nhóm S3. Chỉ định nhóm S3 và tiền tố nơi bạn đã tải email_dataset.csv lên.
- Chạy bước tải dữ liệu vào sổ ghi chép.
- Kiểm tra xem tập dữ liệu có cân bằng hay không dựa trên nhãn Danh mục.
Chúng ta có thể thấy tập dữ liệu của chúng ta được cân bằng.
Chuẩn bị dữ liệu
Thuật toán BlazingText mong đợi dữ liệu ở định dạng sau:
Dưới đây là một ví dụ:
kiểm tra Định dạng dữ liệu đào tạo và xác thực cho thuật toán BlazingText.
Bây giờ bạn chạy bước chuẩn bị dữ liệu trong sổ ghi chép.
- Đầu tiên, bạn cần chuyển cột Danh mục thành số nguyên. Ô sau thay thế giá trị SPAM bằng 1 và giá trị HAM bằng 0.
- Ô tiếp theo thêm tiền tố
__label__
cho từng giá trị Danh mục và mã hóa cột Thông báo.
- Bước tiếp theo là chia tập dữ liệu thành tập dữ liệu huấn luyện và tập dữ liệu xác thực rồi tải tệp lên bộ chứa S3.
Đào tạo mô hình
Để đào tạo mô hình, hãy hoàn thành các bước sau trong sổ tay:
- Thiết lập công cụ ước tính BlazingText và tạo một phiên bản công cụ ước tính truyền hình ảnh vùng chứa.
- Đặt siêu tham số của chế độ học tập thành được giám sát.
BlazingText có cả chế độ học tập không giám sát và giám sát. Trường hợp sử dụng của chúng tôi là phân loại văn bản, tức là học có giám sát.
- Tạo các kênh dữ liệu đào tạo và xác nhận.
- Bắt đầu đào tạo mô hình.
- Nhận độ chính xác của dữ liệu đào tạo và xác nhận.
Triển khai mô hình
Trong bước này, chúng tôi triển khai mô hình đã đào tạo làm điểm cuối. Chọn phiên bản ưa thích của bạn
Kiểm tra mô hình
Hãy cung cấp một ví dụ về ba email mà chúng tôi muốn nhận dự đoán:
- Nhấp vào liên kết bên dưới, cung cấp thông tin chi tiết của bạn và giành giải thưởng này
- Ưu đãi mùa hè tốt nhất ở đây
- Hẹn gặp bạn ở văn phòng vào thứ Sáu.
Mã hóa thông báo email và chỉ định tải trọng sẽ sử dụng khi gọi API REST.
Bây giờ chúng ta có thể dự đoán phân loại email cho từng email. Gọi phương thức dự đoán của trình phân loại văn bản, chuyển các phiên bản câu được mã hóa (tải trọng) vào đối số dữ liệu.
Làm sạch
Cuối cùng, bạn có thể xóa điểm cuối để tránh mọi chi phí không mong muốn.
Ngoài ra, hãy xóa tệp dữ liệu từ nhóm S3.
Kết luận
Trong bài đăng này, chúng tôi đã hướng dẫn bạn các bước để tạo trình phát hiện thư rác bằng cách sử dụng Thuật toán SageMaker BlazingText. Với thuật toán BlazingText, bạn có thể mở rộng quy mô thành các tập dữ liệu lớn. BlazingText được sử dụng để phân tích văn bản và các vấn đề phân loại văn bản, đồng thời có cả chế độ học tập không giám sát và giám sát. Bạn có thể sử dụng thuật toán cho các trường hợp sử dụng như phân tích cảm tính của khách hàng và phân loại văn bản.
Để tìm hiểu thêm về thuật toán BlazingText, hãy xem Thuật toán BlazingText.
Lưu ý
Dhiraj Thakur là Kiến trúc sư Giải pháp với Dịch vụ Web của Amazon. Anh làm việc với các khách hàng và đối tác của AWS để cung cấp hướng dẫn về chiến lược, di chuyển và áp dụng đám mây dành cho doanh nghiệp. Anh ấy đam mê công nghệ và thích xây dựng và thử nghiệm trong không gian phân tích và AI / ML.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
- PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- Trung tâmESG. Ô tô / Xe điện, Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
- BlockOffsets. Hiện đại hóa quyền sở hữu bù đắp môi trường. Truy cập Tại đây.
- nguồn: https://aws.amazon.com/blogs/machine-learning/build-an-email-spam-detector-using-amazon-sagemaker/
- : có
- :là
- :không phải
- :Ở đâu
- $ LÊN
- 1
- 7
- a
- Giới thiệu
- chính xác
- thích ứng
- Thêm
- Nhận con nuôi
- quảng cáo
- AI / ML
- thuật toán
- thuật toán
- Ngoài ra
- đàn bà gan dạ
- Amazon SageMaker
- Amazon Web Services
- an
- phân tích
- phân tích
- và
- bất kì
- api
- xuất hiện
- các ứng dụng
- LÀ
- đối số
- AS
- At
- Nỗ lực
- tự động
- tránh
- AWS
- dựa
- BE
- trở thành
- được
- phía dưới
- Bot
- cả hai
- xây dựng
- Xây dựng
- được xây dựng trong
- nhưng
- by
- cuộc gọi
- gọi
- CAN
- trường hợp
- trường hợp
- Phân loại
- chuỗi
- thách thức
- thay đổi
- Kênh
- kênh
- kiểm tra
- Chọn
- phân loại
- đám mây
- áp dụng đám mây
- Cột
- hoàn thành
- chứa
- Container
- nội dung
- chuyển đổi
- Phí Tổn
- tạo
- khách hàng
- khách hàng
- Nguy hiểm
- dữ liệu
- Chuẩn bị dữ liệu
- khoa học dữ liệu
- bộ dữ liệu
- nhiều
- chứng minh
- triển khai
- chi tiết
- Phát hiện
- thiết bị
- khác nhau
- tài liệu
- hai
- mỗi
- hiệu lực
- cuối
- Điểm cuối
- Doanh nghiệp
- thực thể
- thiết yếu
- ví dụ
- ví dụ
- kỳ vọng
- thêm
- giả mạo
- quảng cáo giả mạo
- Tập tin
- Các tập tin
- lọc
- Tên
- tiếp theo
- Trong
- định dạng
- Thứ Sáu
- từ
- được
- GitHub
- hướng dẫn
- he
- Độ đáng tin của
- HTML
- HTTPS
- Nhân loại
- if
- hình ảnh
- lập tức
- quan trọng
- cải thiện
- in
- bao gồm
- thông tin
- ví dụ
- hướng dẫn
- trong
- IT
- ITS
- jpg
- nổi tiếng
- Nhãn
- Quốc gia
- Ngôn ngữ
- lớn
- LEARN
- học tập
- Thư viện
- Lượt thích
- Dòng
- LINK
- tải
- máy
- thủ công
- Có thể..
- tin nhắn
- tin nhắn
- phương pháp
- di cư
- Chế độ
- kiểu mẫu
- chế độ
- chi tiết
- hầu hết
- nhiều
- nhiều
- Được đặt theo tên
- Tự nhiên
- Xử lý ngôn ngữ tự nhiên
- Thiên nhiên
- Cần
- Mới
- tiếp theo
- nlp
- máy tính xách tay
- tại
- con số
- of
- Cung cấp
- Office
- thường
- on
- hàng loạt
- ONE
- mở
- tối ưu hóa
- or
- tổ chức
- Nền tảng khác
- nếu không thì
- vfoXNUMXfipXNUMXhfpiXNUMXufhpiXNUMXuf
- ra
- đặc biệt
- Đối tác
- Đi qua
- đam mê
- Thực hiện
- Lừa đảo
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- có thể
- Bài đăng
- dự đoán
- Dự đoán
- ưa thích
- chuẩn bị
- điều kiện tiên quyết
- vấn đề
- xử lý
- bảo vệ
- cho
- Python
- Xếp hạng
- công nhận
- cần phải
- mà
- REST của
- ngay
- Nguy cơ
- vai trò
- chạy
- nhà làm hiền triết
- Tập dữ liệu mẫu
- Quy mô
- lừa đảo
- Khoa học
- an ninh
- Các mối đe dọa an ninh
- xem
- chọn
- nhạy cảm
- gởi
- kết án
- tình cảm
- DỊCH VỤ
- định
- nên
- hiển thị
- thể hiện
- Đơn giản
- duy nhất
- Giải pháp
- Không gian
- thư rác
- chia
- Bước
- Các bước
- là gắn
- đơn giản
- Chiến lược
- phòng thu
- như vậy
- mùa hè
- Hãy
- Nhiệm vụ
- nhiệm vụ
- kỹ thuật
- Công nghệ
- thử nghiệm
- Phân loại văn bản
- việc này
- Sản phẩm
- cung cấp their dịch
- Them
- Đó
- họ
- điều này
- các mối đe dọa
- số ba
- Thông qua
- đến
- được mã hóa
- Tokens
- Train
- đào tạo
- Hội thảo
- Dịch
- loại
- thường
- Bất ngờ
- tải lên
- sử dụng
- ca sử dụng
- đã sử dụng
- Người sử dụng
- sử dụng
- xác nhận
- giá trị
- khác nhau
- xác minh
- đi bộ
- muốn
- we
- web
- các dịch vụ web
- khi nào
- cái nào
- CHÚNG TÔI LÀ
- giành chiến thắng
- với
- công trinh
- Bạn
- trên màn hình
- zephyrnet