อีเมลสแปมหรือที่เรียกว่าเมลขยะจะถูกส่งไปยังผู้ใช้จำนวนมากในคราวเดียว และมักจะมีกลโกง เนื้อหาฟิชชิ่ง หรือข้อความที่เป็นความลับ บางครั้งอีเมลขยะจะถูกส่งด้วยตนเองโดยมนุษย์ แต่ส่วนใหญ่มักส่งโดยใช้บอท ตัวอย่างของอีเมลสแปม ได้แก่ โฆษณาปลอม อีเมลลูกโซ่ และการพยายามแอบอ้างบุคคลอื่น มีความเสี่ยงที่อีเมลขยะที่ปกปิดเป็นความลับอาจเข้ามาในกล่องจดหมายของคุณ ซึ่งอาจเป็นอันตรายได้หากคลิก สิ่งสำคัญคือต้องใช้ความระมัดระวังเป็นพิเศษเพื่อปกป้องอุปกรณ์และข้อมูลที่ละเอียดอ่อนของคุณ
ในขณะที่เทคโนโลยีมีการปรับปรุง การตรวจหาอีเมลขยะจึงกลายเป็นงานที่ท้าทายเนื่องจากลักษณะที่เปลี่ยนแปลงไป สแปมค่อนข้างแตกต่างจากภัยคุกคามความปลอดภัยประเภทอื่นๆ ในตอนแรกอาจดูเหมือนเป็นข้อความที่น่ารำคาญและไม่ใช่ การคุกคามแต่มีผลทันที ผู้ส่งอีเมลขยะมักจะปรับใช้เทคนิคใหม่ๆ องค์กรที่ให้บริการอีเมลต้องการลดสแปมให้เหลือน้อยที่สุดเพื่อหลีกเลี่ยงความเสียหายต่อลูกค้าปลายทาง
ในโพสต์นี้ เราจะแสดงให้เห็นว่าการสร้างเครื่องมือตรวจจับสแปมอีเมลโดยใช้นั้นตรงไปตรงมาเพียงใด อเมซอน SageMaker. ในตัว อัลกอริธึม BlazingText นำเสนอการใช้งาน Word2vec และอัลกอริธึมการจัดหมวดหมู่ข้อความที่ดีที่สุด Word2vec มีประโยชน์สำหรับงานการประมวลผลภาษาธรรมชาติ (NLP) ต่างๆ เช่น การวิเคราะห์ความรู้สึก การจดจำเอนทิตีที่มีชื่อ และการแปลด้วยเครื่อง การจัดประเภทข้อความเป็นสิ่งจำเป็นสำหรับแอปพลิเคชัน เช่น การค้นหาเว็บ การดึงข้อมูล การจัดอันดับ และการจัดประเภทเอกสาร
ภาพรวมโซลูชัน
โพสต์นี้สาธิตวิธีตั้งค่าตัวตรวจจับสแปมอีเมลและกรองอีเมลสแปมโดยใช้ SageMaker มาดูกันว่าโดยทั่วไปแล้วเครื่องตรวจจับสแปมทำงานอย่างไร ดังแสดงในแผนภาพต่อไปนี้
อีเมลถูกส่งผ่านเครื่องตรวจจับสแปม อีเมลจะถูกส่งไปยังโฟลเดอร์สแปมหากตัวตรวจจับสแปมตรวจพบว่าเป็นสแปม มิฉะนั้นจะถูกส่งไปยังกล่องจดหมายของลูกค้า
เราจะแนะนำคุณตลอดขั้นตอนต่อไปนี้เพื่อตั้งค่ารูปแบบเครื่องตรวจจับสแปมของเรา:
- ดาวน์โหลดชุดข้อมูลตัวอย่างจาก repo GitHub
- โหลดข้อมูลในรูปแบบ สตูดิโอ Amazon SageMaker สมุดบันทึก.
- เตรียมข้อมูลสำหรับโมเดล
- ฝึกอบรม ปรับใช้ และทดสอบโมเดล
เบื้องต้น
ก่อนที่จะเจาะลึกกรณีการใช้งานนี้ ให้ปฏิบัติตามข้อกำหนดเบื้องต้นต่อไปนี้:
- ตั้งค่าไฟล์ บัญชี AWS.
- ตั้งค่าไฟล์ โดเมน SageMaker.
- สร้าง บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน S3) ที่เก็บข้อมูล สำหรับคำแนะนำ โปรดดูที่ สร้างที่เก็บข้อมูล S3 แรกของคุณ.
ดาวน์โหลดชุดข้อมูล
ดาวน์โหลด email_dataset.csv จาก GitHub และ อัปโหลดไฟล์ไปยังบัคเก็ต S3.
อัลกอริธึม BlazingText คาดว่าจะมีไฟล์ข้อความที่ประมวลผลล่วงหน้าไฟล์เดียวพร้อมโทเค็นที่แยกช่องว่าง แต่ละบรรทัดในไฟล์ควรมีประโยคเดียว หากคุณต้องการฝึกใช้ไฟล์ข้อความหลายไฟล์ ให้ต่อกันเป็นไฟล์เดียวแล้วอัปโหลดไฟล์ในช่องที่เกี่ยวข้อง
โหลดข้อมูลใน SageMaker Studio
ในการโหลดข้อมูล ให้ทำตามขั้นตอนต่อไปนี้:
- ดาวน์โหลด
spam_detector.ipynb
ไฟล์จาก GitHub และ อัปโหลดไฟล์ใน SageMaker Studio. - ในสมุดบันทึก Studio ของคุณ ให้เปิดไฟล์
spam_detector.ipynb
สมุดบันทึก. - หากคุณได้รับแจ้งให้เลือกเคอร์เนล ให้เลือกเคอร์เนล Python 3 (Data Science 3.0) แล้วเลือก เลือก. ถ้าไม่เช่นนั้น ให้ตรวจสอบว่าได้เลือกเคอร์เนลที่ถูกต้องโดยอัตโนมัติ
- นำเข้าไลบรารี Python ที่จำเป็น และตั้งค่าบทบาทและบัคเก็ต S3 ระบุบัคเก็ต S3 และคำนำหน้าที่คุณอัปโหลด email_dataset.csv
- รันขั้นตอนการโหลดข้อมูลในสมุดบันทึก
- ตรวจสอบว่าชุดข้อมูลมีความสมดุลหรือไม่ขึ้นอยู่กับป้ายกำกับหมวดหมู่
เราจะเห็นว่าชุดข้อมูลของเรามีความสมดุล
เตรียมข้อมูล
อัลกอริทึม BlazingText คาดว่าข้อมูลจะอยู่ในรูปแบบต่อไปนี้:
นี่คือตัวอย่าง:
ตรวจสอบ รูปแบบข้อมูลการฝึกอบรมและการตรวจสอบความถูกต้องสำหรับอัลกอริทึม BlazingText.
ตอนนี้คุณเรียกใช้ขั้นตอนการเตรียมข้อมูลในสมุดบันทึก
- ขั้นแรก คุณต้องแปลงคอลัมน์หมวดหมู่เป็นจำนวนเต็ม เซลล์ต่อไปนี้จะแทนที่ค่า SPAM ด้วย 1 และค่า HAM ด้วย 0
- เซลล์ถัดไปจะเพิ่มคำนำหน้า
__label__
ให้กับแต่ละค่าหมวดหมู่และโทเค็นคอลัมน์ข้อความ
- ขั้นตอนต่อไปคือการแบ่งชุดข้อมูลออกเป็นชุดข้อมูลการฝึกและการตรวจสอบความถูกต้อง แล้วอัปโหลดไฟล์ไปยังบัคเก็ต S3
ฝึกโมเดล
หากต้องการฝึกแบบจำลอง ให้ทำตามขั้นตอนต่อไปนี้ในสมุดบันทึก:
- ตั้งค่าตัวประมาณค่า BlazingText และสร้างอินสแตนซ์ตัวประมาณค่าที่ส่งผ่านอิมเมจคอนเทนเนอร์
- ตั้งค่าไฮเปอร์พารามิเตอร์ของโหมดการเรียนรู้เป็นภายใต้การควบคุมดูแล
BlazingText มีทั้งโหมดการเรียนรู้แบบไม่มีผู้ดูแลและแบบมีผู้ดูแล กรณีการใช้งานของเราคือการจำแนกข้อความซึ่งเป็นการเรียนรู้แบบมีผู้สอน
- สร้างช่องทางข้อมูลรถไฟและการตรวจสอบ
- เริ่มฝึกโมเดล
- รับความถูกต้องของชุดข้อมูลรถไฟและการตรวจสอบความถูกต้อง
ปรับใช้โมเดล
ในขั้นตอนนี้ เราจะปรับใช้โมเดลที่ผ่านการฝึกอบรมเป็นจุดสิ้นสุด เลือกอินสแตนซ์ที่คุณต้องการ
ทดสอบโมเดล
มาดูตัวอย่างข้อความอีเมลสามข้อความที่เราต้องการรับการคาดการณ์:
- คลิกที่ลิงค์ด้านล่าง ระบุรายละเอียดของคุณและรับรางวัลนี้
- ข้อตกลงฤดูร้อนที่ดีที่สุดที่นี่
- เจอกันที่ออฟฟิศวันศุกร์ครับ
โทเค็นข้อความอีเมลและระบุเพย์โหลดที่จะใช้เมื่อเรียกใช้ REST API
ตอนนี้เราสามารถคาดการณ์การจัดหมวดหมู่อีเมลสำหรับอีเมลแต่ละฉบับได้แล้ว เรียกวิธีการทำนายของตัวแยกประเภทข้อความโดยส่งอินสแตนซ์ประโยคโทเค็น (เพย์โหลด) ไปยังอาร์กิวเมนต์ข้อมูล
ทำความสะอาด
สุดท้าย คุณสามารถลบตำแหน่งข้อมูลได้เพื่อหลีกเลี่ยงค่าใช้จ่ายที่ไม่คาดคิด
นอกจากนี้ให้ลบ ไฟล์ข้อมูลจากบัคเก็ต S3.
สรุป
ในโพสต์นี้ เราได้แนะนำคุณตลอดขั้นตอนในการสร้างเครื่องมือตรวจจับสแปมอีเมลโดยใช้ อัลกอริทึม SageMaker BlazingText. ด้วยอัลกอริทึม BlazingText คุณสามารถปรับขนาดเป็นชุดข้อมูลขนาดใหญ่ได้ BlazingText ใช้สำหรับการวิเคราะห์ข้อความและปัญหาการจำแนกข้อความ และมีทั้งโหมดการเรียนรู้แบบไม่มีผู้ดูแลและแบบมีผู้ดูแล คุณสามารถใช้อัลกอริทึมสำหรับกรณีการใช้งาน เช่น การวิเคราะห์ความรู้สึกของลูกค้าและการจัดประเภทข้อความ
หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับอัลกอริทึม BlazingText โปรดดู อัลกอริธึม BlazingText.
เกี่ยวกับผู้เขียน
ธีรัช ฐกูร เป็นสถาปนิกโซลูชันกับ Amazon Web Services เขาทำงานร่วมกับลูกค้าและคู่ค้าของ AWS เพื่อให้คำแนะนำเกี่ยวกับการนำระบบคลาวด์ไปใช้ การย้ายข้อมูล และกลยุทธ์ เขาหลงใหลในเทคโนโลยีและสนุกกับการสร้างและทดลองในด้านการวิเคราะห์และ AI/ML
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
- เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
- เพลโตESG. ยานยนต์ / EVs, คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
- BlockOffsets การปรับปรุงการเป็นเจ้าของออฟเซ็ตด้านสิ่งแวดล้อมให้ทันสมัย เข้าถึงได้ที่นี่.
- ที่มา: https://aws.amazon.com/blogs/machine-learning/build-an-email-spam-detector-using-amazon-sagemaker/
- :มี
- :เป็น
- :ไม่
- :ที่ไหน
- $ ขึ้น
- 1
- 7
- a
- เกี่ยวกับเรา
- ความถูกต้อง
- ปรับ
- เพิ่ม
- การนำมาใช้
- โฆษณา
- AI / ML
- ขั้นตอนวิธี
- อัลกอริทึม
- ด้วย
- อเมซอน
- อเมซอน SageMaker
- Amazon Web Services
- an
- การวิเคราะห์
- การวิเคราะห์
- และ
- ใด
- API
- ปรากฏ
- การใช้งาน
- เป็น
- อาร์กิวเมนต์
- AS
- At
- ความพยายามในการ
- อัตโนมัติ
- หลีกเลี่ยง
- AWS
- ตาม
- BE
- จะกลายเป็น
- รับ
- ด้านล่าง
- ธ ปท
- ทั้งสอง
- สร้าง
- การก่อสร้าง
- built-in
- แต่
- by
- โทรศัพท์
- โทร
- CAN
- กรณี
- กรณี
- หมวดหมู่
- โซ่
- ท้าทาย
- เปลี่ยนแปลง
- ช่อง
- ช่อง
- ตรวจสอบ
- Choose
- การจัดหมวดหมู่
- เมฆ
- การยอมรับระบบคลาวด์
- คอลัมน์
- สมบูรณ์
- บรรจุ
- ภาชนะ
- เนื้อหา
- แปลง
- ราคา
- สร้าง
- ลูกค้า
- ลูกค้า
- Dangerous
- ข้อมูล
- การเตรียมข้อมูล
- วิทยาศาสตร์ข้อมูล
- ชุดข้อมูล
- จัดการ
- แสดงให้เห็นถึง
- ปรับใช้
- รายละเอียด
- การตรวจพบ
- เครื่อง
- ต่าง
- เอกสาร
- สอง
- แต่ละ
- ผล
- อีเมล
- อีเมล
- ปลาย
- ปลายทาง
- Enterprise
- เอกลักษณ์
- จำเป็น
- ตัวอย่าง
- ตัวอย่าง
- คาดว่า
- พิเศษ
- เทียม
- โฆษณาปลอม
- เนื้อไม่มีมัน
- ไฟล์
- กรอง
- ชื่อจริง
- ดังต่อไปนี้
- สำหรับ
- รูป
- วันศุกร์
- ราคาเริ่มต้นที่
- ได้รับ
- GitHub
- คำแนะนำ
- he
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- HTML
- HTTPS
- เป็นมนุษย์
- if
- ภาพ
- ทันที
- สำคัญ
- การปรับปรุง
- in
- ประกอบด้วย
- ข้อมูล
- ตัวอย่าง
- คำแนะนำการใช้
- เข้าไป
- IT
- ITS
- jpg
- ที่รู้จักกัน
- ป้ายกำกับ
- ที่ดิน
- ภาษา
- ใหญ่
- เรียนรู้
- การเรียนรู้
- ห้องสมุด
- กดไลก์
- Line
- LINK
- โหลด
- เครื่อง
- ด้วยมือ
- อาจ..
- ข่าวสาร
- ข้อความ
- วิธี
- การโยกย้าย
- โหมด
- แบบ
- โหมด
- ข้อมูลเพิ่มเติม
- มากที่สุด
- มาก
- หลาย
- ที่มีชื่อ
- โดยธรรมชาติ
- ประมวลผลภาษาธรรมชาติ
- ธรรมชาติ
- จำเป็นต้อง
- ใหม่
- ถัดไป
- NLP
- สมุดบันทึก
- ตอนนี้
- จำนวน
- of
- เสนอ
- Office
- มักจะ
- on
- ครั้งเดียว
- ONE
- เปิด
- การปรับให้เหมาะสม
- or
- องค์กร
- อื่นๆ
- มิฉะนั้น
- ของเรา
- ออก
- โดยเฉพาะ
- พาร์ทเนอร์
- ที่ผ่านไป
- หลงใหล
- ดำเนินการ
- ฟิชชิ่ง
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- เป็นไปได้
- โพสต์
- คาดการณ์
- การคาดการณ์
- ที่ต้องการ
- การจัดเตรียม
- ข้อกำหนดเบื้องต้น
- ปัญหาที่เกิดขึ้น
- การประมวลผล
- ป้องกัน
- ให้
- หลาม
- อันดับ
- การรับรู้
- จำเป็นต้องใช้
- ว่า
- REST
- ขวา
- ความเสี่ยง
- บทบาท
- วิ่ง
- sagemaker
- ตัวอย่างชุดข้อมูล
- ขนาด
- หลอกลวง
- วิทยาศาสตร์
- ความปลอดภัย
- ภัยคุกคามความปลอดภัย
- เห็น
- เลือก
- มีความละเอียดอ่อน
- ส่ง
- ประโยค
- ความรู้สึก
- บริการ
- ชุด
- น่า
- โชว์
- แสดง
- ง่าย
- เดียว
- โซลูชัน
- ช่องว่าง
- สแปม
- แยก
- ขั้นตอน
- ขั้นตอน
- การเก็บรักษา
- ซื่อตรง
- กลยุทธ์
- สตูดิโอ
- อย่างเช่น
- ฤดูร้อน
- เอา
- งาน
- งาน
- เทคนิค
- เทคโนโลยี
- ทดสอบ
- การจัดประเภทข้อความ
- ที่
- พื้นที่
- ของพวกเขา
- พวกเขา
- ที่นั่น
- พวกเขา
- นี้
- ภัยคุกคาม
- สาม
- ตลอด
- ไปยัง
- โทเค็น
- ราชสกุล
- รถไฟ
- ผ่านการฝึกอบรม
- การฝึกอบรม
- การแปลภาษา
- ชนิด
- เป็นปกติ
- ไม่คาดฝัน
- อัปโหลด
- ใช้
- ใช้กรณี
- มือสอง
- ผู้ใช้
- การใช้
- การตรวจสอบ
- ความคุ้มค่า
- ต่างๆ
- ตรวจสอบ
- เดิน
- ต้องการ
- we
- เว็บ
- บริการเว็บ
- เมื่อ
- ที่
- WHO
- ชนะ
- กับ
- โรงงาน
- คุณ
- ของคุณ
- ลมทะเล