วิธีที่ Sophos ฝึกเครื่องมือตรวจจับมัลแวร์ PDF ที่ทรงพลังและน้ำหนักเบาในระดับพิเศษด้วย Amazon SageMaker PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

วิธีที่ Sophos ฝึกเครื่องมือตรวจจับมัลแวร์ PDF ที่ทรงพลังและน้ำหนักเบาในระดับพิเศษด้วย Amazon SageMaker

โพสต์นี้เขียนร่วมโดย Salma Taoufiq และ Harini Kannan จาก Sophos

ในฐานะผู้นำด้านความปลอดภัยในโลกไซเบอร์ยุคใหม่ Sophos มุ่งมั่นที่จะปกป้ององค์กรมากกว่า 500,000 องค์กรและลูกค้าหลายล้านรายในกว่า 150 ประเทศจากภัยคุกคามที่เปลี่ยนแปลงตลอดเวลา ขับเคลื่อนโดยข่าวกรองภัยคุกคาม การเรียนรู้ของเครื่อง (ML) และปัญญาประดิษฐ์จาก Sophos X-Ops Sophos นำเสนอผลิตภัณฑ์และบริการขั้นสูงที่หลากหลายและหลากหลายเพื่อรักษาความปลอดภัยและปกป้องผู้ใช้ เครือข่าย และปลายทางจากฟิชชิ่ง แรนซัมแวร์ มัลแวร์ และ การโจมตีทางไซเบอร์ที่หลากหลาย

พื้นที่ กลุ่มปัญญาประดิษฐ์ Sophos (AI) (SophosAI) ดูแลการพัฒนาและบำรุงรักษาเทคโนโลยีความปลอดภัย ML หลักของ Sophos ความปลอดภัยเป็นปัญหาข้อมูลขนาดใหญ่ เพื่อหลบเลี่ยงการตรวจจับ อาชญากรไซเบอร์มักจะสร้างการโจมตีใหม่ๆ อยู่เสมอ ซึ่งแปลเป็นชุดข้อมูลภัยคุกคามขนาดมหึมาที่กลุ่มต้องทำงานด้วยเพื่อปกป้องลูกค้าได้ดีที่สุด ตัวอย่างหนึ่งที่น่าสังเกตคือการตรวจจับและกำจัดไฟล์ที่แฝงไปด้วยมัลแวร์อย่างมีเล่ห์เหลี่ยม โดยที่ชุดข้อมูลมีหน่วยเป็นเทราไบต์

ในโพสต์นี้ เราเน้นที่ระบบตรวจจับมัลแวร์ของ Sophos สำหรับรูปแบบไฟล์ PDF โดยเฉพาะ เราแสดงให้เห็นว่า SophosAI ใช้อย่างไร อเมซอน SageMaker กระจายการฝึกอบรมด้วยข้อมูลเทราไบต์เพื่อฝึกโมเดล XGBoost (Extreme Gradient Boosting) น้ำหนักเบาอันทรงพลัง ซึ่งช่วยให้ทีมของพวกเขาทำซ้ำข้อมูลการฝึกอบรมขนาดใหญ่ได้เร็วยิ่งขึ้นด้วยการปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์อัตโนมัติและไม่ต้องจัดการโครงสร้างพื้นฐานการฝึกอบรมพื้นฐาน

ในปัจจุบัน โซลูชันนี้ถูกรวมเข้ากับไปป์ไลน์การฝึกอบรมการผลิตอย่างราบรื่น และโมเดลถูกปรับใช้บนปลายทางของผู้ใช้หลายล้านรายผ่านทาง บริการปลายทางของ Sophos.

ใช้บริบทของเคส

ไม่ว่าคุณจะต้องการแบ่งปันสัญญาที่สำคัญหรือรักษาการออกแบบที่สวยงามของ CV ของคุณ รูปแบบ PDF เป็นตัวเลือกที่ใช้บ่อยที่สุด การใช้งานอย่างแพร่หลายและการรับรู้ทั่วไปว่าเอกสารดังกล่าวมีอากาศถ่ายเทและคงที่ได้ทำให้ผู้ใช้รู้สึกปลอดภัย ดังนั้น PDF จึงกลายเป็นเวกเตอร์การติดไวรัสในคลังแสงของผู้โจมตี การกระทำที่เป็นอันตรายโดยใช้ PDF ส่วนใหญ่มักเกิดขึ้นผ่านการฝังส่วนข้อมูล JavaScript ที่เรียกใช้โดยโปรแกรมอ่าน PDF เพื่อดาวน์โหลดไวรัสจาก URI บ่อนทำลายเครื่องของผู้ใช้ หรือขโมยข้อมูลที่ละเอียดอ่อน

Sophos ตรวจจับไฟล์ PDF ที่เป็นอันตราย ณ จุดต่างๆ ของการโจมตีโดยใช้โมเดลที่กำหนดขึ้นเองและ ML วิธีการหนึ่งดังกล่าวได้แสดงไว้ในแผนภาพต่อไปนี้ ซึ่งไฟล์ PDF ที่เป็นอันตรายจะถูกส่งผ่านอีเมล ทันทีที่มีการพยายามดาวน์โหลด มันจะทริกเกอร์สคริปต์ปฏิบัติการที่เป็นอันตรายเพื่อเชื่อมต่อกับเซิร์ฟเวอร์ Command and Control ของผู้โจมตี ตัวตรวจจับ PDF ของ SophosAI บล็อกการพยายามดาวน์โหลดหลังจากตรวจพบว่าเป็นอันตราย

วิธีอื่นๆ รวมถึงการบล็อกไฟล์ PDF ในจุดสิ้นสุด การส่งไฟล์ที่เป็นอันตรายไปยังแซนด์บ็อกซ์ (ซึ่งทำคะแนนโดยใช้หลายรุ่น) การส่งไฟล์ที่เป็นอันตรายไปยังโครงสร้างพื้นฐานการให้คะแนน และสร้างรายงานความปลอดภัย เป็นต้น

แรงจูงใจ

ในการสร้างตัวตรวจจับแบบต้นไม้ที่สามารถตัดสินไฟล์ PDF ที่เป็นอันตรายด้วยความมั่นใจสูง ในขณะที่ยอมให้ใช้พลังงานในการประมวลผลปลายทางต่ำและตอบสนองการอนุมานได้อย่างรวดเร็ว ทีมงาน SophosAI พบว่าอัลกอริทึม XGBoost เป็นตัวเลือกที่สมบูรณ์แบบสำหรับงาน แนวทางการวิจัยดังกล่าวมีความสำคัญสำหรับ Sophos ด้วยเหตุผลสองประการ การมีโมเดลที่มีประสิทธิภาพแต่มีขนาดเล็กซึ่งปรับใช้ที่ระดับปลายทางของลูกค้า มีผลกระทบอย่างมากต่อการรีวิวผลิตภัณฑ์ของบริษัทโดยนักวิเคราะห์ นอกจากนี้ยังและที่สำคัญกว่านั้นคือมอบประสบการณ์การใช้งานโดยรวมที่ดีขึ้นแก่ผู้ใช้

ความท้าทายทางเทคนิค

เนื่องจากเป้าหมายคือการมีโมเดลที่มีหน่วยความจำน้อยกว่าตัวตรวจจับมัลแวร์ PDF ที่มีอยู่ (ทั้งบนดิสก์และในหน่วยความจำ) SophosAI ได้เปลี่ยน XGBoost ซึ่งเป็นอัลกอริธึมการจำแนกประเภทที่มีบันทึกที่พิสูจน์แล้วว่ามีการผลิตโมเดลที่มีขนาดเล็กกว่าเครือข่ายประสาทเทียมอย่างมากในขณะที่บรรลุผลที่น่าประทับใจ ประสิทธิภาพของข้อมูลแบบตาราง ก่อนที่จะทำการทดลองสร้างแบบจำลอง XGBoost การพิจารณาที่สำคัญคือขนาดที่แท้จริงของชุดข้อมูล อันที่จริง ชุดข้อมูลหลักของไฟล์ PDF ของ Sophos มีหน่วยเป็นเทราไบต์

ดังนั้น ความท้าทายหลักคือการฝึกโมเดลด้วยชุดข้อมูลขนาดใหญ่โดยไม่ต้องลดขนาดตัวอย่าง เนื่องจากเป็นสิ่งสำคัญสำหรับตัวตรวจจับที่จะเรียนรู้ที่จะตรวจจับการโจมตีแบบ PDF ใด ๆ แม้แต่ในกองหญ้าและการโจมตีที่แปลกใหม่เพื่อปกป้องลูกค้าของ Sophos ได้ดียิ่งขึ้น การใช้ชุดข้อมูลที่หลากหลายที่มีอยู่ทั้งหมดจึงมีความสำคัญสูงสุด

ต่างจากโครงข่ายประสาทเทียม ซึ่งคุณสามารถฝึกเป็นชุดๆ สำหรับ XGBoost เราต้องการชุดข้อมูลการฝึกทั้งหมดในหน่วยความจำ ชุดข้อมูลการฝึกอบรมที่ใหญ่ที่สุดสำหรับโปรเจ็กต์นี้มีมากกว่า 1 TB และไม่มีวิธีการฝึกอบรมในระดับดังกล่าวโดยไม่ใช้วิธีการของเฟรมเวิร์กการฝึกอบรมแบบกระจาย

ภาพรวมโซลูชัน

SageMaker เป็นบริการ ML ที่มีการจัดการเต็มรูปแบบ โดยมีเครื่องมือต่างๆ ในการสร้าง ฝึกฝน เพิ่มประสิทธิภาพ และปรับใช้โมเดล ML ดิ ไลบรารีอัลกอริทึมในตัวของ SageMaker ประกอบด้วยอัลกอริธึม ML ยอดนิยม 21 แบบ รวมถึง XGBoost (ดูข้อมูลเพิ่มเติมได้ที่ ลดความซับซ้อนของการเรียนรู้ของเครื่องด้วย XGBoost และ Amazon SageMaker.) ด้วยอัลกอริทึมในตัว XGBoost คุณสามารถใช้ประโยชน์จากโอเพ่นซอร์ส คอนเทนเนอร์ SageMaker XGBoost โดยการระบุเวอร์ชันเฟรมเวิร์กที่มากกว่า 1.0-1 ซึ่งปรับปรุงความยืดหยุ่น ความสามารถในการขยาย ความสามารถในการขยาย และ Managed Spot Training และรองรับรูปแบบอินพุต เช่น Parquet ซึ่งเป็นรูปแบบที่ใช้สำหรับชุดข้อมูล PDF

เหตุผลหลักที่ SophosAI เลือก SageMaker คือความสามารถในการได้รับประโยชน์จากการฝึกอบรมแบบกระจายที่มีการจัดการอย่างเต็มรูปแบบบนอินสแตนซ์ CPU แบบหลายโหนดโดยการระบุมากกว่าหนึ่งอินสแตนซ์ SageMaker แยกข้อมูลโดยอัตโนมัติในโหนดต่างๆ รวมผลลัพธ์ข้ามโหนดเพียร์ และสร้างโมเดลเดียว อินสแตนซ์สามารถเป็นอินสแตนซ์ Spot ซึ่งจะช่วยลดต้นทุนการฝึกอบรมได้อย่างมาก กับ อัลกอริทึมในตัวสำหรับ XGBoostคุณสามารถทำได้โดยไม่ต้องมีสคริปต์ที่กำหนดเองเพิ่มเติม XGBoost เวอร์ชันที่เผยแพร่ยังมีเป็นโอเพ่นซอร์สเช่น XGBoost-เรย์ และ XGBoost4J-สปาร์คแต่การใช้งานต้องมีการสร้าง การรักษาความปลอดภัย การปรับแต่ง และการจัดการคลัสเตอร์การคำนวณแบบกระจายด้วยตนเอง ซึ่งแสดงถึงความพยายามที่สำคัญเพิ่มเติมในการพัฒนาทางวิทยาศาสตร์

นอกจากนี้ การปรับโมเดลอัตโนมัติของ SageMakerหรือที่เรียกว่าการปรับแต่งไฮเปอร์พารามิเตอร์ ค้นหาเวอร์ชันที่ดีที่สุดของโมเดลโดยเรียกใช้งานการฝึกอบรมจำนวนมากด้วยช่วงของไฮเปอร์พารามิเตอร์ที่คุณระบุ จากนั้นจะเลือกค่าไฮเปอร์พารามิเตอร์ที่ส่งผลให้โมเดลทำงานได้ดีที่สุด ตามที่วัดโดยเมตริกสำหรับงาน ML ที่กำหนด

ไดอะแกรมต่อไปนี้แสดงสถาปัตยกรรมโซลูชัน

วิธีที่ Sophos ฝึกเครื่องมือตรวจจับมัลแวร์ PDF ที่ทรงพลังและน้ำหนักเบาในระดับพิเศษด้วย Amazon SageMaker PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

เป็นที่น่าสังเกตว่า เมื่อ SophosAI เริ่มการทดลอง XGBoost ก่อนที่จะเปลี่ยนไปใช้ SageMaker มีการพยายามใช้หน่วยความจำขนาดใหญ่ อเมซอน อีลาสติก คอมพิวท์ คลาวด์ อินสแตนซ์ (Amazon EC2) (เช่น r5a.24xlarge และ x1.32xlarge) เพื่อฝึกโมเดลโดยใช้ตัวอย่างข้อมูลขนาดใหญ่ที่สุด อย่างไรก็ตาม ความพยายามเหล่านี้ใช้เวลาโดยเฉลี่ยมากกว่า 10 ชั่วโมง และมักจะล้มเหลวเนื่องจากหน่วยความจำไม่เพียงพอ

ในทางตรงกันข้าม ด้วยการใช้อัลกอริธึม SageMaker XGBoost และกลไกการฝึกอบรมแบบกระจายที่ไม่ยุ่งยาก SophosAI สามารถฝึกโมเดลบูสเตอร์ตามขนาดบนชุดข้อมูลการฝึกอบรม PDF ขนาดมหึมาในเวลาเพียง 20 นาที ทางทีมงานต้องเก็บข้อมูลไว้บน บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (Amazon S3) เป็นไฟล์ Parquet ที่มีขนาดใกล้เคียงกัน และเลือกประเภทอินสแตนซ์ EC2 และจำนวนอินสแตนซ์ที่ต้องการ และ SageMaker จัดการโครงสร้างพื้นฐานคลัสเตอร์การประมวลผลพื้นฐานและการฝึกอบรมแบบกระจายระหว่างโหนดหลายโหนดของคลัสเตอร์ ภายใต้ประทุน SageMaker จะแบ่งข้อมูลระหว่างโหนดต่างๆ โดยใช้ ShardedByS3Key เพื่อแจกจ่ายอ็อบเจ็กต์ไฟล์อย่างเท่าเทียมกันระหว่างแต่ละอินสแตนซ์ และใช้ XGBoost ของ โปรโตคอล Rabit (อินเทอร์เฟซ AllReduce และออกอากาศที่เชื่อถือได้) เพื่อเปิดใช้การประมวลผลแบบกระจายและสื่อสารระหว่างโหนดหลักและโหนดเพียร์ (สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับการรวมฮิสโตแกรมและการออกอากาศข้ามโหนด โปรดดูที่ XGBoost: ระบบส่งเสริมต้นไม้ที่ปรับขนาดได้.)

นอกเหนือจากการฝึกโมเดลเดียวด้วย SageMaker การปรับแต่งไฮเปอร์พารามิเตอร์ XGBoost ยังทำได้อย่างรวดเร็วและง่ายดายด้วยความสามารถในการเรียกใช้การทดลองต่างๆ พร้อมกันเพื่อปรับแต่งชุดค่าผสมของไฮเปอร์พารามิเตอร์ที่ดีที่สุด ไฮเปอร์พารามิเตอร์ที่ปรับได้รวมถึงไฮเปอร์พารามิเตอร์เฉพาะของบูสเตอร์และเฉพาะฟังก์ชันวัตถุประสงค์ สองกลยุทธ์การค้นหา มีให้: สุ่มหรือเบย์เซียน กลยุทธ์การค้นหาแบบเบย์ได้รับการพิสูจน์แล้วว่ามีคุณค่าเพราะช่วยค้นหาไฮเปอร์พารามิเตอร์ได้ดีกว่าการค้นหาแบบสุ่มเพียงการทดลองซ้ำน้อยลง

ข้อมูลชุดข้อมูล

แบบจำลองการตรวจจับมัลแวร์ PDF ของ SophosAI อาศัยคุณสมบัติที่หลากหลาย เช่น ฮิสโตแกรม n-gram และคุณสมบัติเอนโทรปีแบบไบต์ (สำหรับข้อมูลเพิ่มเติม โปรดดูที่ MEADE: มุ่งสู่กลไกตรวจจับไฟล์แนบอีเมลที่เป็นอันตราย). ข้อมูลเมตาและคุณสมบัติที่ดึงมาจากไฟล์ PDF ที่รวบรวมไว้จะถูกเก็บไว้ในคลังข้อมูลแบบกระจาย จากนั้นจะคำนวณชุดข้อมูลที่มีคุณลักษณะมากกว่า 3,500 รายการ แยกเพิ่มเติมตามเวลาในชุดการฝึกและทดสอบ และจัดเก็บเป็นชุดเป็นไฟล์ Parquet ใน Amazon S3 เพื่อให้ SageMaker เข้าถึงได้ง่ายสำหรับงานฝึกอบรม

ตารางต่อไปนี้ให้ข้อมูลเกี่ยวกับการฝึกอบรมและข้อมูลการทดสอบ

ชุด จำนวนตัวอย่าง จำนวนไฟล์ไม้ปาร์เก้ ขนาดรวม
การฝึกอบรม 70,391,634 5,500 ~ 1010 กิกะไบต์
ทดสอบ 1,242,283 98 ~ 18 กิกะไบต์

ขนาดข้อมูลถูกคำนวณตามสูตร:

ขนาดข้อมูล = N × (nF + นL) × 4

สูตรมีพารามิเตอร์ต่อไปนี้:

  • N คือจำนวนตัวอย่างในชุดข้อมูล
  • nF คือจำนวนคุณสมบัติด้วย nF = 3585
  • nL คือจำนวนป้ายกำกับความจริงพื้น ๆ โดยที่ nL = 1
  • 4 คือจำนวนไบต์ที่จำเป็นสำหรับประเภทข้อมูลของคุณสมบัติ: float32

นอกจากนี้ แผนภูมิวงกลมต่อไปนี้ยังมีการแจกแจงป้ายกำกับของทั้งชุดการฝึกและชุดทดสอบ ทำให้เกิดความไม่สมดุลของคลาสที่ต้องเผชิญในงานตรวจจับมัลแวร์ PDF

วิธีที่ Sophos ฝึกเครื่องมือตรวจจับมัลแวร์ PDF ที่ทรงพลังและน้ำหนักเบาในระดับพิเศษด้วย Amazon SageMaker PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

การกระจายเปลี่ยนจากชุดการฝึกเป็นชุดทดสอบหนึ่งเดือน การแบ่งชุดข้อมูลตามเวลาในการฝึกอบรมและการทดสอบจะถูกนำไปใช้เพื่อจำลองสถานการณ์การปรับใช้ในชีวิตจริงและหลีกเลี่ยงการสอดแนมชั่วคราว กลยุทธ์นี้ยังช่วยให้ SophosAI สามารถประเมินความสามารถทั่วไปที่แท้จริงของโมเดล เมื่อต้องเผชิญกับการโจมตี PDF ใหม่ล่าสุดที่ไม่เคยปรากฏมาก่อน เป็นต้น

การทดลองและผลลัพธ์

เพื่อเริ่มต้นการทดลอง ทีม SophosAI ได้ฝึกโมเดล XGBoost พื้นฐานพร้อมพารามิเตอร์เริ่มต้น จากนั้นพวกเขาก็เริ่มทำการปรับแต่งไฮเปอร์พารามิเตอร์ด้วย SageMaker โดยใช้กลยุทธ์ Bayesian ซึ่งง่ายพอๆ กับการระบุ ไฮเปอร์พารามิเตอร์ เพื่อปรับแต่งและช่วงของค่าที่ต้องการ เมตริกการประเมิน (ROC (Receiver Operating Characteristic) AUC ในกรณีนี้) และชุดการฝึกอบรมและการตรวจสอบ สำหรับตัวตรวจจับมัลแวร์ PDF SophosAI ได้จัดลำดับความสำคัญของไฮเปอร์พารามิเตอร์ รวมถึงจำนวนรอบการบูสต์ (num_round) ความลึกของต้นไม้สูงสุด (max_depth) อัตราการเรียนรู้ (eta) และอัตราการสุ่มตัวอย่างคอลัมน์เมื่อสร้างต้นไม้ (colsample_bytree). ในที่สุด ก็ได้ไฮเปอร์พารามิเตอร์ที่ดีที่สุดมาใช้ในการฝึกโมเดลบนชุดข้อมูลทั้งหมด และสุดท้ายได้รับการประเมินในชุดการทดสอบการระงับ

พล็อตต่อไปนี้แสดงเมตริกวัตถุประสงค์ (ROC AUC) เทียบกับงานการฝึกอบรม 15 รายการที่ทำงานภายในงานการปรับแต่ง ไฮเปอร์พารามิเตอร์ที่ดีที่สุดคือพารามิเตอร์ที่สอดคล้องกับงานการฝึกอบรมที่เก้า

วิธีที่ Sophos ฝึกเครื่องมือตรวจจับมัลแวร์ PDF ที่ทรงพลังและน้ำหนักเบาในระดับพิเศษด้วย Amazon SageMaker PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ในช่วงเริ่มต้นของการทดลองของ SophosAI บน SageMaker คำถามสำคัญที่ต้องตอบเป็นพิเศษคือ อินสแตนซ์ประเภทใดและจำนวนเท่าใดที่จำเป็นสำหรับการฝึกอบรม XGBoost กับข้อมูลในมือ นี่เป็นสิ่งสำคัญเนื่องจากการใช้จำนวนหรือประเภทของอินสแตนซ์ที่ไม่ถูกต้องอาจทำให้เสียเวลาและเงิน การฝึกจะล้มเหลวเนื่องจากหน่วยความจำไม่เพียงพอ หรือหากใช้อินสแตนซ์ที่ใหญ่เกินไปมากเกินไป อาจมีราคาแพงโดยไม่จำเป็น

XGBoost เป็นอัลกอริธึมที่ผูกกับหน่วยความจำ ดังนั้น อินสแตนซ์การประมวลผลทั่วไป (เช่น M5) จึงเป็นตัวเลือกที่ดีกว่าอินสแตนซ์ที่เพิ่มประสิทธิภาพการประมวลผล (เช่น C4) ในการตัดสินใจอย่างมีข้อมูล มีแนวทางง่ายๆ ของ SageMaker สำหรับการเลือกจำนวนอินสแตนซ์ที่จำเป็นในการรันการฝึกบนชุดข้อมูลทั้งหมด:

ขนาดข้อมูลการฝึกอบรมทั้งหมด × ปัจจัยด้านความปลอดภัย(*) < จำนวนอินสแตนซ์ × หน่วยความจำทั้งหมดของประเภทอินสแตนซ์

ในกรณีนี้: ขนาดข้อมูลการฝึกทั้งหมด × ปัจจัยด้านความปลอดภัย (12) = 12120 GB

ตารางต่อไปนี้สรุปข้อกำหนดเมื่อประเภทอินสแตนซ์ที่เลือกคือ ml.m5.24xlarge

ขนาดการฝึก × ปัจจัยด้านความปลอดภัย (12) หน่วยความจำอินสแตนซ์ ml.m5.24xlarge จำนวนอินสแตนซ์ขั้นต่ำที่จำเป็นสำหรับการฝึกอบรม
12120 GB 384 GB 32

*เนื่องจากลักษณะของการฝึกอบรมแบบกระจาย XGBoost ซึ่งกำหนดให้ต้องโหลดชุดข้อมูลการฝึกทั้งหมดลงในออบเจกต์ DMatrix ก่อนการฝึกและหน่วยความจำว่างเพิ่มเติม ขอแนะนำให้ใช้ปัจจัยด้านความปลอดภัย 10–12

เพื่อดูการใช้หน่วยความจำสำหรับการฝึกอบรม SageMaker เต็มรูปแบบของ XGBoost ในชุดข้อมูลที่มีให้อย่างละเอียดยิ่งขึ้น เราจัดเตรียมกราฟที่เกี่ยวข้องที่ได้รับจากการฝึกอบรม อเมซอน คลาวด์วอตช์ การตรวจสอบ สำหรับงานฝึกอบรมนี้ มีการใช้งานอินสแตนซ์ 40 ml.m5.24xlarge และมีการใช้หน่วยความจำสูงสุดประมาณ 62 %

วิธีที่ Sophos ฝึกเครื่องมือตรวจจับมัลแวร์ PDF ที่ทรงพลังและน้ำหนักเบาในระดับพิเศษด้วย Amazon SageMaker PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ต้นทุนด้านวิศวกรรมที่ประหยัดได้ด้วยการผสานบริการ ML ที่มีการจัดการ เช่น SageMaker เข้ากับไปป์ไลน์ข้อมูลจะอยู่ที่ประมาณ 50% ตัวเลือกในการใช้อินสแตนซ์ Spot สำหรับการฝึกอบรมและงานปรับแต่งไฮเปอร์พารามิเตอร์ช่วยลดต้นทุนได้อีก 63%

สรุป

ด้วย SageMaker ทีมงาน SophosAI สามารถแก้ไขโครงการที่มีลำดับความสำคัญสูงที่ซับซ้อนได้สำเร็จด้วยการสร้างโมเดล XGBoost การตรวจจับมัลแวร์ PDF ที่มีน้ำหนักเบาซึ่งมีขนาดเล็กกว่าบนดิสก์มาก (เล็กกว่าถึง 25 เท่า) และในหน่วยความจำ (เล็กกว่าถึง 5 เท่า) เครื่องตรวจจับรุ่นก่อน เป็นเครื่องตรวจจับมัลแวร์ขนาดเล็กแต่ทรงพลังด้วย ~0.99 AUC และอัตราบวกจริงที่ 0.99 และอัตราบวกลวงของ วิธีที่ Sophos ฝึกเครื่องมือตรวจจับมัลแวร์ PDF ที่ทรงพลังและน้ำหนักเบาในระดับพิเศษด้วย Amazon SageMaker PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. . โมเดลนี้สามารถฝึกใหม่ได้อย่างรวดเร็ว และสามารถตรวจสอบประสิทธิภาพของโมเดลได้เมื่อเวลาผ่านไป เนื่องจากใช้เวลาน้อยกว่า 20 นาทีในการฝึกกับข้อมูลมากกว่า 1 TB

คุณสามารถใช้อัลกอริธึมในตัวของ SageMaker ได้ XGBoost สำหรับการสร้างแบบจำลองด้วยข้อมูลแบบตารางของคุณตามขนาด นอกจากนี้ คุณยังสามารถลองใช้อัลกอริธึมใหม่ของ Amazon SageMaker LightGBM, CatBoost, AutoGluon-Tabular และ Tab Transformer ตามที่อธิบายไว้ในนี้ บล็อก.


เกี่ยวกับผู้แต่ง

วิธีที่ Sophos ฝึกเครื่องมือตรวจจับมัลแวร์ PDF ที่ทรงพลังและน้ำหนักเบาในระดับพิเศษด้วย Amazon SageMaker PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.ซัลมา เตาฟิก เป็นนักวิทยาศาสตร์ข้อมูลอาวุโสที่ Sophos ทำงานที่จุดตัดของการเรียนรู้ของเครื่องและความปลอดภัยทางไซเบอร์ ด้วยพื้นฐานระดับปริญญาตรีด้านวิทยาการคอมพิวเตอร์ เธอสำเร็จการศึกษาจากมหาวิทยาลัย Central European ด้วยปริญญาโท ในวิชาคณิตศาสตร์และการประยุกต์ เมื่อไม่ได้พัฒนาเครื่องตรวจจับมัลแวร์ Salma เป็นนักปีนเขาตัวยง นักเดินทาง และผู้บริโภคหนังระทึกขวัญ

วิธีที่ Sophos ฝึกเครื่องมือตรวจจับมัลแวร์ PDF ที่ทรงพลังและน้ำหนักเบาในระดับพิเศษด้วย Amazon SageMaker PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.ฮารินี กันนัน เป็นนักวิทยาศาสตร์ข้อมูลที่ SophosAI เธอทำงานด้านวิทยาศาสตร์ข้อมูลความปลอดภัยมาประมาณ 4 ปีแล้ว ก่อนหน้านี้เธอเคยเป็นหัวหน้านักวิทยาศาสตร์ข้อมูลของ Capsule8 ซึ่งถูกซื้อกิจการโดย Sophos เธอได้บรรยายที่ CAMLIS, BlackHat (สหรัฐอเมริกา), Open Data Science Conference (East), Data Science Salon, PyData (Boston) และ Data Connectors งานวิจัยของเธอครอบคลุมถึงการตรวจจับการโจมตีด้วยฮาร์ดแวร์โดยใช้ตัวนับประสิทธิภาพ การวิเคราะห์พฤติกรรมผู้ใช้ ML ที่แปลได้ และการตรวจจับความผิดปกติที่ไม่ได้รับการดูแล

วิธีที่ Sophos ฝึกเครื่องมือตรวจจับมัลแวร์ PDF ที่ทรงพลังและน้ำหนักเบาในระดับพิเศษด้วย Amazon SageMaker PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.ฮาซัน ปุณณวลา เป็นสถาปนิกอาวุโสด้านโซลูชัน AI/ML ที่ AWS ในลอนดอน สหราชอาณาจักร Hasan ช่วยลูกค้าในการออกแบบและปรับใช้แอปพลิเคชันการเรียนรู้ของเครื่องในการผลิตบน AWS เขามีประสบการณ์การทำงานมากกว่า 12 ปีในฐานะนักวิทยาศาสตร์ข้อมูล ผู้ปฏิบัติงานด้านแมชชีนเลิร์นนิง และนักพัฒนาซอฟต์แวร์ ในเวลาว่าง Hasan ชอบที่จะสำรวจธรรมชาติและใช้เวลากับเพื่อนและครอบครัว

วิธีที่ Sophos ฝึกเครื่องมือตรวจจับมัลแวร์ PDF ที่ทรงพลังและน้ำหนักเบาในระดับพิเศษด้วย Amazon SageMaker PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.ดิแกนท์ พาเทล เป็นหัวหน้าฝ่ายสนับสนุนองค์กรที่ AWS เขาทำงานร่วมกับลูกค้าเพื่อออกแบบ ปรับใช้ และดำเนินการในระบบคลาวด์ในวงกว้าง จุดสนใจของเขาคือแนวทางปฏิบัติ MLOps และ DevOps และวิธีที่จะช่วยลูกค้าในการเดินทางบนระบบคลาวด์ นอกเวลางาน เขาสนุกกับการถ่ายภาพ เล่นวอลเลย์บอล และใช้เวลากับเพื่อนและครอบครัว

ประทับเวลา:

เพิ่มเติมจาก AWS Machine Learning AWS