การตรวจจับการฉ้อโกงเป็นปัญหาสำคัญที่นำไปใช้ในบริการทางการเงิน โซเชียลมีเดีย อีคอมเมิร์ซ เกม และอุตสาหกรรมอื่นๆ โพสต์นี้นำเสนอการใช้งานโซลูชันการตรวจจับการฉ้อโกงโดยใช้แบบจำลอง Relational Graph Convolutional Network (RGCN) เพื่อทำนายความน่าจะเป็นที่การทำธุรกรรมจะฉ้อฉลผ่านทั้งโหมดการอนุมานแบบทรานดักทีฟและอินดักทีฟ คุณสามารถปรับใช้การใช้งานของเรากับ อเมซอน SageMaker endpoint เป็นโซลูชันการตรวจจับการฉ้อโกงแบบเรียลไทม์ โดยไม่ต้องมีการจัดเก็บกราฟภายนอกหรือการประสาน จึงช่วยลดต้นทุนการปรับใช้โมเดลได้อย่างมาก
ธุรกิจที่กำลังมองหาบริการ AWS AI ที่มีการจัดการเต็มรูปแบบสำหรับการตรวจจับการฉ้อโกงก็สามารถใช้ได้เช่นกัน เครื่องตรวจจับการฉ้อโกงของ Amazonซึ่งคุณสามารถใช้เพื่อระบุการชำระเงินออนไลน์ที่น่าสงสัย ตรวจจับการฉ้อโกงบัญชีใหม่ ป้องกันการทดลองใช้งานและการละเมิดโปรแกรมความภักดี หรือปรับปรุงการตรวจจับการครอบครองบัญชี
ภาพรวมโซลูชัน
แผนภาพต่อไปนี้อธิบายตัวอย่างเครือข่ายธุรกรรมทางการเงินที่มีข้อมูลประเภทต่างๆ ธุรกรรมแต่ละรายการประกอบด้วยข้อมูล เช่น ตัวระบุอุปกรณ์, รหัส Wi-Fi, ที่อยู่ IP, ตำแหน่งทางกายภาพ, หมายเลขโทรศัพท์ และอื่นๆ เราแสดงชุดข้อมูลธุรกรรมผ่านกราฟที่ต่างกันซึ่งมีโหนดและขอบประเภทต่างๆ จากนั้น ปัญหาการตรวจจับการฉ้อโกงจะได้รับการจัดการเป็นงานจำแนกประเภทโหนดบนกราฟที่ต่างกันนี้
Graph Neural Networks (GNNs) แสดงให้เห็นสัญญาที่ดีในการแก้ปัญหาการตรวจจับการฉ้อโกง มีประสิทธิภาพเหนือกว่าวิธีการเรียนรู้ภายใต้การดูแลยอดนิยม เช่น ต้นไม้ตัดสินใจที่ส่งเสริมการไล่ระดับสี หรือเครือข่ายฟีดส่งต่อที่เชื่อมต่ออย่างสมบูรณ์ในชุดข้อมูลการเปรียบเทียบ ในการตั้งค่าการตรวจจับการฉ้อโกงทั่วไป ในระหว่างขั้นตอนการฝึกอบรม แบบจำลอง GNN จะได้รับการฝึกอบรมเกี่ยวกับชุดธุรกรรมที่มีป้ายกำกับ ธุรกรรมการฝึกอบรมแต่ละรายการมีป้ายกำกับไบนารีระบุว่าเป็นการฉ้อโกงหรือไม่ แบบจำลองที่ได้รับการฝึกอบรมนี้สามารถใช้เพื่อตรวจจับธุรกรรมที่ฉ้อโกงระหว่างชุดธุรกรรมที่ไม่มีป้ายกำกับระหว่างขั้นตอนการอนุมาน มีสองโหมดการอนุมานที่แตกต่างกัน: การอนุมานแบบทรานดักทีฟกับการอนุมานแบบอุปนัย (ซึ่งเราจะพูดถึงเพิ่มเติมในภายหลังในโพสต์นี้)
แบบจำลองที่ใช้ GNN เช่น RGCN สามารถใช้ประโยชน์จากข้อมูลทอพอโลยี ผสมผสานทั้งโครงสร้างกราฟและคุณลักษณะของโหนดและเอดจ์เพื่อเรียนรู้การเป็นตัวแทนที่มีความหมายซึ่งแยกธุรกรรมที่เป็นอันตรายออกจากธุรกรรมที่ถูกต้อง RGCN สามารถเรียนรู้การแสดงโหนดและขอบ (ความสัมพันธ์) ประเภทต่างๆ ได้อย่างมีประสิทธิภาพผ่านการฝังกราฟที่ต่างกัน ในแผนภาพก่อนหน้านี้ ธุรกรรมแต่ละรายการจะถูกจำลองเป็นโหนดเป้าหมาย และหลายเอนทิตีที่เกี่ยวข้องกับแต่ละธุรกรรมได้รับการจำลองเป็นประเภทโหนดที่ไม่ใช่เป้าหมาย เช่น ProductCD
และ P_emaildomain
. โหนดเป้าหมายมีคุณลักษณะที่เป็นตัวเลขและการจัดหมวดหมู่ ในขณะที่โหนดประเภทอื่นไม่มีคุณลักษณะ โมเดล RGCN จะเรียนรู้การฝังสำหรับโหนดที่ไม่ใช่เป้าหมายแต่ละประเภท สำหรับการฝังโหนดเป้าหมาย การดำเนินการแบบ Convolutional จะถูกใช้เพื่อคำนวณการฝังโดยใช้คุณลักษณะและการฝังพื้นที่ใกล้เคียง ในโพสต์ที่เหลือ เราใช้คำศัพท์ GNN และ RGCN แทนกันได้
เป็นที่น่าสังเกตว่ากลยุทธ์ทางเลือก เช่น การปฏิบัติต่อเอนทิตีที่ไม่ใช่เป้าหมายเป็นคุณลักษณะและการเข้ารหัสแบบ hot-hot มักจะไม่สามารถทำได้ เนื่องจากเอนทิตีเหล่านี้มีความสำคัญมาก ในทางกลับกัน การเข้ารหัสเป็นเอนทิตีกราฟทำให้โมเดล GNN สามารถใช้ประโยชน์จากโทโพโลยีโดยปริยายในความสัมพันธ์ของเอนทิตี ตัวอย่างเช่น การทำธุรกรรมที่ใช้หมายเลขโทรศัพท์ร่วมกันกับธุรกรรมที่ฉ้อโกงที่ทราบกันดีว่ามีแนวโน้มที่จะเป็นการฉ้อโกงเช่นกัน
การแสดงกราฟที่ใช้โดย GNN ทำให้เกิดความซับซ้อนในการนำไปใช้งาน โดยเฉพาะอย่างยิ่งสำหรับแอปพลิเคชันต่างๆ เช่น การตรวจจับการฉ้อโกง ซึ่งการแสดงกราฟอาจเพิ่มขึ้นระหว่างการอนุมานด้วยโหนดที่เพิ่มใหม่ที่สอดคล้องกับเอนทิตีที่ไม่รู้จักระหว่างการฝึกโมเดล สถานการณ์สมมตินี้มักจะเรียกว่า โหมดอุปนัย. ในทางตรงกันข้าม, โหมดการถ่ายทอด เป็นสถานการณ์ที่ถือว่าการแสดงกราฟที่สร้างขึ้นระหว่างการฝึกแบบจำลองจะไม่เปลี่ยนแปลงระหว่างการอนุมาน แบบจำลอง GNN มักจะถูกประเมินในโหมดทรานดักทีฟโดยการสร้างการแสดงกราฟจากชุดการฝึกและตัวอย่างการทดสอบที่รวมกัน ในขณะที่ปิดบังป้ายกำกับการทดสอบระหว่างการแพร่กระจายกลับ สิ่งนี้ทำให้มั่นใจได้ว่าการแสดงกราฟเป็นแบบคงที่ และแบบจำลอง GNN ไม่จำเป็นต้องดำเนินการเพื่อขยายกราฟด้วยโหนดใหม่ระหว่างการอนุมาน ขออภัย ไม่สามารถใช้การแสดงกราฟแบบคงที่ได้เมื่อตรวจพบธุรกรรมที่ฉ้อโกงในสภาพแวดล้อมจริง ดังนั้น จำเป็นต้องมีการสนับสนุนสำหรับการอนุมานแบบอุปนัยเมื่อปรับใช้โมเดล GNN สำหรับการตรวจจับการฉ้อโกงในสภาพแวดล้อมการผลิต
นอกจากนี้ การตรวจจับธุรกรรมที่เป็นการฉ้อโกงแบบเรียลไทม์เป็นสิ่งสำคัญ โดยเฉพาะอย่างยิ่งในกรณีทางธุรกิจที่มีโอกาสเพียงครั้งเดียวที่จะหยุดกิจกรรมที่ผิดกฎหมาย ตัวอย่างเช่น ผู้ใช้ที่ฉ้อฉลสามารถประพฤติตนที่เป็นอันตรายเพียงครั้งเดียวกับบัญชีหนึ่งๆ และจะไม่ใช้บัญชีเดิมอีก การอนุมานตามเวลาจริงของโมเดล GNN ทำให้เกิดความซับซ้อนเพิ่มเติมในการนำไปใช้งาน บ่อยครั้งที่จำเป็นต้องใช้การดำเนินการแยกกราฟย่อยเพื่อสนับสนุนการอนุมานตามเวลาจริง จำเป็นต้องใช้การดำเนินการแยกกราฟย่อยเพื่อลดเวลาแฝงในการอนุมาน เมื่อการแสดงกราฟมีขนาดใหญ่และการอนุมานในกราฟทั้งหมดจะมีค่าใช้จ่ายสูง อัลกอริทึมสำหรับการอนุมานแบบอุปนัยตามเวลาจริงด้วยโมเดล RGCN ทำงานดังนี้:
- กำหนดชุดของธุรกรรมและแบบจำลอง RGCN ที่ผ่านการฝึกอบรม ขยายการแสดงกราฟด้วยเอนทิตีจากชุดงาน
- กำหนดเวกเตอร์การฝังของโหนดที่ไม่ใช่เป้าหมายใหม่ด้วยค่าเฉลี่ยการฝังเวกเตอร์ของประเภทโหนดตามลำดับ
- แยกกราฟย่อยที่เกิดจาก k- กระโดดออกจากพื้นที่ใกล้เคียงของโหนดเป้าหมายจากแบทช์
- ทำการอนุมานบนกราฟย่อยและส่งคืนคะแนนการคาดคะเนสำหรับโหนดเป้าหมายของแบทช์
- ล้างการแสดงกราฟโดยการลบโหนดที่เพิ่มใหม่ (ขั้นตอนนี้ทำให้มั่นใจได้ว่าความต้องการหน่วยความจำสำหรับการอนุมานแบบจำลองคงที่)
การสนับสนุนที่สำคัญของโพสต์นี้คือการนำเสนอแบบจำลอง RGCN ที่ใช้อัลกอริธึมการอนุมานแบบอุปนัยตามเวลาจริง คุณสามารถปรับใช้การใช้งาน RGCN ของเรากับตำแหน่งข้อมูล SageMaker เป็นโซลูชันการตรวจจับการฉ้อโกงแบบเรียลไทม์ โซลูชันของเราไม่ต้องการพื้นที่จัดเก็บกราฟภายนอกหรือการประสานข้อมูล และลดต้นทุนการปรับใช้โมเดล RGCN สำหรับงานตรวจจับการฉ้อโกงได้อย่างมาก แบบจำลองนี้ยังใช้โหมดการอนุมานแบบทรานดักทีฟ ทำให้เราสามารถดำเนินการทดลองเพื่อเปรียบเทียบประสิทธิภาพของโมเดลในโหมดอุปนัยและทรานดักทีฟได้ รหัสรุ่นและโน้ตบุ๊กพร้อมการทดลองสามารถเข้าถึงได้จาก ตัวอย่าง AWS GitHub repo.
โพสต์นี้สร้างขึ้นบนโพสต์ สร้างโซลูชันการตรวจจับการฉ้อโกงแบบเรียลไทม์บน GNN โดยใช้ Amazon SageMaker, Amazon Neptune และ Deep Graph Library. โพสต์ก่อนหน้านี้ได้สร้างโซลูชันการตรวจจับการฉ้อโกงตามเวลาจริงโดยใช้ RGCN โดยใช้ SageMaker อเมซอนเนปจูนและ ห้องสมุดกราฟลึก (ดีจีแอล). โซลูชันก่อนหน้าใช้ฐานข้อมูล Neptune เป็นที่จัดเก็บกราฟภายนอก ซึ่งจำเป็น AWS แลมบ์ดา สำหรับการประสานสำหรับการอนุมานแบบเรียลไทม์ และรวมเฉพาะการทดลองในโหมดทรานดักทีฟเท่านั้น
โมเดล RGCN ที่แนะนำในโพสต์นี้ใช้การดำเนินการทั้งหมดของอัลกอริทึมการอนุมานเชิงอุปนัยแบบเรียลไทม์โดยใช้เพียง DGL ในการพึ่งพา และไม่ต้องการพื้นที่จัดเก็บกราฟภายนอกหรือการประสานสำหรับการปรับใช้
ขั้นแรก เราจะประเมินประสิทธิภาพของแบบจำลอง RGCN ในโหมดการถ่ายทอดและอุปนัยในชุดข้อมูลมาตรฐาน ตามที่คาดไว้ ประสิทธิภาพของโมเดลในโหมดอุปนัยจะต่ำกว่าในโหมดทรานดักทีฟเล็กน้อย นอกจากนี้เรายังศึกษาผลของไฮเปอร์พารามิเตอร์ k เกี่ยวกับประสิทธิภาพของโมเดล ไฮเปอร์พารามิเตอร์ k ควบคุมจำนวนฮ็อพที่ดำเนินการเพื่อแยกกราฟย่อยในขั้นตอนที่ 3 ของอัลกอริทึมการอนุมานตามเวลาจริง ค่าที่สูงขึ้นของ k จะสร้างกราฟย่อยที่ใหญ่ขึ้นและสามารถนำไปสู่ประสิทธิภาพการอนุมานที่ดีขึ้นโดยมีค่าใช้จ่ายแฝงที่สูงขึ้น ด้วยเหตุนี้ เราจึงทำการทดลองจับเวลาเพื่อประเมินความเป็นไปได้ของแบบจำลอง RGCN สำหรับแอปพลิเคชันแบบเรียลไทม์
ชุด
เราใช้ ชุดข้อมูลการฉ้อโกง IEEE-CISชุดข้อมูลเดียวกับที่ใช้ในก่อนหน้านี้ เสา. ชุดข้อมูลประกอบด้วยบันทึกธุรกรรมมากกว่า 590,000 รายการที่มีป้ายกำกับการฉ้อโกงแบบไบนารี (the isFraud
คอลัมน์). ข้อมูลถูกแบ่งออกเป็นสองตาราง: ธุรกรรมและข้อมูลประจำตัว อย่างไรก็ตาม ไม่ใช่บันทึกธุรกรรมทั้งหมดที่มีข้อมูลระบุตัวตนที่สอดคล้องกัน เราเข้าร่วมสองตารางบน TransactionID
คอลัมน์ซึ่งทำให้เรามีบันทึกธุรกรรมทั้งหมด 144,233 รายการ เราจัดเรียงตารางตามเวลาประทับการทำธุรกรรม (the TransactionDT
คอลัมน์) และสร้างเปอร์เซ็นต์ 80/20 แบ่งตามเวลา สร้างธุรกรรม 115,386 และ 28,847 สำหรับการฝึกอบรมและการทดสอบ ตามลำดับ
สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับชุดข้อมูลและวิธีจัดรูปแบบให้เหมาะกับความต้องการอินพุตของ DGL โปรดดูที่ การตรวจจับการฉ้อโกงในเครือข่ายที่ต่างกันโดยใช้ Amazon SageMaker และ Deep Graph Library.
การสร้างกราฟ
เราใช้ TransactionID
คอลัมน์เพื่อสร้างโหนดเป้าหมาย เราใช้คอลัมน์ต่อไปนี้เพื่อสร้างโหนดที่ไม่ใช่เป้าหมาย 11 ประเภท:
card1
ตลอดcard6
ProductCD
addr1
และaddr2
P_emaildomain
และR_emaildomain
เราใช้ 38 คอลัมน์เป็นลักษณะเฉพาะของโหนดเป้าหมาย:
M1
ตลอดM9
DeviceType
และDeviceInfo
id_12
ตลอดid_38
เราใช้ 382 คอลัมน์เป็นคุณลักษณะเชิงตัวเลขของโหนดเป้าหมาย:
TransactionAmt
dist1
และdist2
id_01
ตลอดid_11
C1
ตลอดC14
D1
ตลอดD15
V1
ตลอดV339
กราฟของเราสร้างขึ้นจากธุรกรรมการฝึกอบรมประกอบด้วย 217,935 โหนดและ 2,653,878 ขอบ
ไฮเปอร์พารามิเตอร์
พารามิเตอร์อื่นๆ ถูกตั้งค่าให้ตรงกับพารามิเตอร์ที่รายงานในก่อนหน้านี้ เสา. ตัวอย่างต่อไปนี้แสดงการฝึกโมเดล RGCN ในโหมดทรานดักทีฟและอินดักทีฟ:
โหมดอุปนัยกับโหมดทรานดักทีฟ
เราทำการทดลอง 10 ครั้งสำหรับโหมดอุปนัย และ XNUMX ครั้งสำหรับโหมดทรานส์ดักทีฟ สำหรับการทดลองแต่ละครั้ง เราฝึกโมเดล RGCN และบันทึกลงดิสก์ โดยได้รับโมเดล XNUMX โมเดล เราประเมินแต่ละรุ่นในตัวอย่างการทดสอบในขณะที่เพิ่มจำนวนฮ็อพ (พารามิเตอร์ k) ใช้เพื่อแยกกราฟย่อยสำหรับการอนุมาน การตั้งค่า k เป็น 1, 2 และ 3 เราคาดการณ์ตัวอย่างการทดสอบทั้งหมดพร้อมกัน และคำนวณคะแนน ROC AUC สำหรับการทดลองแต่ละครั้ง พล็อตต่อไปนี้แสดงค่าเฉลี่ยและช่วงความเชื่อมั่น 95% ของคะแนน AUC
เราจะเห็นว่าประสิทธิภาพในโหมดทรานดักทีฟนั้นสูงกว่าโหมดอินดัคทีฟเล็กน้อย สำหรับ k=2 คะแนน AUC เฉลี่ยสำหรับโหมดอุปนัยและทรานดักทีฟคือ 0.876 และ 0.883 ตามลำดับ สิ่งนี้คาดหวังเนื่องจากโมเดล RGCN สามารถเรียนรู้การฝังของโหนดเอนทิตีทั้งหมดในโหมดทรานดักทีฟ รวมถึงโหนดที่อยู่ในชุดทดสอบ ในทางตรงกันข้าม โหมดอุปนัยอนุญาตให้โมเดลเรียนรู้การฝังโหนดเอนทิตีที่มีอยู่ในตัวอย่างการฝึกอบรมเท่านั้น ดังนั้นบางโหนดจึงต้องเติมค่าเฉลี่ยระหว่างการอนุมาน ในขณะเดียวกัน การลดลงของประสิทธิภาพระหว่างโหมดทรานดักทีฟและอินดักทีฟนั้นไม่มีนัยสำคัญ และแม้แต่ในโหมดอินดักทีฟ โมเดล RGCN ก็มีประสิทธิภาพที่ดีด้วยค่า AUC ที่ 0.876 นอกจากนี้ เรายังสังเกตว่าประสิทธิภาพของโมเดลไม่ดีขึ้นสำหรับค่าของ k>2. นี่หมายถึงการตั้งค่านั้น k=2 จะแยกกราฟย่อยที่มีขนาดใหญ่เพียงพอระหว่างการอนุมาน ซึ่งส่งผลให้ประสิทธิภาพเหมาะสมที่สุด ข้อสังเกตนี้ได้รับการยืนยันจากการทดลองครั้งต่อไปของเราด้วย
นอกจากนี้ ยังเป็นที่น่าสังเกตว่า สำหรับโหมดทรานดักทีฟ AUC ของโมเดลของเราที่ 0.883 นั้นสูงกว่า AUC ที่สอดคล้องกันที่ 0.870 ที่รายงานในครั้งก่อน เสา. เราใช้คอลัมน์มากขึ้นเป็นคุณลักษณะเชิงตัวเลขและหมวดหมู่ของโหนดเป้าหมาย ซึ่งสามารถอธิบายคะแนน AUC ที่สูงขึ้นได้ นอกจากนี้ เรายังทราบด้วยว่าการทดสอบในโพสต์ก่อนหน้านี้ดำเนินการเพียงการทดลองเดียวเท่านั้น
การอนุมานเป็นชุดย่อย
สำหรับการทดลองนี้ เราประเมินแบบจำลอง RGCN ในการตั้งค่าการอนุมานแบบกลุ่มย่อย เราใช้แบบจำลอง 28 แบบที่ได้รับการฝึกอบรมในโหมดอุปนัยในการทดสอบครั้งก่อน เราเปรียบเทียบประสิทธิภาพของโมเดลเหล่านี้เมื่อคาดการณ์ในการตั้งค่าสองแบบ: การอนุมานแบบเต็มและการอนุมานแบบกลุ่มย่อย สำหรับการอนุมานแบบชุดเต็ม เราคาดการณ์ชุดการทดสอบทั้งหมด เช่นเดียวกับที่ทำในการทดสอบก่อนหน้านี้ สำหรับการอนุมานแบบกลุ่มย่อย เราคาดการณ์เป็นกลุ่มย่อยโดยแบ่งชุดการทดสอบออกเป็น 1,000 กลุ่มที่มีขนาดเท่ากัน โดยมีธุรกรรมประมาณ XNUMX รายการในแต่ละกลุ่ม เราคำนวณคะแนน AUC สำหรับการตั้งค่าทั้งสองโดยใช้ค่าที่แตกต่างกันของ k. แผนภาพต่อไปนี้แสดงค่าเฉลี่ยและช่วงความเชื่อมั่น 95% สำหรับการตั้งค่าการอนุมานแบบเต็มและแบบกลุ่มย่อย
เราสังเกตประสิทธิภาพนั้นสำหรับการอนุมานชุดเล็กเมื่อ k=1 ต่ำกว่าสำหรับแบทช์ทั้งหมด อย่างไรก็ตาม ประสิทธิภาพการอนุมานชุดเล็กจะตรงกับชุดเต็มเมื่อ k>1. สิ่งนี้สามารถเกิดจากกราฟย่อยที่มีขนาดเล็กกว่ามากที่ถูกดึงออกมาสำหรับแบทช์ขนาดเล็ก เรายืนยันสิ่งนี้โดยการเปรียบเทียบขนาดกราฟย่อยกับขนาดของกราฟทั้งหมดที่สร้างขึ้นจากธุรกรรมการฝึกอบรม เราเปรียบเทียบขนาดกราฟในแง่ของจำนวนโหนด สำหรับ k=1, ขนาดกราฟย่อยเฉลี่ยสำหรับการอนุมานกลุ่มย่อยคือน้อยกว่า 2% ของกราฟการฝึก และสำหรับการอนุมานแบบเต็มชุดเมื่อ k=1, ขนาดกราฟย่อยคือ 22% เมื่อไร k=2 ขนาดกราฟย่อยสำหรับการอนุมานแบบกลุ่มย่อยและแบบเต็มคือ 54% และ 64% ตามลำดับ ในที่สุด ขนาดกราฟย่อยสำหรับการตั้งค่าการอนุมานทั้งสองจะถึง 100% สำหรับ k=3. กล่าวอีกนัยหนึ่งเมื่อ k>1 กราฟย่อยสำหรับแบทช์ขนาดเล็กจะมีขนาดใหญ่เพียงพอ ทำให้การอนุมานแบบแบทช์ขนาดเล็กสามารถบรรลุประสิทธิภาพเช่นเดียวกับการอนุมานแบบแบทช์ทั้งหมด
เรายังบันทึกเวลาแฝงของการคาดการณ์สำหรับทุกชุด เราทำการทดลองกับอินสแตนซ์ ml.r5.12xlarge แต่คุณสามารถใช้อินสแตนซ์ขนาดเล็กที่มีหน่วยความจำ 64 G เพื่อเรียกใช้การทดสอบเดียวกันได้ แผนภาพต่อไปนี้แสดงค่าเฉลี่ยและช่วงความเชื่อมั่น 95% ของเวลาแฝงในการคาดคะเนชุดเล็กสำหรับค่าต่างๆ ของ k.
เวลาแฝงประกอบด้วยขั้นตอนวิธีอนุมานเชิงอุปนัยตามเวลาจริงทั้งห้าขั้นตอน เราจะเห็นว่าเมื่อ k=2 การทำนายธุรกรรม 1,030 รายการใช้เวลาเฉลี่ย 5.4 วินาที ทำให้มีทรูพุต 190 รายการต่อวินาที นี่เป็นการยืนยันว่าการใช้โมเดล RGCN นั้นเหมาะสมสำหรับการตรวจจับการฉ้อโกงแบบเรียลไทม์ นอกจากนี้เรายังทราบว่าก่อนหน้านี้ เสา ไม่ได้ระบุค่าเวลาแฝงสำหรับการดำเนินการ
สรุป
โมเดล RGCN ที่เผยแพร่พร้อมกับโพสต์นี้ใช้อัลกอริทึมสำหรับการอนุมานแบบอุปนัยแบบเรียลไทม์ และไม่ต้องการพื้นที่จัดเก็บกราฟภายนอกหรือการประสาน พารามิเตอร์ k ในขั้นตอนที่ 3 ของอัลกอริทึมระบุจำนวนของการกระโดดที่ดำเนินการเพื่อแยกกราฟย่อยสำหรับการอนุมาน และส่งผลให้เกิดการแลกเปลี่ยนระหว่างความแม่นยำของแบบจำลองและเวลาแฝงในการทำนาย เราใช้ ชุดข้อมูลการฉ้อโกง IEEE-CIS ในการทดลองของเรา และตรวจสอบเชิงประจักษ์ว่าค่าที่เหมาะสมที่สุดของพารามิเตอร์ k สำหรับชุดข้อมูลนี้คือ 2 ซึ่งได้คะแนน AUC เท่ากับ 0.876 และเวลาในการคาดการณ์ที่น้อยกว่า 6 วินาทีต่อธุรกรรม 1,000 รายการ
โพสต์นี้มีกระบวนการทีละขั้นตอนสำหรับการฝึกอบรมและการประเมินโมเดล RGCN สำหรับการตรวจจับการฉ้อโกงแบบเรียลไทม์ คลาสโมเดลที่รวมใช้วิธีการสำหรับวงจรชีวิตของโมเดลทั้งหมด รวมถึงวิธีการซีเรียลไลเซชันและดีซีเรียลไลเซชัน สิ่งนี้ทำให้สามารถใช้โมเดลสำหรับการตรวจจับการฉ้อโกงแบบเรียลไทม์ คุณสามารถฝึกโมเดลให้เป็นตัวประมาณค่า PyTorch SageMaker แล้วปรับใช้กับตำแหน่งข้อมูล SageMaker โดยใช้สิ่งต่อไปนี้ สมุดบันทึก เป็นแม่แบบ อุปกรณ์ปลายทางสามารถคาดการณ์การฉ้อโกงในธุรกรรมดิบกลุ่มเล็กๆ ได้แบบเรียลไทม์ คุณยังสามารถใช้ ผู้แนะนำการอนุมานของ Amazon SageMaker เพื่อเลือกประเภทอินสแตนซ์และการกำหนดค่าที่ดีที่สุดสำหรับจุดสิ้นสุดการอนุมานตามปริมาณงานของคุณ
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับหัวข้อนี้และการใช้งาน เราขอแนะนำให้คุณสำรวจและทดสอบสคริปต์ของเราด้วยตัวคุณเอง คุณสามารถเข้าถึงโน้ตบุ๊กและรหัสคลาสรุ่นที่เกี่ยวข้องได้จาก ตัวอย่าง AWS GitHub repo.
เกี่ยวกับผู้เขียน
ดมิทรี เบสปาลอฟ เป็นนักวิทยาศาสตร์ประยุกต์อาวุโสที่ Amazon Machine Learning Solutions Lab ซึ่งเขาช่วยลูกค้า AWS ในอุตสาหกรรมต่างๆ เร่งการนำ AI และระบบคลาวด์ไปใช้
ไรอัน แบรนด์ เป็นนักวิทยาศาสตร์ประยุกต์ที่ Amazon Machine Learning Solutions Lab เขามีประสบการณ์เฉพาะด้านในการใช้แมชชีนเลิร์นนิงกับปัญหาด้านการดูแลสุขภาพและวิทยาศาสตร์เพื่อชีวิต ในเวลาว่าง เขาชอบอ่านประวัติศาสตร์และนิยายวิทยาศาสตร์
หยานจุนฉี เป็นผู้จัดการอาวุโสด้านวิทยาศาสตร์ประยุกต์ที่ Amazon Machine Learning Solution Lab เธอคิดค้นและใช้แมชชีนเลิร์นนิงเพื่อช่วยให้ลูกค้า AWS เร่งการนำ AI และระบบคลาวด์ไปใช้
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- เพลโตบล็อคเชน Web3 Metaverse ข่าวกรอง ขยายความรู้. เข้าถึงได้ที่นี่.
- ที่มา: https://aws.amazon.com/blogs/machine-learning/build-a-gnn-based-real-time-fraud-detection-solution-using-the-deep-graph-library-without-using-external-graph-storage/
- 000
- 1
- 10
- 100
- 11
- 2%
- 28
- 7
- 95%
- a
- สามารถ
- เกี่ยวกับเรา
- การล่วงละเมิด
- เร่งความเร็ว
- เข้า
- Accessed
- ลงชื่อเข้าใช้
- ความถูกต้อง
- ประสบความสำเร็จ
- การบรรลุ
- ข้าม
- กิจกรรม
- ที่เพิ่ม
- นอกจากนี้
- เพิ่มเติม
- ที่อยู่
- การนำมาใช้
- ความได้เปรียบ
- AI
- ขั้นตอนวิธี
- ทั้งหมด
- ช่วยให้
- ทางเลือก
- อเมซอน
- อเมซอน แมชชีนเลิร์นนิง
- อเมซอนเนปจูน
- อเมซอน SageMaker
- ในหมู่
- และ
- การใช้งาน
- การใช้งาน
- ประยุกต์
- การประยุกต์ใช้
- ประมาณ
- แถว
- ที่ได้รับมอบหมาย
- ที่เกี่ยวข้อง
- สันนิษฐาน
- เติม
- เฉลี่ย
- AWS
- ตาม
- เพราะ
- จะกลายเป็น
- กำลัง
- มาตรฐาน
- การเปรียบเทียบ
- ที่ดีที่สุด
- ดีกว่า
- ระหว่าง
- ยี่ห้อ
- สร้าง
- สร้าง
- สร้าง
- ธุรกิจ
- พกพา
- กรณี
- โอกาส
- เปลี่ยนแปลง
- ชั้น
- การจัดหมวดหมู่
- เมฆ
- การยอมรับระบบคลาวด์
- รหัส
- คอลัมน์
- คอลัมน์
- รวม
- การรวมกัน
- เปรียบเทียบ
- เปรียบเทียบ
- ความซับซ้อน
- คำนวณ
- ความประพฤติ
- ความมั่นใจ
- องค์ประกอบ
- ยืนยัน
- ยืนยัน
- งานที่เชื่อมต่อ
- คงที่
- ก่อสร้าง
- การก่อสร้าง
- มี
- ตรงกันข้าม
- ผลงาน
- การควบคุม
- ตรงกัน
- ราคา
- สร้าง
- สร้าง
- สำคัญมาก
- ลูกค้า
- ข้อมูล
- ฐานข้อมูล
- ชุดข้อมูล
- การตัดสินใจ
- ลึก
- ค่าเริ่มต้น
- กำหนด
- การอยู่ที่
- ปรับใช้
- ปรับใช้
- การใช้งาน
- รายละเอียด
- การตรวจพบ
- เครื่อง
- ดีจีแอล
- DID
- ต่าง
- สนทนา
- ไม่
- หล่น
- ในระหว่าง
- แต่ละ
- อีคอมเมิร์ซ
- ผล
- มีประสิทธิภาพ
- ช่วยให้
- การเปิดใช้งาน
- ส่งเสริม
- ปลายทาง
- เพื่อให้แน่ใจ
- ทั้งหมด
- หน่วยงาน
- เอกลักษณ์
- สภาพแวดล้อม
- โดยเฉพาะอย่างยิ่ง
- ประเมินค่า
- ประเมิน
- การประเมินการ
- แม้
- ทุกๆ
- ตัวอย่าง
- ตัวอย่าง
- ที่คาดหวัง
- แพง
- ประสบการณ์
- การทดลอง
- อธิบาย
- สำรวจ
- ขยายออก
- ภายนอก
- สารสกัด
- คุณสมบัติ
- นิยาย
- ในที่สุด
- ทางการเงิน
- บริการทางการเงิน
- ชื่อจริง
- ดังต่อไปนี้
- ดังต่อไปนี้
- รูป
- การหลอกลวง
- การตรวจจับการฉ้อโกง
- ฉ้อโกง
- ฟรี
- ราคาเริ่มต้นที่
- เต็ม
- อย่างเต็มที่
- การเล่นเกม
- สร้าง
- ได้รับ
- GitHub
- ดี
- กราฟ
- ยิ่งใหญ่
- ยาก
- การดูแลสุขภาพ
- ช่วย
- จะช่วยให้
- สูงกว่า
- ประวัติ
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- อย่างไรก็ตาม
- HTML
- HTTPS
- แยกแยะ
- เอกลักษณ์
- ที่ผิดกฎหมาย
- การดำเนินการ
- การดำเนินงาน
- การดำเนินการ
- การดำเนินการ
- นำเข้า
- สำคัญ
- ปรับปรุง
- in
- ในอื่น ๆ
- รวม
- รวมถึง
- รวมทั้ง
- ที่เพิ่มขึ้น
- อุตสาหกรรม
- ข้อมูล
- อินพุต
- ตัวอย่าง
- แนะนำ
- เปิดตัว
- IP
- ที่อยู่ IP
- IT
- ร่วม
- คีย์
- ที่รู้จักกัน
- ห้องปฏิบัติการ
- ฉลาก
- ป้ายกำกับ
- ใหญ่
- ที่มีขนาดใหญ่
- ความแอบแฝง
- นำ
- เรียนรู้
- การเรียนรู้
- ห้องสมุด
- ชีวิต
- วิทยาศาสตร์สิ่งมีชีวิต
- วงจรชีวิต
- น่าจะ
- โหลด
- วันหยุด
- ที่ต้องการหา
- ความจงรักภักดี
- โปรแกรมความภักดี
- เครื่อง
- เรียนรู้เครื่อง
- ผู้จัดการ
- การจับคู่
- มีความหมาย
- ภาพบรรยากาศ
- หน่วยความจำ
- วิธีการ
- ML
- โหมด
- แบบ
- โมเดล
- โหมด
- ข้อมูลเพิ่มเติม
- จำเป็น
- เกตุ
- เครือข่าย
- เครือข่าย
- เครือข่ายประสาทเทียม
- ใหม่
- ถัดไป
- ปม
- โหนด
- จำนวน
- ตัวเลข
- สังเกต
- การได้รับ
- ONE
- ออนไลน์
- การชำระเงินออนไลน์
- การดำเนินการ
- การดำเนินการ
- ดีที่สุด
- ประสาน
- อื่นๆ
- ดีกว่า
- ของตนเอง
- หมีแพนด้า
- พารามิเตอร์
- พารามิเตอร์
- ผ่าน
- การชำระเงิน
- เปอร์เซ็นต์
- ดำเนินการ
- การปฏิบัติ
- ที่มีประสิทธิภาพ
- ระยะ
- โทรศัพท์
- กายภาพ
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- ยอดนิยม
- โพสต์
- คาดการณ์
- ทำนาย
- คำทำนาย
- นำเสนอ
- นำเสนอ
- ป้องกัน
- ก่อน
- ก่อน
- ปัญหา
- ปัญหาที่เกิดขึ้น
- กระบวนการ
- ก่อ
- การผลิต
- โครงการ
- คำมั่นสัญญา
- ให้
- ให้
- ไฟฉาย
- Qi
- ดิบ
- มาถึง
- การอ่าน
- จริง
- โลกแห่งความจริง
- เรียลไทม์
- ระเบียน
- บันทึก
- ลด
- ลด
- ลด
- เรียกว่า
- ที่เกี่ยวข้อง
- ความสัมพันธ์
- ความสัมพันธ์
- การเผยแพร่
- ลบ
- รายงาน
- แสดง
- การแสดง
- ต้องการ
- จำเป็นต้องใช้
- ความต้องการ
- ว่า
- REST
- ส่งผลให้
- ผลสอบ
- กลับ
- วิ่ง
- ไรอัน
- sagemaker
- การอนุมาน SageMaker
- เดียวกัน
- ลด
- สถานการณ์
- วิทยาศาสตร์
- นิยายวิทยาศาสตร์
- วิทยาศาสตร์
- นักวิทยาศาสตร์
- สคริปต์
- ที่สอง
- วินาที
- ระดับอาวุโส
- บริการ
- บริการ
- ชุด
- การตั้งค่า
- การตั้งค่า
- การติดตั้ง
- หลาย
- Share
- แสดง
- แสดงให้เห็นว่า
- สำคัญ
- อย่างมีความหมาย
- เดียว
- ขนาด
- ขนาด
- เล็ก
- มีขนาดเล็กกว่า
- So
- สังคม
- โซเชียลมีเดีย
- ทางออก
- โซลูชัน
- บาง
- โดยเฉพาะ
- ความเร็ว
- แยก
- แยก
- ขั้นตอน
- ขั้นตอน
- การหยุด
- การเก็บรักษา
- กลยุทธ์
- โครงสร้าง
- ศึกษา
- กราฟย่อย
- ย่อหน้า
- อย่างเช่น
- สูท
- เหมาะสม
- สนับสนุน
- พิรุธ
- ตาราง
- เอา
- การครอบครอง
- ใช้เวลา
- เป้า
- งาน
- งาน
- เทมเพลต
- เงื่อนไขการใช้บริการ
- ทดสอบ
- การทดสอบ
- พื้นที่
- กราฟ
- ของพวกเขา
- ดังนั้น
- ดังนั้น
- ตลอด
- ปริมาณงาน
- เวลา
- การประทับเวลา
- ระยะเวลา
- ไปยัง
- เกินไป
- หัวข้อ
- รวม
- รถไฟ
- ผ่านการฝึกอบรม
- การฝึกอบรม
- การทำธุกรรม
- การทำธุรกรรม
- การรักษาเยียวยา
- ต้นไม้
- การทดลอง
- การทดลอง
- จริง
- ชนิด
- ตามแบบฉบับ
- us
- ใช้
- ผู้ใช้
- มักจะ
- การตรวจสอบ
- ความคุ้มค่า
- ความคุ้มค่า
- ผ่านทาง
- ที่
- ในขณะที่
- Wi-Fi
- จะ
- ไม่มี
- คำ
- คุ้มค่า
- จะ
- คุณ
- ของคุณ
- ลมทะเล