Với sự tăng trưởng trong việc áp dụng các ứng dụng trực tuyến và số lượng người dùng internet ngày càng tăng, gian lận kỹ thuật số đang gia tăng hàng năm. Phát hiện gian lận Amazon cung cấp dịch vụ được quản lý đầy đủ để giúp bạn xác định tốt hơn các hoạt động trực tuyến có khả năng gian lận bằng cách sử dụng các kỹ thuật máy học (ML) tiên tiến và hơn 20 năm kinh nghiệm phát hiện gian lận từ Amazon.
Để giúp bạn phát hiện gian lận nhanh hơn trong nhiều trường hợp sử dụng, Amazon Fraud Detector cung cấp các mô hình cụ thể với các thuật toán, sự bổ sung và biến đổi tính năng được điều chỉnh phù hợp. Việc đào tạo mô hình hoàn toàn tự động và không phức tạp, và bạn có thể làm theo các hướng dẫn trong hướng dẫn người dùng hoặc liên quan bài đăng trên blog để bắt đầu. Tuy nhiên, với các mô hình đã được đào tạo, bạn cần quyết định xem mô hình đã sẵn sàng để triển khai hay chưa. Điều này đòi hỏi kiến thức nhất định về ML, thống kê và phát hiện gian lận, và có thể hữu ích nếu biết một số phương pháp tiếp cận điển hình.
Bài đăng này sẽ giúp bạn chẩn đoán hiệu suất mô hình và chọn mô hình phù hợp để triển khai. Chúng tôi xem xét các chỉ số được cung cấp bởi Amazon Fraud Detector, giúp bạn chẩn đoán các vấn đề tiềm ẩn và đưa ra các đề xuất để cải thiện hiệu suất mô hình. Các phương pháp này có thể áp dụng cho cả mẫu mô hình Thông tin chi tiết về gian lận trực tuyến (OFI) và Thông tin chi tiết về gian lận giao dịch (TFI).
Tổng quan về giải pháp
Bài đăng này cung cấp quy trình từ đầu đến cuối để chẩn đoán hiệu suất mô hình của bạn. Đầu tiên, nó giới thiệu tất cả các chỉ số mô hình được hiển thị trên bảng điều khiển Amazon Fraud Detector, bao gồm AUC, phân phối điểm, ma trận nhầm lẫn, đường cong ROC và tầm quan trọng của biến mô hình. Sau đó, chúng tôi trình bày phương pháp tiếp cận ba bước để chẩn đoán hiệu suất mô hình bằng cách sử dụng các số liệu khác nhau. Cuối cùng, chúng tôi cung cấp các đề xuất để cải thiện hiệu suất mô hình cho các vấn đề điển hình.
Điều kiện tiên quyết
Trước khi tìm hiểu sâu về mô hình Máy phát hiện gian lận Amazon của bạn, bạn cần hoàn thành các điều kiện tiên quyết sau:
- Tạo tài khoản AWS.
- Tạo tập dữ liệu sự kiện để đào tạo người mẫu.
- Tải lên dữ liệu của bạn đến Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) hoặc nhập dữ liệu sự kiện của bạn vào Amazon Fraud Detector.
- Xây dựng mô hình Máy phát hiện gian lận trên Amazon.
Diễn giải các chỉ số mô hình
Sau khi đào tạo mô hình xong, Amazon Fraud Detector sẽ đánh giá mô hình của bạn bằng cách sử dụng một phần dữ liệu mô hình không được sử dụng trong đào tạo mô hình. Nó trả về các chỉ số đánh giá trên Phiên bản mô hình trang cho mô hình đó. Những chỉ số đó phản ánh hiệu suất mô hình mà bạn có thể mong đợi trên dữ liệu thực sau khi triển khai vào sản xuất.
Ảnh chụp màn hình sau đây cho thấy hiệu suất mô hình mẫu được Amazon Fraud Detector trả về. Bạn có thể chọn các ngưỡng khác nhau về phân phối điểm (trái) và ma trận nhầm lẫn (phải) được cập nhật tương ứng.
Bạn có thể sử dụng những phát hiện sau để kiểm tra hiệu suất và quyết định các quy tắc chiến lược:
- AUC (diện tích dưới đường cong) - Hiệu suất tổng thể của mô hình này. Một mô hình có AUC là 0.50 không tốt hơn một lần lật đồng xu vì nó đại diện cho cơ hội ngẫu nhiên, trong khi một mô hình “hoàn hảo” sẽ có điểm là 1.0. AUC càng cao, mô hình của bạn có thể phân biệt giữa gian lận và đối tác hợp pháp càng tốt.
- Phân phối điểm - Một biểu đồ phân bố điểm mô hình giả định một tập hợp ví dụ là 100,000 sự kiện. Amazon Fraud Detector tạo ra điểm mô hình trong khoảng từ 0–1000, trong đó điểm càng thấp thì nguy cơ gian lận càng thấp. Sự tách biệt tốt hơn giữa các quần thể hợp pháp (xanh lá cây) và gian lận (xanh lam) thường cho thấy một mô hình tốt hơn. Để biết thêm chi tiết, hãy xem Điểm mô hình.
- Ma trận hỗn loạn - Một bảng mô tả hiệu suất mô hình cho ngưỡng điểm nhất định đã chọn, bao gồm đúng dương tính, âm tính đúng, dương tính giả, âm tính giả, tỷ lệ dương tính thực (TPR) và tỷ lệ dương tính giả (FPR). Số lượng trên bảng giả định một tập hợp mẫu gồm 100,0000 sự kiện. Để biết thêm chi tiết, hãy xem Chỉ số hiệu suất mô hình.
- Đường cong ROC (Đặc tính người vận hành máy thu) - Biểu đồ minh họa khả năng chẩn đoán của mô hình, như thể hiện trong ảnh chụp màn hình sau. Nó vẽ biểu đồ tỷ lệ dương tính thực như một hàm của tỷ lệ dương tính giả trên tất cả các ngưỡng điểm có thể có của mô hình. Xem biểu đồ này bằng cách chọn Chỉ số nâng cao. Nếu bạn đã đào tạo nhiều phiên bản của một mô hình, bạn có thể chọn các ngưỡng FPR khác nhau để kiểm tra sự thay đổi hiệu suất.
- Tầm quan trọng của biến mô hình - Thứ hạng của các biến mô hình dựa trên đóng góp của chúng vào mô hình được tạo, như được hiển thị trong ảnh chụp màn hình sau. Biến mô hình có giá trị cao nhất quan trọng đối với mô hình hơn các biến mô hình khác trong tập dữ liệu cho phiên bản mô hình đó và được liệt kê ở trên cùng theo mặc định. Để biết thêm chi tiết, hãy xem Tầm quan trọng của biến mô hình.
Chẩn đoán hiệu suất mô hình
Trước khi triển khai mô hình của bạn vào sản xuất, bạn nên sử dụng các số liệu mà Amazon Fraud Detector trả về để hiểu hiệu suất của mô hình và chẩn đoán các vấn đề có thể xảy ra. Các vấn đề chung của mô hình ML có thể được chia thành hai loại chính: các vấn đề liên quan đến dữ liệu và các vấn đề liên quan đến mô hình. Amazon Fraud Detector đã xử lý các vấn đề liên quan đến mô hình bằng cách sử dụng cẩn thận các bộ xác thực và thử nghiệm để đánh giá và điều chỉnh mô hình của bạn trên chương trình phụ trợ. Bạn có thể hoàn thành các bước sau để xác thực nếu mô hình của bạn đã sẵn sàng để triển khai hoặc có thể có các vấn đề liên quan đến dữ liệu:
- Kiểm tra hiệu suất tổng thể của mô hình (AUC và phân phối điểm).
- Xem xét các yêu cầu nghiệp vụ (ma trận và bảng nhầm lẫn).
- Kiểm tra tầm quan trọng của biến mô hình.
Kiểm tra hiệu suất tổng thể của mô hình: AUC và phân phối điểm
Dự đoán chính xác hơn về các sự kiện trong tương lai luôn là mục tiêu chính của một mô hình dự đoán. AUC do Amazon Fraud Detector trả về được tính toán trên bộ bài kiểm tra được lấy mẫu đúng cách không được sử dụng trong đào tạo. Nói chung, một mô hình có AUC lớn hơn 0.9 được coi là một mô hình tốt.
Nếu bạn quan sát thấy một mô hình có hiệu suất nhỏ hơn 0.8, điều đó thường có nghĩa là mô hình đó có chỗ để cải thiện (chúng ta sẽ thảo luận các vấn đề phổ biến đối với hiệu suất mô hình thấp ở phần sau của bài đăng này). Lưu ý rằng định nghĩa về hiệu suất “tốt” phụ thuộc nhiều vào doanh nghiệp của bạn và mô hình cơ sở. Bạn vẫn có thể làm theo các bước trong bài đăng này để cải thiện mô hình Máy phát hiện gian lận Amazon của mình ngay cả khi AUC của nó lớn hơn 0.8.
Mặt khác, nếu AUC trên 0.99, điều đó có nghĩa là mô hình gần như có thể tách biệt hoàn hảo giữa gian lận và các sự kiện hợp pháp trên tập thử nghiệm. Đây đôi khi là một kịch bản “quá tốt để trở thành sự thật” (chúng ta sẽ thảo luận các vấn đề chung để có hiệu suất mô hình rất cao ở phần sau của bài đăng này).
Bên cạnh AUC tổng thể, phân bố điểm số cũng có thể cho bạn biết mô hình được trang bị tốt như thế nào. Tốt nhất, bạn sẽ thấy phần lớn gian lận và gian lận hợp pháp nằm ở hai đầu của thang đo, điều này cho thấy điểm số của mô hình có thể xếp hạng chính xác các sự kiện trên tập kiểm tra.
Trong ví dụ sau, phân phối điểm có AUC là 0.96.
Nếu phân phối hợp pháp và gian lận chồng chéo hoặc tập trung ở trung tâm, điều đó có thể có nghĩa là mô hình không hoạt động tốt trong việc phân biệt các sự kiện gian lận với các sự kiện hợp pháp, điều này có thể cho thấy phân phối dữ liệu lịch sử đã thay đổi hoặc bạn cần thêm dữ liệu hoặc tính năng.
Sau đây là một ví dụ về phân phối điểm với AUC là 0.64.
Nếu bạn có thể tìm thấy một điểm phân tách gần như có thể phân chia hoàn hảo giữa gian lận và các sự kiện hợp pháp, thì khả năng cao là mô hình có vấn đề về rò rỉ nhãn hoặc các mô hình gian lận quá dễ phát hiện, điều này sẽ khiến bạn chú ý.
Trong ví dụ sau, phân phối điểm có AUC là 1.0.
Xem lại các yêu cầu nghiệp vụ: Bảng và ma trận nhầm lẫn
Mặc dù AUC là một chỉ báo thuận tiện về hiệu suất của mô hình, nhưng nó có thể không trực tiếp chuyển sang yêu cầu kinh doanh của bạn. Amazon Fraud Detector cũng cung cấp các số liệu như tỷ lệ bắt giữ gian lận (tỷ lệ xác thực đúng), tỷ lệ phần trăm các sự kiện hợp pháp được dự đoán không chính xác là gian lận (tỷ lệ dương tính giả) và hơn thế nữa, được sử dụng phổ biến hơn như các yêu cầu kinh doanh. Sau khi bạn đào tạo một mô hình có AUC tương đối tốt, bạn cần phải so sánh mô hình với yêu cầu kinh doanh của bạn với các số liệu đó.
Ma trận và bảng nhầm lẫn cung cấp cho bạn giao diện để xem xét tác động và kiểm tra xem nó có đáp ứng nhu cầu kinh doanh của bạn hay không. Lưu ý rằng các con số phụ thuộc vào ngưỡng mô hình, trong đó các sự kiện có điểm lớn hơn ngưỡng đó được phân loại là gian lận và các sự kiện có điểm thấp hơn ngưỡng được phân loại là hợp pháp. Bạn có thể chọn ngưỡng sử dụng tùy thuộc vào yêu cầu kinh doanh của mình.
Ví dụ: nếu mục tiêu của bạn là nắm bắt được 73% số vụ gian lận, thì (như thể hiện trong ví dụ bên dưới), bạn có thể chọn một ngưỡng chẳng hạn như 855, cho phép bạn nắm bắt được 73% tất cả các vụ gian lận. Tuy nhiên, mô hình cũng sẽ phân loại sai 3% các sự kiện hợp pháp thành gian lận. Nếu FPR này có thể chấp nhận được đối với doanh nghiệp của bạn, thì mô hình này rất phù hợp để triển khai. Nếu không, bạn cần cải thiện hiệu suất của mô hình.
Một ví dụ khác là nếu chi phí để chặn hoặc thách thức một khách hàng hợp pháp là cực kỳ cao, thì bạn muốn có FPR thấp và độ chính xác cao. Trong trường hợp đó, bạn có thể chọn ngưỡng 950, như thể hiện trong ví dụ sau, ngưỡng này sẽ không phân loại được 1% khách hàng hợp pháp là gian lận và 80% gian lận được xác định sẽ thực sự là gian lận.
Ngoài ra, bạn có thể chọn nhiều ngưỡng và chỉ định các kết quả khác nhau, chẳng hạn như chặn, điều tra, vượt qua. Nếu bạn không thể tìm thấy các ngưỡng và quy tắc thích hợp đáp ứng tất cả các yêu cầu kinh doanh của mình, bạn nên xem xét đào tạo mô hình của mình với nhiều dữ liệu và thuộc tính hơn.
Kiểm tra tầm quan trọng của biến mô hình
Sản phẩm Tầm quan trọng của biến mô hình ngăn hiển thị cách mỗi biến đóng góp vào mô hình của bạn. Nếu một biến có giá trị quan trọng cao hơn đáng kể so với các biến khác, thì nó có thể cho thấy sự rò rỉ nhãn hoặc các dạng gian lận quá dễ phát hiện. Lưu ý rằng tầm quan trọng của biến được tổng hợp trở lại các biến đầu vào của bạn. Nếu bạn quan sát thấy tầm quan trọng cao hơn một chút của IP_ADDRESS
, CARD_BIN
, EMAIL_ADDRESS
, PHONE_NUMBER
, BILLING_ZIP
, hoặc là SHIPPING_ZIP
, nó có thể là do sức mạnh của sự làm giàu.
Ví dụ sau đây cho thấy tầm quan trọng có thể thay đổi của mô hình với khả năng rò rỉ nhãn bằng cách sử dụng investigation_status
.
Mức độ quan trọng của biến mô hình cũng cung cấp cho bạn gợi ý về những biến bổ sung nào có thể mang lại mức tăng cho mô hình. Ví dụ: nếu bạn quan sát thấy AUC thấp và các tính năng liên quan đến người bán cho thấy tầm quan trọng cao, bạn có thể cân nhắc thu thập thêm các tính năng đặt hàng, chẳng hạn như SELLER_CATEGORY
, SELLER_ADDRESS
và SELLER_ACTIVE_YEARS
và thêm các biến đó vào mô hình của bạn.
Các vấn đề thường gặp đối với hiệu suất mô hình thấp
Trong phần này, chúng tôi thảo luận về các vấn đề phổ biến mà bạn có thể gặp phải liên quan đến hiệu suất mô hình thấp.
Phân phối dữ liệu lịch sử đã thay đổi
Sự chênh lệch phân phối dữ liệu lịch sử xảy ra khi bạn có một thay đổi lớn trong kinh doanh hoặc vấn đề thu thập dữ liệu. Ví dụ: nếu gần đây bạn đã ra mắt sản phẩm của mình tại một thị trường mới, IP_ADDRESS
, EMAIL
và ADDRESS
các tính năng liên quan có thể hoàn toàn khác và mô thức gian lận cũng có thể thay đổi. Amazon sử dụng công cụ phát hiện gian lận EVENT_TIMESTAMP
để phân chia dữ liệu và đánh giá mô hình của bạn trên tập hợp con các sự kiện thích hợp trong tập dữ liệu của bạn. Nếu phân phối dữ liệu lịch sử của bạn thay đổi đáng kể, tập hợp đánh giá có thể rất khác với dữ liệu đào tạo và hiệu suất mô hình được báo cáo có thể thấp.
Bạn có thể kiểm tra vấn đề thay đổi phân phối dữ liệu tiềm ẩn bằng cách khám phá dữ liệu lịch sử của mình:
- Sử dụng Trình lập hồ sơ dữ liệu phát hiện gian lận của Amazon công cụ để kiểm tra xem tỷ lệ gian lận và tỷ lệ thiếu của nhãn có thay đổi theo thời gian hay không.
- Kiểm tra xem phân phối biến theo thời gian có thay đổi đáng kể hay không, đặc biệt là đối với các đối tượng địa lý có tầm quan trọng thay đổi cao.
- Kiểm tra sự phân bố biến theo thời gian của các biến mục tiêu. Nếu bạn quan sát thấy nhiều sự kiện gian lận hơn đáng kể từ một danh mục trong dữ liệu gần đây, bạn có thể muốn kiểm tra xem thay đổi có hợp lý hay không bằng cách sử dụng các đánh giá kinh doanh của mình.
Nếu bạn thấy tỷ lệ nhãn bị thiếu là rất cao hoặc tỷ lệ gian lận liên tục giảm trong những ngày gần đây nhất, đó có thể là dấu hiệu của nhãn chưa đủ độ chín. Bạn nên loại trừ dữ liệu gần đây nhất hoặc đợi lâu hơn để thu thập các nhãn chính xác, sau đó đào tạo lại mô hình của bạn.
Nếu bạn quan sát thấy tỷ lệ gian lận và các biến số tăng đột biến vào những ngày cụ thể, bạn có thể muốn kiểm tra lại xem đó có phải là vấn đề ngoại lệ hoặc thu thập dữ liệu hay không. Trong trường hợp đó, bạn nên xóa các sự kiện đó và đào tạo lại mô hình.
Nếu bạn thấy dữ liệu lỗi thời không thể đại diện cho doanh nghiệp hiện tại và tương lai của mình, bạn nên loại trừ giai đoạn cũ của dữ liệu khỏi quá trình đào tạo. Nếu đang sử dụng các sự kiện được lưu trữ trong Amazon Fraud Detector, bạn có thể chỉ cần đào tạo lại một phiên bản mới và chọn phạm vi ngày thích hợp trong khi định cấu hình công việc đào tạo. Điều đó cũng có thể cho thấy rằng phương thức gian lận trong hoạt động kinh doanh của bạn thay đổi tương đối nhanh chóng theo thời gian. Sau khi triển khai mô hình, bạn có thể cần phải đào tạo lại mô hình của mình thường xuyên.
Ánh xạ loại biến không phù hợp
Amazon Fraud Detector làm phong phú và biến đổi dữ liệu dựa trên các loại biến. Điều quan trọng là bạn phải ánh xạ các biến của mình đến đúng loại để mô hình Máy phát hiện gian lận của Amazon có thể lấy giá trị tối đa của dữ liệu của bạn. Ví dụ, nếu bạn lập bản đồ IP
đến CATEGORICAL
gõ thay vì IP_ADDRESS
, bạn không hiểu IP-
làm giàu có liên quan trong chương trình phụ trợ.
Nói chung, Amazon Fraud Detector đề xuất các hành động sau:
- Ánh xạ các biến của bạn với các loại cụ thể, chẳng hạn như
IP_ADDRESS
,EMAIL_ADDRESS
,CARD_BIN
vàPHONE_NUMBER
, để Amazon Fraud Detector có thể trích xuất và làm phong phú thêm thông tin. - Nếu bạn không thể tìm thấy loại biến cụ thể, hãy ánh xạ nó với một trong ba loại chung:
NUMERIC
,CATEGORICAL
, hoặc làFREE_FORM_TEXT
. - Nếu một biến ở dạng văn bản và có số lượng lớn, chẳng hạn như đánh giá của khách hàng hoặc mô tả sản phẩm, bạn nên ánh xạ nó tới
FREE_FORM_TEXT
loại biến để Amazon Fraud Detector trích xuất các tính năng văn bản và nhúng vào phần phụ trợ cho bạn. Ví dụ, nếu bạn lập bản đồurl_string
đếnFREE_FORM_TEXT
, nó có thể mã hóa URL và trích xuất thông tin để đưa vào mô hình hạ lưu, điều này sẽ giúp nó tìm hiểu thêm các mẫu ẩn từ URL.
Nếu bạn thấy bất kỳ loại biến nào của mình được ánh xạ không chính xác trong cấu hình biến, bạn có thể thay đổi loại biến của mình và sau đó đào tạo lại mô hình.
Không đủ dữ liệu hoặc tính năng
Amazon Fraud Detector yêu cầu ít nhất 10,000 hồ sơ để đào tạo mô hình Thông tin chi tiết về gian lận trực tuyến (OFI) hoặc Thông tin chi tiết về gian lận giao dịch (TFI), với ít nhất 400 hồ sơ trong số đó được xác định là gian lận. TFI cũng yêu cầu cả hồ sơ gian lận và hồ sơ hợp pháp phải đến từ ít nhất 100 thực thể khác nhau, mỗi đơn vị để đảm bảo tính đa dạng của tập dữ liệu. Ngoài ra, Amazon Fraud Detector yêu cầu dữ liệu mô hình hóa phải có ít nhất hai biến. Đó là những yêu cầu dữ liệu tối thiểu để xây dựng một mô hình Amazon Fraud Detector hữu ích. Tuy nhiên, việc sử dụng nhiều bản ghi và biến hơn thường giúp các mô hình ML học tốt hơn các mẫu cơ bản từ dữ liệu của bạn. Khi bạn quan sát thấy AUC thấp hoặc không thể tìm thấy ngưỡng đáp ứng yêu cầu kinh doanh của mình, bạn nên xem xét đào tạo lại mô hình của mình với nhiều dữ liệu hơn hoặc thêm các tính năng mới vào mô hình của bạn. Thông thường, chúng tôi thấy EMAIL_ADDRESS
, IP
, PAYMENT_TYPE
, BILLING_ADDRESS
, SHIPPING_ADDRESS
và DEVICE
các biến số liên quan rất quan trọng trong việc phát hiện gian lận.
Một nguyên nhân khác có thể là do một số biến của bạn chứa quá nhiều giá trị bị thiếu. Để xem điều đó có đang xảy ra hay không, hãy kiểm tra thông báo đào tạo mô hình và tham khảo Khắc phục sự cố về dữ liệu đào tạo để được gợi ý.
Các vấn đề thường gặp đối với hiệu suất mô hình rất cao
Trong phần này, chúng tôi thảo luận về các vấn đề chung liên quan đến hiệu suất mô hình rất cao.
Rò rỉ nhãn
Rò rỉ nhãn xảy ra khi bộ dữ liệu đào tạo sử dụng thông tin mà dự kiến sẽ không có sẵn tại thời điểm dự đoán. Nó đánh giá quá cao tiện ích của mô hình khi chạy trong môi trường sản xuất.
AUC cao (gần bằng 1), phân phối điểm được tách biệt hoàn hảo và tầm quan trọng biến đổi cao hơn đáng kể của một biến có thể là các chỉ số về các vấn đề rò rỉ nhãn tiềm ẩn. Bạn cũng có thể kiểm tra mối tương quan giữa các tính năng và nhãn bằng cách sử dụng Hồ sơ dữ liệu. Các Tính năng và nhãn tương quan biểu đồ cho thấy mối tương quan giữa mỗi đối tượng địa lý và nhãn. Nếu một đối tượng địa lý có mối tương quan trên 0.99 với nhãn, bạn nên kiểm tra xem đối tượng địa lý có được sử dụng đúng cách hay không dựa trên các đánh giá kinh doanh. Ví dụ: để xây dựng một mô hình rủi ro để phê duyệt hoặc từ chối đơn xin vay, bạn không nên sử dụng các tính năng như AMOUNT_PAID
, bởi vì các khoản thanh toán xảy ra sau quá trình bảo lãnh phát hành. Nếu một biến không có sẵn tại thời điểm bạn đưa ra dự đoán, bạn nên xóa biến đó khỏi cấu hình mô hình và đào tạo lại một mô hình mới.
Ví dụ sau đây cho thấy mối tương quan giữa mỗi biến và nhãn. investigation_status
có mối tương quan cao (gần bằng 1) với nhãn, vì vậy bạn nên kiểm tra kỹ xem có vấn đề rò rỉ nhãn hay không.
Các mô hình gian lận đơn giản
Khi các mô hình gian lận trong dữ liệu của bạn đơn giản, bạn cũng có thể quan sát thấy hiệu suất mô hình rất cao. Ví dụ: giả sử tất cả các sự kiện gian lận trong dữ liệu mô hình hóa đến từ cùng một Nhà cung cấp dịch vụ nội bộ; thật đơn giản cho mô hình để chọn IP-
các biến liên quan và trả về một mô hình "hoàn hảo" với tầm quan trọng cao là IP
.
Các mẫu gian lận đơn giản không phải lúc nào cũng chỉ ra vấn đề dữ liệu. Có thể đúng là phương thức gian lận trong hoạt động kinh doanh của bạn rất dễ bị bắt. Tuy nhiên, trước khi đưa ra kết luận, bạn cần đảm bảo các nhãn được sử dụng trong đào tạo mô hình là chính xác và dữ liệu mô hình bao gồm càng nhiều mẫu gian lận càng tốt. Ví dụ: nếu bạn gắn nhãn các sự kiện gian lận của mình dựa trên các quy tắc, chẳng hạn như dán nhãn cho tất cả các ứng dụng từ một BILLING_ZIP
thêm PRODUCT_CATEGORY
như gian lận, mô hình có thể dễ dàng bắt được những gian lận đó bằng cách mô phỏng các quy tắc và đạt được AUC cao.
Bạn có thể kiểm tra sự phân bố nhãn trên các danh mục hoặc thùng khác nhau của từng tính năng bằng cách sử dụng Hồ sơ dữ liệu. Ví dụ: nếu bạn quan sát thấy hầu hết các sự kiện gian lận đến từ một hoặc một vài danh mục sản phẩm, đó có thể là dấu hiệu của các dạng gian lận đơn giản và bạn cần xác nhận rằng đó không phải là một sai sót trong quy trình hoặc thu thập dữ liệu. Nếu tính năng như CUSTOMER_ID
, bạn nên loại trừ tính năng trong đào tạo người mẫu.
Ví dụ sau đây cho thấy phân phối nhãn trên các danh mục khác nhau của product_category
. Tất cả gian lận đến từ hai loại sản phẩm.
Lấy mẫu dữ liệu không đúng cách
Lấy mẫu dữ liệu không đúng cách có thể xảy ra khi bạn lấy mẫu và chỉ gửi một phần dữ liệu của mình đến Amazon Fraud Detector. Nếu dữ liệu không được lấy mẫu chính xác và không đại diện cho lưu lượng truy cập trong quá trình sản xuất, thì hiệu suất mô hình được báo cáo sẽ không chính xác và mô hình có thể vô dụng đối với dự đoán sản xuất. Ví dụ: nếu tất cả các sự kiện gian lận trong dữ liệu mô hình được lấy mẫu từ Châu Á và tất cả các sự kiện hợp pháp được lấy mẫu từ Hoa Kỳ, thì mô hình có thể học cách phân biệt gian lận và hợp pháp dựa trên BILLING_COUNTRY
. Trong trường hợp đó, mô hình không chung chung để áp dụng cho các quần thể khác.
Thông thường, chúng tôi khuyên bạn nên gửi tất cả các sự kiện mới nhất mà không cần lấy mẫu. Dựa trên kích thước dữ liệu và tỷ lệ gian lận, Amazon Fraud Detector sẽ lấy mẫu trước khi đào tạo mô hình cho bạn. Nếu dữ liệu của bạn quá lớn (trên 100 GB) và bạn quyết định lấy mẫu và chỉ gửi một tập hợp con, bạn nên lấy mẫu ngẫu nhiên dữ liệu của mình và đảm bảo rằng mẫu đó đại diện cho toàn bộ tập hợp. Đối với TFI, bạn nên lấy mẫu dữ liệu của mình theo thực thể, có nghĩa là nếu một thực thể được lấy mẫu, bạn nên bao gồm tất cả lịch sử của nó để tổng hợp cấp thực thể được tính toán chính xác. Lưu ý rằng nếu bạn chỉ gửi một tập hợp con dữ liệu đến Amazon Fraud Detector, các tổng hợp thời gian thực trong quá trình suy luận có thể không chính xác nếu các sự kiện trước đó của các thực thể không được gửi.
Một cách lấy mẫu dữ liệu không phù hợp khác có thể là chỉ sử dụng một khoảng thời gian ngắn của dữ liệu, chẳng hạn như dữ liệu của một ngày, để xây dựng mô hình. Dữ liệu có thể bị sai lệch, đặc biệt nếu các cuộc tấn công gian lận hoặc kinh doanh của bạn có tính thời vụ. Chúng tôi thường khuyên bạn nên đưa dữ liệu có giá trị ít nhất hai chu kỳ (chẳng hạn như 2 tuần hoặc 2 tháng) vào mô hình để đảm bảo tính đa dạng của các loại gian lận.
Kết luận
Sau khi chẩn đoán và giải quyết tất cả các vấn đề tiềm ẩn, bạn sẽ nhận được một mô hình Máy phát hiện gian lận Amazon hữu ích và tự tin về hiệu suất của nó. Đối với bước tiếp theo, bạn có thể tạo một máy dò với mô hình và quy tắc kinh doanh của bạnvà sẵn sàng triển khai nó vào sản xuất để đánh giá chế độ bóng tối.
Phụ lục
Cách loại trừ các biến để đào tạo mô hình
Sau khi tìm hiểu sâu, bạn có thể xác định thông tin mục tiêu bị rò rỉ có thể thay đổi và muốn loại trừ thông tin đó khỏi khóa đào tạo mô hình. Bạn có thể đào tạo lại phiên bản mô hình loại trừ các biến bạn không muốn bằng cách hoàn thành các bước sau:
- Trên bảng điều khiển Trình phát hiện gian lận của Amazon, trong ngăn điều hướng, hãy chọn mô hình.
- trên mô hình , chọn mô hình bạn muốn đào tạo lại.
- trên Hoạt động menu, chọn Huấn luyện phiên bản mới.
- Chọn phạm vi ngày bạn muốn sử dụng và chọn Sau.
- trên Định cấu hình đào tạo , bỏ chọn biến mà bạn không muốn sử dụng trong đào tạo mô hình.
- Chỉ định nhãn gian lận và nhãn hợp pháp của bạn và cách bạn muốn Amazon Fraud Detector sử dụng các sự kiện không được gắn nhãn, sau đó chọn Sau.
- Xem lại cấu hình mô hình và chọn Tạo và đào tạo mô hình.
Cách thay đổi loại biến sự kiện
Các biến đại diện cho các yếu tố dữ liệu được sử dụng trong phòng chống gian lận. Trong Amazon Fraud Detector, tất cả các biến là toàn cầu và được chia sẻ trên tất cả các sự kiện và mô hình, có nghĩa là một biến có thể được sử dụng trong nhiều sự kiện. Ví dụ: IP có thể được liên kết với các sự kiện đăng nhập và nó cũng có thể được liên kết với các sự kiện giao dịch. Đương nhiên, Amazon Fraud Detector đã khóa kiểu biến và kiểu dữ liệu sau khi một biến được tạo. Để xóa một biến hiện có, trước tiên bạn cần xóa tất cả các kiểu và mô hình sự kiện được liên kết. Bạn có thể kiểm tra các tài nguyên được liên kết với biến cụ thể bằng cách điều hướng đến Trình phát hiện gian lận của Amazon, chọn Biến trong ngăn dẫn hướng và chọn tên biến và Tài nguyên liên kết.
Xóa biến và tất cả các loại sự kiện liên quan
Để xóa biến, hãy hoàn thành các bước sau:
- Trên bảng điều khiển Trình phát hiện gian lận của Amazon, trong ngăn điều hướng, hãy chọn Biến.
- Chọn biến bạn muốn xóa.
- Chọn Tài nguyên liên kết để xem danh sách tất cả các loại sự kiện đã sử dụng biến này.
Bạn cần xóa các loại sự kiện liên quan đó trước khi xóa biến. - Chọn loại sự kiện trong danh sách để chuyển đến trang loại sự kiện được liên kết.
- Chọn Sự kiện được lưu trữ để kiểm tra xem có dữ liệu nào được lưu trữ trong loại sự kiện này không.
- Nếu có các sự kiện được lưu trữ trong Amazon Fraud Detector, hãy chọn Xóa các sự kiện đã lưu trữ để xóa các sự kiện đã lưu trữ.
Khi công việc xóa hoàn tất, thông báo “Các sự kiện được lưu trữ cho loại sự kiện này đã được xóa thành công” xuất hiện. - Chọn Tài nguyên liên kết.
Nếu trình phát hiện và mô hình được liên kết với loại sự kiện này, trước tiên bạn cần xóa các tài nguyên đó. - Nếu các trình phát hiện được liên kết, hãy hoàn thành các bước sau để xóa tất cả các trình phát hiện được liên kết:
- Chọn máy dò để đi đến Chi tiết máy dò .
- Trong tạp chí Phiên bản mô hình , chọn phiên bản của máy dò.
- Trên trang phiên bản máy dò, chọn Hoạt động.
- Nếu phiên bản dò đang hoạt động, hãy chọn tắt, chọn Hủy kích hoạt phiên bản máy dò này mà không thay thế nó bằng một phiên bản khác, và lựa chọn Hủy kích hoạt phiên bản máy dò.
- Sau khi phiên bản máy dò bị vô hiệu hóa, hãy chọn Hoạt động và sau đó Xóa bỏ.
- Lặp lại các bước này để xóa tất cả các phiên bản máy dò.
- trên Chi tiết máy dò trang, chọn Các quy tắc liên quan.
- Chọn quy tắc để xóa.
- Chọn Hoạt động và Xóa phiên bản quy tắc.
- Nhập tên quy tắc để xác nhận và chọn Xóa phiên bản.
- Lặp lại các bước này để xóa tất cả các quy tắc liên quan.
- Sau khi tất cả các phiên bản trình phát hiện và các quy tắc liên quan bị xóa, hãy chuyển đến Chi tiết máy dò trang, chọn Hoạt động, và lựa chọn Xóa trình phát hiện.
- Nhập tên của máy dò và chọn Xóa trình phát hiện.
- Lặp lại các bước này để xóa trình phát hiện tiếp theo.
- Nếu bất kỳ mô hình nào được liên kết với loại sự kiện, hãy hoàn thành các bước sau để xóa chúng:
- Chọn tên của mô hình.
- Trong tạp chí Phiên bản mô hình , chọn phiên bản.
- Nếu trạng thái mô hình là
Active
, chọn Hoạt động và Phiên bản mô hình không triển khai. - đăng ký hạng mục thi
undeploy
để xác nhận và lựa chọn Phiên bản mô hình không triển khai.
Trạng thái thay đổi thànhUndeploying
. Quá trình này mất vài phút để hoàn thành. - Sau khi trạng thái trở thành
Ready to deploy
, chọn Hành động và Xóa. - Lặp lại các bước này để xóa tất cả các phiên bản mô hình.
- Trên trang chi tiết Mô hình, chọn Hành động và Xóa mô hình.
- Nhập tên của mô hình và chọn Xóa mô hình.
- Lặp lại các bước này để xóa mô hình tiếp theo.
- Sau khi tất cả các thiết bị phát hiện và mô hình được liên kết bị xóa, hãy chọn Hoạt động và Xóa loại sự kiện trên Chi tiết sự kiện .
- Nhập tên của loại sự kiện và chọn Xóa loại sự kiện.
- Trong ngăn dẫn hướng, chọn Biếnvà chọn biến bạn muốn xóa.
- Lặp lại các bước trước đó để xóa tất cả các loại sự kiện được liên kết với biến.
- trên Các chi tiết biến đổi trang, chọn Hoạt động và Xóa.
- Nhập tên của biến và chọn Xóa biến.
Tạo một biến mới với đúng loại biến
Sau khi bạn đã xóa biến và tất cả các loại sự kiện liên quan, sự kiện, mô hình và trình phát hiện được lưu trữ khỏi Amazon Fraud Detector, bạn có thể tạo một biến mới có cùng tên và ánh xạ nó với đúng loại biến.
- Trên bảng điều khiển Trình phát hiện gian lận của Amazon, trong ngăn điều hướng, hãy chọn Biến.
- Chọn Tạo.
- Nhập tên biến bạn muốn sửa đổi (tên biến bạn đã xóa trước đó).
- Chọn đúng loại biến mà bạn muốn thay đổi.
- Chọn Tạo biến.
Tải lên dữ liệu và đào tạo lại mô hình
Sau khi cập nhật loại biến, bạn có thể tải lại dữ liệu lên và đào tạo một mô hình mới. Để được hướng dẫn, hãy tham khảo Phát hiện gian lận trong giao dịch trực tuyến với các tính năng mới của Amazon Fraud Detector.
Cách thêm các biến mới vào loại sự kiện hiện có
Để thêm các biến mới vào loại sự kiện hiện có, hãy hoàn thành các bước sau:
- Thêm các biến mới vào tệp CVS đào tạo trước đó.
- Tải tệp dữ liệu đào tạo mới lên nhóm S3. Lưu ý vị trí Amazon S3 của tệp đào tạo của bạn (ví dụ:
s3://bucketname/path/to/some/object.csv
) và tên vai trò của bạn. - Trên bảng điều khiển Trình phát hiện gian lận của Amazon, trong ngăn điều hướng, hãy chọn Sự kiện.
- trên Các loại sự kiện , chọn tên của loại sự kiện bạn muốn thêm biến.
- trên Loại sự kiện trang chi tiết, chọn Hoạt độngthì Thêm các biến.
- Theo Chọn cách xác định các biến của sự kiện này, chọn Chọn các biến từ tập dữ liệu đào tạo.
- Đối với vai trò IAM, hãy chọn một vai trò IAM hiện có hoặc tạo một vai trò mới để truy cập dữ liệu trong Amazon S3.
- Trong Vị trí dữ liệu, nhập vị trí S3 của tệp đào tạo mới và chọn Tải lên.
Các biến mới không có trong loại sự kiện hiện có sẽ hiển thị trong danh sách.
- Chọn Thêm các biến.
Bây giờ, các biến mới đã được thêm vào loại sự kiện hiện có. Nếu bạn đang sử dụng các sự kiện được lưu trữ trong Amazon Fraud Detector, thì các biến mới của các sự kiện được lưu trữ vẫn bị thiếu. Bạn cần nhập dữ liệu đào tạo với các biến mới vào Amazon Fraud Detector và sau đó đào tạo lại phiên bản mô hình mới. Khi tải lên dữ liệu đào tạo mới với cùng một EVENT_ID
và EVENT_TIMESTAMP
, các biến sự kiện mới sẽ ghi đè các biến sự kiện trước đó được lưu trữ trong Amazon Fraud Detector.
Về các tác giả
Julia Từ là một Nhà Khoa học Nghiên cứu với Công cụ Phát hiện Gian lận của Amazon. Cô ấy đam mê giải quyết các thách thức của khách hàng bằng cách sử dụng các kỹ thuật Máy học. Khi rảnh rỗi, cô thích đi bộ đường dài, vẽ tranh và khám phá các quán cà phê mới.
Hào Châu là một Nhà Khoa học Nghiên cứu về Công cụ Phát hiện Gian lận của Amazon. Ông có bằng Tiến sĩ về kỹ thuật điện tại Đại học Northwestern, Hoa Kỳ. Anh ấy đam mê áp dụng các kỹ thuật máy học để chống lại gian lận và lạm dụng.
Abhishek Ravi là Giám đốc Sản phẩm Cấp cao với Công cụ Phát hiện Gian lận của Amazon. Anh ấy đam mê tận dụng khả năng kỹ thuật để tạo ra các sản phẩm làm hài lòng khách hàng.
- Coinsmart. Sàn giao dịch Bitcoin và tiền điện tử tốt nhất Châu Âu.
- Platoblockchain. Web3 Metaverse Intelligence. Khuếch đại kiến thức. TRUY CẬP MIỄN PHÍ.
- CryptoHawk. Radar Altcoin. Dùng thử miễn phí.
- Nguồn: https://aws.amazon.com/blogs/machine-learning/diagnose-model-performance-before-deployment-for-amazon-fraud-detector/
- "
- 000
- 10
- 100
- 20 năm
- 9
- a
- có khả năng
- Giới thiệu
- truy cập
- cho phù hợp
- Tài khoản
- chính xác
- ngang qua
- hành động
- hoạt động
- hoạt động
- thêm
- Ngoài ra
- thêm vào
- Nhận con nuôi
- tiên tiến
- thuật toán
- Tất cả
- cho phép
- luôn luôn
- đàn bà gan dạ
- áp dụng
- Các Ứng Dụng
- các ứng dụng
- áp dụng
- Nộp đơn
- phương pháp tiếp cận
- cách tiếp cận
- thích hợp
- phê duyệt
- KHU VỰC
- Á
- liên kết
- sự chú ý
- thuộc tính
- Tự động
- có sẵn
- AWS
- Baseline
- bởi vì
- trước
- phía dưới
- Hơn
- giữa
- Chặn
- biên giới
- mang lại
- xây dựng
- kinh doanh
- tính
- khả năng
- nắm bắt
- mà
- trường hợp
- trường hợp
- Catch
- Phân loại
- Nguyên nhân
- nhất định
- thách thức
- thách thức
- thay đổi
- Chọn
- phân loại
- Cà Phê
- Coin
- thu thập
- Thu
- bộ sưu tập
- chống lại
- Đến
- Chung
- hoàn thành
- hoàn toàn
- hoàn thành
- tự tin
- Cấu hình
- nhầm lẫn
- Hãy xem xét
- An ủi
- Tiện lợi
- có thể
- tạo
- tạo ra
- Current
- đường cong
- khách hàng
- khách hàng
- dữ liệu
- Ngày
- sâu
- Tùy
- phụ thuộc
- triển khai
- triển khai
- triển khai
- Mô tả
- chi tiết
- Phát hiện
- khác nhau
- kỹ thuật số
- trực tiếp
- thảo luận
- màn hình
- phân phối
- Phân phối
- SỰ ĐA DẠNG
- Không
- hủy bỏ
- suốt trong
- mỗi
- dễ dàng
- các yếu tố
- Cuối cùng đến cuối
- kết thúc
- Kỹ Sư
- làm giàu
- đăng ký hạng mục thi
- thực thể
- thực thể
- Môi trường
- đặc biệt
- đánh giá
- đánh giá
- Sự kiện
- sự kiện
- ví dụ
- loại trừ
- hiện tại
- mong đợi
- dự kiến
- chuyên môn
- Chất chiết xuất
- nhanh hơn
- Đặc tính
- Tính năng
- Cuối cùng
- Tên
- theo
- tiếp theo
- hình thức
- gian lận
- Miễn phí
- từ
- chức năng
- tương lai
- Tổng Quát
- tạo ra
- Toàn cầu
- mục tiêu
- tốt
- lớn hơn
- màu xanh lá
- Tăng trưởng
- xảy ra
- giúp đỡ
- hữu ích
- giúp
- Cao
- cao hơn
- cao
- lịch sử
- lịch sử
- giữ
- Độ đáng tin của
- Hướng dẫn
- Tuy nhiên
- HTTPS
- xác định
- Va chạm
- tầm quan trọng
- quan trọng
- nâng cao
- cải thiện
- bao gồm
- Bao gồm
- chỉ
- thông tin
- đầu vào
- những hiểu biết
- Giao thức
- Internet
- điều tra
- IP
- vấn đề
- các vấn đề
- IT
- Việc làm
- bản án
- Biết
- kiến thức
- nhãn
- ghi nhãn
- Nhãn
- lớn
- lớn hơn
- mới nhất
- phát động
- bị rò rỉ
- LEARN
- học tập
- Cấp
- tận dụng
- Danh sách
- Liệt kê
- địa điểm thư viện nào
- khóa
- máy
- học máy
- làm cho
- Làm
- quản lý
- giám đốc
- bản đồ
- thị trường
- Matrix
- có nghĩa
- tin nhắn
- Metrics
- Might
- tối thiểu
- ML
- kiểu mẫu
- mô hình
- tháng
- chi tiết
- hầu hết
- nhiều
- điều hướng
- THÔNG TIN
- nhu cầu
- tiêu cực
- Các tính năng mới
- Chợ mới
- tiếp theo
- con số
- số
- Cung cấp
- Trực tuyến
- nhà điều hành
- gọi món
- Nền tảng khác
- nếu không thì
- tổng thể
- một phần
- đam mê
- thanh toán
- tỷ lệ phần trăm
- hiệu suất
- thời gian
- Điểm
- dân số
- tích cực
- có thể
- tiềm năng
- quyền lực
- dự đoán
- trình bày
- Phòng chống
- trước
- chính
- vấn đề
- quá trình
- Sản phẩm
- Sản lượng
- Sản phẩm
- cho
- cung cấp
- nhà cung cấp dịch vụ
- cung cấp
- Mau
- phạm vi
- thời gian thực
- hợp lý
- gần đây
- gần đây
- giới thiệu
- hồ sơ
- phản ánh
- về
- đại diện
- đại diện
- đại diện cho
- Yêu cầu
- đòi hỏi
- nghiên cứu
- Thông tin
- trở lại
- Trả về
- xem xét
- tăng
- Nguy cơ
- Vai trò
- quy tắc
- chạy
- tương tự
- Quy mô
- Nhà khoa học
- chọn
- dịch vụ
- định
- Bóng tối
- chia sẻ
- cửa hàng
- ngắn
- hiển thị
- thể hiện
- Đơn giản
- Kích thước máy
- So
- rắn
- Giải quyết
- một số
- riêng
- chia
- bắt đầu
- số liệu thống kê
- Trạng thái
- Vẫn còn
- là gắn
- Chiến lược
- Thành công
- Mục tiêu
- Kỹ thuật
- kỹ thuật
- mẫu
- thử nghiệm
- Kiểm tra
- Sản phẩm
- số ba
- ngưỡng
- Thông qua
- thời gian
- công cụ
- hàng đầu
- TPR
- giao thông
- Train
- Hội thảo
- giao dịch
- biến đổi
- loại
- thường
- Dưới
- hiểu
- trường đại học
- Cập nhật
- us
- US
- sử dụng
- Người sử dụng
- thường
- tiện ích
- xác nhận
- giá trị
- phiên bản
- Xem
- chờ đợi
- Điều gì
- liệu
- trong khi
- không có
- giá trị
- sẽ
- năm
- năm
- trên màn hình