Amazon Fraud Detector 배포 전 모델 성능 진단

플라톤에 의해 재발행

팔로워 : 0

온라인 애플리케이션의 채택이 증가하고 인터넷 사용자 수가 증가함에 따라 디지털 사기가 해마다 증가하고 있습니다. 아마존 사기 탐지기 고급 기계 학습(ML) 기술과 Amazon의 20년 이상의 사기 탐지 전문 지식을 사용하여 사기 가능성이 있는 온라인 활동을 더 잘 식별하는 데 도움이 되는 완전 관리형 서비스를 제공합니다.

여러 사용 사례에서 사기를 더 빨리 포착할 수 있도록 Amazon Fraud Detector는 맞춤형 알고리즘, 강화 및 기능 변환이 포함된 특정 모델을 제공합니다. 모델 교육은 완전히 자동화되어 번거롭지 않으며, 다음 지침을 따를 수 있습니다. 사용자 가이드 또는 관련 블로그 게시물 시작합니다. 그러나 훈련된 모델의 경우 모델을 배포할 준비가 되었는지 여부를 결정해야 합니다. 이를 위해서는 ML, 통계 및 사기 탐지에 대한 특정 지식이 필요하며 몇 가지 일반적인 접근 방식을 아는 것이 도움이 될 수 있습니다.

이 게시물은 모델 성능을 진단하고 배포에 적합한 모델을 선택하는 데 도움이 됩니다. Amazon Fraud Detector에서 제공하는 지표를 살펴보고 잠재적인 문제를 진단하고 모델 성능을 개선하기 위한 제안을 제공합니다. 접근 방식은 OFI(Online Fraud Insights) 및 TFI(Transaction Fraud Insights) 모델 템플릿 모두에 적용할 수 있습니다.

솔루션 개요

이 게시물은 모델 성능을 진단하기 위한 종단 간 프로세스를 제공합니다. 먼저 AUC, 점수 분포, 혼동 행렬, ROC 곡선 및 모델 변수 중요도를 포함하여 Amazon Fraud Detector 콘솔에 표시된 모든 모델 지표를 소개합니다. 그런 다음 다양한 메트릭을 사용하여 모델 성능을 진단하는 XNUMX단계 접근 방식을 제시합니다. 마지막으로 일반적인 문제에 대한 모델 성능을 개선하기 위한 제안을 제공합니다.

사전 조건

Amazon Fraud Detector 모델을 자세히 살펴보기 전에 다음 사전 요구 사항을 완료해야 합니다.

AWS 계정을 생성합니다.
이벤트 데이터세트 만들기 모델 교육을 위해
데이터 업로드 에 아마존 단순 스토리지 서비스 (Amazon S3) 또는 이벤트 데이터를 Amazon Fraud Detector로 수집.
Amazon Fraud Detector 모델 구축.

모델 메트릭 해석

모델 교육이 완료되면 Amazon Fraud Detector는 모델 교육에 사용되지 않은 모델링 데이터의 일부를 사용하여 모델을 평가합니다. 평가 지표를 반환합니다. 모델 버전 해당 모델에 대한 페이지입니다. 이러한 메트릭은 프로덕션에 배포한 후 실제 데이터에서 기대할 수 있는 모델 성능을 반영합니다.

다음 스크린샷은 Amazon Fraud Detector에서 반환된 예시 모델 성능을 보여줍니다. 점수 분포(왼쪽)에서 다른 임계값을 선택할 수 있으며 이에 따라 혼동 행렬(오른쪽)이 업데이트됩니다.

다음 결과를 사용하여 성능을 확인하고 전략 규칙을 결정할 수 있습니다.

AUC(곡선 아래 면적) – 이 모델의 전반적인 성능. AUC가 0.50인 모델은 무작위 확률을 나타내기 때문에 동전 던지기보다 나을 것이 없지만 "완벽한" 모델의 점수는 1.0입니다. AUC가 높을수록 모델이 사기와 합법을 더 잘 구별할 수 있습니다.
점수 분포 – 100,000개 이벤트의 예시 모집단을 가정한 모델 점수 분포의 히스토그램. Amazon Fraud Detector는 0–1000 사이의 모델 점수를 생성하며, 점수가 낮을수록 사기 위험이 낮아집니다. 합법적(녹색) 및 사기(파란색) 인구 사이의 더 나은 분리는 일반적으로 더 나은 모델을 나타냅니다. 자세한 내용은 모델 점수.
혼동 행렬 – 참 양성, 참 음성, 거짓 양성, 거짓 음성, 참 양성 비율(TPR) 및 거짓 양성 비율(FPR)을 포함하여 선택된 주어진 점수 임계값에 대한 모델 성능을 설명하는 표입니다. 테이블의 개수는 100,0000개 이벤트의 예시 모집단을 가정합니다. 자세한 내용은 모델 성능 메트릭.
ROC(Receiver Operator Characteristic) 곡선 – 다음 스크린샷과 같이 모델의 진단 기능을 보여주는 플롯입니다. 가능한 모든 모델 점수 임계값에 대한 거짓 긍정 비율의 함수로 참 긍정 비율을 표시합니다. 선택하여 이 차트 보기 고급 지표. 한 모델의 여러 버전을 훈련한 경우 다른 FPR 임계값을 선택하여 성능 변화를 확인할 수 있습니다.
모델 변수 중요도 – 다음 스크린샷과 같이 생성된 모델에 대한 기여도를 기반으로 하는 모델 변수의 순위입니다. 가장 높은 값을 가진 모델 변수는 해당 모델 버전에 대한 데이터 세트의 다른 모델 변수보다 모델에 더 중요하며 기본적으로 맨 위에 나열됩니다. 자세한 내용은 모델 변수 중요도.

모델 성능 진단

모델을 프로덕션에 배포하기 전에 Amazon Fraud Detector가 반환한 지표를 사용하여 모델 성능을 이해하고 가능한 문제를 진단해야 합니다. ML 모델의 일반적인 문제는 데이터 관련 문제와 모델 관련 문제의 두 가지 주요 범주로 나눌 수 있습니다. Amazon Fraud Detector는 검증 및 테스트 세트를 신중하게 사용하여 백엔드에서 모델을 평가하고 조정함으로써 모델 관련 문제를 처리했습니다. 다음 단계를 완료하여 모델을 배포할 준비가 되었는지 또는 가능한 데이터 관련 문제가 있는지 확인할 수 있습니다.

전체 모델 성능(AUC 및 점수 분포)을 확인합니다.
비즈니스 요구 사항을 검토하십시오(혼돈 행렬 및 표).
모델 변수 중요도를 확인하십시오.

전체 모델 성능 확인: AUC 및 점수 분포

미래 사건에 대한 보다 정확한 예측은 항상 예측 모델의 주요 목표입니다. Amazon Fraud Detector에서 반환된 AUC는 교육에 사용되지 않은 적절하게 샘플링된 테스트 세트에서 계산됩니다. 일반적으로 AUC가 0.9보다 큰 모델을 좋은 모델로 간주합니다.

성능이 0.8 미만인 모델을 관찰하면 일반적으로 모델에 개선의 여지가 있음을 의미합니다(이 게시물 뒷부분에서 낮은 모델 성능에 대한 일반적인 문제에 대해 논의함). "좋은" 성과의 정의는 비즈니스와 기본 모델에 따라 크게 달라집니다. AUC가 0.8보다 크더라도 이 게시물의 단계를 따라 Amazon Fraud Detector 모델을 개선할 수 있습니다.

반면에 AUC가 0.99를 초과하면 모델이 테스트 세트에서 사기와 적법한 이벤트를 거의 완벽하게 분리할 수 있음을 의미합니다. 이것은 때때로 "너무 좋다"는 시나리오입니다(이 게시물 뒷부분에서 매우 높은 모델 성능에 대한 일반적인 문제에 대해 논의합니다).

전체 AUC 외에도 점수 분포를 통해 모델이 얼마나 잘 맞는지 알 수 있습니다. 이상적으로는 규모의 양쪽 끝에 있는 합법 및 사기의 대부분을 확인해야 합니다. 이는 모델 점수가 테스트 세트에서 이벤트의 순위를 정확하게 지정할 수 있음을 나타냅니다.

다음 예에서 점수 분포의 AUC는 0.96입니다.

적법한 분포와 사기 분포가 중앙에 겹쳤거나 집중된 경우 모델이 적법한 사건과 사기 사건을 구별하는 데 제대로 작동하지 않는다는 것을 의미할 수 있습니다. 이는 과거 데이터 분포가 변경되었거나 더 많은 데이터나 기능이 필요함을 나타낼 수 있습니다.

다음은 AUC가 0.64인 점수 분포의 예입니다.

사기와 적법한 사건을 거의 완벽하게 분리할 수 있는 분리점을 찾을 수 있다면 모델에 레이블 누출 문제가 있거나 사기 패턴을 감지하기가 너무 쉽기 때문에 주의를 기울여야 할 가능성이 높습니다.

다음 예에서 점수 분포의 AUC는 1.0입니다.

비즈니스 요구 사항 검토: 혼동 행렬 및 표

AUC는 모델 성능의 편리한 지표이지만 비즈니스 요구 사항으로 직접 변환되지 않을 수 있습니다. Amazon Fraud Detector는 또한 비즈니스 요구 사항으로 더 일반적으로 사용되는 사기 캡처 비율(참 긍정 비율), 사기로 잘못 예측된 적법한 이벤트의 비율(위 긍정 비율) 등과 같은 지표를 제공합니다. 상당히 좋은 AUC를 사용하여 모델을 교육한 후에는 해당 메트릭을 사용하여 비즈니스 요구 사항과 모델을 비교해야 합니다.

혼동 매트릭스와 표는 영향을 검토하고 비즈니스 요구 사항을 충족하는지 확인할 수 있는 인터페이스를 제공합니다. 수치는 모델 임계값에 따라 달라지며 임계값보다 큰 점수를 가진 이벤트는 사기로 분류되고 임계값보다 낮은 점수를 가진 이벤트는 정상으로 분류됩니다. 비즈니스 요구 사항에 따라 사용할 임계값을 선택할 수 있습니다.

예를 들어, 목표가 사기의 73%를 포착하는 것이라면(아래 예와 같이) 모든 사기의 855%를 포착할 수 있는 73와 같은 임계값을 선택할 수 있습니다. 그러나 이 모델은 3%의 합법적인 이벤트를 사기로 잘못 분류하기도 합니다. 이 FPR이 비즈니스에 적합하다면 해당 모델은 배포에 적합합니다. 그렇지 않으면 모델 성능을 개선해야 합니다.

또 다른 예는 합법적인 고객을 차단하거나 도전하는 비용이 극도로 높으면 낮은 FPR과 높은 정밀도를 원한다는 것입니다. 이 경우 다음 예와 같이 임계값 950을 선택할 수 있습니다. 이렇게 하면 합법적인 고객의 1%를 사기로 잘못 분류하고 식별된 사기의 80%는 실제로 사기가 됩니다.

또한 여러 임계값을 선택하고 차단, 조사, 통과와 같은 다양한 결과를 할당할 수 있습니다. 모든 비즈니스 요구 사항을 충족하는 적절한 임계값과 규칙을 찾을 수 없는 경우 더 많은 데이터와 속성으로 모델을 훈련하는 것을 고려해야 합니다.

모델 변수 중요도 확인

XNUMXD덴탈의 모델 변수 중요도 창에는 각 변수가 모델에 기여하는 방식이 표시됩니다. 한 변수의 중요도 값이 다른 변수보다 훨씬 높으면 레이블 누출을 나타내거나 사기 패턴을 감지하기가 너무 쉽다는 의미일 수 있습니다. 변수 중요도는 입력 변수로 다시 집계됩니다. 약간 더 높은 중요성을 관찰하면 IP_ADDRESS, CARD_BIN, EMAIL_ADDRESS, PHONE_NUMBER, BILLING_ZIP및 SHIPPING_ZIP, 농축의 힘 때문일 것이다.

다음 예는 다음을 사용하여 잠재적인 레이블 누출이 있는 모델 변수 중요도를 보여줍니다. investigation_status.

모델 변수 중요도는 또한 잠재적으로 모델을 향상시킬 수 있는 추가 변수에 대한 힌트를 제공합니다. 예를 들어 AUC가 낮고 판매자 관련 기능이 중요도가 높은 것으로 관찰되면 다음과 같은 주문 기능을 더 수집하는 것을 고려할 수 있습니다. SELLER_CATEGORY, SELLER_ADDRESS및 SELLER_ACTIVE_YEARS, 해당 변수를 모델에 추가합니다.

낮은 모델 성능에 대한 일반적인 문제

이 섹션에서는 낮은 모델 성능과 관련하여 발생할 수 있는 일반적인 문제에 대해 설명합니다.

과거 데이터 분포가 변경됨

과거 데이터 배포 드리프트는 큰 비즈니스 변경 또는 데이터 수집 문제가 있을 때 발생합니다. 예를 들어 최근에 새로운 시장에서 제품을 출시했다면 IP_ADDRESS, EMAIL및 ADDRESS 관련 기능이 완전히 다를 수 있으며 사기 방식도 변경될 수 있습니다. Amazon Fraud Detector 사용 EVENT_TIMESTAMP 데이터를 분할하고 데이터세트의 적절한 이벤트 하위 집합에서 모델을 평가합니다. 과거 데이터 분포가 크게 변경되면 평가 세트가 훈련 데이터와 매우 다를 수 있으며 보고된 모델 성능이 낮을 수 있습니다.

과거 데이터를 탐색하여 잠재적인 데이터 배포 변경 문제를 확인할 수 있습니다.

사용 Amazon 사기 감지기 데이터 프로파일러 사기율과 라벨 누락율이 시간이 지남에 따라 변경되었는지 확인하는 도구입니다.
특히 변수 중요도가 높은 기능의 경우 시간 경과에 따른 변수 분포가 크게 변경되었는지 확인합니다.
대상 변수별로 시간 경과에 따른 변수 분포를 확인합니다. 최근 데이터에서 한 범주에서 훨씬 더 많은 사기 사건을 관찰한 경우 비즈니스 판단을 사용하여 변경 사항이 합리적인지 확인할 수 있습니다.

라벨 누락률이 매우 높거나 가장 최근 날짜 동안 사기율이 지속적으로 떨어졌다면 라벨이 완전히 숙성되지 않았음을 나타내는 지표일 수 있습니다. 가장 최근의 데이터를 제외하거나 정확한 레이블을 수집하기 위해 더 오래 기다린 다음 모델을 다시 훈련시켜야 합니다.

특정 날짜에 사기율과 변수의 급격한 급증을 관찰하는 경우 이상값 또는 데이터 수집 문제인지 다시 확인해야 할 수 있습니다. 이 경우 해당 이벤트를 삭제하고 모델을 다시 학습시켜야 합니다.

오래된 데이터가 현재 및 미래의 비즈니스를 나타낼 수 없다는 것을 알게 되면 이전 데이터 기간을 교육에서 제외해야 합니다. Amazon Fraud Detector에서 저장된 이벤트를 사용하는 경우 교육 작업을 구성하는 동안 새 버전을 다시 교육하고 적절한 날짜 범위를 선택하기만 하면 됩니다. 이는 또한 비즈니스의 사기 방식이 시간이 지남에 따라 상대적으로 빠르게 변한다는 것을 나타낼 수도 있습니다. 모델 배포 후 모델을 자주 재학습해야 할 수 있습니다.

부적절한 변수 유형 매핑

Amazon Fraud Detector는 변수 유형을 기반으로 데이터를 강화하고 변환합니다. Amazon Fraud Detector 모델이 데이터의 최대값을 취할 수 있도록 변수를 올바른 유형에 매핑하는 것이 중요합니다. 예를 들어 매핑하면 IP ~로 CATEGORICAL 대신 입력 IP_ADDRESS, 당신은 얻을 수 없습니다 IP-백엔드의 관련 강화.

일반적으로 Amazon Fraud Detector는 다음 작업을 제안합니다.

변수를 다음과 같은 특정 유형에 매핑합니다. IP_ADDRESS, EMAIL_ADDRESS, CARD_BIN및 PHONE_NUMBER, Amazon Fraud Detector가 추가 정보를 추출하고 보강할 수 있도록 합니다.
특정 변수 유형을 찾을 수 없으면 세 가지 일반 유형 중 하나에 매핑합니다. NUMERIC, CATEGORICAL및 FREE_FORM_TEXT.
변수가 텍스트 형식이고 고객 리뷰 또는 제품 설명과 같이 카디널리티가 높은 경우 해당 변수에 매핑해야 합니다. FREE_FORM_TEXT Amazon Fraud Detector가 백엔드에서 텍스트 기능 및 임베딩을 추출하도록 변수 유형을 지정합니다. 예를 들어 매핑하면 url_string 에 FREE_FORM_TEXT, URL을 토큰화하고 정보를 추출하여 다운스트림 모델에 피드할 수 있으므로 URL에서 더 많은 숨겨진 패턴을 학습하는 데 도움이 됩니다.

변수 구성에서 잘못 매핑된 변수 유형이 있는 경우 변수 유형을 변경한 다음 모델을 다시 훈련할 수 있습니다.

불충분한 데이터 또는 기능

Amazon Fraud Detector는 OFI(Online Fraud Insights) 또는 TFI(Transaction Fraud Insights) 모델을 교육하는 데 최소 10,000개의 레코드가 필요하며 이 중 최소 400개는 사기로 식별됩니다. 또한 TFI는 데이터 세트의 다양성을 보장하기 위해 사기 기록과 적법한 기록이 각각 최소 100개의 서로 다른 엔티티에서 제공되도록 요구합니다. 또한 Amazon Fraud Detector를 사용하려면 모델링 데이터에 최소 두 개의 변수가 있어야 합니다. 이는 유용한 Amazon Fraud Detector 모델을 구축하기 위한 최소 데이터 요구 사항입니다. 그러나 더 많은 레코드와 변수를 사용하면 일반적으로 ML 모델이 데이터에서 기본 패턴을 더 잘 학습하는 데 도움이 됩니다. 낮은 AUC를 관찰하거나 비즈니스 요구 사항을 충족하는 임계값을 찾을 수 없는 경우 더 많은 데이터로 모델을 재교육하거나 모델에 새 기능을 추가하는 것을 고려해야 합니다. 일반적으로 우리는 EMAIL_ADDRESS, IP, PAYMENT_TYPE, BILLING_ADDRESS, SHIPPING_ADDRESS및 DEVICE 관련 변수는 사기 탐지에서 중요합니다.

또 다른 가능한 원인은 일부 변수에 누락된 값이 너무 많기 때문입니다. 이러한 일이 발생하는지 확인하려면 모델 교육 메시지를 확인하고 다음을 참조하십시오. 학습 데이터 문제 해결 제안을 위해.

매우 높은 모델 성능에 대한 일반적인 문제

이 섹션에서는 매우 높은 모델 성능과 관련된 일반적인 문제에 대해 논의합니다.

라벨 누출

레이블 누출은 훈련 데이터 세트가 예측 시 사용할 수 없을 것으로 예상되는 정보를 사용할 때 발생합니다. 프로덕션 환경에서 실행할 때 모델의 유용성을 과대 평가합니다.

높은 AUC(1에 가까움), 완벽하게 분리된 점수 분포, 한 변수의 상당히 높은 변수 중요도는 잠재적인 라벨 누출 문제의 지표가 될 수 있습니다. 다음을 사용하여 기능과 레이블 간의 상관 관계를 확인할 수도 있습니다. 데이터 프로파일러. 그만큼 기능 및 레이블 상관 관계 플롯은 각 기능과 레이블 간의 상관 관계를 보여줍니다. 하나의 기능이 레이블과 0.99 이상의 상관관계를 가진다면 비즈니스 판단에 따라 해당 기능이 적절하게 사용되는지 확인해야 합니다. 예를 들어, 대출 신청을 승인하거나 거부하는 위험 모델을 구축하려면 다음과 같은 기능을 사용해서는 안 됩니다. AMOUNT_PAID, 지불은 인수 프로세스 후에 이루어지기 때문입니다. 예측할 때 변수를 사용할 수 없는 경우 모델 구성에서 해당 변수를 제거하고 새 모델을 다시 훈련해야 합니다.

다음 예는 각 변수와 레이블 간의 상관 관계를 보여줍니다. investigation_status 레이블과 높은 상관관계(1에 가까움)가 있으므로 레이블 누출 문제가 있는지 다시 확인해야 합니다.

단순한 사기 패턴

데이터의 사기 패턴이 단순하면 매우 높은 모델 성능도 관찰할 수 있습니다. 예를 들어 모델링 데이터의 모든 사기 사건이 동일한 내부 서비스 공급자를 통해 발생한다고 가정합니다. 모델이 선택하는 것은 간단합니다. IP-관련 변수에 대한 중요성이 높은 "완벽한" 모델을 반환합니다. IP.

단순한 사기 패턴이 항상 데이터 문제를 나타내는 것은 아닙니다. 비즈니스의 사기 수법을 포착하기 쉽다는 것은 사실일 수 있습니다. 그러나 결론을 내리기 전에 모델 교육에 사용된 레이블이 정확한지, 모델링 데이터가 가능한 한 많은 사기 패턴을 포함하는지 확인해야 합니다. 예를 들어 특정 애플리케이션의 모든 애플리케이션에 레이블을 지정하는 것과 같은 규칙에 따라 사기 이벤트에 레이블을 지정하는 경우 BILLING_ZIP ...을 더한 PRODUCT_CATEGORY 사기인 모델은 규칙을 시뮬레이션하고 높은 AUC를 달성하여 사기를 쉽게 포착할 수 있습니다.

다음을 사용하여 각 기능의 다양한 범주 또는 빈에 대한 레이블 분포를 확인할 수 있습니다. 데이터 프로파일러. 예를 들어, 대부분의 사기 사건이 하나 또는 몇 개의 제품 범주에서 발생하는 것을 관찰한 경우 단순한 사기 패턴의 지표일 수 있으며 데이터 수집 또는 프로세스 실수가 아닌지 확인해야 합니다. 기능이 다음과 같으면 CUSTOMER_ID, 모델 교육에서 기능을 제외해야 합니다.

다음 예는 다양한 범주의 레이블 분포를 보여줍니다. product_category. 모든 사기는 두 가지 제품 범주에서 발생합니다.

부적절한 데이터 샘플링

데이터의 일부만 샘플링하여 Amazon Fraud Detector로 보낸 경우 부적절한 데이터 샘플링이 발생할 수 있습니다. 데이터가 제대로 샘플링되지 않고 프로덕션 트래픽을 나타내지 않으면 보고된 모델 성능이 부정확하고 모델이 프로덕션 예측에 쓸모가 없을 수 있습니다. 예를 들어, 모델링 데이터의 모든 사기 사건이 아시아에서 샘플링되고 모든 적법한 사건이 미국에서 샘플링된 경우 모델은 다음을 기반으로 사기와 합법을 구분하는 방법을 학습할 수 있습니다. BILLING_COUNTRY. 이 경우 모델은 다른 모집단에 적용하기에는 일반적이지 않습니다.

일반적으로 샘플링 없이 모든 최신 이벤트를 보내는 것이 좋습니다. 데이터 크기와 사기율을 기반으로 Amazon Fraud Detector는 모델 교육 전에 샘플링을 수행합니다. 데이터가 너무 커서(100GB 이상) 하위 집합만 샘플링하여 보내기로 결정한 경우 데이터를 무작위로 샘플링하고 샘플이 전체 모집단을 대표하는지 확인해야 합니다. TFI의 경우 엔터티별로 데이터를 샘플링해야 합니다. 즉, 하나의 엔터티가 샘플링되는 경우 엔터티 수준 집계가 올바르게 계산되도록 모든 기록을 포함해야 합니다. 데이터의 하위 집합만 Amazon Fraud Detector로 보내는 경우 엔터티의 이전 이벤트가 전송되지 않으면 추론 중 실시간 집계가 정확하지 않을 수 있습니다.

또 다른 부적절한 데이터 샘플링은 하루의 데이터와 같은 짧은 기간의 데이터만 사용하여 모델을 구축하는 것일 수 있습니다. 특히 비즈니스 또는 사기 공격에 계절성이 있는 경우 데이터가 편향될 수 있습니다. 사기 유형의 다양성을 보장하기 위해 일반적으로 모델링에 최소 2주기(예: 2주 또는 XNUMX개월) 분량의 데이터를 포함하는 것이 좋습니다.

결론

모든 잠재적인 문제를 진단하고 해결한 후에는 유용한 Amazon Fraud Detector 모델을 얻고 성능에 대해 확신해야 합니다. 다음 단계에서는 모델과 비즈니스 규칙으로 감지기를 만들 수 있습니다., 그리고 섀도우 모드 평가를 위해 프로덕션에 배포할 준비를 합니다.

충수

모델 훈련을 위해 변수를 제외하는 방법

심층 분석 후 가변 누출 대상 정보를 식별하고 모델 교육에서 제외하려고 할 수 있습니다. 다음 단계를 완료하여 원하지 않는 변수를 제외하고 모델 버전을 다시 학습시킬 수 있습니다.

Amazon Fraud Detector 콘솔의 탐색 창에서 다음을 선택합니다. 모델.
에 모델 페이지에서 재학습할 모델을 선택합니다.
에 행위 메뉴, 선택 새 버전 학습.
사용하려는 날짜 범위를 선택하고 다음 보기.
에 교육 구성 페이지에서 모델 교육에 사용하지 않으려는 변수를 선택 취소합니다.
사기 레이블 및 적법한 레이블을 지정하고 Amazon Fraud Detector에서 레이블이 지정되지 않은 이벤트를 사용하는 방법을 지정한 다음 선택합니다. 다음 보기.
모델 구성을 검토하고 선택 모델 생성 및 학습.

이벤트 변수 유형을 변경하는 방법

변수는 사기 방지에 사용되는 데이터 요소를 나타냅니다. Amazon Fraud Detector에서 모든 변수는 전역적이며 모든 이벤트 및 모델에서 공유됩니다. 즉, 하나의 변수를 여러 이벤트에서 사용할 수 있습니다. 예를 들어, IP는 로그인 이벤트와 연관될 수 있고 트랜잭션 이벤트와 연관될 수도 있습니다. 당연히 Amazon Fraud Detector는 변수가 생성되면 변수 유형과 데이터 유형을 잠급니다. 기존 변수를 삭제하려면 먼저 연결된 모든 이벤트 유형 및 모델을 삭제해야 합니다. Amazon Fraud Detector로 이동하여 특정 변수와 연결된 리소스를 확인할 수 있습니다. 변수 탐색 창에서 변수 이름을 선택하고 관련 리소스.

변수 및 모든 관련 이벤트 유형 삭제

변수를 삭제하려면 다음 단계를 완료하십시오.

Amazon Fraud Detector 콘솔의 탐색 창에서 다음을 선택합니다. 변수.
삭제할 변수를 선택합니다.
왼쪽 메뉴에서 관련 리소스 이 변수를 사용하는 모든 이벤트 유형의 목록을 보려면
변수를 삭제하기 전에 관련 이벤트 유형을 삭제해야 합니다.
목록에서 이벤트 유형을 선택하여 연결된 이벤트 유형 페이지로 이동합니다.
왼쪽 메뉴에서 저장된 이벤트 이 이벤트 유형에 데이터가 저장되어 있는지 확인합니다.
Amazon Fraud Detector에 저장된 이벤트가 있는 경우 다음을 선택합니다. 저장된 이벤트 삭제 저장된 이벤트를 삭제합니다.
삭제 작업이 완료되면 "이 이벤트 유형에 대해 저장된 이벤트가 성공적으로 삭제되었습니다"라는 메시지가 나타납니다.
왼쪽 메뉴에서 관련 리소스.
감지기 및 모델이 이 이벤트 유형과 연결된 경우 먼저 해당 리소스를 삭제해야 합니다.
감지기가 연결된 경우 다음 단계를 완료하여 연결된 모든 감지기를 삭제합니다.
1. 탐지기를 선택하여 감지기 세부 정보 페이지.
2. . 모델 버전 창에서 감지기의 버전을 선택합니다.
3. 감지기 버전 페이지에서 다음을 선택합니다. 행위.
4. 감지기 버전이 활성화되어 있으면 다음을 선택하십시오. 비활성화선택한다. 다른 버전으로 교체하지 않고 이 감지기 버전을 비활성화합니다., 선택 감지기 버전을 비활성화합니다.
5. 감지기 버전이 비활성화된 후 다음을 선택합니다. 행위 그리고 ..
6. 모든 감지기 버전을 삭제하려면 이 단계를 반복하십시오.
7. 에 감지기 세부 정보 페이지에서 선택 관련 규칙.
8. 삭제할 규칙을 선택합니다.
9. 왼쪽 메뉴에서 행위 과 규칙 버전 삭제.
10. 확인할 규칙 이름을 입력하고 선택합니다. 버전 삭제.
11. 연결된 모든 규칙을 삭제하려면 이 단계를 반복합니다.
12. 모든 감지기 버전 및 관련 규칙이 삭제된 후 감지기 세부 정보 페이지에서 선택 행위, 선택 감지기 삭제.
13. 탐지기의 이름을 입력하고 선택하십시오 감지기 삭제.
14. 다음 감지기를 삭제하려면 이 단계를 반복하십시오.
이벤트 유형과 연관된 모델이 있는 경우 다음 단계를 완료하여 모델을 삭제하십시오.
1. 모델 이름을 선택합니다.
2. . 모델 버전 창에서 버전을 선택합니다.
3. 모델 상태가 Active선택한다. 행위 과 모델 버전 배포 취소.
4. 엔터 버튼 undeploy 확인하고 선택하기 위해 모델 버전 배포 취소.
  상태가 다음으로 변경됩니다. Undeploying. 프로세스를 완료하는 데 몇 분이 걸립니다.
5. 상태가 된 후 Ready to deploy, 작업 및 삭제를 선택합니다.
6. 모든 모델 버전을 삭제하려면 이 단계를 반복합니다.
7. 모델 세부 정보 페이지에서 작업 및 모델 삭제를 선택합니다.
8. 모델 이름을 입력하고 모델 삭제를 선택합니다.
9. 다음 모델을 삭제하려면 이 단계를 반복합니다.
연결된 모든 감지기 및 모델이 삭제된 후 다음을 선택합니다. 행위 과 이벤트 유형 삭제 를 시청하여 이에 대해 더 많은 정보를 얻을 수 있습니다. 이벤트 세부 정보 페이지.
이벤트 유형의 이름을 입력하고 선택하십시오. 이벤트 유형 삭제.
탐색 창에서 변수, 삭제할 변수를 선택합니다.
변수와 연관된 모든 이벤트 유형을 삭제하려면 이전 단계를 반복하십시오.
에 변수 세부정보 페이지에서 선택 행위 과 삭제합니다.
변수 이름을 입력하고 선택 변수 삭제.

올바른 변수 유형으로 새 변수 생성

Amazon Fraud Detector에서 변수 및 모든 관련 이벤트 유형, 저장된 이벤트, 모델 및 감지기를 삭제한 후 동일한 이름의 새 변수를 생성하고 올바른 변수 유형에 매핑할 수 있습니다.

Amazon Fraud Detector 콘솔의 탐색 창에서 다음을 선택합니다. 변수.
왼쪽 메뉴에서 만들기.
수정하려는 변수 이름(이전에 삭제한 이름)을 입력합니다.
변경하려는 올바른 변수 유형을 선택하십시오.
왼쪽 메뉴에서 변수를 생성합니다.

데이터 업로드 및 모델 재학습

변수 유형을 업데이트한 후 데이터를 다시 업로드하고 새 모델을 훈련할 수 있습니다. 지침은 다음을 참조하십시오. 새로운 Amazon Fraud Detector 기능으로 온라인 거래 사기 탐지.

기존 이벤트 유형에 새 변수를 추가하는 방법

기존 이벤트 유형에 새 변수를 추가하려면 다음 단계를 완료하십시오.

이전 훈련 CVS 파일에 새 변수를 추가합니다.
새 교육 데이터 파일을 S3 버킷에 업로드합니다. 훈련 파일의 Amazon S3 위치를 기록해 둡니다(예: s3://bucketname/path/to/some/object.csv) 및 역할 이름.
Amazon Fraud Detector 콘솔의 탐색 창에서 다음을 선택합니다. 이벤트.
에 이벤트 유형 페이지에서 변수를 추가하려는 이벤트 유형의 이름을 선택합니다.
에 이벤트 유형 세부 정보 페이지, 선택 행위다음, 변수 추가.
$XNUMX Million 미만 이 이벤트의 변수를 정의하는 방법을 선택하십시오.선택한다. 훈련 데이터 세트에서 변수 선택.
IAM 역할에서 기존 IAM 역할을 선택하거나 Amazon S3의 데이터에 액세스할 새 역할을 생성합니다.
럭셔리 데이터 위치, 새 교육 파일의 S3 위치를 입력하고 업로드합니다.
기존 이벤트 유형에 없는 새 변수가 목록에 표시되어야 합니다.
왼쪽 메뉴에서 변수를 추가합니다.

이제 기존 이벤트 유형에 새 변수가 추가되었습니다. Amazon Fraud Detector에서 저장된 이벤트를 사용하는 경우 저장된 이벤트의 새 변수가 여전히 누락됩니다. 새 변수가 있는 교육 데이터를 Amazon Fraud Detector로 가져온 다음 새 모델 버전을 다시 교육해야 합니다. 새로운 훈련 데이터를 동일한 파일로 업로드할 때 EVENT_ID 과 EVENT_TIMESTAMP, 새 이벤트 변수는 Amazon Fraud Detector에 저장된 이전 이벤트 변수를 덮어씁니다.

저자에 관하여

줄리아 수 Amazon Fraud Detector의 연구원입니다. 그녀는 기계 학습 기술을 사용하여 고객의 문제를 해결하는 데 열정적입니다. 여가 시간에는 하이킹, 그림 그리기, 새로운 커피숍 탐험을 즐깁니다.

하오저우 Amazon Fraud Detector의 연구원입니다. 그는 미국 노스웨스턴 대학교에서 전기 공학 박사 학위를 취득했습니다. 그는 사기 및 남용을 방지하기 위해 기계 학습 기술을 적용하는 데 열정적입니다.

아비섹 라비 Amazon Fraud Detector의 수석 제품 관리자입니다. 그는 기술 역량을 활용하여 고객을 기쁘게 하는 제품을 만드는 데 열정을 쏟고 있습니다.

타임 스탬프 : ２０２３년 ６월 ２８일

타임 스탬프 : 29년 2024월 XNUMX일