Amazon SageMaker에서 기계 학습을 사용하여 사기 거래 감지

플라톤에 의해 재발행

팔로워 : 0

기업은 악의적인 사용자와 사기 거래로 인해 매년 수십억 달러의 손실을 입을 수 있습니다. 점점 더 많은 비즈니스 운영이 온라인으로 이동함에 따라 온라인 시스템의 사기 및 남용도 증가하고 있습니다. 온라인 사기를 방지하기 위해 많은 기업에서 규칙 기반 사기 탐지 시스템을 사용하고 있습니다.

그러나 전통적인 사기 탐지 시스템은 전문가가 손으로 만든 일련의 규칙과 필터에 의존합니다. 필터는 종종 부서지기 쉽고 규칙은 사기 신호의 전체 스펙트럼을 포착하지 못할 수 있습니다. 또한 사기 행위가 계속 진화하고 있지만 사전 정의된 규칙 및 필터의 정적 특성으로 인해 기존의 사기 탐지 시스템을 효과적으로 유지하고 개선하기가 어렵습니다.

이 게시물에서는 기계 학습(ML)을 사용하여 동적, 자체 개선 및 유지 관리가 가능한 신용 카드 사기 탐지 시스템을 구축하는 방법을 보여줍니다. 아마존 세이지 메이커.

또는 코드를 작성하지 않고 맞춤형 사기 탐지 모델을 구축할 수 있는 완전 관리형 서비스를 찾고 있다면 다음을 확인하는 것이 좋습니다. 아마존 사기 탐지기. Amazon Fraud Detector를 사용하면 ML 경험이 없는 고객이 AWS 및 Amazon.com의 20년 이상의 사기 탐지 전문 지식을 활용하여 데이터에 맞게 사용자 지정된 사기 탐지 모델 구축을 자동화할 수 있습니다.

솔루션 개요

이 솔루션은 SageMaker를 사용하여 신용 카드 사기 탐지 시스템의 핵심을 구축합니다. 알고리즘을 사용하여 감독되지 않은 이상 감지 모델을 학습하는 것으로 시작합니다. 랜덤 컷 포레스트(RCF). 그런 다음 알고리즘을 사용하여 두 개의 지도 분류 모델을 훈련합니다. XGBoost, 하나는 기준 모델로, 다른 하나는 예측을 위해 서로 다른 전략을 사용하여 데이터의 극심한 클래스 불균형을 해결합니다. 마지막으로 최적의 XGBoost 모델을 학습합니다. 하이퍼 파라미터 최적화 (HPO) 모델 성능을 더욱 향상시킵니다.

샘플 데이터 세트의 경우 익명의 공개 신용 카드 거래를 사용합니다. 데이터 세트 의 일부로 원래 출시된 연구 월드라인과 콜라보레이션 ULB 머신러닝 그룹 (Université Libre de Bruxelles). 연습에서는 자체 데이터를 사용하도록 솔루션을 사용자 지정하는 방법도 논의합니다.

솔루션의 출력은 다음과 같습니다.

감독되지 않은 세이지메이커 RCF 모델. 모델은 각 트랜잭션에 대한 이상 점수를 출력합니다. 낮은 점수 값은 트랜잭션이 정상(비사기성)으로 간주됨을 나타냅니다. 값이 높으면 거래가 사기임을 나타냅니다. 낮음과 높음의 정의는 응용 프로그램에 따라 다르지만 일반적인 관행에 따르면 평균 점수에서 XNUMX 표준 편차를 초과하는 점수는 비정상적인 것으로 간주됩니다.
감독 세이지메이커 XGBoost 매우 불균형한 데이터 문제를 해결하기 위해 내장된 가중치 스키마를 사용하여 훈련된 모델입니다.
다음을 사용하여 훈련된 감독 SageMaker XGBoost 모델 종합적 소수자 오버샘플링 기법 (스모트).
HPO로 훈련된 SageMaker XGBoost 모델.
각 거래가 사기일 가능성에 대한 예측. 트랜잭션의 예상 확률이 임계값을 초과하면 사기로 분류됩니다.

기존 비즈니스 인프라에서 이 솔루션을 사용하는 방법을 보여주기 위해 다음을 사용하여 배포된 모델 엔드포인트에 REST API 호출을 수행하는 예도 포함됩니다. AWS 람다 RCF 및 XGBoost 모델을 모두 트리거합니다.

다음 다이어그램은 솔루션 아키텍처를 보여줍니다.

사전 조건

자신의 계정에서 솔루션을 시험해 보려면 다음이 준비되어 있는지 확인하십시오.

Studio 인스턴스가 준비되면 Studio를 시작하고 JumpStart에 액세스할 수 있습니다. JumpStart 솔루션은 SageMaker 노트북 인스턴스에서 사용할 수 없으며 SageMaker API 또는 AWS 명령 줄 인터페이스 (AWS CLI).

솔루션 시작

솔루션을 시작하려면 다음 단계를 완료하십시오.

에서 JumpStart 시작 관리자를 사용하여 JumpStart를 엽니다. 시작하기 섹션 또는 왼쪽 사이드바에서 JumpStart 아이콘을 선택합니다.
$XNUMX Million 미만 솔루션선택한다. 악의적인 사용자 및 거래 감지 다른 Studio 탭에서 솔루션을 엽니다.
솔루션 탭에서 실행 솔루션을 시작합니다.

솔루션 리소스가 프로비저닝되고 배포 진행률을 보여주는 다른 탭이 열립니다. 배포가 완료되면 노트북 열기 버튼이 나타납니다.
왼쪽 메뉴에서 노트북 열기 Studio에서 솔루션 노트북을 엽니다.

데이터 조사 및 처리

기본 데이터 세트에는 숫자 기능만 포함됩니다. 원래 기능이 다음을 사용하여 변환되었기 때문입니다. 주성분 분석(PCA)) 사용자의 개인 정보를 보호합니다. 결과적으로 데이터 세트에는 28개의 PCA 구성 요소(V1–V28)와 변환되지 않은 두 가지 기능(Amount 및 Time)이 포함됩니다. Amount는 트랜잭션 금액을 나타내며 Time은 데이터의 트랜잭션과 첫 번째 트랜잭션 사이의 경과 시간(초)입니다.

Class 열은 거래가 사기인지 여부에 해당합니다.

전체 284,807개의 예 중 492개(0.173%)만 사기이기 때문에 대다수가 사기가 아님을 알 수 있습니다. 이것은 사기 탐지 시나리오에서 흔히 볼 수 있는 극단적인 클래스 불균형의 경우입니다.

그런 다음 로드 및 교육을 위해 데이터를 준비합니다. 우리는 데이터를 훈련 세트와 테스트 세트로 분할하고 전자를 사용하여 훈련하고 후자를 사용하여 모델의 성능을 평가합니다. 클래스 불균형을 완화하기 위해 기술을 적용하기 전에 데이터를 분할하는 것이 중요합니다. 그렇지 않으면 테스트 세트의 정보가 기차 세트로 누출되어 모델의 성능이 저하될 수 있습니다.

자체 교육 데이터를 가져오려면 CSV 형식의 테이블 형식 데이터인지 확인하고 데이터를 아마존 단순 스토리지 서비스 (Amazon S3) 버킷을 만들고 노트북 코드에서 S3 객체 경로를 편집합니다.

데이터에 숫자가 아닌 값이 있는 범주형 열이 포함된 경우 이러한 값을 원-핫 인코딩해야 합니다(예: sklearn의 OneHotEncoder) XGBoost 알고리즘은 숫자 데이터만 지원하기 때문입니다.

비지도 랜덤 컷 포레스트 모델 훈련

사기 탐지 시나리오에서는 일반적으로 레이블이 지정된 예가 거의 없으며 사기 레이블을 지정하는 데 많은 시간과 노력이 소요될 수 있습니다. 따라서 레이블이 지정되지 않은 데이터에서도 정보를 추출하고자 합니다. 우리는 사기 탐지 데이터 세트에서 흔히 볼 수 있는 높은 데이터 불균형을 활용하여 이상 탐지 알고리즘을 사용하여 이를 수행합니다.

이상 감지는 비지도 학습의 한 형태로 기능 특성에만 기반하여 이상 사례를 식별하려고 합니다. Random Cut Forest는 정확하고 확장 가능한 최첨단 이상 탐지 알고리즘입니다. 각 데이터 예에서 RCF는 이상 점수를 연결합니다.

SageMaker 내장 RCF 알고리즘을 사용하여 훈련 데이터 세트에서 이상 감지 모델을 훈련한 다음 테스트 데이터 세트에서 예측을 수행합니다.

먼저 긍정적인 예와 부정적인 예의 수가 상당히 다르기 때문에 긍정적(사기) 및 부정적(비사기) 예에 대해 예측된 이상 점수를 별도로 조사하고 표시합니다. 우리는 긍정적인(사기성) 예제가 상대적으로 높은 비정상 점수를 갖고 부정적인(비사기성) 예제가 낮은 비정상 점수를 가질 것으로 예상합니다. 히스토그램에서 다음 패턴을 볼 수 있습니다.

긍정적인 예(왼쪽 히스토그램)의 거의 절반은 이상 점수가 0.9보다 높은 반면 대부분의 부정적인 예(오른쪽 히스토그램)는 0.85보다 낮은 이상 점수를 가집니다.
비지도 학습 알고리즘 RCF는 사기 및 비 사기 예를 정확하게 식별하는 데 한계가 있습니다. 레이블 정보가 사용되지 않기 때문입니다. 레이블 정보를 수집하고 이후 단계에서 지도 학습 알고리즘을 사용하여 이 문제를 해결합니다.

그런 다음 이상 점수를 기반으로 각 테스트 예제를 긍정적(사기) 또는 부정적(비사기)으로 분류하는 보다 실제적인 시나리오를 가정합니다. 분류를 위해 1.0의 컷오프 점수(히스토그램에 표시된 패턴을 기반으로 함)를 선택하여 다음과 같이 모든 테스트 예에 대한 점수 히스토그램을 플로팅합니다. 특히, 예시의 변칙 점수가 1.0 이하이면 부정(비 사기)으로 분류됩니다. 그렇지 않으면 예가 긍정적(사기)으로 분류됩니다.

마지막으로 분류 결과를 정답 레이블과 비교하여 평가 메트릭을 계산합니다. 데이터 세트가 불균형하기 때문에 평가 메트릭을 사용합니다. 균형 잡힌 정확도, 코헨의 카파 점수, F1 점수및 ROC AUC, 데이터에서 각 클래스의 빈도를 고려하기 때문입니다. 이러한 모든 메트릭에 대해 값이 클수록 예측 성능이 더 우수함을 나타냅니다. 이 단계에서는 아직 ROC AUC를 계산할 수 없습니다. 각 예에 대한 RCF 모델의 긍정 및 부정 클래스에 대한 예상 확률이 없기 때문입니다. 지도 학습 알고리즘을 사용하여 이후 단계에서 이 메트릭을 계산합니다.

.	RCF
균형 잡힌 정확도	0.560023
코헨의 카파	0.003917
F1	0.007082
ROC AUC	-

이 단계에서 우리는 비지도 모델이 사기 사례와 상관관계가 있는 더 높은 비정상 점수와 함께 이미 클래스 간에 일부 분리를 달성할 수 있음을 알 수 있습니다.

내장된 가중치 스키마로 XGBoost 모델 훈련

적절한 양의 레이블이 지정된 훈련 데이터를 수집한 후 지도 학습 알고리즘을 사용하여 기능과 클래스 간의 관계를 찾을 수 있습니다. XGBoost 알고리즘은 입증된 실적이 있고 확장성이 뛰어나며 누락된 데이터를 처리할 수 있기 때문에 선택합니다. 이번에는 데이터 불균형을 처리해야 합니다. 그렇지 않으면 대다수 클래스(비 사기 또는 부정적인 예)가 학습을 지배할 것입니다.

SageMaker 내장 XGBoost 알고리즘 컨테이너를 사용하여 첫 번째 지도 모델을 훈련하고 배포합니다. 이것이 우리의 기본 모델입니다. 데이터 불균형을 처리하기 위해 하이퍼파라미터를 사용합니다. scale_pos_weight, 이는 네거티브 클래스 예제에 대해 포지티브 클래스 예제의 가중치를 조정합니다. 데이터 세트가 심하게 치우쳐 있기 때문에 이 하이퍼파라미터를 보수적인 값으로 설정합니다. sqrt(num_nonfraud/num_fraud).

다음과 같이 모델을 학습하고 배포합니다.

SageMaker XGBoost 컨테이너 URI를 검색합니다.
데이터 불균형을 처리하는 언급한 것을 포함하여 모델 훈련에 사용할 하이퍼파라미터를 설정합니다. scale_pos_weight.
XGBoost estimator를 만들고 우리의 훈련 데이터 세트로 훈련시키십시오.
훈련된 XGBoost 모델을 SageMaker 관리형 엔드포인트에 배포합니다.
테스트 데이터 세트로 이 베이스라인 모델을 평가하십시오.

그런 다음 마지막 단계에서 언급한 것과 동일한 네 가지 측정항목으로 모델을 평가합니다. 이번에는 ROC AUC 메트릭도 계산할 수 있습니다.

.	RCF	XGBoost
균형 잡힌 정확도	0.560023	0.847685
코헨의 카파	0.003917	0.743801
F1	0.007082	0.744186
ROC AUC	-	0.983515

가중치 스키마를 사용하여 지도 학습 방법 XGBoost(하이퍼 매개변수 사용 scale_pos_weight) 비지도 학습 방법 RCF보다 훨씬 더 나은 성능을 달성합니다. 그러나 성능을 개선할 여지는 여전히 있습니다. 특히 Cohen's Kappa 점수를 0.8 이상으로 높이면 일반적으로 매우 유리합니다.

단일 값 메트릭 외에도 클래스별 성능을 나타내는 메트릭을 살펴보는 것도 유용합니다. 예를 들어, 혼동 행렬, 클래스별 정밀도, 재현율 및 F1 점수는 모델 성능에 대한 추가 정보를 제공할 수 있습니다.

.	정확	소환	f1-점수	SUPPORT
사기가 아닌	1.00	1.00	1.00	28435
사기	0.80	0.70	0.74	46

Lambda를 통해 엔드포인트로 테스트 트래픽을 계속 전송

프로덕션 시스템에서 모델을 사용하는 방법을 보여주기 위해 다음을 사용하여 REST API를 구축했습니다. 아마존 API 게이트웨이 그리고 람다 함수. 클라이언트 애플리케이션이 REST API에 HTTP 추론 요청을 보내면 Lambda 함수가 트리거되고 RCF 및 XGBoost 모델 엔드포인트를 호출하고 모델에서 예측을 반환합니다. Lambda 콘솔에서 Lambda 함수 코드를 읽고 호출을 모니터링할 수 있습니다.

또한 테스트 데이터를 입력 데이터로 사용하여 REST API에 HTTP 추론 요청을 하는 Python 스크립트를 만들었습니다. 이 작업이 어떻게 수행되었는지 확인하려면 generate_endpoint_traffic.py 솔루션의 소스 코드에 있는 파일입니다. 예측 출력은 다음을 통해 S3 버킷에 기록됩니다. 아마존 키네 시스 데이터 파이어 호스 배달 스트림. Kinesis Data Firehose 콘솔에서 대상 S3 버킷 이름을 찾고 S3 버킷에서 예측 결과를 확인할 수 있습니다.

오버샘플링 기법 SMOTE로 XGBoost 모델 학습

이제 XGBoost를 사용하는 기본 모델이 있으므로 불균형 문제를 위해 특별히 설계된 샘플링 기술이 모델의 성능을 향상시킬 수 있는지 확인할 수 있습니다. 우리는 사용 합성 소수자 오버샘플링 (SMOTE), 기존 데이터 포인트 사이에 새 데이터 포인트를 보간하여 소수 클래스를 오버샘플링합니다.

단계는 다음과 같습니다.

SMOTE를 사용하여 기차 데이터 세트의 소수 클래스(사기 클래스)를 오버샘플링합니다. SMOTE는 약 0.17–50%에서 소수 클래스를 오버샘플링합니다. 이것은 소수 클래스의 극단적인 오버샘플링의 경우입니다. 대안은 모든 소수 클래스 샘플에 대해 하나의 소수 클래스 샘플을 갖는 것과 같이 더 작은 리샘플링 비율을 사용하는 것입니다. sqrt(non_fraud/fraud) 다수 표본 또는 고급 리샘플링 기술을 사용합니다. 더 많은 오버샘플링 옵션은 다음을 참조하십시오. 오버 샘플링 샘플러 비교.
scale_pos_weight가 제거되고 다른 하이퍼파라미터가 기준 XGBoost 모델을 훈련할 때와 동일하게 유지되도록 두 번째 XGBoost 훈련을 위한 하이퍼파라미터를 정의합니다. 이미 SMOTE로 처리했기 때문에 이 하이퍼파라미터로 데이터 불균형을 더 이상 처리할 필요가 없습니다.
SMOTE 처리된 훈련 데이터 세트에서 새로운 하이퍼파라미터로 두 번째 XGBoost 모델을 훈련합니다.
새 XGBoost 모델을 SageMaker 관리형 엔드포인트에 배포합니다.
테스트 데이터 세트로 새 모델을 평가합니다.

새 모델을 평가할 때 SMOTE를 사용하면 XGBoost가 균형 정확도에서 더 나은 성능을 달성하지만 Cohen의 Kappa 및 F1 점수에서는 그렇지 않음을 알 수 있습니다. 그 이유는 SMOTE가 사기 클래스를 너무 많이 샘플링하여 비 사기 사례와 기능 공간에서 겹침이 증가했기 때문입니다. Cohen의 Kappa는 균형 잡힌 정확도보다 거짓 긍정에 더 많은 가중치를 주기 때문에 사기 사례의 정밀도 및 F1 점수와 마찬가지로 메트릭이 크게 떨어집니다.

.	RCF	XGBoost	XGBoost 스모트
균형 잡힌 정확도	0.560023	0.847685	0.912657
코헨의 카파	0.003917	0.743801	0.716463
F1	0.007082	0.744186	0.716981
ROC AUC	-	0.983515	0.967497

그러나 분류 임계값을 조정하여 메트릭 간의 균형을 다시 가져올 수 있습니다. 지금까지 데이터 포인트가 사기인지 여부를 표시하기 위해 임계값으로 0.5를 사용했습니다. 0.1–0.9의 다양한 임계값을 실험한 후 Cohen's Kappa가 임계값과 함께 계속 증가하고 균형 정확도가 크게 손실되지 않음을 알 수 있습니다.

이것은 우리 모델에 유용한 보정을 추가합니다. 사기성 사례(거짓음성)를 놓치지 않는 것이 우선순위인 경우 낮은 임계값을 사용하거나 임계값을 높여 거짓 긍정의 수를 최소화할 수 있습니다.

HPO로 최적의 XGBoost 모델 훈련

이 단계에서는 하이퍼파라미터 최적화로 세 번째 XGBoost 모델을 훈련하여 모델 성능을 개선하는 방법을 보여줍니다. 복잡한 ML 시스템을 구축할 때 하이퍼파라미터 값의 가능한 모든 조합을 수동으로 탐색하는 것은 비현실적입니다. SageMaker의 HPO 기능은 사용자를 대신하여 다양한 모델을 시도함으로써 생산성을 가속화할 수 있습니다. 지정한 범위 내에서 가장 유망한 하이퍼파라미터 값 조합에 초점을 맞춰 최적의 모델을 자동으로 찾습니다.

HPO 프로세스에는 검증 데이터 세트가 필요하므로 먼저 다음을 사용하여 훈련 데이터를 훈련 데이터와 검증 데이터 세트로 분할합니다. 계층화 된 샘플링. 데이터 불균형 문제를 해결하기 위해 XGBoost의 가중치 스키마를 다시 사용하여 설정합니다. scale_pos_weight 초매개변수 sqrt(num_nonfraud/num_fraud).

SageMaker 내장 XGBoost 알고리즘 컨테이너를 사용하여 XGBoost 추정기를 만들고 실험하려는 객관적인 평가 메트릭과 하이퍼파라미터 범위를 지정합니다. 이것들로 우리는 다음을 만듭니다. 하이퍼 파라미터 튜너 여러 모델을 병렬로 훈련하여 최적의 하이퍼파라미터 조합을 찾는 HPO 튜닝 작업을 시작합니다.

튜닝 작업이 완료되면 분석 보고서를 보고 각 모델의 하이퍼파라미터, 훈련 작업 정보 및 객관적인 평가 지표에 대한 성능을 검사할 수 있습니다.

그런 다음 최고의 모델을 배포하고 테스트 데이터 세트로 평가합니다.

동일한 테스트 데이터에 대한 모든 모델 성능 평가 및 비교

이제 RCF, XGBoost 기준선, SMOTE 포함 XGBoost 및 HPO 포함 XGBoost의 네 가지 모델 모두에서 평가 결과를 얻었습니다. 그들의 성능을 비교해보자.

.	RCF	XGBoost	SMOTE가 포함된 XGBoost	HPO가 있는 XGBoost
균형 잡힌 정확도	0.560023	0.847685	0.912657	0.902156
코헨의 카파	0.003917	0.743801	0.716463	0.880778
F1	0.007082	0.744186	0.716981	0.880952
ROC AUC	-	0.983515	0.967497	0.981564

HPO를 사용한 XGBoost가 SMOTE 방식보다 훨씬 더 나은 성능을 달성함을 알 수 있습니다. 특히 Cohen's Kappa Score와 F1이 0.8 이상으로 최적의 모델 성능을 나타냅니다.

정리

이 솔루션을 마치면 원치 않는 AWS 리소스를 모두 삭제하여 의도하지 않은 요금이 발생하지 않도록 하십시오. 에서 솔루션 삭제 솔루션 탭의 섹션에서 모든 리소스 삭제 이 솔루션을 시작할 때 자동으로 생성된 리소스를 삭제합니다.

또는 다음을 사용할 수 있습니다. AWS 클라우드 포메이션 솔루션 및 노트북에서 자동으로 생성된 모든 표준 리소스를 삭제합니다. 이 접근 방식을 사용하려면 AWS CloudFormation 콘솔에서 설명에 Fraud-detection-using-machine-learning이 포함된 CloudFormation 스택을 찾아 삭제합니다. 이것은 상위 스택이며 이 스택을 삭제하도록 선택하면 중첩된 스택이 자동으로 삭제됩니다.

어느 방법을 사용하든 이 노트북에서 생성했을 수 있는 추가 리소스를 수동으로 삭제해야 합니다. 몇 가지 예에는 추가 S3 버킷(솔루션의 기본 버킷 추가), 추가 SageMaker 엔드포인트(사용자 지정 이름 사용) 및 추가 Amazon Elastic Container Registry (Amazon ECR) 리포지토리.

결론

이 게시물에서는 SageMaker와 함께 ML을 사용하여 동적이며 자체 개선되며 유지 관리 가능한 신용 카드 사기 탐지 시스템의 핵심을 구축하는 방법을 보여주었습니다. 우리는 비지도 RCF 이상 탐지 모델, 기준으로 지도 XGBoost 모델, 데이터 불균형 문제를 해결하기 위해 SMOTE를 사용하는 또 다른 지도 XGBoost 모델, HPO로 최적화된 최종 XGBoost 모델을 구축, 훈련 및 배포했습니다. 데이터 불균형을 처리하고 솔루션에서 자체 데이터를 사용하는 방법에 대해 논의했습니다. 또한 기존 비즈니스 인프라에서 시스템을 사용하는 방법을 보여주기 위해 API Gateway 및 Lambda와 함께 예제 REST API 구현을 포함했습니다.

직접 사용하려면 다음을 엽니다. SageMaker 스튜디오 그리고 JumpStart 솔루션을 시작합니다. 솔루션에 대해 자세히 알아보려면 해당 솔루션을 확인하십시오. GitHub 저장소.

저자에 관하여

셴 샤오리 Amazon Web Services의 솔루션 설계자이자 기계 학습 기술 필드 커뮤니티(TFC) 회원입니다. 그녀는 고객이 클라우드에서 설계하고 AWS 서비스를 활용하여 비즈니스 가치를 도출하도록 돕는 데 중점을 두고 있습니다. AWS에 합류하기 전에는 클라우드에서 데이터 집약적인 분산 시스템을 구축하는 기술 책임자이자 수석 풀 스택 엔지니어였습니다.

황신 박사 Amazon SageMaker JumpStart 및 Amazon SageMaker 내장 알고리즘의 응용 과학자입니다. 그는 확장 가능한 기계 학습 알고리즘 개발에 중점을 둡니다. 그의 연구 관심 분야는 자연어 처리, 표 형식 데이터에 대한 설명 가능한 딥 러닝, 비모수적 시공간 클러스터링에 대한 강력한 분석입니다. 그는 ACL, ICDM, KDD 컨퍼런스 및 Royal Statistical Society: Series A 저널에 많은 논문을 발표했습니다.

베단트 자이나교 수석 AI/ML 전문가 솔루션 아키텍트로서 고객이 AWS의 기계 학습 에코시스템에서 가치를 도출할 수 있도록 지원합니다. AWS에 합류하기 전에 Vedant는 Databricks, Hortonworks(현재 Cloudera) 및 JP Morgan Chase와 같은 다양한 회사에서 ML/데이터 과학 전문 직위를 역임했습니다. Vedant는 그의 일 외에도 음악을 만들고 과학을 사용하여 의미 있는 삶을 영위하고 전 세계의 맛있는 채식 요리를 탐구하는 데 열정적입니다.

타임 스탬프 : 2022 년 10 월 19 일2022 년 10 월 19 일

타임 스탬프 : 20년 2022월 XNUMX일

Amazon SageMaker에서 기계 학습을 사용하여 사기 거래 감지

플라톤에 의해 재발행

솔루션 개요

사전 조건

솔루션 시작

데이터 조사 및 처리

비지도 랜덤 컷 포레스트 모델 훈련

내장된 가중치 스키마로 XGBoost 모델 훈련

Lambda를 통해 엔드포인트로 테스트 트래픽을 계속 전송

오버샘플링 기법 SMOTE로 XGBoost 모델 학습

HPO로 최적의 XGBoost 모델 훈련

동일한 테스트 데이터에 대한 모든 모델 성능 평가 및 비교

정리

결론

저자에 관하여

더보기 AWS 기계 학습

XNUMX단계 Amazon Rekognition Custom Labels 모델을 사용하여 고해상도 이미지에서 결함 감지 | 아마존 웹 서비스

Amazon SageMaker 자동 모델 튜닝으로 하이퍼파라미터 최적화

Amazon SageMaker를 사용한 최대 이익을 위한 최적의 요금

Amazon SageMaker 자동 모델 조정은 이제 SageMaker 교육 인스턴스 폴백을 지원합니다.

Chefz가 Amazon Personalize로 완벽한 식사를 제공하는 방법

예약된 노트북 작업으로 Amazon SageMaker Studio 노트북 운영

Amazon Forecast를 사용하여 과거 데이터가 없는 제품에 대한 콜드 스타트 예측을 생성하여 이제 최대 45% 더 정확함

Amazon SageMaker 내장 테이블 형식 알고리즘 LightGBM, CatBoost, TabTransformer 및 AutoGluon-Tabular를 사용한 이탈 예측

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정