Amazon SageMaker Canvas를 사용하여 코드 없는 기계 학습으로 고객 이탈 예측

플라톤에 의해 재발행

팔로워 : 0

고객 행동을 이해하는 것은 오늘날 모든 비즈니스의 최우선 과제입니다. 고객이 구매하는 이유와 방법에 대한 통찰력을 얻으면 수익 증대에 도움이 될 수 있습니다. 그러나 고객을 잃는 것(고객 이탈이라고도 함)은 항상 위험하며 고객이 떠나는 이유에 대한 통찰력은 수익과 이익을 유지하는 것만큼이나 중요할 수 있습니다. 머신 러닝(ML)은 통찰력에 도움이 될 수 있지만 지금까지는 이탈을 예측하는 모델을 구축하기 위해 머신러닝 전문가가 필요했습니다.

이 게시물에서는 비즈니스 분석가가 다음을 사용하여 고객 이탈 ML 모델을 구축하는 방법을 보여줍니다. Amazon SageMaker 캔버스, 코드가 필요하지 않습니다. Canvas는 ML 경험이 필요하거나 코드 한 줄을 작성할 필요 없이 직접 모델을 구축하고 정확한 ML 예측을 생성할 수 있는 시각적 포인트 앤 클릭 인터페이스를 비즈니스 분석가에게 제공합니다.

솔루션 개요

이 게시물에서는 이동통신 사업자의 마케팅 부서에서 마케팅 분석가의 역할을 가정합니다. 우리는 이탈할 위험이 있는 고객을 식별하는 임무를 받았습니다. 우리는 서비스 사용 및 기타 고객 행동 데이터에 액세스할 수 있으며 이 데이터가 고객이 떠나는 이유를 설명하는 데 도움이 되는지 알고 싶습니다. 이탈을 설명하는 요인을 식별할 수 있다면 목표 유지 캠페인 실행과 같이 예측된 행동을 변경하기 위한 시정 조치를 취할 수 있습니다.

이를 위해 고객 사용 및 이탈에 대한 정보가 포함된 CSV 파일에 있는 데이터를 사용합니다. Canvas를 사용하여 다음 단계를 수행합니다.

이탈 데이터세트 가져오기 아마존 단순 스토리지 서비스 (아마존 S3).
이탈 모델을 학습하고 구축합니다.
모델 결과를 분석합니다.
모델에 대한 예측을 테스트합니다.

데이터 세트의 경우 합성 데이터 세트 이동통신 통신사에서. 이 샘플 데이터 세트에는 5,000개의 레코드가 포함되어 있으며 각 레코드는 21개의 속성을 사용하여 고객 프로필을 설명합니다. 속성은 다음과 같습니다.

주 정부 – 고객이 거주하는 미국 주(두 글자 약어로 표시됨) 예를 들어, OH 또는 NJ
계정 길이 – 이 계정이 활성화된 일수
지역 번호 – 고객 전화번호 지역번호 XNUMX자리
연락처 – 나머지 XNUMX자리 전화번호
국제 계획 – 고객이 국제 전화 요금제를 가지고 있는지 여부(예/아니오)
VMail 계획 – 고객에게 음성 메일 기능이 있는지 여부(예/아니오)
VMail 메시지 – 월 평균 음성 메일 메시지 수
하루 분 – 하루 동안 사용한 총 통화 시간(분)
데이 콜 – 하루 동안 걸려온 총 통화 수
당일 청구 – 주간 통화 요금 청구
이브 민스, 이브 콜, 이브 요금 – 야간 통화에 대한 청구 비용
밤 시간, 야간 통화, 야간 요금 – 야간 통화에 대한 청구 비용
국제 시간, 국제 통화, 국제 충전 – 국제전화 청구금액
CustServ 통화 – 고객 서비스에 걸려온 전화 수
휘젓다? – 고객 이탈 여부(참/거짓)

마지막 속성, Churn?는 ML 모델이 예측할 속성입니다. target 속성은 바이너리입니다. 즉, 우리 모델은 출력을 두 가지 범주 중 하나로 예측합니다(True or False).

사전 조건

다음을 가진 클라우드 관리자 AWS 계정 다음 전제 조건을 완료하려면 적절한 권한이 있어야 합니다.

배포 아마존 세이지 메이커 지침은 Amazon SageMaker 도메인에 온보딩.
캔버스를 배포합니다. 지침은 다음을 참조하세요. Amazon SageMaker Canvas 설정 및 관리(IT 관리자용).
Canvas에 대한 CORS(교차 출처 리소스 공유) 정책을 구성합니다. 지침은 다음을 참조하십시오. 사용자에게 로컬 파일 업로드 기능 제공.

고객 이탈 모델 만들기

먼저 다운로드를 해보자 변동 데이터 세트 파일을 검토하여 모든 데이터가 있는지 확인하십시오. 그런 다음 다음 단계를 완료하십시오.

에 로그인 AWS 관리 콘솔, Canvas에 액세스할 수 있는 적절한 권한이 있는 계정을 사용합니다.
Canvas 콘솔에 로그인합니다.

여기에서 데이터 세트를 관리하고 모델을 만들 수 있습니다.

왼쪽 메뉴에서 수입.

캔버스 가져오기 버튼 선택

왼쪽 메뉴에서 가이드라가 선택하고 churn.csv 파일.
왼쪽 메뉴에서 데이터 가져 오기 Canvas에 업로드합니다.

s3에서 캔버스 선택 데이터

가져오기 프로세스는 약 10초가 소요됩니다(데이터 세트 크기에 따라 다를 수 있음). 완료되면 데이터세트가 Ready 상태.

캔버스 준비 데이터세트

데이터세트의 처음 100개 행을 미리 보려면 눈 아이콘 위로 마우스를 가져갑니다.

캔버스 보기 데이터세트

데이터세트의 미리보기가 나타납니다. 여기에서 데이터가 올바른지 확인할 수 있습니다.

캔버스 검증 데이터

가져온 데이터 세트가 준비되었는지 확인한 후 모델을 생성합니다.

왼쪽 메뉴에서 새 모델.

캔버스 새 모델

churn.csv 데이터 세트를 선택하고 데이터 세트 선택.

캔버스 선택 데이터 세트

이제 빌드 모델 프로세스를 구성합니다.

럭셔리 대상 열을 선택하십시오 Churn? 열입니다.

럭셔리 모델 유형, Canvas는 이 경우 모델 유형을 자동으로 추천합니다. 2 카테고리 예측 (데이터 과학자가 이진 분류라고 부르는 것). 이것은 가능한 예측 값이 두 개뿐이므로 사용 사례에 적합합니다. True or False, 그래서 우리는 Canvas가 만든 권장 사항을 따릅니다.

캔버스 빌드 모델

이제 몇 가지 가정을 검증합니다. 다른 열에서 대상 열을 예측할 수 있는지 여부를 빠르게 확인하고 싶습니다. 모델의 예상 정확도 및 열 영향(대상 열 예측에서 각 열의 예상 중요도)을 빠르게 볼 수 있습니다..

21개 열을 모두 선택하고 모델 미리보기.

이 기능은 데이터 세트의 하위 집합을 사용하고 모델링 시 단일 패스만 사용합니다. 사용 사례의 경우 미리 보기 모델을 빌드하는 데 약 2분이 걸립니다.

캔버스 미리보기 모델

다음 스크린샷과 같이, Phone 및 State 열은 예측에 미치는 영향이 훨씬 적습니다. 텍스트 입력을 제거할 때는 예측에 기여하는 중요한 개별 범주형 기능이 포함될 수 있으므로 주의해야 합니다. 여기서 전화번호는 계정 번호와 동일하며 다른 계정의 이탈 가능성을 예측하는 데 가치가 없으며 고객의 상태는 우리 모델에 큰 영향을 미치지 않습니다.

주요 기능 중요성이 없기 때문에 이러한 열을 제거합니다.
제거한 후 Phone 및 State 열, 미리보기를 다시 실행해 보겠습니다.

다음 스크린샷과 같이 모델 정확도가 0.1% 증가했습니다. 미리보기 모델의 예상 정확도는 95.9%이며 가장 큰 영향을 미치는 열은 다음과 같습니다. Night Calls, Eve Mins및 Night Charge. 이를 통해 모델의 성능에 가장 큰 영향을 미치는 열에 대한 통찰력을 얻을 수 있습니다. 여기서 우리는 기능 선택을 할 때 주의해야 합니다. 왜냐하면 단일 기능이 모델의 결과에 극도로 영향을 미친다면 이는 다음의 주요 지표이기 때문입니다. 표적 누출, 예측 시점에는 이 기능을 사용할 수 없습니다. 이 경우 매우 유사한 영향을 나타내는 열이 거의 없으므로 모델을 계속 구축합니다.

캔버스 기능 엔지니어링 이후

Canvas는 두 가지 빌드 옵션을 제공합니다.

표준 빌드 – 최적화된 프로세스로 최고의 모델을 구축합니다. AutoML; 속도는 최고의 정확도로 교환됩니다.
빠른 빌드 – 표준 빌드에 비해 짧은 시간에 모델을 빌드합니다. 잠재적인 정확도는 속도와 교환됩니다.

이 게시물을 위해 우리는 표준 빌드 우리는 최상의 모델을 원하고 결과를 기다리는 데 추가 시간을 할애할 의향이 있기 때문입니다.

캔버스 표준 빌드

빌드 프로세스는 2~4시간이 소요될 수 있습니다. 이 시간 동안 Canvas는 수백 개의 후보 파이프라인을 테스트하여 우리에게 제시할 최상의 모델을 선택합니다. 다음 스크린샷에서 예상 빌드 시간과 진행 상황을 볼 수 있습니다.

캔버스 분석 모델

모델 성능 평가

모델 구축 프로세스가 완료되면 모델은 97.9%의 시간 동안 이탈을 예측했습니다. 이것은 괜찮아 보이지만 분석가로서 우리는 더 깊이 파고들어 모델을 기반으로 결정을 내릴 수 있는지 확인하고 싶습니다. 에 점수 탭에서 결과에 매핑된 예측의 시각적 플롯을 검토할 수 있습니다. 이를 통해 모델에 대한 더 깊은 통찰력을 얻을 수 있습니다.

Canvas는 데이터 세트를 훈련 세트와 테스트 세트로 분리합니다. 훈련 데이터 세트는 Canvas가 모델을 빌드하는 데 사용하는 데이터입니다. 테스트 세트는 모델이 새 데이터로 잘 수행되는지 확인하는 데 사용됩니다. 다음 스크린샷의 Sankey 다이어그램은 모델이 테스트 세트에서 어떻게 수행되었는지 보여줍니다. 자세한 내용은 다음을 참조하십시오. Amazon SageMaker Canvas에서 모델 성능 평가.

Sankey 다이어그램에 표시된 것보다 더 자세한 통찰력을 얻기 위해 비즈니스 분석가는 다음을 사용할 수 있습니다. 혼란 매트릭스 그들의 비즈니스 솔루션에 대한 분석. 예를 들어, 모델이 잘못된 예측을 할 가능성을 더 잘 이해하고 싶습니다. Sankey 다이어그램에서 이를 볼 수 있지만 더 많은 통찰력을 원하므로 다음을 선택합니다. 고급 메트릭. 우리는 포지티브 클래스에 특정한 다음 값을 사용하여 시각적 형식으로 모델의 성능을 표시하는 혼동 매트릭스를 제공합니다. 우리는 그들이 실제로 이탈할지 여부를 기반으로 측정하므로 긍정적 클래스는 다음과 같습니다. True 이 예에서 :

트루 포지티브(TP) - 개수 True 로 정확하게 예측된 결과 True
트루 네거티브(TN) - 개수 False 로 정확하게 예측된 결과 False
가양성(FP) - 개수 False 로 잘못 예측된 결과 True
거짓 부정(FN) - 개수 True 로 잘못 예측된 결과 False

우리는 이 매트릭스 차트를 사용하여 우리 모델이 얼마나 정확한지 뿐만 아니라 언제 그것이 틀릴지, 얼마나 자주 그것이 틀릴 수 있고 얼마나 틀릴지 결정할 수 있습니다.

캔버스 F1 매트릭스

고급 메트릭이 좋아 보입니다. 우리는 모델 결과를 신뢰할 수 있습니다. 우리는 매우 낮은 가양성 및 가음성을 봅니다. 모델이 데이터 세트의 고객이 이탈할 것이라고 생각하지만 실제로는 그렇지 않은 경우(거짓 긍정), 또는 모델이 고객이 이탈할 것이라고 생각하고 실제로 수행하는 경우(거짓 부정)입니다. 어느 쪽이든 높은 수치는 우리가 모델을 사용하여 결정을 내릴 수 있는지에 대해 더 많이 생각하게 만들 수 있습니다.

돌아 가자 살펴보기 탭에서 각 열의 영향을 검토합니다. 이 정보는 마케팅 팀이 고객 이탈을 줄이기 위한 조치로 이어지는 통찰력을 얻는 데 도움이 될 수 있습니다. 예를 들어 낮음과 높음이 모두 CustServ Calls 이탈 가능성을 높입니다. 마케팅 팀은 이러한 학습을 기반으로 고객 이탈을 방지하기 위한 조치를 취할 수 있습니다. 예를 들어 웹사이트에 대한 자세한 FAQ를 작성하여 고객 서비스 호출을 줄이고 참여를 유지할 수 있도록 FAQ에서 고객과 교육 캠페인을 실행합니다.

우리 모델은 꽤 정확해 보입니다. 우리는 직접 대화형 예측을 수행할 수 있습니다. 예측 탭에서 일괄 또는 단일(실시간) 예측. 이 예에서는 특정 열 값을 약간 변경하고 실시간 예측을 수행했습니다. Canvas는 신뢰 수준과 함께 예측 결과를 보여줍니다.

캔버스 예측 추론

다음과 같은 용도의 기존 고객이 있다고 가정해 보겠습니다. Night Mins 40이고 Eve Mins 40입니다. 우리는 예측을 실행할 수 있고 우리 모델은 이 고객이 이탈할 93.2%의 신뢰 점수를 반환합니다(True). 이제 이 고객을 유지하기 위해 프로모션 할인을 제공할 수 있습니다.

다음과 같은 용도를 가진 기존 고객이 있다고 가정해 보겠습니다. Night Mins 40이고 Eve Mins 40입니다. 우리는 예측을 실행할 수 있고 우리 모델은 이 고객이 이탈할 93.2%의 신뢰 점수를 반환합니다(True). 이제 이 고객을 유지하기 위해 프로모션 할인을 제공할 수 있습니다.

하나의 예측을 실행하는 것은 개별 가정 분석에 적합하지만 동시에 많은 레코드에 대해 예측을 실행해야 합니다. 캔버스는 할 수 있습니다 일괄 예측 실행, 이를 통해 대규모 예측을 실행할 수 있습니다.

결론

이 게시물에서는 비즈니스 분석가가 샘플 데이터를 사용하여 SageMaker Canvas로 고객 이탈 모델을 생성하는 방법을 보여주었습니다. Canvas를 사용하면 비즈니스 분석가가 정확한 ML 모델을 생성하고 코드가 없는 시각적 포인트 앤 클릭 인터페이스를 사용하여 예측을 생성할 수 있습니다. 마케팅 분석가는 이제 이 정보를 사용하여 타겟 유지 캠페인을 실행하고 새로운 캠페인 전략을 더 빠르게 테스트하여 고객 이탈을 줄일 수 있습니다.

분석가는 자신의 모델을 데이터 과학자 동료와 공유하여 이를 한 단계 더 높일 수 있습니다. 데이터 과학자는 다음에서 Canvas 모델을 볼 수 있습니다. 아마존 세이지 메이커 스튜디오여기에서 Canvas AutoML이 선택한 항목을 탐색하고, 모델 결과를 검증하고, 몇 번의 클릭으로 모델을 생산할 수도 있습니다. 이를 통해 ML 기반 가치 창출을 가속화하고 개선된 결과를 더 빠르게 확장할 수 있습니다.

Canvas 사용에 대해 자세히 알아보려면 구축, 공유, 배포: 비즈니스 분석가와 데이터 과학자가 코드 없는 ML 및 Amazon SageMaker Canvas를 사용하여 시장 출시 시간을 단축하는 방법. 코드 없는 솔루션으로 ML 모델을 만드는 방법에 대한 자세한 내용은 다음을 참조하세요. Amazon SageMaker Canvas 발표 - 비즈니스 분석가를 위한 시각적이고 코드가 없는 기계 학습 기능.

저자에 관하여

헨리 로발리노 NJ에 기반을 둔 AWS의 솔루션 아키텍트입니다. 그는 클라우드와 머신 러닝, 그리고 이들이 사회에서 할 수 있는 역할에 대해 열정적입니다. 그는 고객과 협력하여 고객이 AWS 클라우드를 사용하여 비즈니스 목표를 달성할 수 있도록 지원함으로써 이를 달성합니다. 직장 밖에서 헨리가 모피 딸 아리와 함께 여행을 하거나 야외 활동을 하는 모습을 볼 수 있습니다.

Amazon SageMaker Canvas PlatoBlockchain Data Intelligence를 사용하여 코드 없는 기계 학습으로 고객 이탈을 예측합니다. 수직 검색. 일체 포함. 왕 차오란 텍사스주 댈러스에 거주하는 AWS의 솔루션 아키텍트입니다. 그는 2016년 달라스에 있는 텍사스 대학교에서 컴퓨터 공학 석사 학위를 취득한 후 AWS에서 일하고 있습니다. Chaoran은 고객이 확장 가능하고 안전하며 비용 효율적인 애플리케이션을 구축하고 AWS 클라우드에서 비즈니스 문제를 해결할 솔루션을 찾도록 돕습니다. 직장 밖에서 Chaoran은 가족과 두 마리의 강아지 Biubiu 및 Coco와 함께 시간을 보내는 것을 좋아합니다.