탐색적 데이터 분석을 위해 Amazon SageMaker Canvas를 사용하십시오. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

탐색적 데이터 분석을 위해 Amazon SageMaker Canvas 사용

탐색적 데이터 분석(EDA)은 비즈니스 분석가가 패턴을 발견하고, 관계를 이해하고, 가정을 검증하고, 데이터의 이상을 식별하기 위해 수행하는 일반적인 작업입니다. 머신 러닝(ML)에서는 모델 구축에 들어가기 전에 먼저 데이터와 데이터의 관계를 이해하는 것이 중요합니다. 전통적인 ML 개발 주기는 때때로 몇 개월이 걸리고 고급 데이터 과학과 ML 엔지니어링 기술이 필요한 반면, 코드가 없는 ML 솔루션은 기업이 ML 솔루션을 며칠 또는 몇 시간 내에 제공하는 데 도움이 될 수 있습니다.

Amazon SageMaker 캔버스 비즈니스 분석가가 코드를 작성하거나 ML 경험이 없어도 정확한 ML 예측을 생성하는 데 도움이 되는 코드 없는 ML 도구입니다. Canvas는 사용하기 쉬운 시각적 인터페이스를 제공하여 데이터세트를 로드, 정리 및 변환한 다음 ML 모델을 구축하고 정확한 예측을 생성합니다.

이 게시물에서는 Canvas의 기본 제공 고급 시각화 덕분에 ML 모델을 구축하기 전에 데이터를 더 잘 이해하기 위해 EDA를 수행하는 방법을 안내합니다. 이러한 시각화는 데이터 세트의 기능 간의 관계를 분석하고 데이터를 더 잘 이해하는 데 도움이 됩니다. 이는 데이터와 상호 작용하고 임시 쿼리로 눈에 띄지 않을 수 있는 통찰력을 발견하는 기능을 통해 직관적으로 수행됩니다. ML 모델을 구축하고 훈련하기 전에 Canvas 내의 '데이터 시각화 도우미'를 통해 빠르게 생성할 수 있습니다.

솔루션 개요

이러한 시각화는 누락된 값을 수정하고 이상값을 대체하는 기능을 포함하여 Canvas에서 이미 제공하는 다양한 데이터 준비 및 탐색 기능을 추가합니다. 데이터 세트 필터링, 결합 및 수정 타임스탬프에서 특정 시간 값을 추출합니다. Canvas가 데이터 세트를 정리, 변환 및 준비하는 데 어떻게 도움이 되는지 자세히 알아보려면 다음을 확인하세요. 고급 변환으로 데이터 준비.

사용 사례의 경우 고객이 비즈니스에서 이탈하는 이유를 살펴보고 분석가의 관점에서 EDA가 어떻게 도움이 될 수 있는지 설명합니다. 이 게시물에서 사용하는 데이터 세트는 고객 이탈 예측을 위해 이동통신사에서 다운로드할 수 있는 합성 데이터 세트입니다(이탈.csv), 또는 실험할 자체 데이터세트를 가져옵니다. 자체 데이터세트 가져오기에 대한 지침은 다음을 참조하세요. Amazon SageMaker Canvas에서 데이터 가져오기.

사전 조건

지침을 따르십시오. Amazon SageMaker Canvas 설정을 위한 전제 조건 더 진행하기 전에.

데이터세트를 Canvas로 가져오기

샘플 데이터세트를 Canvas로 가져오려면 다음 단계를 완료하세요.

  1. Canvas에 비즈니스 사용자로 로그인.먼저 앞서 언급한 데이터세트를 로컬 컴퓨터에서 Canvas로 업로드합니다. 다음과 같은 다른 소스를 사용하려는 경우 아마존 레드 시프트, 인용하다 외부 데이터 소스에 연결.
  2. 왼쪽 메뉴에서 수입.탐색적 데이터 분석을 위해 Amazon SageMaker Canvas를 사용하십시오. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.
  3. 왼쪽 메뉴에서 가이드라가다음을 선택 컴퓨터에서 파일 선택.
  4. 데이터 세트(churn.csv)를 선택하고 데이터 가져 오기.탐색적 데이터 분석을 위해 Amazon SageMaker Canvas를 사용하십시오. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.
  5. 데이터 세트를 선택하고 모델 생성.탐색적 데이터 분석을 위해 Amazon SageMaker Canvas를 사용하십시오. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.
  6. 럭셔리 모델 이름, 이름을 입력합니다(이 게시물의 경우 Churn 예측이라는 이름을 지정했습니다).
  7. 왼쪽 메뉴에서 만들기.
    탐색적 데이터 분석을 위해 Amazon SageMaker Canvas를 사용하십시오. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.
    데이터 세트를 선택하는 즉시 데이터 유형, 누락된 값, 일치하지 않는 값, 고유한 값, 각 열의 평균 또는 최빈값에 대한 개요가 표시됩니다.탐색적 데이터 분석을 위해 Amazon SageMaker Canvas를 사용하십시오. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.
    EDA 관점에서 데이터 세트에 누락되거나 일치하지 않는 값이 없음을 관찰할 수 있습니다. 비즈니스 분석가는 데이터 탐색을 시작하기 전에도 모델 빌드에 대한 초기 통찰력을 얻어 모델의 성능과 모델의 성능에 기여하는 요소를 식별하고자 할 수 있습니다. Canvas는 먼저 모델을 미리 보고 모델을 구축하기 전에 데이터에서 통찰력을 얻을 수 있는 기능을 제공합니다.
  8. 데이터 탐색을 수행하기 전에 다음을 선택하십시오. 모델 미리보기.탐색적 데이터 분석을 위해 Amazon SageMaker Canvas를 사용하십시오. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.
  9. 예측(변동)할 열을 선택합니다.Canvas는 이것이 두 가지 범주의 예측임을 자동으로 감지합니다.
  10. 왼쪽 메뉴에서 모델 미리보기. SageMaker Canvas는 데이터의 하위 집합을 사용하여 모델을 빠르게 구축하여 데이터가 정확한 예측을 생성할 준비가 되었는지 확인합니다. 이 샘플 모델을 사용하여 현재 모델 정확도와 예측에 대한 각 열의 상대적 영향을 이해할 수 있습니다.

다음 스크린샷은 미리보기를 보여줍니다.

탐색적 데이터 분석을 위해 Amazon SageMaker Canvas를 사용하십시오. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

모델 미리보기는 모델이 95.6%의 시간에 올바른 목표(이탈?)를 예측함을 나타냅니다. 또한 초기 열 영향(각 열이 대상 열에 미치는 영향)을 볼 수 있습니다. 데이터 탐색, 시각화 및 변환을 수행한 다음 모델 구축을 진행해 보겠습니다.

데이터 탐색

Canvas는 이미 그리드 보기의 데이터 배포와 같은 몇 가지 일반적인 기본 시각화를 제공합니다. 짓다 탭. 이는 데이터에 대한 높은 수준의 개요를 얻고, 데이터가 배포되는 방식을 이해하고, 데이터 세트의 요약 개요를 얻는 데 유용합니다.

비즈니스 분석가는 모델을 구축하기 전에 데이터 관계를 쉽게 이해하기 위해 데이터가 배포되는 방식과 배포가 대상 열(변동)에 대해 반영하는 방식에 대한 높은 수준의 통찰력을 얻어야 할 수 있습니다. 이제 선택할 수 있습니다. 격자보기 데이터 분포에 대한 개요를 확인합니다.

탐색적 데이터 분석을 위해 Amazon SageMaker Canvas를 사용하십시오. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

다음 스크린샷은 데이터세트 분포의 개요를 보여줍니다.

탐색적 데이터 분석을 위해 Amazon SageMaker Canvas를 사용하십시오. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

우리는 다음과 같은 관찰을 할 수 있습니다.

  • 전화는 실용적인 용도로 사용하기에는 너무 많은 고유한 가치를 가지고 있습니다. 우리는 전화가 고객 ID라는 것을 알고 있으며 특정 고객을 고려할 수 있는 모델을 구축하기를 원하지 않고 오히려 고객 이탈로 이어질 수 있는 보다 일반적인 의미에서 배우기를 원합니다. 이 변수를 제거할 수 있습니다.
  • 대부분의 숫자 기능은 다음과 같이 잘 분포되어 있습니다. 가우시안 벨 곡선. ML에서는 정규 분포를 나타내는 모든 변수를 더 높은 정확도로 예측할 수 있으므로 데이터가 정규 분포를 따르기를 원합니다.

더 깊이 들어가 Canvas에서 사용할 수 있는 고급 시각화를 확인해 보겠습니다.

데이터 시각화

비즈니스 분석가는 데이터 요소 간에 관계가 있는지, 그리고 이러한 요소가 이탈과 어떻게 관련되어 있는지 확인하려고 합니다. Canvas를 사용하면 ML 모델을 구축하기 전에 데이터에 대한 고급 통찰력을 얻는 데 도움이 되는 데이터를 탐색하고 시각화할 수 있습니다. 데이터를 이해하고 모델 정확도에 영향을 줄 수 있는 기능 간의 관계를 발견하는 데 도움이 되는 산점도, 막대 차트 및 상자 그림을 사용하여 시각화할 수 있습니다.

시각화 생성을 시작하려면 다음 단계를 완료하십시오.

  • 짓다 Canvas 앱의 탭에서 데이터 시각화 도우미.

탐색적 데이터 분석을 위해 Amazon SageMaker Canvas를 사용하십시오. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

Canvas에서 시각화의 핵심 가속기는 데이터 시각화 도우미. 더 나은 관점을 얻기 위해 샘플 크기를 변경해 보겠습니다.

  • 옆에 있는 행 수 선택 시각화 샘플.
  • 슬라이더를 사용하여 원하는 샘플 크기를 선택합니다.

탐색적 데이터 분석을 위해 Amazon SageMaker Canvas를 사용하십시오. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

  • 왼쪽 메뉴에서 업데이트 샘플 크기 변경을 확인합니다.

데이터세트에 따라 샘플 크기를 변경할 수 있습니다. 경우에 따라 전체 데이터 세트를 선택할 수 있는 수백에서 수천 개의 행이 있을 수 있습니다. 경우에 따라 수천 개의 행이 있을 수 있으며 이 경우 사용 사례에 따라 수백 또는 수천 개의 행을 선택할 수 있습니다.

탐색적 데이터 분석을 위해 Amazon SageMaker Canvas를 사용하십시오. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

산점도는 동일한 개인에 대해 측정된 두 개의 양적 변수 간의 관계를 보여줍니다. 우리의 경우 상관관계를 확인하기 위해 값 간의 관계를 이해하는 것이 중요합니다.

Calls, Mins 및 Charge가 있으므로 Day, Evening 및 Night에 대한 상관 관계를 표시합니다.

먼저 산포도 Day Charge vs. Day Mins.

탐색적 데이터 분석을 위해 Amazon SageMaker Canvas를 사용하십시오. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

Day Mins가 증가함에 따라 Day Charge도 증가함을 알 수 있습니다.

탐색적 데이터 분석을 위해 Amazon SageMaker Canvas를 사용하십시오. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

야간 통화에도 동일하게 적용됩니다.

탐색적 데이터 분석을 위해 Amazon SageMaker Canvas를 사용하십시오. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

야간 통화도 같은 패턴입니다.

탐색적 데이터 분석을 위해 Amazon SageMaker Canvas를 사용하십시오. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

min과 charge는 선형적으로 증가하는 것처럼 보이기 때문에 서로 높은 상관관계를 가지고 있음을 알 수 있습니다. 일부 ML 알고리즘에 이러한 기능 쌍을 포함하면 추가 저장 공간이 필요하고 교육 속도가 느려질 수 있으며, 둘 이상의 열에 유사한 정보가 있으면 모델이 영향을 과도하게 강조하고 모델에서 원치 않는 편향이 발생할 수 있습니다. 상관 관계가 높은 각 쌍에서 하나의 기능을 제거하겠습니다. Day Mins가 있는 쌍에서 Day Charge, Night Mins가 있는 쌍에서 Night Charge, Intl Mins가 있는 쌍에서 Intl Charge가 있습니다.

데이터 균형 및 변형

막대 차트는 x축의 범주형 변수와 y축의 숫자 변수 사이의 플롯으로 두 변수 간의 관계를 탐색합니다. 호출이 대상 열에 True 및 False에 대해 분산되는 방식을 확인하기 위해 막대 차트를 만들어 보겠습니다. 선택하다 막대 차트 요일 통화 및 이탈을 각각 y축 및 x축으로 끌어다 놓습니다.

탐색적 데이터 분석을 위해 Amazon SageMaker Canvas를 사용하십시오. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

이제 저녁 통화 대 이탈에 대해 동일한 막대 차트를 생성해 보겠습니다.

탐색적 데이터 분석을 위해 Amazon SageMaker Canvas를 사용하십시오. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

다음으로 야간 통화와 이탈에 대한 막대 차트를 만들어 보겠습니다.

탐색적 데이터 분석을 위해 Amazon SageMaker Canvas를 사용하십시오. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

이탈한 고객과 그렇지 않은 고객의 행동에 차이가 있는 것 같습니다.

상자 그림은 클래스(변동 여부)별로 데이터 동작의 차이를 보여주기 때문에 유용합니다. 변동(대상 열)을 예측할 것이기 때문에 대상 열에 대해 일부 기능의 상자 플롯을 만들어 평균, 최대값, 최소값, 중앙값 및 이상값과 같은 데이터 세트에 대한 기술 통계를 추론해 보겠습니다.

왼쪽 메뉴에서 상자 그림 Day mins와 Churn을 각각 y축과 x축으로 끌어다 놓습니다.

탐색적 데이터 분석을 위해 Amazon SageMaker Canvas를 사용하십시오. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

목표 열(변동)에 대해 다른 열에 대해 동일한 접근 방식을 시도할 수도 있습니다.

이제 고객 서비스 호출이 일일 최소값에 걸쳐 어떻게 확장되는지 이해하기 위해 고객 서비스 호출에 대한 일일 최소값의 상자 그림을 생성해 보겠습니다. 고객 서비스 호출에는 요일 최소값에 대한 종속성 또는 상관 관계가 없음을 알 수 있습니다.

탐색적 데이터 분석을 위해 Amazon SageMaker Canvas를 사용하십시오. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

관찰을 통해 데이터 세트가 상당히 균형을 이루고 있음을 확인할 수 있습니다. 모델이 하나의 값으로 편향되지 않도록 데이터가 참 값과 거짓 값에 고르게 분포되기를 원합니다.

변환

우리의 관찰에 따르면 전화 열은 계좌 번호이기 때문에 삭제하고 Day Charge, Eve Charge, Night Charge 열에는 min 열과 같은 중복 정보가 포함되어 있기 때문에 삭제하지만 미리 보기를 다시 실행하여 확인할 수 있습니다.

탐색적 데이터 분석을 위해 Amazon SageMaker Canvas를 사용하십시오. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

데이터 분석 및 변환이 끝나면 모델을 다시 미리 살펴보겠습니다.

탐색적 데이터 분석을 위해 Amazon SageMaker Canvas를 사용하십시오. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

모델 추정 정확도가 95.6%에서 93.6%로 변경되었음을 알 수 있습니다(다양할 수 있음). 그러나 특정 열에 대한 열 영향(기능 중요도)이 상당히 변경되어 훈련 속도와 열의 영향이 향상되었습니다. 모델 구축의 다음 단계로 이동할 때 예측합니다. 우리 데이터 세트는 추가 변환이 필요하지 않지만 필요한 경우 활용할 수 있습니다. ML 데이터 변환 모델 구축을 위해 데이터를 정리, 변환 및 준비합니다.

모델 구축

이제 모델을 구축하고 결과를 분석할 수 있습니다. 자세한 내용은 Amazon SageMaker Canvas를 사용하여 코드 없는 기계 학습으로 고객 이탈 예측.

정리

미래에 발생하지 않도록 세션 요금, 로그 아웃 캔버스의.

탐색적 데이터 분석을 위해 Amazon SageMaker Canvas를 사용하십시오. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

결론

이 게시물에서는 EDA용 Canvas 시각화 기능을 사용하여 모델 구축 전에 데이터를 더 잘 이해하고, 정확한 ML 모델을 생성하고, 코드가 없는 시각적 포인트 앤 클릭 인터페이스를 사용하여 예측을 생성하는 방법을 보여주었습니다.


저자에 관하여

탐색적 데이터 분석을 위해 Amazon SageMaker Canvas를 사용하십시오. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.라자쿠마르 삼파스쿠마르 AWS의 수석 기술 계정 관리자로서 고객에게 비즈니스 기술 조정에 대한 지침을 제공하고 클라우드 운영 모델 및 프로세스의 재창조를 지원합니다. 그는 클라우드와 머신 러닝에 열정적입니다. Raj는 또한 기계 학습 전문가이며 AWS 고객과 협력하여 AWS 워크로드 및 아키텍처를 설계, 배포 및 관리합니다.

탐색적 데이터 분석을 위해 Amazon SageMaker Canvas를 사용하십시오. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.라훌 나베라 AWS Professional Services의 데이터 분석 컨설턴트입니다. 그의 현재 작업은 고객이 AWS에서 데이터 및 기계 학습 워크로드를 구축할 수 있도록 하는 데 중점을 두고 있습니다. 여가 시간에는 크리켓과 배구를 즐깁니다.

탐색적 데이터 분석을 위해 Amazon SageMaker Canvas를 사용하십시오. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.라비테자 옐라만칠리 뉴욕에 기반을 둔 Amazon Web Services의 엔터프라이즈 솔루션 아키텍트입니다. 그는 대규모 금융 서비스 기업 고객과 협력하여 클라우드에서 매우 안전하고 확장 가능하고 안정적이며 비용 효율적인 애플리케이션을 설계하고 배포합니다. 그는 11년 이상의 위험 관리, 기술 컨설팅, 데이터 분석 및 기계 학습 경험을 제공합니다. 그는 고객을 돕지 않을 때 여행을 즐기고 PS5를 즐깁니다.

타임 스탬프 :

더보기 AWS 기계 학습