Amazon SageMaker Data Wrangler를 사용하여 데이터 준비 및 Studio Labs에 ML 학습 및 실험

플라톤에 의해 재발행

팔로워 : 0

Amazon SageMaker 스튜디오 랩 누구나 AWS ML 컴퓨팅 리소스를 사용하여 ML을 배우고 실험할 수 있는 오픈 소스 JupyterLab을 기반으로 하는 무료 기계 학습(ML) 개발 환경입니다. 동일한 아키텍처 및 사용자 인터페이스를 기반으로 합니다. 아마존 세이지 메이커 스튜디오, 그러나 Studio 기능의 하위 집합이 있습니다.

ML 이니셔티브 작업을 시작할 때 모델 구축을 진행하기 전에 탐색적 데이터 분석(EDA) 또는 데이터 준비를 수행해야 합니다. Amazon SageMaker 데이터 랭글러 의 능력이다 아마존 세이지 메이커 이를 통해 데이터 과학자와 엔지니어는 시각적 인터페이스를 통해 ML 애플리케이션용 데이터를 더 빠르게 준비할 수 있습니다. Data Wrangler는 ML용 데이터를 집계하고 준비하는 데 걸리는 시간을 몇 주에서 몇 분으로 단축합니다.

Data Wrangler에서 기능 준비의 핵심 가속기는 데이터 품질 및 통찰력 보고서. 이 보고서는 데이터 품질을 확인하고 데이터의 이상을 감지하는 데 도움이 되므로 데이터 세트를 수정하는 데 필요한 데이터 엔지니어링을 수행할 수 있습니다. 데이터 품질 및 통찰력 보고서를 사용하여 데이터 분석을 수행하여 결측값 수 및 이상값 수와 같은 데이터세트에 대한 통찰력을 얻을 수 있습니다. 대상 누출 또는 불균형과 같은 데이터에 문제가 있는 경우 통찰력 보고서를 통해 이러한 문제에 주의를 기울이고 수행해야 하는 데이터 준비 단계를 식별할 수 있습니다.

Studio Lab 사용자는 데이터 품질 및 기능 엔지니어링이 모델의 예측 성능에 매우 중요하기 때문에 Data Wrangler의 이점을 누릴 수 있습니다. Data Wrangler는 데이터 품질 문제에 대한 통찰력을 제공하고 로우 코드 UI를 사용하여 신속한 기능 반복 및 엔지니어링을 쉽게 가능하게 하여 데이터 품질 및 기능 엔지니어링을 지원합니다.

이 게시물에서는 탐색적 데이터 분석을 수행하고, Data Wrangler를 사용하여 데이터를 준비 및 변환하고, 변환 및 준비된 데이터를 Studio Lab으로 내보내 모델 구축을 수행하는 방법을 보여줍니다.

솔루션 개요

솔루션에는 다음과 같은 고급 단계가 포함됩니다.

AWS 계정 및 관리자를 생성합니다. 이것은 전제 조건입니다
데이터세트 다운로드 이탈.csv.
데이터세트 로드 아마존 단순 스토리지 서비스 (아마존 S3).
SageMaker Studio 도메인을 생성하고 Data Wrangler를 시작합니다.
Amazon S3에서 데이터 랭글러 흐름으로 데이터 세트를 가져옵니다.
데이터 품질 및 통찰력 보고서를 만들고 필요한 기능 엔지니어링에 대한 결론을 도출합니다.
Data Wrangler에서 필요한 데이터 변환을 수행합니다.
데이터 품질 및 통찰력 보고서와 변환된 데이터 세트를 다운로드하십시오.
모델 교육을 위해 Studio Lab 프로젝트에 데이터를 업로드합니다.

다음 다이어그램은이 워크 플로우를 보여줍니다.

사전 조건

Data Wrangler 및 Studio Lab을 사용하려면 다음 전제 조건이 필요합니다.

Data Wrangler로 데이터 준비 워크플로 구축

시작하려면 다음 단계를 완료하십시오.

데이터 세트를 Amazon S3에 업로드합니다.
SageMaker 콘솔의 제어판 탐색 창에서 Studio.
에 앱 시작 사용자 프로필 옆에 있는 메뉴에서 Studio.

Studio에 성공적으로 로그인하면 다음 스크린샷과 같은 개발 환경이 표시됩니다.
새 Data Wrangler 워크플로를 만들려면 입양 부모로서의 귀하의 적합성을 결정하기 위해 미국 이민국에 메뉴, 선택 신제품다음을 선택 데이터 랭글러 흐름.

Data Wrangler의 첫 번째 단계는 import 당신의 데이터. Amazon S3, 아마존 아테나, 아마존 레드 시프트, 눈송이및 데이터 브릭. 이 예에서는 Amazon S3를 사용합니다. Data Wrangler가 어떻게 작동하는지 확인하고 싶다면 언제든지 선택할 수 있습니다. 샘플 데이터세트 사용.
왼쪽 메뉴에서 데이터 가져 오기.
왼쪽 메뉴에서 아마존 S3.
업로드한 데이터세트를 선택하고 수입.

Data Wrangler를 사용하면 전체 데이터 세트를 가져오거나 일부를 샘플링할 수 있습니다.
데이터 세트에 대한 통찰력을 빠르게 얻으려면 다음을 선택하십시오. 퍼스트케이 for 샘플링 에 50000을 입력합니다. 표본의 크기.

데이터 품질을 이해하고 인사이트 얻기

Data Quality and Insights Report를 사용하여 Data Wrangler로 가져온 데이터를 분석해 보겠습니다. 보고서를 사용하여 데이터를 정리하고 처리하기 위해 수행해야 하는 단계를 이해할 수 있습니다. 이 보고서는 결측값 수 및 이상값 수와 같은 정보를 제공합니다. 대상 누출 또는 불균형과 같은 데이터 문제가 있는 경우 통찰력 보고서를 통해 이러한 문제를 주의 깊게 살펴볼 수 있습니다.

옆에 있는 더하기 기호를 선택합니다. 자료형 선택하고 데이터 인사이트 얻기.
럭셔리 분석 유형선택한다. 데이터 품질 및 통찰력 보고서.
럭셔리 대상 열선택한다. 휘젓다?.
럭셔리 문제 유형고르다 분류.
왼쪽 메뉴에서 만들기.

검토하고 다운로드할 수 있는 자세한 보고서가 제공됩니다. 보고서에는 빠른 모델, 기능 요약, 기능 상관 관계 및 데이터 통찰력과 같은 여러 섹션이 포함되어 있습니다. 다음 스크린샷은 이러한 섹션의 예를 제공합니다.

보고서의 관찰

보고서에서 다음과 같은 관찰을 할 수 있습니다.

중복 행을 찾을 수 없습니다.
XNUMXD덴탈의 State 열이 상당히 고르게 분포된 것처럼 보이므로 데이터는 주 인구 측면에서 균형을 이룹니다.
XNUMXD덴탈의 Phone 열에 실제 사용하기에 너무 많은 고유 값이 표시됩니다. 고유 값이 너무 많으면 이 열이 유용하지 않습니다. 우리는 떨어뜨릴 수 있다 Phone 변환의 열입니다.
보고서의 특성 상관 섹션을 기반으로, Mins 및 Charge 상관관계가 높습니다. 그 중 하나를 제거할 수 있습니다.

변환

우리의 관찰을 바탕으로 우리는 다음과 같은 변환을 하고자 합니다.

제거 Phone 고유 값이 많기 때문입니다.
또한 본질적으로 서로 100% 상관관계가 있는 몇 가지 기능을 볼 수 있습니다. 일부 ML 알고리즘에 이러한 기능 쌍을 포함하면 원하지 않는 문제가 발생할 수 있지만 다른 알고리즘에서는 사소한 중복성과 편향만 발생합니다. 상관관계가 높은 각 쌍에서 하나의 기능을 제거해 보겠습니다. Day Charge 와 쌍에서 Day Mins, Night Charge 와 쌍에서 Night Mins및 Intl Charge 와 쌍에서 Intl Mins.
개 심자 True or False FBI 증오 범죄 보고서 Churn 열은 1 또는 0의 숫자 값입니다.

데이터 흐름으로 돌아가서 옆에 있는 더하기 기호를 선택합니다. 자료형.
왼쪽 메뉴에서 변형 추가.
왼쪽 메뉴에서 단계 추가.
찾고 있는 변환을 검색할 수 있습니다(이 경우 열 관리).
왼쪽 메뉴에서 열 관리.
럭셔리 변환¸ 선택 열 삭제.
럭셔리 삭제할 열¸ 선택 Phone, Day Charge, Eve Charge, Night Charge및 Intl Charge.
왼쪽 메뉴에서 시사다음을 선택 업데이트.

범주형 인코딩을 수행하기 위해 다른 변환을 추가해 보겠습니다. Churn? 열입니다.
변환 선택 범주 형 인코딩.
럭셔리 변환선택한다. 서수 인코딩.
럭셔리 입력 열을 선택하십시오 Churn? 열입니다.
럭셔리 잘못된 처리 전략선택한다. NaN으로 교체.
왼쪽 메뉴에서 시사다음을 선택 업데이트.

현재 True 및 False 각각 1과 0으로 변환됩니다.

이제 데이터를 잘 이해하고 모델 구축을 위한 데이터를 준비 및 변환했으므로 모델 구축을 위해 데이터를 Studio Lab으로 이동할 수 있습니다.

Studio Lab에 데이터 업로드

Studio Lab에서 데이터 사용을 시작하려면 다음 단계를 완료하세요.

왼쪽 메뉴에서 데이터 내보내기 에 수출 S3 버킷에.
럭셔리 아마존 S3 위치, S3 경로를 입력합니다.
파일 형식을 지정합니다.
왼쪽 메뉴에서 데이터 내보내기.
데이터를 내보낸 후 S3 버킷에서 로컬 컴퓨터로 데이터를 다운로드할 수 있습니다.
이제 Studio Lab으로 이동하여 파일을 Studio Lab에 업로드할 수 있습니다.

또는 Studio Lab에서 Amazon S3에 연결할 수 있습니다. 자세한 내용은 다음을 참조하십시오. Amazon SageMaker Studio Lab에서 외부 리소스 사용.
SageMaker를 설치하고 Pandas를 가져오겠습니다.
필요에 따라 모든 라이브러리를 가져옵니다.
이제 CSV 파일을 읽을 수 있습니다.
인쇄하자 churn 데이터 세트가 올바른지 확인합니다.

이제 Studio Lab에서 처리된 데이터 세트가 있으므로 모델 구축에 필요한 추가 단계를 수행할 수 있습니다.

데이터 랭글러 가격

Data Wrangler 및 Data Wrangler 내에서 EDA 또는 데이터 준비를 위해 이 게시물의 모든 단계를 수행할 수 있습니다. 지불 단순 인스턴스, 작업 및 사용량 또는 사용량에 따른 스토리지 가격. 선결제 또는 라이선스 비용이 필요하지 않습니다.

정리

Data Wrangler를 사용하지 않을 때는 추가 요금이 발생하지 않도록 Data Wrangler가 실행되는 인스턴스를 종료하는 것이 중요합니다. 작업 손실을 방지하려면 Data Wrangler를 종료하기 전에 데이터 흐름을 저장하십시오.

Studio에서 데이터 흐름을 저장하려면 입양 부모로서의 귀하의 적합성을 결정하기 위해 미국 이민국에다음을 선택 데이터 랭글러 흐름 저장.
Data Wrangler는 60초마다 데이터 흐름을 자동으로 저장합니다.
Data Wrangler 인스턴스를 종료하려면 Studio에서 다음을 선택합니다. 인스턴스 및 커널 실행.
$XNUMX Million 미만 실행 중인 앱, 옆에 있는 종료 아이콘을 선택합니다. sagemaker-data-wrangler-1.0 app.
왼쪽 메뉴에서 모두 종료 확인.

Data Wrangler는 ml.m5.4xlarge 인스턴스에서 실행됩니다. 이 인스턴스는 다음에서 사라집니다. 실행 중인 인스턴스 데이터 랭글러 앱을 종료할 때.

Data Wrangler 앱을 종료한 후에는 다음에 Data Wrangler 흐름 파일을 열 때 다시 시작해야 합니다. 몇 분 정도 걸릴 수 있습니다.

결론

이 게시물에서는 데이터 세트에 대한 통찰력을 얻고, 탐색적 데이터 분석을 수행하고, Studio 내에서 Data Wrangler를 사용하여 데이터를 준비 및 변환하고, 변환 및 준비된 데이터를 Studio Lab으로 내보내고 모델 구축 및 기타 단계를 수행하는 방법을 살펴보았습니다.

SageMaker Data Wrangler를 사용하면 데이터 준비 및 기능 엔지니어링 프로세스를 단순화하고 단일 시각적 인터페이스에서 데이터 선택, 정리, 탐색 및 시각화를 포함한 데이터 준비 워크플로의 각 단계를 완료할 수 있습니다.

저자 소개

라자쿠마르 삼파스쿠마르 AWS의 수석 기술 계정 관리자로서 고객에게 비즈니스 기술 조정에 대한 지침을 제공하고 클라우드 운영 모델 및 프로세스의 재창조를 지원합니다. 그는 클라우드와 머신 러닝에 열정적입니다. Raj는 또한 기계 학습 전문가이며 AWS 고객과 협력하여 AWS 워크로드 및 아키텍처를 설계, 배포 및 관리합니다.

미낙시순다람 탄다바라얀 인간 중심의 데이터 및 분석 경험을 설계, 생성 및 홍보하는 데 열정을 가진 수석 AI/ML 전문가입니다. 그는 데이터 중심 조직으로의 전환에 대해 AWS Strategic 고객을 지원합니다.

제임스 우 AWS의 수석 AI/ML 전문가 솔루션 아키텍트입니다. 고객이 AI/ML 솔루션을 설계하고 구축할 수 있도록 지원합니다. James의 작업은 컴퓨터 비전, 딥 러닝, 기업 전반에 걸친 ML 확장에 대한 주요 관심과 함께 광범위한 ML 사용 사례를 다룹니다. AWS에 합류하기 전에 James는 엔지니어링 분야에서 10년, 마케팅 및 광고 산업 분야에서 6년을 포함하여 4년 넘게 건축가, 개발자 및 기술 리더였습니다.

타임 스탬프 : 2022 년 9 월 15 일2022 년 9 월 15 일

타임 스탬프 : 8년 2022월 XNUMX일

Amazon SageMaker Data Wrangler를 사용하여 데이터 준비 및 Studio Labs를 사용하여 ML 학습 및 실험

플라톤에 의해 재발행

솔루션 개요

사전 조건

Data Wrangler로 데이터 준비 워크플로 구축

데이터 품질을 이해하고 인사이트 얻기

보고서의 관찰

변환

Studio Lab에 데이터 업로드

데이터 랭글러 가격

정리

결론

저자 소개

더보기 AWS 기계 학습

AWS DeepRacer를 사용하면 모든 기술 수준의 빌더가 기술을 향상하고 기계 학습을 시작할 수 있습니다 | 아마존 웹 서비스

GrabDefence 장치 인텔리전스와 Amazon Fraud Detector를 사용하여 모바일 중심 비즈니스에서 사기를 감지합니다.

Amazon Lex 및 Talkdesk 클라우드 연락 센터를 통해 챗봇 사용자에게 실시간 상담원 지원 제공 | 아마존 웹 서비스

Amazon SageMaker 다중 모델 엔드포인트를 사용하여 GPU에서 여러 딥 러닝 모델 실행

Amp on Amazon이 데이터를 사용하여 고객 참여를 높이는 방법, 1부: 데이터 분석 플랫폼 구축

Amazon Fraud Detector의 새로운 Account Takeover Insights 모델로 로그인 시 계정 탈취 방지

MLOps용 Amazon SageMaker 프로젝트와 함께 온보드 PaddleOCR을 사용하여 신원 문서에서 광학 문자 인식 수행

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정