Amazon SageMaker Data Wrangler가 지원하는 노트북용 대화형 데이터 준비 위젯

플라톤에 의해 재발행

팔로워 : 0

Anaconda가 데이터 과학자를 대상으로 2020년 실시한 설문 조사에 따르면 데이터 준비는 기계 학습(ML) 및 데이터 분석 워크플로의 중요한 단계 중 하나이며 데이터 과학자에게 매우 많은 시간이 소요되는 경우가 많습니다. 데이터 과학자는 로드(66%), 정리(19%) 및 데이터 시각화(26%)를 포함하여 데이터 준비 및 분석 작업에 약 21%의 시간을 소비합니다.

아마존 세이지 메이커 스튜디오 ML을 위한 최초의 완전 통합 개발 환경(IDE)입니다. 클릭 한 번으로 데이터 과학자와 개발자가 신속하게 가동할 수 있습니다. 스튜디오 노트북 데이터 세트를 탐색하고 모델을 구축합니다. GUI 기반 및 대화형 인터페이스를 선호하는 경우 다음을 사용할 수 있습니다. Amazon SageMaker 데이터 랭글러, 300개 이상의 기본 제공 시각화, 분석 및 변환을 통해 한 줄의 코드를 작성하지 않고도 Spark가 지원하는 데이터를 효율적으로 처리합니다.

데이터 랭글러 이제 내장된 데이터 준비 기능을 제공합니다. Amazon SageMaker Studio 노트북 이를 통해 ML 실무자는 노트북 내에서 몇 번의 클릭만으로 데이터 특성을 시각적으로 검토하고, 문제를 식별하고, 데이터 품질 문제를 해결할 수 있습니다.

이 게시물에서는 데이터 랭글러 데이터 준비 위젯은 Pandas 데이터 프레임 위에 주요 시각화를 자동으로 생성하여 데이터 분포를 이해하고, 데이터 품질 문제를 감지하고, 각 기능에 대한 이상값과 같은 데이터 인사이트를 표시합니다. 데이터와 상호 작용하고 임시 쿼리에서 간과할 수 있는 통찰력을 발견하는 데 도움이 됩니다. 또한 수정할 변환을 권장하고 UI에서 데이터 변환을 적용하고 노트북 셀에서 자동으로 코드를 생성할 수 있습니다. 이 기능은 SageMaker Studio를 사용할 수 있는 모든 지역에서 사용할 수 있습니다.

솔루션 개요

이 새로운 위젯이 어떻게 데이터 탐색을 훨씬 쉽게 만들고 원활한 경험을 제공하여 데이터 엔지니어와 실무자를 위한 전반적인 데이터 준비 경험을 개선하는지 자세히 알아보겠습니다. 우리의 사용 사례에서는 다음의 수정된 버전을 사용합니다. 타이타닉 데이터 세트, ML 커뮤니티에서 인기 있는 데이터 세트로 이제 샘플 데이터 세트 SageMaker Data Wrangler를 빠르게 시작할 수 있습니다. 원본 데이터 세트는 오픈ML, 이 데모를 위해 Amazon의 합성 데이터 품질 문제를 추가하도록 수정되었습니다. 공개 S3 경로에서 수정된 버전의 데이터 세트를 다운로드할 수 있습니다. s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv.

사전 조건

이 게시물에 설명된 모든 기능을 직접 경험하려면 다음 전제 조건을 완료하십시오.

AWS 계정이 있는지 확인하고 보안 액세스를 통해 계정에 로그인하십시오. AWS 관리 콘솔및 AWS 자격 증명 및 액세스 관리 (IAM) 사용 권한 아마존 세이지 메이커 및 아마존 단순 스토리지 서비스 (Amazon S3) 리소스.
퍼블릭 S3 경로의 샘플 데이터 세트 사용 s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv 또는 대안 S3 버킷에 업로드 귀하의 계정에.
SageMaker 도메인에 온보딩하고 Studio에 액세스하여 노트북을 사용합니다. 지침은 다음을 참조하십시오. Amazon SageMaker 도메인에 온보딩. 기존 Studio를 사용 중인 경우 최신 버전의 스튜디오.

데이터 탐색 위젯 활성화

Pandas 데이터 프레임을 사용하는 경우 Studio 노트북 사용자는 데이터 탐색 위젯을 수동으로 활성화하여 새 시각화가 기본적으로 각 열 위에 표시되도록 할 수 있습니다. 위젯은 숫자 데이터에 대한 히스토그램과 다른 유형의 데이터에 대한 막대 차트를 표시합니다. 이러한 표현을 통해 데이터 분포를 빠르게 이해하고 각 열에 대한 상용구 메서드를 작성하지 않고도 누락된 값과 이상값을 발견할 수 있습니다. 각 시각적 개체의 막대 위로 마우스를 가져가면 분포를 빠르게 이해할 수 있습니다.

Studio를 열고 새 Python 3 노트북을 만듭니다. 다음을 선택하십시오. 데이터 과학 3.0 클릭하여 SageMaker 이미지의 이미지 환경 변경 버튼을 클릭합니다.

데이터 탐색 위젯은 다음 이미지에서 사용할 수 있습니다. 기본 SageMaker 이미지 목록은 다음을 참조하십시오. 사용 가능한 Amazon SageMaker 이미지.

Python 3이 포함된 Python 3.7(데이터 과학)
Python 3이 포함된 Python 2.0(데이터 과학 3.8)
Python 3이 포함된 Python 3.0(데이터 과학 3.10)
스파크 애널리틱스 1.0 및 2.0

이 위젯을 사용하려면 SageMaker_DataWrangler 도서관. 수정된 버전의 Titanic 데이터 세트를 다음 위치에서 로드합니다. S3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv Pandas 라이브러리로 CSV를 읽습니다.

import pandas as pd
import boto3
import io
import sagemaker_datawrangler

s3 = boto3.client('s3')
obj = s3.get_object(Bucket='sagemaker-sample-files', Key='datasets/tabular/dirty-titanic/titanic-dirty-4.csv')
df = pd.read_csv(io.BytesIO(obj['Body'].read()))

데이터 시각화

데이터가 Pandas 데이터 프레임에 로드된 후 다음을 사용하여 데이터를 볼 수 있습니다. df or display(df). 행 나열과 함께 데이터 준비 위젯은 데이터 품질에 대한 통찰력, 시각화 및 조언을 제공합니다. 기능 및 대상 통찰력, 분포 정보 또는 렌더링 데이터 품질 검사를 생성하기 위해 추가 코드를 작성할 필요가 없습니다. 데이터 프레임 테이블의 헤더를 선택하여 데이터 품질 경고(있는 경우)를 보여주는 통계 요약을 볼 수 있습니다.

데이터 시각화

각 열에는 데이터 유형에 따라 막대 차트 또는 히스토그램이 표시됩니다. 기본적으로 위젯은 의미 있는 통찰력을 생성하기 위해 최대 10,000개의 관찰을 샘플링합니다. 또한 전체 데이터 세트에 대한 인사이트 분석을 실행할 수 있는 옵션도 제공합니다.

다음 스크린샷에 표시된 것처럼 이 위젯은 열에 범주형 또는 정량적 데이터가 있는지 식별합니다.

범주형 또는 양적 데이터

범주형 데이터의 경우 위젯은 모든 범주가 포함된 막대 차트를 생성합니다. 예를 들어 다음 스크린샷에서 열 Sex 데이터의 범주를 식별합니다. 막대 위로 마우스를 가져갈 수 있습니다(남성 이 경우) 값이 있는 총 행 수와 같은 이러한 범주의 세부 정보를 보려면 male 전체 시각화 데이터 세트의 분포(이 예에서는 64.07%). 또한 범주형 데이터에 대해 다른 색상으로 누락된 값의 총 백분율을 강조 표시합니다. 다음과 같은 양적 데이터의 경우 ticket 열에는 유효하지 않은 값의 백분율과 함께 분포가 표시됩니다.

노트북에서 표준 Pandas 시각화를 보려면 다음을 선택할 수 있습니다. Pandas 테이블 보기 다음 스크린샷과 같이 위젯과 Pandas 표현 사이를 전환합니다.

Pandas 테이블 보기

데이터 랭글러 테이블 보기

열의 데이터에 대한 자세한 정보를 얻으려면 열의 헤더를 선택하여 열 전용 측면 패널을 엽니다. 여기에서 두 개의 탭을 볼 수 있습니다. 인사이트 및 데이터 품질.

인사이트 및 데이터 품질

다음 섹션에서는 이 두 가지 옵션에 대해 자세히 살펴봅니다.

인사이트

XNUMXD덴탈의 인사이트 탭은 각 열에 대한 설명과 함께 세부 정보를 제공합니다. 이 섹션에는 모드, 고유 항목 수, 누락/유효하지 않은 값에 대한 비율 및 개수 등과 같은 집계된 통계가 나열되며 히스토그램 또는 막대 차트를 사용하여 데이터 분포를 시각화합니다. 다음 스크린샷에서 선택한 열에 대해 생성된 쉽게 이해할 수 있는 시각화와 함께 표시되는 데이터 인사이트 및 분포 정보를 확인할 수 있습니다. survived.

데이터 품질

스튜디오 데이터 준비 위젯은 헤더의 경고 기호로 식별된 데이터 품질 문제를 강조 표시합니다. Widget은 기본 사항(누락된 값, 상수 열 등)에서 보다 ML에 특정한 항목(대상 누출, 낮은 예측 점수 기능 등)에 이르기까지 데이터 품질 문제의 전체 스펙트럼을 식별할 수 있습니다. Widget은 데이터 품질 문제를 일으키는 셀을 강조 표시하고 행을 재구성하여 문제가 있는 셀을 맨 위에 놓습니다. 데이터 품질 문제를 해결하기 위해 위젯은 버튼 클릭으로 적용할 수 있는 여러 변환기를 제공합니다.

데이터 품질 섹션을 탐색하려면 열 머리글을 선택하고 측면 패널에서 데이터 품질 탭. Studio 환경에 다음이 표시되어야 합니다.

데이터 품질 탭

에서 사용할 수 있는 다양한 옵션을 살펴보겠습니다. 데이터 품질 탭. 이 예에서는 데이터를 기반으로 정량적 열로 감지되는 연령 열을 선택합니다. 다음 스크린샷에서 볼 수 있듯이 이 위젯은 다음과 같은 가장 일반적인 작업을 포함하여 적용할 수 있는 다양한 유형의 변환을 제안합니다. 새 값으로 교체, 드롭 누락, 중앙값으로 교체및 평균값으로 바꾸기. 사용 사례(해결하려는 ML 문제)에 따라 데이터 세트에 대해 이러한 항목을 선택할 수 있습니다. 그것은 또한 당신에게 열 삭제 기능을 완전히 제거하려면 옵션을 선택하십시오.

당신이 선택할 때 코드 적용 및 내보내기, 데이터 프레임의 깊은 복사본에 변환이 적용됩니다. 변환이 성공적으로 적용된 후 데이터 테이블이 인사이트 및 시각화로 새로 고쳐집니다. 노트북의 기존 셀 뒤에 변환 코드가 생성됩니다. 나중에 이 내보낸 코드를 실행하여 데이터 세트에 변환을 적용하고 필요에 따라 확장할 수 있습니다. 생성된 코드를 직접 수정하여 변환을 사용자 정의할 수 있습니다. 우리가 적용하면 드롭 누락 Age 열의 옵션을 선택하면 데이터 세트에 다음 변환 코드가 적용되고 위젯 아래 셀에도 코드가 생성됩니다.

#Pandas code generated by sagemaker_datawrangler
output_df = df.copy(deep=True) 

#Code to Drop missing for column: age to resolve warning: Missing values 
output_df = output_df[output_df['age'].notnull()]

다음은 다음에 대한 코드 스니펫의 또 다른 예입니다. 중앙값으로 교체:

#Pandas code generated by sagemaker_datawrangler
output_df = df.copy(deep=True) 

#Code to Replace with median for column: age to resolve warning: Missing values 
output_df['age']=output_df['age'].fillna(output_df['age'].median(skipna=True))

이제 데이터 준비 위젯의 대상 통찰력 기능을 살펴보겠습니다. 를 사용하고 싶다고 가정합니다. survived 승객의 생존 여부를 예측하는 기능. 선택 survived 열 머리글. 측면 패널에서 다음을 선택합니다. 대상 열로 선택. 에 대한 이상적인 데이터 분포 survived 기능에는 두 개의 클래스만 있어야 합니다. 예(1) 또는 아니요(0), 타이타닉 충돌 생존 가능성을 분류하는 데 도움이 됩니다. 그러나 선택한 대상 열의 데이터 불일치로 인해 살아남은 기능이 0, 1, ?, unknown및 yes.

대상 열로 선택

선택한 대상 열을 기반으로 문제 유형을 선택합니다. 다음 중 하나일 수 있습니다. 분류 or 리그레션. 살아남은 열의 경우 문제 유형은 분류입니다. 선택하다 달리기 대상 열에 대한 통찰력을 생성합니다.

데이터 준비 위젯은 대상 열 데이터 품질 문제를 해결하기 위한 권장 사항 및 샘플 설명과 함께 대상 열 통찰력을 나열합니다. 또한 열에서 비정상적인 데이터를 자동으로 강조 표시합니다.

권장 사항이 포함된 대상 열 통찰력

권장 변환을 선택합니다. 희귀 목표 값 삭제, 드문 대상 값에 대한 관측치가 더 적기 때문입니다.

희귀 목표 값 삭제

선택한 변환이 Pandas 데이터 프레임에 적용되고 일반적이지 않은 대상 값이 살아남은 열에서 제거되었습니다. 다음 코드를 참조하십시오.

# Pandas code generated by sagemaker_datawrangler
output_df = df.copy(deep=True)

# Code to Drop rare target values for column: survived to resolve warning: Too few instances per class 
rare_target_labels_to_drop = ['?', 'unknown', 'yes']
output_df = output_df[~output_df['survived'].isin(rare_target_labels_to_drop)]

적용된 변환의 결과는 데이터 프레임에서 즉시 볼 수 있습니다. 데이터 준비 위젯을 사용하여 적용된 데이터 준비 활동을 추적하기 위해 다음 노트북 셀에도 변환된 코드가 생성됩니다.

결론

이 게시물에서는 Studio 데이터 준비 위젯이 데이터 분포를 분석하고, 도구에서 생성된 데이터 품질 정보를 탐색하고, 각 중요 기능에 대한 이상점과 같은 잠재적인 문제를 발견하는 데 어떻게 도움이 되는지에 대한 지침을 제공했습니다. 이를 통해 전체 데이터 품질을 개선하여 고품질 모델을 교육할 수 있으며, 사용자 인터페이스에서 데이터를 변환하고 노트북 셀에 대한 코드를 자동으로 생성할 수 있으므로 획일적이고 힘든 작업을 제거할 수 있습니다. 그런 다음 MLOps 파이프라인에서 이 코드를 사용하여 재현성을 구축하고, 반복 작업에 시간을 낭비하지 않고, 데이터 랭글링 파이프라인의 구성 및 배포를 가속화하여 호환성 문제를 줄일 수 있습니다.

SageMaker Data Wrangler 또는 Studio를 처음 사용하는 경우 다음을 참조하십시오. SageMaker 데이터 랭글러 시작하기. 이 게시물과 관련하여 질문이 있으시면 댓글 섹션에 추가하십시오.

저자에 관하여

파스 파텔 샌프란시스코 베이 지역에 있는 AWS의 솔루션 아키텍트입니다. Parth는 고객이 클라우드로의 여정을 가속화하고 AWS 클라우드에서 성공적으로 채택하고 성장할 수 있도록 지원합니다. 그는 기계 학습, 환경 지속 가능성 및 응용 프로그램 현대화에 중점을 둡니다.

이샤 두아 San Francisco Bay Area에 기반을 둔 선임 솔루션 아키텍트입니다. 그녀는 목표와 과제를 이해하고 탄력성과 확장성을 확인하면서 클라우드 네이티브 방식으로 애플리케이션을 설계할 수 있는 방법을 안내함으로써 AWS 엔터프라이즈 고객이 성장하도록 돕습니다. 그녀는 기계 학습 기술과 환경 지속 가능성에 대해 열정적입니다.

하리하란 수레시 AWS의 선임 솔루션 아키텍트입니다. 그는 데이터베이스, 기계 학습 및 혁신적인 솔루션 설계에 열정적입니다. AWS에 합류하기 전에 Hariharan은 제품 설계자, 코어 뱅킹 구현 전문가 및 개발자였으며 11년 이상 BFSI 조직과 함께 일했습니다. 기술 외에 그는 패러글라이딩과 사이클링을 즐깁니다.

다니 미첼 Amazon Web Services의 AI/ML 전문 솔루션 아키텍트입니다. 그는 Computer Vision 사용 사례에 중점을 두고 있으며 EMEA 전역의 고객이 ML 여정을 가속화하도록 돕습니다.

타임 스탬프 : 2022 년 12 월 1 일2022 년 12 월 1 일

타임 스탬프 : 13년 2023월 XNUMX일

Amazon SageMaker Data Wrangler에서 제공하는 노트북용 대화형 데이터 준비 위젯

플라톤에 의해 재발행

솔루션 개요

사전 조건

데이터 탐색 위젯 활성화

데이터 시각화

인사이트

데이터 품질

결론

저자에 관하여

더보기 AWS 기계 학습

Amazon Kendra Box 커넥터 시작하기

Amazon S3 액세스 포인트를 사용하여 VPC 전용 모드에서 Amazon SageMaker 노트북에 대한 교차 계정 Amazon S3 액세스 설정 | 아마존 웹 서비스

자신의 데이터를 사용하여 요약 및 질문 답변을 위한 생성 AI 기반 모델 사용 | 아마존 웹 서비스

Amazon SageMaker 비동기 엔드포인트를 사용하여 Amazon SageMaker JumpStart 기반 모델의 배포 비용 최적화 | 아마존 웹 서비스

Amazon SageMaker의 호스트 코드 서버

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정