Amazon SageMaker Data Wrangler의 새로운 임베디드 시각화 소개

플라톤에 의해 재발행

팔로워 : 0

수동으로 데이터 품질을 검사하고 데이터를 정리하는 것은 데이터 과학자가 프로젝트에 많은 시간을 할애할 수 있는 고통스럽고 시간 소모적인 프로세스입니다. Anaconda에서 실시한 2020년 데이터 과학자 설문 조사에 따르면 데이터 과학자는 로드(66%), 정리(19%) 및 데이터 시각화(26%)를 포함하여 데이터 준비 및 분석 작업에 약 21%의 시간을 소비합니다. 아마존 세이지 메이커 다양한 고객 요구와 선호도를 충족하는 다양한 데이터 준비 도구를 제공합니다. GUI 기반 인터랙티브 인터페이스를 선호하는 사용자를 위해 SageMaker 데이터 랭글러 300개 이상의 기본 제공 시각화, 분석 및 변환을 제공하여 한 줄의 코드를 작성하지 않고도 Spark가 지원하는 데이터를 효율적으로 처리합니다.

기계 학습(ML)의 데이터 시각화는 반복 프로세스이며 검색, 조사 및 검증을 위해 데이터 세트의 지속적인 시각화가 필요합니다. 데이터를 원근감 있게 바라보는 것은 가능한 데이터 오류, 누락된 값, 잘못된 데이터 유형, 오해의 소지가 있는/잘못된 데이터, 이상치 데이터 등을 이해하기 위해 각 열을 보는 것을 수반합니다.

이 게시물에서는 방법을 보여 드리겠습니다. Amazon SageMaker 데이터 랭글러 데이터 분포의 주요 시각화를 자동으로 생성하고, 데이터 품질 문제를 감지하고, 한 줄의 코드를 작성하지 않고도 각 기능에 대한 이상값과 같은 데이터 통찰력을 표시합니다. 자동 품질 경고(예: 누락된 값 또는 유효하지 않은 값)로 데이터 그리드 환경을 개선하는 데 도움이 됩니다. 자동으로 생성된 시각화도 대화형입니다. 예를 들어 상위 XNUMX개 항목을 백분율로 정렬한 표를 표시하고 막대 위로 마우스를 가져가 개수와 백분율 간에 전환할 수 있습니다.

사전 조건

Amazon SageMaker Data Wrangler는 SageMaker Studio 내에서 사용할 수 있는 SageMaker 기능입니다. 당신은 따를 수 있습니다 Studio 온보딩 프로세스 Studio 환경과 노트북을 가동합니다. 몇 가지 인증 방법 중에서 선택할 수 있지만 Studio 도메인을 만드는 가장 간단한 방법은 다음을 따르는 것입니다. 빠른 시작 지침. 빠른 시작은 표준 Studio 설정과 동일한 기본 설정을 사용합니다. 다음을 사용하여 온보딩하도록 선택할 수도 있습니다. AWS Identity and Access Management(IAM) 자격 증명 센터 (AWS Single Sign-On의 후속) 인증(참조 IAM Identity Center를 사용하여 Amazon SageMaker 도메인에 온보딩).

솔루션 연습

시작하세요 SageMaker 스튜디오 환경과 새로운 창조 데이터 랭글러 흐름. 자체 데이터세트를 가져오거나 샘플 데이터세트(거대한) 다음 이미지와 같이. 이 두 노드( 노드와 데이터 유형 노드)를 클릭할 수 있습니다. 이 두 노드를 두 번 클릭하면 Data Wrangler가 테이블을 표시합니다.

우리의 경우, 데이터 타입 아이콘과 변환 추가:

이제 각 열 위에 시각화가 표시되어야 합니다. 차트가 로드될 때까지 약간의 시간을 허용하십시오. 대기 시간은 데이터 세트의 크기에 따라 다릅니다(Titanic 데이터 세트의 경우 기본 인스턴스에서 1-2초가 소요됨).

Amazon SageMaker Data Wrangler의 새로운 내장 시각화 PlatoBlockchain Data Intelligence를 소개합니다. 수직 검색. 일체 포함.

도구 설명 위로 마우스를 이동하여 가로 상단 표시줄로 스크롤합니다. 이제 차트가 로드되었으므로 데이터 분포, 유효하지 않은 값 및 누락된 값을 볼 수 있습니다. 이상값과 누락된 값은 잘못된 데이터의 특성이며 결과에 영향을 줄 수 있으므로 이를 식별하는 것이 중요합니다. 이는 귀하의 데이터가 대표성이 없는 표본에서 나왔기 때문에 연구 결과가 연구 외부 상황에 일반화되지 않을 수 있음을 의미합니다. 값의 분류는 하단의 차트에서 볼 수 있습니다. 유효한 값은 흰색으로 표시되며, 무효의 파란색 값 및 누락 보라색 값. 당신은 또한 볼 수 있습니다 이상치 차트의 왼쪽 또는 오른쪽에 파란색 점으로 표시됩니다.

Amazon SageMaker Data Wrangler의 새로운 내장 시각화 PlatoBlockchain Data Intelligence를 소개합니다. 수직 검색. 일체 포함.

모든 시각화는 히스토그램의 형태로 제공됩니다. 비범주 데이터의 경우 버킷 세트는 각 그룹에 대해 정의됩니다. 범주형 데이터의 경우 각 고유 값은 구간차원으로 처리됩니다. 히스토그램 위에는 유효하지 않은 값과 누락된 값을 보여주는 막대 차트가 있습니다. Numeric, Categorical, Binary, Text 및 Datetime 유형에 대한 유효한 값의 비율과 총 null 및 빈 셀을 기준으로 누락된 값의 비율, 마지막으로 유효하지 않은 값의 비율을 볼 수 있습니다. 다음을 사용하여 이러한 항목을 볼 수 있는 방법을 이해하기 위해 몇 가지 예를 살펴보겠습니다. Data Wrangler의 사전 로드된 샘플 Titanic Dataset.

예제 1 – 20% 누락된 값을 볼 수 있습니다. 연령 기능/열. 데이터 관련 연구/ML 분야에서 누락된 데이터를 제거하거나 대치(일부 추정으로 누락된 값 처리)하여 처리하는 것이 중요합니다.

Amazon SageMaker Data Wrangler의 새로운 내장 시각화 PlatoBlockchain Data Intelligence를 소개합니다. 수직 검색. 일체 포함.
다음을 사용하여 누락된 값을 처리할 수 있습니다. 누락된 값 처리 변형 그룹. 사용 귀속 누락 입력 열에서 누락된 값이 발견된 대치된 값을 생성하도록 변환합니다. 구성은 데이터 유형에 따라 다릅니다.

이 예에서 연령 열에는 숫자 데이터 유형이 있습니다. 전가 전략의 경우 다음을 전가하도록 선택할 수 있습니다. 평균 또는 대략적인 중앙값 데이터세트에 있는 값보다

이제 변환을 추가했으므로 연령 열에 더 이상 누락된 값이 없습니다.

예제 2 – 27%의 유효하지 않은 값을 볼 수 있습니다. 티켓 의 기능/열 STRING 유형. 유효하지 않은 데이터는 편향된 추정치를 생성하여 모델의 정확도를 낮추고 잘못된 결론을 내릴 수 있습니다. 다음에서 유효하지 않은 데이터를 처리하는 데 활용할 수 있는 몇 가지 변환을 살펴보겠습니다. 티켓 열입니다.

스크린샷을 보면 일부 입력이 숫자 앞에 알파벳이 포함된 형식으로 작성되어 있음을 알 수 있습니다.PC 17318” 및 기타는 “와 같은 숫자일 뿐입니다.11769".

"와 같은 문자열 내에서 특정 패턴을 검색하고 편집하기 위해 변환을 적용하도록 선택할 수 있습니다.PC” 교체하십시오. 다음으로 캐스팅할 수 있습니다. 현 열을 다음과 같은 새로운 유형으로 긴 사용하기 쉽도록

여전히 19%의 누락된 값이 남아 있습니다. 티켓 특징. 예 1과 유사하게 이제 평균 또는 근사 중앙값을 사용하여 누락된 값을 대치할 수 있습니다. 기능 티켓 더 이상 아래 이미지에 따라 유효하지 않거나 누락된 값이 없어야 합니다.

이 자습서를 수행한 후 비용이 발생하지 않도록 하려면 다음을 확인하십시오. 데이터 랭글러 앱 종료.

결론

이번 포스팅에서는 새로운 Amazon Sagemaker 데이터 랭글러 제거에 도움이 되는 위젯 미분화 무거운 물건 들기 각 기능에 대한 시각화 및 데이터 프로파일링 인사이트를 자동으로 표시하여 데이터 준비 중에 최종 사용자를 위한 것입니다. 이 위젯을 사용하면 데이터 시각화(예: 범주형/비범주형 히스토그램), 데이터 품질 문제(예: 누락된 값 및 유효하지 않은 값) 및 표면 데이터 통찰력(예: 이상값 및 상위 N 항목)을 쉽게 감지할 수 있습니다.

SageMaker Studio를 사용할 수 있는 모든 지역에서 오늘부터 이 기능을 사용할 수 있습니다. 시도 해봐, 그리고 당신의 생각을 알려주십시오. 평소 AWS 지원 연락처를 통해 또는 AWS 포럼 SageMaker용.

저자에 관하여

이샤 두아 샌프란시스코 베이 지역에 거주하는 수석 솔루션 아키텍트입니다. 그녀는 AWS Enterprise 고객이 목표와 과제를 이해하여 성장하도록 돕고, 탄력성과 확장성을 보장하면서 클라우드 네이티브 방식으로 애플리케이션을 설계할 수 있는 방법을 안내합니다. 그녀는 기계 학습 기술과 환경 지속 가능성에 열정적입니다.

파스 파텔 샌프란시스코 베이 지역에 있는 AWS의 솔루션 아키텍트입니다. Parth는 고객이 클라우드로의 여정을 가속화하고 AWS 클라우드를 성공적으로 채택하도록 안내합니다. 그는 ML 및 애플리케이션 현대화에 중점을 둡니다.

타임 스탬프 : 2022 년 12 월 13 일2022 년 12 월 13 일

타임 스탬프 : 29년 2022월 XNUMX일

Amazon SageMaker Data Wrangler의 새로운 임베디드 시각화 소개

플라톤에 의해 재발행

사전 조건

솔루션 연습

결론

저자에 관하여

더보기 AWS 기계 학습

DJLServing 및 DeepSpeed 모델 병렬 추론을 사용하여 Amazon SageMaker에 대규모 모델 배포

AWS Lake Formation을 사용하여 오프라인에서 Amazon SageMaker Feature Store에 대한 액세스 제어

Amazon Kendra의 맞춤법 검사기로 검색 정확도 향상

Amazon SageMaker 지리 공간 기능을 사용하여 설치류 감염 분석 | 아마존 웹 서비스

Amazon Kendra Slack 커넥터를 사용하는 지능형 검색으로 Slack 작업 공간의 지식을 풀다

Sophos가 Amazon SageMaker를 사용하여 강력하고 가벼운 PDF 맬웨어 탐지기를 대규모로 훈련하는 방법

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정