Amazon SageMaker 데이터 랭글러를 사용하여 무작위 및 계층화된 데이터 샘플 생성

플라톤에 의해 재발행

팔로워 : 0

이 게시물에서는 두 가지 샘플링 기술을 안내합니다. Amazon SageMaker 데이터 랭글러 데이터에 대한 처리 워크플로를 빠르게 생성할 수 있습니다. 특정 요구 사항에 따라 데이터를 샘플링하는 데 도움이 되도록 무작위 샘플링과 계층화된 샘플링 기술을 모두 다룹니다.

Data Wrangler는 머신 러닝(ML)을 위해 데이터를 집계하고 준비하는 데 걸리는 시간을 몇 주에서 몇 분으로 단축합니다. 단일 시각적 인터페이스에서 데이터 준비 및 기능 엔지니어링 프로세스를 단순화하고 데이터 선택, 정리, 탐색 및 시각화를 포함한 데이터 준비 워크플로의 각 단계를 완료할 수 있습니다. Data Wrangler의 데이터 선택 도구를 사용하면 다양한 데이터 소스에서 원하는 데이터를 선택하고 클릭 한 번으로 가져올 수 있습니다. Data Wrangler에는 300개 이상의 기본 제공 데이터 변환이 포함되어 있으므로 코드를 작성하지 않고도 기능을 신속하게 정규화, 변환 및 결합할 수 있습니다. Data Wrangler의 시각화 템플릿을 사용하면 이러한 변환이 의도한 대로 완료되었는지 빠르게 미리 보고 검사할 수 있습니다. 아마존 세이지 메이커 스튜디오, ML을 위한 최초의 완전 통합 개발 환경(IDE)입니다. 데이터가 준비되면 다음을 사용하여 완전히 자동화된 ML 워크플로를 구축할 수 있습니다. Amazon SageMaker 파이프 라인 다음에서 재사용을 위해 저장합니다. Amazon SageMaker 기능 스토어.

샘플링이란 무엇이며 어떻게 도움이 될 수 있습니까?

통계 분석에서 전체 관찰 세트는 인구. 데이터로 작업할 때 모집단의 모든 관찰을 측정하는 것이 계산적으로 실현 가능하지 않은 경우가 많습니다. 통계적 샘플링 모집단에서 부분 집합을 선택하여 데이터를 이해할 수 있는 절차입니다.

샘플링은 실용성과 용이함을 위해 어느 정도 정확도를 희생하는 실용적인 솔루션을 제공합니다. 표본이 전체 모집단을 잘 나타내도록 하기 위해 표본 추출 전략을 사용할 수 있습니다. Data Wrangler는 가장 일반적인 두 가지 전략을 지원합니다. 무작위 추출 및 계층화 된 샘플링.

무작위 샘플링

큰 데이터 세트가 있는 경우 해당 데이터 세트에 대한 실험에 시간이 많이 걸릴 수 있습니다. Data Wrangler는 무작위 샘플링을 제공하므로 데이터를 효율적으로 처리하고 시각화할 수 있습니다. 예를 들어, 일정 기간 내에 고객의 평균 구매 수를 계산하거나 가입자의 이탈률을 계산할 수 있습니다. 무작위 샘플을 사용하여 이러한 메트릭에 대한 근사치를 시각화할 수 있습니다.

데이터 세트에서 무작위 샘플이 선택되어 각 요소가 선택될 확률이 동일합니다. 이 작업은 대규모 데이터 세트에 적합한 효율적인 방식으로 수행되므로 반환된 샘플 크기는 대략 요청된 크기이며 요청된 크기와 반드시 같지는 않습니다.

데이터 세트를 이해하기 위해 빠른 근사 계산을 수행하려는 경우 임의 샘플링을 사용할 수 있습니다. 표본 크기가 커질수록 무작위 표본은 전체 데이터 세트를 더 잘 근사할 수 있지만 모든 데이터 요소를 포함하지 않는 한 무작위 표본에는 모든 이상치와 예외 사례가 포함되지 않을 수 있습니다. 전체 데이터 세트를 대화식으로 준비하려는 경우 더 큰 인스턴스 유형으로 전환할 수도 있습니다.

일반적으로 무작위 표본을 사용하여 모집단 평균을 계산할 때 표본 오차는 표본이 커질수록 0이 되는 경향이 있습니다. 표본 크기가 증가함에 따라 표본 크기의 제곱근의 역수만큼 오차가 감소합니다. 테이크아웃은 표본이 클수록 근사치가 더 좋습니다.

계층화 샘플링

경우에 따라 인구를 계층 또는 상호 배타적인 버킷으로 나눌 수 있습니다(예: 주소의 지리적 위치, 노래의 발행 연도 또는 소득의 과세 구분). 무작위 샘플링은 가장 널리 사용되는 샘플링 기술이지만 일부 계층이 모집단에서 흔하지 않은 경우 Data Wrangler에서 계층화된 샘플링을 사용하여 각 계층이 샘플에서 비례적으로 표현되도록 할 수 있습니다. 이는 샘플링 오류를 줄이는 데 유용할 뿐만 아니라 실험 중에 극단적인 경우를 캡처하는 데에도 유용할 수 있습니다.

현실 세계에서 사기성 신용 카드 거래는 드문 경우이며 일반적으로 데이터의 1% 미만을 차지합니다. 무작위로 표본을 추출한다면 표본에 사기 거래가 거의 또는 전혀 포함되지 않는 것이 일반적입니다. 결과적으로 모델을 훈련할 때 정확한 모델을 배우기에는 사기 사례가 너무 적습니다. 계층화된 샘플링을 사용하여 사기 거래를 비례적으로 나타낼 수 있습니다.

계층화 표본 추출에서 표본의 각 계층 크기는 모집단의 계층 크기에 비례합니다. 이것은 데이터를 지정된 열을 기반으로 계층으로 나누고 각 계층에서 올바른 비율로 무작위 샘플을 선택한 다음 해당 샘플을 계층화된 모집단 샘플로 결합하는 방식으로 작동합니다.

계층화 샘플링은 데이터의 여러 그룹이 서로 비교되는 방식을 이해하고 각 그룹에서 적절한 표현이 있는지 확인하려는 경우에 유용한 기술입니다.

Amazon S3에서 가져올 때 무작위 샘플링

이 섹션에서는 사기 탐지 시스템의 사기 및 비사기 이벤트로 구성된 데이터 세트와 함께 무작위 샘플링을 사용합니다. 당신은 할 수 있습니다 다운로드 이 게시물과 함께 따라야 할 데이터 세트(CC 4.0 국제 저작자 표시 라이선스).

이 글을 쓰는 시점에서 다음에서 데이터세트를 가져올 수 있습니다. 아마존 단순 스토리지 서비스 (아마존 S3), 아마존 아테나, 아마존 레드 시프트, 그리고 눈송이. 우리의 데이터세트는 1만 행을 포함하는 매우 큽니다. 이 경우 Data Wrangler 내에서 몇 가지 대화형 실험을 위해 Amazon S1,0000에서 가져올 때 3개의 행을 샘플링하려고 합니다.

SageMaker Studio를 열고 새로운 Data Wrangler 흐름을 생성합니다.
$XNUMX Million 미만 데이터 가져 오기선택한다. 아마존 S3.
가져올 데이터세트를 선택합니다.
. 세부 정보 창에서 데이터세트 이름과 파일 형식을 제공합니다.
럭셔리 샘플링선택한다. 랜덤 무작위.
럭셔리 표본의 크기, 입력 10000.
왼쪽 메뉴에서 수입 데이터 랭글러에 데이터 세트를 로드합니다.

Data Wrangler의 데이터 흐름 페이지에서 두 가지 개별 단계를 시각화할 수 있습니다. 첫 번째 단계는 정의한 샘플링 전략에 따라 샘플 데이터 세트를 로드하는 것을 나타냅니다. 데이터가 로드된 후 Data Wrangler는 데이터 세트의 각 열에 대한 데이터 유형의 자동 감지를 수행합니다. 이 단계는 기본적으로 모든 데이터 세트에 추가됩니다.

이제 분석을 추가하여 Data Wrangler에서 무작위로 샘플링된 데이터를 검토할 수 있습니다.

옆에 있는 더하기 기호를 선택합니다. 자료형 선택하고 Analysis.
럭셔리 분석 유형¸ 선택 산포도.
왼쪽 메뉴에서 feat_1 및 feat_2 에 관해서 X 축 및 Y축각각.
럭셔리 색상선택한다. is_fraud.

데이터 세트에 익숙해지면 비즈니스 요구 사항에 따라 추가 데이터 변환을 진행하여 ML용 데이터를 준비합니다.

다음 스크린샷에서 우리는 분석에서 사기성(짙은 파란색) 및 비 사기성(밝은 파란색) 거래를 관찰할 수 있습니다.

다음 섹션에서는 계층화된 샘플링을 사용하여 사기 사례가 비례적으로 선택되도록 하는 방법에 대해 설명합니다.

변환을 사용한 계층화 샘플링

Data Wrangler를 사용하면 가져올 때 샘플링할 수 있을 뿐만 아니라 변환을 통해 샘플링할 수도 있습니다. 이 섹션에서는 데이터 세트를 Data Wrangler로 가져온 후 변환을 통해 계층화된 샘플링을 사용하는 방법에 대해 설명합니다.

샘플링을 시작하려면 데이터 흐름 탭에서 가져온 데이터 세트 옆에 있는 더하기 기호를 선택하고 변형 추가.

이 글을 쓰는 시점에서 Data Wrangler는 다음 이상의 기능을 제공합니다. 300가지 기본 제공 변환. 기본 제공 변환 외에도 Pandas 또는 PySpark에서 사용자 지정 변환을 작성할 수 있습니다.

에서 변형 추가 목록에서 선택 샘플링.

이제 세 가지 고유한 샘플링 전략(한계, 무작위 및 계층화)을 사용할 수 있습니다.

럭셔리 샘플링 방법선택한다. 층화.
사용 is_fraud 열을 계층화 열로 사용합니다.
왼쪽 메뉴에서 시사 변환을 미리 보려면 다음을 선택하십시오. 추가 이 변환을 변환 레시피의 단계로 추가합니다.

이제 데이터 흐름에 추가된 샘플링 단계가 반영됩니다.

이제 분석을 추가하여 무작위 샘플링된 데이터를 검토할 수 있습니다.

더하기 기호를 선택하고 Analysis.
럭셔리 분석 유형¸ 선택 히스토그램.
왼쪽 메뉴에서 is_fraud 모두 X 축 및 색상.
왼쪽 메뉴에서 시사.

다음 스크린샷에서 계층화된 샘플링을 통해 20% 사기 및 80% 비 사기로 선택된 사기성(진한 파란색) 및 비 사기성(하늘색) 사례의 분석을 관찰할 수 있습니다.

결론

매우 큰 데이터 세트로 작업할 때 데이터를 올바르게 샘플링하고 비즈니스 요구 사항을 충족하는 올바른 샘플링 전략을 선택하는 것이 중요합니다. 샘플링의 효율성은 비즈니스 결과, 데이터 가용성 및 배포를 포함한 다양한 요인에 따라 달라집니다. 이 게시물에서는 Data Wrangler와 기본 제공 샘플링 전략을 사용하여 데이터를 준비하는 방법을 다루었습니다.

지금 SageMaker Studio를 사용할 수 있는 모든 지역에서 이 기능을 사용할 수 있습니다. 시작하려면 다음을 방문하세요. Amazon SageMaker Data Wrangler로 ML 데이터 준비.

감사의 글

저자는 이 기사에 대한 검토와 귀중한 피드백에 대해 Jonathan Chung(응용 과학자)에게 감사드립니다.

저자에 관하여

벤 해리스 다양한 도메인에서 확장 가능한 데이터 파이프라인과 기계 학습 솔루션을 설계, 배포 및 유지 관리한 경험이 있는 소프트웨어 엔지니어입니다.

비샤알 카푸르 AWS AI의 수석 응용 과학자입니다. 그는 고객이 Data Wrangler에서 데이터를 이해하도록 돕는 데 열정을 쏟고 있습니다. 여가 시간에는 산악 자전거와 스노보드를 타고 가족과 시간을 보냅니다.

미낙시순다람 탄다바라얀 AWS의 수석 AI/ML 전문가입니다. 그는 AI 및 ML 여정에서 Hi-Tech 전략적 계정을 돕습니다. 그는 데이터 기반 AI에 대해 매우 열정적입니다.

아자이 샤르마 Amazon SageMaker의 수석 제품 관리자로 데이터 과학자를 위한 시각적 데이터 준비 도구인 Data Wrangler에 중점을 두고 있습니다. AWS에 합류하기 전에 Ajai는 McKinsey and Company에서 데이터 과학 전문가로 재직하면서 전 세계 주요 금융 및 보험 회사의 ML 중심 업무를 이끌었습니다. Ajai는 데이터 과학에 열정적이며 최신 알고리즘과 기계 학습 기술을 탐구하는 것을 좋아합니다.

타임 스탬프 : 2022 년 4 월 26 일

타임 스탬프 : 6년 2024월 XNUMX일

Amazon SageMaker Data Wrangler를 사용하여 무작위 계층화된 데이터 샘플 생성

플라톤에 의해 재발행

샘플링이란 무엇이며 어떻게 도움이 될 수 있습니까?

무작위 샘플링

계층화 샘플링

Amazon S3에서 가져올 때 무작위 샘플링

변환을 사용한 계층화 샘플링

결론

감사의 글

저자에 관하여

더보기 AWS 기계 학습

LoRA를 사용하여 Amazon SageMaker에서 Whisper 모델을 미세 조정 | 아마존 웹 서비스

Amazon Kendra를 사용하여 Adobe Experience Manager 콘텐츠를 지능적으로 검색 | 아마존 웹 서비스

AWS에서 컴퓨터 비전 파이프라인을 위한 합성 데이터 생성

예약된 노트북 작업으로 Amazon SageMaker Studio 노트북 운영

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정