Amazon SageMaker Data Wrangler PlatoBlockchain 데이터 인텔리전스와 함께 Github 샘플을 사용하세요. 수직 검색. 일체 포함.

Amazon SageMaker Data Wrangler와 함께 Github 샘플 사용

아마존 세이지메이크r 데이터 랭글러 데이터를 더 빠르게 정리, 변환 및 준비하는 기능으로 데이터 분석, 전처리 및 시각화를 수행하는 데 도움이 되는 UI 기반 데이터 준비 도구입니다. Data Wrangler의 사전 구축된 흐름 템플릿은 공통 데이터 세트를 사용하는 데이터 흐름에 대한 모범 사례 패턴을 가속화하고 이해하도록 도와줌으로써 데이터 과학자와 기계 학습(ML) 실무자가 데이터를 더 빠르게 준비할 수 있도록 도와줍니다.

Data Wrangler 흐름을 사용하여 다음 작업을 수행할 수 있습니다.

  • 데이터 시각화 – 데이터 세트의 각 열에 대한 통계 속성 검사, 히스토그램 작성, 특이 치 연구
  • 데이터 정리 – 중복 제거, 누락 된 값으로 항목 삭제 또는 채우기, 이상 값 제거
  • 데이터 강화 및 기능 엔지니어링 – 열을 처리하여 더욱 표현력있는 기능을 구축하고 교육용 기능의 하위 집합을 선택합니다.

이 게시물은 다음 샘플 사전 구축 흐름을 사용하여 Data Wrangler를 이해하는 데 도움이 됩니다. GitHub의. 리포지토리는 테이블 형식 데이터 변환, 시계열 데이터 변환 및 결합된 데이터 세트 변환을 보여줍니다. 각각은 기본 특성 때문에 다른 유형의 변환이 필요합니다. 표준 표 또는 횡단면 데이터는 특정 시점에 수집됩니다. 대조적으로 시계열 데이터는 시간이 지남에 따라 반복적으로 캡처되며 각 연속 데이터 포인트는 과거 값에 종속됩니다.

표 형식 데이터에 샘플 데이터 흐름을 사용하는 방법의 예를 살펴보겠습니다.

사전 조건

데이터 랭글러는 아마존 세이지 메이커 내에서 사용 가능한 기능 아마존 세이지 메이커 스튜디오, 따라서 Studio 환경 및 노트북을 가동하려면 Studio 온보딩 프로세스를 따라야 합니다. 몇 가지 인증 방법 중에서 선택할 수 있지만 Studio 도메인을 만드는 가장 간단한 방법은 빠른 시작 지침. 빠른 시작은 기본 설정과 동일한 기본 설정을 사용합니다. 표준 스튜디오 설정. 다음을 사용하여 온보딩을 선택할 수도 있습니다. AWS IAM 자격 증명 센터 (AWS Single Sign-On의 후속) 인증(참조 IAM Identity Center를 사용하여 Amazon SageMaker 도메인에 온보딩).

Studio를 사용하여 데이터 세트 및 흐름 파일을 Data Wrangler로 가져오기

다음 단계에서는 Data Wrangler에서 사용할 데이터를 SageMaker로 가져오는 방법을 간략하게 설명합니다.

다음을 선택하여 Studio UI를 통해 Data Wrangler를 초기화합니다. 새로운 데이터 흐름.

클론 GitHub 레포 플로우 파일을 Studio 환경으로 다운로드합니다.

Amazon SageMaker Data Wrangler PlatoBlockchain 데이터 인텔리전스와 함께 Github 샘플을 사용하세요. 수직 검색. 일체 포함.

복제가 완료되면 왼쪽 창에서 리포지토리 콘텐츠를 볼 수 있어야 합니다.

Amazon SageMaker Data Wrangler PlatoBlockchain 데이터 인텔리전스와 함께 Github 샘플을 사용하세요. 수직 검색. 일체 포함.

파일을 선택하십시오 호텔-예약-분류.흐름 흐름 파일을 Data Wrangler로 가져옵니다.

시계열 또는 결합된 데이터 흐름을 사용하는 경우 흐름이 다른 이름으로 표시됩니다. 흐름을 가져온 후 다음 스크린샷이 표시되어야 합니다. 흐름 파일이 올바른 데이터 소스를 가리키는지 확인해야 하기 때문에 오류가 표시됩니다. 아마존 단순 스토리지 서비스 (아마존 S3).

Amazon SageMaker Data Wrangler PlatoBlockchain 데이터 인텔리전스와 함께 Github 샘플을 사용하세요. 수직 검색. 일체 포함.

왼쪽 메뉴에서 데이터 세트 수정 모든 S3 버킷을 불러옵니다. 다음으로 데이터 세트를 선택합니다. hotel_bookings.csv 실행을 위해 S3 버킷에서 테이블 형식 데이터 흐름.

사용하는 경우 참고하세요. 결합된 데이터 흐름, 여러 데이터 세트를 Data Wrangler로 가져와야 할 수 있습니다.Amazon SageMaker Data Wrangler PlatoBlockchain 데이터 인텔리전스와 함께 Github 샘플을 사용하세요. 수직 검색. 일체 포함.

오른쪽 창에서 구분 기호로 선택되고 샘플링퍼스트케이. 우리의 데이터세트는 전체 데이터세트에서 Data Wrangler 변환을 실행할 만큼 충분히 작지만 데이터세트를 가져올 수 있는 방법을 강조하고 싶었습니다. 큰 데이터 세트가 있는 경우 샘플링 사용을 고려하십시오. 선택하다 수입 이 데이터 세트를 Data Wrangler로 가져옵니다.

Amazon SageMaker Data Wrangler PlatoBlockchain 데이터 인텔리전스와 함께 Github 샘플을 사용하세요. 수직 검색. 일체 포함.

데이터 세트를 가져온 후 Data Wrangler는 자동으로 데이터 세트의 유효성을 검사하고 데이터 유형을 감지합니다. 올바른 데이터 세트를 가리키고 있기 때문에 오류가 사라진 것을 볼 수 있습니다. 이제 흐름 편집기에 소스에서 가져온 데이터와 인식된 데이터 유형을 보여주는 두 개의 블록이 표시됩니다. 필요한 경우 데이터 유형을 편집할 수도 있습니다.

Amazon SageMaker Data Wrangler PlatoBlockchain 데이터 인텔리전스와 함께 Github 샘플을 사용하세요. 수직 검색. 일체 포함.

다음 스크린샷은 데이터 유형을 보여줍니다.

Amazon SageMaker Data Wrangler PlatoBlockchain 데이터 인텔리전스와 함께 Github 샘플을 사용하세요. 수직 검색. 일체 포함.

이 표 형식 흐름의 일부로 수행된 일부 변환을 살펴보겠습니다. 사용하는 경우 시계열 or 합류 한 데이터 흐름에 대한 몇 가지 일반적인 변환을 확인하십시오. GitHub 레포. 데이터 세트의 대상 누출 및 기능 공선성을 연구한 데이터 통찰력 보고서, 테이블 요약 분석 및 빠른 모델링 기능을 사용하여 몇 가지 기본적인 탐색적 데이터 분석을 수행했습니다. 다음 단계를 살펴보세요. GitHub 레포.

이제 데이터 인사이트 및 품질 보고서에서 제공하는 권장 사항을 기반으로 열을 삭제합니다.

  • 대상 누출의 경우 드롭 예약 상태.
  • 중복 열의 경우 삭제 days_in_waiting_list, 호텔, reserved_room_type, arrival_date_month, booking_status_date, 아기, 도착_날짜_일_중_월.
  • 선형 상관 결과에 따라 열 삭제 도착일_주_번호 도착일_년 이러한 기능(열) 쌍에 대한 상관 값이 권장 임계값인 0.90보다 크기 때문입니다.
  • 비선형 상관 관계 결과를 기반으로 드롭 예약 상태. 이 열은 대상 누출 분석을 기반으로 이미 삭제된 것으로 표시되었습니다.
  • 프로세스 숫자 값(최소-최대 스케일링) Lead_time, stay_in_weekend_nights, stay_in_weekday_nights, is_repeated_guest, prev_cancellations, prev_bookings_not_canceled, booking_changes, adr, total_of_specical_requests, 필수_자동차_주차_공간.
  • 다음과 같은 범주형 변수를 원-핫 인코딩합니다. 식사, is_repeated_guest, market_segment,assigned_room_type,deposit_type, 고객 유형.
  • 클래스 불균형에 대한 대상 변수 랜덤 오버샘플의 균형을 맞춥니다. 빠른 모델링 기능을 사용하여 이상값 및 누락된 값을 처리합니다.

Amazon SageMaker Data Wrangler PlatoBlockchain 데이터 인텔리전스와 함께 Github 샘플을 사용하세요. 수직 검색. 일체 포함.

Amazon S3로 내보내기

이제 다양한 변환을 거쳤으며 데이터를 Amazon S3로 내보낼 준비가 되었습니다. 이 옵션은 Data Wrangler 처리 흐름을 실행하고 결과 데이터 세트를 지정된 S3 버킷에 저장하는 SageMaker 처리 작업을 생성합니다. 다음 단계에 따라 Amazon S3로 내보내기를 설정하십시오.

변환 요소 모음 옆에 있는 더하기 기호를 선택하고 목적지 추가다음, 아마존 S3.

Amazon SageMaker Data Wrangler PlatoBlockchain 데이터 인텔리전스와 함께 Github 샘플을 사용하세요. 수직 검색. 일체 포함.

  • 럭셔리 데이터 세트 이름, 새 데이터세트의 이름을 입력합니다. 예를 들면 NYC_export.
  • 럭셔리 파일 형식선택한다. CSV.
  • 럭셔리 구분 기호선택한다. 콤마.
  • 럭셔리 압축선택한다. 없음.
  • 럭셔리 아마존 S3 위치, 이전에 생성한 것과 동일한 버킷 이름을 사용합니다.
  • 왼쪽 메뉴에서 목적지 추가.

Amazon SageMaker Data Wrangler PlatoBlockchain 데이터 인텔리전스와 함께 Github 샘플을 사용하세요. 수직 검색. 일체 포함.

왼쪽 메뉴에서 직업 만들기.

Amazon SageMaker Data Wrangler PlatoBlockchain 데이터 인텔리전스와 함께 Github 샘플을 사용하세요. 수직 검색. 일체 포함.

럭셔리 직업 이름, 이름을 입력하거나 자동 생성된 옵션을 유지하고 목적지. 우리의 목적지는 단 하나, S3:testingtabulardata, 하지만 워크플로의 다른 단계에서 여러 대상이 있을 수 있습니다. 떠나다 KMS 키 ARN 필드가 비어 있고 선택 다음 보기.

이제 작업에 대한 컴퓨팅 용량을 구성해야 합니다. 이 예에서는 모든 기본값을 유지할 수 있습니다.

  • 럭셔리 인스턴스 유형, ml.m5.4xlarge를 사용합니다.
  • 럭셔리 인스턴스 수, 2를 사용합니다.
  • 탐색할 수 있습니다. 추가 구성, 그러나 기본 설정을 유지하십시오.
  • 왼쪽 메뉴에서 달리기.

Amazon SageMaker Data Wrangler PlatoBlockchain 데이터 인텔리전스와 함께 Github 샘플을 사용하세요. 수직 검색. 일체 포함.

이제 작업이 시작되었으며 Data Wrangler 처리 흐름에 따라 6GB의 데이터를 처리하는 데 시간이 걸립니다. ml.m2xlarge는 시간당 $5.4 USD이고 우리는 그 중 0.922개를 사용하기 때문에 이 작업의 비용은 약 $XNUMX USD입니다.

작업 이름을 선택하면 작업 세부 정보가 있는 새 창으로 리디렉션됩니다.

Amazon SageMaker Data Wrangler PlatoBlockchain 데이터 인텔리전스와 함께 Github 샘플을 사용하세요. 수직 검색. 일체 포함.

작업 세부 정보 페이지에서 이전 단계의 모든 매개변수를 볼 수 있습니다.

작업 상태가 완료됨으로 변경되면 다음을 확인할 수도 있습니다. 처리 시간(초) 값. 이 처리 작업을 완료하는 데 약 5-10분이 걸립니다.

Amazon SageMaker Data Wrangler PlatoBlockchain 데이터 인텔리전스와 함께 Github 샘플을 사용하세요. 수직 검색. 일체 포함.

작업이 완료되면 해당 S3 출력 폴더에서 훈련 및 테스트 출력 파일을 사용할 수 있습니다. 처리 작업 구성에서 출력 위치를 찾을 수 있습니다.

Amazon SageMaker Data Wrangler PlatoBlockchain 데이터 인텔리전스와 함께 Github 샘플을 사용하세요. 수직 검색. 일체 포함.

Data Wrangler 처리 작업이 완료되면 S3 버킷에 저장된 결과를 확인할 수 있습니다. 업데이트하는 것을 잊지 마세요. job_name 작업 이름이 있는 변수.

이제 이 내보낸 데이터를 ML 모델 실행에 사용할 수 있습니다.

정리

S3 버킷 삭제 귀하는 데이터 랭글러 흐름 실험을 마친 후 기본 리소스를 삭제하고 원치 않는 비용을 방지하기 위해.

결론

이 게시물에서는 테이블 형식의 사전 구축 데이터 흐름을 Data Wrangler로 가져와서 데이터 세트에 연결하고 결과를 Amazon S3로 내보내는 방법을 보여주었습니다. 사용 사례에서 시계열 데이터를 조작하거나 여러 데이터 세트를 조인해야 하는 경우 GitHub 레포.

사전 구축된 데이터 준비 워크플로를 가져온 후 Amazon SageMaker Processing과 통합할 수 있습니다. Amazon SageMaker 파이프 라인Amazon SageMaker 기능 스토어 ML 교육 데이터를 처리, 공유 및 저장하는 작업을 단순화합니다. 이 샘플 데이터 흐름을 Python 스크립트로 내보내고 사용자 지정 ML 데이터 준비 파이프라인을 만들어 릴리스 속도를 높일 수도 있습니다.

우리는 당신이 우리를 확인하는 것이 좋습니다 GitHub 저장소 실습을 통해 모델 정확도를 개선할 수 있는 새로운 방법을 찾아보세요! SageMaker에 대해 자세히 알아보려면 다음을 방문하십시오. Amazon SageMaker 개발자 안내서.


저자에 관하여

Amazon SageMaker Data Wrangler PlatoBlockchain 데이터 인텔리전스와 함께 Github 샘플을 사용하세요. 수직 검색. 일체 포함.이샤 두아 샌프란시스코 베이 지역에 거주하는 수석 솔루션 아키텍트입니다. 그녀는 AWS Enterprise 고객이 목표와 과제를 이해하여 성장하도록 돕고, 탄력성과 확장성을 보장하면서 클라우드 네이티브 방식으로 애플리케이션을 설계할 수 있는 방법을 안내합니다. 그녀는 기계 학습 기술과 환경 지속 가능성에 열정적입니다.

타임 스탬프 :

더보기 AWS 기계 학습