Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence로 시계열 데이터를 준비하십시오. 수직 검색. 일체 포함.

Amazon SageMaker Data Wrangler로 시계열 데이터 준비

시계열 데이터는 우리 삶에 널리 존재합니다. 주가, 주택 가격, 날씨 정보, 시간 경과에 따른 판매 데이터는 몇 가지 예에 불과합니다. 기업이 시계열 데이터에서 의미 있는 통찰력을 얻을 수 있는 새로운 방법을 점점 더 모색함에 따라 데이터를 시각화하고 원하는 변환을 적용하는 기능은 기본적인 단계입니다. 그러나 시계열 데이터는 다른 종류의 테이블 데이터에 비해 고유한 특성과 뉘앙스를 가지고 있어 특별한 고려가 필요합니다. 예를 들어, 표준 표 또는 횡단면 데이터는 특정 시점에 수집됩니다. 대조적으로 시계열 데이터는 시간이 지남에 따라 반복적으로 캡처되며 각 연속 데이터 포인트는 과거 값에 종속됩니다.

대부분의 시계열 분석은 연속된 관측 세트에서 수집된 정보에 의존하기 때문에 누락된 데이터와 고유한 희소성은 예측의 정확성을 감소시키고 편향을 유발할 수 있습니다. 또한 대부분의 시계열 분석 접근 방식은 데이터 포인트 간의 동일한 간격, 즉 주기성에 의존합니다. 따라서 데이터 간격 불규칙성을 수정하는 기능은 중요한 전제 조건입니다. 마지막으로, 시계열 분석은 종종 입력 데이터와 미래 예측 간의 고유한 관계를 설명하는 데 도움이 될 수 있는 추가 기능을 생성해야 합니다. 이러한 모든 요소는 시계열 프로젝트를 기존의 기계 학습(ML) 시나리오와 구별하고 분석에 대한 고유한 접근 방식을 요구합니다.

이 게시물은 사용 방법을 안내합니다. Amazon SageMaker 데이터 랭글러 시계열 변환을 적용하고 시계열 사용 사례를 위해 데이터세트를 준비합니다.

데이터 랭글러의 사용 사례

Data Wrangler는 데이터를 더 빠르게 정리, 변환 및 준비하는 기능을 통해 시계열 분석에 코드가 없는/낮은 코드 솔루션을 제공합니다. 또한 데이터 과학자는 예측 모델의 입력 형식 요구 사항에 따라 시계열 데이터를 준비할 수 있습니다. 다음은 이러한 기능을 사용할 수 있는 몇 가지 방법입니다.

  • 기술 분석– 일반적으로 모든 데이터 과학 프로젝트의 XNUMX단계는 데이터를 이해하는 것입니다. 시계열 데이터를 플로팅할 때 추세, 계절성, 주기 및 무작위 변동과 같은 패턴에 대한 높은 수준의 개요를 얻습니다. 이는 이러한 패턴을 정확하게 나타내기 위한 올바른 예측 방법을 결정하는 데 도움이 됩니다. 플로팅은 또한 비현실적이고 부정확한 예측을 방지하여 이상값을 식별하는 데 도움이 될 수 있습니다. 데이터 랭글러에는 계절성 경향 분해 시각화 시계열의 구성 요소를 나타내는 데 사용하고 이상치 탐지 시각화 이상치를 식별합니다.
  • 설명 분석– 다변량 시계열의 경우 의미 있는 예측을 얻기 위해서는 둘 이상의 시계열 간의 관계를 탐색, 식별 및 모델링하는 기능이 필수적입니다. 그만큼 그룹화 기준 Data Wrangler의 transform은 지정된 셀에 대한 데이터를 그룹화하여 여러 시계열을 생성합니다. 또한 해당되는 경우 Data Wrangler 시계열 변환을 통해 그룹화할 추가 ID 열을 지정할 수 있으므로 복잡한 시계열 분석이 가능합니다.
  • 데이터 준비 및 기능 엔지니어링– 시계열 데이터는 시계열 모델에서 예상하는 형식이 거의 없습니다. 원시 데이터를 시계열 관련 기능으로 변환하려면 데이터 준비가 필요한 경우가 많습니다. 분석 전에 시계열 데이터가 규칙적으로 또는 균등하게 간격을 두고 있는지 확인할 수 있습니다. 예측 사용 사례의 경우 자기 상관 및 통계 속성과 같은 추가 시계열 특성을 통합할 수도 있습니다. Data Wrangler를 사용하면 여러 지연 기간에 대한 지연 열과 같은 시계열 기능을 빠르게 생성하고, 데이터를 여러 시간 단위로 재샘플링하고, 시계열의 통계 속성을 자동으로 추출하는 등 몇 가지 기능을 사용할 수 있습니다.

솔루션 개요

이 게시물은 데이터 과학자와 분석가가 Data Wrangler를 사용하여 시계열 데이터를 시각화하고 준비하는 방법에 대해 자세히 설명합니다. 우리는 비트 코인 암호 화폐 데이터 세트를 사용합니다. 암호 데이터 다운로드 이러한 기능을 보여주기 위해 비트코인 ​​거래 세부 정보를 제공합니다. 시계열 기능을 사용하여 원시 데이터 세트를 정리, 검증 및 변환하고 변환된 데이터 세트를 입력으로 사용하여 비트코인 ​​볼륨 가격 예측도 생성합니다.

비트코인 거래 데이터 샘플은 1년 19월 2021일부터 464,116월 XNUMX일까지이며 XNUMX개의 데이터 포인트가 있습니다. 데이터 세트 속성에는 가격 기록의 타임스탬프, 코인이 특정 날짜에 교환된 개시 또는 최초 가격, 당일 코인이 교환된 최고 가격, 코인이 교환된 마지막 가격이 포함됩니다. 요일, BTC에서 당일 암호화폐 가치로 교환된 거래량, 해당 USD 통화.

사전 조건

를 다운로드 Bitstamp_BTCUSD_2021_minute.csv 에서 파일 암호 데이터 다운로드 그리고 그것을 업로드 Amazon Simple Storage Service(Amazon S3).

Data Wrangler에서 비트코인 ​​데이터 세트 가져오기

Data Wrangler에 대한 수집 프로세스를 시작하려면 다음 단계를 완료하십시오.

  1. SageMaker 스튜디오 콘솔에서 입양 부모로서의 귀하의 적합성을 결정하기 위해 미국 이민국에 메뉴, 선택 신제품다음을 선택 데이터 랭글러 흐름.
  2. 원하는 대로 흐름의 이름을 바꿉니다.
  3. 럭셔리 데이터 가져 오기선택한다. 아마존 S3.
  4. 업로드 Bitstamp_BTCUSD_2021_minute.csv S3 버킷의 파일입니다.

이제 데이터 세트를 미리 볼 수 있습니다.

  1. . 세부 정보 창, 선택 고급 구성 선택 취소 샘플링 활성화.

이것은 상대적으로 작은 데이터 세트이므로 샘플링이 필요하지 않습니다.

  1. 왼쪽 메뉴에서 수입.

흐름 다이어그램을 성공적으로 생성했으며 변환 단계를 추가할 준비가 되었습니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence로 시계열 데이터를 준비하십시오. 수직 검색. 일체 포함.

변환 추가

데이터 변환을 추가하려면 옆에 있는 더하기 기호를 선택합니다. 자료형 선택하고 데이터 유형 편집.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence로 시계열 데이터를 준비하십시오. 수직 검색. 일체 포함.

Data Wrangler가 데이터 열에 대해 올바른 데이터 유형을 자동으로 유추했는지 확인합니다.

우리의 경우 추론된 데이터 유형이 정확합니다. 그러나 하나의 데이터 유형이 잘못되었다고 가정합니다. 다음 스크린샷과 같이 UI를 통해 쉽게 수정할 수 있습니다.

데이터 유형 편집 및 검토

분석을 시작하고 변환 추가를 시작하겠습니다.

데이터 정리

먼저 여러 데이터 정리 변환을 수행합니다.

열 삭제

떨어뜨리는 것부터 시작하자 unix 열을 사용하기 때문에 date 열을 인덱스로 사용합니다.

  1. 왼쪽 메뉴에서 데이터 흐름으로 돌아 가기.
  2. 옆에 있는 더하기 기호를 선택합니다. 자료형 선택하고 변형 추가.
  3. 왼쪽 메뉴에서 + 단계 추가 FBI 증오 범죄 보고서 변형 창유리.
  4. 왼쪽 메뉴에서 열 관리.
  5. 럭셔리 변환선택한다. 열 삭제.
  6. 럭셔리 놓을 열선택한다. 유닉스.
  7. 왼쪽 메뉴에서 시사.
  8. 왼쪽 메뉴에서 추가 단계를 저장합니다.

핸들 누락

누락된 데이터는 실제 데이터 세트에서 잘 알려진 문제입니다. 따라서 누락되거나 null 값이 있는지 확인하고 적절하게 처리하는 것이 가장 좋습니다. 데이터세트에 누락된 값이 없습니다. 그러나 있다면 우리는 핸들 누락 시계열 변환을 통해 수정합니다. 누락된 데이터를 처리하기 위해 일반적으로 사용되는 전략에는 누락된 값이 있는 행 삭제 또는 합리적인 추정치로 누락된 값 채우기가 포함됩니다. 시계열 데이터는 시간에 따른 일련의 데이터 요소에 의존하기 때문에 결측값을 채우는 것이 선호되는 접근 방식입니다. 결측값을 채우는 과정을 돌리기. 그만큼 핸들 누락 시계열 변환을 사용하면 여러 대치 전략 중에서 선택할 수 있습니다.

  1. 왼쪽 메뉴에서 + 단계 추가 FBI 증오 범죄 보고서 변형 창유리.
  2. 선택 시계열 변환.
  3. 럭셔리 변환, 선택 핸들 누락.
  4. 럭셔리 시계열 입력 유형선택한다. 기둥을 따라.
  5. 럭셔리 값을 대입하는 방법선택한다. 앞으로 채우기.

XNUMXD덴탈의 앞으로 채우기 메소드는 결측값을 결측값 앞에 있는 결측값이 아닌 값으로 바꿉니다.

누락된 시계열 변환 처리

뒤로 채우기, 상수 값, 가장 일반적인 값 보간하다 Data Wrangler에서 사용할 수 있는 다른 전가 전략입니다. 보간 기술은 누락된 값을 채우기 위해 인접 값에 의존합니다. 시계열 데이터는 종종 인접 값 사이의 상관 관계를 나타내므로 보간법을 효과적인 채우기 전략으로 만듭니다. 보간 적용에 사용할 수 있는 기능에 대한 자세한 내용은 다음을 참조하십시오. 팬더.DataFrame.interpolate.

타임스탬프 확인

시계열 분석에서 타임스탬프 열은 분석이 회전하는 인덱스 열의 역할을 합니다. 따라서 타임스탬프 열에 유효하지 않거나 잘못된 형식의 타임스탬프 값이 포함되어 있지 않은지 확인하는 것이 중요합니다. 사용하고 있기 때문에 date 열을 타임스탬프 열 및 인덱스로 사용하여 해당 값의 형식이 올바른지 확인하겠습니다.

  1. 왼쪽 메뉴에서 + 단계 추가 FBI 증오 범죄 보고서 변형 창유리.
  2. 선택 시계열 변환.
  3. 럭셔리 변환, 선택 타임스탬프 확인.

XNUMXD덴탈의 타임스탬프 확인 변환을 사용하면 데이터세트의 타임스탬프 열에 잘못된 타임스탬프 또는 누락된 값이 있는 값이 없는지 확인할 수 있습니다.

  1. 럭셔리 타임스탬프 열선택한다. 데이터.
  2. 럭셔리 정책 드롭다운, 선택 가리키다.

XNUMXD덴탈의 가리키다 정책 옵션은 타임스탬프 열의 값이 유효한 날짜/시간 형식인지 여부를 나타내는 부울 열을 생성합니다. 기타 옵션 정책 과 같습니다 :

  • 오류 – 타임스탬프 열이 없거나 유효하지 않으면 오류가 발생합니다.
  • 드롭 – 타임스탬프 열이 없거나 유효하지 않은 경우 행 삭제
  1. 왼쪽 메뉴에서 시사.

이라는 새 부울 열 date_is_valid 와 함께 만들어졌습니다. true 올바른 형식과 null이 아닌 항목을 나타내는 값. 데이터세트에 잘못된 타임스탬프 값이 포함되어 있지 않습니다. date 열. 그러나 그렇다면 새 부울 열을 사용하여 해당 값을 식별하고 수정할 수 있습니다.

타임스탬프 시계열 변환 검증

  1. 왼쪽 메뉴에서 추가 이 단계를 저장합니다.

시계열 시각화

데이터 세트를 정리하고 검증한 후에는 데이터를 더 잘 시각화하여 다른 구성 요소를 이해할 수 있습니다.

리샘플링

일별 예측에 관심이 있으므로 데이터 빈도를 일별로 변환해 보겠습니다.

XNUMXD덴탈의 리샘플링 변환은 시계열 관측값의 빈도를 지정된 단위로 변경하고 업샘플링 및 다운샘플링 옵션과 함께 제공됩니다. 업샘플링을 적용하면 관찰 빈도가 증가하고(예: 매일에서 매시간으로), 다운샘플링을 적용하면 관찰 빈도가 감소합니다(예: 매시간에서 매일로).

우리의 데이터 세트는 미세한 단위이므로 다운샘플링 옵션을 사용하겠습니다.

  1. 왼쪽 메뉴에서 + 단계 추가.
  2. 선택 시계열 변환.
  3. 럭셔리 변환선택한다. 리샘플링.
  4. 럭셔리 시간 기록선택한다. 데이터.
  5. 럭셔리 주파수 단위선택한다. 달력 일.
  6. 럭셔리 주파수 수량, 1을 입력합니다.
  7. 럭셔리 숫자 값을 집계하는 방법선택한다. 평균.
  8. 왼쪽 메뉴에서 시사.

데이터 세트의 빈도가 분당에서 매일로 변경되었습니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence로 시계열 데이터를 준비하십시오. 수직 검색. 일체 포함.

  1. 왼쪽 메뉴에서 추가 이 단계를 저장합니다.

계절 추세 분해

리샘플링 후 변환된 시리즈와 관련 STL(LOESS를 사용한 계절 및 추세 분해) 구성 요소를 다음을 사용하여 시각화할 수 있습니다. 계절-추세-분해 심상. 이렇게 하면 원래 시계열을 뚜렷한 추세, 계절성 및 잔차 구성요소로 분해하여 각 패턴이 어떻게 작동하는지 잘 이해할 수 있습니다. 예측 문제를 모델링할 때도 정보를 사용할 수 있습니다.

Data Wrangler는 추세 및 계절 구성 요소를 모델링하기 위한 강력하고 다양한 통계 방법인 LOESS를 사용합니다. 기본 구현은 시계열 구성 요소(계절성, 추세 및 잔차)에 있는 비선형 관계를 추정하기 위해 다항식 회귀를 사용합니다.

  1. 왼쪽 메뉴에서 데이터 흐름으로 돌아 가기.
  2. 옆에 있는 더하기 기호를 선택합니다. 단계 on 데이터 흐름.
  3. 왼쪽 메뉴에서 분석 추가.
  4. . 분석 생성 창, 분석 유형, 선택 시계열.
  5. 럭셔리 시각화선택한다. 계절 추세 분해.
  6. 럭셔리 분석 이름이름을 입력하십시오.
  7. 럭셔리 타임스탬프 열선택한다. 데이터.
  8. 럭셔리 값 열선택한다. 거래량 USD.
  9. 왼쪽 메뉴에서 시사.

분석을 통해 입력 시계열과 분해된 계절성, 추세 및 잔차를 시각화할 수 있습니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence로 시계열 데이터를 준비하십시오. 수직 검색. 일체 포함.

  1. 왼쪽 메뉴에서 찜하기 분석을 저장합니다.

와 더불어 계절적 경향 분해 시각화, 이전 스크린샷과 같이 네 가지 패턴을 생성할 수 있습니다.

  • 실물 – 원래 시계열을 일일 단위로 다시 샘플링합니다.
  • 경향 – 2021년에 대한 전반적인 음의 추세 패턴을 갖는 다항식 추세, 감소를 나타내는 Volume USD 값.
  • 계절 – 다양한 진동 패턴으로 표현되는 승법 계절성. 진동의 진폭 감소를 특징으로 하는 계절적 변화의 감소를 봅니다.
  • 잔여 – 잔여 잔여 노이즈 또는 랜덤 노이즈. 잔차 계열은 추세 및 계절 성분이 제거된 후의 결과 계열입니다. 자세히 살펴보면 XNUMX월과 XNUMX월 사이, XNUMX월과 XNUMX월 사이에 스파이크가 관찰되어 과거 데이터를 사용하여 이러한 특정 이벤트를 모델링할 여지가 있음을 알 수 있습니다.

이러한 시각화는 데이터 과학자와 분석가에게 기존 패턴에 대한 귀중한 리드를 제공하고 모델링 전략을 선택하는 데 도움이 될 수 있습니다. 그러나 기술 분석 및 도메인 전문 지식을 통해 수집된 정보를 사용하여 STL 분해의 출력을 검증하는 것은 항상 좋은 방법입니다.

요약하면, 우리는 원본 시리즈 시각화와 일치하는 하향 추세를 관찰하여 추세 시각화에 의해 전달된 정보를 다운스트림 의사 결정에 통합하는 데 대한 자신감을 높입니다. 대조적으로, 계절성 시각화는 차분과 같은 기술을 적용하여 계절성의 존재와 제거의 필요성을 알리는 데 도움이 되지만 존재하는 다양한 계절성 패턴에 대한 원하는 수준의 상세한 통찰력을 제공하지 않으므로 더 깊은 분석이 필요합니다.

기능 엔지니어링

데이터 세트에 있는 패턴을 이해한 후에는 예측 모델의 정확도를 높이기 위한 새로운 기능을 설계할 수 있습니다.

날짜/시간 기능화

보다 간단한 날짜/시간 기능으로 기능 엔지니어링 프로세스를 시작하겠습니다. 날짜/시간 기능은 다음에서 생성됩니다. timestamp 열을 제공하고 데이터 과학자가 기능 엔지니어링 프로세스를 시작할 수 있는 최적의 방법을 제공합니다. 우리는 시작합니다 날짜/시간 기능화 데이터 세트에 월, 일, 일, 주 및 분기 기능을 추가하는 시계열 변환. 날짜/시간 구성 요소를 별도의 기능으로 제공하기 때문에 예측 정확도를 개선하기 위해 ML 알고리즘이 신호와 패턴을 감지할 수 있습니다.

  1. 왼쪽 메뉴에서 + 단계 추가.
  2. 선택 시계열 변환.
  3. 럭셔리 변환, 선택 날짜/시간 기능화.
  4. 럭셔리 입력 열선택한다. 데이터.
  5. 럭셔리 출력 열, 입력 date (이 단계는 선택 사항입니다).
  6. 럭셔리 출력 모드선택한다. 서수.
  7. 럭셔리 출력 형식선택한다. .
  8. 추출할 날짜/시간 기능의 경우 다음을 선택합니다. , , 올해의 주, 올해의 날지구.
  9. 왼쪽 메뉴에서 시사.

데이터 세트에는 이제 다음이라는 새 열이 포함됩니다. date_month, date_day, date_week_of_year, date_day_of_yeardate_quarter. 이러한 새로운 기능에서 검색된 정보는 데이터 과학자가 데이터에서 그리고 입력 기능과 출력 기능 간의 관계에 대한 추가 통찰력을 도출하는 데 도움이 될 수 있습니다.

datetime 시계열 변환 기능화

  1. 왼쪽 메뉴에서 추가 이 단계를 저장합니다.

범주 형 인코딩

날짜/시간 기능은 정수 값으로 제한되지 않습니다. 또한 추출된 특정 날짜/시간 기능을 범주형 변수로 간주하고 각 열에 이진 값을 포함하는 원-핫 인코딩 기능으로 나타내도록 선택할 수도 있습니다. 새로 생성된 date_quarter 열은 0-3 사이의 값을 포함하며 XNUMX개의 이진 열을 사용하여 원-핫 인코딩될 수 있습니다. 각각 해당 연도의 분기를 나타내는 XNUMX개의 새로운 이진 기능을 생성해 보겠습니다.

  1. 왼쪽 메뉴에서 + 단계 추가.
  2. 선택 범주 형 인코딩 변환.
  3. 럭셔리 변환선택한다. 원-핫 인코딩.
  4. 럭셔리 입력 열선택한다. 날짜_분기.
  5. 럭셔리 출력 스타일선택한다. .
  6. 왼쪽 메뉴에서 시사.
  7. 왼쪽 메뉴에서 추가 단계를 추가합니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence로 시계열 데이터를 준비하십시오. 수직 검색. 일체 포함.

지연 기능

다음으로 대상 열에 대한 지연 기능을 생성해 보겠습니다. Volume USD. 시계열 분석의 지연 기능은 미래 값을 추론하는 데 도움이 되는 것으로 간주되는 이전 타임스탬프의 값입니다. 또한 자기 상관(또는 직렬 상관) 관측값과 이전 시간 단계의 관측값의 관계를 수량화하여 잔차 계열의 패턴을 나타냅니다. 자기 상관은 일반 상관과 유사하지만 계열의 값과 과거 값 간의 상관 관계입니다. ARIMA 시리즈에서 자기회귀 예측 모델의 기초를 형성합니다.

데이터 랭글러와 함께 지연 기능 변환을 사용하면 n 주기 간격으로 지연 기능을 쉽게 만들 수 있습니다. 또한 서로 다른 지연 시간에 여러 지연 기능을 만들고 모델이 가장 의미 있는 기능을 결정하도록 하려는 경우가 많습니다. 그러한 시나리오의 경우, 지연 기능 변환은 지정된 창 크기에 대해 여러 지연 열을 만드는 데 도움이 됩니다.

  1. 왼쪽 메뉴에서 데이터 흐름으로 돌아 가기.
  2. 옆에 있는 더하기 기호를 선택합니다. 단계 on 데이터 흐름.
  3. 왼쪽 메뉴에서 + 단계 추가.
  4. 왼쪽 메뉴에서 시계열 변환.
  5. 럭셔리 변환선택한다. 지연 기능.
  6. 럭셔리 이 열에 대한 지연 기능 생성선택한다. 거래량 USD.
  7. 럭셔리 타임스탬프 열선택한다. 데이터.
  8. 럭셔리 , 입력 7.
  9. 이전 XNUMX개까지의 지연 값을 관찰하는 데 관심이 있으므로 다음을 선택하겠습니다. 전체 지연 기간 포함.
  10. 각 시차 값에 대해 새 열을 만들려면 다음을 선택합니다. 출력을 평평하게.
  11. 왼쪽 메뉴에서 시사.

XNUMX개의 새로운 열이 추가되고 lag_number 대상 열의 키워드 Volume USD.

지연 기능 시계열 변환

  1. 왼쪽 메뉴에서 추가 단계를 저장합니다.

롤링 윈도우 기능

또한 값 범위에 걸쳐 의미 있는 통계 요약을 계산하고 입력 기능으로 포함할 수 있습니다. 일반적인 통계적 시계열 특징을 추출해 봅시다.

Data Wrangler는 오픈 소스를 사용하여 자동 시계열 기능 추출 기능을 구현합니다. tsfresh 패키지. 시계열 특징 추출 변환을 사용하면 특징 추출 프로세스를 자동화할 수 있습니다. 따라서 신호 처리 라이브러리를 수동으로 구현하는 데 드는 시간과 노력이 필요하지 않습니다. 이 게시물에서는 다음을 사용하여 기능을 추출합니다. 롤링 윈도우 기능 변환. 이 방법은 창 크기에 의해 정의된 일련의 관찰에서 통계적 속성을 계산합니다.

  1. 왼쪽 메뉴에서 + 단계 추가.
  2. 선택 시계열 변환.
  3. 럭셔리 변환선택한다. 롤링 윈도우 기능.
  4. 럭셔리 이 열에 대한 롤링 윈도우 기능 생성선택한다. 거래량 USD.
  5. 럭셔리 타임스탬프 열선택한다. 데이터.
  6. 럭셔리 창 크기, 입력 7.

창 크기 지정 7 현재 타임스탬프의 값과 이전 XNUMX개의 타임스탬프 값을 결합하여 기능을 계산합니다.

  1. 선택 반음 낮추다 각 계산된 기능에 대한 새 열을 생성합니다.
  2. 전략을 다음과 같이 선택하십시오. 최소 하위 집합.

이 전략은 다운스트림 분석에 유용한 XNUMX가지 기능을 추출합니다. 다른 전략에는 다음이 포함됩니다. 효율적인 부분집합, 사용자 지정 하위 집합모든 기능. 추출에 사용할 수 있는 전체 기능 목록은 다음을 참조하십시오. 추출된 기능에 대한 개요.

  1. 왼쪽 메뉴에서 시사.

지정된 창 크기로 XNUMX개의 새 열을 볼 수 있습니다. 7 데이터 세트에 추가됩니다.

  1. 왼쪽 메뉴에서 추가 단계를 저장합니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence로 시계열 데이터를 준비하십시오. 수직 검색. 일체 포함.

데이터세트 내보내기

시계열 데이터 세트를 변환했으며 변환된 데이터 세트를 예측 알고리즘의 입력으로 사용할 준비가 되었습니다. 마지막 단계는 변환된 데이터 세트를 Amazon S3로 내보내는 것입니다. 데이터 랭글러에서 다음을 선택할 수 있습니다. 수출 단계 변환된 데이터 세트를 처리하고 S3 버킷으로 내보내기 위한 Amazon SageMaker 처리 코드를 사용하여 Jupyter 노트북을 자동으로 생성합니다. 그러나 데이터 세트에는 300개가 넘는 레코드가 포함되어 있으므로 데이터 내보내기 에서 옵션 변형 추가 보기를 사용하여 변환된 데이터 세트를 Data Wrangler에서 Amazon S3로 직접 내보냅니다.

  1. 왼쪽 메뉴에서 데이터 내보내기.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence로 시계열 데이터를 준비하십시오. 수직 검색. 일체 포함.

  1. 럭셔리 S3 위치선택한다. Browser S3 버킷을 선택합니다.
  2. 왼쪽 메뉴에서 데이터 내보내기.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence로 시계열 데이터를 준비하십시오. 수직 검색. 일체 포함.

이제 비트코인 ​​데이터 세트를 성공적으로 변환했으므로 다음을 사용할 수 있습니다. 아마존 예측 비트코인 예측을 생성합니다.

정리

이 사용 사례를 완료한 경우 추가 요금이 발생하지 않도록 생성한 리소스를 정리합니다. Data Wrangler의 경우 완료되면 기본 인스턴스를 종료할 수 있습니다. 인용하다 데이터 랭글러 종료 자세한 내용은 설명서를 참조하십시오. 또는 계속할 수 있습니다. 파트 2 이 시리즈의 예측을 위해 이 데이터세트를 사용합니다.

요약

이 게시물은 Data Wrangler를 활용하여 내장된 시계열 기능을 사용하여 시계열 분석을 단순화하고 가속화하는 방법을 보여주었습니다. 데이터 과학자가 의미 있는 분석을 위해 시계열 데이터를 원하는 형식으로 쉽고 대화식으로 정리하고, 형식을 지정하고, 유효성을 검사하고, 변환하는 방법을 살펴보았습니다. 또한 Data Wrangler를 사용하여 포괄적인 통계 기능 세트를 추가하여 시계열 분석을 강화할 수 있는 방법도 살펴보았습니다. Data Wrangler의 시계열 변환에 대해 자세히 알아보려면 다음을 참조하세요. 데이터 변환.


저자에 관하여

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence로 시계열 데이터를 준비하십시오. 수직 검색. 일체 포함.루프 베인 AI/ML에 중점을 둔 AWS의 솔루션 아키텍트입니다. 그는 인공 지능 및 기계 학습을 사용하여 고객이 혁신하고 비즈니스 목표를 달성하도록 돕는 데 열정을 쏟고 있습니다. 여가 시간에 루프는 독서와 하이킹을 즐깁니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence로 시계열 데이터를 준비하십시오. 수직 검색. 일체 포함.니키타 이브킨 응용 과학자, Amazon SageMaker 데이터 랭글러입니다.

타임 스탬프 :

더보기 AWS 기계 학습