Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.

Amazon SageMaker Data Wrangler를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 재정의합니다.

Amazon SageMaker 데이터 랭글러 단일 시각적 인터페이스에서 기계 학습(ML)을 위한 데이터를 이해, 집계, 변환 및 준비할 수 있습니다. 여기에는 300개 이상의 기본 제공 데이터 변환이 포함되어 있어 코드를 작성하지 않고도 기능을 빠르게 정규화, 변환 및 결합할 수 있습니다.

데이터 과학 실무자는 데이터를 생성, 관찰 및 처리하여 데이터 세트에서 기능을 변환하고 추출해야 하는 비즈니스 문제를 해결합니다. 서수 인코딩 또는 원-핫 인코딩과 같은 변환은 데이터 세트에서 인코딩을 학습합니다. 이렇게 인코딩된 출력을 훈련된 매개변수라고 합니다. 시간이 지남에 따라 데이터 세트가 변경되므로 데이터와 관련된 변환 흐름을 유지하기 위해 이전에 본 적이 없는 데이터의 인코딩을 다시 맞춰야 할 수 있습니다.

이전에 훈련된 매개변수를 사용하고 원하는 대로 다시 맞출 수 있는 훈련된 매개변수 재구성 기능을 발표하게 되어 기쁩니다. 이 게시물에서는 이 기능을 사용하는 방법을 보여줍니다.

데이터 랭글러 수정 기능 개요

훈련된 매개변수 재조정 기능에 대해 자세히 알아보기 전에 다음 예를 통해 이 기능이 어떻게 작동하는지 설명합니다.

고객 데이터 세트에 다음에 대한 범주형 기능이 있다고 가정합니다. country 다음과 같은 문자열로 표현 AustraliaSingapore. ML 알고리즘에는 숫자 입력이 필요합니다. 따라서 이러한 범주 값은 숫자 값으로 인코딩되어야 합니다. 범주형 데이터를 인코딩하는 것은 범주에 대한 숫자 표현을 만드는 과정입니다. 예를 들어 카테고리 국가에 값이 있는 경우 AustraliaSingapore, 이 정보를 두 벡터로 인코딩할 수 있습니다. [1, 0] Australia 및 [0, 1]을 나타내기 위해 Singapore. 여기에 사용된 변환은 원-핫 인코딩이며 새로 인코딩된 출력은 훈련된 매개변수를 반영합니다.

모델을 교육한 후 시간이 지남에 따라 고객이 증가할 수 있으며 국가 목록에 더 많은 고유 값이 있습니다. 새 데이터세트는 다른 카테고리를 포함할 수 있습니다. India, 원래 데이터 세트의 일부가 아니어서 모델 정확도에 영향을 미칠 수 있습니다. 따라서 시간이 지남에 따라 수집된 새 데이터로 모델을 재교육해야 합니다.

이 문제를 극복하려면 새 범주를 포함하도록 인코딩을 새로 고치고 최신 데이터 세트에 따라 벡터 표현을 업데이트해야 합니다. 이 예에서 인코딩은 다음에 대한 새 범주를 반영해야 합니다. country어느입니다 India. 일반적으로 인코딩을 새로 고치는 이 프로세스를 다시 맞춤 작업이라고 합니다. 다시 맞춤 작업을 수행한 후 새 인코딩을 얻습니다. Australia: [1, 0, 0], Singapore: [0, 1, 0] 및 India: [0, 0, 1]. 원-핫 인코딩을 재적합한 다음 새 데이터 세트에서 모델을 재훈련하면 더 나은 품질 예측이 가능합니다.

Data Wrangler의 훈련된 매개변수 재구성 기능은 다음과 같은 경우에 유용합니다.

  • 새 데이터가 데이터 세트에 추가됩니다. – 데이터 세트가 새 데이터로 보강되면 ML 모델 재교육이 필요합니다. 최적의 결과를 얻으려면 훈련된 매개변수를 새 데이터 세트에 다시 맞춰야 합니다.
  • 샘플 데이터에 대한 기능 엔지니어링을 수행한 후 전체 데이터 세트에 대한 교육 – 대규모 데이터 세트의 경우 전체 데이터 세트를 나타내지 않을 수 있는 훈련된 매개변수 학습을 위해 데이터 세트 샘플이 고려됩니다. 전체 데이터 세트에서 훈련된 매개변수를 다시 학습해야 합니다.

다음은 훈련된 매개변수 수정 옵션의 이점을 활용하여 데이터 세트에서 수행되는 가장 일반적인 데이터 랭글러 변환 중 일부입니다.

Data Wrangler의 변환에 대한 자세한 내용은 다음을 참조하십시오. 데이터 변환.

이 게시물에서는 데이터 랭글러를 사용하여 데이터 세트에서 이러한 훈련된 매개변수를 처리하는 방법을 보여줍니다. 프로덕션 작업에서 데이터 랭글러 흐름을 사용하여 데이터가 증가하고 변경됨에 따라 데이터를 다시 처리할 수 있습니다.

솔루션 개요

이 게시물에서는 공개적으로 사용 가능한 데이터 세트와 함께 Data Wrangler의 훈련 매개변수 재구성 기능을 사용하는 방법을 시연합니다. 카글: 미국의 For-Sale Properties인 Zillow의 미국 주택 데이터. 그것은 주택의 다양한 지리적 분포에 대한 주택 판매 가격을 가지고 있습니다.

다음 다이어그램은 훈련된 매개변수 수정 기능을 사용하는 Data Wrangler의 상위 수준 아키텍처를 보여줍니다. 또한 훈련된 매개변수를 수정하지 않고 데이터 품질에 미치는 영향을 보여주고 마지막에 결과를 대조합니다.

워크 플로우에는 다음 단계가 포함됩니다.

  1. 탐색적 데이터 분석 수행 – 탐색 데이터 분석(EDA)을 시작하기 위해 Data Wrangler에서 새 흐름을 생성합니다. 학습을 위해 데이터를 이해, 정리, 집계, 변환 및 준비하기 위해 비즈니스 데이터를 가져옵니다. 인용하다 샘플 데이터 세트로 Amazon SageMaker Data Wrangler 기능 살펴보기 Data Wrangler로 EDA를 수행하는 방법에 대한 자세한 내용은
  2. 데이터 처리 작업 만들기 – 이 단계에서는 데이터 세트에서 수행한 모든 변환을 구성된 폴더에 저장된 흐름 파일로 내보냅니다. 아마존 단순 스토리지 서비스 (아마존 S3) 위치. Data Wrangler에서 생성한 흐름 파일을 사용하는 데이터 처리 작업은 데이터 세트에서 학습된 변환 및 훈련된 매개변수를 적용합니다. 데이터 처리 작업이 완료되면 출력 파일이 대상 노드에 구성된 Amazon S3 위치에 업로드됩니다. 다시 맞춤 옵션은 기본적으로 꺼져 있습니다. 처리 작업을 즉시 실행하는 대신 다음을 수행할 수도 있습니다. 처리 작업 예약 Data Wrangler – Create Job을 사용하여 몇 번의 클릭만으로 특정 시간에 실행할 수 있습니다.
  3. 훈련된 매개변수 재조정 기능을 사용하여 데이터 처리 작업 생성 – 전체 또는 강화된 데이터 세트에서 훈련된 매개변수의 재학습을 시행하기 위해 작업을 생성하는 동안 새로운 훈련된 매개변수 재구성 기능을 선택합니다. 흐름 파일을 저장하기 위한 Amazon S3 위치 구성에 따라 데이터 처리 작업이 새 흐름 파일을 생성하거나 업데이트합니다. 3단계에서와 동일한 Amazon S2 위치를 구성하면 데이터 처리 작업이 2단계에서 생성된 흐름 파일을 업데이트합니다. 이 파일은 흐름을 데이터와 관련된 상태로 유지하는 데 사용할 수 있습니다. 처리 작업이 완료되면 출력 파일이 대상 노드 구성 S3 버킷에 업로드됩니다. 프로덕션 워크플로의 전체 데이터세트에서 업데이트된 흐름을 사용할 수 있습니다.

사전 조건

시작하기 전에 데이터 세트를 S3 버킷에 업로드한 다음 Data Wrangler로 가져옵니다. 지침은 다음을 참조하십시오. Amazon S3에서 데이터 가져오기.

이제 아키텍처 다이어그램에 언급된 단계를 살펴보겠습니다.

데이터 랭글러에서 EDA 수행

훈련된 매개변수 재조정 기능을 시도하려면 Data Wrangler에서 다음 분석 및 변환을 설정하십시오. EDA 설정이 끝나면 Data Wrangler는 데이터 세트에서 훈련된 매개변수로 캡처된 흐름 파일을 생성합니다.

  1. 탐색적 데이터 분석을 위해 Amazon SageMaker Data Wrangler에서 새로운 흐름을 생성합니다.
  2. Amazon S3에 업로드한 비즈니스 데이터를 가져옵니다.
  3. 파일 형식, 구분 기호, 샘플링 등을 선택하기 위한 데이터 및 옵션을 미리 볼 수 있습니다. 이 예에서는 다음을 사용합니다. 퍼스트케이 Data Wrangler에서 제공하는 샘플링 옵션으로 데이터 세트에서 처음 50,000개의 레코드를 가져옵니다.
  4. 왼쪽 메뉴에서 수입.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.

  1. Data Wrangler가 적용한 데이터 유형 매칭을 확인한 후 새로운 분석을 추가합니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.

  1. 럭셔리 분석 유형선택한다. 데이터 품질 및 통찰력 보고서.
  2. 왼쪽 메뉴에서 만들기.

데이터 품질 및 인사이트 보고서를 사용하면 누락된 값, 유효하지 않은 값, 기능 유형, 이상값 수 등과 같은 일반 정보가 포함된 데이터 세트에 대한 간략한 요약을 얻을 수 있습니다. 기능을 선택할 수 있습니다 property_typecity 훈련된 매개변수 기능을 다시 맞추는 것을 이해하기 위해 데이터 세트에 변환을 적용하기 위한 것입니다.

기능에 집중하자 property_type 데이터 세트에서. 보고서의 기능 세부 정보 섹션, 당신은 볼 수 있습니다 property_type, 이는 범주형 특성이며 Data Wrangler가 샘플링한 50,000개의 데이터 세트에서 파생된 XNUMX개의 고유 값입니다. 전체 데이터 세트에는 기능에 대한 더 많은 범주가 있을 수 있습니다. property_type. 고유한 값이 많은 기능의 경우 서수 인코딩을 선호할 수 있습니다. 기능에 고유한 값이 몇 개 있는 경우 원-핫 인코딩 방식을 사용할 수 있습니다. 이 예에서는 다음에서 원-핫 인코딩을 선택합니다. property_type.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.

마찬가지로, city 고유한 값이 많은 텍스트 데이터 유형인 기능에 서수 인코딩을 적용해 보겠습니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.

  1. Data Wrangler 흐름으로 이동하고 더하기 기호를 선택한 다음 변형 추가.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.

  1. 선택 범주 형 인코딩 범주형 기능을 변환하기 위한 옵션입니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.

데이터 품질 및 인사이트 보고서에서 기능 property_type XNUMX개의 고유한 범주를 보여줍니다. CONDO, LOT, MANUFACTURED, SINGLE_FAMILY, MULTI_FAMILYTOWNHOUSE.

  1. 럭셔리 변환선택한다. 원-핫 인코딩.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.

기능에 원-핫 인코딩을 적용한 후 property_type, 새 열로 추가된 별도의 기능으로 50,000개 범주 모두를 미리 볼 수 있습니다. 이 미리 보기를 생성하기 위해 데이터 세트에서 XNUMX개의 레코드가 샘플링되었습니다. 이 흐름으로 데이터 랭글러 처리 작업을 실행하는 동안 이러한 변환이 전체 데이터 세트에 적용됩니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.

  1. 새 변환을 추가하고 선택하십시오. 범주 형 인코딩 지형지물에 변환을 적용하려면 city, 더 많은 수의 고유 범주 텍스트 값이 있습니다.
  2. 이 기능을 숫자 표현으로 인코딩하려면 다음을 선택하십시오. 서수 인코딩 for 변환.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.

  1. 이 변환에서 미리 보기를 선택합니다.

범주형 기능이 있음을 알 수 있습니다. city 출력 열의 서수 값에 매핑됩니다. e_city.

  1. 선택하여 이 단계를 추가합니다. 업데이트.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.

  1. CSV 파일로 출력을 생성하기 위해 데이터 세트에 적용된 변환을 저장하도록 대상을 Amazon S3로 설정할 수 있습니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.

Data Wrangler는 사용자 인터페이스에서 정의한 워크플로를 흐름 파일로 저장하고 구성된 데이터 처리 작업의 Amazon S3 위치에 업로드합니다. 이 흐름 파일은 Data Wrangler 처리 작업을 생성하여 더 큰 데이터 세트에 변환을 적용하거나 새 강화 데이터를 변환하여 모델을 재훈련할 때 사용됩니다.

수리가 활성화되지 않은 상태에서 데이터 랭글러 데이터 처리 작업 실행

이제 refit 옵션이 새 데이터 세트에서 훈련된 매개변수를 사용하는 방법을 볼 수 있습니다. 이 데모에서는 동일한 데이터에서 작동하는 두 개의 Data Wrangler 처리 작업을 정의합니다. 첫 번째 처리 작업은 수리를 가능하게 하지 않습니다. 두 번째 처리 작업에는 refit을 사용합니다. 마지막에 효과를 비교합니다.

  1. 왼쪽 메뉴에서 직업 만들기 Data Wrangler로 데이터 처리 작업을 시작합니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.

  1. 럭셔리 직업 이름이름을 입력하십시오.
  2. $XNUMX Million 미만 훈련된 매개변수, 선택하지 마세요 수리.
  3. 왼쪽 메뉴에서 작업 구성.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.

  1. 출력 흐름 파일을 저장할 인스턴스 유형, 볼륨 크기 및 Amazon S3 위치와 같은 작업 파라미터를 구성합니다.
  2. Data Wrangler는 흐름 파일 S3 위치에 흐름 파일을 생성합니다. 흐름은 변환을 사용하여 매개변수를 학습하고 나중에 다시 맞춤 옵션을 사용하여 이러한 매개변수를 재학습합니다.
  3. 왼쪽 메뉴에서 만들기.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.

대상 노드에 구성된 S3 버킷에서 변환된 데이터를 보려면 데이터 처리 작업이 완료될 때까지 기다리십시오.

복구가 활성화된 상태에서 데이터 랭글러 데이터 처리 작업 실행

훈련된 매개변수 수정 기능이 활성화된 상태에서 활성화된 다른 처리 작업을 생성해 보겠습니다. 이 옵션은 전체 데이터 세트에서 다시 학습된 학습 매개변수를 적용합니다. 이 데이터 처리 작업이 완료되면 흐름 파일이 생성되거나 구성된 Amazon S3 위치로 업데이트됩니다.

  1. 왼쪽 메뉴에서 직업 만들기.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.

  1. 럭셔리 직업 이름이름을 입력하십시오.
  2. 럭셔리 훈련된 매개변수, 고르다 수리.
  3. 당신이 선택하는 경우 전체보기, 훈련된 모든 매개변수를 검토할 수 있습니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.

  1. 왼쪽 메뉴에서 작업 구성.
  2. Amazon S3 흐름 파일 위치를 입력합니다.
  3. 왼쪽 메뉴에서 만들기.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.

데이터 처리 작업이 완료될 때까지 기다리십시오.

정의된 변환을 실행하는 데이터 처리 작업에서 생성된 데이터를 보려면 대상 노드에서 구성된 S3 버킷을 참조하십시오.

Data Wrangler 처리 작업을 실행하기 위해 Python 코드로 내보내기

Data Wrangler의 작업 생성 옵션을 사용하여 처리 작업을 시작하는 대신 Data Wrangler 흐름을 Jupyter 노트북으로 내보내 데이터 처리 작업을 트리거할 수 있습니다. Data Wrangler는 작업 상태 확인을 위한 입력, 출력, 처리 작업 구성 및 코드가 포함된 Jupyter 노트북을 생성합니다. 데이터 변환 요구 사항에 따라 매개 변수를 변경하거나 업데이트할 수 있습니다.

  1. 최종 옆에 있는 더하기 기호를 선택합니다. 변환 마디.
  2. 왼쪽 메뉴에서 수출Amazon S3(Jupyter 노트북을 통해).

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.

입력, 출력, 처리 작업 구성 및 작업 상태 확인을 위한 코드와 함께 열린 Jupyter 노트북을 볼 수 있습니다.

  1. 코드를 통해 훈련된 매개변수 재조정 옵션을 적용하려면 refit 에 매개 변수 True.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.데이터 처리 작업 결과 비교

Data Wrangler 처리 작업이 완료되면 구성된 Amazon S3 대상에 저장된 데이터 처리 작업에서 생성된 출력으로 두 개의 새로운 Data Wrangler 흐름을 생성해야 합니다.

Amazon S3 대상 폴더에서 구성된 위치를 참조하여 데이터 처리 작업의 출력을 검토할 수 있습니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.

처리 작업 결과를 검사하려면 데이터 품질 및 인사이트 보고서를 사용하여 두 개의 새 데이터 랭글러 흐름을 만들어 변환 결과를 비교합니다.

  1. Amazon SageMaker Data Wrangler에서 새 흐름을 생성합니다.
  2. Amazon S3에서 활성화된 출력 파일을 수정하지 않고 데이터 처리 작업을 가져옵니다.
  3. 새 분석을 추가합니다.
  4. 럭셔리 분석 유형선택한다. 데이터 품질 및 통찰력 보고서.
  5. 왼쪽 메뉴에서 만들기.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.
Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.

위의 단계를 반복하고 새 데이터 랭글러 흐름을 생성하여 수정이 활성화된 상태에서 데이터 처리 작업 출력을 분석합니다.

이제 기능에 대한 처리 작업의 출력을 살펴보겠습니다. property_type 데이터 품질 및 인사이트 보고서를 사용합니다. 데이터 및 인사이트 보고서 목록에서 기능 세부정보로 스크롤합니다. feature_type.

훈련된 파라미터 처리 작업이 전체 데이터 세트에서 훈련된 파라미터를 다시 피팅하고 새 값을 인코딩했습니다. APARTMENT 전체 데이터 세트에 XNUMX개의 개별 값이 있습니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.

일반 처리 작업은 샘플 데이터 세트 훈련된 매개변수를 적용했습니다. property_type 특징. 데이터의 경우 feature_type APARTMENTWalk Through California 프로그램, 유효하지 않은 처리 전략 건너뛰기가 적용되고 데이터 처리 작업이 이 새 범주를 학습하지 않습니다. 원-핫 인코딩은 새 데이터에 있는 이 새 범주를 건너뛰고 인코딩은 범주를 건너뜁니다. APARTMENT.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.

이제 다른 기능에 초점을 맞추겠습니다. city. 수리 훈련된 매개변수 처리 작업은 다음에 사용할 수 있는 모든 값을 다시 학습했습니다. city 기능, 새로운 데이터를 고려.

그림과 같이 기능 요약 보고서 섹션, 새 인코딩된 기능 열 e_city refit training parameter 기능을 사용하여 100% 유효한 매개 변수를 갖습니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.

대조적으로, 일반 처리 작업은 새로 인코딩된 특성 열에 누락된 값의 82.4%가 있습니다. e_city. 이러한 현상은 전체 데이터 세트에 학습된 훈련 매개변수의 샘플 세트만 적용되고 데이터 처리 작업에 의해 재적합이 적용되지 않기 때문입니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.

다음 히스토그램은 서수로 인코딩된 기능을 나타냅니다. e_city. 첫 번째 히스토그램은 refit 옵션으로 변환된 기능입니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.

다음 히스토그램은 수정 옵션 없이 변환된 기능입니다. 주황색 열은 데이터 품질 및 인사이트 보고서의 누락된 값(NaN)을 보여줍니다. 샘플 데이터 세트에서 학습되지 않은 새 값은 Data Wrangler UI의 구성에 따라 NaN(Not a Number)으로 대체됩니다. 유효하지 않은 처리 전략.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.

refit 훈련된 매개변수가 있는 데이터 처리 작업은 property_typecity 전체 데이터 세트의 새 값을 고려하는 기능. refit 훈련된 매개변수가 없으면 데이터 처리 작업은 샘플링된 데이터 세트의 미리 학습된 훈련된 매개변수만 사용합니다. 그런 다음 이를 새 데이터에 적용하지만 새 값은 인코딩에 고려되지 않습니다. 이는 모델 정확도에 영향을 미칩니다.

정리

Data Wrangler를 사용하지 않을 때는 추가 요금이 발생하지 않도록 Data Wrangler가 실행되는 인스턴스를 종료하는 것이 중요합니다.

작업 손실을 방지하려면 Data Wrangler를 종료하기 전에 데이터 흐름을 저장하십시오.

  1. 데이터 흐름을 저장하려면 아마존 세이지 메이커 스튜디오선택한다. 입양 부모로서의 귀하의 적합성을 결정하기 위해 미국 이민국에다음을 선택 데이터 랭글러 흐름 저장. Data Wrangler는 60초마다 데이터 흐름을 자동으로 저장합니다.
  2. Data Wrangler 인스턴스를 종료하려면 Studio에서 다음을 선택합니다. 인스턴스 및 커널 실행.
  3. $XNUMX Million 미만 실행 중인 앱, sagemaker-data-wrangler-1.0 앱 옆에 있는 종료 아이콘을 선택합니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.

  1. 왼쪽 메뉴에서 모두 종료 확인.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.

Data Wrangler는 ml.m5.4xlarge 인스턴스에서 실행됩니다. 이 인스턴스는 다음에서 사라집니다. 실행 중인 인스턴스 데이터 랭글러 앱을 종료할 때.

Data Wrangler 앱을 종료한 후에는 다음에 Data Wrangler 흐름 파일을 열 때 다시 시작해야 합니다. 몇 분 정도 걸릴 수 있습니다.

결론

이 게시물에서는 Data Wrangler의 훈련된 매개변수 재구성 기능에 대한 개요를 제공했습니다. 이 새로운 기능을 사용하면 학습된 매개변수를 Data Wrangler 흐름에 저장할 수 있으며 데이터 처리 작업은 학습된 매개변수를 사용하여 학습된 변환을 대규모 데이터 세트 또는 강화 데이터 세트에 적용합니다. 이 옵션을 텍스트 기능, 숫자 데이터 벡터화 및 이상값 처리에 적용할 수 있습니다.

ML 수명 주기의 데이터 처리 전반에 걸쳐 훈련된 매개변수를 보존하면 데이터 처리 단계가 간소화 및 줄어들고 강력한 기능 엔지니어링이 지원되며 새 데이터에 대한 모델 훈련 및 강화 훈련이 지원됩니다.

데이터 처리 요구 사항에 대해 이 새로운 기능을 사용해 볼 것을 권장합니다.


저자 소개

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함. 하리하란 수레시 AWS의 선임 솔루션 아키텍트입니다. 그는 데이터베이스, 기계 학습 및 혁신적인 솔루션 설계에 열정적입니다. AWS에 합류하기 전에 Hariharan은 제품 설계자, 코어 뱅킹 구현 전문가 및 개발자였으며 ​​11년 이상 BFSI 조직과 함께 일했습니다. 기술 외에 그는 패러글라이딩과 사이클링을 즐깁니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.산토시 쿨카르니 오스트레일리아의 스포츠 고객과 협력하는 Amazon Web Services의 엔터프라이즈 솔루션 아키텍트입니다. 그는 AI/ML, 빅 데이터 및 소프트웨어 개발에 대한 지식을 사용하여 비즈니스 문제를 해결하기 위해 대규모 분산 애플리케이션을 구축하는 데 열정을 가지고 있습니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.비샤알 카푸르 AWS AI의 수석 응용 과학자입니다. 그는 고객이 Data Wrangler에서 데이터를 이해하도록 돕는 데 열정을 쏟고 있습니다. 여가 시간에는 산악 자전거와 스노보드를 타고 가족과 시간을 보냅니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 다시 맞춥니다. 수직 검색. 일체 포함.아니케스 만주나스 Amazon SageMaker의 소프트웨어 개발 엔지니어입니다. 그는 Amazon SageMaker Data Wrangler 지원을 돕고 분산 기계 학습 시스템에 열정적입니다. 일 외에는 하이킹, 영화 감상, 크리켓 경기를 즐깁니다.

타임 스탬프 :

더보기 AWS 기계 학습