Amazon SageMaker Data Wrangler를 사용하여 대규모 데이터 세트에서 훈련된 매개변수를 재구성합니다.

플라톤에 의해 재발행

팔로워 : 0

Amazon SageMaker 데이터 랭글러 단일 시각적 인터페이스에서 기계 학습(ML)을 위한 데이터를 이해, 집계, 변환 및 준비할 수 있습니다. 여기에는 300개 이상의 기본 제공 데이터 변환이 포함되어 있어 코드를 작성하지 않고도 기능을 빠르게 정규화, 변환 및 결합할 수 있습니다.

데이터 과학 실무자는 데이터를 생성, 관찰 및 처리하여 데이터 세트에서 기능을 변환하고 추출해야 하는 비즈니스 문제를 해결합니다. 서수 인코딩 또는 원-핫 인코딩과 같은 변환은 데이터 세트에서 인코딩을 학습합니다. 이렇게 인코딩된 출력을 훈련된 매개변수라고 합니다. 시간이 지남에 따라 데이터 세트가 변경되므로 데이터와 관련된 변환 흐름을 유지하기 위해 이전에 본 적이 없는 데이터의 인코딩을 다시 맞춰야 할 수 있습니다.

이전에 훈련된 매개변수를 사용하고 원하는 대로 다시 맞출 수 있는 훈련된 매개변수 재구성 기능을 발표하게 되어 기쁩니다. 이 게시물에서는 이 기능을 사용하는 방법을 보여줍니다.

데이터 랭글러 수정 기능 개요

훈련된 매개변수 재조정 기능에 대해 자세히 알아보기 전에 다음 예를 통해 이 기능이 어떻게 작동하는지 설명합니다.

고객 데이터 세트에 다음에 대한 범주형 기능이 있다고 가정합니다. country 다음과 같은 문자열로 표현 Australia 과 Singapore. ML 알고리즘에는 숫자 입력이 필요합니다. 따라서 이러한 범주 값은 숫자 값으로 인코딩되어야 합니다. 범주형 데이터를 인코딩하는 것은 범주에 대한 숫자 표현을 만드는 과정입니다. 예를 들어 카테고리 국가에 값이 있는 경우 Australia 과 Singapore, 이 정보를 두 벡터로 인코딩할 수 있습니다. [1, 0] Australia 및 [0, 1]을 나타내기 위해 Singapore. 여기에 사용된 변환은 원-핫 인코딩이며 새로 인코딩된 출력은 훈련된 매개변수를 반영합니다.

모델을 교육한 후 시간이 지남에 따라 고객이 증가할 수 있으며 국가 목록에 더 많은 고유 값이 있습니다. 새 데이터세트는 다른 카테고리를 포함할 수 있습니다. India, 원래 데이터 세트의 일부가 아니어서 모델 정확도에 영향을 미칠 수 있습니다. 따라서 시간이 지남에 따라 수집된 새 데이터로 모델을 재교육해야 합니다.

이 문제를 극복하려면 새 범주를 포함하도록 인코딩을 새로 고치고 최신 데이터 세트에 따라 벡터 표현을 업데이트해야 합니다. 이 예에서 인코딩은 다음에 대한 새 범주를 반영해야 합니다. country어느입니다 India. 일반적으로 인코딩을 새로 고치는 이 프로세스를 다시 맞춤 작업이라고 합니다. 다시 맞춤 작업을 수행한 후 새 인코딩을 얻습니다. Australia: [1, 0, 0], Singapore: [0, 1, 0] 및 India: [0, 0, 1]. 원-핫 인코딩을 재적합한 다음 새 데이터 세트에서 모델을 재훈련하면 더 나은 품질 예측이 가능합니다.

Data Wrangler의 훈련된 매개변수 재구성 기능은 다음과 같은 경우에 유용합니다.

새 데이터가 데이터 세트에 추가됩니다. – 데이터 세트가 새 데이터로 보강되면 ML 모델 재교육이 필요합니다. 최적의 결과를 얻으려면 훈련된 매개변수를 새 데이터 세트에 다시 맞춰야 합니다.
샘플 데이터에 대한 기능 엔지니어링을 수행한 후 전체 데이터 세트에 대한 교육 – 대규모 데이터 세트의 경우 전체 데이터 세트를 나타내지 않을 수 있는 훈련된 매개변수 학습을 위해 데이터 세트 샘플이 고려됩니다. 전체 데이터 세트에서 훈련된 매개변수를 다시 학습해야 합니다.

다음은 훈련된 매개변수 수정 옵션의 이점을 활용하여 데이터 세트에서 수행되는 가장 일반적인 데이터 랭글러 변환 중 일부입니다.

Data Wrangler의 변환에 대한 자세한 내용은 다음을 참조하십시오. 데이터 변환.

이 게시물에서는 데이터 랭글러를 사용하여 데이터 세트에서 이러한 훈련된 매개변수를 처리하는 방법을 보여줍니다. 프로덕션 작업에서 데이터 랭글러 흐름을 사용하여 데이터가 증가하고 변경됨에 따라 데이터를 다시 처리할 수 있습니다.

솔루션 개요

이 게시물에서는 공개적으로 사용 가능한 데이터 세트와 함께 Data Wrangler의 훈련 매개변수 재구성 기능을 사용하는 방법을 시연합니다. 카글: 미국의 For-Sale Properties인 Zillow의 미국 주택 데이터. 그것은 주택의 다양한 지리적 분포에 대한 주택 판매 가격을 가지고 있습니다.

다음 다이어그램은 훈련된 매개변수 수정 기능을 사용하는 Data Wrangler의 상위 수준 아키텍처를 보여줍니다. 또한 훈련된 매개변수를 수정하지 않고 데이터 품질에 미치는 영향을 보여주고 마지막에 결과를 대조합니다.

워크 플로우에는 다음 단계가 포함됩니다.

탐색적 데이터 분석 수행 – 탐색 데이터 분석(EDA)을 시작하기 위해 Data Wrangler에서 새 흐름을 생성합니다. 학습을 위해 데이터를 이해, 정리, 집계, 변환 및 준비하기 위해 비즈니스 데이터를 가져옵니다. 인용하다 샘플 데이터 세트로 Amazon SageMaker Data Wrangler 기능 살펴보기 Data Wrangler로 EDA를 수행하는 방법에 대한 자세한 내용은
데이터 처리 작업 만들기 – 이 단계에서는 데이터 세트에서 수행한 모든 변환을 구성된 폴더에 저장된 흐름 파일로 내보냅니다. 아마존 단순 스토리지 서비스 (아마존 S3) 위치. Data Wrangler에서 생성한 흐름 파일을 사용하는 데이터 처리 작업은 데이터 세트에서 학습된 변환 및 훈련된 매개변수를 적용합니다. 데이터 처리 작업이 완료되면 출력 파일이 대상 노드에 구성된 Amazon S3 위치에 업로드됩니다. 다시 맞춤 옵션은 기본적으로 꺼져 있습니다. 처리 작업을 즉시 실행하는 대신 다음을 수행할 수도 있습니다. 처리 작업 예약 Data Wrangler – Create Job을 사용하여 몇 번의 클릭만으로 특정 시간에 실행할 수 있습니다.
훈련된 매개변수 재조정 기능을 사용하여 데이터 처리 작업 생성 – 전체 또는 강화된 데이터 세트에서 훈련된 매개변수의 재학습을 시행하기 위해 작업을 생성하는 동안 새로운 훈련된 매개변수 재구성 기능을 선택합니다. 흐름 파일을 저장하기 위한 Amazon S3 위치 구성에 따라 데이터 처리 작업이 새 흐름 파일을 생성하거나 업데이트합니다. 3단계에서와 동일한 Amazon S2 위치를 구성하면 데이터 처리 작업이 2단계에서 생성된 흐름 파일을 업데이트합니다. 이 파일은 흐름을 데이터와 관련된 상태로 유지하는 데 사용할 수 있습니다. 처리 작업이 완료되면 출력 파일이 대상 노드 구성 S3 버킷에 업로드됩니다. 프로덕션 워크플로의 전체 데이터세트에서 업데이트된 흐름을 사용할 수 있습니다.

사전 조건

시작하기 전에 데이터 세트를 S3 버킷에 업로드한 다음 Data Wrangler로 가져옵니다. 지침은 다음을 참조하십시오. Amazon S3에서 데이터 가져오기.

이제 아키텍처 다이어그램에 언급된 단계를 살펴보겠습니다.

데이터 랭글러에서 EDA 수행

훈련된 매개변수 재조정 기능을 시도하려면 Data Wrangler에서 다음 분석 및 변환을 설정하십시오. EDA 설정이 끝나면 Data Wrangler는 데이터 세트에서 훈련된 매개변수로 캡처된 흐름 파일을 생성합니다.

탐색적 데이터 분석을 위해 Amazon SageMaker Data Wrangler에서 새로운 흐름을 생성합니다.
Amazon S3에 업로드한 비즈니스 데이터를 가져옵니다.
파일 형식, 구분 기호, 샘플링 등을 선택하기 위한 데이터 및 옵션을 미리 볼 수 있습니다. 이 예에서는 다음을 사용합니다. 퍼스트케이 Data Wrangler에서 제공하는 샘플링 옵션으로 데이터 세트에서 처음 50,000개의 레코드를 가져옵니다.
왼쪽 메뉴에서 수입.