Amazon SageMaker Data Wrangler 및 Amazon SageMaker Autopilot을 사용한 통합 데이터 준비, 모델 교육 및 배포

플라톤에 의해 재발행

팔로워 : 0

데이터의 품질과 복잡성에 따라 데이터 과학자는 데이터 준비 작업에 시간의 45~80%를 보냅니다. 이는 데이터 준비 및 정리가 실제 데이터 과학 작업에서 귀중한 시간을 빼앗는다는 것을 의미합니다. 머신 러닝(ML) 모델이 준비된 데이터로 훈련되고 배포 준비가 된 후 데이터 과학자는 종종 ML 추론을 위해 데이터를 준비하는 데 사용되는 데이터 변환을 다시 작성해야 합니다. 이로 인해 원시 모양과 형식에서 데이터를 추론하고 점수를 매길 수 있는 유용한 모델을 배포하는 데 걸리는 시간이 늘어날 수 있습니다.

이 시리즈의 1부에서는 Data Wrangler가 통합 데이터 준비 및 모델 교육 경험 Amazon SageMaker 자동 조종 장치 몇 번의 클릭만으로 가능합니다. 이 시리즈의 두 번째이자 마지막 부분에서는 다음을 포함하고 재사용하는 기능에 중점을 둡니다. Amazon SageMaker 데이터 랭글러 ML 추론을 위한 Autopilot 모델과 함께 결측값 전가기, 순서 또는 원-핫 인코더 등과 같은 변환. 이 기능을 사용하면 추론 시 Data Wrangler 기능 변환을 재사용하여 원시 데이터를 자동으로 사전 처리할 수 있으므로 훈련된 모델을 프로덕션에 배포하는 데 필요한 시간이 더욱 단축됩니다.

솔루션 개요

Data Wrangler는 ML용 데이터를 집계하고 준비하는 시간을 몇 주에서 몇 분으로 단축하고 Autopilot은 데이터를 기반으로 최고의 ML 모델을 자동으로 빌드, 학습 및 조정합니다. Autopilot을 사용하면 데이터와 모델을 완전히 제어하고 가시성을 유지할 수 있습니다. 두 서비스 모두 ML 실무자의 생산성을 높이고 가치 실현 시간을 단축하기 위해 특별히 제작되었습니다.

다음 다이어그램은 솔루션 아키텍처를 보여줍니다.

사전 조건

이 게시물은 XNUMX부작 시리즈의 두 번째 게시물이므로 성공적으로 읽고 구현했는지 확인하세요. 파트 1 계속하기 전에.

모델 내보내기 및 학습

1부에서는 ML을 위한 데이터 준비 후 Data Wrangler의 통합 환경을 사용하여 데이터 세트를 분석하고 Autopilot에서 고품질 ML 모델을 쉽게 구축하는 방법에 대해 논의했습니다.

이번에는 Autopilot 통합을 다시 한 번 사용하여 동일한 훈련 데이터 세트에 대해 모델을 훈련하지만 대량 추론을 수행하는 대신 실시간 추론을 수행합니다. 아마존 세이지 메이커 자동으로 생성되는 추론 끝점입니다.

자동 엔드포인트 배포가 제공하는 편리함 외에도 모든 Data Wrangler 기능 변환을 SageMaker 직렬 추론 파이프라인으로 배포하는 방법을 보여줍니다. 이를 통해 추론 시 Data Wrangler 기능 변환을 재사용하여 원시 데이터를 자동으로 전처리할 수 있습니다.

이 기능은 현재 조인, 그룹화 기준, 연결 및 시계열 변환을 사용하지 않는 Data Wrangler 흐름에 대해서만 지원됩니다.

Autopilot과 새로운 Data Wrangler 통합을 사용하여 Data Wrangler 데이터 흐름 UI에서 모델을 직접 훈련할 수 있습니다.

옆에 있는 더하기 기호를 선택합니다. 스케일 값 노드를 선택하고 모델 학습.
럭셔리 아마존 S3 위치, 지정 아마존 단순 스토리지 서비스 (Amazon S3) SageMaker가 데이터를 내보내는 위치입니다.
기본적으로 루트 버킷 경로가 제공되는 경우 Data Wrangler는 그 아래에 고유한 내보내기 하위 디렉터리를 생성합니다. 원하지 않는 한 이 기본 루트 경로를 수정할 필요가 없습니다.Autopilot은 이 위치를 사용하여 모델을 자동으로 훈련하므로 비용을 절약할 수 있습니다. Data Wrangler 흐름의 출력 위치를 정의한 다음 Autopilot 교육 데이터의 입력 위치를 정의해야 하는 시간. 이를 통해 보다 원활한 경험을 할 수 있습니다.
왼쪽 메뉴에서 수출 및 훈련 변환된 데이터를 Amazon S3로 내보냅니다.

내보내기가 성공하면 다음으로 리디렉션됩니다. Autopilot 실험 만들기 페이지, 입력 데이터 S3 위치가 이미 채워져 있습니다(이전 페이지의 결과에서 채워짐).
럭셔리 실험 명, 이름을 입력하거나 기본 이름을 유지합니다.
럭셔리 목표선택한다. 결과 예측하려는 열로.
왼쪽 메뉴에서 다음: 교육 방법.

포스팅에 자세히 나와있듯이 Amazon SageMaker Autopilot은 AutoGluon에서 제공하는 새로운 앙상블 교육 모드로 최대 XNUMX배 더 빠릅니다., Autopilot이 데이터 세트 크기를 기반으로 훈련 모드를 자동으로 선택하도록 하거나 앙상블 또는 하이퍼파라미터 최적화(HPO)를 위해 수동으로 훈련 모드를 선택할 수 있습니다.

각 옵션의 세부 사항은 다음과 같습니다.

자동차 – Autopilot은 데이터 세트 크기에 따라 자동으로 앙상블 또는 HPO 모드를 선택합니다. 데이터 세트가 100MB보다 큰 경우 Autopilot은 HPO를 선택합니다. 그렇지 않으면 앙상블을 선택합니다.
앙상블 – 자동 조종 장치는 오토글루온 앙상블 기법은 여러 기본 모델을 훈련하고 모델 스택을 사용하여 예측을 최적의 예측 모델로 결합합니다.
하이퍼 파라미터 최적화 – Autopilot은 베이지안 최적화 기술을 사용하여 하이퍼파라미터를 조정하고 데이터 세트에서 교육 작업을 실행하여 모델의 최상의 버전을 찾습니다. HPO는 데이터 세트와 가장 관련이 있는 알고리즘을 선택하고 모델을 조정하기 위해 최상의 하이퍼파라미터 범위를 선택합니다. 이 예에서는 기본 선택을 그대로 둡니다. 자동차.

왼쪽 메뉴에서 다음: 배포 및 고급 설정 계속합니다.
에 배포 및 고급 설정 페이지에서 배포 옵션을 선택합니다.
배포 옵션을 더 자세히 이해하는 것이 중요합니다. 우리가 선택하는 것은 Data Wrangler에서 이전에 수행한 변환이 추론 파이프라인에 포함될지 여부에 영향을 미칩니다.
- Data Wrangler의 변환으로 최상의 모델 자동 배포 – 이 배포 옵션을 사용하면 Data Wrangler에서 데이터를 준비하고 Autopilot을 호출하여 모델을 훈련할 때 훈련된 모델이 모든 Data Wrangler 기능 변환과 함께 배포됩니다. SageMaker 직렬 추론 파이프라인. 이를 통해 추론 시 Data Wrangler 기능 변환을 재사용하여 원시 데이터를 자동으로 전처리할 수 있습니다. 추론 끝점은 데이터 형식이 Data Wrangler 흐름으로 가져올 때와 동일한 형식일 것으로 예상합니다.
- Data Wrangler의 변환 없이 최상의 모델 자동 배포 – 이 옵션은 Data Wrangler 변환을 사용하지 않는 실시간 끝점을 배포합니다. 이 경우 추론하기 전에 Data Wrangler 흐름에 정의된 변환을 데이터에 적용해야 합니다.
- 최상의 모델을 자동 배포하지 않음 – 추론 엔드포인트를 전혀 생성하지 않으려는 경우 이 옵션을 사용해야 합니다. 로컬에서 실행되는 대량 추론과 같이 나중에 사용할 수 있는 최상의 모델을 생성하려는 경우에 유용합니다. (이것은 시리즈의 1부에서 선택한 배포 옵션입니다.) 이 옵션을 선택하면 생성된 모델(SageMaker SDK를 통해 Autopilot의 최상의 후보에서)에 SageMaker 직렬 추론 파이프라인으로 Data Wrangler 기능 변환이 포함됩니다.
이 게시물에는 Data Wrangler의 변환으로 최상의 모델 자동 배포 옵션을 선택합니다.
럭셔리 배포 옵션, 고르다 Data Wrangler의 변환으로 최상의 모델 자동 배포.
다른 설정은 기본값으로 둡니다.
왼쪽 메뉴에서 다음: 검토 및 생성 계속합니다.
에 검토 및 생성 페이지에서 Autopilot 실험을 위해 선택한 설정 요약을 볼 수 있습니다.
왼쪽 메뉴에서 실험 만들기 모델 생성 프로세스를 시작합니다.

Autopilot 작업 설명 페이지로 리디렉션됩니다. 모델 쇼 모델 탭이 생성됩니다. 프로세스가 완료되었는지 확인하려면 직업 프로필 탭을 찾아 Completed 값 Status 입력란입니다.

다음에서 언제든지 이 Autopilot 작업 설명 페이지로 돌아갈 수 있습니다. 아마존 세이지 메이커 스튜디오:

왼쪽 메뉴에서 실험 및 시도 를 시청하여 이에 대해 더 많은 정보를 얻을 수 있습니다. SageMaker 리소스 드롭 다운 메뉴.
생성한 Autopilot 작업의 이름을 선택합니다.
실험을 선택(오른쪽 클릭)하고 AutoML 작업 설명.

교육 및 배포 보기

Autopilot이 실험을 완료하면 Autopilot 작업 설명 페이지에서 훈련 결과를 보고 최상의 모델을 탐색할 수 있습니다.

레이블이 지정된 모델을 선택(오른쪽 클릭)합니다. 베스트 모델, 선택 모델 세부정보에서 열기.

XNUMXD덴탈의 퍼포먼스 탭에는 혼동 행렬, AUCPR(정밀도/재현율 곡선 아래 영역) 및 ROC(수신기 작동 특성 곡선 아래 영역)를 비롯한 여러 모델 측정 테스트가 표시됩니다. 이는 모델의 전반적인 유효성 검사 성능을 보여주지만 모델이 잘 일반화되는지 여부를 알려주지는 않습니다. 모델이 예측을 얼마나 정확하게 수행하는지 확인하기 위해 아직 보이지 않는 테스트 데이터에 대한 평가를 실행해야 합니다(이 예에서는 개인이 당뇨병에 걸릴지 예측함).

실시간 엔드포인트에 대한 추론 수행

모델 성능을 평가하기 위해 실시간 추론을 수행하는 새 SageMaker 노트북을 생성합니다. 검증을 위한 실시간 추론을 실행하려면 노트북에 다음 코드를 입력하십시오.

import boto3

### Define required boto3 clients

sm_client = boto3.client(service_name="sagemaker")
runtime_sm_client = boto3.client(service_name="sagemaker-runtime")

### Define endpoint name

endpoint_name = ""

### Define input data

payload_str = '5,166.0,72.0,19.0,175.0,25.8,0.587,51'
payload = payload_str.encode()
response = runtime_sm_client.invoke_endpoint(
    EndpointName=endpoint_name,
    ContentType="text/csv",
    Body=payload,
)

response["Body"].read()

노트북에서 실행할 코드를 설정한 후에는 두 가지 변수를 구성해야 합니다.

endpoint_name
payload_str

endpoint_name 구성

endpoint_name 자동 생성된 배포의 실시간 추론 끝점 이름을 나타냅니다. 설정하기 전에 이름을 찾아야 합니다.

왼쪽 메뉴에서 종점 를 시청하여 이에 대해 더 많은 정보를 얻을 수 있습니다. SageMaker 리소스 드롭 다운 메뉴.
임의의 문자열을 추가하여 생성한 Autopilot 작업의 이름이 있는 끝점의 이름을 찾습니다.
실험을 선택(오른쪽 클릭)하고 엔드포인트 설명.

XNUMXD덴탈의 엔드포인트 세부정보 페이지가 나타납니다.
전체 끝점 이름을 강조 표시하고 Ctrl + C 클립보드를 복사합니다.
이 값을 입력하십시오(따옴표로 묶었는지 확인하십시오). endpoint_name 추론 노트에서.

payload_str 구성

노트북은 기본 페이로드 문자열과 함께 제공됩니다. payload_str 엔드포인트를 테스트하는 데 사용할 수 있지만 테스트 데이터 세트의 값과 같은 다른 값으로 자유롭게 실험할 수 있습니다.

테스트 데이터 세트에서 값을 가져오려면 다음 지침을 따르세요. 파트 1 테스트 데이터 세트를 Amazon S3로 내보냅니다. 그런 다음 Amazon S3 콘솔에서 다운로드하고 Amazon S3의 파일을 사용할 행을 선택할 수 있습니다.

테스트 데이터 세트의 각 행에는 XNUMX개의 열이 있으며 마지막 열은 outcome 값. 이 노트북 코드의 경우 단일 데이터 행(CSV 헤더가 아님)만 사용해야 합니다. payload_str. 또한 payload_str 결과 값을 제거한 XNUMX개의 열이 있습니다.

예를 들어 테스트 데이터 세트 파일이 다음 코드와 유사하고 첫 번째 행에 대한 실시간 추론을 수행하려는 경우:

Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome 
10,115,0,0,0,35.3,0.134,29,0 
10,168,74,0,0,38.0,0.537,34,1 
1,103,30,38,83,43.3,0.183,33,0

우리가 설정 한 payload_str 에 10,115,0,0,0,35.3,0.134,29. 우리가 어떻게 생략했는지 주목하십시오 outcome 의 가치 0 결국.

우연히 데이터 세트의 대상 값이 첫 번째 또는 마지막 값이 아닌 경우 쉼표 구조가 그대로 유지된 값을 제거하면 됩니다. 예를 들어 막대를 예측하고 데이터 세트가 다음 코드와 같다고 가정합니다.

foo,bar,foobar
85,17,20

이 경우 우리는 설정 payload_str 에 85,,20.

노트북이 제대로 구성된 상태에서 실행되면 payload_str 및 endpoint_name 값을 입력하면 다음 형식으로 CSV 응답을 받습니다. outcome (0 또는 1), confidence (0-1).

청소

이 자습서를 완료한 후 자습서 관련 요금이 발생하지 않도록 하려면 Data Wrangler 앱(https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-shut-down.html), 추론 작업을 수행하는 데 사용되는 모든 노트북 인스턴스. Auto Pilot 배포를 통해 생성된 추론 엔드포인트도 추가 요금을 방지하기 위해 삭제해야 합니다.

결론

이 게시물에서는 Data Wrangler 및 Autopilot을 사용하여 엔지니어링 및 모델 구축을 특징으로 하는 데이터 처리를 통합하는 방법을 보여주었습니다. 시리즈의 1부를 기반으로 Data Wrangler 사용자 인터페이스에서 직접 Autopilot을 사용하여 모델을 쉽게 훈련, 조정 및 실시간 추론 엔드포인트에 배포하는 방법을 강조했습니다. 자동 끝점 배포가 제공하는 편리함 외에도 Data Wrangler 기능 변환을 재사용하여 원시 데이터의 자동 사전 처리를 제공하는 SageMaker 직렬 추론 파이프라인으로 모든 Data Wrangler 기능 변환을 배포하는 방법을 시연했습니다. 추론의 시간.

Data Wrangler 및 Autopilot과 같은 로우 코드 및 AutoML 솔루션은 강력한 ML 모델을 구축하기 위해 깊은 코딩 지식이 필요하지 않습니다. 데이터 랭글러 사용 시작하기 오늘 Autopilot을 사용하여 ML 모델을 구축하는 것이 얼마나 쉬운지 경험해 보십시오.

저자 소개

Amazon SageMaker Data Wrangler 및 Amazon SageMaker Autopilot – 파트 2 PlatoBlockchain Data Intelligence를 통한 통합 데이터 준비, 모델 교육 및 배포. 수직 검색. 일체 포함. 제레미 코헨 AWS의 Solutions Architect로 고객이 최첨단 클라우드 기반 솔루션을 구축 할 수 있도록 지원합니다. 여가 시간에는 해변에서 짧은 산책을 즐기고 가족과 함께 베이 지역을 탐험하고 집 주변의 물건을 고치고 집 주변의 물건을 부수고 바베큐를합니다.

Amazon SageMaker Data Wrangler 및 Amazon SageMaker Autopilot – 파트 2 PlatoBlockchain Data Intelligence를 통한 통합 데이터 준비, 모델 교육 및 배포. 수직 검색. 일체 포함. 프라딥 레디 SageMaker Autopilot, SageMaker 자동 모델 튜너를 포함하는 SageMaker Low/No Code ML 팀의 수석 제품 관리자입니다. 직장 밖에서 Pradeep은 라즈베리 파이와 같은 손바닥 크기의 컴퓨터 및 기타 홈 자동화 기술을 사용하여 독서, 달리기 및 괴짜 작업을 즐깁니다.