Amazon SageMaker 기능 스토어 기계 학습(ML)을 위한 기능 엔지니어링을 자동화하는 엔드투엔드 솔루션을 제공합니다. 많은 ML 사용 사례의 경우 로그 파일, 센서 판독값, 트랜잭션 기록과 같은 원시 데이터를 모델 교육에 최적화된 의미 있는 기능으로 변환해야 합니다.
매우 정확한 ML 모델을 보장하려면 기능 품질이 중요합니다. 집계, 인코딩, 정규화 및 기타 작업을 사용하여 원시 데이터를 기능으로 변환하는 작업이 필요한 경우가 많으며 상당한 노력이 필요할 수 있습니다. 엔지니어는 각 사용 사례에 대해 Python 또는 Spark에서 사용자 지정 데이터 사전 처리 및 집계 논리를 수동으로 작성해야 합니다.
이러한 획일적인 무거운 작업은 번거롭고 반복적이며 오류가 발생하기 쉽습니다. 그만큼 SageMaker Feature Store 기능 프로세서 원시 데이터를 ML 모델 일괄 학습에 적합한 집계 기능으로 자동 변환하여 이러한 부담을 줄입니다. 이를 통해 엔지니어는 간단한 데이터 변환 기능을 제공한 다음 Spark에서 대규모로 실행하고 기본 인프라를 관리할 수 있습니다. 이를 통해 데이터 과학자와 데이터 엔지니어는 구현 세부 사항보다는 기능 엔지니어링 논리에 집중할 수 있습니다.
이 게시물에서는 자동차 판매 회사가 Feature Processor를 사용하여 원시 판매 거래 데이터를 다음 세 단계를 통해 기능으로 변환하는 방법을 보여줍니다.
- 데이터 변환의 로컬 실행.
- Spark를 사용하여 대규모로 원격 실행
- 파이프라인을 통한 운영화.
SageMaker Feature Store가 원시 데이터를 수집하고, Spark를 사용하여 원격으로 기능 변환을 실행하고, 결과 집계 기능을 로드하는 방법을 보여줍니다. 기능 그룹. 그런 다음 이러한 엔지니어링된 기능을 사용하여 ML 모델을 교육할 수 있습니다.
이 사용 사례에서는 SageMaker Feature Store가 원시 자동차 판매 데이터를 구조화된 기능으로 변환하는 데 어떻게 도움이 되는지 알아봅니다. 이러한 기능은 이후에 다음과 같은 통찰력을 얻는 데 사용됩니다.
- 2010년 레드 컨버터블의 평균 및 최고 가격
- 가격 대비 주행거리가 가장 좋은 모델
- 지난 몇 년간 신차와 중고차의 판매 동향
- 위치별 평균 MSRP 차이
또한 SageMaker Feature Store 파이프라인이 어떻게 새로운 데이터가 들어올 때 기능을 업데이트하여 회사가 시간이 지남에 따라 지속적으로 통찰력을 얻을 수 있는지 살펴봅니다.
솔루션 개요
우리는 데이터세트로 작업합니다 car_data.csv
, 회사에서 판매하는 중고차와 신차의 모델, 연식, 상태, 주행거리, 가격, MSRP 등의 사양이 포함되어 있습니다. 다음 스크린샷은 데이터 세트의 예를 보여줍니다.
솔루션 노트북 feature_processor.ipynb
이 게시물에서 설명하는 다음과 같은 주요 단계가 포함되어 있습니다.
- 두 개의 기능 그룹을 만듭니다. 하나는
car-data
원시 자동차 판매 기록 및 기타car-data-aggregated
집계된 자동차 판매 기록을 위해 - 사용
@feature_processor
자동차 데이터 기능 그룹에 데이터를 로드하는 데코레이터 아마존 단순 스토리지 서비스 (아마존 S3). - 실행
@feature_processor code
Spark 애플리케이션으로 원격으로 데이터를 집계합니다. - 다음을 통해 기능 프로세서를 운용합니다. SageMaker 파이프라인 그리고 일정이 실행됩니다.
- 기능 처리 파이프라인을 살펴보고 혈통 in 아마존 세이지 메이커 스튜디오.
- 집계된 특성을 사용하여 ML 모델을 학습합니다.
사전 조건
이 튜토리얼을 따르려면 다음이 필요합니다.
이번 포스팅에서는 다음을 참고하겠습니다. 수첩, SageMaker Python SDK를 사용하여 기능 프로세서를 시작하는 방법을 보여줍니다.
기능 그룹 만들기
기능 그룹을 생성하려면 다음 단계를 완료하세요.
- 다음에 대한 기능 그룹 정의를 생성합니다.
car-data
다음과 같이 :
기능은 다음의 각 열에 해당합니다. car_data.csv
데이터세트(Model
, Year
, Status
, Mileage
, Price
및 MSRP
).
- 레코드 식별자 추가
id
그리고 이벤트 시간ingest_time
기능 그룹에:
- 다음에 대한 기능 그룹 정의를 생성합니다.
car-data-aggregated
다음과 같이 :
집계된 기능 그룹의 경우 기능은 모델 연도 상태, 평균 마일리지, 최대 마일리지, 평균 가격, 최대 가격, 평균 MSRP, 최대 MSRP 및 수집 시간입니다. 레코드 식별자를 추가합니다 model_year_status
그리고 이벤트 시간 ingest_time
이 기능 그룹에.
- 이제
car-data
기능 그룹:
- 만들기
car-data-aggregated
기능 그룹:
아래에서 SageMaker Feature Store 옵션으로 이동할 수 있습니다. Data SageMaker Studio에서 홈 기능 그룹을 보려면 메뉴를 클릭하세요.
@feature_processor 데코레이터를 사용하여 데이터 로드
이 섹션에서는 원시 입력 데이터(car_data.csv
) Amazon S3에서 car-data
Feature Store Feature Processor를 사용하는 기능 그룹입니다. 이 초기 로컬 실행을 통해 원격으로 실행하기 전에 개발하고 반복할 수 있으며, 더 빠른 반복을 위해 원하는 경우 데이터 샘플에서 수행할 수 있습니다.
와 더불어 @feature_processor
데코레이터를 사용하면 변환 함수는 함수에 제공된 입력 인수와 해당 반환 값이 Spark DataFrames인 Spark 런타임 환경에서 실행됩니다.
- 설치 기능 프로세서 SDK 인사말 SageMaker Python SDK 다음 명령을 사용하여 추가 기능을 수행합니다.
변환 함수의 입력 매개변수 수는 다음에서 구성된 입력 수와 일치해야 합니다. @feature_processor
데코레이터. 이 경우, @feature_processor
장식가는 car-data.csv
입력으로 car-data
기능 그룹을 출력으로 사용하여 일괄 작업임을 나타냅니다. target_store
as OfflineStore
:
- 정의
transform()
데이터를 변환하는 함수입니다. 이 기능은 다음 작업을 수행합니다.- 열 이름을 소문자로 변환합니다.
- 이벤트 시간을
ingest_time
열입니다. - 구두점을 제거하고 누락된 값을 NA로 바꿉니다.
- 전화
transform()
데이터를 저장하는 함수car-data
기능 그룹:
출력에는 데이터가 자동차 데이터 기능 그룹에 성공적으로 수집되었음을 보여줍니다.
의 출력 transform_df.show()
기능은 다음과 같습니다.
입력 데이터를 성공적으로 변환하고 이를 car-data
기능 그룹.
@feature_processor 코드를 원격으로 실행
이 섹션에서는 다음을 사용하여 원격으로 Spark 애플리케이션으로 기능 처리 코드를 실행하는 방법을 보여줍니다. @remote
앞서 설명한 데코레이터. 대규모 데이터 세트로 확장하기 위해 Spark를 사용하여 원격으로 기능 처리를 실행합니다. Spark는 단일 시스템에 비해 너무 큰 데이터를 처리하기 위해 클러스터에 분산 처리를 제공합니다. 그만큼 @remote
데코레이터는 로컬 Python 코드를 단일 또는 다중 노드 SageMaker 훈련 작업으로 실행합니다.
- 사용
@remote
데코레이터와 함께@feature_processor
데코레이터는 다음과 같습니다.
XNUMXD덴탈의 spark_config
매개변수는 이것이 다음과 같이 실행됨을 나타냅니다. Spark application
. SparkConfig 인스턴스는 Spark 구성 및 종속성을 구성합니다.
- 정의
aggregate()
PySpark SQL 및 사용자 정의 함수(UDF)를 사용하여 데이터를 집계하는 함수입니다. 이 기능은 다음 작업을 수행합니다.- 사슬 같이 잇다
model
,year
및status
만드는 방법model_year_status
. - 평균을 구해 보세요
price
만드는 방법avg_price
. - 최대 값을 취하십시오.
price
만드는 방법max_price
. - 평균을 구해 보세요
mileage
만드는 방법avg_mileage
. - 최대 값을 취하십시오.
mileage
만드는 방법max_mileage
. - 평균을 구해 보세요
msrp
만드는 방법avg_msrp
. - 최대 값을 취하십시오.
msrp
만드는 방법max_msrp
. - 그룹화 기준
model_year_status
.
- 사슬 같이 잇다
- 실행
aggregate()
Spark 애플리케이션을 실행하기 위한 SageMaker 훈련 작업을 생성하는 함수:
결과적으로 SageMaker는 앞서 정의한 Spark 애플리케이션에 대한 훈련 작업을 생성합니다. 다음을 사용하여 Spark 런타임 환경을 생성합니다. sagemaker-spark-processing image
.
여기서는 SageMaker 교육 작업을 사용하여 Spark 기능 처리 애플리케이션을 실행합니다. SageMaker 교육을 사용하면 SageMaker 처리에서는 사용할 수 없는 웜 풀링을 사용하여 시작 시간을 1분 이하로 줄일 수 있습니다. 이를 통해 SageMaker 교육은 시작 시간이 중요한 기능 처리와 같은 짧은 배치 작업에 더 잘 최적화됩니다.
- 세부 정보를 보려면 SageMaker 콘솔에서 다음을 선택합니다. 훈련 직업 아래에 트레이닝 탐색 창에서 이름이 있는 작업을 선택합니다.
aggregate-<timestamp>
.
의 출력 골재() 함수는 원격 측정 코드를 생성합니다. 출력 내부에는 다음과 같이 집계된 데이터가 표시됩니다.
훈련 작업이 완료되면 다음 출력이 표시됩니다.
SageMaker 파이프라인을 통해 기능 프로세서 운영
이 섹션에서는 기능 프로세서를 SageMaker 파이프라인으로 승격하고 실행을 예약하여 기능 프로세서를 운용하는 방법을 보여줍니다.
- 먼저, 변환_코드.py Amazon S3에 대한 기능 처리 논리가 포함된 파일:
- 다음으로 기능 프로세서 파이프라인을 생성합니다. 자동차_데이터_파이프라인 를 사용하여 .to_pipeline() 기능:
- 파이프라인을 실행하려면 다음 코드를 사용하십시오.
- 마찬가지로, 다음과 같은 집계된 기능에 대한 파이프라인을 생성할 수 있습니다.
car_data_aggregated_pipeline
그리고 달리기를 시작합니다. - 예약
car_data_aggregated_pipeline
24시간마다 실행하려면:
출력 섹션에는 파이프라인의 ARN과 파이프라인 실행 역할, 일정 세부 정보가 표시됩니다.
- 이 계정의 모든 기능 프로세서 파이프라인을 얻으려면
list_pipelines()
기능 프로세서의 기능:
출력은 다음과 같습니다:
SageMaker 기능 프로세서 파이프라인을 성공적으로 생성했습니다.
특성 처리 파이프라인 및 ML 계보 살펴보기
SageMaker Studio에서 다음 단계를 완료하십시오.
- SageMaker Studio 콘솔에서 홈 메뉴, 선택 파이프 라인.
생성된 두 개의 파이프라인이 표시됩니다. car-data-ingestion-pipeline
및 car-data-aggregated-ingestion-pipeline
.
- 선택
car-data-ingestion-pipeline
.
실행 세부정보가 표시됩니다. 사형 집행 탭.
- 파이프라인으로 채워진 기능 그룹을 보려면 다음을 선택합니다. 기능 저장소 아래에 Data 선택하고
car-data
.
이전 단계에서 생성한 두 개의 기능 그룹이 표시됩니다.
- 선택
car-data
기능 그룹.
다음에서 기능 세부정보를 볼 수 있습니다. 특징 탭.
파이프라인 실행 보기
파이프라인 실행을 보려면 다음 단계를 완료하세요.
- 에 파이프라인 실행탭에서 선택
car-data-ingestion-pipeline
.
그러면 모든 실행이 표시됩니다.
- 실행 세부 정보를 보려면 링크 중 하나를 선택하세요.
- 계보를 보려면 계보를 선택합니다.
에 대한 전체 계보 car-data
입력 데이터 소스를 보여줍니다. car_data.csv
및 업스트림 엔터티. 에 대한 계보 car-data-aggregated
입력을 보여줍니다 car-data
기능 그룹.
- 왼쪽 메뉴에서 기능 로드 그런 다음 업스트림 계보 쿼리 on
car-data
및car-data-ingestion-pipeline
모든 업스트림 엔터티를 보려면
에 대한 전체 계보 car-data
기능 그룹은 다음 스크린샷과 같아야 합니다.
마찬가지로, 혈통에 대한 car-aggregated-data
기능 그룹은 다음 스크린샷과 같아야 합니다.
SageMaker Studio는 예약된 파이프라인을 추적하고, 실행을 보고, 계보를 탐색하고, 기능 처리 코드를 볼 수 있는 단일 환경을 제공합니다.
평균 가격, 최고 가격, 평균 마일리지 등의 집계된 기능은 car-data-aggregated
기능 그룹은 데이터의 성격에 대한 통찰력을 제공합니다. 또한 이러한 기능을 데이터 세트로 사용하여 자동차 가격을 예측하거나 다른 작업을 위한 모델을 훈련할 수도 있습니다. 그러나 모델 교육은 기능 엔지니어링을 위한 SageMaker Feature Store 기능을 시연하는 데 초점을 맞춘 이 게시물의 범위를 벗어납니다.
정리
지속적인 요금이 발생하지 않도록 이 게시물의 일부로 생성된 리소스를 정리하는 것을 잊지 마십시오.
- 다음을 통해 예약된 파이프라인을 비활성화합니다.
fp.schedule()
상태 매개변수를 사용하는 메소드Disabled
:
- 두 기능 그룹을 모두 삭제합니다.
S3 버킷과 오프라인 Feature Store에 있는 데이터는 비용이 발생할 수 있으므로 요금이 부과되지 않도록 삭제해야 합니다.
결론
이 게시물에서는 자동차 판매 회사가 SageMaker Feature Store Feature Processor를 사용하여 원시 판매 데이터에서 귀중한 통찰력을 얻는 방법을 시연했습니다.
- Spark를 사용하여 대규모 배치 데이터 수집 및 변환
- SageMaker 파이프라인을 통해 기능 엔지니어링 워크플로 운영
- 파이프라인을 모니터링하고 기능을 탐색할 수 있는 계보 추적 및 단일 환경 제공
- ML 모델 학습에 최적화된 집계 특성 준비
이러한 단계를 수행함으로써 회사는 이전에 사용할 수 없었던 데이터를 구조화된 특성으로 변환하여 자동차 가격을 예측하는 모델을 훈련하는 데 사용할 수 있었습니다. SageMaker Feature Store를 통해 그들은 기본 인프라가 아닌 기능 엔지니어링에 집중할 수 있었습니다.
이 게시물이 SageMaker Feature Store Feature Processor를 사용하여 자신의 데이터에서 귀중한 ML 통찰력을 얻는 데 도움이 되기를 바랍니다!
이에 대한 자세한 내용은 다음을 참조하십시오. 기능 처리 SageMaker 예제는 다음과 같습니다. Amazon SageMaker Feature Store: 기능 프로세서 소개.
저자에 관하여
다발 샤 그는 기계 학습을 전문으로 하는 AWS의 수석 솔루션 아키텍트입니다. 그는 디지털 기반 비즈니스에 중점을 두고 고객이 AWS를 활용하고 비즈니스 성장을 추진할 수 있도록 지원합니다. ML 애호가인 Dhaval은 긍정적인 변화를 가져오는 영향력 있는 솔루션을 만들려는 열정을 갖고 있습니다. 여가 시간에는 여행에 대한 사랑을 만끽하고 가족과 함께 좋은 순간을 소중히 여깁니다.
니나드 조시 AWS의 수석 솔루션 아키텍트로서 전 세계 AWS 고객이 클라우드에서 안전하고 확장 가능하며 비용 효율적인 솔루션을 설계하여 복잡한 실제 비즈니스 과제를 해결할 수 있도록 지원합니다. 기계 학습(ML) 분야에서 그의 작업은 엔드투엔드 ML, 자연어 처리 및 컴퓨터 비전에 중점을 두고 광범위한 AI/ML 사용 사례를 다루고 있습니다. AWS에 합류하기 전에 Ninad는 12년 이상 소프트웨어 개발자로 일했습니다. 전문적인 노력 외에도 Ninad는 체스를 두거나 다양한 도박을 탐구하는 것을 즐깁니다.
- SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
- PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
- PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
- 플라톤ESG. 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
- PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
- 출처: https://aws.amazon.com/blogs/machine-learning/unlock-ml-insights-using-the-amazon-sagemaker-feature-store-feature-processor/
- :있다
- :이다
- :아니
- :어디
- $UP
- 1
- 10
- 100
- 11
- 116
- 12
- 13
- 14
- 15%
- 16
- 20
- 24
- 26%
- 40
- 7
- 8
- 9
- a
- 할 수 있는
- 계정
- 정확한
- 가로질러
- 행위
- 더하다
- 골재
- 집합
- AI / ML
- All
- 수
- 따라
- 또한
- 아마존
- 아마존 세이지 메이커
- Amazon Web Services
- an
- 및
- 다른
- 어떤
- 어플리케이션
- 있군요
- 인수
- AS
- At
- 자동화
- 자동적으로
- 가능
- 평균
- 피하기
- AWS
- 기본
- BE
- 전에
- BEST
- 더 나은
- 큰
- 두
- 가져
- 부담
- 사업
- 사업
- by
- 라는
- CAN
- 기능
- 자동차
- 자동차
- 케이스
- 가지 경우
- 과제
- 이전 단계로 돌아가기
- 요금
- 체스
- 왼쪽 메뉴에서
- 클라우드
- 암호
- 단
- 열
- 제공
- 회사
- 완전한
- 복잡한
- 컴퓨터
- 컴퓨터 비전
- 구성
- 구성
- 콘솔에서
- 이 포함되어 있습니다
- 지속적으로
- 변하게 하다
- 비용
- 비용
- 수
- 커버
- 만들
- 만든
- 생성
- 만들기
- 임계
- 성가신
- 관습
- 고객
- 데이터
- 데이터 세트
- 한정된
- 정의
- 보여
- 시연
- 보여줍니다
- 시연하는
- 의존성
- 기술 된
- 설명
- 디자인
- 원하는
- 세부설명
- 개발
- 개발자
- 다른
- 디지털
- 사용
- 표시
- 분산
- 한
- 드라이브
- 구동
- 마다
- 이전
- 유효한
- 노력
- 힘을 실어
- 사용 가능
- 수
- 가능
- 끝으로 종료
- 노력
- 엔지니어링
- 엔지니어
- 확인
- 매니아
- 엔티티
- 환경
- 이벤트
- 모든
- 예
- 실행
- 실행
- 종료
- 설명
- 탐험
- 탐색
- 가족
- 빠른
- 특색
- 특징
- 입양 부모로서의 귀하의 적합성을 결정하기 위해 미국 이민국에
- 파일
- 초점
- 집중
- 따라
- 수행원
- 다음
- 럭셔리
- 분수
- 에
- 가득 찬
- 기능
- 기능
- 이득
- 생성
- 얻을
- 글로벌
- 그룹
- 여러 떼
- 성장
- 핸들
- 처리
- 있다
- he
- 헤더
- 무거운
- 무거운 리프팅
- 도움이
- 도움이
- 여기에서 지금 확인해 보세요.
- 강조
- 고도로
- 그의
- 홈
- 기대
- 진료 시간
- 방법
- How To
- 그러나
- HTML
- HTTPS
- ID
- 식별자
- if
- 영상
- 충격적인
- 이행
- import
- 중대한
- in
- 포함
- 표시
- 정보
- 정보
- 인프라
- 처음에는
- 입력
- 입력
- 내부
- 통찰력
- 통찰력
- 설치
- 예
- 으로
- IT
- 되풀이
- 그
- 일
- 작업
- 가입
- JPG
- 유지
- 언어
- 넓은
- 배우기
- 적게
- 수
- 이점
- 리프팅
- 처럼
- 혈통
- 모래밭
- 명부
- 하중
- 잔뜩
- 지방의
- 장소 상에서
- 기록
- 논리
- 보기
- 같이
- 애정
- 기계
- 기계 학습
- 본관
- 제작
- 관리
- 수동으로
- .
- 경기
- 최대
- 최고
- MDX
- 의미있는
- 메뉴
- 방법
- 분
- 누락
- ML
- 모델
- 모델
- 순간
- 모니터
- 배우기
- 절대로 필요한 것
- name
- 이름
- 출신
- 자연의
- 자연 언어 처리
- 자연
- 이동
- 카테고리
- 필요
- 필요
- 신제품
- 노드
- 수첩
- 번호
- of
- 오프라인
- 자주
- on
- ONE
- 지속적으로
- 만
- 조작
- 행정부
- 최적화
- 선택권
- or
- 기타
- 우리의
- 아웃
- 출력
- 외부
- 위에
- 자신의
- 빵
- 매개 변수
- 매개 변수
- 부품
- 열정
- 수행
- 수행하다
- 관로
- 플라톤
- 플라톤 데이터 인텔리전스
- 플라토데이터
- 연주
- 인구가 많은
- 긍정적인
- 게시하다
- pr
- 예측
- 너무 이른
- 이전에
- 가격
- 학비 안내
- 일차
- 이전에
- 처리
- 프로세서
- 링크를
- 홍보
- 제공
- 제공
- 제공
- Python
- 품질
- 범위
- 차라리
- 살갗이 벗어 진
- 현실 세계
- 기록
- 기록
- 빨간색
- 감소
- 감소
- 참조
- 제거
- 반복적 인
- 교체
- 필요
- 제품 자료
- 결과
- 결과
- return
- 직위별
- 달리기
- 달리는
- 실행
- s
- 현자
- 판매
- 판매
- 확장성
- 규모
- 예정
- 예약
- 일정
- 과학자
- 범위
- SDK
- sdn
- 초
- 섹션
- 안전해야합니다.
- 참조
- 연장자
- 서비스
- 짧은
- 영상을
- 표시
- 쇼
- 상당한
- 단순, 간단, 편리
- 단일
- 단일 환경
- So
- 소프트웨어
- 판매
- 해결책
- 솔루션
- 풀다
- 출처
- 불꽃
- 전문
- 명세서
- 지정
- 스포츠
- 스타트
- 시작
- 시작
- 주 정부
- Status
- 단계
- 저장
- 저장
- 데이터 저장
- 끈
- 강한
- 구조화
- 스튜디오
- 제출
- 그후
- 성공한
- 성공적으로
- 이러한
- 적당한
- 테이블
- 보다
- 그
- XNUMXD덴탈의
- 국가
- 그들의
- 그들
- 그때
- Bowman의
- 이
- 세
- 시간
- 시대
- 에
- 너무
- 상단
- 선로
- 추적
- Train
- 트레이닝
- 거래
- 변환
- 변환
- 변환
- 변환
- 변화
- 여행
- 트렌드
- 지도 시간
- 두
- 유형
- 유형
- ui
- 아래에
- 밑에 있는
- 잠금을 해제
- 업데이트
- us
- 사용
- 유스 케이스
- 익숙한
- 사용
- 가치 있는
- 가치
- 마케팅은:
- 여러
- 차량
- 를 통해
- 관측
- 시력
- vs
- 따뜻한
- 였다
- we
- 웹
- 웹 서비스
- 어느
- 넓은
- 넓은 범위
- 의지
- 과
- 작업
- 일
- 워크 플로우
- 쓰다
- year
- 년
- 자신의
- 너의
- 제퍼 넷