AutoGluon을 사용하여 콜드 스타트 시계열 예측 엔진 구축

플라톤에 의해 재발행

팔로워 : 0

웹 트래픽에 리소스를 보다 효율적으로 할당하거나, 인력 수요에 대한 환자 수요를 예측하거나, 회사 제품의 판매를 예상하는 경우 예측은 많은 비즈니스에서 필수적인 도구입니다. 로 알려진 특정 사용 사례 콜드 스타트 예측, 소매 업계에서 시장에 출시된 신제품과 같이 기존의 과거 데이터가 거의 또는 전혀 없는 시계열에 대한 예측을 작성합니다. ARIMA(자동회귀 통합 이동 평균) 또는 ES(지수 평활화)와 같은 기존 시계열 예측 방법은 각 개별 제품의 과거 시계열에 크게 의존하므로 콜드 스타트 예측에는 효과적이지 않습니다.

이 게시물에서는 다음을 사용하여 콜드 스타트 예측 엔진을 구축하는 방법을 보여줍니다. 시계열 예측을 위한 AutoGluon AutoML, 이미지, 텍스트, 테이블 형식 및 시계열 데이터에 대한 머신 러닝(ML)을 자동화하는 오픈 소스 Python 패키지입니다. AutoGluon은 초보자부터 숙련된 ML 개발자까지 엔드 투 엔드 자동화 머신 러닝(AutoML) 파이프라인을 제공하여 가장 정확하고 사용하기 쉬운 완전 자동화 솔루션입니다. 우리는 무료로 사용 Amazon SageMaker 스튜디오 랩 이 데모를 위한 서비스입니다.

AutoGluon 시계열 소개

오토글루온 텍스트, 이미지, 테이블 형식 데이터용 AutoML을 위한 최고의 오픈 소스 라이브러리로, 단 한 줄의 코드로 원시 데이터에서 매우 정확한 모델을 생성할 수 있습니다. 최근 팀은 이러한 기능을 시계열 데이터로 확장하기 위해 노력해 왔으며 다음에서 공개적으로 사용할 수 있는 자동화된 예측 모듈을 개발했습니다. GitHub의. 그만큼 autogluon.forecasting 모듈은 원시 시계열 데이터를 적절한 형식으로 자동 처리한 다음 다양한 최신 딥 러닝 모델을 훈련 및 조정하여 정확한 예측을 생성합니다. 이 포스트에서는 사용법을 보여줍니다. autogluon.forecasting 콜드 스타트 예측 작업에 적용합니다.

솔루션 개요

AutoGluon은 오픈 소스 Python 패키지이므로 이 솔루션을 구현할 수 있습니다. 장소 상에서 랩톱 또는 Amazon SageMaker Studio Lab에서. 다음 단계를 거칩니다.

Amazon SageMaker Studio Lab용 AutoGluon을 설정합니다.
데이터세트를 준비합니다.
AutoGluon을 사용하여 훈련 매개변수를 정의합니다.
시계열 예측을 위해 콜드 스타트 예측 엔진을 훈련합니다.
콜드 스타트 예측 예측을 시각화합니다.

콜드 스타트 예측의 주요 가정은 유사한 특성을 가진 항목이 유사한 시계열 궤적을 가져야 한다는 것입니다. 이를 통해 다음 그림과 같이 콜드 스타트 예측이 과거 데이터가 없는 항목에 대해 예측할 수 있습니다.

이 연습에서는 370개 항목에 대한 시간별 시계열로 구성된 전력 소비를 기반으로 하는 합성 데이터 세트를 사용합니다. item_id 0-369. 이 합성 데이터 세트 내에서 각각 item_id 또한 정적 기능(시간이 지나도 변경되지 않는 기능)과 연결되어 있습니다. 우리는 훈련 DeepAR AutoGluon을 사용하여 유사한 항목의 일반적인 동작을 학습하고 이러한 동작을 전송하여 새 항목에 대한 예측을 수행하는 모델(item_id 370–373) 과거 시계열 데이터가 없습니다. 하나의 정적 기능으로만 콜드 스타트 예측 접근 방식을 시연하고 있지만 실제로는 유익한 고품질 정적 기능을 갖는 것이 좋은 콜드 스타트 예측의 핵심입니다.

다음 다이어그램은 당사 솔루션에 대한 높은 수준의 개요를 제공합니다. 오픈 소스 코드는 GitHub 레포.

사전 조건

이 연습에서는 다음과 같은 전제 조건이 있어야합니다.

An Amazon SageMaker Studio 랩 계정
GitHub의 계정 액세스

Amazon SageMaker Studio Lab 계정에 로그인하고 터미널을 사용하여 환경을 설정합니다.

cd sagemaker-studiolab-notebooks/ git clone https://github.com/whosivan/amazon-sagemaker-studio-lab-cold-start-forecasting-using-autogluon
conda env create -f autogluon.yml
conda activate autogluon
git clone https://github.com/yx1215/autogluon.git
cd autogluon/
git checkout --track origin/add_forecasting_predictor

이 지침은 Amazon SageMaker Studio Lab에 액세스할 수 없는 경우 랩톱에서도 작동해야 합니다(먼저 랩톱에 Anaconda를 설치하는 것이 좋습니다).

가상 환경이 완전히 설정되면 노트북을 실행합니다. AutoGluon-cold-start-demo.ipynb 사용자 정의 환경을 선택하십시오 .conda-autogluon:Python 핵심.

대상 시계열 및 항목 메타 데이터 세트 준비

다음 데이터세트가 포함되어 있지 않은 경우 노트북 인스턴스에 다운로드하고 디렉터리 아래에 저장합니다. data/. 이러한 데이터세트는 다음에서 찾을 수 있습니다. GitHub 레포:

테스트.csv.gz
ColdStartTargetData.csv
itemMetaData.csv

다음 스니펫을 실행하여 대상 시계열 데이터 세트를 커널에 로드합니다.

zipLocalFilePath = "data/test.csv.gz"
localFilePath = "data/test.csv"
util.extract_gz(zipLocalFilePath, localFilePath) tdf = pd.read_csv(zipLocalFilePath, dtype = object)
tdf['target_value'] = tdf['target_value'].astype('float')
tdf.head()

AutoGluon 시계열은 숫자 형식으로 표시되는 정적 기능이 필요합니다. 이는 적용을 통해 달성할 수 있습니다. LabelEncoder() 우리의 정적 기능에 type, 여기서 A=0, B=1, C=2, D=3을 인코딩합니다(다음 코드 참조). 기본적으로 AutoGluon은 정적 기능을 순서형 또는 범주형으로 유추합니다. 정적 기능 열을 범주형 기능의 경우 개체/문자열 데이터 형식으로 변환하거나 순서형 기능의 경우 정수/부동수 데이터 형식으로 변환하여 이를 덮어쓸 수도 있습니다.

localItemMetaDataFilePath = "data/itemMetaData.csv"
imdf = pd.read_csv(localItemMetaDataFilePath, dtype = object) labelencoder = LabelEncoder()
imdf['type'] = labelencoder.fit_transform(imdf['type']) imdf_without_coldstart_item['type'] = imdf_without_coldstart_item['type'].astype(str) imdf_without_coldstart_item = imdf[imdf.item_id.isin(tdf.item_id.tolist())]
imdf_without_coldstart_item.to_csv('data/itemMetaDatawithoutColdstart.csv', index=False) imdf_with_coldstart_item = imdf[~imdf.item_id.isin(tdf.item_id.tolist())]
imdf_with_coldstart_item.to_csv('data/itemMetaDataOnlyColdstart.csv', index=False)

AutoGluon 모델 교육 설정 및 시작

우리는 지정해야합니다 save_path = ‘autogluon-coldstart-demo’ 모델 아티팩트 폴더 이름으로 사용합니다(다음 코드 참조). 우리는 또한 우리의 eval_metric as 평균 절대 백분율 오류및 ‘MAPE’ 간단히 말해서, 우리가 정의한 곳 prediction_length 24시간으로. 지정하지 않으면 AutoGluon은 기본적으로 확률 예측을 생성하고 다음을 통해 점수를 매깁니다. 가중 분위수 손실. 우리는 바라만 본다 DeepAR 모델 데모에서는 DeepAR 알고리즘이 설계에 따라 콜드 스타트 예측을 허용한다는 것을 알고 있기 때문입니다. DeepAR 하이퍼파라미터 중 하나를 임의로 설정하고 해당 하이퍼파라미터를 ForecastingPredictor().fit() 전화. 이렇게 하면 AutoGluon이 지정된 모델만 볼 수 있습니다. 조정 가능한 하이퍼파라미터의 전체 목록은 다음을 참조하십시오. gluonts.model.deepar 패키지.

save_path = 'autogluon-coldstart-demo'
eval_metric = 'MAPE'
deepar_params = { "scaling":True
} ag_predictor = ForecastingPredictor(path=save_path, eval_metric=eval_metric).fit(tdf, static_features = imdf_without_coldstart_item,
prediction_length=24, #how far out in the future we wish to forecast index_column="item_id", target_column="target_value", time_column="timestamp",
quantiles=[0.1, 0.5, 0.9], hyperparameters={"DeepAR": deepar_params})

교육은 30~45분이 소요됩니다. 다음 함수를 호출하여 모델 요약을 얻을 수 있습니다.

ag_predictor.fit_summary()

콜드 스타트 품목에 대한 예측

이제 콜드 스타트 항목에 대한 예측을 생성할 준비가 되었습니다. 각각에 대해 최소 XNUMX개의 행을 갖는 것이 좋습니다. item_id. 따라서 item_id 관측값이 XNUMX개 미만인 경우 NaN으로 채웁니다. 데모에서는 둘 다 item_id 370과 372에는 순수한 콜드 스타트 문제인 관찰이 XNUMX개 있는 반면 다른 두 개에는 XNUMX개의 목표 값이 있습니다.

다음 코드를 사용하여 콜드 스타트 대상 시계열 데이터 세트를 로드합니다.

localColdStartDataFilePath = "data/coldStartTargetData.csv"
cstdf = pd.read_csv(localColdStartDataFilePath, dtype = object)
cstdf.head(20)

콜드 스타트에 대한 항목 메타 데이터 세트와 함께 콜드 스타트 대상 시계열을 AutoGluon 모델에 제공합니다. item_id:

cold_start_prediction = ag_predictor.predict(cstdf, static_features=imdf_with_coldstart_item)

예측 시각화

다음 그래프와 같이 플로팅 기능을 생성하여 콜드 스타트 예측에 대한 시각화를 생성할 수 있습니다.

정리

리소스 사용을 최적화하려면 노트북을 완전히 탐색한 후 Amazon SageMaker Studio Lab에서 런타임을 중지하는 것이 좋습니다.

결론

이 게시물에서는 Amazon SageMaker Studio Lab에서 시계열 데이터에 대해 AutoGluon AutoML을 사용하여 콜드 스타트 예측 엔진을 구축하는 방법을 보여주었습니다. 차이점이 궁금하신 분들을 위해 아마존 예측 AutoGluon(시계열)인 Amazon Forecast는 기계 학습(ML)을 사용하여 사전 ML 경험 없이도 매우 정확한 예측을 생성하는 완전 관리형 지원 서비스입니다. AutoGluon은 최신 연구 기여로 지원되는 커뮤니티인 오픈 소스 프로젝트입니다. 시계열용 AutoGluon이 무엇을 할 수 있는지 보여주기 위해 종단 간 예제를 살펴보고 데이터 세트와 사용 사례를 제공했습니다.

시계열 데이터용 AutoGluon은 오픈 소스 Python 패키지이며 이 게시물과 코드 예제가 어려운 콜드 스타트 예측 문제를 해결할 수 있는 간단한 솔루션을 제공하기를 바랍니다. 전체 예제에 액세스할 수 있습니다. GitHub 레포. 그것을 시도하고 당신의 생각을 알려주세요!

저자에 관하여

이반 추이 AWS Professional Services의 데이터 과학자로, 고객이 AWS에서 기계 학습을 사용하여 솔루션을 구축하고 배포할 수 있도록 지원합니다. 그는 소프트웨어, 금융, 제약 및 의료를 포함한 다양한 산업 분야의 고객과 함께 일했습니다. 여가 시간에는 책을 읽고 가족과 시간을 보내고 주식 포트폴리오를 극대화하는 것을 즐깁니다.

조나스 뮐러 AWS AI 연구 및 교육 그룹의 수석 응용 과학자로 딥 러닝을 개선하고 자동화된 기계 학습을 개발하기 위한 새로운 알고리즘을 개발하고 있습니다. ML을 민주화하기 위해 AWS에 합류하기 전에 그는 MIT 컴퓨터 과학 및 인공 지능 연구소에서 박사 학위를 받았습니다. 여가 시간에는 산과 야외 활동을 즐깁니다.

예 웬밍 AWS AI의 연구 제품 관리자입니다. 그는 연구원과 기업 고객이 오픈 소스 및 최첨단 기계 학습 기술을 통해 혁신을 신속하게 확장하도록 돕는 데 열정을 쏟고 있습니다. Wenming은 Microsoft Research, SQL 엔지니어링 팀 및 성공적인 스타트업에서 다양한 R&D 경험을 보유하고 있습니다.

타임 스탬프 : 2022 년 3 월 4 일

타임 스탬프 : 6년 2023월 XNUMX일

품질과 책임에 대해 대규모 언어 모델 평가 | 아마존 웹 서비스

소스 클러스터 :

AWS 기계 학습

소스 노드 : 1920827

타임 스탬프 : 11월 30, 2023

Amazon Polly 자막 생성기를 사용하여 동기화된 자막 및 오디오 생성

소스 클러스터 :

AWS 기계 학습

소스 노드 : 1581387

타임 스탬프 : 18년 2022월 XNUMX일

플라톤에 의해 재발행

Amazon Kendra Slack 커넥터를 사용하는 지능형 검색으로 Slack 작업 공간의 지식을 풀다

인적 검토 및 BI 시각화를 통해 지능형 문서 처리를 위한 비즈니스 규칙 사용자 지정

IMDb 지식 그래프를 사용한 강력한 추천 및 검색 - 3부

Amazon SageMaker 모델 레지스트리를 사용하여 교차 계정 MLOps 워크플로 구축

NLP 및 CV PyTorch 모델용 Amazon EC2 G5 인스턴스를 사용하여 XNUMX배 더 낮은 추론당 비용으로 XNUMX배 더 높은 ML 추론 처리량 달성

AWS와 Hugging Face는 제너럴 AI의 접근성과 비용 효율성을 높이기 위해 협력합니다.