웹 트래픽에 리소스를 보다 효율적으로 할당하거나, 인력 수요에 대한 환자 수요를 예측하거나, 회사 제품의 판매를 예상하는 경우 예측은 많은 비즈니스에서 필수적인 도구입니다. 로 알려진 특정 사용 사례 콜드 스타트 예측, 소매 업계에서 시장에 출시된 신제품과 같이 기존의 과거 데이터가 거의 또는 전혀 없는 시계열에 대한 예측을 작성합니다. ARIMA(자동회귀 통합 이동 평균) 또는 ES(지수 평활화)와 같은 기존 시계열 예측 방법은 각 개별 제품의 과거 시계열에 크게 의존하므로 콜드 스타트 예측에는 효과적이지 않습니다.
이 게시물에서는 다음을 사용하여 콜드 스타트 예측 엔진을 구축하는 방법을 보여줍니다. 시계열 예측을 위한 AutoGluon AutoML, 이미지, 텍스트, 테이블 형식 및 시계열 데이터에 대한 머신 러닝(ML)을 자동화하는 오픈 소스 Python 패키지입니다. AutoGluon은 초보자부터 숙련된 ML 개발자까지 엔드 투 엔드 자동화 머신 러닝(AutoML) 파이프라인을 제공하여 가장 정확하고 사용하기 쉬운 완전 자동화 솔루션입니다. 우리는 무료로 사용 Amazon SageMaker 스튜디오 랩 이 데모를 위한 서비스입니다.
AutoGluon 시계열 소개
오토글루온 텍스트, 이미지, 테이블 형식 데이터용 AutoML을 위한 최고의 오픈 소스 라이브러리로, 단 한 줄의 코드로 원시 데이터에서 매우 정확한 모델을 생성할 수 있습니다. 최근 팀은 이러한 기능을 시계열 데이터로 확장하기 위해 노력해 왔으며 다음에서 공개적으로 사용할 수 있는 자동화된 예측 모듈을 개발했습니다. GitHub의. 그만큼 autogluon.forecasting
모듈은 원시 시계열 데이터를 적절한 형식으로 자동 처리한 다음 다양한 최신 딥 러닝 모델을 훈련 및 조정하여 정확한 예측을 생성합니다. 이 포스트에서는 사용법을 보여줍니다. autogluon.forecasting
콜드 스타트 예측 작업에 적용합니다.
솔루션 개요
AutoGluon은 오픈 소스 Python 패키지이므로 이 솔루션을 구현할 수 있습니다. 장소 상에서 랩톱 또는 Amazon SageMaker Studio Lab에서. 다음 단계를 거칩니다.
- Amazon SageMaker Studio Lab용 AutoGluon을 설정합니다.
- 데이터세트를 준비합니다.
- AutoGluon을 사용하여 훈련 매개변수를 정의합니다.
- 시계열 예측을 위해 콜드 스타트 예측 엔진을 훈련합니다.
- 콜드 스타트 예측 예측을 시각화합니다.
콜드 스타트 예측의 주요 가정은 유사한 특성을 가진 항목이 유사한 시계열 궤적을 가져야 한다는 것입니다. 이를 통해 다음 그림과 같이 콜드 스타트 예측이 과거 데이터가 없는 항목에 대해 예측할 수 있습니다.
이 연습에서는 370개 항목에 대한 시간별 시계열로 구성된 전력 소비를 기반으로 하는 합성 데이터 세트를 사용합니다. item_id
0-369. 이 합성 데이터 세트 내에서 각각 item_id
또한 정적 기능(시간이 지나도 변경되지 않는 기능)과 연결되어 있습니다. 우리는 훈련 DeepAR AutoGluon을 사용하여 유사한 항목의 일반적인 동작을 학습하고 이러한 동작을 전송하여 새 항목에 대한 예측을 수행하는 모델(item_id
370–373) 과거 시계열 데이터가 없습니다. 하나의 정적 기능으로만 콜드 스타트 예측 접근 방식을 시연하고 있지만 실제로는 유익한 고품질 정적 기능을 갖는 것이 좋은 콜드 스타트 예측의 핵심입니다.
다음 다이어그램은 당사 솔루션에 대한 높은 수준의 개요를 제공합니다. 오픈 소스 코드는 GitHub 레포.
사전 조건
이 연습에서는 다음과 같은 전제 조건이 있어야합니다.
- An Amazon SageMaker Studio 랩 계정
- GitHub의 계정 액세스
Amazon SageMaker Studio Lab 계정에 로그인하고 터미널을 사용하여 환경을 설정합니다.
이 지침은 Amazon SageMaker Studio Lab에 액세스할 수 없는 경우 랩톱에서도 작동해야 합니다(먼저 랩톱에 Anaconda를 설치하는 것이 좋습니다).
가상 환경이 완전히 설정되면 노트북을 실행합니다. AutoGluon-cold-start-demo.ipynb
사용자 정의 환경을 선택하십시오 .conda-autogluon:Python
핵심.
대상 시계열 및 항목 메타 데이터 세트 준비
다음 데이터세트가 포함되어 있지 않은 경우 노트북 인스턴스에 다운로드하고 디렉터리 아래에 저장합니다. data/
. 이러한 데이터세트는 다음에서 찾을 수 있습니다. GitHub 레포:
- 테스트.csv.gz
- ColdStartTargetData.csv
- itemMetaData.csv
다음 스니펫을 실행하여 대상 시계열 데이터 세트를 커널에 로드합니다.
AutoGluon 시계열은 숫자 형식으로 표시되는 정적 기능이 필요합니다. 이는 적용을 통해 달성할 수 있습니다. LabelEncoder()
우리의 정적 기능에 type
, 여기서 A=0, B=1, C=2, D=3을 인코딩합니다(다음 코드 참조). 기본적으로 AutoGluon은 정적 기능을 순서형 또는 범주형으로 유추합니다. 정적 기능 열을 범주형 기능의 경우 개체/문자열 데이터 형식으로 변환하거나 순서형 기능의 경우 정수/부동수 데이터 형식으로 변환하여 이를 덮어쓸 수도 있습니다.
AutoGluon 모델 교육 설정 및 시작
우리는 지정해야합니다 save_path = ‘autogluon-coldstart-demo’
모델 아티팩트 폴더 이름으로 사용합니다(다음 코드 참조). 우리는 또한 우리의 eval_metric
as 평균 절대 백분율 오류및 ‘MAPE’
간단히 말해서, 우리가 정의한 곳 prediction_length
24시간으로. 지정하지 않으면 AutoGluon은 기본적으로 확률 예측을 생성하고 다음을 통해 점수를 매깁니다. 가중 분위수 손실. 우리는 바라만 본다 DeepAR 모델 데모에서는 DeepAR 알고리즘이 설계에 따라 콜드 스타트 예측을 허용한다는 것을 알고 있기 때문입니다. DeepAR 하이퍼파라미터 중 하나를 임의로 설정하고 해당 하이퍼파라미터를 ForecastingPredictor().fit()
전화. 이렇게 하면 AutoGluon이 지정된 모델만 볼 수 있습니다. 조정 가능한 하이퍼파라미터의 전체 목록은 다음을 참조하십시오. gluonts.model.deepar 패키지.
교육은 30~45분이 소요됩니다. 다음 함수를 호출하여 모델 요약을 얻을 수 있습니다.
콜드 스타트 품목에 대한 예측
이제 콜드 스타트 항목에 대한 예측을 생성할 준비가 되었습니다. 각각에 대해 최소 XNUMX개의 행을 갖는 것이 좋습니다. item_id
. 따라서 item_id
관측값이 XNUMX개 미만인 경우 NaN으로 채웁니다. 데모에서는 둘 다 item_id
370과 372에는 순수한 콜드 스타트 문제인 관찰이 XNUMX개 있는 반면 다른 두 개에는 XNUMX개의 목표 값이 있습니다.
다음 코드를 사용하여 콜드 스타트 대상 시계열 데이터 세트를 로드합니다.
콜드 스타트에 대한 항목 메타 데이터 세트와 함께 콜드 스타트 대상 시계열을 AutoGluon 모델에 제공합니다. item_id
:
예측 시각화
다음 그래프와 같이 플로팅 기능을 생성하여 콜드 스타트 예측에 대한 시각화를 생성할 수 있습니다.
정리
리소스 사용을 최적화하려면 노트북을 완전히 탐색한 후 Amazon SageMaker Studio Lab에서 런타임을 중지하는 것이 좋습니다.
결론
이 게시물에서는 Amazon SageMaker Studio Lab에서 시계열 데이터에 대해 AutoGluon AutoML을 사용하여 콜드 스타트 예측 엔진을 구축하는 방법을 보여주었습니다. 차이점이 궁금하신 분들을 위해 아마존 예측 AutoGluon(시계열)인 Amazon Forecast는 기계 학습(ML)을 사용하여 사전 ML 경험 없이도 매우 정확한 예측을 생성하는 완전 관리형 지원 서비스입니다. AutoGluon은 최신 연구 기여로 지원되는 커뮤니티인 오픈 소스 프로젝트입니다. 시계열용 AutoGluon이 무엇을 할 수 있는지 보여주기 위해 종단 간 예제를 살펴보고 데이터 세트와 사용 사례를 제공했습니다.
시계열 데이터용 AutoGluon은 오픈 소스 Python 패키지이며 이 게시물과 코드 예제가 어려운 콜드 스타트 예측 문제를 해결할 수 있는 간단한 솔루션을 제공하기를 바랍니다. 전체 예제에 액세스할 수 있습니다. GitHub 레포. 그것을 시도하고 당신의 생각을 알려주세요!
저자에 관하여
이반 추이 AWS Professional Services의 데이터 과학자로, 고객이 AWS에서 기계 학습을 사용하여 솔루션을 구축하고 배포할 수 있도록 지원합니다. 그는 소프트웨어, 금융, 제약 및 의료를 포함한 다양한 산업 분야의 고객과 함께 일했습니다. 여가 시간에는 책을 읽고 가족과 시간을 보내고 주식 포트폴리오를 극대화하는 것을 즐깁니다.
조나스 뮐러 AWS AI 연구 및 교육 그룹의 수석 응용 과학자로 딥 러닝을 개선하고 자동화된 기계 학습을 개발하기 위한 새로운 알고리즘을 개발하고 있습니다. ML을 민주화하기 위해 AWS에 합류하기 전에 그는 MIT 컴퓨터 과학 및 인공 지능 연구소에서 박사 학위를 받았습니다. 여가 시간에는 산과 야외 활동을 즐깁니다.
예 웬밍 AWS AI의 연구 제품 관리자입니다. 그는 연구원과 기업 고객이 오픈 소스 및 최첨단 기계 학습 기술을 통해 혁신을 신속하게 확장하도록 돕는 데 열정을 쏟고 있습니다. Wenming은 Microsoft Research, SQL 엔지니어링 팀 및 성공적인 스타트업에서 다양한 R&D 경험을 보유하고 있습니다.
- "
- 100
- 9
- 소개
- 절대
- ACCESS
- 계정
- 정확한
- 달성
- 가로질러
- AI
- 인공 지능 연구
- 연산
- 알고리즘
- 허용
- 이기는하지만
- 아마존
- 적용
- 접근
- 인조의
- 인공 지능
- 자동화
- 가능
- 평균
- AWS
- 빌드
- 빌드
- 사업
- 전화
- 얻을 수 있습니다
- 기능
- CD
- 이전 단계로 돌아가기
- Checkout
- 암호
- 단
- 커뮤니티
- 회사
- 컴퓨터 과학
- 소비
- 고객
- 데이터
- 데이터 과학자
- 수요
- 배포
- 디자인
- 개발
- 개발
- 개발자
- 하지 않습니다
- 교육
- 유효한
- 전기
- 엔지니어링
- 입력 된
- Enterprise
- 환경
- 필수
- 예
- 경험
- 경험
- 확장
- 가족
- 특색
- 특징
- 그림
- 재원
- 먼저,
- 수행원
- 체재
- 무료
- 가득 찬
- 기능
- 미래
- 생성
- 힘내
- 좋은
- 그룹
- 데
- 건강 관리
- 도움이
- 고도로
- 역사적인
- 방법
- How To
- HTTPS
- 영상
- 구현
- 개선
- 포함
- 포함
- 개인
- 산업
- 산업
- 통합 된
- 인텔리전스
- IT
- 키
- 알려진
- 휴대용 퍼스널 컴퓨터
- 최근
- 시작
- 지도
- 배우다
- 배우기
- 도서관
- 라인
- 명부
- 작은
- 하중
- 기계
- 기계 학습
- 유튜브 영상을 만드는 것은
- 매니저
- 시장
- 메타
- Microsoft
- MIT
- ML
- 모델
- 모델
- 가장
- 움직이는
- 새로운 제품
- 수첩
- 오픈 소스 코드
- 기타
- 야외에서
- tỷ lệ phần trăm
- 제약
- 유가 증권
- 예측
- 문제
- 문제
- 프로세스
- 생산
- 프로덕트
- 제품
- 링크를
- 프로젝트
- 제공
- R&D
- 살갗이 벗어 진
- 읽기
- 권하다
- 연구
- 의지
- 자료
- 소매
- 판매
- 규모
- 스케일링
- 과학
- 과학자
- 연속
- 서비스
- 서비스
- 세트
- 짧은
- 비슷한
- 소프트웨어
- 솔루션
- 지출
- 스타트
- 신생
- 재고
- 스튜디오
- 성공한
- 지원
- 목표
- 작업
- 팀
- Technology
- 단말기
- 을 통하여
- 시간
- 함께
- 전통적인
- 교통
- 트레이닝
- 기차
- us
- 사용
- 온라인
- 심상
- 웹
- 뭐
- 누구
- 이내
- 없이
- 작업
- 일
- 일하는
- 제로