소매 업계에서 Amazon Forecast 구현: POC에서 프로덕션 PlatoBlockchain 데이터 인텔리전스까지의 여정. 수직 검색. 일체 포함.

소매 업계에서 Amazon Forecast 구현: POC에서 생산으로의 여정

아마존 예측 통계 및 기계 학습(ML) 알고리즘을 사용하여 매우 정확한 시계열 예측을 제공하는 완전 관리형 서비스입니다. 최근 Amazon Forecast를 기반으로 소매 고객 중 한 명이 8주 이내에 정확한 수요 예측을 달성하도록 도왔습니다. 이 솔루션은 수동 예측을 평균 10% 개선했습니다. 웨이프 메트릭. 이를 통해 매월 16시간의 노동 시간을 직접 절약할 수 있습니다. 또한 올바른 수의 항목을 처리하면 매출이 최대 11.8%까지 증가할 수 있다고 추정했습니다. 이 게시물에서는 개념 증명(POC)에서 생산에 이르기까지 소매 업계의 과제에 초점을 맞춘 Amazon Forecast를 사용한 수요 예측 시스템을 구현하기 위한 워크플로우와 중요한 요소를 제시합니다.

유통산업 수요예측의 배경과 당면과제

수요 예측의 목표는 과거 데이터에서 미래 수요를 예측하고 매장 보충 및 용량 할당을 돕는 것입니다. 수요 예측을 통해 소매업체는 네트워크의 각 위치에 적절한 양의 재고를 배치하여 수요를 충족할 수 있습니다. 따라서 정확한 예측 시스템은 다음과 같은 다양한 비즈니스 기능에서 광범위한 이점을 제공할 수 있습니다.

  • 더 나은 제품 가용성을 통한 매출 증대 및 매장 간 이동 낭비 감소
  • 용량 활용도를 개선하고 용량 프로비저닝의 병목 현상을 사전 예방적으로 방지하기 위해 보다 신뢰할 수 있는 통찰력 제공
  • 재고 및 생산 비용 최소화 및 재고 회전율 개선
  • 전반적으로 더 나은 고객 경험 제공

ML 기술은 대량의 양질의 데이터가 있을 때 큰 가치를 보여줍니다. 오늘날 경험 기반 보충 관리 또는 수요 예측은 여전히 ​​대부분의 소매업체에서 주류입니다. 고객 경험 개선을 목표로 점점 더 많은 소매업체가 경험 기반 수요 예측 시스템을 ML 기반 예측으로 교체하려고 합니다. 그러나 소매업체는 ML 기반 수요 예측 시스템을 생산에 구현할 때 여러 가지 문제에 직면합니다. 다양한 문제를 데이터 문제, ML 문제 및 운영 문제의 세 가지 범주로 요약합니다.

데이터 문제

많은 양의 깨끗한 고품질 데이터는 정확한 ML 기반 예측을 추진하기 위한 핵심 요구 사항입니다. 과거 판매 및 판매 관련 데이터(예: 재고, 품목 가격 책정 및 판촉)를 비롯한 품질 데이터를 수집하고 통합해야 합니다. 여러 리소스의 데이터 다양성으로 인해 데이터 사일로를 통합하는 최신 데이터 플랫폼이 필요합니다. 또한, 빈번하고 세분화된 수요 예측을 위해 적시에 데이터에 액세스해야 합니다.

ML 과제

고급 ML 알고리즘을 개발하려면 전문 지식이 필요합니다. 올바른 문제에 적합한 알고리즘을 구현하려면 심층적인 도메인 지식과 ML 역량이 모두 필요합니다. 또한 사용 가능한 대규모 데이터 세트에서 학습하려면 확장 가능한 ML 인프라가 필요합니다. 또한 프로덕션에서 ML 알고리즘을 유지 관리하려면 모델 성능 저하의 근본 원인을 분석하고 모델을 올바르게 재교육하기 위해 ML 역량이 필요합니다.

실질적인 비즈니스 문제를 해결하기 위해 정확한 예측을 생성하는 것은 이야기의 일부일 뿐입니다. 의사 결정자는 서로 다른 분위수에서 확률론적 예측이 필요하여 중요한 고객 경험 대 재무 결과 절충 결정을 내립니다. 또한 이해 관계자에게 예측을 설명하고 가상 분석을 수행하여 다양한 시나리오가 예측 결과에 어떤 영향을 미칠 수 있는지 조사해야 합니다.

운영상의 문제

비용 효율적인 예측 시스템을 유지하기 위한 운영 노력을 줄이는 것이 세 번째 주요 과제입니다. 수요 예측의 일반적인 시나리오에서 각 위치의 각 항목에는 고유한 예측이 있습니다. 언제든지 수십만 건의 예측을 관리할 수 있는 시스템이 필요합니다. 또한 비즈니스 최종 사용자는 기존 도구 및 프로세스를 수정하지 않고 ML 기반 시스템을 사용할 수 있도록 기존 공급망 관리 플랫폼과 같은 기존 다운스트림 시스템에 예측 시스템을 통합해야 합니다.

이러한 문제는 비즈니스가 규모가 크고 역동적이며 성장할 때 특히 심각합니다. 이러한 문제를 해결하기 위해 우리는 잠재적인 비즈니스 이익을 신속하게 검증하려는 노력을 줄이는 고객 성공 사례를 공유합니다. 이는 기본 인프라 리소스 및 알고리즘을 관리할 필요 없이 정확한 예측 결과를 제공하는 완전 관리형 서비스인 Amazon Forecast를 사용한 프로토타이핑을 통해 달성됩니다.

Amazon Forecast를 사용한 ML 기반 예측 시스템의 신속한 프로토타이핑

우리의 경험을 바탕으로 소매 고객이 판매 데이터에 대한 개념 증명을 시작하려는 경우가 종종 있습니다. 데이터 복잡성과 모델 튜닝 프로세스를 반복하는 데 사용할 수 있는 리소스에 따라 신속한 프로토타이핑을 위해 며칠에서 몇 주 사이에 이 작업을 수행할 수 있습니다. 프로토타이핑 중에는 스프린트를 사용하여 프로세스를 효과적으로 관리하고 POC를 데이터 탐색, 반복 개선 및 자동화 단계로 분리하는 것이 좋습니다.

데이터 탐색

데이터 탐색에는 재고 및 과거 프로모션 이벤트와 같은 예측 결과에 잠재적으로 영향을 미칠 수 있는 과거 판매 데이터 세트 및 사용 가능한 데이터 소스에 익숙해지기 위해 데이터 과학자 또는 비즈니스 인텔리전스 분석가와의 열띤 토론이 포함되는 경우가 많습니다. 가장 효율적인 방법 중 하나는 프로젝트 초기 단계에서 데이터 웨어하우스에서 판매 데이터를 대상 데이터 세트로 통합하는 것입니다. 이는 예측 결과가 대상 데이터 세트 패턴에 의해 지배되는 경우가 많다는 사실에 근거합니다. 데이터 웨어하우스는 일상적인 비즈니스 데이터를 저장하는 경우가 많으며 단기간에 철저한 이해가 어렵고 시간이 많이 걸립니다. 우리의 제안은 대상 데이터 세트 생성에 집중하고 이 데이터 세트가 올바른지 확인하는 것입니다. 이러한 데이터 탐색 및 기준선 결과는 종종 며칠 내에 달성할 수 있으며 이를 통해 대상 데이터를 정확하게 예측할 수 있는지 확인할 수 있습니다. 이 게시물 뒷부분에서 데이터 예측 가능성에 대해 논의합니다.

되풀이

기준선 결과를 얻은 후에 관련 데이터를 계속 추가하여 정확도에 어떤 영향을 미칠 수 있는지 확인할 수 있습니다. 이것은 종종 추가 데이터 세트에 대한 심층 분석을 통해 수행됩니다. 자세한 내용은 다음을 참조하십시오. 관련 시계열 데이터 집합 사용항목 메타데이터 데이터 세트 사용.

경우에 따라 유사하게 동작하는 데이터 세트의 하위 집합으로 모델을 교육하거나 데이터 세트에서 희소 데이터를 제거하여 Amazon Forecast의 정확도를 개선할 수 있습니다. 이 반복적인 개선 단계에서 어려운 부분(모든 ML 프로젝트에 해당)은 현재 반복이 이전 반복의 주요 결과 및 통찰력에 의존하므로 엄격한 분석 및 보고가 성공의 열쇠라는 것입니다.

분석은 정량적 및 경험적으로 수행할 수 있습니다. 정량적 측면은 백테스팅 동안의 평가와 다음과 같은 정확도 메트릭을 비교하는 것을 말합니다. 웨이프. 경험적 측면은 예측 곡선과 실제 목표 데이터를 시각화하고 도메인 지식을 사용하여 잠재적 요인을 통합하는 것을 말합니다. 이러한 분석은 예측된 결과와 대상 데이터 사이의 격차를 해소하기 위해 더 빠르게 반복하는 데 도움이 됩니다. 또한 주간 보고서를 통해 이러한 결과를 제시하면 종종 비즈니스 최종 사용자에게 자신감을 줄 수 있습니다.

자동화

최종 단계에는 생산 절차 및 자동화에 대한 POC 논의가 포함되는 경우가 많습니다. ML 프로젝트는 총 프로젝트 기간의 제약을 받기 때문에 모든 가능성을 탐색할 시간이 충분하지 않을 수 있습니다. 따라서 프로젝트 중에 결과 전체에 잠재적인 영역을 표시하면 종종 신뢰를 얻을 수 있습니다. 또한 자동화를 통해 비즈니스 최종 사용자는 기존 예측자를 사용하여 업데이트된 데이터로 예측을 생성할 수 있으므로 더 오랜 기간 동안 Forecast를 평가할 수 있습니다.

기술 및 비즈니스 관점에서 생성된 결과로 성공 기준을 평가할 수 있습니다. 평가 기간 동안 다음에 대한 잠재적 이점을 추정할 수 있습니다.

  • 예측 정확도 향상(기술적) – 실제 판매 데이터에 대한 예측 정확도를 계산하고 수동 예측을 포함한 기존 예측 시스템과 비교
  • 폐기물 줄이기(사업) – 낭비를 줄이기 위해 과잉 예측을 줄입니다.
  • 재고율 개선(사업) – 재고 비율을 개선하기 위해 과소 예측을 줄입니다.
  • 매출총이익 증가 추정(사업) – 총 이익을 높이기 위해 낭비를 줄이고 재고 비율을 개선하십시오.

다음 다이어그램에 개발 워크플로우를 요약합니다.

다음 섹션에서는 구현 중에 고려해야 할 중요한 요소에 대해 설명합니다.

예측 시스템 개발을 위한 단계별 워크플로우

대상 데이터 세트 생성

첫 번째 단계는 Forecast의 대상 데이터 세트를 생성하는 것입니다. 소매 업계에서 이는 소매 품목(SKU)에 대한 과거 시계열 수요 및 판매 데이터를 나타냅니다. 데이터 세트를 준비할 때 한 가지 중요한 측면은 세분성입니다. 비즈니스 요구 사항과 기술 요구 사항 모두에서 데이터 세분화를 고려해야 합니다.

비즈니스는 생산 시스템에서 예측 결과가 어떻게 나타나는지 정의합니다.

  • 수평선 – 예측되는 시간 단계의 수입니다. 이는 근본적인 비즈니스 문제에 따라 다릅니다. 매주 재고 수준을 채우려면 주간 예측 또는 일일 예측이 적절해 보입니다.
  • 입상 – 예측의 세분성: 매일 또는 매주와 같은 시간 빈도, 다른 상점 위치 및 동일한 항목의 다른 크기. 결국 예측은 각 매장 SKU와 일일 데이터 포인트의 조합이 될 수 있습니다.

비즈니스 요구 사항의 우선 순위를 지정하기 위해 앞서 언급한 예측 범위와 세분성을 정의해야 하지만 요구 사항과 타당성 사이에서 절충해야 할 수도 있습니다. 신발 사업을 예로 들어 보겠습니다. 각 매장 수준에서 각 신발 사이즈의 판매를 예측하려는 경우 데이터가 곧 희소해지고 패턴을 찾기가 어렵습니다. 그러나 재고를 보충하려면 이 세분성을 추정해야 합니다. 이를 위해 대체 솔루션은 서로 다른 신발 크기 간의 비율을 추정하고 이 비율을 사용하여 세분화된 결과를 계산해야 할 수 있습니다.

비즈니스 요구 사항과 예측에 학습 및 사용할 수 있는 데이터 패턴의 균형을 맞춰야 하는 경우가 많습니다. 데이터 패턴의 정량적 자격을 제공하기 위해 데이터 예측 가능성을 사용할 것을 제안합니다.

데이터 예측 가능성 및 데이터 패턴 분류

대상 데이터 세트에서 수집할 수 있는 주요 통찰력 중 하나는 품질 예측을 생성하는 기능입니다. 이는 ML 프로젝트의 초기 단계에서 분석할 수 있습니다. 예측은 데이터가 계절성, 추세 및 주기적 패턴을 보여줄 때 빛을 발합니다.

예측 가능성을 결정하기 위해 수요 타이밍의 변동성과 수요 수량의 변동성이라는 두 가지 주요 계수가 있습니다. 수요 타이밍의 가변성은 두 수요 인스턴스 사이의 간격을 의미하며 시간에 따른 수요 규칙성을 측정합니다. 수요량의 변동은 수량의 변동을 의미합니다. 다음 그림은 몇 가지 다른 패턴을 보여줍니다. 예측 정확도는 제품 예측 가능성에 크게 좌우됩니다. 자세한 내용은 다음을 참조하십시오. 수요 분류: 예측 가능성이 중요한 이유.

소매 업계에서 Amazon Forecast 구현: POC에서 프로덕션 PlatoBlockchain 데이터 인텔리전스까지의 여정. 수직 검색. 일체 포함.이 예측 가능성 분석은 세분화된 각 항목(예: SKU-Store-Color-Size)에 대한 것이라는 점은 주목할 가치가 있습니다. 수요 예측 생산 시스템에서 서로 다른 항목이 서로 다른 패턴을 따르는 것은 매우 일반적입니다. 따라서 서로 다른 데이터 패턴을 따르는 항목을 구분하는 것이 중요합니다. 한 가지 일반적인 예는 빠르게 움직이는 항목과 느리게 움직이는 항목입니다. 또 다른 예로는 조밀하고 희소한 데이터가 있습니다. 또한 세밀한 아이템은 울퉁불퉁한 패턴을 생성할 가능성이 더 높습니다. 예를 들어, 옷가게에서 인기 상품 하나의 판매는 매일 매우 순조로울 수 있지만, 우리가 품목의 판매를 색상과 크기별로 더 분리하면 곧 희박해집니다. 따라서 SKU-Store-Color-Size에서 SKU-Store로 세분성을 줄이면 데이터 패턴이 울퉁불퉁한 패턴에서 매끄러운 패턴으로 변경될 수 있으며 그 반대의 경우도 마찬가지입니다.

또한 모든 품목이 판매에 똑같이 기여하는 것은 아닙니다. 항목 기여도는 상위 항목이 매출의 대부분을 차지하는 파레토 분포를 따르는 경우가 많습니다. 이러한 상위 품목의 판매는 종종 원활합니다. 판매 기록이 낮은 품목은 종종 울퉁불퉁하고 불규칙하여 추정하기 어렵습니다. 이러한 항목을 추가하면 실제로 최고 판매 항목의 정확도가 떨어질 수 있습니다. 이러한 관찰을 기반으로 항목을 서로 다른 그룹으로 분리하고 상위 판매 항목에 대해 Forecast 모델을 교육하고 하위 판매 항목을 코너 케이스로 처리할 수 있습니다.

데이터 보강 및 추가 데이터 세트 선택

예측 결과의 성능을 개선하기 위해 추가 데이터 세트를 사용하려는 경우 다음을 사용할 수 있습니다. 시계열 데이터 세트메타데이터 데이터세트. 소매 도메인에서는 직관과 도메인 지식을 기반으로 재고, 가격, 판촉, 겨울 또는 여름 시즌과 같은 기능을 관련 시계열로 가져올 수 있습니다. 기능의 유용성을 식별하는 가장 간단한 방법은 기능 중요도를 통해 확인하는 것입니다. Forecast에서는 설명 가능성 분석을 통해 이 작업을 수행합니다. 예측 예측 변수 설명 가능성 데이터 세트의 속성이 대상에 대한 예측에 미치는 영향을 더 잘 이해하는 데 도움이 됩니다. Forecast는 영향 점수라는 지표를 사용하여 각 속성의 상대적 영향을 정량화하고 예측 값을 증가 또는 감소시키는지 여부를 결정합니다. 하나 이상의 속성의 영향 점수가 XNUMX인 경우 이러한 속성은 예측 값에 큰 영향을 미치지 않습니다. 이렇게 하면 영향이 덜한 기능을 빠르게 제거하고 잠재적인 기능을 반복적으로 추가할 수 있습니다. 영향 점수는 다른 모든 속성의 영향 점수와 함께 정규화되는 특성의 상대적 영향을 측정한다는 점에 유의해야 합니다.

모든 ML 프로젝트와 마찬가지로 추가 기능으로 정확도를 높이려면 반복적인 실험이 필요합니다. 증분 변경이 모델 정확도에 미치는 영향을 관찰하면서 여러 데이터 세트 조합을 실험해야 합니다. Forecast 콘솔을 통해 또는 Forecast API가 포함된 Python 노트북. 또한 다음과 함께 온보딩할 수 있습니다. AWS 클라우드 포메이션, 일반적인 사용 사례(예: 기계 학습 솔루션으로 예측 정확도 향상). Forecast는 자동으로 데이터 세트를 분리하고 예측 변수를 평가하기 위한 정확도 메트릭을 생성합니다. 자세한 내용은 다음을 참조하십시오. 예측 자 정확도 평가. 이를 통해 데이터 과학자는 더 빠르게 반복하여 최고 성능의 모델을 달성할 수 있습니다.

고급 개선 및 코너 케이스 처리

우리는 예측 알고리즘이 데이터에서 계절성, 추세 및 순환 기능을 학습할 수 있다고 언급했습니다. 이러한 특성과 적절한 데이터 밀도 및 볼륨을 가진 항목의 경우 예측을 사용하여 예측을 생성할 수 있습니다. 그러나 덩어리 데이터 패턴에 직면할 때, 특히 데이터 볼륨이 작을 때 규칙 집합을 기반으로 한 경험적 추정과 같이 다르게 처리해야 할 수 있습니다.

밀도가 높은 SKU의 경우 유사하게 동작하는 시계열 데이터 세트의 하위 집합으로 모델을 교육하여 예측 정확도를 더욱 향상시킵니다. 우리가 사용한 하위 집합 분리 전략은 비즈니스 로직, 제품 유형, 데이터 밀도 및 알고리즘에 의해 학습된 패턴입니다. 하위 집합이 생성된 후 서로 다른 하위 집합에 대해 여러 Forecast 모델을 교육할 수 있습니다. 그러한 예는 다음을 참조하십시오. Amazon Forecast와 함께 사용할 클러스터 시계열 데이터.

프로덕션을 향하여: 데이터 세트 업데이트, 모니터링 및 재교육

다음 다이어그램과 같이 Forecast를 사용하여 예제 아키텍처를 살펴보겠습니다. 최종 사용자가 새 데이터 세트를 통합할 때마다 아마존 단순 스토리지 서비스 (Amazon S3), 트리거합니다. AWS 단계 함수 데이터 세트 가져오기 작업 생성, 자동 예측기 생성 및 예측 생성을 포함하여 다양한 구성 요소를 오케스트레이션합니다. 예측 결과가 생성된 후 예측 내보내기 생성 단계는 다운스트림 소비자를 위해 Amazon S3로 결과를 내보냅니다. 이 자동화된 파이프라인을 프로비저닝하는 방법에 대한 자세한 내용은 다음을 참조하십시오. AWS CloudFormation으로 자동화. CloudFormation 스택을 사용하여 데이터 세트를 S3 버킷에 자동으로 배포하고 Forecast 파이프라인을 트리거합니다. 동일한 자동화 스택을 사용하여 자체 데이터 세트로 예측을 생성할 수 있습니다.

소매 업계에서 Amazon Forecast 구현: POC에서 프로덕션 PlatoBlockchain 데이터 인텔리전스까지의 여정. 수직 검색. 일체 포함.

최근 추세를 예측 시스템에 통합하는 방법에는 데이터 업데이트 또는 예측 변수 재교육의 두 가지가 있습니다.

최근 추세를 반영하는 업데이트된 데이터로 예측을 생성하려면 업데이트된 입력 데이터 파일을 S3 버킷에 업로드해야 합니다(업데이트된 입력 데이터에는 여전히 모든 기존 데이터가 포함되어야 함). 예측은 업데이트된 데이터 세트를 가져올 때 예측자를 자동으로 재교육하지 않습니다. 당신은 할 수 있습니다 예측 생성 평소처럼. Forecast는 업데이트된 입력 데이터에서 마지막 날부터 시작하는 예측 범위를 예측합니다. 따라서 최근 추세는 Forecast가 생성한 새로운 추론에 통합됩니다.

그러나 새 데이터로 예측기를 학습시키려면 새 예측기를 만들어야 합니다. 데이터 패턴(계절성, 추세 또는 주기)이 변경되면 모델 재교육을 고려해야 할 수 있습니다. 에서 언급한 바와 같이 Amazon Forecast로 예측기 정확도를 지속적으로 모니터링, 예측기의 성능은 경제 환경이나 소비자 행동의 변화와 같은 요인으로 인해 시간이 지남에 따라 변동합니다. 따라서 매우 정확한 예측이 계속 이루어지도록 예측자를 재훈련하거나 새 예측자를 생성해야 할 수 있습니다. 의 도움으로 예측기 모니터링, Forecast는 예측기의 품질을 추적할 수 있으므로 운영 노력을 줄이는 동시에 예측기 유지, 재교육 또는 재구축에 대해 더 많은 정보에 입각한 결정을 내릴 수 있습니다.

결론

Amazon Forecast는 ML을 기반으로 하고 비즈니스 지표 분석을 위해 구축된 시계열 예측 서비스입니다. 재고, 판촉 또는 계절과 같은 기타 관련 정보와 과거 판매를 결합하여 높은 정확도로 수요 예측 예측을 통합할 수 있습니다. 8주 이내에 우리는 소매 고객 중 한 명이 정확한 수요 예측을 달성하도록 도왔습니다. 즉, 수동 예측에 비해 10% 개선된 것입니다. 이로 인해 매월 16시간의 노동 시간이 직접 절약되고 예상 매출이 최대 11.8% 증가합니다.

이 게시물은 예측 프로젝트를 개념 증명에서 프로덕션으로 가져오는 일반적인 방법을 공유했습니다. 지금 시작하세요 아마존 예측 귀하의 비즈니스에 대한 매우 정확한 예측을 달성합니다.


저자에 관하여

소매 업계에서 Amazon Forecast 구현: POC에서 프로덕션 PlatoBlockchain 데이터 인텔리전스까지의 여정. 수직 검색. 일체 포함.얀웨이 추이, PhD는 AWS의 기계 학습 전문가 솔루션 아키텍트입니다. 그는 IRISA(컴퓨터 과학 및 랜덤 시스템 연구소)에서 기계 학습 연구를 시작했으며 컴퓨터 비전, 자연어 처리 및 온라인 사용자 행동 예측 분야에서 인공 지능 기반 산업 응용 프로그램을 구축한 경험이 있습니다. AWS에서 그는 도메인 전문 지식을 공유하고 고객이 비즈니스 잠재력을 발휘할 수 있도록 돕고 대규모 기계 학습을 통해 실행 가능한 결과를 이끌어냅니다. 일 외에는 독서와 여행을 즐깁니다.

소매 업계에서 Amazon Forecast 구현: POC에서 프로덕션 PlatoBlockchain 데이터 인텔리전스까지의 여정. 수직 검색. 일체 포함.고든 왕 Amazon Web Services 전문 서비스 팀의 선임 데이터 과학자입니다. 그는 미디어, 제조, 에너지, 소매 및 의료를 포함한 많은 산업 분야의 고객을 지원합니다. 그는 컴퓨터 비전, 딥 러닝 및 MLOps에 열정적입니다. 여가 시간에는 달리기와 하이킹을 좋아합니다.

타임 스탬프 :

더보기 AWS 기계 학습