MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | 아마존 웹 서비스

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | 아마존 웹 서비스

이 글은 MongoDB의 Babu Srinivasan과 공동으로 작성한 게스트 포스트입니다.

오늘날 빠르게 변화하는 비즈니스 환경에서 산업이 발전함에 따라 실시간 예측이 불가능하다는 사실은 정확하고 시기적절한 통찰력에 크게 의존하는 산업에 심각한 과제를 안겨줍니다. 다양한 산업 분야에서 실시간 예측의 부재는 의사 결정 및 운영 효율성에 큰 영향을 미칠 수 있는 긴급한 비즈니스 과제를 제시합니다. 실시간 통찰력이 없으면 기업은 역동적인 시장 상황에 적응하고, 고객 수요를 정확하게 예측하고, 재고 수준을 최적화하고, 사전 예방적인 전략적 결정을 내리는 데 어려움을 겪습니다. 금융, 소매, 공급망 관리, 물류 등의 산업은 기회 상실, 비용 증가, 비효율적인 자원 할당, 고객 기대 충족 실패 등의 위험에 직면해 있습니다. 이러한 과제를 탐색함으로써 조직은 실시간 예측의 중요성을 인식하고 이러한 장애물을 극복하기 위한 혁신적인 솔루션을 탐색하여 경쟁력을 유지하고 정보에 근거한 결정을 내리며 오늘날 빠르게 변화하는 비즈니스 환경에서 성공할 수 있습니다.

MongoDB 네이티브의 혁신적인 잠재력을 활용하여 시계열 데이터 기능을 활용하고 이를 다음과 같은 기능과 통합합니다. Amazon SageMaker 캔버스, 조직은 이러한 과제를 극복하고 새로운 수준의 민첩성을 확보할 수 있습니다. MongoDB의 강력한 시계열 데이터 관리를 통해 대량의 시계열 데이터를 실시간으로 저장하고 검색할 수 있으며, 고급 기계 학습 알고리즘과 예측 기능은 SageMaker Canvas를 통해 정확하고 동적인 예측 모델을 제공합니다.

이 게시물에서는 MongoDB의 시계열 데이터와 SageMaker Canvas를 포괄적인 솔루션으로 사용할 수 있는 가능성을 살펴보겠습니다.

몽고 DB 아틀라스

몽고 DB 아틀라스 클라우드에서 MongoDB 데이터베이스의 배포 및 확장을 단순화하는 완전 관리형 개발자 데이터 플랫폼입니다. 전체 텍스트 및 벡터가 내장되어 완벽하게 관리되는 데이터베이스를 제공하는 문서 기반 스토리지입니다. 검색, 을지 지하다 지리 공간 쿼리, 차트 효율적인 지원을 위한 기본 지원 시계열 저장 및 쿼리 기능. MongoDB Atlas는 대용량 데이터 수집을 위한 자동 샤딩, 수평 확장성 및 유연한 인덱싱을 제공합니다. 무엇보다도 기본 시계열 기능은 뛰어난 기능으로 비즈니스에 중요한 애플리케이션 데이터, 원격 측정, 서버 로그 등과 같은 대량의 시계열 데이터를 관리하는 데 이상적입니다. 효율적인 쿼리, 집계 및 분석을 통해 기업은 타임스탬프가 표시된 데이터에서 귀중한 통찰력을 추출할 수 있습니다. 이러한 기능을 사용하면 기업은 시계열 데이터를 효율적으로 저장, 관리 및 분석하여 데이터 기반 의사 결정을 지원하고 경쟁 우위를 확보할 수 있습니다.

Amazon SageMaker 캔버스

Amazon SageMaker 캔버스 비즈니스 분석가 및 데이터 과학자가 ML 경험이 필요하지 않거나 코드 한 줄을 작성하지 않고도 사용자 정의 ML 모델을 구축하고 배포할 수 있도록 하는 시각적 ML(기계 학습) 서비스입니다. SageMaker Canvas는 다음을 포함한 다양한 사용 사례를 지원합니다. 시계열 예측를 통해 기업은 미래 수요, 판매, 리소스 요구 사항 및 기타 시계열 데이터를 정확하게 예측할 수 있습니다. 이 서비스는 딥 러닝 기술을 사용하여 복잡한 데이터 패턴을 처리하고 기업이 최소한의 과거 데이터로도 정확한 예측을 생성할 수 있도록 합니다. Amazon SageMaker Canvas 기능을 사용하면 기업은 정보에 입각한 결정을 내리고, 재고 수준을 최적화하고, 운영 효율성을 개선하고, 고객 만족도를 높일 수 있습니다.

SageMaker Canvas UI를 사용하면 클라우드 또는 온프레미스의 데이터 소스를 원활하게 통합하고, 손쉽게 데이터 세트를 병합하고, 정확한 모델을 교육하고, 새로운 데이터로 예측할 수 있습니다. 이 모든 작업을 코딩 없이 수행할 수 있습니다. 자동화된 워크플로우가 필요하거나 ML 모델을 앱에 직접 통합해야 하는 경우 다음을 통해 Canvas 예측 기능에 액세스할 수 있습니다. API.

솔루션 개요

사용자는 MongoDB Atlas에서 트랜잭션 시계열 데이터를 유지합니다. Atlas Data Federation을 통해 데이터는 Amazon S3 버킷으로 추출됩니다. Amazon SageMaker Canvas는 데이터에 액세스하여 모델을 구축하고 예측을 생성합니다. 예측 결과는 S3 버킷에 저장됩니다. MongoDB 데이터 연합 서비스를 사용하면 MongoDB 차트를 통해 예측이 시각적으로 표시됩니다.

다음 다이어그램은 제안된 솔루션 아키텍처를 간략하게 설명합니다.

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

사전 조건

이 솔루션에서는 MongoDB Atlas를 사용하여 시계열 데이터를 저장하고, Amazon SageMaker Canvas를 사용하여 모델을 교육하고 예측을 생성하며, Amazon S3를 사용하여 MongoDB Atlas에서 추출한 데이터를 저장합니다.

다음 전제 조건이 있는지 확인하십시오.

MongoDB Atlas 클러스터 구성

다음 지침에 따라 무료 MongoDB Atlas 클러스터를 생성하세요. 클러스터 생성. 설정 데이터베이스 액세스네트워크 액세스.

MongoDB Atlas에서 시계열 컬렉션 채우기

이 데모에서는 다음의 샘플 데이터 세트를 사용할 수 있습니다. 카글 MongoDB를 사용하여 MongoDB Atlas에 동일한 내용을 업로드합니다. 검색을 바람직 몽고DB 나침반.

다음 코드는 시계열 컬렉션에 대한 샘플 데이터 세트를 보여줍니다.

{ "store": "1 1", "timestamp": { "2010-02-05T00:00:00.000Z"}, "temperature": "42.31", "target_value": 2.572, "IsHoliday": false
}

다음 스크린샷은 MongoDB Atlas의 샘플 시계열 데이터를 보여줍니다.

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

S3 버킷 생성

만들기 시계열 데이터를 저장하고 분석해야 하는 AWS의 S3 버킷. 두 개의 폴더가 있습니다. sales-train-data MongoDB Atlas에서 추출한 데이터를 저장하는 데 사용됩니다. sales-forecast-output 캔버스의 예측이 포함되어 있습니다.

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

데이터 연합 생성

설정 데이터 연합 Atlas에서 이전에 생성된 S3 버킷을 데이터 소스의 일부로 등록합니다. Atlas 클러스터용 데이터 연합, MongoDB Atlas 데이터용 S3 버킷, Canvas 결과를 저장하기 위한 S3 버킷에 세 가지 다른 데이터베이스/컬렉션이 생성됩니다.

다음 스크린샷은 데이터 연합 설정을 보여줍니다.

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

Atlas 애플리케이션 서비스 설정

만들기 MongoDB 애플리케이션 서비스 MongoDB Atlas 클러스터에서 S3 버킷으로 데이터를 전송하는 기능을 배포하려면 $아웃 집합.

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

데이터 소스 구성 확인

애플리케이션 서비스는 다음 기능에서 데이터 서비스로 참조되어야 하는 새로운 Altas 서비스 이름을 생성합니다. Atlas 서비스 이름이 생성되었는지 확인하고 나중에 참조할 수 있도록 기록해 둡니다.

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

함수 만들기

Atlas 응용 프로그램 서비스를 설정하여 트리거 및 기능. 모델 교육에 대한 비즈니스 요구 사항에 따라 일정 빈도로 S3에 데이터를 쓰도록 트리거를 예약해야 합니다.

다음 스크립트는 S3 버킷에 쓰는 함수를 보여줍니다.

exports = function () { const service = context.services.get(""); const db = service.db("") const events = db.collection(""); const pipeline = [ { "$out": { "s3": { "bucket": "<S3_bucket_name>", "region": "<AWS_Region>", "filename": {$concat: ["<S3path>/<filename>_",{"$toString": new Date(Date.now())}]}, "format": { "name": "json", "maxFileSize": "10GB" } } } } ]; return events.aggregate(pipeline);
};

샘플 기능

이 기능은 실행 탭을 통해 실행할 수 있으며 응용 프로그램 서비스의 로그 기능을 사용하여 오류를 디버깅할 수 있습니다. 또한 왼쪽 창의 로그 메뉴를 사용하여 오류를 디버깅할 수 있습니다.

다음 스크린샷은 출력과 함께 함수 실행을 보여줍니다.

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

Amazon SageMaker Canvas에서 데이터 세트 생성

다음 단계에서는 SageMaker 도메인과 사용자 프로필을 생성했다고 가정합니다. 아직 수행하지 않은 경우 다음을 구성했는지 확인하십시오. SageMaker 도메인 및 사용자 프로필. 사용자 프로필에서 S3 버킷을 사용자 지정으로 업데이트하고 버킷 이름을 제공합니다.

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

완료되면 SageMaker Canvas로 이동하여 도메인과 프로필을 선택하고 Canvas를 선택합니다.

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

데이터 소스를 제공하는 데이터 세트를 만듭니다.

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

데이터세트 소스를 S3으로 선택하세요.

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

S3 버킷에서 데이터 위치를 선택하고 데이터 세트 생성을 선택합니다.

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

스키마를 검토하고 데이터 세트 생성을 클릭합니다.

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

가져오기에 성공하면 다음 스크린샷과 같이 데이터세트가 목록에 표시됩니다.

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

모델 훈련

다음으로 Canvas를 사용하여 모델 학습을 설정하겠습니다. 데이터세트를 선택하고 만들기를 클릭합니다.

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.
모델 이름을 만들고 예측 분석을 선택한 후 만들기를 선택합니다.

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

타겟 컬럼 선택

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

그런 다음 시계열 모델 구성을 클릭하고 항목 ID 열로 item_id를 선택합니다.

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

선택 tm 타임스탬프 열의 경우

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

예측하려는 기간을 지정하려면 8주를 선택합니다.

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

이제 모델을 미리 보거나 빌드 프로세스를 시작할 준비가 되었습니다.

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

모델을 미리 보거나 빌드를 시작한 후 모델이 생성되며 최대 XNUMX시간이 걸릴 수 있습니다. 화면을 나갔다가 다시 돌아와서 모델 학습 상태를 확인할 수 있습니다.

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

모델이 준비되면 모델을 선택하고 최신 버전을 클릭하세요.

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

모델 측정항목과 열 영향을 검토하고 모델 성능에 만족하면 예측을 클릭합니다.

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

다음으로 일괄 예측을 선택하고 데이터 세트 선택을 클릭합니다.

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

데이터세트를 선택하고 데이터세트 선택을 클릭합니다.

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

다음으로 예측 시작을 클릭합니다.

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

생성된 작업을 관찰하거나 SageMaker의 추론, 일괄 변환 작업 아래에서 작업 진행 상황을 관찰합니다.

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

작업이 완료되면 작업을 선택하고 Canvas가 예측을 저장한 S3 경로를 기록해 둡니다.

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

Atlas 차트로 예측 데이터 시각화

예측 데이터를 시각화하려면 MongoDB 아틀라스 차트 다음 차트에 표시된 것처럼 P10, P50 및 P90 예측에 대한 연합 데이터(amazon-forecast-data)를 기반으로 합니다.

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

정리

  • MongoDB Atlas 클러스터 삭제
  • Atlas 데이터 연합 구성 삭제
  • Atlas 애플리케이션 서비스 앱 삭제
  • S3 버킷 삭제
  • Amazon SageMaker Canvas 데이터 세트 및 모델 삭제
  • 아틀라스 차트 삭제
  • Amazon SageMaker 캔버스에서 로그아웃

결론

이 게시물에서는 MongoDB 시계열 컬렉션에서 시계열 데이터를 추출했습니다. 시계열 데이터의 저장 및 조회 속도에 최적화된 특수 컬렉션입니다. 우리는 Amazon SageMaker Canvas를 사용하여 모델을 훈련하고 예측을 생성했으며 Atlas Charts에서 예측을 시각화했습니다.

자세한 내용은 다음 리소스를 참조하세요.


저자 소개

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.이고르 알렉세예프 데이터 및 분석 도메인에서 AWS의 선임 파트너 솔루션 설계자입니다. Igor는 자신의 역할에서 전략적 파트너와 협력하여 그들이 복잡하고 AWS에 최적화된 아키텍처를 구축하는 데 도움을 주고 있습니다. AWS에 합류하기 전에는 데이터/솔루션 설계자로 Hadoop 에코시스템의 여러 데이터 레이크를 포함하여 빅 데이터 도메인에서 많은 프로젝트를 구현했습니다. 데이터 엔지니어로서 사기 탐지 및 사무 자동화에 AI/ML을 적용하는 일에 참여했습니다.


MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.바부 스 리니 바산
MongoDB의 선임 파트너 솔루션 아키텍트입니다. 현재 역할에서 그는 AWS와 협력하여 AWS 및 MongoDB 솔루션을 위한 기술 통합 및 참조 아키텍처를 구축하고 있습니다. 그는 데이터베이스 및 클라우드 기술 분야에서 XNUMX년 이상의 경험을 가지고 있습니다. 그는 여러 지역에 걸쳐 여러 글로벌 시스템 통합업체(GSI)와 협력하는 고객에게 기술 솔루션을 제공하는 데 열정적입니다.

타임 스탬프 :

더보기 AWS 기계 학습