구축, 공유, 배포: 비즈니스 분석가 및 데이터 과학자가 코드 없는 ML 및 Amazon SageMaker Canvas PlatoBlockchain 데이터 인텔리전스를 사용하여 출시 시간을 단축하는 방법입니다. 수직 검색. 일체 포함.

구축, 공유, 배포: 비즈니스 분석가와 데이터 과학자가 코드 없는 ML 및 Amazon SageMaker Canvas를 사용하여 시장 출시 시간을 단축하는 방법

머신 러닝(ML)은 수요 예측, 신용 평가, 가격 책정, 고객 이탈 예측, 차선책 식별, 지연 선적 예측, 및 제조 품질 향상. 전통적인 ML 개발 주기에는 몇 달이 걸리며 부족한 데이터 과학과 ML 엔지니어링 기술이 필요합니다. ML 모델에 대한 분석가의 아이디어는 데이터 과학 팀 대역폭을 기다리는 긴 백로그에 있는 경우가 많으며, 데이터 과학자는 전체 기술이 필요한 더 복잡한 ML 프로젝트에 중점을 둡니다.

이 교착 상태를 깨기 위해 우리는 Amazon SageMaker Canvas 도입, 기업이 ML 솔루션 제공을 몇 시간 또는 며칠로 단축하는 데 도움이 되는 코드 없는 ML 솔루션입니다. SageMaker Canvas를 사용하면 분석가가 데이터 레이크, 데이터 웨어하우스 및 운영 데이터 저장소에서 사용 가능한 데이터를 쉽게 사용할 수 있습니다. ML 모델 구축 코드를 한 줄도 작성하지 않고 대화형 방식으로 예측하고 대량 데이터세트에 대한 일괄 채점을 수행하는 데 사용합니다.

이 게시물에서는 SageMaker Canvas가 데이터 과학자와 비즈니스 분석가 간의 협업을 가능하게 하여 시장 출시 시간을 단축하고 ML 솔루션 개발을 가속화하는 방법을 보여줍니다. 분석가는 ML 전문가가 될 필요 없이 SageMaker Canvas에서 코드가 없는 고유한 ML 작업 공간을 얻습니다. 그런 다음 분석가는 몇 번의 클릭으로 Canvas에서 자신의 모델을 공유할 수 있습니다. 아마존 세이지 메이커 스튜디오, 종단 간 ML 통합 개발 환경(IDE). 협력을 통해 비즈니스 분석가는 도메인 지식과 실험 결과를 가져올 수 있으며 데이터 과학자는 파이프라인을 효과적으로 생성하고 프로세스를 간소화할 수 있습니다.

워크플로가 어떻게 생겼는지 자세히 살펴보겠습니다.

비즈니스 분석가가 모델을 구축한 다음 공유

SageMaker Canvas가 비즈니스 분석가와 데이터 과학자(또는 ML 엔지니어) 간의 협업을 단순화하는 방법을 이해하기 위해 먼저 비즈니스 분석가로서 프로세스에 접근합니다. 시작하기 전에 다음을 참조하십시오. Amazon SageMaker Canvas 발표 - 비즈니스 분석가를 위한 시각적이고 코드가 없는 기계 학습 기능 SageMaker Canvas로 모델을 구축하고 테스트하는 방법에 대한 지침은

이 게시물에서는 수정된 버전을 사용합니다. 신용 카드 사기 탐지 데이터 세트 이진 분류 문제에 대한 잘 알려진 데이터 세트인 Kaggle에서 가져온 것입니다. 데이터 세트는 원래 매우 불균형적이며 음수 클래스(변칙 트랜잭션)로 분류되는 항목이 거의 없습니다. 대상 기능 분포에 관계없이 SageMaker Canvas가 모델을 자동으로 훈련하고 조정할 때 이러한 불균형을 처리하기 때문에 이 데이터 세트를 계속 사용할 수 있습니다. 이 데이터 세트는 약 9백만 개의 셀로 구성됩니다. 당신은 또한 다운로드 할 수 있습니다 이 데이터세트의 축소 버전. 데이터 세트 크기는 약 500,000개 셀로 훨씬 작습니다. 이 프로세스 중에 가능한 한 적은 정보가 손실되도록 SMOTE 기술로 무작위로 언더샘플링한 다음 오버샘플링했기 때문입니다. 이 감소된 데이터 세트로 전체 실험을 실행하면 SageMaker Canvas 프리 티어에서 $0의 비용이 듭니다.

모델이 빌드된 후 분석가는 이 모델을 사용하여 개별 요청 또는 전체 입력 데이터 세트를 대량으로 Canvas에서 직접 예측할 수 있습니다.

학습된 모델을 사용하여 예측 생성

Canvas Standard Build로 빌드된 모델은 SageMaker Studio를 사용하는 데이터 과학자 및 ML 엔지니어와 버튼 클릭 한 번으로 쉽게 공유할 수도 있습니다. 이를 통해 데이터 과학자는 구축한 모델의 성능을 검증하고 피드백을 제공할 수 있습니다. ML 엔지니어는 모델을 선택하여 회사 및 고객이 사용할 수 있는 기존 워크플로 및 제품과 통합할 수 있습니다. 참고로 작성 당시에는 Canvas Quick Build로 구축된 모델이나 시계열 예측 모델을 공유할 수 없습니다.

Canvas UI를 통해 모델을 공유하는 것은 간단합니다.

  1. 생성한 모델이 표시된 페이지에서 모델을 선택합니다.
  2. 왼쪽 메뉴에서 공유.분석 탭에서 훈련된 모델 공유
  3. 공유할 모델 버전을 하나 이상 선택합니다.
  4. 선택적으로 모델이나 찾고 있는 도움말에 대한 추가 컨텍스트를 제공하는 메모를 포함합니다.
  5. 왼쪽 메뉴에서 SageMaker Studio 링크 생성.SageMaker Studio와 모델 공유
  6. 생성된 링크를 복사합니다.생성된 링크 복사

그리고 그게 다야! 이제 Slack, 이메일 또는 기타 원하는 방법을 통해 링크를 동료와 공유할 수 있습니다. 데이터 과학자는 모델에 액세스하기 위해 동일한 SageMaker Studio 도메인에 있어야 하므로 조직 관리자의 경우에 해당하는지 확인하십시오.

Slack 메시지 또는 이메일을 보내 모델 공유

데이터 과학자는 SageMaker Studio에서 모델 정보에 액세스합니다.

이제 데이터 과학자 또는 ML 엔지니어의 역할을 수행하고 SageMaker Studio를 사용하여 이들의 관점에서 사물을 살펴보겠습니다.

분석가가 공유한 링크는 종단 간 ML 워크플로를 위한 최초의 클라우드 기반 IDE인 SageMaker Studio로 연결됩니다.

SageMaker Studio에 표시된 대로 모델 개요 표시

탭이 자동으로 열리고 SageMaker Canvas에서 분석가가 생성한 모델의 개요가 표시됩니다. 모델 이름, ML 문제 유형, 모델 버전 및 모델을 만든 사용자(Canvas 사용자 ID 필드 아래)를 빠르게 볼 수 있습니다. 또한 SageMaker가 생성할 수 있었던 입력 데이터 세트 및 최상의 모델에 대한 세부 정보에 액세스할 수 있습니다. 우리는 나중에 포스트에서 그것에 대해 알아볼 것입니다.

입력 데이터 세트 탭에서 소스에서 입력 데이터 세트로의 데이터 흐름을 볼 수도 있습니다. 이 경우 하나의 데이터 소스만 사용되며 조인 작업이 적용되지 않았으므로 단일 소스가 표시됩니다. 다음을 선택하여 데이터 세트에 대한 통계 및 세부 정보를 분석할 수 있습니다. 데이터 탐색 노트북 열기. 이 노트북을 사용하면 모델을 훈련하기 전에 사용할 수 있었던 데이터를 탐색할 수 있으며 대상 변수에 대한 분석, 입력 데이터 샘플, 열과 행에 대한 통계 및 설명, 데이터 과학자가 수행할 수 있는 기타 유용한 정보가 포함되어 있습니다. 데이터세트에 대해 자세히 알아보세요. 이 보고서에 대한 자세한 내용은 다음을 참조하십시오. 데이터 탐색 보고서.

완료된 작업 및 작업 정보와 함께 모델 개요 표시

입력 데이터 세트를 분석한 후 모델 개요의 두 번째 탭으로 이동해 보겠습니다. AutoML 작업. 이 탭에는 SageMaker Canvas에서 표준 빌드 옵션을 선택한 경우의 AutoML 작업에 대한 설명이 포함되어 있습니다.

SageMaker Canvas 아래에 있는 AutoML 기술은 ML 모델을 구축하는 무거운 작업을 제거합니다. 자동화된 접근 방식을 사용하여 데이터를 기반으로 최고의 ML 모델을 자동으로 구축, 교육 및 조정하는 동시에 전체 제어 및 가시성을 유지할 수 있습니다. 생성된 후보 모델과 AutoML 프로세스 중에 사용된 하이퍼 매개변수에 대한 가시성은 후보 세대 노트북, 이 탭에서 사용할 수 있습니다.

XNUMXD덴탈의 AutoML 작업 탭에는 F1 목표 측정항목으로 정렬된 AutoML 프로세스의 일부로 구축된 모든 모델의 목록도 포함되어 있습니다. 실행된 교육 작업 중 최상의 모델을 강조 표시하기 위해 녹색 원이 있는 태그가 사용됩니다. 베스트 모델 열. 또한 정확도 점수 및 AUC(Area Under the Curve)와 같이 교육 및 평가 단계에서 사용된 다른 메트릭을 쉽게 시각화할 수 있습니다. AutoML 작업 중에 학습할 수 있는 모델과 학습된 모델의 성능을 평가하는 데 사용되는 측정항목에 대해 자세히 알아보려면 다음을 참조하세요. 모델 지원, 메트릭 및 검증.

모델에 대해 자세히 알아보려면 이제 최상의 모델을 마우스 오른쪽 버튼으로 클릭하고 모델 세부정보에서 열기. 또는 다음을 선택할 수 있습니다. 베스트 모델 상단의 링크 모델 개요 처음 방문한 섹션.

기능 중요도 및 측정항목이 포함된 모델 세부정보

모델 세부 정보 페이지에는 이 입력 데이터로 가장 잘 수행된 모델에 관한 유용한 정보가 많이 포함되어 있습니다. 먼저 페이지 상단의 요약에 중점을 두겠습니다. 앞의 예시 스크린샷은 수백 개의 모델 훈련 실행 중에서 XGBoost 모델이 입력 데이터 세트에서 가장 잘 수행되었음을 보여줍니다. 이 글을 쓰는 시점에서 SageMaker Canvas는 선형 학습기, XGBoost 및 MLP(다층 퍼셉트론)의 세 가지 유형의 ML 알고리즘을 훈련할 수 있으며, 각 알고리즘에는 다양한 사전 처리 파이프라인과 하이퍼 매개변수가 있습니다. 각 알고리즘에 대한 자세한 내용은 다음을 참조하십시오. 지원되는 알고리즘 페이지.

SageMaker에는 확장 가능하고 효율적인 구현 덕분에 설명 기능도 포함되어 있습니다. 커널SHAP, 특정 예측에 대한 중요도 값을 각 기능에 할당하는 협동 게임 이론 분야의 Shapley 값 개념을 기반으로 합니다. 이는 모델이 예측에 도달한 방법에 대한 투명성을 허용하며 기능 중요도를 정의하는 데 매우 유용합니다. 기능 중요도를 포함한 완전한 설명 보고서는 PDF, 노트북 또는 원시 데이터 형식으로 다운로드할 수 있습니다. 해당 보고서에는 AutoML 작업 중에 사용된 하이퍼 매개변수의 전체 목록과 함께 광범위한 측정항목이 표시됩니다. SageMaker가 AutoML 솔루션 및 표준 ML 알고리즘을 위한 통합 설명 도구를 제공하는 방법에 대해 자세히 알아보려면 다음을 참조하십시오. 통합 설명 도구를 사용하고 Amazon SageMaker Autopilot을 사용하여 모델 품질 개선.

마지막으로 이 보기의 다른 탭에는 성능 세부 정보(혼돈 행렬, 정밀도 재현율 곡선, ROC 곡선), 입력에 사용되며 AutoML 작업 중에 생성된 아티팩트 및 네트워크 세부 정보에 대한 정보가 표시됩니다.

이 시점에서 데이터 과학자는 모델을 직접 배포하거나 수동 또는 자동으로 예약하거나 트리거할 수 있는 훈련 파이프라인을 만드는 두 가지 선택을 할 수 있습니다. 다음 섹션에서는 두 옵션에 대한 몇 가지 통찰력을 제공합니다.

모델을 직접 배포

데이터 과학자가 AutoML 작업으로 얻은 결과에 만족하면 모델을 직접 배포할 수 있습니다. 모델 세부 정보 페이지. 선택하는 것만 큼 간단합니다. 모델 배포 모델명 옆에

모델을 배포할 위치에서 추가 모델 세부 정보

SageMaker는 배포를 위한 두 가지 옵션을 보여줍니다. Amazon SageMaker 엔드포인트및 배치 추론, Amazon SageMaker 배치 변환.

AutoML에서 예측을 시작하는 옵션

SageMaker는 다른 추론 모드도 제공합니다. 자세한 내용은 다음을 참조하십시오. 추론을 위한 모델 배포.

실시간 예측 모드를 활성화하려면 끝점에 이름, 인스턴스 유형 및 인스턴스 수를 지정하기만 하면 됩니다. 이 모델은 많은 컴퓨팅 리소스를 필요로 하지 않기 때문에 초기 개수가 1인 CPU 기반 인스턴스를 사용할 수 있습니다. Amazon SageMaker 요금 페이지 ( 온디맨드 가격 섹션에서 실시간 추론 탭). 배포를 위해 어떤 인스턴스를 선택해야 하는지 모르는 경우 다음을 사용하여 KPI에 따라 가장 적합한 인스턴스를 찾도록 SageMaker에 요청할 수도 있습니다. SageMaker 추론 추천자. 끝점에서 또는 끝점에서 요청 및 응답 데이터를 캡처할지 여부와 관련하여 추가 선택적 매개변수를 제공할 수도 있습니다. 다음을 계획 중인 경우 유용할 수 있습니다. 모델 모니터링. 또한 응답의 일부로 제공할 콘텐츠(예측 또는 예측 확률, 모든 클래스의 확률 및 대상 레이블)를 선택할 수 있습니다.

한 번에 전체 입력 세트에 대한 예측을 가져오는 일괄 채점 작업을 실행하려면 다음에서 일괄 변환 작업을 시작할 수 있습니다. AWS 관리 콘솔 또는 SageMaker Python SDK를 통해. 일괄 변환에 대한 자세한 내용은 다음을 참조하십시오. 일괄 변환 사용 그리고 예시 노트북.

훈련 파이프라인 정의

ML 모델은 학습된 기준선에서 드리프트하기 때문에 정적이고 변경되지 않는 것으로 간주될 수 있습니다. 실제 데이터는 시간이 지남에 따라 진화하고 더 많은 패턴과 통찰력이 나타납니다. 이는 과거 데이터에 대해 훈련된 원래 모델에 의해 캡처되거나 캡처되지 않을 수 있습니다. 이 문제를 해결하기 위해 사용 가능한 최신 데이터로 모델을 자동으로 재훈련하는 훈련 파이프라인을 설정할 수 있습니다.

이 파이프라인을 정의할 때 데이터 과학자의 옵션 중 하나는 훈련 파이프라인에 대해 AutoML을 다시 한 번 사용하는 것입니다. 다음에서 create_auto_ml_job() API를 호출하여 프로그래밍 방식으로 AutoML 작업을 시작할 수 있습니다. AWS 보토3 SDK. 다음에서 이 작업을 호출할 수 있습니다. AWS 람다 기능 AWS 단계 함수 워크플로 또는 LambdaStep에서 Amazon SageMaker 파이프 라인.

또는 데이터 과학자는 AutoML 작업에서 얻은 지식, 아티팩트 및 하이퍼 매개변수를 사용하여 완전한 교육 파이프라인을 정의할 수 있습니다. 다음 리소스가 필요합니다.

  • 사용 사례에 가장 잘 맞는 알고리즘 – Canvas 생성 모델의 요약에서 이미 이 정보를 얻었습니다. 이 사용 사례의 경우 XGBoost 내장 알고리즘입니다. SageMaker Python SDK를 사용하여 SageMaker로 XGBoost 알고리즘을 훈련시키는 방법에 대한 지침은 다음을 참조하십시오. SageMaker Python SDK와 함께 XGBoost 사용.
    Canvas 작업으로 훈련된 알고리즘에 대한 정보
  • AutoML 작업에서 파생된 초매개변수 – 다음에서 사용할 수 있습니다. 설명 가능성 부분. SageMaker Python SDK로 교육 작업을 정의할 때 입력으로 사용할 수 있습니다.
    모델 하이퍼파라미터
  • 아티팩트 섹션에 제공된 기능 엔지니어링 코드 – 훈련 전(예: Amazon SageMaker Processing을 통해) 또는 추론 전에(예: SageMaker 추론 파이프라인의 일부로) 데이터를 사전 처리하는 데 이 코드를 사용할 수 있습니다.
    기능 엔지니어링 코드의 S3 URI

이러한 리소스를 SageMaker 파이프라인의 일부로 결합할 수 있습니다. 이 게시물에서는 구현 세부 정보를 생략합니다. 이 주제에 대해 더 많은 콘텐츠가 제공될 예정이니 계속 지켜봐 주시기 바랍니다.

결론

SageMaker Canvas를 사용하면 코드를 작성할 필요 없이 ML을 사용하여 예측을 생성할 수 있습니다. 비즈니스 분석가는 로컬 데이터 세트와 이미 저장된 데이터를 사용하여 자동으로 시작할 수 있습니다. 아마존 단순 스토리지 서비스 (아마존 S3), 아마존 레드 시프트, 또는 눈송이. 몇 번의 클릭만으로 데이터 세트를 준비 및 결합하고, 예상 정확도를 분석하고, 어떤 열이 영향력이 있는지 확인하고, 최고 성능의 모델을 훈련하고, 새로운 개별 또는 일괄 예측을 생성할 수 있습니다. 이 모든 작업을 전문 데이터 과학자를 고용할 필요가 없습니다. 그런 다음 필요에 따라 SageMaker Studio로 모델을 가져오는 데이터 과학자 또는 MLOps 엔지니어 팀과 모델을 공유하고 분석가와 협력하여 프로덕션 솔루션을 제공할 수 있습니다.

비즈니스 분석가는 ML 학위 없이도 코드를 한 줄도 작성하지 않고도 데이터에서 독립적으로 통찰력을 얻을 수 있습니다. 이제 데이터 과학자는 AI 및 ML에 대한 광범위한 지식을 더 잘 사용할 수 있는 더 어려운 프로젝트에 추가 시간을 할애할 수 있습니다.

우리는 이 새로운 협업을 통해 귀사의 비즈니스를 위한 더욱 강력한 ML 솔루션을 구축할 수 있는 문이 열릴 것이라고 믿습니다. 이제 데이터 과학자와 ML 엔지니어가 필요에 따라 수정, 조정 및 확장하는 데 도움이 되는 동시에 귀중한 비즈니스 통찰력을 생성하는 분석가가 있습니다.

추가 자료


저자에 관하여

구축, 공유, 배포: 비즈니스 분석가 및 데이터 과학자가 코드 없는 ML 및 Amazon SageMaker Canvas PlatoBlockchain 데이터 인텔리전스를 사용하여 출시 시간을 단축하는 방법입니다. 수직 검색. 일체 포함.다비드 갈리텔리 EMEA 지역의 AI/ML 전문 솔루션 설계자입니다. 그는 브뤼셀에 거주하며 베네룩스 전역의 고객과 긴밀하게 협력하고 있습니다. 그는 아주 어렸을 때부터 개발자였으며 ​​7세에 코딩을 시작했습니다. 그는 대학에서 AI/ML을 배우기 시작했고 그때부터 사랑에 빠졌습니다.

구축, 공유, 배포: 비즈니스 분석가 및 데이터 과학자가 코드 없는 ML 및 Amazon SageMaker Canvas PlatoBlockchain 데이터 인텔리전스를 사용하여 출시 시간을 단축하는 방법입니다. 수직 검색. 일체 포함.마크 로이 AWS의 선임 기계 학습 설계자로서 고객이 AI / ML 솔루션을 설계하고 구축 할 수 있도록 지원합니다. Mark의 작업은 컴퓨터 비전, 딥 러닝 및 기업 전체의 ML 확장에 대한 주요 관심과 함께 광범위한 ML 사용 사례를 다룹니다. 그는 보험, 금융 서비스, 미디어 및 엔터테인먼트, 의료, 유틸리티 및 제조를 포함한 여러 산업 분야의 기업을 도왔습니다. Mark는 ML Specialty Certification을 포함하여 25 개의 AWS 인증을 보유하고 있습니다. AWS에 합류하기 전에 Mark는 금융 서비스 분야에서 19 년을 포함하여 XNUMX 년 이상 아키텍트, 개발자 및 기술 리더였습니다.

타임 스탬프 :

더보기 AWS 기계 학습