코드 없이 Amazon SageMaker에서 위험 관리 기계 학습 워크플로 구축

플라톤에 의해 재발행

팔로워 : 0

글로벌 금융 위기 이후 위험 관리는 잠재 고객의 대출 상태 예측을 포함하여 은행의 의사 결정을 형성하는 데 중요한 역할을 했습니다. 이는 종종 머신 러닝(ML)이 필요한 데이터 집약적인 연습입니다. 그러나 모든 조직에 위험 관리 ML 워크플로를 구축할 수 있는 데이터 과학 리소스와 전문 지식이 있는 것은 아닙니다.

아마존 세이지 메이커 데이터 엔지니어와 비즈니스 분석가가 ML 모델을 빠르고 쉽게 구축, 교육 및 배포할 수 있는 완전 관리형 ML 플랫폼입니다. 데이터 엔지니어와 비즈니스 분석가는 SageMaker의 코드 없는/낮은 코드 기능을 사용하여 협업할 수 있습니다. 데이터 엔지니어가 사용할 수 있는 Amazon SageMaker 데이터 랭글러 코드를 작성하지 않고 모델 구축을 위해 데이터를 빠르게 집계하고 준비합니다. 그런 다음 비즈니스 분석가는 시각적 포인트 앤 클릭 인터페이스를 사용할 수 있습니다. Amazon SageMaker 캔버스 자체적으로 정확한 ML 예측을 생성합니다.

이 게시물에서는 데이터 엔지니어와 비즈니스 분석가가 협력하여 코드를 작성하지 않고도 데이터 준비, 모델 구축 및 추론이 포함된 ML 워크플로를 구축하는 것이 얼마나 간단한지 보여줍니다.

솔루션 개요

ML 개발은 복잡하고 반복적인 프로세스이지만 ML 워크플로를 데이터 준비, 모델 개발 및 모델 배포 단계로 일반화할 수 있습니다.

코드 PlatoBlockchain Data Intelligence 없이 Amazon SageMaker에서 위험 관리 기계 학습 워크플로를 구축하십시오. 수직 검색. 일체 포함.

Data Wrangler 및 Canvas는 데이터 준비 및 모델 개발의 복잡성을 추상화하므로 코드 개발 전문가가 아니더라도 데이터에서 통찰력을 끌어내어 비즈니스에 가치를 제공하는 데 집중할 수 있습니다. 다음 아키텍처 다이어그램은 코드 없는/낮은 코드 솔루션의 구성 요소를 강조 표시합니다.

아마존 단순 스토리지 서비스 (Amazon S3)는 원시 데이터, 엔지니어링 데이터 및 모델 아티팩트에 대한 데이터 리포지토리 역할을 합니다. 다음에서 데이터를 가져오도록 선택할 수도 있습니다. 아마존 레드 시프트, 아마존 아테나, Databricks 및 Snowflake.

데이터 과학자로서 우리는 탐색적 데이터 분석 및 기능 엔지니어링을 위해 Data Wrangler를 사용합니다. Canvas가 기능 엔지니어링 작업을 실행할 수 있지만 기능 엔지니어링은 일반적으로 모델 개발에 적합한 형식으로 데이터 세트를 강화하기 위해 약간의 통계 및 도메인 지식이 필요합니다. 따라서 우리는 데이터 엔지니어에게 이 책임을 부여하여 데이터 랭글러로 코드를 작성하지 않고도 데이터를 변환할 수 있습니다.

데이터 준비 후에는 모델 구축 책임을 데이터 분석가에게 넘깁니다. 데이터 분석가는 Canvas를 사용하여 코드를 작성하지 않고도 모델을 훈련할 수 있습니다.

마지막으로, 모델 엔드포인트를 직접 배포할 필요 없이 결과 모델에서 Canvas 내에서 직접 단일 및 일괄 예측을 수행합니다.

데이터세트 개요

우리는 SageMaker 기능을 사용하여 Lending Club의 수정된 버전을 사용하여 대출 상태를 예측합니다. 공개적으로 사용 가능한 대출 분석 데이터 세트. 데이터 세트에는 2007년부터 2011년까지 발행된 대출에 대한 대출 데이터가 포함되어 있습니다. 대출 및 차용인을 설명하는 열은 우리의 기능입니다. loan_status 열은 우리가 예측하려고 하는 대상 변수입니다.

Data Wrangler에서 시연하기 위해 데이터 세트를 두 개의 CSV 파일로 분할합니다. 제 1 부 과 두 번째 부분. 데모를 단순화하기 위해 Lending Club의 원래 데이터 세트에서 일부 열을 제거했습니다. 다음 표에 설명된 대로 데이터 세트에는 37,000개 이상의 행과 21개의 기능 열이 있습니다.

열 이름	상품 설명
`loan_status`	대출의 현재 상태(대상 변수).
`loan_amount`	차용인이 신청한 대출의 나열된 금액입니다. 신용 부서에서 대출 금액을 줄이면 이 값에 반영됩니다.
`funded_amount_by_investors`	해당 시점에 해당 대출에 대해 투자자가 약정한 총액입니다.
`term`	대출에 대한 지불 횟수. 값은 월 단위이며 36 또는 60일 수 있습니다.
`interest_rate`	대출 이자율.
`installment`	대출이 시작된 경우 차용인이 지불해야 하는 월별 지불액.
`grade`	LC 할당 대출 등급.
`sub_grade`	LC 할당 대출 하위 등급.
`employment_length`	고용 기간(년). 가능한 값은 0–10이며, 여기서 0은 10년 미만을 의미하고 XNUMX은 XNUMX년 이상을 의미합니다.
`home_ownership`	등록하는 동안 차용인이 제공한 주택 소유권 상태입니다. 우리의 가치는 RENT, OWN, MORTGAGE 및 OTHER입니다.
`annual_income`	등록하는 동안 차용인이 제공한 자체 보고된 연간 소득.
`verification_status`	소득이 LC에 의해 확인되었는지 여부를 나타냅니다.
`issued_amount`	대출 자금이 조달된 달입니다.
`purpose`	대출 요청에 대해 차용인이 제공한 범주입니다.
`dti`	모기지 및 요청된 LC 대출을 제외한 총 부채 의무에 대한 차용인의 월별 총 부채 상환액을 차용인의 자체 보고 월 소득으로 나누어 계산한 비율입니다.
`earliest_credit_line`	차용인이 가장 먼저 보고한 신용 한도가 개설된 달입니다.
`inquiries_last_6_months`	지난 6개월 동안의 문의 건수(자동차 및 모기지 문의 제외).
`open_credit_lines`	차용인의 신용 파일에 있는 미결 신용 한도 수입니다.
`derogatory_public_records`	경멸적인 공개 기록의 수입니다.
`revolving_line_utilization_rate`	회전 라인 활용률 또는 사용 가능한 모든 회전 신용과 관련하여 차용인이 사용하는 신용 금액.
`total_credit_lines`	현재 차용인의 신용 파일에 있는 총 신용 한도 수입니다.

우리는 이 데이터 세트를 데이터 준비 및 모델 교육에 사용합니다.

사전 조건

다음 전제조건 단계를 완료하십시오.

두 대출 파일 모두 업로드 선택한 S3 버킷에.
필요한 권한이 있는지 확인하십시오. 자세한 내용은 다음을 참조하십시오. 데이터 랭글러 시작하기.
Data Wrangler를 사용하도록 구성된 SageMaker 도메인을 설정합니다. 지침은 다음을 참조하십시오. Amazon SageMaker 도메인에 온보딩.

데이터 가져 오기

새 Data Wrangler 데이터 흐름 만들기 인사말 Amazon SageMaker 스튜디오 UI.

코드 PlatoBlockchain Data Intelligence 없이 Amazon SageMaker에서 위험 관리 기계 학습 워크플로를 구축하십시오. 수직 검색. 일체 포함.

데이터 세트를 배치한 S3 버킷에서 CSV 파일을 선택하여 Amazon S3에서 데이터를 가져옵니다. 두 파일을 모두 가져온 후에는 데이터 흐름 전망.

데이터 랭글러 흐름에서 데이터를 가져올 때 여러 샘플링 옵션을 선택할 수 있습니다. 샘플링은 너무 커서 대화식으로 준비할 수 없는 데이터 세트가 있거나 샘플링된 데이터 세트에서 드문 이벤트의 비율을 유지하려는 경우에 도움이 될 수 있습니다. 데이터 세트가 작기 때문에 샘플링을 사용하지 않습니다.

데이터 준비

사용 사례의 경우 공통 열이 있는 두 개의 데이터세트가 있습니다. id. 데이터 준비의 첫 번째 단계로 이러한 파일을 결합하여 결합하려고 합니다. 지침은 다음을 참조하십시오. 데이터 변환.

코드 PlatoBlockchain Data Intelligence 없이 Amazon SageMaker에서 위험 관리 기계 학습 워크플로를 구축하십시오. 수직 검색. 일체 포함.

우리는을 사용하여 가입하기 데이터 변환 단계 및 사용 안의 조인 유형 id 열입니다.

코드 PlatoBlockchain Data Intelligence 없이 Amazon SageMaker에서 위험 관리 기계 학습 워크플로를 구축하십시오. 수직 검색. 일체 포함.

조인 변환의 결과로 Data Wrangler는 두 개의 추가 열을 생성합니다. id_0 과 id_1. 그러나 이러한 기둥은 모델 작성 목적에 필요하지 않습니다. 다음을 사용하여 이러한 중복 열을 삭제합니다. 열 관리 변환 단계.

코드 PlatoBlockchain Data Intelligence 없이 Amazon SageMaker에서 위험 관리 기계 학습 워크플로를 구축하십시오. 수직 검색. 일체 포함.

데이터세트를 가져와서 결합하고 불필요한 열을 제거했습니다. 이제 기능 엔지니어링을 통해 데이터를 보강하고 모델 구축을 준비할 준비가 되었습니다.

기능 엔지니어링 수행

데이터 준비를 위해 Data Wrangler를 사용했습니다. 당신은 또한 사용할 수 있습니다 데이터 품질 및 통찰력 보고서 기능 Data Wrangler 내에서 데이터 품질을 확인하고 데이터의 이상을 감지합니다. 데이터 과학자는 종종 이러한 데이터 통찰력을 사용하여 올바른 도메인 지식을 엔지니어링 기능에 효율적으로 적용해야 합니다. 이 게시물에서는 이러한 품질 평가를 완료했으며 기능 엔지니어링으로 이동할 수 있다고 가정합니다.

이 단계에서는 숫자, 범주 및 텍스트 열에 몇 가지 변환을 적용합니다.

먼저 이자율을 정규화하여 0–1 사이의 값을 조정합니다. 우리는 이것을 사용하여 숫자 처리 스케일로 변환 interest_rate 최소-최대 스케일러를 사용하여 열. 정규화(또는 표준화)의 목적은 모델에서 편향을 제거하는 것입니다. 다른 척도에서 측정된 변수는 모델 학습 프로세스에 동등하게 기여하지 않습니다. 따라서 최소-최대 스케일러 변환과 같은 변환 함수는 기능을 정규화하는 데 도움이 됩니다.

범주형 변수를 숫자 값으로 변환하기 위해 원-핫 인코딩을 사용합니다. 우리는 선택 범주 형 인코딩 변환한 다음 선택 원-핫 인코딩. 원-핫 인코딩은 ML 모델의 예측 능력을 향상시킵니다. 이 프로세스는 기능에 1 또는 0의 이진 값을 할당하여 범주형 값을 새 기능으로 변환합니다. 간단한 예로서 yes or no, 원-핫 인코딩은 해당 열을 두 개의 열로 변환합니다. Yes 열과 No 열. yes 값은 1을 갖습니다. Yes 열과 0 No 열. 원-핫 인코딩은 숫자 값이 예측 확률을 더 쉽게 결정할 수 있기 때문에 데이터를 더 유용하게 만듭니다.

마지막으로, 우리는 employer_title 열을 사용하여 문자열 값을 숫자 벡터로 변환합니다. 우리는 적용 카운트 벡터라이저 그리고 표준 토크나이저는 벡터화 변환. 토큰화는 문장 또는 일련의 텍스트를 단어로 분해하는 반면 벡터라이저는 텍스트 데이터를 기계가 읽을 수 있는 형식으로 변환합니다. 이러한 단어는 벡터로 표시됩니다.

코드 PlatoBlockchain Data Intelligence 없이 Amazon SageMaker에서 위험 관리 기계 학습 워크플로를 구축하십시오. 수직 검색. 일체 포함.

모든 기능 엔지니어링 단계가 완료되면 데이터를 내보내고 결과를 S3 버킷으로 출력할 수 있습니다. 또는 흐름을 Python 코드로 내보내거나 Jupyter 노트북을 사용하여 보기가 포함된 파이프라인을 생성할 수 있습니다. Amazon SageMaker 파이프 라인. 기능 엔지니어링 단계를 대규모로 실행하거나 ML 파이프라인의 일부로 실행하려는 경우 이를 고려하십시오.

코드 PlatoBlockchain Data Intelligence 없이 Amazon SageMaker에서 위험 관리 기계 학습 워크플로를 구축하십시오. 수직 검색. 일체 포함.

이제 Data Wrangler 출력 파일을 Canvas에 대한 입력으로 사용할 수 있습니다. 우리는 이것을 ML 모델을 구축하기 위해 Canvas에서 데이터 세트로 참조합니다.

코드 PlatoBlockchain Data Intelligence 없이 Amazon SageMaker에서 위험 관리 기계 학습 워크플로를 구축하십시오. 수직 검색. 일체 포함.

우리의 경우 준비된 데이터 세트를 기본 Studio 버킷으로 내보냈습니다. output 접두사. 다음에 모델 구축을 위해 데이터를 Canvas에 로드할 때 이 데이터 세트 위치를 참조합니다.

Canvas를 사용하여 ML 모델 빌드 및 학습

SageMaker 콘솔에서 Canvas 애플리케이션을 시작합니다. 이전 섹션에서 준비된 데이터에서 ML 모델을 빌드하려면 다음 단계를 수행합니다.

준비된 데이터 세트를 S3 버킷에서 Canvas로 가져옵니다.

이전 섹션에서 Data Wrangler 결과를 내보낸 동일한 S3 경로를 참조합니다.

Canvas에서 새 모델을 만들고 이름을 지정합니다. loan_prediction_model.
가져온 데이터 세트를 선택하고 모델 개체에 추가합니다.

코드 PlatoBlockchain Data Intelligence 없이 Amazon SageMaker에서 위험 관리 기계 학습 워크플로를 구축하십시오. 수직 검색. 일체 포함.

Canvas가 모델을 빌드하도록 하려면 대상 열을 선택해야 합니다.

우리의 목표는 대출 기관이 대출을 상환할 수 있는 가능성을 예측하는 것이기 때문에 loan_status 열입니다.

Canvas는 자동으로 ML 문제 설명 유형을 식별합니다. 작성 당시 Canvas는 회귀, 분류 및 시계열 예측 문제를 지원합니다. 문제 유형을 지정하거나 Canvas가 데이터에서 문제를 자동으로 추론하도록 할 수 있습니다.

코드 PlatoBlockchain Data Intelligence 없이 Amazon SageMaker에서 위험 관리 기계 학습 워크플로를 구축하십시오. 수직 검색. 일체 포함.

모델 구축 프로세스를 시작하는 옵션을 선택하세요. 빠른 빌드 or 표준 빌드.

XNUMXD덴탈의 빠른 빌드 옵션은 데이터세트를 사용하여 2–15분 이내에 모델을 훈련시킵니다. 이것은 새로운 데이터 세트로 실험하여 보유한 데이터 세트가 예측을 하기에 충분한지 결정할 때 유용합니다. 이 게시물에는 이 옵션을 사용합니다.

XNUMXD덴탈의 표준 빌드 옵션은 속도보다 정확도를 선택하고 약 250개의 모델 후보를 사용하여 모델을 훈련합니다. 이 과정은 보통 1~2시간이 걸립니다.

모델이 빌드된 후 모델의 결과를 검토할 수 있습니다. Canvas는 모델이 82.9%의 시간 동안 올바른 결과를 예측할 수 있다고 추정합니다. 학습 모델의 가변성으로 인해 자신의 결과가 다를 수 있습니다.

코드 PlatoBlockchain Data Intelligence 없이 Amazon SageMaker에서 위험 관리 기계 학습 워크플로를 구축하십시오. 수직 검색. 일체 포함.

또한 모델에 대한 자세한 내용을 알아보기 위해 모델의 세부 분석에 대해 자세히 알아볼 수 있습니다.

특성 중요도는 대상 열을 예측할 때 각 특성의 예상 중요도를 나타냅니다. 이 경우 신용 한도 열은 고객이 대출 금액을 상환할지 여부를 예측하는 데 가장 큰 영향을 미치고 그 다음으로 이자율과 연간 수입이 발생합니다.

코드 PlatoBlockchain Data Intelligence 없이 Amazon SageMaker에서 위험 관리 기계 학습 워크플로를 구축하십시오. 수직 검색. 일체 포함.

혼동 행렬 고급 메트릭 섹션에는 모델 성능에 대한 더 깊은 이해를 원하는 사용자를 위한 정보가 포함되어 있습니다.

코드 PlatoBlockchain Data Intelligence 없이 Amazon SageMaker에서 위험 관리 기계 학습 워크플로를 구축하십시오. 수직 검색. 일체 포함.

프로덕션 워크로드용으로 모델을 배포하기 전에 Canvas를 사용하여 모델을 테스트합니다. Canvas는 모델 끝점을 관리하고 Canvas 사용자 인터페이스에서 직접 예측할 수 있도록 합니다.

왼쪽 메뉴에서 예측 다음 중 하나에 대한 결과를 검토합니다. 일괄 예측 or 단일 예측 탭.

다음 예에서는 대상 변수를 예측하기 위해 값을 수정하여 단일 예측을 수행합니다. loan_status 실시간

코드 PlatoBlockchain Data Intelligence 없이 Amazon SageMaker에서 위험 관리 기계 학습 워크플로를 구축하십시오. 수직 검색. 일체 포함.

더 큰 데이터 세트를 선택하고 Canvas가 우리를 대신하여 일괄 예측을 생성하도록 할 수도 있습니다.

코드 PlatoBlockchain Data Intelligence 없이 Amazon SageMaker에서 위험 관리 기계 학습 워크플로를 구축하십시오. 수직 검색. 일체 포함.

결론

종단 간 기계 학습은 복잡하고 반복적이며 종종 여러 페르소나, 기술 및 프로세스를 포함합니다. Data Wrangler와 Canvas를 사용하면 이러한 팀이 코드를 작성할 필요 없이 팀 간의 협업이 가능합니다.

데이터 엔지니어는 코드를 작성하지 않고 Data Wrangler를 사용하여 데이터를 쉽게 준비하고 준비된 데이터 세트를 비즈니스 분석가에게 전달할 수 있습니다. 그런 다음 비즈니스 분석가는 Canvas를 사용하여 클릭 몇 번으로 정확한 ML 모델을 쉽게 구축하고 실시간 또는 일괄적으로 정확한 예측을 얻을 수 있습니다.

데이터 랭글러 시작하기 인프라를 관리할 필요 없이 이러한 도구를 사용합니다. 당신은 할 수 있습니다 캔버스 설정 신속하고 즉시 비즈니스 요구 사항을 지원하는 ML 모델 생성을 시작하십시오.

저자에 관하여

코드 PlatoBlockchain Data Intelligence 없이 Amazon SageMaker에서 위험 관리 기계 학습 워크플로를 구축하십시오. 수직 검색. 일체 포함. 피터 정 AWS용 솔루션 아키텍트이며 고객이 데이터에서 통찰력을 찾도록 돕는 데 열정을 쏟고 있습니다. 그는 공공 부문과 민간 부문 모두에서 조직이 데이터 기반 의사 결정을 내리는 데 도움이 되는 솔루션을 구축해 왔습니다. 그는 모든 AWS 인증과 XNUMX개의 GCP 인증을 보유하고 있습니다.

코드 PlatoBlockchain Data Intelligence 없이 Amazon SageMaker에서 위험 관리 기계 학습 워크플로를 구축하십시오. 수직 검색. 일체 포함. 미낙시순다람 탄다바라얀 AWS의 수석 AI/ML 전문가입니다. 그는 AI 및 ML 여정에서 하이테크 전략 계정을 돕습니다. 그는 데이터 기반 AI에 대해 매우 열정적입니다.

코드 PlatoBlockchain Data Intelligence 없이 Amazon SageMaker에서 위험 관리 기계 학습 워크플로를 구축하십시오. 수직 검색. 일체 포함. 댄 퍼거슨 미국 뉴욕에 거주하는 AWS의 솔루션스 아키텍트입니다. 기계 학습 서비스 전문가인 Dan은 ML 워크플로를 효율적이고 효과적이고 지속 가능하게 통합하려는 고객을 지원하기 위해 노력하고 있습니다.

타임 스탬프 : 2022 년 5 월 19 일

타임 스탬프 : 2022 년 5 월 4 일

코드 없이 Amazon SageMaker에서 위험 관리 기계 학습 워크플로 구축

플라톤에 의해 재발행

솔루션 개요

데이터세트 개요

사전 조건

데이터 가져 오기

데이터 준비

기능 엔지니어링 수행

Canvas를 사용하여 ML 모델 빌드 및 학습

결론

저자에 관하여

더보기 AWS 기계 학습

Amazon SageMaker Feature Store 및 기능 수준 메타데이터 기능을 사용하여 조직 전체에서 기능 검색 및 재사용 촉진

AWS Graviton으로 Amazon SageMaker 추론 비용 절감

Amazon SageMaker를 사용하여 Terraform으로 기계 학습 파이프라인 배포 및 관리

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정