대규모 ML 수명 주기 관리, 1부: Amazon SageMaker를 사용하여 ML 워크로드를 설계하기 위한 프레임워크

플라톤에 의해 재발행

팔로워 : 0

모든 규모와 업계의 고객은 기계 학습(ML)을 제품과 서비스에 접목하여 AWS에서 혁신을 이루고 있습니다. 최근 생성 AI 모델의 개발로 인해 산업 전반에 걸쳐 ML 채택의 필요성이 더욱 가속화되었습니다. 그러나 보안, 데이터 개인정보 보호, 거버넌스 제어 구현은 ML 워크로드를 대규모로 구현할 때 고객이 직면하는 주요 과제입니다. 이러한 과제를 해결하면 위험을 완화하고 ML 기반 제품을 책임감 있게 사용하기 위한 프레임워크와 기반이 구축됩니다. 생성적 AI에는 독성 제거, 탈옥 및 환각 방지와 같은 추가 제어가 필요할 수 있지만 보안 및 거버넌스에 대한 기본 구성 요소는 기존 ML과 동일합니다.

맞춤형 제품을 구축하려면 최대 12개월의 전문 지식과 투자가 필요하다는 고객의 의견을 듣고 있습니다. 아마존 세이지 메이커 LOB(기간 업무) 또는 ML 팀을 위한 확장 가능하고 안정적이며 안전하고 관리되는 ML 환경을 보장하기 위한 ML 플랫폼 구현입니다. ML 수명주기를 대규모로 관리하기 위한 프레임워크가 부족한 경우 팀 수준 리소스 격리, 실험 리소스 확장, ML 워크플로 운영화, 모델 거버넌스 확장, ML 워크로드의 보안 및 규정 준수 관리와 같은 문제에 직면할 수 있습니다.

대규모 ML 수명주기 관리는 업계 모범 사례와 기업 표준을 기반으로 보안 및 거버넌스 제어 기능이 내장된 ML 플랫폼을 구축하는 데 도움이 되는 프레임워크입니다. 이 프레임워크는 모듈식 프레임워크 접근 방식을 통해 규범적 지침을 제공함으로써 문제를 해결합니다. AWS 관제탑 다중 계정 AWS 환경과 게시물에서 논의된 접근 방식 AWS에서 안전하고 잘 관리되는 기계 학습 환경 설정.

다음 ML 플랫폼 기능에 대한 규범적 지침을 제공합니다.

다중 계정, 보안 및 네트워킹 기반 – 이 기능은 AWS Control Tower를 사용하고 잘 구성된 원칙 다중 계정 환경, 보안, 네트워킹 서비스 설정 및 운영을 위한 서비스입니다.
데이터 및 거버넌스 기반 – 이 기능은 데이터 메쉬 아키텍처 세분화된 데이터 액세스를 지원하기 위해 데이터 레이크, 중앙 피처 스토어, 데이터 거버넌스 기반을 설정하고 운영합니다.
ML 플랫폼 공유 및 거버넌스 서비스 – CI/CD 등 공통 서비스를 설정하고 운영할 수 있는 기능입니다. AWS 서비스 카탈로그 프로비저닝 환경을 위한 모델 승격 및 계보를 위한 중앙 모델 레지스트리입니다.
ML 팀 환경 – 이 기능을 사용하면 ML 팀이 보안 및 거버넌스 제어를 내장하기 위한 모델 개발, 테스트 및 사용 사례 배포를 위한 환경을 설정하고 운영할 수 있습니다.
ML 플랫폼 관측 가능성 – 이 기능은 로그 중앙 집중화 및 로그 분석 시각화 도구 제공을 통해 ML 모델 문제의 근본 원인을 해결하고 식별하는 데 도움이 됩니다. 또한 ML 사용 사례에 대한 비용 및 사용 보고서 생성에 대한 지침도 제공합니다.

이 프레임워크는 모든 고객에게 이점을 제공할 수 있지만 조직 전체에서 제어되고 규정을 준수하며 조정된 접근 방식으로 ML 전략을 확장하려는 대규모, 성숙, 규제 또는 글로벌 기업 고객에게 가장 유리합니다. 이는 위험을 완화하면서 ML 채택을 활성화하는 데 도움이 됩니다. 이 프레임워크는 다음 고객에게 유용합니다.

ML 사용에 관심이 있는 LOB 또는 부서가 많은 대기업 고객. 이 프레임워크를 사용하면 여러 팀이 중앙 거버넌스를 제공하면서 ML 모델을 독립적으로 구축하고 배포할 수 있습니다.
ML 성숙도가 보통~높은 기업 고객입니다. 그들은 이미 일부 초기 ML 모델을 배포했으며 ML 노력을 확장하려고 합니다. 이 프레임워크는 조직 전체에서 ML 채택을 가속화하는 데 도움이 될 수 있습니다. 또한 이들 기업은 액세스 제어, 데이터 사용, 모델 성능, 불공정한 편견 등을 관리하기 위한 거버넌스의 필요성을 인식하고 있습니다.
금융 서비스, 의료, 화학, 민간 부문 등 규제 대상 산업에 종사하는 회사. 이러한 회사에는 비즈니스 프로세스에 사용되는 모든 ML 모델에 대한 강력한 거버넌스와 감사가 필요합니다. 이 프레임워크를 채택하면 규정 준수를 촉진하는 동시에 로컬 모델 개발도 허용할 수 있습니다.
중앙 집중식 제어와 로컬 제어의 균형을 유지해야 하는 글로벌 조직. 이 프레임워크의 통합 접근 방식을 통해 중앙 플랫폼 엔지니어링 팀은 일부 높은 수준의 정책과 표준을 설정할 수 있을 뿐만 아니라 LOB 팀이 현지 요구 사항에 따라 적응할 수 있는 유연성을 제공합니다.

이 시리즈의 첫 번째 부분에서는 ML 플랫폼 설정을 위한 참조 아키텍처를 살펴봅니다. 이후 게시물에서는 조직의 참조 아키텍처에 다양한 모듈을 구현하는 방법에 대한 규범적인 지침을 제공할 것입니다.

ML 플랫폼의 기능은 다음 그림과 같이 XNUMX가지 범주로 그룹화됩니다. 이러한 기능은 이 게시물의 뒷부분에서 설명하는 참조 아키텍처의 기초를 형성합니다.

ML 기반 구축
ML 작업 확장
관찰 가능한 ML
보안 ML

솔루션 개요

대규모 프레임워크에 따라 ML 수명주기를 관리하기 위한 프레임워크를 통해 조직은 ML 수명주기 전반에 걸쳐 보안 및 거버넌스 제어를 내장할 수 있으며, 결과적으로 조직은 위험을 줄이고 ML을 제품 및 서비스에 더 빠르게 적용할 수 있습니다. 프레임워크는 점점 더 많은 모델과 프로젝트를 지원하도록 확장할 수 있는 안전하고 확장 가능하며 안정적인 ML 환경의 설정과 거버넌스를 최적화하는 데 도움이 됩니다. 프레임워크는 다음 기능을 활성화합니다.

조직 정책을 준수하는 인프라 리소스를 사용한 계정 및 인프라 프로비저닝
ML 사용 사례를 위한 데이터 과학 환경 및 엔드 투 엔드 ML 작업(MLOps) 템플릿의 셀프 서비스 배포
보안 및 개인 정보 보호 규정 준수를 위한 LOB 수준 또는 팀 수준 리소스 격리
실험 및 프로덕션 준비 워크플로를 위해 프로덕션 등급 데이터에 대한 액세스 관리
코드 리포지토리, 코드 파이프라인, 배포된 모델, 데이터 기능에 대한 관리 및 거버넌스
거버넌스 개선을 위한 모델 레지스트리 및 특성 저장소(로컬 및 중앙 구성 요소)
엔드투엔드 모델 개발 및 배포 프로세스에 대한 보안 및 거버넌스 제어

이 섹션에서는 내장된 보안 및 거버넌스 제어 기능을 통해 AWS에서 ML 플랫폼을 구축하는 데 도움이 되는 규범적 지침에 대한 개요를 제공합니다.

ML 플랫폼과 관련된 기능 아키텍처는 다음 다이어그램에 나와 있습니다. 아키텍처는 ML 플랫폼의 다양한 기능을 AWS 계정에 매핑합니다.

대규모 ML 수명주기 관리, 1부: Amazon SageMaker를 사용하여 ML 워크로드를 설계하기 위한 프레임워크 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

다양한 기능을 갖춘 기능적 아키텍처는 다음을 포함한 다양한 AWS 서비스를 사용하여 구현됩니다. AWS 조직, SageMaker, AWS DevOps 서비스 및 데이터 레이크. 다양한 AWS 서비스가 포함된 ML 플랫폼의 참조 아키텍처가 다음 다이어그램에 나와 있습니다.

이 프레임워크는 대규모 ML 수명 주기를 관리하기 위해 여러 페르소나와 서비스를 고려합니다. 팀과 서비스를 구성하려면 다음 단계를 따르는 것이 좋습니다.

클라우드 관리자는 AWS Control Tower 및 자동화 도구를 사용하여 조직 및 AWS IAM 자격 증명 센터 (AWS Single Sign-On의 후속) 및 다음과 같은 보안 및 거버넌스 서비스 AWS 키 관리 서비스 (AWS KMS) 및 서비스 카탈로그. 또한 관리자는 ML 및 분석 워크플로를 지원하기 위해 다양한 조직 단위(OU)와 초기 계정을 설정합니다.
데이터 레이크 관리자는 데이터 레이크 및 데이터 카탈로그를 설정하고 ML 플랫폼 관리자와 협력하여 중앙 피처 스토어를 설정합니다.
ML 플랫폼 관리자는 다음과 같은 ML 공유 서비스를 프로비저닝합니다. AWS 코드 커밋, AWS 코드 파이프라인, Amazon Elastic Container Registry (Amazon ECR), 중앙 모델 레지스트리, SageMaker 모델 카드, SageMaker 모델 대시보드, ML 팀을 위한 서비스 카탈로그 제품이 있습니다.
ML 팀 리더는 IAM ID 센터를 통해 연합하고 서비스 카탈로그 제품을 사용하며 ML 팀의 개발 환경에 리소스를 프로비저닝합니다.
다양한 사업부의 ML 팀 데이터 과학자가 팀의 개발 환경에 연합하여 모델 파이프라인을 구축합니다.
데이터 과학자는 중앙 기능 스토어 카탈로그에서 기능을 검색 및 가져오고, 실험을 통해 모델을 구축하고, 프로모션에 가장 적합한 모델을 선택합니다.
데이터 과학자는 재사용을 위해 새로운 기능을 만들고 중앙 기능 저장소 카탈로그에 공유합니다.
ML 엔지니어는 공유 서비스 CI/CD 프로세스를 사용하여 모델 파이프라인을 ML 팀 테스트 환경에 배포합니다.
이해관계자 검증 후 ML 모델이 팀의 프로덕션 환경에 배포됩니다.
보안 및 거버넌스 제어는 다음과 같은 서비스를 사용하여 이 아키텍처의 모든 계층에 내장되어 있습니다. AWS 보안 허브, 아마존 가드듀티, 아마존 Macie수록.
보안 제어는 Security Hub를 사용하여 보안 도구 계정에서 중앙 집중식으로 관리됩니다.
SageMaker 모델 카드 및 SageMaker 모델 대시보드와 같은 ML 플랫폼 거버넌스 기능은 거버넌스 서비스 계정에서 중앙 집중식으로 관리됩니다.
아마존 클라우드 워치 및 AWS 클라우드 트레일 각 회원 계정의 로그는 AWS 기본 서비스를 사용하여 관찰 가능성 계정에서 중앙에서 액세스할 수 있습니다.

다음으로, 이 프레임워크에 대한 참조 아키텍처의 모듈을 자세히 살펴보겠습니다.

참조 아키텍처 모듈

참조 아키텍처는 XNUMX개의 모듈로 구성되며 각 모듈은 특정 문제 집합을 해결하도록 설계되었습니다. 종합적으로 이러한 모듈은 인프라, 데이터, 모델, 비용 등 다양한 차원에 걸친 거버넌스를 다룹니다. 각 모듈은 고유한 기능 세트를 제공하고 다른 모듈과 상호 운용되어 보안 및 거버넌스 제어 기능이 내장된 통합 엔드투엔드 ML 플랫폼을 제공합니다. 이 섹션에서는 각 모듈의 기능을 간략하게 요약합니다.

다중 계정 기반

이 모듈은 클라우드 관리자가 AWS Control Tower 랜딩 존 기본 프레임워크로 사용됩니다. 여기에는 다중 계정 구조 구축, IAM ID 센터를 통한 인증 및 권한 부여, 네트워크 허브 앤 스포크 설계, 중앙 집중식 로깅 서비스, 표준화된 보안 및 거버넌스 기준을 갖춘 새로운 AWS 회원 계정이 포함됩니다.

또한 이 모듈에서는 ML 및 분석 워크플로를 지원하는 데 적합한 OU 및 계정 구조에 대한 모범 사례 지침을 제공합니다. 클라우드 관리자는 필요한 계정과 OU의 목적, 배포 방법, ML 및 분석 워크로드를 중앙에서 관리하는 데 사용해야 하는 주요 보안 및 규정 준수 서비스를 이해합니다.

새 계정을 프로비저닝할 때 자동화를 사용하여 새 계정을 기준으로 삼는 프레임워크도 다룹니다. 자동화된 계정 프로비저닝 프로세스를 설정함으로써 클라우드 관리자는 강력한 거버넌스 기반을 희생하지 않고도 ML 및 분석 팀에 작업을 보다 신속하게 수행하는 데 필요한 계정을 제공할 수 있습니다.

데이터 레이크 기초

이 모듈은 데이터 레이크 관리자가 데이터 레이크를 설정하여 데이터를 수집하고, 데이터 세트를 선별하고, AWS Lake 형성 중앙 집중식 데이터 카탈로그, 데이터 액세스 정책 및 태그 기반 액세스 제어를 사용하여 계정과 사용자 전반에 걸쳐 세분화된 데이터 액세스를 관리하기 위한 거버넌스 모델입니다. 개념 증명 또는 몇 가지 소규모 워크로드를 위해 데이터 플랫폼 기반을 위한 하나의 계정으로 소규모로 시작할 수 있습니다. 중대형 규모의 프로덕션 워크로드 구현의 경우 다중 계정 전략을 채택하는 것이 좋습니다. 이러한 설정에서 LOB는 서로 다른 AWS 계정을 사용하여 데이터 생산자와 데이터 소비자의 역할을 맡을 수 있으며, 데이터 레이크 거버넌스는 중앙 공유 AWS 계정에서 운영됩니다. 데이터 생산자는 데이터 자산의 품질을 모니터링하고 보장하는 것 외에도 데이터 도메인에서 데이터를 수집, 처리 및 저장합니다. 데이터 소비자는 중앙 집중식 카탈로그가 Lake Formation을 사용하여 데이터를 공유한 후 데이터 생산자의 데이터를 소비합니다. 중앙 집중식 카탈로그는 데이터 생산자 계정에 대한 공유 데이터 카탈로그를 저장하고 관리합니다.

ML 플랫폼 서비스

이 모듈은 ML 플랫폼 엔지니어링팀이 데이터 과학팀이 팀 계정에서 사용하는 공유 서비스를 설정하는 데 도움이 됩니다. 서비스에는 다음을 위한 제품이 포함된 서비스 카탈로그 포트폴리오가 포함됩니다. SageMaker 도메인 전개, SageMaker 도메인 사용자 프로필 배포, 모델 구축 및 배포를 위한 데이터 과학 모델 템플릿. 이 모듈에는 모델 개발 및 배포 워크플로를 조정하고 자동화하는 데 사용되는 중앙 집중식 모델 레지스트리, 모델 카드, 모델 대시보드 및 CI/CD 파이프라인에 대한 기능이 있습니다.

또한 이 모듈에서는 데이터 과학 팀이 필요한 클라우드 인프라 및 ML 템플릿을 독립적으로 배포할 수 있도록 개인 기반 셀프 서비스 기능을 활성화하는 데 필요한 제어 및 거버넌스를 구현하는 방법을 자세히 설명합니다.

ML 사용 사례 개발

이 모듈은 LOB 및 데이터 과학자가 개발 환경에서 팀의 SageMaker 도메인에 액세스하고 모델 구축 템플릿을 인스턴스화하여 모델을 개발하는 데 도움이 됩니다. 이 모듈에서 데이터 과학자는 템플릿의 개발자 계정 인스턴스에서 작업하여 중앙 집중식 데이터 레이크에서 사용 가능한 데이터와 상호 작용하고, 중앙 기능 저장소의 기능을 재사용 및 공유하고, ML 실험을 생성 및 실행하고, ML 워크플로를 구축 및 테스트합니다. 개발 환경의 개발자 계정 모델 레지스트리에 모델을 등록합니다.

실험 추적, 모델 설명 보고서, 데이터 및 모델 편향 모니터링, 모델 등록과 같은 기능도 템플릿에 구현되어 데이터 과학자가 개발한 모델에 대한 솔루션을 신속하게 조정할 수 있습니다.

ML 작업

이 모듈은 LOB 및 ML 엔지니어가 모델 배포 템플릿의 개발 인스턴스에서 작업하는 데 도움이 됩니다. 후보 모델이 등록 및 승인된 후 CI/CD 파이프라인을 설정하고 팀의 테스트 환경에서 ML 워크플로를 실행합니다. 그러면 플랫폼 공유 서비스 계정에서 실행되는 중앙 모델 레지스트리에 모델이 등록됩니다. 모델이 중앙 모델 레지스트리에서 승인되면 CI/CD 파이프라인이 트리거되어 모델을 팀의 프로덕션 환경에 배포합니다.

중앙 집중식 기능 저장소

첫 번째 모델이 프로덕션에 배포되고 여러 사용 사례가 동일한 데이터에서 생성된 기능을 공유하기 시작한 후에는 사용 사례 간 협업을 보장하고 중복 작업을 줄이기 위해 특성 저장소가 필수적입니다. 이 모듈은 ML 플랫폼 엔지니어링 팀이 중앙 집중식 특성 저장소를 설정하여 ML 사용 사례에서 생성된 ML 기능에 대한 스토리지 및 거버넌스를 제공하고 프로젝트 전반에서 기능을 재사용할 수 있도록 지원합니다.

로깅 및 관찰 가능성

이 모듈은 LOB 및 ML 실무자가 CloudTrail, CloudWatch, VPC 흐름 로그 및 ML 워크로드 로그와 같은 로그 활동의 중앙 집중화를 통해 ML 환경 전반의 ML 워크로드 상태에 대한 가시성을 확보하는 데 도움이 됩니다. 팀은 분석을 위해 로그를 필터링, 쿼리, 시각화할 수 있으며 이는 보안 태세 강화에도 도움이 될 수 있습니다.

비용 및 보고

이 모듈은 다양한 이해관계자(클라우드 관리자, 플랫폼 관리자, 클라우드 비즈니스 사무실)가 보고서 및 대시보드를 생성하여 ML 사용자, ML 팀 및 ML 제품 수준에서 비용을 분류하고 사용자 수, 인스턴스 유형 및 사용량과 같은 사용량을 추적하는 데 도움이 됩니다. 끝점.

고객들은 생성할 계정 수와 해당 계정을 구성하는 방법에 대한 지침을 요청했습니다. 다음 섹션에서는 기업 거버넌스 요구 사항에 따라 필요에 맞게 수정할 수 있는 참조용 계정 구조에 대한 지침을 제공합니다.

이 섹션에서는 계정 구조 구성에 대한 권장 사항에 대해 설명합니다. 우리는 기본 참조 계정 구조를 공유합니다. 그러나 ML 및 데이터 관리자는 클라우드 관리자와 긴밀히 협력하여 조직 제어에 따라 이 계정 구조를 맞춤설정하는 것이 좋습니다.

보안, 인프라, 워크로드 및 배포를 위해 OU별로 계정을 구성하는 것이 좋습니다. 또한 각 OU 내에서 비프로덕션 및 프로덕션 OU별로 구성하세요. 해당 OU에 배포된 계정과 워크로드는 서로 다른 제어 기능을 갖기 때문입니다. 다음으로 해당 OU에 대해 간략하게 설명합니다.

보안 OU

이 OU의 계정은 보안 이벤트 모니터링, 식별, 보호, 감지 및 대응을 위해 조직의 클라우드 관리자 또는 보안 팀에서 관리합니다.

인프라 OU

이 OU의 계정은 엔터프라이즈 수준 인프라 공유 리소스 및 네트워크를 관리하기 위해 조직의 클라우드 관리자 또는 네트워크 팀에서 관리합니다.

인프라 OU에 다음 계정을 갖는 것이 좋습니다.

네트워크 – 다음과 같은 중앙 집중식 네트워킹 인프라를 설정합니다. AWS 전송 게이트웨이
공유 서비스 – 중앙 집중식 AD 서비스 및 VPC 엔드포인트 설정

워크로드 OU

이 OU의 계정은 조직의 플랫폼 팀 관리자가 관리합니다. 각 플랫폼 팀에 대해 서로 다른 제어를 구현해야 하는 경우 해당 목적을 위해 ML 워크로드 OU, 데이터 워크로드 OU 등과 같은 다른 수준의 OU를 중첩할 수 있습니다.

워크로드 OU에 다음 계정을 사용하는 것이 좋습니다.

팀 수준 ML 개발, 테스트, 프로덕션 계정 – 워크로드 격리 요구 사항에 따라 이를 설정합니다.
데이터 레이크 계정 – 데이터 도메인별로 계정을 분할합니다.
중앙 데이터 거버넌스 계정 – 데이터 액세스 정책을 중앙 집중화
중앙 피처 스토어 계정 – 팀 간 공유 기능을 중앙 집중화

배포 OU

이 OU의 계정은 워크로드 배포 및 관찰 가능성을 위해 조직의 플랫폼 팀 관리자가 관리합니다.

ML 플랫폼 팀은 배포를 관리하고 제어하기 위해 이 OU 수준에서 다양한 제어 세트를 설정할 수 있으므로 배포 OU에 다음 계정을 사용하는 것이 좋습니다.

테스트 및 프로덕션을 위한 ML 공유 서비스 계정 – 플랫폼 공유 서비스 CI/CD 및 모델 레지스트리 호스팅
테스트 및 프로덕션에 대한 ML 관측 가능성 계정 – 필요에 따라 CloudWatch 로그, CloudTrail 로그 및 기타 로그를 호스팅합니다.

다음으로, 인프라 리소스 모니터링을 위해 회원 계정에 포함하기 위해 고려해야 할 조직 제어에 대해 간략하게 논의합니다.

AWS 환경 제어

제어는 전체 AWS 환경에 대한 지속적인 거버넌스를 제공하는 상위 수준 규칙입니다. 그것은 평범한 언어로 표현됩니다. 이 프레임워크에서는 AWS Control Tower를 사용하여 리소스를 관리하고 AWS 계정 그룹 전체의 규정 준수를 모니터링하는 데 도움이 되는 다음 제어 기능을 구현합니다.

예방적 통제 – 예방 제어는 정책 위반으로 이어지는 작업을 허용하지 않고 SCP(서비스 제어 정책)를 사용하여 구현되므로 계정이 규정 준수를 유지하도록 보장합니다. 예를 들어, AWS 계정 또는 리전에서 CloudTrail이 삭제되거나 중지되지 않도록 예방 제어를 설정할 수 있습니다.
형사 통제 – 탐지 제어는 정책 위반과 같은 계정 내 리소스의 비준수를 감지하고 대시보드를 통해 경고를 제공하며 다음을 사용하여 구현됩니다. AWS 구성 규칙. 예를 들어, 공개 읽기 액세스가 활성화되어 있는지 여부를 탐지하는 탐지 컨트롤을 생성할 수 있습니다. 아마존 단순 스토리지 서비스 (Amazon S3) 로그 아카이브 공유 계정의 버킷.
사전 통제 – 사전 제어는 리소스가 프로비저닝되기 전에 리소스를 검사하고 리소스가 해당 제어를 준수하고 다음을 사용하여 구현되는지 확인합니다. AWS 클라우드 포메이션 후크. 규정을 준수하지 않는 리소스는 프로비저닝되지 않습니다. 예를 들어 SageMaker 노트북 인스턴스에 대해 직접 인터넷 액세스가 허용되지 않는지 확인하는 사전 제어를 설정할 수 있습니다.

ML 플랫폼 서비스, ML 사용 사례, ML 작업 간의 상호 작용

데이터 과학 책임자(수석 데이터 과학자), 데이터 과학자, ML 엔지니어와 같은 다양한 인물은 ML 플랫폼 서비스, ML 사용 사례 개발, ML 운영의 다양한 단계에 대해 다음 다이어그램에 표시된 대로 모듈 2~6을 운영합니다. 데이터 레이크 기초 및 중앙 기능 저장소와 함께.

다음 표에는 다양한 페르소나에 대한 작업 흐름 활동 및 설정 흐름 단계가 요약되어 있습니다. 페르소나가 작업 흐름의 일부로 ML 활동을 시작하면 서비스는 설정 흐름 단계에 언급된 대로 실행됩니다.

사람	운영 흐름 활동 – 번호	운영 흐름 활동 – 설명	설정 흐름 단계 – 번호	설정 흐름 단계 – 설명
데이터 과학 리드 또는 ML 팀 리드	1	ML 플랫폼 서비스 계정에서 서비스 카탈로그를 사용하고 다음을 배포합니다. ML 인프라 SageMaker 프로젝트 SageMaker 모델 레지스트리	1-A	LOB에 대한 개발, 테스트 및 프로덕션 환경 설정 ML 플랫폼 서비스 계정에서 SageMaker Studio를 설정합니다.
데이터 과학 리드 또는 ML 팀 리드	1		1-B	필수 구성으로 SageMaker Studio 설정
데이터 과학자	2	SageMaker 노트북에서 ML 실험을 수행하고 추적합니다.	2-A	Lake Formation의 데이터를 사용합니다. 중앙 특성 저장소에 특성을 저장합니다.
	3	SageMaker 프로젝트 및 파이프라인을 통해 성공적인 ML 실험을 자동화합니다.	3-A	개발자 계정에서 SageMaker 파이프라인(사전 처리, 교육, 평가)을 시작합니다. 개발자 계정에서 CodePipeline을 사용하여 빌드 CI/CD 프로세스를 시작합니다.
	3	SageMaker 프로젝트 및 파이프라인을 통해 성공적인 ML 실험을 자동화합니다.	3-B	SageMaker 파이프라인이 실행된 후 로컬(개발자) 모델 레지스트리에 모델을 저장합니다.
수석 데이터 과학자 또는 ML 팀 리더	4	로컬(개발자) 모델 레지스트리에서 모델을 승인합니다.	4-A	모델 메타데이터 및 모델 패키지는 로컬(개발자) 모델 레지스트리에서 중앙 모델 레지스트리로 기록됩니다.
	5	중앙 모델 레지스트리에서 모델을 승인합니다.	5-A	테스트 환경에서 SageMaker 엔드포인트를 생성하기 위해 배포 CI/CD 프로세스를 시작합니다.
	5	중앙 모델 레지스트리에서 모델을 승인합니다.	5-B	로컬(개발자) 계정에서 ML 플랫폼 서비스 계정의 ML 거버넌스 모듈(모델 카드, 모델 대시보드)에 모델 정보 및 메타데이터를 씁니다.
ML 엔지니어	6	CI/CD 이후 테스트 환경에서 SageMaker 엔드포인트를 테스트하고 모니터링합니다.	.
	7	프로덕션 환경에서 SageMaker 엔드포인트 배포를 승인합니다.	7-A	프로덕션 환경에서 SageMaker 엔드포인트를 생성하기 위해 배포 CI/CD 프로세스를 시작합니다.
	8	CI/CD 이후 테스트 환경에서 SageMaker 엔드포인트를 테스트하고 모니터링합니다.	.

ML 플랫폼의 다양한 모듈과의 페르소나 및 상호 작용

각 모듈은 모듈을 가장 자주 활용하는 특정 부서 내의 특정 대상 페르소나에 맞춰 기본 액세스 권한을 부여합니다. 그런 다음 가끔씩 모듈을 사용해야 하는 다른 부서에 대한 보조 액세스가 허용됩니다. 모듈은 기능을 최적화하기 위해 특정 직무 역할 또는 페르소나의 요구 사항에 맞게 조정되었습니다.

우리는 다음 팀에 대해 논의합니다.

중앙 클라우드 엔지니어링 – 이 팀은 엔터프라이즈 수준 네트워킹, ID, 권한 및 계정 관리 설정과 같은 일반적인 클라우드 인프라 서비스 설정을 위해 모든 워크로드에 걸쳐 엔터프라이즈 클라우드 수준에서 운영됩니다.
데이터 플랫폼 엔지니어링 – 이 팀은 엔터프라이즈 데이터 레이크, 데이터 수집, 데이터 큐레이션 및 데이터 거버넌스를 관리합니다.
ML 플랫폼 엔지니어링 – 이 팀은 ML 인프라 프로비저닝, 실험 추적, 모델 거버넌스, 배포, 관찰 가능성과 같은 공유 ML 인프라 서비스를 제공하기 위해 LOB 전체의 ML 플랫폼 수준에서 운영됩니다.

다음 표에는 모듈의 대상 페르소나에 따라 각 모듈에 대해 기본 및 보조 액세스 권한이 있는 부서가 자세히 설명되어 있습니다.

모듈 번호	모듈	기본 액세스	보조 액세스	대상 페르소나	계정 수
1	다중 계정 기반	중앙 클라우드 엔지니어링	개별 LOB	클라우드 관리자 클라우드 엔지니어	거의
2	데이터 레이크 기초	중앙 클라우드 또는 데이터 플랫폼 엔지니어링	개별 LOB	데이터 레이크 관리자 데이터 엔지니어	배수
3	ML 플랫폼 서비스	중앙 클라우드 또는 ML 플랫폼 엔지니어링	개별 LOB	ML 플랫폼 관리자 ML 팀 리더 ML 엔지니어 ML 거버넌스 리드	한
4	ML 사용 사례 개발	개별 LOB	중앙 클라우드 또는 ML 플랫폼 엔지니어링	데이터 과학자 데이터 엔지니어 ML 팀 리더 ML 엔지니어	배수
5	ML 작업	중앙 클라우드 또는 ML 엔지니어링	개별 LOB	ML 엔지니어 ML 팀 리더 데이터 과학자	배수
6	중앙 집중식 기능 저장소	중앙 클라우드 또는 데이터 엔지니어링	개별 LOB	데이터 엔지니어 데이터 과학자	한
7	로깅 및 관찰 가능성	중앙 클라우드 엔지니어링	개별 LOB	클라우드 관리자 IT 감사자	한
8	비용 및 보고	개별 LOB	중앙 플랫폼 엔지니어링	LOB 임원 ML 관리자	한

결론

이 게시물에서는 보안 및 거버넌스 제어 기능이 포함된 잘 설계된 ML 워크로드를 구현하는 데 도움이 되는 대규모 ML 수명주기를 관리하기 위한 프레임워크를 소개했습니다. 우리는 이 프레임워크가 데이터 거버넌스, 모델 거버넌스 및 엔터프라이즈 수준 제어를 고려하여 ML 플랫폼을 구축하기 위해 전체적인 접근 방식을 취하는 방법에 대해 논의했습니다. 이 게시물에 소개된 프레임워크와 개념을 실험해보고 피드백을 공유해 보시기 바랍니다.

저자 소개

대규모 ML 수명주기 관리, 1부: Amazon SageMaker를 사용하여 ML 워크로드를 설계하기 위한 프레임워크 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 램 비탈 AWS의 수석 ML 솔루션 아키텍트입니다. 그는 분산, 하이브리드 및 클라우드 애플리케이션을 설계하고 구축한 3년 이상의 경험을 보유하고 있습니다. 그는 기업 고객의 클라우드 채택 및 최적화 여정을 지원하여 비즈니스 성과를 개선할 수 있도록 안전하고 확장 가능하며 안정적인 AI/ML 및 빅 데이터 솔루션을 구축하는 데 열정을 쏟고 있습니다. 여가 시간에는 오토바이를 타고 XNUMX살 된 양 낙서와 함께 산책을 합니다!

대규모 ML 수명주기 관리, 1부: Amazon SageMaker를 사용하여 ML 워크로드를 설계하기 위한 프레임워크 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 소빅 쿠마르 나트 AWS의 AI/ML 솔루션 아키텍트입니다. 그는 금융, 운영, 마케팅, 의료, 공급망 관리 및 IoT 분야에서 종단간 기계 학습 및 비즈니스 분석 솔루션을 설계한 광범위한 경험을 가지고 있습니다. Sovik은 ML 모델 모니터링에 대한 기사를 발표했으며 특허를 보유하고 있습니다. 그는 University of South Florida와 스위스 Fribourg 대학교에서 이중 석사 학위를, Kharagpur에 있는 Indian Institute of Technology에서 학사 학위를 받았습니다. 업무 외에는 여행, 페리 타기, 영화 감상을 즐깁니다.

대규모 ML 수명주기 관리, 1부: Amazon SageMaker를 사용하여 ML 워크로드를 설계하기 위한 프레임워크 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 마이라 라데이라 탱케 AWS의 수석 데이터 전문가입니다. 기술 책임자로서 그녀는 고객이 최신 기술과 혁신적인 솔루션을 통해 비즈니스 가치 달성을 가속화하도록 돕습니다. Maira는 2020년 XNUMX월부터 AWS에서 근무했습니다. 그 전에는 데이터에서 비즈니스 가치를 달성하는 데 중점을 두고 여러 업계에서 데이터 과학자로 일했습니다. 여가 시간에는 Maira는 가족과 함께 따뜻한 곳으로 여행을 떠나 시간을 보내는 것을 즐깁니다.

대규모 ML 수명주기 관리, 1부: Amazon SageMaker를 사용하여 ML 워크로드를 설계하기 위한 프레임워크 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 라이언 렘프카 그는 Amazon Web Services의 수석 솔루션 아키텍트로서 고객이 비즈니스 목표에서 거꾸로 작업하여 AWS에서 솔루션을 개발하도록 돕습니다. 그는 비즈니스 전략, IT 시스템 관리 및 데이터 과학 분야에 깊은 경험을 갖고 있습니다. Ryan은 평생 학습자가 되기 위해 최선을 다하고 있으며, 새로운 것을 배우기 위해 매일 도전하는 것을 즐깁니다.

대규모 ML 수명주기 관리, 1부: Amazon SageMaker를 사용하여 ML 워크로드를 설계하기 위한 프레임워크 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 스리하쉬 아다리 Amazon Web Services(AWS)의 수석 솔루션 설계자로, 고객이 비즈니스 결과에서 거꾸로 작업하여 AWS에서 혁신적인 솔루션을 개발하도록 돕습니다. 수년 동안 그는 산업 분야 전반에 걸쳐 데이터 플랫폼 혁신에 대해 여러 고객을 도왔습니다. 그의 핵심 전문 분야에는 기술 전략, 데이터 분석 및 데이터 과학이 있습니다. 여가 시간에는 스포츠를 하고, TV 프로그램을 폭식하며, 타블라 게임을 즐깁니다.

SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
플라톤ESG. 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
출처: https://aws.amazon.com/blogs/machine-learning/governing-the-ml-lifecycle-at-scale-part-1-a-framework-for-architecting-ml-workloads-using-amazon-sagemaker/

타임 스탬프 : 2023 년 10 월 20 일

타임 스탬프 : 7년 2023월 XNUMX일

플라톤에 의해 재발행

Amazon Lex의 힌트로 발신자 경험 향상

MongoDB 시계열 컬렉션과 Amazon SageMaker Canvas를 통해 통찰력 확보 시간 단축 | 아마존 웹 서비스

NFL의 Next Gen Stats에서 방어 커버리지 체계 식별

Amazon Translate에서 욕설 마스킹 적용

SageMaker Data Wrangler를 사용한 기계 학습을 위한 비용 효율적인 데이터 준비

Amazon SageMaker 자동 모델 튜닝은 이제 하이퍼파라미터 최적화를 위한 세 가지 새로운 완료 기준을 지원합니다.

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정