훈련, 일괄 채점 및 실시간 추론을 위해 조직 전체의 데이터 과학 팀과 공유할 수 있는 기계 학습(ML) 기능을 위한 중앙 저장소를 제공하기 위해 특성 저장소를 설정할 수 있습니다. 데이터 과학 팀은 중앙 저장소에 저장된 기능을 재사용할 수 있으므로 다양한 프로젝트에 대한 기능 파이프라인을 리엔지니어링할 필요가 없고 결과적으로 재작업 및 중복이 제거됩니다.
보안 및 규정 준수 요구 사항을 충족하려면 이러한 공유 ML 기능에 액세스하는 방법을 세부적으로 제어해야 할 수 있습니다. 이러한 요구 사항은 테이블 및 열 수준 액세스 제어를 넘어 개별 행 수준 액세스 제어로 확장되는 경우가 많습니다. 예를 들어, 계정 담당자가 자신의 계정에 대해서만 판매 테이블의 행을 볼 수 있도록 하고 신용 카드 번호와 같은 민감한 데이터의 접두어를 마스킹할 수 있습니다. 특성 저장소 데이터를 보호하고 개인의 역할에 따라 액세스 권한을 부여하려면 세분화된 액세스 제어가 필요합니다. 이는 기능 데이터에 대한 액세스를 감사하고 적절한 수준의 보안이 적용되는지 확인해야 하는 업계의 고객과 이해관계자에게 특히 중요합니다.
이 게시물에서는 다음을 사용하여 오프라인 기능 저장소에 저장된 기능 그룹 및 기능에 대한 세부적인 액세스 제어를 구현하는 방법에 대한 개요를 제공합니다. Amazon SageMaker 기능 스토어 및 AWS Lake 형성. Feature Store를 처음 사용하는 경우 다음을 참고하세요. Amazon SageMaker Feature Store의 주요 기능 이해 이 게시물의 나머지 부분을 살펴보기 전에 추가 배경 지식을 알아보십시오. 온라인 기능 상점의 경우 다음을 사용할 수 있습니다. AWS 자격 증명 및 액세스 관리 (IAM) 기능 그룹에 대한 사용자 액세스를 제한하는 조건이 있는 정책입니다.
솔루션 개요
다음 아키텍처는 Lake Formation을 사용하여 행, 열 또는 셀 수준 액세스를 구현하여 작업 중인 데이터 과학자가 기능 그룹 또는 기능 그룹 내의 기능에 액세스할 수 있도록 제한합니다. 아마존 세이지 메이커 스튜디오. Studio에서 작업하는 사용자에 대한 액세스를 제한하는 데 중점을 두고 있지만 다음과 같은 서비스를 사용하여 오프라인 피처 스토어에 액세스하는 사용자에게도 동일한 접근 방식을 적용할 수 있습니다. 아마존 아테나.
Feature Store는 데이터 과학팀이 팀과 모델 전체에서 ML 기능을 재사용하고, 짧은 지연 시간으로 대규모 모델 예측을 위한 기능을 제공하고, 새 모델을 더 빠르고 효과적으로 교육 및 배포하는 데 도움이 되는 ML 기능 관리를 위해 특별히 구축된 솔루션입니다.
Lake Formation은 데이터 레이크를 구축, 보호 및 관리하고 데이터 레이크의 데이터에 대한 액세스 제어를 제공하는 데 도움이 되는 완전 관리형 서비스입니다. Lake Formation은 다음 보안 수준을 지원합니다.
- 행 수준 권한 – 데이터 규정 준수 및 거버넌스 정책에 따라 특정 행에 대한 액세스를 제한합니다.
- 열 수준 권한 – 데이터 필터를 기반으로 특정 열에 대한 액세스를 제한합니다.
- 셀 수준 권한 – 데이터베이스 테이블의 특정 행과 열에 대한 액세스를 허용하여 행 및 열 수준 컨트롤을 결합합니다.
Lake Formation은 또한 어떤 주체가 어떤 데이터, 언제, 어떤 서비스를 통해 액세스했는지 식별하여 중앙 집중식 감사 및 규정 준수 보고를 제공합니다.
Feature Store와 Lake Formation을 결합하면 기존 오프라인 Feature Store에서 ML 기능에 대한 세부적인 액세스를 구현할 수 있습니다.
이 게시물에서는 Feature Store에서 기능 그룹을 생성하고 기능 탐색 및 프로젝트 모델 생성을 위해 데이터 과학 팀에 액세스를 제공해야 하는 사용 사례에 대한 접근 방식을 제공합니다. 높은 수준에서 Lake Formation 관리자는 Lake Formation에서 권한 모델을 정의 및 생성하고 이를 개별 Studio 사용자 또는 사용자 그룹에 할당합니다.
다음 단계를 안내합니다.
- Lake Formation에 오프라인 기능 저장소를 등록하세요.
- 세분화된 액세스 제어를 위해 Lake Formation 데이터 필터를 만듭니다.
- 기능 그룹(테이블) 및 기능(열) 권한을 부여합니다.
사전 조건
이 솔루션을 구현하려면 IAM에서 Lake Formation 관리자를 생성하고 해당 관리자로 로그인해야 합니다. 지침은 다음을 참조하세요. Data Lake 관리자 생성.
우리는 다음을 사용하여 종합적으로 생성된 고객 목록의 합성 식료품 주문을 사용하여 테스트 데이터를 설정하는 것부터 시작합니다. 위조자 파이썬 라이브러리. 다음 모듈을 따라 직접 시도해 볼 수 있습니다. GitHub의. 각 고객에 대해 노트북은 각 주문에서 제품을 구매하여 1~10개의 주문을 생성합니다. 그런 다음 다음을 사용할 수 있습니다 수첩 특성 저장소의 고객, 제품 및 주문 데이터 세트에 대한 세 가지 특성 그룹을 생성합니다. 기능 그룹을 생성하기 전에 Studio 환경이 AWS 계정에 설정되어 있는지 확인하십시오. 지침은 다음을 참조하세요. Amazon SageMaker 도메인에 온보딩.
목표는 Feature Store를 사용하여 기능을 저장하고 Lake Formation을 사용하여 이러한 기능에 대한 액세스를 제어하는 방법을 설명하는 것입니다. 다음 스크린샷은 orders
Studio 콘솔을 사용하는 기능 그룹.
Feature Store는 아마존 단순 스토리지 서비스 (Amazon S3) 버킷을 계정에 저장하여 오프라인 데이터를 저장합니다. Amazon S3의 오프라인 데이터 스토어에 대해 Athena와 같은 쿼리 엔진을 사용하여 교육 데이터 세트를 추출하거나 기능 데이터를 분석할 수 있으며 단일 쿼리에서 둘 이상의 기능 그룹을 조인할 수 있습니다. Feature Store는 자동으로 AWS 접착제 기능 그룹 생성 중 기능 그룹에 대한 데이터 카탈로그를 사용하면 이 카탈로그를 사용하여 Athena 또는 다음과 같은 오픈 소스 도구를 사용하여 오프라인 저장소의 데이터에 액세스하고 쿼리할 수 있습니다. 프레스토 악장.
Lake Formation에 오프라인 기능 스토어 등록
기존 Feature Store 데이터베이스 및 테이블에 Lake Formation 권한을 사용하려면 다음에서 Super 권한을 취소해야 합니다. IAMAllowedPrincipals
데이터베이스의 그룹 및 Lake Formation의 관련 기능 그룹 테이블.
- 에 로그인 AWS 관리 콘솔 Lake Formation 관리자로서.
- 탐색 창의 데이터 카탈로그선택한다. 데이터베이스.
- 데이터베이스 선택
sagemaker_featurestore
, 이는 오프라인 기능 저장소와 연결된 데이터베이스입니다.
Feature Store는 기능 그룹을 생성할 때 자동으로 AWS Glue 데이터 카탈로그를 구축하므로 오프라인 기능 저장소는 Lake Formation에서 데이터베이스로 표시됩니다.
- 에 행위 메뉴, 선택 편집.
- 에 데이터베이스 편집 페이지에서 Lake Formation 권한을 새로 생성된 기능 그룹에도 적용하고 취소할 필요가 없는 경우
IAMAllowedPrincipals
각 테이블에 대해 선택을 취소합니다. 이 데이터베이스의 새 테이블에 대해 IAM 액세스 제어 만 사용다음을 선택 찜하기. - 에 데이터베이스 페이지에서
sagemaker_featurestore
데이터 베이스. - 에 행위 메뉴, 선택 권한보기.
- 선택
IAMAllowedPrincipals
그룹화하고 선택 취소.
마찬가지로 오프라인 기능 저장소와 연결된 모든 기능 그룹 테이블에 대해 이러한 단계를 수행해야 합니다.
- 탐색 창의 데이터 카탈로그선택한다. 테이블.
- 기능 그룹 이름이 있는 테이블을 선택하세요.
- 에 행위 메뉴, 선택 권한보기.
- 선택
IAMAllowedPrincipals
그룹화하고 선택 취소.
오프라인 Feature Store를 Lake Formation 권한 모델로 전환하려면 오프라인 Feature Store의 Amazon S3 위치에 대한 Lake Formation 권한을 활성화해야 합니다. 이를 위해서는 Amazon S3 위치를 등록해야 합니다.
- 탐색 창의 등록 및 수집선택한다. 데이터 레이크 위치.
- 왼쪽 메뉴에서 위치 등록.
- Amazon S3에서 오프라인 기능 저장소 위치를 선택합니다. Amazon S3 경로.
위치는 S3Uri
기능 그룹의 오프라인 스토어 구성에서 제공되었으며, DescribeFeatureGroup
APIs ResolvedOutputS3Uri
입력란입니다.
Lake Formation은 다음과 통합됩니다. AWS 키 관리 서비스 (AWS KMS); 이 접근 방식은 AWS 관리형 키 또는 고객 관리형 키의 권장 접근 방식으로 암호화된 Amazon S3 위치에서도 작동합니다. 자세한 내용은 다음을 참조하세요. 암호화된 Amazon S3 위치 등록.
세분화된 액세스 제어를 위한 Lake Formation 데이터 필터 생성
다음을 생성하여 행 수준 및 셀 수준 보안을 구현할 수 있습니다. 데이터 필터. 테이블에 대해 SELECT Lake Formation 권한을 부여할 때 데이터 필터를 선택합니다. 이 경우 이 기능을 사용하여 기능 그룹 및 기능 그룹 내의 특정 기능에 대한 액세스를 제한하는 필터 세트를 구현합니다.
다음 그림을 사용하여 데이터 필터가 작동하는 방식을 설명하겠습니다. 그림은 두 가지 기능 그룹을 보여줍니다. customers
및 orders
. 행 수준 데이터 필터가 적용됩니다. customers
기능 그룹으로 인해 다음과 같은 레코드만 생성됩니다. feature1 = ‘12’
반환되고 있습니다. 마찬가지로, 주문 기능 그룹에 대한 액세스는 셀 수준 데이터 필터를 사용하여 다음과 같은 기능 레코드로만 제한됩니다. feature2 = ‘22
'로 설정하고 결과 데이터 세트에서 기능 1을 제외합니다.
새 데이터 필터를 생성하려면 Lake Formation 콘솔의 탐색 창에서 데이터 카탈로그선택한다. 데이터 필터 그런 다음 새 필터 만들기.
선택시 모든 열에 대한 액세스 행 필터 식을 제공하면 행 수준 보안(행 필터링)만 설정됩니다. 이 예에서는 데이터 과학자에 대한 액세스를 다음의 레코드로만 제한하는 필터를 만듭니다. orders
기능의 가치를 기반으로 한 기능 그룹 customer_id ='C7782'
.
특정 열을 포함하거나 제외하고 행 필터 식도 제공하면 셀 수준 보안(셀 필터링)이 설정됩니다. 이 예에서는 데이터 과학자에 대한 액세스를 기능 그룹의 특정 기능으로 제한하는 필터를 만듭니다(제외함). sex
및 is_married
) 및 customers
기능 값을 기반으로 한 기능 그룹(customer_id ='C3126'
).
다음 스크린샷은 생성된 데이터 필터를 보여줍니다.
기능 그룹(테이블) 및 기능(열) 권한 부여
이 섹션에서는 원래 기능 그룹을 생성한 사용자와 연결된 SageMaker 실행 역할에 데이터 필터를 할당하여 Lake Formation에 정의된 세분화된 액세스 제어 및 권한을 SageMaker 사용자에게 부여합니다. SageMaker 실행 역할은 다음의 일부로 생성됩니다. SageMaker Studio 도메인 설정 기본적으로 다음으로 시작합니다. AmazonSageMaker-ExecutionRole-*
. Lake Formation API(GetDataAccess
, StartQueryPlanning
, GetQueryState
, GetWorkUnits
및 GetWorkUnitResults
) 및 AWS Glue API(GetTables
및 GetDatabases
)을 IAM에서 데이터에 액세스할 수 있도록 합니다.
IAM에서 다음 정책을 생성하고 정책 이름을 지정합니다. LakeFormationDataAccess
을 선택하고 이를 SageMaker 실행 역할에 연결합니다. 또한 AmazonAthenaFullAccess
Athena에 액세스하기 위한 정책입니다.
다음으로 SageMaker 실행 역할에 Feature Store 데이터베이스 및 특정 기능 그룹 테이블에 대한 액세스 권한을 부여하고 이전에 생성한 데이터 필터 중 하나를 할당해야 합니다. Lake Formation 내부에서 데이터 권한을 부여하려면 탐색 창의 권한선택한다. 데이터 레이크 권한다음을 선택 부여. 다음 스크린샷은 SageMaker 실행 역할에 대한 행 수준 액세스를 위해 데이터 필터를 사용하여 권한을 부여하는 방법을 보여줍니다.
마찬가지로 SageMaker 실행 역할에 대한 셀 수준 액세스를 위해 생성된 데이터 필터를 사용하여 권한을 부여할 수 있습니다.
Feature Store 액세스 테스트
이 섹션에서는 Studio 노트북을 사용하여 Lake Formation에 설정된 액세스 제어의 유효성을 검사합니다. 이 구현에서는 피처스토어 Python SDK Athena는 Lake Formation에 등록된 오프라인 기능 저장소의 데이터를 쿼리합니다.
먼저 기능 그룹에 대한 Athena 쿼리를 생성하여 행 수준 액세스를 테스트합니다. orders
다음 코드로. 그만큼 table_name
Feature Store에서 자동으로 생성되는 AWS Glue 테이블입니다.
다음 쿼리 문자열을 사용하여 주문의 모든 레코드를 쿼리합니다.
다음이 포함된 레코드만 customer_id = ‘C7782’
Lake Formation에서 생성된 데이터 필터에 따라 반환됩니다.
둘째, 기능 그룹에 대한 Athena 쿼리를 생성하여 셀 수준 액세스를 테스트합니다. customers
다음 코드로. 그만큼 table_name
Feature Store에서 자동으로 생성되는 AWS Glue 테이블입니다.
다음 쿼리 문자열을 사용하여 주문의 모든 레코드를 쿼리합니다.
다음이 포함된 레코드만 customer_id ='C3126'
Lake Formation에서 생성된 데이터 필터에 따라 반환됩니다. 게다가 특징은 sex
및 is_married
보이지 않습니다.
이 접근 방식을 사용하면 오프라인 특성 저장소에 대한 세분화된 권한 액세스 제어를 구현할 수 있습니다. Lake Formation 권한 모델을 사용하면 조직에서의 역할에 따라 개인의 특정 기능 그룹 또는 기능 그룹 내의 특정 기능에 대한 액세스를 제한할 수 있습니다.
전체 코드 예제를 살펴보고 자신의 계정에서 사용해 보려면 다음을 참조하세요. GitHub 레포.
결론
SageMaker Feature Store는 조직이 사업부 및 데이터 과학 팀 전반에 걸쳐 ML 개발을 확장하는 데 도움이 되도록 특별히 구축된 기능 관리 솔루션을 제공합니다. 이 게시물에서는 Lake Formation을 사용하여 오프라인 기능 저장소에 대한 세분화된 액세스 제어를 구현하는 방법을 설명했습니다. 한번 시도해 보시고 의견을 댓글로 남겨주세요.
저자에 관하여
아르노 라우어 AWS 공공 부문 팀의 수석 파트너 솔루션 아키텍트입니다. 그는 파트너와 고객이 AWS 기술을 사용하여 비즈니스 요구 사항을 솔루션으로 변환하는 가장 좋은 방법을 이해할 수 있도록 합니다. 그는 공공 부문, 에너지 및 소비재를 포함한 다양한 산업 분야에서 디지털 혁신 프로젝트를 제공하고 설계하는 데 16년 이상의 경험을 가지고 있습니다. 인공 지능과 기계 학습은 그의 열정 중 일부입니다. Arnaud는 ML 전문 자격증을 포함하여 12개의 AWS 자격증을 보유하고 있습니다.
이안 카타나 AWS의 인공 지능 및 기계 학습 전문가 솔루션 아키텍트입니다. 그는 고객이 AWS 클라우드에서 ML 솔루션을 개발하고 확장하도록 돕습니다. Ioan은 주로 소프트웨어 아키텍처 설계 및 클라우드 엔지니어링 분야에서 20년 이상의 경험을 가지고 있습니다.
스와갓 쿨카르니 AWS의 수석 솔루션 아키텍트이자 AI/ML 애호가입니다. 그는 클라우드 기반 서비스와 기계 학습을 통해 고객의 실제 문제를 해결하는 데 열정을 갖고 있습니다. Swagat은 소매, 여행, 숙박, 의료 등 다양한 영역에서 고객을 위한 여러 디지털 혁신 이니셔티브를 제공하는 데 15년 이상의 경험을 갖고 있습니다. 업무 외에 Swagat는 여행, 독서, 명상을 즐깁니다.
차루 사린 Amazon SageMaker Feature Store의 수석 제품 관리자입니다. AWS에 합류하기 전에는 VMware에서 SaaS 서비스의 성장 및 수익 창출 전략을 주도했습니다. 그녀는 데이터 및 기계 학습 애호가이며 제품 관리, 데이터 엔지니어링 및 고급 분석에 걸쳐 XNUMX년 이상의 경험을 가지고 있습니다. 그녀는 인도 국립 공과 대학에서 정보 기술 학사 학위를, 미시간 대학교 로스 경영대학원에서 MBA를 취득했습니다.
- '
- "
- 100
- 15년
- 20년
- 9
- 소개
- ACCESS
- 계정
- 가로질러
- 동작
- 또한
- 추가
- 관리자
- 많은
- All
- 허용
- 이기는하지만
- 아마존
- 분석
- API
- 응용할 수 있는
- 접근
- 아키텍처
- 인조의
- 인공 지능
- 인공 지능과 기계 학습
- 회계 감사
- AWS
- 배경
- 존재
- BEST
- 경계
- 빌드
- 빌드
- 사업
- 기능
- 가지 경우
- 중앙
- 인증
- 왼쪽 메뉴에서
- 클라우드
- 암호
- 댓글
- compliance
- 구성
- 콘솔에서
- 소비자
- 제어
- 만든
- 생성
- 만들기
- 창조
- 신용
- 크레디트 카드
- 고객
- 데이터
- 데이터 과학
- 데이터 과학자
- 데이터베이스
- 데이터베이스
- 로사리오 염주
- 배달
- 배포
- 디자인
- 개발
- 개발
- 다른
- 디지털
- 디지털 전환
- 도메인
- 도메인
- 효과
- 에너지
- 엔지니어링
- 환경
- 세우다
- 예
- 실행
- 경험
- 탐구
- 탐험
- 특색
- 특징
- 그림
- 필터
- 초점
- 수행원
- 발견
- 추가
- 골
- 상품
- 통치
- 그룹
- 성장
- 건강 관리
- 도움
- 도움이
- 높은
- 보유
- 방법
- How To
- HTTPS
- 식별
- 통합 인증
- 구현
- 이행
- 중대한
- 포함
- 포함
- 인도
- 개인
- 산업
- 정보
- 정보 기술
- 인텔리전스
- IT
- 어울리다
- 키
- 지도
- 배우기
- 레벨
- 도서관
- 기울기
- 위치
- 위치
- 기계
- 기계 학습
- 관리
- 구축
- 관리 솔루션
- 매니저
- 마스크
- 미시간
- ML
- 모델
- 모델
- 배우기
- 여러
- 국가의
- 카테고리
- 수첩
- 숫자
- 오프라인
- 온라인
- 주문
- 명령
- 조직
- 조직
- 자신의
- 파트너
- 파트너
- 열렬한
- 정책
- 정책
- 예측
- 문제
- 프로덕트
- 제품 관리
- 제품
- 프로젝트
- 보호
- 제공
- 제공
- 공개
- 구매 한
- 빨리
- 범위
- 읽기
- 실시간
- 기록
- 회원가입
- 등록된
- 저장소
- 필수
- 의지
- REST
- 소매
- 판매
- 규모
- 학교
- 과학
- 과학자
- 부문
- 안전해야합니다.
- 보안
- 서비스
- 서비스
- 세트
- 설정
- 공유
- 비슷하게
- 단순, 간단, 편리
- 소프트웨어
- 해결책
- 솔루션
- 일부
- 구체적으로
- 스타트
- 시작
- 성명서
- 저장
- 저장
- 상점
- 전략
- 스튜디오
- 지원
- 스위치
- 팀
- 기술
- Technology
- test
- 을 통하여
- 검색을
- 트레이닝
- 변환
- 여행
- 이해
- 대학
- us
- 사용
- 사용자
- 가치
- 눈에 보이는
- VM웨어
- 뭐
- 누구
- 이내
- 작업
- 일하는
- 일
- 년