탐색적 데이터 분석 및 데이터 준비를 위해 Amazon SageMaker Data Wrangler의 교차 계정 Amazon Redshift에서 데이터 가져오기

플라톤에 의해 재발행

팔로워 : 0

데이터 중심 문화로 전환하는 조직은 의사결정에 데이터와 머신러닝(ML)을 활용합니다. 데이터에서 ML 기반 결정을 내리려면 ML 모델을 교육하는 데 사용할 수 있고, 액세스할 수 있고, 정리되어 있고, 올바른 형식의 데이터가 필요합니다. 다중 계정 아키텍처를 사용하는 조직은 데이터 준비 활동을 위해 한 계정에서 데이터를 추출하고 다른 계정에 로드해야 하는 상황을 피하고 싶어합니다. 다양한 계정에서 다양한 추출, 변환 및 로드(ETL) 작업을 수동으로 구축하고 유지 관리하면 복잡성과 비용이 추가되고 데이터를 안전하게 유지하기 위한 거버넌스, 규정 준수 및 보안 모범 사례를 유지하기가 더 어려워집니다.

아마존 레드 시프트 빠르고 완벽하게 관리되는 클라우드 데이터 웨어하우스입니다. Amazon Redshift 교차 계정 데이터 공유 기능은 Amazon Redshift 데이터 웨어하우스에 있는 신선하고 완전하며 일관된 데이터를 다양한 AWS 계정의 이해관계자 수에 관계없이 공유할 수 있는 간단하고 안전한 방법을 제공합니다. Amazon SageMaker 데이터 랭글러 의 능력이다 아마존 세이지 메이커 이를 통해 데이터 과학자와 엔지니어는 시각적 인터페이스를 사용하여 ML 애플리케이션용 데이터를 더 빠르게 준비할 수 있습니다. Data Wrangler를 사용하면 Amazon Redshift 데이터 공유에 연결하여 ML용 데이터를 탐색하고 변환할 수 있습니다.

이 게시물에서는 Amazon Redshift 데이터 공유를 사용하여 교차 계정 통합을 설정하고 Data Wrangler를 사용하여 데이터를 준비하는 방법을 안내합니다.

솔루션 개요

Amazon Redshift 데이터 웨어하우스가 있는 생산자 계정과 SageMaker ML 사용 사례를 위한 소비자 계정이라는 두 개의 AWS 계정으로 시작합니다. 이번 포스팅에서는 뱅킹 데이터세트. 계속하려면 데이터세트를 로컬 머신에 다운로드하세요. 다음은 워크플로에 대한 높은 수준의 개요입니다.

생산자 계정에서 Amazon Redshift RA3 클러스터를 인스턴스화하고 데이터 세트를 로드합니다.
생산자 계정에 Amazon Redshift 데이터 공유를 생성하고 소비자 계정이 데이터에 액세스할 수 있도록 허용합니다.
소비자 계정에서 Amazon Redshift 데이터 공유에 액세스합니다.
일반 계정에서 Data Wrangler를 사용하여 데이터를 분석 및 처리하고 데이터 준비 워크플로를 구축하세요.

유의하십시오 고려 사항 Amazon Redshift 데이터 공유 작업:

여러 AWS 계정 – 최소 XNUMX개의 AWS 계정(생산자 계정과 소비자 계정)이 필요합니다.
클러스터 유형 – RA3 클러스터 유형에서는 데이터 공유가 지원됩니다. Amazon Redshift 클러스터를 인스턴스화할 때 RA3 클러스터 유형을 선택해야 합니다.
암호화 – 데이터 공유가 작동하려면 생산자와 소비자 클러스터가 모두 암호화되어야 하며 동일한 AWS 리전에 있어야 합니다.
지역 – 모든 Amazon Redshift에서 교차 계정 데이터 공유가 가능합니다. RA3 노드 유형 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 아시아 태평양(뭄바이), 아시아 태평양(서울), 아시아 태평양(싱가포르), 아시아 태평양( 시드니), 아시아 태평양(도쿄), 캐나다(중부), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(스톡홀름) 및 남아메리카(상파울루).
가격 정책 – 동일한 리전에 있는 클러스터 간에 계정 간 데이터 공유가 가능합니다. 데이터를 공유하는 데에는 비용이 들지 않습니다. 공유에 참여하는 Amazon Redshift 클러스터에 대한 비용만 지불하면 됩니다.

교차 계정 데이터 공유는 XNUMX단계 프로세스로 이루어집니다. 먼저 생산자 클러스터 관리자가 데이터 공유를 생성하고, 객체를 추가하고, 소비자 계정에 대한 액세스 권한을 부여합니다. 그런 다음 생산자 계정 관리자는 지정된 소비자에 대한 데이터 공유를 승인합니다. Amazon Redshift 콘솔에서 이 작업을 수행할 수 있습니다.

생산자 계정에서 Amazon Redshift 데이터 공유 생성

데이터 공유를 만들려면 다음 단계를 완료하세요.

Amazon Redshift 콘솔에서 Amazon Redshift 클러스터를 생성합니다.
지정 생산 RA3 노드 유형을 선택합니다.
$XNUMX Million 미만 추가 구성, 선택 취소 기본값 사용.
$XNUMX Million 미만 데이터베이스 구성, 클러스터에 대한 암호화를 설정합니다.
클러스터를 생성한 후 직접 마케팅 은행 데이터 세트를 가져옵니다. 다음 URL에서 다운로드할 수 있습니다. https://sagemaker-sample-data-us-west-2.s3-us-west-2.amazonaws.com/autopilot/direct_marketing/bank-additional.zip.
가이드라가 bank-additional-full.csv 에 아마존 단순 스토리지 서비스 (Amazon S3) 버킷에 클러스터가 액세스할 수 있습니다.

Amazon Redshift 쿼리 편집기를 사용하고 다음 SQL 쿼리를 실행하여 데이터를 Amazon Redshift에 복사합니다.

create table bank_additional_full ( age char(40), job char(40), marital char(40), education char(40), default_history varchar(40), housing char(40), loan char(40), contact char(40), month char(40), day_of_week char(40), duration char(40), campaign char(40), pdays char(40), previous char(40), poutcome char(40), emp_var_rate char(40), cons_price_idx char(40), cons_conf_idx char(40), euribor3m char(40), nr_employed char(40), y char(40));
copy bank_additional_full
from <S3 LOCATION OF THE CSV FILE>
credentials <CLUSTER ROLE ARN>
region 'us-east-1'
format csv
IGNOREBLANKLINES
IGNOREHEADER 1

클러스터 세부정보 페이지로 이동한 다음 데이터 공유 탭에서 데이터 공유 생성.
럭셔리 데이터 공유 이름이름을 입력하십시오.
럭셔리 데이터베이스 이름에서 데이터베이스를 선택하세요.
. 데이터 공유 객체 추가 섹션에서 데이터 공유에 포함하려는 데이터베이스의 개체를 선택합니다.
다른 사람과 공유하기로 선택한 항목을 세부적으로 제어할 수 있습니다. 단순화를 위해 모든 테이블을 공유합니다. 실제로는 하나 이상의 테이블, 뷰 또는 사용자 정의 함수를 선택할 수 있습니다.
왼쪽 메뉴에서 추가.
데이터 소비자를 추가하려면 다음을 선택합니다. 데이터 공유에 AWS 계정 추가 보조 AWS 계정 ID를 추가하세요.
왼쪽 메뉴에서 데이터 공유 생성.
방금 생성한 데이터 소비자에게 권한을 부여하려면 다음으로 이동하세요. 데이터 공유 Amazon Redshift 콘솔 페이지에서 새 데이터 공유를 선택합니다.
데이터 소비자를 선택하고 권한 부여.

소비자 상태가 다음과 같이 변경됩니다. Pending authorization 에 Authorized.

소비자 AWS 계정에서 Amazon Redshift 교차 계정 데이터 공유에 액세스

이제 데이터 공유가 설정되었으므로 소비자 AWS 계정으로 전환하여 데이터 공유를 사용하십시오. 소비자 계정에 Amazon Redshift 클러스터가 하나 이상 생성되어 있는지 확인하십시오. 클러스터는 암호화되어야 하며 소스와 동일한 리전에 있어야 합니다.

Amazon Redshift 콘솔에서 다음을 선택합니다. 데이터 공유 탐색 창에서
에 다른 계정에서 탭에서 생성한 데이터 공유를 선택하고 준.
소비자 계정의 현재 및 미래 클러스터가 이 공유에 액세스할 수 있도록 데이터 공유를 이 계정에 있는 하나 이상의 클러스터와 연결하거나 데이터 공유를 전체 계정에 연결할 수 있습니다.
연결 세부정보를 지정하고 선택하세요. 연결하기.
왼쪽 메뉴에서 데이터 공유에서 데이터베이스 생성 새 데이터베이스의 이름을 입력합니다.
데이터 공유를 테스트하려면 쿼리 편집기로 이동하여 새 데이터베이스에 대해 쿼리를 실행하여 모든 개체를 데이터 공유의 일부로 사용할 수 있는지 확인하세요.

Data Wrangler로 데이터 분석 및 처리

이제 Data Wrangler를 사용하여 Amazon Redshift에서 데이터 공유로 생성된 교차 계정 데이터에 액세스할 수 있습니다.

엽니다 아마존 세이지 메이커 스튜디오.
에 입양 부모로서의 귀하의 적합성을 결정하기 위해 미국 이민국에 메뉴, 선택 신제품 와 데이터 랭글러 흐름.
에 수입 탭에서 데이터 소스 추가 와 아마존 레드 시프트.
데이터 공유에 대한 소비자 계정에서 방금 생성한 Amazon Redshift 클러스터의 연결 세부 정보를 입력합니다.
왼쪽 메뉴에서 연결하기.
사용 AWS 자격 증명 및 액세스 관리 (IAM) Amazon Redshift 클러스터에 사용한 역할입니다.

데이터 공유가 Amazon Redshift 클러스터의 새 데이터베이스이더라도 Data Wrangler에서 직접 연결할 수는 없습니다.

올바른 방법은 먼저 기본 클러스터 데이터베이스에 연결한 다음 SQL을 사용하여 데이터 공유 데이터베이스를 쿼리하는 것입니다. 기본 클러스터 데이터베이스에 연결하는 데 필요한 정보를 제공합니다. 참고 AWS 키 관리 서비스 (AWS KMS) 연결에는 키 ID가 필요하지 않습니다.

이제 Data Wrangler가 Amazon Redshift 인스턴스에 연결되었습니다.

SQL 편집기를 사용하여 Amazon Redshift 데이터 공유 데이터베이스의 데이터를 쿼리합니다.
왼쪽 메뉴에서 수입 데이터 세트를 Data Wrangler로 가져옵니다.
데이터세트의 이름을 입력하고 선택합니다. 추가.

이제 흐름을 볼 수 있습니다. 데이터 흐름 데이터 랭글러 탭.

Data Wrangler에 데이터를 로드한 후 탐색적 데이터 분석을 수행하고 ML용 데이터를 준비할 수 있습니다.

더하기 기호를 선택하고 분석 추가.

Data Wrangler는 내장된 분석을 제공합니다. 여기에는 데이터 품질 및 통찰력 보고서, 데이터 상관 관계, 사전 학습 편향 보고서, 데이터 세트 요약, 시각화(예: 히스토그램 및 산점도)가 포함되지만 이에 국한되지는 않습니다. 자신만의 사용자 정의 시각화를 만들 수도 있습니다.

데이터 품질 및 통찰력 보고서를 사용하면 시각화 및 분석을 자동으로 생성하여 데이터 품질 문제를 식별하고 데이터 세트에 필요한 올바른 변환을 권장할 수 있습니다.

왼쪽 메뉴에서 데이터 품질 및 통찰력 보고서을 선택하고 대상 열 as y.
이것은 분류 문제 진술이기 때문에, 문제 유형, 고르다 분류.
왼쪽 메뉴에서 만들기.

Data Wrangler는 데이터 세트에 대한 자세한 보고서를 생성합니다. 보고서를 로컬 시스템에 다운로드할 수도 있습니다.

데이터 준비를 위해 더하기 기호를 선택하고 분석 추가.
왼쪽 메뉴에서 단계 추가 변환 구축을 시작합니다.

이 글을 쓰는 시점에서 Data Wrangler는 300개 이상의 기본 제공 변환을 제공합니다. Pandas 또는 PySpark를 사용하여 고유한 변환을 작성할 수도 있습니다.

이제 비즈니스 요구 사항에 따라 변환 및 분석 구축을 시작할 수 있습니다.

결론

이 게시물에서는 데이터를 수동으로 다운로드하고 업로드할 필요 없이 Amazon Redshift 데이터 공유를 사용하여 계정 간에 데이터를 공유하는 방법을 살펴보았습니다. Data Wrangler를 사용하여 공유 데이터에 액세스하고 ML 사용 사례에 맞게 데이터를 준비하는 방법을 살펴보았습니다. Amazon Redshift 데이터 공유 및 Data Wrangler의 노코드/로우코드 기능은 교육 데이터 준비를 가속화하고 더 빠른 반복 데이터 준비를 통해 데이터 엔지니어와 데이터 과학자의 민첩성을 높입니다.

Amazon Redshift 및 SageMaker에 대한 자세한 내용은 다음을 참조하십시오. Amazon Redshift 데이터베이스 개발자 안내서 와 Amazon SageMaker 설명서.

저자에 관하여

탐색적 데이터 분석 및 데이터 준비 PlatoBlockchain Data Intelligence를 위해 Amazon SageMaker Data Wrangler의 교차 계정 Amazon Redshift에서 데이터를 가져옵니다. 수직 검색. 일체 포함. 미낙시순다람 탄다바라얀 AWS의 수석 AI/ML 전문가입니다. 그는 AI 및 ML 여정에서 하이테크 전략 계정을 돕습니다. 그는 데이터 기반 AI에 대해 매우 열정적입니다.

제임스 우 AWS의 수석 AI/ML 전문가 솔루션 아키텍트입니다. 고객이 AI/ML 솔루션을 설계하고 구축할 수 있도록 지원합니다. James의 작업은 컴퓨터 비전, 딥 러닝, 기업 전반에 걸친 ML 확장에 대한 주요 관심과 함께 광범위한 ML 사용 사례를 다룹니다. AWS에 합류하기 전에 James는 엔지니어링 분야에서 10년, 마케팅 및 광고 산업 분야에서 6년을 포함하여 4년 넘게 건축가, 개발자 및 기술 리더였습니다.

타임 스탬프 : ２０２３년 ６월 ２８일

타임 스탬프 : 12월 1, 2022

플라톤에 의해 재발행

매개변수화된 데이터 세트 및 예약된 작업을 통해 Amazon SageMaker Data Wrangler 워크로드를 더 잘 제어할 수 있습니다.

IMDb 지식 그래프를 활용한 파워 추천 및 검색 - 1부

Amazon SageMaker의 합성 데이터를 사용하여 사기 거래 강화

Amazon SageMaker로 기계 학습 모델의 거버넌스 개선

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정