Amazon SageMaker Data Wrangler에서 Amazon Athena 데이터 원본에 대한 사용자 지정 Amazon S3 쿼리 출력 위치 및 데이터 보존 정책 구성

플라톤에 의해 재발행

팔로워 : 0

Amazon SageMaker 데이터 랭글러 머신 러닝(ML)을 위해 데이터를 집계하고 준비하는 데 걸리는 시간을 몇 주에서 몇 분으로 단축 아마존 세이지 메이커 스튜디오, ML을 위한 최초의 완전 통합 개발 환경(IDE)입니다. Data Wrangler를 사용하면 단일 시각적 인터페이스에서 데이터 준비 및 기능 엔지니어링 프로세스를 단순화하고 데이터 선택, 정리, 탐색 및 시각화를 포함한 데이터 준비 워크플로의 각 단계를 완료할 수 있습니다. 다음과 같은 여러 데이터 소스에서 데이터를 가져올 수 있습니다. 아마존 단순 스토리지 서비스 (아마존 S3), 아마존 레드 시프트, 눈송이및 26개의 연합 쿼리 데이터 소스 ~에 의해 지원되는 아마존 아테나.

오늘부터 Athena 데이터 원본에서 데이터를 가져올 때 Data Wrangler에서 데이터를 가져오도록 S3 쿼리 출력 위치 및 데이터 보존 기간을 구성하여 Athena가 중간 데이터를 저장하는 위치와 기간을 제어할 수 있습니다. 이 게시물에서는 이 새로운 기능을 안내합니다.

솔루션 개요

Athena는 쉽게 검색할 수 있는 대화형 쿼리 서비스입니다. AWS 접착제 데이터 카탈로그를 작성하고 표준 SQL을 사용하여 Amazon S3 및 26개의 연합 쿼리 데이터 소스의 데이터를 분석합니다. Athena를 사용하여 데이터를 가져올 때 Athena 쿼리 출력에 대해 Data Wrangler의 기본 S3 위치를 사용하거나 Athena 작업 그룹을 지정하여 사용자 지정 S3 위치를 적용할 수 있습니다. 이전에는 정리 워크플로를 구현하여 이 중간 데이터를 제거하거나 S3 수명 주기 구성을 수동으로 설정하여 스토리지 비용을 제어하고 조직의 데이터 보안 요구 사항을 충족해야 했습니다. 이것은 큰 운영 오버헤드이며 확장할 수 없습니다.

Data Wrangler는 이제 Athena 쿼리 출력에 대한 사용자 지정 S3 위치 및 데이터 보존 기간을 지원합니다. 이 새로운 기능을 사용하면 Athena 쿼리 출력 위치를 사용자 지정 S3 버킷으로 변경할 수 있습니다. 이제 Athena 쿼리 출력에 대한 기본 데이터 보존 정책이 5일이며 조직의 데이터 보안 요구 사항을 충족하도록 변경할 수 있습니다. 보존 기간에 따라 S3 버킷의 Athena 쿼리 출력이 자동으로 정리됩니다. 데이터를 가져온 후 이 데이터 세트에 대한 탐색적 데이터 분석을 수행하고 깨끗한 데이터를 다시 Amazon S3에 저장할 수 있습니다.

다음 다이어그램은이 아키텍처를 보여줍니다.

사용 사례의 경우 샘플 은행 데이터 세트를 사용하여 솔루션을 살펴봅니다. 워크플로는 다음 단계로 구성됩니다.

를 다운로드 샘플 데이터 세트 S3 버킷에 업로드합니다.
AWS Glue 설정 러 스키마를 크롤링하고 메타데이터 스키마를 AWS Glue 데이터 카탈로그에 저장합니다.
Athena를 사용하여 Data Catalog에 액세스하여 S3 버킷에서 데이터를 쿼리합니다.
Athena에 연결할 새 Data Wrangler 흐름을 만듭니다.
연결을 생성할 때 데이터 세트에 대한 보존 TTL을 설정합니다.
워크플로에서 이 연결을 사용하고 깨끗한 데이터를 다른 S3 버킷에 저장합니다.

단순화를 위해 Athena 환경을 이미 설정했다고 가정합니다(1~3단계). 이 게시물에서 후속 단계에 대해 자세히 설명합니다.

사전 조건

Athena 환경을 설정하려면 다음을 참조하십시오. 사용자 가이드 단계별 지침을 보려면 이전 섹션에 설명된 대로 1-3단계를 완료하십시오.

Athena에서 Data Wrangler로 데이터 가져오기

데이터를 가져오려면 다음 단계를 완료하십시오.

Studio 콘솔에서 제품 자료 탐색 창의 아이콘입니다.
왼쪽 메뉴에서 데이터 랭글러 드롭 다운 메뉴에서
왼쪽 메뉴에서 새로운 흐름.
에 수입 탭에서 아마존 아테나.

Athena에 연결하고 데이터베이스에서 가져올 SQL 쿼리를 작성할 수 있는 세부 정보 페이지가 열립니다.
연결 이름을 입력합니다.
펼치기 고급 구성.
Athena에 연결할 때 Data Wrangler는 Amazon S3를 사용하여 쿼리된 데이터를 스테이징합니다. 기본적으로 이 데이터는 S3 위치에 준비됩니다. s3://sagemaker-{region}-{account_id}/athena/ 보관 기간은 5일입니다.
럭셔리 쿼리 결과의 Amazon S3 위치, S3 위치를 입력합니다.
선택 데이터 보유 기간 그리고 데이터 보관 기간을 설정합니다(이 게시물의 경우 1일).
이 옵션을 선택 취소하면 데이터가 무기한 유지됩니다.백그라운드에서 Data Wrangler는 S3 수명 주기 구성 정책을 해당 S3 위치에 연결하여 자동으로 정리합니다. 다음 예시 정책을 참조하세요.
```
 "Rules": [
        {
            "Expiration": {
                "Days": 1
            },
            "ID": "sm-data-wrangler-retention-policy-xxxxxxx",
            "Filter": {
                "Prefix": "athena/test"
            },
            "Status": "Enabled"
        }
    ]
```
당신이 필요합니다 s3:GetLifecycleConfiguration 및 s3:PutLifecycleConfiguration 수명 주기 구성 정책을 올바르게 적용하려면 SageMaker 실행 역할이 필요합니다. 이러한 권한이 없으면 데이터를 가져오려고 할 때 오류 메시지가 표시됩니다.

다음 오류 메시지는 누락된 예입니다. GetLifecycleConfiguration 허가.

다음 오류 메시지는 누락된 예입니다. PutLifecycleConfiguration 허가.
선택적으로 작업 그룹, Athena 작업 그룹을 지정할 수 있습니다.
Athena 작업 그룹은 사용자, 팀, 애플리케이션 또는 워크로드를 각각 고유한 권한 및 구성 설정을 가진 그룹으로 격리합니다. 작업 그룹을 지정하면 Data Wrangler는 Athena에 정의된 작업 그룹 설정을 상속합니다. 예를 들어 작업 그룹에 쿼리 결과를 저장하도록 정의된 S3 위치가 있고 이를 활성화하는 경우 클라이언트 측 재정의 설정에서는 S3 쿼리 결과 위치를 편집할 수 없습니다.기본적으로 Data Wrangler는 Athena 연결도 저장합니다. 이것은 새로운 Athena 타일로 표시됩니다. 수입 탭. 언제든지 해당 연결을 다시 열어 쿼리하고 다른 데이터를 Data Wrangler로 가져올 수 있습니다.
선택 취소 연결 저장 연결을 저장하지 않으려면.
Athena 연결을 구성하려면 다음을 선택합니다. 없음 for 샘플링 전체 데이터 세트를 가져옵니다.

대규모 데이터 세트의 경우 Data Wrangler를 사용하면 데이터의 하위 집합을 가져와서 변환 워크플로를 구축하고 준비가 되었을 때만 전체 데이터 세트를 처리할 수 있습니다. 이는 반복 주기를 가속화하고 처리 시간과 비용을 절약합니다. 사용 가능한 다양한 데이터 샘플링 옵션에 대해 자세히 알아보려면 다음을 방문하세요. Amazon SageMaker Data Wrangler는 이제 무작위 샘플링 및 계층화된 샘플링을 지원합니다..
럭셔리 데이터 카탈로그¸ 선택 AwsData카탈로그.
럭셔리 데이터베이스, 데이터베이스를 선택하십시오.

Data Wrangler는 사용 가능한 테이블을 표시합니다. 각 테이블을 선택하여 스키마를 확인하고 데이터를 미리 볼 수 있습니다.
쿼리 필드에 다음 코드를 입력합니다.
```
Select *
From bank_additional_full
```
왼쪽 메뉴에서 달리기 데이터를 미리 봅니다.
모든 것이 좋아 보이면 선택하십시오. 수입.
데이터 세트 이름을 입력하고 추가 데이터를 Data Wrangler 작업 공간으로 가져옵니다.

Data Wrangler로 데이터 분석 및 처리

데이터를 Data Wrangler에 로드한 후 탐색적 데이터 분석(EDA)을 수행하고 기계 학습을 위한 데이터를 준비할 수 있습니다.

옆에 있는 더하기 기호를 선택합니다. bank-data 데이터 흐름에서 데이터세트를 선택하고 분석 추가.
Data Wrangler는 데이터 품질 및 통찰력 보고서, 데이터 상관 관계, 사전 훈련 편향 보고서, 데이터 세트 요약 및 시각화(히스토그램 및 산점도 등)를 포함한 내장 분석을 제공합니다. 또한 고유한 사용자 지정 시각화를 만들 수 있습니다.
럭셔리 분석 유형¸ 선택 데이터 품질 및 통찰력 보고서.
이렇게 하면 데이터 품질 문제를 식별하기 위한 시각화, 분석 및 데이터 세트에 필요한 올바른 변환에 대한 권장 사항이 자동으로 생성됩니다.
럭셔리 대상 열선택한다. Y.
이것은 분류 문제 진술이기 때문에, 문제 유형, 고르다 분류.
왼쪽 메뉴에서 만들기.

Data Wrangler는 데이터 세트에 대한 자세한 보고서를 생성합니다. 보고서를 로컬 시스템에 다운로드할 수도 있습니다.
데이터 준비를 위해 데이터 흐름의 은행 데이터 데이터 세트 옆에 있는 더하기 기호를 선택하고 다음을 선택합니다. 변형 추가.
왼쪽 메뉴에서 단계 추가 변환 구축을 시작합니다.

이 글을 쓰는 시점에서 Data Wrangler는 300개 이상의 기본 제공 변환을 제공합니다. Pandas 또는 PySpark를 사용하여 고유한 변환을 작성할 수도 있습니다.

이제 비즈니스 요구 사항에 따라 변환 및 분석 구축을 시작할 수 있습니다.

정리

지속적인 비용을 방지하려면 완료되면 아래 단계를 사용하여 Data Wrangler 리소스를 삭제하십시오.

실행 중인 인스턴스 및 커널 아이콘을 선택합니다.
RUNNING APPS(실행 중인 앱)에서 옆에 있는 종료 아이콘을 클릭합니다. sagemaker-data-wrangler-1.0 app.
모두 종료를 선택하여 확인합니다.

결론

이 게시물에서는 Athena에서 Data Wrangler로 데이터를 가져오기 위해 S3 위치를 사용자 지정하고 S3 수명 주기 구성을 활성화하는 방법에 대한 개요를 제공했습니다. 이 기능을 사용하면 안전한 S3 위치에 중간 데이터를 저장할 수 있고, 데이터에 대한 무단 액세스의 위험을 줄이기 위해 보존 기간 후에 데이터 복사본을 자동으로 제거할 수 있습니다. 이 새로운 기능을 사용해 보시기 바랍니다. 행복한 건물!

Athena 및 SageMaker에 대해 자세히 알아보려면 다음을 방문하십시오. Athena 사용자 가이드 및 Amazon SageMaker 설명서.

저자 소개

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence에서 Amazon Athena 데이터 소스에 대한 사용자 지정 Amazon S3 쿼리 출력 위치 및 데이터 보존 정책을 구성합니다. 수직 검색. 일체 포함. 미낙시순다람 탄다바라얀 AWS의 수석 AI/ML 전문가입니다. 그는 AI 및 ML 여정에서 하이테크 전략 계정을 돕습니다. 그는 데이터 기반 AI에 대해 매우 열정적입니다.

하리쉬 라자고팔란 Amazon Web Services의 수석 솔루션 아키텍트입니다. Harish는 기업 고객과 협력하여 클라우드 여정을 지원합니다.

제임스 우 AWS의 수석 AI/ML 전문가 솔루션 아키텍트입니다. 고객이 AI/ML 솔루션을 설계하고 구축할 수 있도록 지원합니다. James의 작업은 컴퓨터 비전, 딥 러닝, 기업 전반에 걸친 ML 확장에 대한 주요 관심과 함께 광범위한 ML 사용 사례를 다룹니다. AWS에 합류하기 전에 James는 엔지니어링 분야에서 10년, 마케팅 및 광고 산업 분야에서 6년을 포함하여 4년 넘게 건축가, 개발자 및 기술 리더였습니다.