Amazon SageMaker Data Wrangler를 사용하여 기계 학습을 위해 Databrick에서 데이터 준비

플라톤에 의해 재발행

팔로워 : 0

데이터 과학 및 데이터 엔지니어링 팀은 데이터 선택, 정리 및 변환 단계를 수행하는 기계 학습(ML) 수명 주기의 데이터 준비 단계에서 상당한 시간을 소비합니다. 이는 의미 있는 통찰력과 예측을 생성하기 위해 모든 ML 워크플로에서 필요하고 중요한 단계입니다. 왜냐하면 불량하거나 품질이 낮은 데이터는 파생된 통찰력의 관련성을 크게 감소시키기 때문입니다.

데이터 엔지니어링 팀은 전통적으로 다운스트림 소비를 위한 원시 데이터의 수집, 통합 및 변환을 담당합니다. 데이터 과학자는 자연어 및 시계열과 같은 도메인별 ML 사용 사례에 대한 데이터에 대한 추가 처리를 수행해야 하는 경우가 많습니다. 예를 들어 특정 ML 알고리즘은 누락된 값, 희소 특성 또는 이상값에 민감할 수 있으며 특별한 고려가 필요할 수 있습니다. 데이터 세트의 모양이 양호한 경우에도 데이터 과학자는 모델에서 얻은 통찰력을 극대화하기 위해 특성 분포를 변환하거나 새로운 특성을 생성할 수 있습니다. 이러한 목표를 달성하기 위해 데이터 과학자는 데이터 엔지니어링 팀에 의존하여 요청된 변경 사항을 수용해야 하므로 모델 개발 프로세스가 종속되고 지연됩니다. 또는 데이터 과학 팀은 다양한 프로그래밍 패러다임을 사용하여 내부적으로 데이터 준비 및 기능 엔지니어링을 수행하도록 선택할 수 있습니다. 그러나 라이브러리와 프레임워크를 설치하고 구성하는 데 시간과 노력을 투자해야 하며, 모델 성능을 최적화하는 데 시간을 더 잘 투자할 수 있기 때문에 이상적이지 않습니다.

Amazon SageMaker 데이터 랭글러 데이터 과학자가 데이터 세트를 선택, 정리 및 탐색할 수 있는 단일 시각적 인터페이스를 제공함으로써 데이터 준비 및 기능 엔지니어링 프로세스를 단순화하고 ML용 데이터를 집계하고 준비하는 데 걸리는 시간을 몇 주에서 몇 분으로 단축합니다. Data Wrangler는 코드를 작성하지 않고도 기능을 정규화, 변환 및 결합하는 데 도움이 되는 300개 이상의 기본 제공 데이터 변환을 제공합니다. 다음과 같은 여러 데이터 소스에서 데이터를 가져올 수 있습니다. 아마존 단순 스토리지 서비스(Amazon S3), 아마존 아테나, 아마존 레드 시프트및 눈송이. 이제 다음도 사용할 수 있습니다. 데이터 브릭 Data Wrangler의 데이터 원본으로 사용하여 ML용 데이터를 쉽게 준비할 수 있습니다.

Databricks Lakehouse 플랫폼은 데이터 레이크와 데이터 웨어하우스의 최고의 요소를 결합하여 데이터 레이크의 개방성, 유연성 및 기계 학습 지원과 함께 데이터 웨어하우스의 신뢰성, 강력한 거버넌스 및 성능을 제공합니다. Databricks를 Data Wrangler용 데이터 소스로 사용하면 이제 빠르고 쉽게 Databricks에 연결하고, SQL을 사용하여 Databricks에 저장된 데이터를 대화형으로 쿼리하고, 가져오기 전에 데이터를 미리 볼 수 있습니다. 또한 Databricks의 데이터를 Amazon S3에 저장된 데이터 및 Amazon Athena, Amazon Redshift 및 Snowflake를 통해 쿼리된 데이터와 결합하여 ML 사용 사례에 적합한 데이터 세트를 생성할 수 있습니다.

이 게시물에서는 ML 모델 교육에 사용하기 위해 Amazon SageMaker Data Wrangler를 사용하여 Lending Club Loan 데이터 세트를 변환합니다.

솔루션 개요

다음 다이어그램은 솔루션 아키텍처를 보여줍니다.

Lending Club Loan 데이터 세트에는 현재 대출 상태 및 최신 지불 정보를 포함하여 2007~2011년까지 발행된 모든 대출에 대한 전체 대출 데이터가 포함되어 있습니다. 여기에는 39,717개의 행, 22개의 특성 열, 3개의 대상 레이블이 있습니다.

Data Wrangler를 사용하여 데이터를 변환하려면 다음과 같은 상위 수준 단계를 완료합니다.

데이터 세트를 다운로드하고 분할합니다.
데이터 랭글러 흐름을 만듭니다.
Databricks에서 Data Wrangler로 데이터를 가져옵니다.
Amazon S3에서 Data Wrangler로 데이터를 가져옵니다.
데이터를 결합하세요.
변환을 적용합니다.
데이터세트를 내보냅니다.

사전 조건

게시물에서는 실행 중인 Databricks 클러스터가 있다고 가정합니다. 클러스터가 AWS에서 실행 중인 경우 다음이 구성되어 있는지 확인하십시오.

Databricks 설정

An 인스턴스 프로필 S3 버킷에 액세스하는 데 필요한 권한이 있는 경우
A 버킷 정책 대상 S3 버킷에 필요한 권한이 있는 경우

팔로우 인스턴스 프로필을 사용하여 S3 버킷에 대한 보안 액세스 필수 AWS 자격 증명 및 액세스 관리 (IAM) 역할, S3 버킷 정책 및 Databricks 클러스터 구성. Databricks 클러스터가 적절한 구성으로 구성되어 있는지 확인하세요. Instance Profile을(를) 선택하면 원하는 S3 버킷에 액세스할 수 있습니다.

Databricks 클러스터가 Amazon S3에 대한 필수 액세스 권한으로 실행되고 나면 다음을 가져올 수 있습니다. JDBC URL Data Wrangler가 연결하는 데 사용할 Databricks 클러스터에서.

JDBC URL 가져오기

JDBC URL을 가져오려면 다음 단계를 완료하세요.

Databricks에서 클러스터 UI로 이동합니다.
클러스터를 선택하십시오.
에 구성 탭에서 고급 옵션.
$XNUMX Million 미만 고급 옵션을 선택하십시오 JDBC/ODBC 탭.
JDBC URL을 복사합니다.

개인 액세스를 대체하세요. 토큰 URL에서.

데이터 랭글러 설정

이 단계에서는 사용자가 Amazon SageMaker 인스턴스인 Amazon SageMaker에 액세스할 수 있다고 가정합니다. 아마존 세이지 메이커 스튜디오및 Studio 사용자입니다.

Data Wrangler에서 Databricks JDBC 연결에 대한 액세스를 허용하려면 Studio 사용자에게 다음 권한이 필요합니다.

secretsmanager:PutResourcePolicy

IAM 관리 사용자로서 위의 권한이 있는 Studio 사용자에게 할당된 IAM 실행 역할을 업데이트하려면 아래 단계를 따르세요.

IAM 콘솔에서 역할 탐색 창에서
Studio 사용자에게 할당된 역할을 선택하세요.
왼쪽 메뉴에서 권한 추가.
왼쪽 메뉴에서 인라인 정책 만들기.
서비스의 경우 다음을 선택하세요. 비밀 관리자.
On 행위선택한다. 액세스 수준.
왼쪽 메뉴에서 권한 관리.
왼쪽 메뉴에서 PutResource정책.
럭셔리 제품 자료선택한다. 특정 선택 이 계정의 모든.

데이터 세트 다운로드 및 분할

당신은 시작할 수 있습니다 데이터 세트 다운로드. 시연을 위해 특성 열을 복사하여 데이터 세트를 분할합니다. id, emp_title, emp_length, home_owner및 annual_inc 두 번째를 만들려고 대출_2.csv 파일. 원본 대출 파일에서 앞서 언급한 열을 제거합니다. id 열을 삭제하고 원본 파일의 이름을 다음으로 바꿉니다. 대출_1.csv. 업로드 대출_1.csv 에 파일을 데이터 브릭 테이블을 만들려면 loans_1 및 대출_2.csv S3 버킷에 있습니다.

데이터 랭글러 흐름 만들기

Data Wrangler 전제조건에 대한 자세한 내용은 다음을 참조하세요. 데이터 랭글러 시작하기.

새 데이터 흐름을 만들어 시작해 보겠습니다.

Studio 콘솔에서 입양 부모로서의 귀하의 적합성을 결정하기 위해 미국 이민국에 메뉴, 선택 신제품.
왼쪽 메뉴에서 데이터 랭글러 흐름.
원하는 대로 흐름의 이름을 바꿉니다.

또는 Launcher에서 새 데이터 흐름을 생성할 수 있습니다.

Studio 콘솔에서 다음을 선택합니다. 아마존 세이지 메이커 스튜디오 탐색 창에서
왼쪽 메뉴에서 새로운 데이터 흐름.

새 흐름을 만드는 데 몇 분 정도 걸릴 수 있습니다. 흐름이 생성되면 데이터 가져 오기 페이지.

Databricks에서 Data Wrangler로 데이터 가져오기

다음으로 Data Wrangler의 데이터 소스로 Databricks(JDBC)를 설정합니다. Databricks에서 데이터를 가져오려면 먼저 Databricks를 데이터 원본으로 추가해야 합니다.

에 데이터 가져 오기 Data Wrangler 흐름의 탭에서 다음을 선택하세요. 데이터 소스 추가.
드롭 다운 메뉴에서 데이터브릭스(JDBC).

에 Databricks에서 데이터 가져오기 페이지에서 클러스터 세부정보를 입력합니다.

럭셔리 데이터 세트 이름에서 흐름 파일에 사용하려는 이름을 입력합니다.
럭셔리 운전기사, 드라이버를 선택하세요 com.simba.spark.jdbc.Driver.
럭셔리 JDBC URL, 앞서 얻은 Databricks 클러스터의 URL을 입력합니다.

URL은 다음 형식과 유사해야 합니다. jdbc:spark://<serve- hostname>:443/default;transportMode=http;ssl=1;httpPath=<http- path>;AuthMech=3;UID=token;PWD=<personal-access-token>.

SQL 쿼리 편집기에서 다음 SQL SELECT 문을 지정합니다.
```
select * from loans_1
```

Databricks에 데이터를 업로드하는 동안 다른 테이블 이름을 선택한 경우 위 SQL 쿼리에서 Loan_1을 적절하게 바꿉니다.

. SQL 쿼리 Data Wrangler의 섹션에서는 JDBC Databricks 데이터베이스에 연결된 모든 테이블을 쿼리할 수 있습니다. 미리 선택된 샘플링 활성화 설정은 기본적으로 데이터 세트의 처음 50,000개 행을 검색합니다. 데이터 세트의 크기에 따라 선택을 취소합니다. 샘플링 활성화 가져오기 시간이 길어질 수 있습니다.

왼쪽 메뉴에서 달리기.

쿼리를 실행하면 Data Wrangler에서 직접 Databricks 데이터 세트를 미리 볼 수 있습니다.

왼쪽 메뉴에서 수입.

Data Wrangler는 필요한 경우 하나의 Databricks 클러스터 또는 여러 클러스터에 대한 여러 동시 연결을 설정할 수 있는 유연성을 제공하여 결합된 데이터 세트에 대한 분석 및 준비를 가능하게 합니다.

Amazon S3에서 Data Wrangler로 데이터 가져오기

다음으로 loan_2.csv Amazon S3의 파일입니다.

가져오기 탭에서 다음을 선택합니다. 아마존 S3 데이터 소스로.
S3 버킷으로 이동하여 loan_2.csv 파일.

CSV 파일을 선택하면 데이터를 미리 볼 수 있습니다.

. 세부 정보 창, 선택 고급 구성 확인하십시오 샘플링 활성화 선택되고 절 를 위해 선택되었습니다 구분 기호.
왼쪽 메뉴에서 수입.

후 loans_2.csv 데이터 세트를 성공적으로 가져오면 데이터 흐름 인터페이스에 Databricks JDBC 및 Amazon S3 데이터 소스가 모두 표시됩니다.

데이터에 합류하다

이제 Databricks 및 Amazon S3에서 데이터를 가져왔으므로 공통 고유 식별자 열을 사용하여 데이터 세트를 조인하겠습니다.

에 데이터 흐름 탭, 자료형, 더하기 기호를 선택하세요. loans_1.
왼쪽 메뉴에서 가입하기.
선택 loans_2.csv 파일을 권리 데이터 세트.
왼쪽 메뉴에서 구성 가입 기준을 설정합니다.
럭셔리 성함, 조인 이름을 입력합니다.
럭셔리 조인 유형선택한다. 안의 이 게시물에.
선택 id 가입할 열입니다.
왼쪽 메뉴에서 신청 조인된 데이터 세트를 미리 봅니다.
왼쪽 메뉴에서 추가 데이터 흐름에 추가합니다.

변환 적용

Data Wrangler에는 코딩이 필요 없는 300개 이상의 변환 기능이 내장되어 있습니다. 내장된 변환을 사용하여 데이터세트를 준비해 보겠습니다.

열 삭제

먼저 중복 ID 열을 삭제합니다.

조인된 노드에서 더하기 기호를 선택합니다.
왼쪽 메뉴에서 변형 추가.
$XNUMX Million 미만 변환, 선택 + 단계 추가.
왼쪽 메뉴에서 열 관리.
럭셔리 변환선택한다. 열 삭제.
럭셔리 삭제할 열, 열 선택 id_0.
왼쪽 메뉴에서 시사.
왼쪽 메뉴에서 추가.

형식 문자열

문자열 형식을 적용하여 백분율 기호를 제거해 보겠습니다. int_rate 및 revol_util 열.

에 Data 탭, 아래 변환선택한다. + 단계 추가.
왼쪽 메뉴에서 형식 문자열.
럭셔리 변환선택한다. 오른쪽에서 문자 제거.

Data Wrangler를 사용하면 선택한 변환을 여러 열에 동시에 적용할 수 있습니다.

럭셔리 입력 열선택한다. int_rate 및 revol_util.
럭셔리 제거할 문자, 입력 %.
왼쪽 메뉴에서 시사.
왼쪽 메뉴에서 추가.

텍스트 기능화

이제 벡터화해 봅시다 verification_status, 텍스트 기능 열입니다. 아래 설명된 대로 카운트 벡터화 도구와 표준 토크나이저를 적용하여 텍스트 열을 TF-IDF(용어 빈도-문서 빈도 역수) 벡터로 변환합니다. Data Wrangler는 원하는 경우 자체 토크나이저를 가져올 수 있는 옵션도 제공합니다.

$XNUMX Million 미만 변압기선택한다. + 단계 추가.
왼쪽 메뉴에서 텍스트 기능화.
럭셔리 변환선택한다. 벡터화.
럭셔리 입력 열선택한다. verification_status.
왼쪽 메뉴에서 시사.
왼쪽 메뉴에서 추가.

데이터세트 내보내기

텍스트, 범주형, 숫자 등 다양한 열 유형에 여러 변환을 적용한 후에는 ML 모델 교육을 위해 변환된 데이터 세트를 사용할 준비가 됩니다. 마지막 단계는 변환된 데이터 세트를 Amazon S3로 내보내는 것입니다. Data Wrangler에는 변환의 다운스트림 소비를 위해 선택할 수 있는 여러 옵션이 있습니다.

왼쪽 메뉴에서 수출 단계 처리를 위해 SageMaker 처리 코드를 사용하여 Jupyter 노트북을 자동으로 생성하고 변환된 데이터 세트를 S3 버킷으로 내보냅니다. 자세한 내용은 다음을 참조하세요. Amazon SageMaker Data Wrangler를 사용하여 클릭 몇 번으로 처리 작업 시작.
Studio 노트북을 내보내어 SageMaker 파이프라인 데이터 흐름을 사용하거나 Amazon SageMaker 기능 스토어 기능 그룹을 만들고 오프라인 또는 온라인 기능 저장소에 기능을 추가합니다.
왼쪽 메뉴에서 데이터 내보내기 Amazon S3로 직접 내보냅니다.

이번 포스팅에서는 데이터 내보내기 에서 옵션 변환 변환된 데이터 세트를 Amazon S3로 직접 내보내는 보기입니다.

왼쪽 메뉴에서 데이터 내보내기.
럭셔리 S3 위치선택한다. 검색 S3 버킷을 선택합니다.
왼쪽 메뉴에서 데이터 내보내기.

정리

데이터 랭글러 작업이 완료되면 데이터 랭글러 인스턴스 종료 추가 비용이 발생하지 않도록합니다.

결론

이 게시물에서는 Data Wrangler에서 Databricks를 데이터 원본으로 빠르고 쉽게 설정 및 연결하고, SQL을 사용하여 Databricks에 저장된 데이터를 대화형으로 쿼리하고, 가져오기 전에 데이터를 미리 볼 수 있는 방법을 다루었습니다. 또한 Databricks의 데이터를 Amazon S3에 저장된 데이터와 결합하는 방법을 살펴보았습니다. 그런 다음 결합된 데이터세트에 데이터 변환을 적용하여 데이터 준비 파이프라인을 만들었습니다. 대상 누출 및 편향 보고서 생성을 포함하여 더 많은 Data Wrangler의 분석 기능을 살펴보려면 다음 블로그 게시물을 참조하세요. 당뇨병 환자 재입원 예측을 위해 Amazon SageMaker Data Wrangler를 사용하여 데이터 준비 가속화.

데이터 랭글러를 시작하려면 Amazon SageMaker Data Wrangler로 ML 데이터 준비, 데이터 랭글러에 대한 최신 정보보기 G 시리즈 페이지.

저자에 관하여

루프 베인 AI/ML에 중점을 둔 AWS의 솔루션 아키텍트입니다. 그는 인공 지능 및 기계 학습을 사용하여 고객이 혁신하고 비즈니스 목표를 달성하도록 돕는 데 열정을 쏟고 있습니다. 여가 시간에 루프는 독서와 하이킹을 즐깁니다.

Igor Alekseev는 데이터 및 분석 부문 AWS의 파트너 솔루션 아키텍트입니다. Igor는 전략적 파트너와 협력하여 복잡한 AWS 최적화 아키텍처를 구축할 수 있도록 지원합니다. AWS에 합류하기 전에 데이터/솔루션 설계자로 Hadoop 에코시스템의 여러 데이터 레이크를 포함하여 빅 데이터에서 많은 프로젝트를 구현했습니다. 데이터 엔지니어로서 그는 AI/ML을 사기 탐지 및 사무 자동화에 적용하는 데 참여했습니다. Igor의 프로젝트는 통신, 금융, 공공 안전, 제조 및 의료를 포함한 다양한 산업 분야에 있었습니다. 이전에 Igor는 전체 스택 엔지니어/기술 책임자로 일했습니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 기계 학습을 위해 Databricks에서 데이터를 준비합니다. 수직 검색. 일체 포함. 흐엉 응우 엔 AWS의 선임 제품 관리자입니다. 그녀는 SageMaker Studio의 사용자 경험을 이끌고 있습니다. 그녀는 13 년 동안 엔터프라이즈 및 소비자 공간 모두를위한 고객 중심의 데이터 기반 제품을 만든 경험이 있습니다. 여가 시간에는 독서, 자연 속에서 가족과 함께 시간을 보내는 것을 즐깁니다.

헨리 왕 AWS의 소프트웨어 개발 엔지니어입니다. 그는 최근 UC Davis를 졸업한 후 Data Wrangler 팀에 합류했습니다. 데이터 사이언스와 머신러닝에 관심이 많고 취미로 3D 프린팅을 하고 있다.

타임 스탬프 : 2022 년 3 월 31 일

타임 스탬프 : 5년 2024월 XNUMX일

Amazon SageMaker Data Wrangler를 사용하여 기계 학습을 위해 Databricks에서 데이터 준비

플라톤에 의해 재발행

솔루션 개요

사전 조건

Databricks 설정

JDBC URL 가져오기

데이터 랭글러 설정

데이터 세트 다운로드 및 분할

데이터 랭글러 흐름 만들기

Databricks에서 Data Wrangler로 데이터 가져오기

Amazon S3에서 Data Wrangler로 데이터 가져오기

데이터에 합류하다

변환 적용

열 삭제

형식 문자열

텍스트 기능화

데이터세트 내보내기

정리

결론

저자에 관하여

더보기 AWS 기계 학습

MLOps용 Amazon SageMaker 프로젝트와 함께 온보드 PaddleOCR을 사용하여 신원 문서에서 광학 문자 인식 수행

SageMaker의 모델 호스팅 패턴: SageMaker에서 모델을 테스트하고 업데이트하는 모범 사례

Amazon SageMaker에서 RStudio를 사용하여 생명 과학 산업에 대한 규제 제출물 생성

Amazon Rekognition Custom Labels 및 Dassault Systèmes 3DEXCITE와 함께 합성 데이터 세트를 사용하는 컴퓨터 비전

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정