Amazon SageMaker 데이터 랭글러 머신 러닝(ML)을 위해 데이터를 집계하고 준비하는 시간을 몇 주에서 몇 분으로 단축합니다. Data Wrangler를 사용하면 몇 번의 클릭만으로 데이터를 선택 및 쿼리할 수 있으며 300개 이상의 기본 제공 데이터 변환으로 데이터를 빠르게 변환하고 코드를 작성하지 않고도 기본 제공 시각화를 통해 데이터를 이해할 수 있습니다.
또한 다음을 생성할 수 있습니다. 사용자 정의 변환 귀하의 요구 사항에 고유합니다. 사용자 지정 변환을 사용하면 PySpark, Pandas 또는 SQL을 사용하여 사용자 지정 변환을 작성할 수 있습니다.
Data Wrangler는 이제 사용자 정의를 지원합니다. 팬더 사용자 정의 함수 (UDF) 대용량 데이터세트를 효율적으로 처리할 수 있는 변환입니다. 두 가지 사용자 정의 Pandas UDF 모드(Pandas 및 Python) 중에서 선택할 수 있습니다. 두 모드 모두 데이터 세트를 처리하기 위한 효율적인 솔루션을 제공하며 선택하는 모드는 기본 설정에 따라 다릅니다.
이 게시물에서는 두 모드에서 새로운 Pandas UDF 변환을 사용하는 방법을 보여줍니다.
솔루션 개요
이 글을 쓰는 시점에서 데이터셋을 다음에서 Data Wrangler로 가져올 수 있습니다. 아마존 단순 스토리지 서비스 (아마존 S3), 아마존 아테나, 아마존 레드 시프트, Databricks 및 Snowflake. 이 게시물에서는 Amazon S3를 사용하여 2014년을 저장합니다. Amazon 검토 데이터 세트.
데이터에는 reviewText
사용자 생성 텍스트를 포함합니다. 텍스트에는 여러 가지가 포함되어 있습니다. 말을 멈추다, "a", "an" 및 "the"와 같이 많은 정보를 제공하지 않는 일반적인 단어입니다. 불용어 제거는 자연어 처리(NLP) 파이프라인에서 일반적인 전처리 단계입니다. 리뷰에서 불용어를 제거하는 사용자 정의 기능을 만들 수 있습니다.
사용자 지정 Pandas UDF 변환 만들기
Pandas 및 Python 모드를 사용하여 두 개의 Data Wrangler 사용자 지정 Pandas UDF 변환을 생성하는 프로세스를 살펴보겠습니다.
- 를 다운로드 디지털 뮤직 리뷰 데이터세트 Amazon S3에 업로드합니다.
- 엽니다 아마존 세이지 메이커 스튜디오 새 Data Wrangler 흐름을 만듭니다.
- $XNUMX Million 미만 데이터 가져 오기선택한다. 아마존 S3 데이터 세트 위치로 이동합니다.
- 럭셔리 파일 형식선택한다. JSONl.
데이터 미리보기가 테이블에 표시되어야 합니다.
- 왼쪽 메뉴에서 수입 계속하려면.
- 데이터를 가져온 후 옆에 있는 더하기 기호를 선택합니다. 자료형 선택하고 변형 추가.
- 왼쪽 메뉴에서 사용자 정의 변환.
- 드롭다운 메뉴에서 파이썬(사용자 정의 함수).
이제 중지 단어를 제거하는 사용자 지정 변환을 만듭니다.
- 입력 열, 출력 열, 반환 유형 및 모드를 지정합니다.
다음 예에서는 Pandas 모드를 사용합니다. 이는 함수가 동일한 길이의 Pandas 시리즈를 수락하고 반환해야 함을 의미합니다. Pandas 시리즈는 테이블의 열이나 열의 덩어리로 생각할 수 있습니다. 이것은 Pandas가 한 번에 하나씩이 아니라 값의 일괄 처리에 걸쳐 작업을 벡터화할 수 있기 때문에 가장 성능이 좋은 Pandas UDF 모드입니다. 그만큼 pd.Series
Pandas 모드에서는 유형 힌트가 필요합니다.
Pandas API와 달리 순수 Python을 사용하는 것을 선호하는 경우 Python 모드를 사용하면 단일 인수를 허용하고 단일 값을 반환하는 순수 Python 함수를 지정할 수 있습니다. 다음 예제는 출력 측면에서 앞의 Pandas 코드와 동일합니다. 유형 힌트는 Python 모드에서 필요하지 않습니다.
- 왼쪽 메뉴에서 추가 사용자 정의 변환을 추가합니다.
결론
Data Wrangler에는 300개 이상의 기본 제공 변환이 있으며 요구 사항에 고유한 사용자 지정 변환을 추가할 수도 있습니다. 이 게시물에서는 Pandas 모드와 Python 모드를 모두 사용하여 Data Wrangler의 새로운 사용자 지정 Pandas UDF 변환으로 데이터 세트를 처리하는 방법을 시연했습니다. 기본 설정에 따라 두 모드 중 하나를 사용할 수 있습니다. Data Wrangler에 대한 자세한 내용은 다음을 참조하십시오. 데이터 랭글러 흐름 생성 및 사용.
저자에 관하여
벤 해리스 다양한 도메인에서 확장 가능한 데이터 파이프라인과 기계 학습 솔루션을 설계, 배포 및 유지 관리한 경험이 있는 소프트웨어 엔지니어입니다. Ben은 데이터 수집 및 레이블 지정, 이미지 및 텍스트 분류, 시퀀스 대 시퀀스 모델링, 임베딩, 클러스터링 등을 위한 시스템을 구축했습니다.
하이더 나크비 AWS의 솔루션 아키텍트입니다. 그는 광범위한 소프트웨어 개발 및 엔터프라이즈 아키텍처 경험이 있습니다. 그는 고객이 AWS를 통해 비즈니스 성과를 달성할 수 있도록 하는 데 중점을 두고 있습니다. 그는 뉴욕에 기반을 두고 있습니다.
비샬 스리바스타바 AWS의 기술 계정 관리자입니다. 소프트웨어 개발 및 분석에 대한 배경 지식을 갖춘 그는 주로 금융 서비스 부문 및 디지털 네이티브 비즈니스 고객과 함께 일하고 그들의 클라우드 여정을 지원합니다. 여가 시간에는 가족과 함께 여행하는 것을 좋아합니다.
- "
- 10
- 100
- 9
- 소개
- 계정
- 가로질러
- 아마존
- 중
- 분석
- API를
- 아키텍처
- 가능
- AWS
- 배경
- 내장
- 사업
- 왼쪽 메뉴에서
- 분류
- 클라우드
- 암호
- 수집
- 단
- 공통의
- 이 포함되어 있습니다
- 만들
- 만들기
- 관습
- 고객
- 데이터
- 보여
- 시연
- 따라
- 배치
- 설계
- 개발
- 디지털
- 도메인
- 효율적인
- 효율적으로
- 가능
- 기사
- Enterprise
- 예
- 경험
- 광대 한
- 가족
- 금융
- 금융 서비스
- 흐름
- 집중
- 수행원
- 무료
- 기능
- 방법
- How To
- HTTPS
- 영상
- 정보
- 입력
- IT
- 조인
- 레이블링
- 언어
- 넓은
- 배우다
- 배우기
- 위치
- 기계
- 기계 학습
- 매니저
- 경기
- ML
- 배우기
- 가장
- 음악
- 자연의
- 뉴욕
- 행정부
- Prepare
- 시사
- 방법
- 처리
- 제공
- 빠른
- 빨리
- 필수
- 요구조건 니즈
- return
- 반품
- 리뷰
- 확장성
- 부문
- 연속
- 서비스
- 단순, 간단, 편리
- 소프트웨어
- 소프트웨어 개발
- 소프트웨어 엔지니어
- 해결책
- 솔루션
- 공간
- 저장
- 저장
- 지원
- 시스템은
- 테크니컬
- 을 통하여
- 시간
- 토큰
- 토큰
- 변환
- 여행
- 이해
- 유일한
- 사용
- 가치
- 종류
- 없이
- 말
- 일
- 쓰기