Amazon SageMaker Data Wrangler에서 Pandas 사용자 정의 함수 사용 가능

플라톤에 의해 재발행

팔로워 : 0

Amazon SageMaker 데이터 랭글러 머신 러닝(ML)을 위해 데이터를 집계하고 준비하는 시간을 몇 주에서 몇 분으로 단축합니다. Data Wrangler를 사용하면 몇 번의 클릭만으로 데이터를 선택 및 쿼리할 수 있으며 300개 이상의 기본 제공 데이터 변환으로 데이터를 빠르게 변환하고 코드를 작성하지 않고도 기본 제공 시각화를 통해 데이터를 이해할 수 있습니다.

또한 다음을 생성할 수 있습니다. 사용자 정의 변환 귀하의 요구 사항에 고유합니다. 사용자 지정 변환을 사용하면 PySpark, Pandas 또는 SQL을 사용하여 사용자 지정 변환을 작성할 수 있습니다.

Data Wrangler는 이제 사용자 정의를 지원합니다. 팬더 사용자 정의 함수 (UDF) 대용량 데이터세트를 효율적으로 처리할 수 있는 변환입니다. 두 가지 사용자 정의 Pandas UDF 모드(Pandas 및 Python) 중에서 선택할 수 있습니다. 두 모드 모두 데이터 세트를 처리하기 위한 효율적인 솔루션을 제공하며 선택하는 모드는 기본 설정에 따라 다릅니다.

이 게시물에서는 두 모드에서 새로운 Pandas UDF 변환을 사용하는 방법을 보여줍니다.

솔루션 개요

이 글을 쓰는 시점에서 데이터셋을 다음에서 Data Wrangler로 가져올 수 있습니다. 아마존 단순 스토리지 서비스 (아마존 S3), 아마존 아테나, 아마존 레드 시프트, Databricks 및 Snowflake. 이 게시물에서는 Amazon S3를 사용하여 2014년을 저장합니다. Amazon 검토 데이터 세트.

데이터에는 reviewText 사용자 생성 텍스트를 포함합니다. 텍스트에는 여러 가지가 포함되어 있습니다. 말을 멈추다, "a", "an" 및 "the"와 같이 많은 정보를 제공하지 않는 일반적인 단어입니다. 불용어 제거는 자연어 처리(NLP) 파이프라인에서 일반적인 전처리 단계입니다. 리뷰에서 불용어를 제거하는 사용자 정의 기능을 만들 수 있습니다.

사용자 지정 Pandas UDF 변환 만들기

Pandas 및 Python 모드를 사용하여 두 개의 Data Wrangler 사용자 지정 Pandas UDF 변환을 생성하는 프로세스를 살펴보겠습니다.

를 다운로드 디지털 뮤직 리뷰 데이터세트 Amazon S3에 업로드합니다.
엽니다 아마존 세이지 메이커 스튜디오 새 Data Wrangler 흐름을 만듭니다.
$XNUMX Million 미만 데이터 가져 오기선택한다. 아마존 S3 데이터 세트 위치로 이동합니다.
럭셔리 파일 형식선택한다. JSONl.

데이터 미리보기가 테이블에 표시되어야 합니다.

왼쪽 메뉴에서 수입 계속하려면.
데이터를 가져온 후 옆에 있는 더하기 기호를 선택합니다. 자료형 선택하고 변형 추가.
왼쪽 메뉴에서 사용자 정의 변환.
드롭다운 메뉴에서 파이썬(사용자 정의 함수).

이제 중지 단어를 제거하는 사용자 지정 변환을 만듭니다.

입력 열, 출력 열, 반환 유형 및 모드를 지정합니다.

다음 예에서는 Pandas 모드를 사용합니다. 이는 함수가 동일한 길이의 Pandas 시리즈를 수락하고 반환해야 함을 의미합니다. Pandas 시리즈는 테이블의 열이나 열의 덩어리로 생각할 수 있습니다. 이것은 Pandas가 한 번에 하나씩이 아니라 값의 일괄 처리에 걸쳐 작업을 벡터화할 수 있기 때문에 가장 성능이 좋은 Pandas UDF 모드입니다. 그만큼 pd.Series Pandas 모드에서는 유형 힌트가 필요합니다.

import pandas as pd
from sklearn.feature_extraction import text # Input: the quick brown fox jumped over the lazy dog
# Output: quick brown fox jumped lazy dog
def remove_stopwords(series: pd.Series) -> pd.Series: """Removes stop words from the given string.""" # Replace nulls with empty strings and lowercase to match stop words case series = series.fillna("").str.lower() tokens = series.str.split() # Remove stop words from each entry of series tokens = tokens.apply(lambda t: [token for token in t if token not in text.ENGLISH_STOP_WORDS]) # Joins the filtered tokens by spaces return tokens.str.join(" ")

Pandas API와 달리 순수 Python을 사용하는 것을 선호하는 경우 Python 모드를 사용하면 단일 인수를 허용하고 단일 값을 반환하는 순수 Python 함수를 지정할 수 있습니다. 다음 예제는 출력 측면에서 앞의 Pandas 코드와 동일합니다. 유형 힌트는 Python 모드에서 필요하지 않습니다.

from sklearn.feature_extraction import text def remove_stopwords(value: str) -> str: if not value: return "" tokens = value.lower().split() tokens = [token for token in tokens if token not in text.ENGLISH_STOP_WORDS] return " ".join(tokens)

왼쪽 메뉴에서 추가 사용자 정의 변환을 추가합니다.

결론

Data Wrangler에는 300개 이상의 기본 제공 변환이 있으며 요구 사항에 고유한 사용자 지정 변환을 추가할 수도 있습니다. 이 게시물에서는 Pandas 모드와 Python 모드를 모두 사용하여 Data Wrangler의 새로운 사용자 지정 Pandas UDF 변환으로 데이터 세트를 처리하는 방법을 시연했습니다. 기본 설정에 따라 두 모드 중 하나를 사용할 수 있습니다. Data Wrangler에 대한 자세한 내용은 다음을 참조하십시오. 데이터 랭글러 흐름 생성 및 사용.

저자에 관하여

벤 해리스 다양한 도메인에서 확장 가능한 데이터 파이프라인과 기계 학습 솔루션을 설계, 배포 및 유지 관리한 경험이 있는 소프트웨어 엔지니어입니다. Ben은 데이터 수집 및 레이블 지정, 이미지 및 텍스트 분류, 시퀀스 대 시퀀스 모델링, 임베딩, 클러스터링 등을 위한 시스템을 구축했습니다.

하이더 나크비 AWS의 솔루션 아키텍트입니다. 그는 광범위한 소프트웨어 개발 및 엔터프라이즈 아키텍처 경험이 있습니다. 그는 고객이 AWS를 통해 비즈니스 성과를 달성할 수 있도록 하는 데 중점을 두고 있습니다. 그는 뉴욕에 기반을 두고 있습니다.

비샬 스리바스타바 AWS의 기술 계정 관리자입니다. 소프트웨어 개발 및 분석에 대한 배경 지식을 갖춘 그는 주로 금융 서비스 부문 및 디지털 네이티브 비즈니스 고객과 함께 일하고 그들의 클라우드 여정을 지원합니다. 여가 시간에는 가족과 함께 여행하는 것을 좋아합니다.

타임 스탬프 : 2022 년 4 월 28 일

Amazon Forecast를 사용하여 과거 데이터가 없는 제품에 대한 콜드 스타트 예측을 생성하여 이제 최대 45% 더 정확함

소스 클러스터 :

AWS 기계 학습

소스 노드 : 1761594

타임 스탬프 : 11월 21, 2022

AWS 기계 학습 서비스 PlatoBlockchain Data Intelligence를 사용하여 콘텐츠를 여러 언어로 현지화합니다. 수직 검색. 일체 포함.

AWS 기계 학습 서비스를 사용하여 콘텐츠를 여러 언어로 현지화

AWS 기계 학습

소스 노드 : 1279228

타임 스탬프 : 25년 2022월 XNUMX일

이제 Amazon SageMaker Data Wrangler에서 Pandas 사용자 정의 함수를 사용할 수 있습니다.

플라톤에 의해 재발행

솔루션 개요

사용자 지정 Pandas UDF 변환 만들기

결론

저자에 관하여

더보기 AWS 기계 학습

Amazon Forecast를 사용하여 과거 데이터가 없는 제품에 대한 콜드 스타트 예측을 생성하여 이제 최대 45% 더 정확함

AWS 기계 학습 서비스를 사용하여 콘텐츠를 여러 언어로 현지화

2022H2 Amazon Textract 출시 요약

Chronomics는 Amazon Rekognition Custom Labels로 COVID-19 테스트 결과를 감지합니다.

유휴 앱 자동 종료로 Amazon SageMaker Canvas 비용 최적화 | 아마존 웹 서비스

품질과 책임에 대해 대규모 언어 모델 평가 | 아마존 웹 서비스

Amazon SageMaker Data Wrangler 및 Amazon SageMaker Autopilot을 사용한 통합 데이터 준비, 모델 교육 및 배포 – 2부

실제 사용 사례를 통해 에지에서 머신 러닝 이해하기

강력한 텍스트 기반 독성 예측기 구축

Amazon SageMaker Serverless Inference를 사용한 호스트 포옹 얼굴 변환기 모델

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정