Amazon SageMaker Feature Store 기능 프로세서를 사용하여 ML 통찰력 잠금 해제

플라톤에 의해 재발행

팔로워 : 0

Amazon SageMaker 기능 스토어 기계 학습(ML)을 위한 기능 엔지니어링을 자동화하는 엔드투엔드 솔루션을 제공합니다. 많은 ML 사용 사례의 경우 로그 파일, 센서 판독값, 트랜잭션 기록과 같은 원시 데이터를 모델 교육에 최적화된 의미 있는 기능으로 변환해야 합니다.

매우 정확한 ML 모델을 보장하려면 기능 품질이 중요합니다. 집계, 인코딩, 정규화 및 기타 작업을 사용하여 원시 데이터를 기능으로 변환하는 작업이 필요한 경우가 많으며 상당한 노력이 필요할 수 있습니다. 엔지니어는 각 사용 사례에 대해 Python 또는 Spark에서 사용자 지정 데이터 사전 처리 및 집계 논리를 수동으로 작성해야 합니다.

이러한 획일적인 무거운 작업은 번거롭고 반복적이며 오류가 발생하기 쉽습니다. 그만큼 SageMaker Feature Store 기능 프로세서 원시 데이터를 ML 모델 일괄 학습에 적합한 집계 기능으로 자동 변환하여 이러한 부담을 줄입니다. 이를 통해 엔지니어는 간단한 데이터 변환 기능을 제공한 다음 Spark에서 대규모로 실행하고 기본 인프라를 관리할 수 있습니다. 이를 통해 데이터 과학자와 데이터 엔지니어는 구현 세부 사항보다는 기능 엔지니어링 논리에 집중할 수 있습니다.

이 게시물에서는 자동차 판매 회사가 Feature Processor를 사용하여 원시 판매 거래 데이터를 다음 세 단계를 통해 기능으로 변환하는 방법을 보여줍니다.

데이터 변환의 로컬 실행.
Spark를 사용하여 대규모로 원격 실행
파이프라인을 통한 운영화.

SageMaker Feature Store가 원시 데이터를 수집하고, Spark를 사용하여 원격으로 기능 변환을 실행하고, 결과 집계 기능을 로드하는 방법을 보여줍니다. 기능 그룹. 그런 다음 이러한 엔지니어링된 기능을 사용하여 ML 모델을 교육할 수 있습니다.

이 사용 사례에서는 SageMaker Feature Store가 원시 자동차 판매 데이터를 구조화된 기능으로 변환하는 데 어떻게 도움이 되는지 알아봅니다. 이러한 기능은 이후에 다음과 같은 통찰력을 얻는 데 사용됩니다.

2010년 레드 컨버터블의 평균 및 최고 가격
가격 대비 주행거리가 가장 좋은 모델
지난 몇 년간 신차와 중고차의 판매 동향
위치별 평균 MSRP 차이

또한 SageMaker Feature Store 파이프라인이 어떻게 새로운 데이터가 들어올 때 기능을 업데이트하여 회사가 시간이 지남에 따라 지속적으로 통찰력을 얻을 수 있는지 살펴봅니다.

솔루션 개요

우리는 데이터세트로 작업합니다 car_data.csv, 회사에서 판매하는 중고차와 신차의 모델, 연식, 상태, 주행거리, 가격, MSRP 등의 사양이 포함되어 있습니다. 다음 스크린샷은 데이터 세트의 예를 보여줍니다.

"다양한 차량의 자동차 모델, 연식, 주행거리, 가격 및 MSRP를 포함한 자동차 데이터 테이블을 표시하는 이미지입니다."

솔루션 노트북 feature_processor.ipynb 이 게시물에서 설명하는 다음과 같은 주요 단계가 포함되어 있습니다.

두 개의 기능 그룹을 만듭니다. 하나는 car-data 원시 자동차 판매 기록 및 기타 car-data-aggregated 집계된 자동차 판매 기록을 위해
사용 @feature_processor 자동차 데이터 기능 그룹에 데이터를 로드하는 데코레이터 아마존 단순 스토리지 서비스 (아마존 S3).
실행 @feature_processor code Spark 애플리케이션으로 원격으로 데이터를 집계합니다.
다음을 통해 기능 프로세서를 운용합니다. SageMaker 파이프라인 그리고 일정이 실행됩니다.
기능 처리 파이프라인을 살펴보고 혈통 in 아마존 세이지 메이커 스튜디오.
집계된 특성을 사용하여 ML 모델을 학습합니다.

사전 조건

이 튜토리얼을 따르려면 다음이 필요합니다.

이번 포스팅에서는 다음을 참고하겠습니다. 수첩, SageMaker Python SDK를 사용하여 기능 프로세서를 시작하는 방법을 보여줍니다.

기능 그룹 만들기

기능 그룹을 생성하려면 다음 단계를 완료하세요.

다음에 대한 기능 그룹 정의를 생성합니다. car-data 다음과 같이 :

# Feature Group - Car Sales CAR_SALES_FG_NAME = "car-data"
CAR_SALES_FG_ARN = f"arn:aws:sagemaker:{region}:{aws_account_id}:feature-group/{CAR_SALES_FG_NAME}"
CAR_SALES_FG_ROLE_ARN = offline_store_role
CAR_SALES_FG_OFFLINE_STORE_S3_URI = f"s3://{s3_bucket}/{s3_offline_store_prefix}"
CAR_SALES_FG_FEATURE_DEFINITIONS = [
    FeatureDefinition(feature_name="id", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="model", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="model_year", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="status", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="mileage", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="price", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="msrp", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="ingest_time", feature_type=FeatureTypeEnum.FRACTIONAL),
]

기능은 다음의 각 열에 해당합니다. car_data.csv 데이터세트(Model, Year, Status, Mileage, Price및 MSRP).

레코드 식별자 추가 id 그리고 이벤트 시간 ingest_time 기능 그룹에:

CAR_SALES_FG_RECORD_IDENTIFIER_NAME = "id"
CAR_SALES_FG_EVENT_TIME_FEATURE_NAME = "ingest_time"

다음에 대한 기능 그룹 정의를 생성합니다. car-data-aggregated 다음과 같이 :

# Feature Group - Aggregated Car SalesAGG_CAR_SALES_FG_NAME = "car-data-aggregated"
AGG_CAR_SALES_FG_ARN = (
    f"arn:aws:sagemaker:{region}:{aws_account_id}:feature-group/{AGG_CAR_SALES_FG_NAME}"
)
AGG_CAR_SALES_FG_ROLE_ARN = offline_store_role
AGG_CAR_SALES_FG_OFFLINE_STORE_S3_URI = f"s3://{s3_bucket}/{s3_offline_store_prefix}"
AGG_CAR_SALES_FG_FEATURE_DEFINITIONS = [
    FeatureDefinition(feature_name="model_year_status", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="avg_mileage", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="max_mileage", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="avg_price", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="max_price", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="avg_msrp", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="max_msrp", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="ingest_time", feature_type=FeatureTypeEnum.FRACTIONAL),
]

집계된 기능 그룹의 경우 기능은 모델 연도 상태, 평균 마일리지, 최대 마일리지, 평균 가격, 최대 가격, 평균 MSRP, 최대 MSRP 및 수집 시간입니다. 레코드 식별자를 추가합니다 model_year_status 그리고 이벤트 시간 ingest_time 이 기능 그룹에.

이제 car-data 기능 그룹:

# Create Feature Group - Car sale records.
car_sales_fg = FeatureGroup(
    name=CAR_SALES_FG_NAME,
    feature_definitions=CAR_SALES_FG_FEATURE_DEFINITIONS,
    sagemaker_session=sagemaker_session,
) create_car_sales_fg_resp = car_sales_fg.create(
        record_identifier_name=CAR_SALES_FG_RECORD_IDENTIFIER_NAME,
        event_time_feature_name=CAR_SALES_FG_EVENT_TIME_FEATURE_NAME,
        s3_uri=CAR_SALES_FG_OFFLINE_STORE_S3_URI,
        enable_online_store=True,
        role_arn=CAR_SALES_FG_ROLE_ARN,
    )

만들기 car-data-aggregated 기능 그룹:

# Create Feature Group - Aggregated car sales records.
agg_car_sales_fg = FeatureGroup(
    name=AGG_CAR_SALES_FG_NAME,
    feature_definitions=AGG_CAR_SALES_FG_FEATURE_DEFINITIONS,
    sagemaker_session=sagemaker_session,
) create_agg_car_sales_fg_resp = agg_car_sales_fg.create(       record_identifier_name=AGG_CAR_SALES_FG_RECORD_IDENTIFIER_NAME,  event_time_feature_name=AGG_CAR_SALES_FG_EVENT_TIME_FEATURE_NAME,
        s3_uri=AGG_CAR_SALES_FG_OFFLINE_STORE_S3_URI,
        enable_online_store=True,
        role_arn=AGG_CAR_SALES_FG_ROLE_ARN,
    )

아래에서 SageMaker Feature Store 옵션으로 이동할 수 있습니다. Data SageMaker Studio에서 홈 기능 그룹을 보려면 메뉴를 클릭하세요.

헤더가 포함된 Sagemaker Feature Store의 이미지 기능 그룹 이름 및 설명

@feature_processor 데코레이터를 사용하여 데이터 로드

이 섹션에서는 원시 입력 데이터(car_data.csv) Amazon S3에서 car-data Feature Store Feature Processor를 사용하는 기능 그룹입니다. 이 초기 로컬 실행을 통해 원격으로 실행하기 전에 개발하고 반복할 수 있으며, 더 빠른 반복을 위해 원하는 경우 데이터 샘플에서 수행할 수 있습니다.

와 더불어 @feature_processor 데코레이터를 사용하면 변환 함수는 함수에 제공된 입력 인수와 해당 반환 값이 Spark DataFrames인 Spark 런타임 환경에서 실행됩니다.

설치 기능 프로세서 SDK 인사말 SageMaker Python SDK 다음 명령을 사용하여 추가 기능을 수행합니다.

pip install sagemaker[feature-processor]

변환 함수의 입력 매개변수 수는 다음에서 구성된 입력 수와 일치해야 합니다. @feature_processor 데코레이터. 이 경우, @feature_processor 장식가는 car-data.csv 입력으로 car-data 기능 그룹을 출력으로 사용하여 일괄 작업임을 나타냅니다. target_store as OfflineStore:

from sagemaker.feature_store.feature_processor import (
    feature_processor,
    FeatureGroupDataSource,
    CSVDataSource,
) @feature_processor(
    inputs=[CSVDataSource(RAW_CAR_SALES_S3_URI)],
    output=CAR_SALES_FG_ARN,
    target_stores=["OfflineStore"],
)

정의 transform() 데이터를 변환하는 함수입니다. 이 기능은 다음 작업을 수행합니다.
- 열 이름을 소문자로 변환합니다.
- 이벤트 시간을 ingest_time 열입니다.
- 구두점을 제거하고 누락된 값을 NA로 바꿉니다.

def transform(raw_s3_data_as_df):
    """Load data from S3, perform basic feature engineering, store it in a Feature Group"""
    from pyspark.sql.functions import regexp_replace
    from pyspark.sql.functions import lit
    import time     transformed_df = (
        raw_s3_data_as_df.withColumn("Price", regexp_replace("Price", "$", ""))
        # Rename Columns
        .withColumnRenamed("Id", "id")
        .withColumnRenamed("Model", "model")
        .withColumnRenamed("Year", "model_year")
        .withColumnRenamed("Status", "status")
        .withColumnRenamed("Mileage", "mileage")
        .withColumnRenamed("Price", "price")
        .withColumnRenamed("MSRP", "msrp")
        # Add Event Time
        .withColumn("ingest_time", lit(int(time.time())))
        # Remove punctuation and fluff; replace with NA
        .withColumn("mileage", regexp_replace("mileage", "(,)|(mi.)", ""))
        .withColumn("mileage", regexp_replace("mileage", "Not available", "NA"))
        .withColumn("price", regexp_replace("price", ",", ""))
        .withColumn("msrp", regexp_replace("msrp", "(^MSRPs$)|(,)", ""))
        .withColumn("msrp", regexp_replace("msrp", "Not specified", "NA"))
        .withColumn("msrp", regexp_replace("msrp", "$d+[a-zA-Zs]+", "NA"))
        .withColumn("model", regexp_replace("model", "^dddds", ""))
    )

전화 transform() 데이터를 저장하는 함수 car-data 기능 그룹:

# Execute the FeatureProcessor
transform()

출력에는 데이터가 자동차 데이터 기능 그룹에 성공적으로 수집되었음을 보여줍니다.

의 출력 transform_df.show() 기능은 다음과 같습니다.

INFO:sagemaker:Ingesting transformed data to arn:aws:sagemaker:us-west-2:416578662734:feature-group/car-data with target_stores: ['OfflineStore'] +---+--------------------+----------+------+-------+--------+-----+-----------+
| id|               model|model_year|status|mileage|   price| msrp|ingest_time|
+---+--------------------+----------+------+-------+--------+-----+-----------+
|  0|    Acura TLX A-Spec|      2022|   New|     NA|49445.00|49445| 1686627154|
|  1|    Acura RDX A-Spec|      2023|   New|     NA|50895.00|   NA| 1686627154|
|  2|    Acura TLX Type S|      2023|   New|     NA|57745.00|   NA| 1686627154|
|  3|    Acura TLX Type S|      2023|   New|     NA|57545.00|   NA| 1686627154|
|  4|Acura MDX Sport H...|      2019|  Used| 32675 |40990.00|   NA| 1686627154|
|  5|    Acura TLX A-Spec|      2023|   New|     NA|50195.00|50195| 1686627154|
|  6|    Acura TLX A-Spec|      2023|   New|     NA|50195.00|50195| 1686627154|
|  7|    Acura TLX Type S|      2023|   New|     NA|57745.00|   NA| 1686627154|
|  8|    Acura TLX A-Spec|      2023|   New|     NA|47995.00|   NA| 1686627154|
|  9|    Acura TLX A-Spec|      2022|   New|     NA|49545.00|   NA| 1686627154|
| 10|Acura Integra w/A...|      2023|   New|     NA|36895.00|36895| 1686627154|
| 11|    Acura TLX A-Spec|      2023|   New|     NA|48395.00|48395| 1686627154|
| 12|Acura MDX Type S ...|      2023|   New|     NA|75590.00|   NA| 1686627154|
| 13|Acura RDX A-Spec ...|      2023|   New|     NA|55345.00|   NA| 1686627154|
| 14|    Acura TLX A-Spec|      2023|   New|     NA|50195.00|50195| 1686627154|
| 15|Acura RDX A-Spec ...|      2023|   New|     NA|55045.00|   NA| 1686627154|
| 16|    Acura TLX Type S|      2023|   New|     NA|56445.00|   NA| 1686627154|
| 17|    Acura TLX A-Spec|      2023|   New|     NA|47495.00|47495| 1686627154|
| 18|   Acura TLX Advance|      2023|   New|     NA|52245.00|52245| 1686627154|
| 19|    Acura TLX A-Spec|      2023|   New|     NA|50595.00|50595| 1686627154|
+---+--------------------+----------+------+-------+--------+-----+-----------+
only showing top 20 rows

입력 데이터를 성공적으로 변환하고 이를 car-data 기능 그룹.

@feature_processor 코드를 원격으로 실행

이 섹션에서는 다음을 사용하여 원격으로 Spark 애플리케이션으로 기능 처리 코드를 실행하는 방법을 보여줍니다. @remote 앞서 설명한 데코레이터. 대규모 데이터 세트로 확장하기 위해 Spark를 사용하여 원격으로 기능 처리를 실행합니다. Spark는 단일 시스템에 비해 너무 큰 데이터를 처리하기 위해 클러스터에 분산 처리를 제공합니다. 그만큼 @remote 데코레이터는 로컬 Python 코드를 단일 또는 다중 노드 SageMaker 훈련 작업으로 실행합니다.

사용 @remote 데코레이터와 함께 @feature_processor 데코레이터는 다음과 같습니다.

@remote(spark_config=SparkConfig(), instance_type = "ml.m5.xlarge", ...)
@feature_processor(inputs=[FeatureGroupDataSource(CAR_SALES_FG_ARN)],
                   output=AGG_CAR_SALES_FG_ARN, target_stores=["OfflineStore"], enable_ingestion=False )

XNUMXD덴탈의 spark_config 매개변수는 이것이 다음과 같이 실행됨을 나타냅니다. Spark application. SparkConfig 인스턴스는 Spark 구성 및 종속성을 구성합니다.

정의 aggregate() PySpark SQL 및 사용자 정의 함수(UDF)를 사용하여 데이터를 집계하는 함수입니다. 이 기능은 다음 작업을 수행합니다.
- 사슬 같이 잇다 model, year및 status 만드는 방법 model_year_status.
- 평균을 구해 보세요 price 만드는 방법 avg_price.
- 최대 값을 취하십시오. price 만드는 방법 max_price.
- 평균을 구해 보세요 mileage 만드는 방법 avg_mileage.
- 최대 값을 취하십시오. mileage 만드는 방법 max_mileage.
- 평균을 구해 보세요 msrp 만드는 방법 avg_msrp.
- 최대 값을 취하십시오. msrp 만드는 방법 max_msrp.
- 그룹화 기준 model_year_status.

def aggregate(source_feature_group, spark):
    """
    Aggregate the data using a SQL query and UDF.
    """
    import time
    from pyspark.sql.types import StringType
    from pyspark.sql.functions import udf     @udf(returnType=StringType())
    def custom_concat(*cols, delimeter: str = ""):
        return delimeter.join(cols)     spark.udf.register("custom_concat", custom_concat)     # Execute SQL string.
    source_feature_group.createOrReplaceTempView("car_data")
    aggregated_car_data = spark.sql(
        f"""
        SELECT
            custom_concat(model, "_", model_year, "_", status) as model_year_status,
            AVG(price) as avg_price,
            MAX(price) as max_price,
            AVG(mileage) as avg_mileage,
            MAX(mileage) as max_mileage,
            AVG(msrp) as avg_msrp,
            MAX(msrp) as max_msrp,
            "{int(time.time())}" as ingest_time
        FROM car_data
        GROUP BY model_year_status
        """
    )     aggregated_car_data.show()     return aggregated_car_data

실행 aggregate() Spark 애플리케이션을 실행하기 위한 SageMaker 훈련 작업을 생성하는 함수:

# Execute the aggregate function
aggregate()

결과적으로 SageMaker는 앞서 정의한 Spark 애플리케이션에 대한 훈련 작업을 생성합니다. 다음을 사용하여 Spark 런타임 환경을 생성합니다. sagemaker-spark-processing image.

여기서는 SageMaker 교육 작업을 사용하여 Spark 기능 처리 애플리케이션을 실행합니다. SageMaker 교육을 사용하면 SageMaker 처리에서는 사용할 수 없는 웜 풀링을 사용하여 시작 시간을 1분 이하로 줄일 수 있습니다. 이를 통해 SageMaker 교육은 시작 시간이 중요한 기능 처리와 같은 짧은 배치 작업에 더 잘 최적화됩니다.

세부 정보를 보려면 SageMaker 콘솔에서 다음을 선택합니다. 훈련 직업 아래에 트레이닝 탐색 창에서 이름이 있는 작업을 선택합니다. aggregate-<timestamp>.

이미지는 Sagemaker 훈련 작업을 보여줍니다.

의 출력 골재() 함수는 원격 측정 코드를 생성합니다. 출력 내부에는 다음과 같이 집계된 데이터가 표시됩니다.

+--------------------+------------------+---------+------------------+-----------+--------+--------+-----------+
|   model_year_status|         avg_price|max_price|       avg_mileage|max_mileage|avg_msrp|max_msrp|ingest_time|
+--------------------+------------------+---------+------------------+-----------+--------+--------+-----------+
|Acura CL 3.0_1997...|            7950.0|  7950.00|          100934.0|    100934 |    null|      NA| 1686634807|
|Acura CL 3.2 Type...|            6795.0|  7591.00|          118692.5|    135760 |    null|      NA| 1686634807|
|Acura CL 3_1998_Used|            9899.0|  9899.00|           63000.0|     63000 |    null|      NA| 1686634807|
|Acura ILX 2.0L Te...|         14014.125| 18995.00|         95534.875|     89103 |    null|      NA| 1686634807|
|Acura ILX 2.0L Te...|           15008.2| 16998.00|           94935.0|     88449 |    null|      NA| 1686634807|
|Acura ILX 2.0L Te...|           16394.6| 19985.00|           97719.4|     80000 |    null|      NA| 1686634807|
|Acura ILX 2.0L w/...|14567.181818181818| 16999.00| 96624.72727272728|     98919 |    null|      NA| 1686634807|
|Acura ILX 2.0L w/...|           16673.4| 18995.00|           84848.6|     96637 |    null|      NA| 1686634807|
|Acura ILX 2.0L w/...|12580.333333333334| 14546.00|100207.33333333333|     95782 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|         14565.375| 17590.00|         92941.125|     81842 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|           14877.9|  9995.00|           99739.5|     89252 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|           15659.5| 15660.00|           82136.0|     89942 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|17121.785714285714| 20990.00| 78278.14285714286|     96067 |    null|      NA| 1686634807|
|Acura ILX 2.4L (A...|           17846.0| 21995.00|          101558.0|     85974 |    null|      NA| 1686634807|
|Acura ILX 2.4L Pr...|           16327.0| 16995.00|           85238.0|     95356 |    null|      NA| 1686634807|
|Acura ILX 2.4L w/...|           12846.0| 12846.00|           75209.0|     75209 |    null|      NA| 1686634807|
|Acura ILX 2.4L_20...|           18998.0| 18998.00|           51002.0|     51002 |    null|      NA| 1686634807|
|Acura ILX 2.4L_20...|17908.615384615383| 19316.00| 74325.38461538461|     89116 |    null|      NA| 1686634807|
|Acura ILX 4DR SDN...|           18995.0| 18995.00|           37017.0|     37017 |    null|      NA| 1686634807|
|Acura ILX 8-SPD_2...|           24995.0| 24995.00|           22334.0|     22334 |    null|      NA| 1686634807|
+--------------------+------------------+---------+------------------+-----------+--------+--------+-----------+
only showing top 20 rows

훈련 작업이 완료되면 다음 출력이 표시됩니다.

06-13 05:40 smspark-submit INFO     spark submit was successful. primary node exiting.
Training seconds: 153
Billable seconds: 153

SageMaker 파이프라인을 통해 기능 프로세서 운영

이 섹션에서는 기능 프로세서를 SageMaker 파이프라인으로 승격하고 실행을 예약하여 기능 프로세서를 운용하는 방법을 보여줍니다.

먼저, 변환_코드.py Amazon S3에 대한 기능 처리 논리가 포함된 파일:

car_data_s3_uri = s3_path_join("s3://", sagemaker_session.default_bucket(),
                               'transformation_code', 'car-data-ingestion.py')
S3Uploader.upload(local_path='car-data-ingestion.py', desired_s3_uri=car_data_s3_uri)
print(car_data_s3_uri)

다음으로 기능 프로세서 파이프라인을 생성합니다. 자동차_데이터_파이프라인 를 사용하여 .to_pipeline() 기능:

car_data_pipeline_name = f"{CAR_SALES_FG_NAME}-ingestion-pipeline"
car_data_pipeline_arn = fp.to_pipeline(pipeline_name=car_data_pipeline_name,
                                      step=transform,
                                      transformation_code=TransformationCode(s3_uri=car_data_s3_uri) )
print(f"Created SageMaker Pipeline: {car_data_pipeline_arn}.")

파이프라인을 실행하려면 다음 코드를 사용하십시오.

car_data_pipeline_execution_arn = fp.execute(pipeline_name=car_data_pipeline_name)
print(f"Started an execution with execution arn: {car_data_pipeline_execution_arn}")

마찬가지로, 다음과 같은 집계된 기능에 대한 파이프라인을 생성할 수 있습니다. car_data_aggregated_pipeline 그리고 달리기를 시작합니다.
예약 car_data_aggregated_pipeline 24시간마다 실행하려면:

fp.schedule(pipeline_name=car_data_aggregated_pipeline_name,
           schedule_expression="rate(24 hours)", state="ENABLED")
print(f"Created a schedule.")

출력 섹션에는 파이프라인의 ARN과 파이프라인 실행 역할, 일정 세부 정보가 표시됩니다.

{'pipeline_arn': 'arn:aws:sagemaker:us-west-2:416578662734:pipeline/car-data-aggregated-ingestion-pipeline',
 'pipeline_execution_role_arn': 'arn:aws:iam::416578662734:role/service-role/AmazonSageMaker-ExecutionRole-20230612T120731',
 'schedule_arn': 'arn:aws:scheduler:us-west-2:416578662734:schedule/default/car-data-aggregated-ingestion-pipeline',
 'schedule_expression': 'rate(24 hours)',
 'schedule_state': 'ENABLED',
 'schedule_start_date': '2023-06-13T06:05:17Z',
 'schedule_role': 'arn:aws:iam::416578662734:role/service-role/AmazonSageMaker-ExecutionRole-20230612T120731'}

이 계정의 모든 기능 프로세서 파이프라인을 얻으려면 list_pipelines() 기능 프로세서의 기능:

fp.list_pipelines()

출력은 다음과 같습니다:

[{'pipeline_name': 'car-data-aggregated-ingestion-pipeline'},
 {'pipeline_name': 'car-data-ingestion-pipeline'}]

SageMaker 기능 프로세서 파이프라인을 성공적으로 생성했습니다.

특성 처리 파이프라인 및 ML 계보 살펴보기

SageMaker Studio에서 다음 단계를 완료하십시오.

SageMaker Studio 콘솔에서 홈 메뉴, 선택 파이프 라인.

파이프라인 옵션을 강조 표시하는 Sagemaker Studio 홈 탭 이미지

생성된 두 개의 파이프라인이 표시됩니다. car-data-ingestion-pipeline 및 car-data-aggregated-ingestion-pipeline.

파이프라인 목록이 포함된 Sagemaker Studio 파이프라인 이미지

선택 car-data-ingestion-pipeline.

실행 세부정보가 표시됩니다. 사형 집행 탭.

자동차 데이터 수집 파이프라인의 Sagemaker Studio 이미지

파이프라인으로 채워진 기능 그룹을 보려면 다음을 선택합니다. 기능 저장소 아래에 Data 선택하고 car-data.

데이터를 강조 표시하는 Sagemaker Studio 홈 이미지

이전 단계에서 생성한 두 개의 기능 그룹이 표시됩니다.

기능 그룹이 생성된 Sagemaker Studio 이미지

선택 car-data 기능 그룹.

다음에서 기능 세부정보를 볼 수 있습니다. 특징 탭.

기능 그룹 및 그룹의 기능이 포함된 Sagemaker Studio 이미지

파이프라인 실행 보기

파이프라인 실행을 보려면 다음 단계를 완료하세요.

에 파이프라인 실행탭에서 선택 car-data-ingestion-pipeline.

Amazon SageMaker Feature Store Feature Processor를 사용하여 ML 통찰력을 얻으세요 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

그러면 모든 실행이 표시됩니다.

이미지는 파이프라인 실행의 Sagemaker 기능 그룹 탭을 보여줍니다.

실행 세부 정보를 보려면 링크 중 하나를 선택하세요.

이미지는 실행 중인 파이프라인이 있는 Sagemaker UI를 보여줍니다.

계보를 보려면 계보를 선택합니다.

에 대한 전체 계보 car-data 입력 데이터 소스를 보여줍니다. car_data.csv 및 업스트림 엔터티. 에 대한 계보 car-data-aggregated 입력을 보여줍니다 car-data 기능 그룹.

자동차 데이터 기능 그룹의 Sagemaker UI 이미지

왼쪽 메뉴에서 기능 로드 그런 다음 업스트림 계보 쿼리 on car-data 및 car-data-ingestion-pipeline 모든 업스트림 엔터티를 보려면

에 대한 전체 계보 car-data 기능 그룹은 다음 스크린샷과 같아야 합니다.

이미지는 자동차 계보가 포함된 Sagemaker 피처 스토어를 보여줍니다.

마찬가지로, 혈통에 대한 car-aggregated-data 기능 그룹은 다음 스크린샷과 같아야 합니다.

Sagemaker Feature Store UI에서 집계된 기능 그룹을 보여주는 이미지

SageMaker Studio는 예약된 파이프라인을 추적하고, 실행을 보고, 계보를 탐색하고, 기능 처리 코드를 볼 수 있는 단일 환경을 제공합니다.

평균 가격, 최고 가격, 평균 마일리지 등의 집계된 기능은 car-data-aggregated 기능 그룹은 데이터의 성격에 대한 통찰력을 제공합니다. 또한 이러한 기능을 데이터 세트로 사용하여 자동차 가격을 예측하거나 다른 작업을 위한 모델을 훈련할 수도 있습니다. 그러나 모델 교육은 기능 엔지니어링을 위한 SageMaker Feature Store 기능을 시연하는 데 초점을 맞춘 이 게시물의 범위를 벗어납니다.

정리

지속적인 요금이 발생하지 않도록 이 게시물의 일부로 생성된 리소스를 정리하는 것을 잊지 마십시오.

다음을 통해 예약된 파이프라인을 비활성화합니다. fp.schedule() 상태 매개변수를 사용하는 메소드 Disabled:

# Disable the scheduled pipeline
fp.schedule(
pipeline_name=car_data_aggregated_pipeline_name,
schedule_expression="rate(24 hours)",
state="DISABLED",
)

두 기능 그룹을 모두 삭제합니다.

# Delete feature groups
car_sales_fg.delete()
agg_car_sales_fg.delete()

S3 버킷과 오프라인 Feature Store에 있는 데이터는 비용이 발생할 수 있으므로 요금이 부과되지 않도록 삭제해야 합니다.

S3 객체 삭제.
레코드 삭제 기능 저장소에서.

결론

이 게시물에서는 자동차 판매 회사가 SageMaker Feature Store Feature Processor를 사용하여 원시 판매 데이터에서 귀중한 통찰력을 얻는 방법을 시연했습니다.

Spark를 사용하여 대규모 배치 데이터 수집 및 변환
SageMaker 파이프라인을 통해 기능 엔지니어링 워크플로 운영
파이프라인을 모니터링하고 기능을 탐색할 수 있는 계보 추적 및 단일 환경 제공
ML 모델 학습에 최적화된 집계 특성 준비

이러한 단계를 수행함으로써 회사는 이전에 사용할 수 없었던 데이터를 구조화된 특성으로 변환하여 자동차 가격을 예측하는 모델을 훈련하는 데 사용할 수 있었습니다. SageMaker Feature Store를 통해 그들은 기본 인프라가 아닌 기능 엔지니어링에 집중할 수 있었습니다.

이 게시물이 SageMaker Feature Store Feature Processor를 사용하여 자신의 데이터에서 귀중한 ML 통찰력을 얻는 데 도움이 되기를 바랍니다!

이에 대한 자세한 내용은 다음을 참조하십시오. 기능 처리 SageMaker 예제는 다음과 같습니다. Amazon SageMaker Feature Store: 기능 프로세서 소개.

저자에 관하여

다발 샤 그는 기계 학습을 전문으로 하는 AWS의 수석 솔루션 아키텍트입니다. 그는 디지털 기반 비즈니스에 중점을 두고 고객이 AWS를 활용하고 비즈니스 성장을 추진할 수 있도록 지원합니다. ML 애호가인 Dhaval은 긍정적인 변화를 가져오는 영향력 있는 솔루션을 만들려는 열정을 갖고 있습니다. 여가 시간에는 여행에 대한 사랑을 만끽하고 가족과 함께 좋은 순간을 소중히 여깁니다.

Amazon SageMaker Feature Store Feature Processor를 사용하여 ML 통찰력을 얻으세요 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 니나드 조시 AWS의 수석 솔루션 아키텍트로서 전 세계 AWS 고객이 클라우드에서 안전하고 확장 가능하며 비용 효율적인 솔루션을 설계하여 복잡한 실제 비즈니스 과제를 해결할 수 있도록 지원합니다. 기계 학습(ML) 분야에서 그의 작업은 엔드투엔드 ML, 자연어 처리 및 컴퓨터 비전에 중점을 두고 광범위한 AI/ML 사용 사례를 다루고 있습니다. AWS에 합류하기 전에 Ninad는 12년 이상 소프트웨어 개발자로 일했습니다. 전문적인 노력 외에도 Ninad는 체스를 두거나 다양한 도박을 탐구하는 것을 즐깁니다.

SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
플라톤ESG. 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
출처: https://aws.amazon.com/blogs/machine-learning/unlock-ml-insights-using-the-amazon-sagemaker-feature-store-feature-processor/

타임 스탬프 : 2023 년 9 월 19 일

타임 스탬프 : 21년 2023월 XNUMX일

Amazon SageMaker Feature Store Feature Processor를 사용하여 ML 통찰력을 얻으세요 | 아마존 웹 서비스

플라톤에 의해 재발행

솔루션 개요

사전 조건

기능 그룹 만들기

@feature_processor 데코레이터를 사용하여 데이터 로드

@feature_processor 코드를 원격으로 실행

SageMaker 파이프라인을 통해 기능 프로세서 운영

특성 처리 파이프라인 및 ML 계보 살펴보기

파이프라인 실행 보기

정리

결론

저자에 관하여

더보기 AWS 기계 학습

Amazon Kendra Slack 커넥터를 사용하는 지능형 검색으로 Slack 작업 공간의 지식을 풀다

Amazon QuickSight를 사용하여 지표 이상 결과에 대한 Amazon Lookout 시각화

AWS Glue 대화형 세션 및 Amazon SageMaker Studio를 사용하여 민감한 데이터를 보호하는 대규모 기능 엔지니어링

Amazon SageMaker Autopilot으로 배치 예측 수행

3부: NatWest Group이 Amazon SageMaker를 사용하여 감사 가능하고 재현 가능하며 설명 가능한 ML 모델을 구축한 방법

Amazon SageMaker 내장 LightGBM은 이제 Dask를 사용하여 분산 교육을 제공합니다.

Amazon SageMaker에서 Amazon EMR 및 RStudio 연결

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정