Amazon SageMaker 機能ストア機能プロセッサを使用して ML インサイトのロックを解除する

プラトン再発行

フォロワー： 0

Amazon SageMaker フィーチャーストア機械学習 (ML) の特徴量エンジニアリングを自動化するエンドツーエンドのソリューションを提供します。多くの ML ユースケースでは、ログファイル、センサーの読み取り値、トランザクションレコードなどの生データを、モデルのトレーニング用に最適化された有意義な特徴に変換する必要があります。

特徴の品質は、高精度の ML モデルを保証するために重要です。多くの場合、集約、エンコード、正規化、その他の操作を使用して生データを特徴に変換することが必要となり、多大な労力が必要となる場合があります。エンジニアは、ユースケースごとにカスタムデータの前処理と集計ロジックを Python または Spark で手動で作成する必要があります。

この未分化な力仕事は面倒で、繰り返しが多く、エラーが発生しやすくなります。の SageMaker 機能ストア機能プロセッサは、生データをバッチトレーニング ML モデルに適した集約された特徴に自動的に変換することで、この負担を軽減します。これにより、エンジニアはシンプルなデータ変換機能を提供し、Spark 上で大規模に実行し、基盤となるインフラストラクチャを管理できるようになります。これにより、データサイエンティストとデータエンジニアは、実装の詳細ではなく特徴エンジニアリングロジックに集中できるようになります。

この投稿では、自動車販売会社がフィーチャープロセッサーを使用して、次の XNUMX つのステップで生の販売取引データをフィーチャーに変換する方法を示します。

データ変換のローカル実行。
リモートは Spark を使用して大規模に実行されます。
パイプラインを介した運用化。

SageMaker Feature Store がどのように生データを取り込み、Spark を使用してリモートで特徴変換を実行し、結果として集約された特徴を機能グループ。これらの設計された機能は、ML モデルのトレーニングに使用できます。

このユースケースでは、SageMaker Feature Store が生の自動車販売データを構造化特徴に変換するのにどのように役立つかを見ていきます。これらの機能は、その後、次のような洞察を得るために使用されます。

2010 年の赤いコンバーチブルの平均価格と最高価格
走行距離が最も優れたモデルと価格の比較
長年にわたる新車と中古車の販売傾向
場所ごとの平均メーカー希望小売価格の違い

また、SageMaker Feature Store パイプラインが新しいデータの受信に応じてどのように機能を更新し続け、企業が長期にわたって継続的に洞察を得ることができるかについても確認しました。

ソリューションの概要

データセットを操作します car_data.csvには、同社が販売する中古車および新車のモデル、年式、状態、走行距離、価格、メーカー希望小売価格などの仕様が含まれています。次のスクリーンショットは、データセットの例を示しています。

「さまざまな車両の車種、年式、走行距離、価格、メーカー希望小売価格などの車両データの表を表示する画像。」

ソリューションノートブック feature_processor.ipynb には次の主な手順が含まれており、この投稿で説明します。

XNUMX つの機能グループを作成します。XNUMX つはと呼ばれます。 car-data 生の自動車販売記録と別の名前の car-data-aggregated 集計された自動車販売記録用。
@feature_processor データを car-data フィーチャグループにロードするデコレータ Amazon シンプルストレージサービス（Amazon S3）。
実行する @feature_processor code Spark アプリケーションとしてリモートでデータを集約します。
機能プロセッサを運用可能にする SageMaker パイプラインそして実行をスケジュールします。
機能処理パイプラインを調べて、系統 in Amazon SageMakerスタジオ.
集約された特徴を使用して ML モデルをトレーニングします。

前提条件

このチュートリアルに従うには、次のものが必要です。

この記事では以下を参考にさせていただきましたノートこれは、SageMaker Python SDK を使用して機能プロセッサを開始する方法を示しています。

機能グループの作成

機能グループを作成するには、次の手順を実行します。

の機能グループ定義を作成します。 car-data 次のように：

# Feature Group - Car Sales CAR_SALES_FG_NAME = "car-data"
CAR_SALES_FG_ARN = f"arn:aws:sagemaker:{region}:{aws_account_id}:feature-group/{CAR_SALES_FG_NAME}"
CAR_SALES_FG_ROLE_ARN = offline_store_role
CAR_SALES_FG_OFFLINE_STORE_S3_URI = f"s3://{s3_bucket}/{s3_offline_store_prefix}"
CAR_SALES_FG_FEATURE_DEFINITIONS = [
    FeatureDefinition(feature_name="id", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="model", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="model_year", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="status", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="mileage", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="price", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="msrp", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="ingest_time", feature_type=FeatureTypeEnum.FRACTIONAL),
]

特徴は、 car_data.csv データセット (Model, Year, Status, Mileage, Price, MSRP).

レコード識別子を追加します id そしてイベント時間 ingest_time 機能グループに:

CAR_SALES_FG_RECORD_IDENTIFIER_NAME = "id"
CAR_SALES_FG_EVENT_TIME_FEATURE_NAME = "ingest_time"

の機能グループ定義を作成します。 car-data-aggregated 次のように：

# Feature Group - Aggregated Car SalesAGG_CAR_SALES_FG_NAME = "car-data-aggregated"
AGG_CAR_SALES_FG_ARN = (
    f"arn:aws:sagemaker:{region}:{aws_account_id}:feature-group/{AGG_CAR_SALES_FG_NAME}"
)
AGG_CAR_SALES_FG_ROLE_ARN = offline_store_role
AGG_CAR_SALES_FG_OFFLINE_STORE_S3_URI = f"s3://{s3_bucket}/{s3_offline_store_prefix}"
AGG_CAR_SALES_FG_FEATURE_DEFINITIONS = [
    FeatureDefinition(feature_name="model_year_status", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="avg_mileage", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="max_mileage", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="avg_price", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="max_price", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="avg_msrp", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="max_msrp", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="ingest_time", feature_type=FeatureTypeEnum.FRACTIONAL),
]

集約された機能グループの場合、機能はモデル年のステータス、平均走行距離、最大走行距離、平均価格、最高価格、平均メーカー希望小売価格、最大メーカー希望小売価格、および取り込み時間です。レコード識別子を追加します model_year_status そしてイベント時間 ingest_time この機能グループに。

ここで、 car-data 機能グループ:

# Create Feature Group - Car sale records.
car_sales_fg = FeatureGroup(
    name=CAR_SALES_FG_NAME,
    feature_definitions=CAR_SALES_FG_FEATURE_DEFINITIONS,
    sagemaker_session=sagemaker_session,
) create_car_sales_fg_resp = car_sales_fg.create(
        record_identifier_name=CAR_SALES_FG_RECORD_IDENTIFIER_NAME,
        event_time_feature_name=CAR_SALES_FG_EVENT_TIME_FEATURE_NAME,
        s3_uri=CAR_SALES_FG_OFFLINE_STORE_S3_URI,
        enable_online_store=True,
        role_arn=CAR_SALES_FG_ROLE_ARN,
    )

作ります car-data-aggregated 機能グループ:

# Create Feature Group - Aggregated car sales records.
agg_car_sales_fg = FeatureGroup(
    name=AGG_CAR_SALES_FG_NAME,
    feature_definitions=AGG_CAR_SALES_FG_FEATURE_DEFINITIONS,
    sagemaker_session=sagemaker_session,
) create_agg_car_sales_fg_resp = agg_car_sales_fg.create(       record_identifier_name=AGG_CAR_SALES_FG_RECORD_IDENTIFIER_NAME,  event_time_feature_name=AGG_CAR_SALES_FG_EVENT_TIME_FEATURE_NAME,
        s3_uri=AGG_CAR_SALES_FG_OFFLINE_STORE_S3_URI,
        enable_online_store=True,
        role_arn=AGG_CAR_SALES_FG_ROLE_ARN,
    )

次の SageMaker Feature Store オプションに移動できます。且つ SageMaker Studio 上で ホーム メニューをクリックして機能グループを表示します。

Sagemaker のヘッダー付き機能ストアの画像機能グループ名と説明

@feature_processor デコレーターを使用してデータをロードする

このセクションでは、生の入力データをローカルに変換します (car_data.csv) Amazon S3 から car-data 機能ストア機能プロセッサを使用した機能グループ。この最初のローカル実行により、リモートで実行する前に開発と反復が可能になります。また、反復を高速化するために必要に応じて、データのサンプルに対して実行することもできます。

@feature_processor デコレーターの場合、変換関数は Spark ランタイム環境で実行され、関数に提供される入力引数とその戻り値は Spark DataFrame です。

インストール機能プロセッサー SDK SageMaker Python SDK 次のコマンドを使用して、その追加機能を実行します。

pip install sagemaker[feature-processor]

変換関数の入力パラメーターの数は、変換関数で構成された入力の数と一致する必要があります。 @feature_processor デコレーター。この場合、 @feature_processor デコレータが持っています car-data.csv 入力として、 car-data 機能グループを出力として表示し、これが target_store as OfflineStore:

from sagemaker.feature_store.feature_processor import (
    feature_processor,
    FeatureGroupDataSource,
    CSVDataSource,
) @feature_processor(
    inputs=[CSVDataSource(RAW_CAR_SALES_S3_URI)],
    output=CAR_SALES_FG_ARN,
    target_stores=["OfflineStore"],
)

定義 transform() データを変換する関数。この関数は次のアクションを実行します。
- 列名を小文字に変換します。
- イベント時間を追加します ingest_time コラム。
- 句読点を削除し、欠損値を NA に置き換えます。

def transform(raw_s3_data_as_df):
    """Load data from S3, perform basic feature engineering, store it in a Feature Group"""
    from pyspark.sql.functions import regexp_replace
    from pyspark.sql.functions import lit
    import time     transformed_df = (
        raw_s3_data_as_df.withColumn("Price", regexp_replace("Price", "$", ""))
        # Rename Columns
        .withColumnRenamed("Id", "id")
        .withColumnRenamed("Model", "model")
        .withColumnRenamed("Year", "model_year")
        .withColumnRenamed("Status", "status")
        .withColumnRenamed("Mileage", "mileage")
        .withColumnRenamed("Price", "price")
        .withColumnRenamed("MSRP", "msrp")
        # Add Event Time
        .withColumn("ingest_time", lit(int(time.time())))
        # Remove punctuation and fluff; replace with NA
        .withColumn("mileage", regexp_replace("mileage", "(,)|(mi.)", ""))
        .withColumn("mileage", regexp_replace("mileage", "Not available", "NA"))
        .withColumn("price", regexp_replace("price", ",", ""))
        .withColumn("msrp", regexp_replace("msrp", "(^MSRPs$)|(,)", ""))
        .withColumn("msrp", regexp_replace("msrp", "Not specified", "NA"))
        .withColumn("msrp", regexp_replace("msrp", "$d+[a-zA-Zs]+", "NA"))
        .withColumn("model", regexp_replace("model", "^dddds", ""))
    )

コール transform() データを保存する機能 car-data 機能グループ:

# Execute the FeatureProcessor
transform()

出力は、データが car-data フィーチャグループに正常に取り込まれたことを示しています。

の出力 transform_df.show() 機能は次のとおりです。

INFO:sagemaker:Ingesting transformed data to arn:aws:sagemaker:us-west-2:416578662734:feature-group/car-data with target_stores: ['OfflineStore'] +---+--------------------+----------+------+-------+--------+-----+-----------+
| id|               model|model_year|status|mileage|   price| msrp|ingest_time|
+---+--------------------+----------+------+-------+--------+-----+-----------+
|  0|    Acura TLX A-Spec|      2022|   New|     NA|49445.00|49445| 1686627154|
|  1|    Acura RDX A-Spec|      2023|   New|     NA|50895.00|   NA| 1686627154|
|  2|    Acura TLX Type S|      2023|   New|     NA|57745.00|   NA| 1686627154|
|  3|    Acura TLX Type S|      2023|   New|     NA|57545.00|   NA| 1686627154|
|  4|Acura MDX Sport H...|      2019|  Used| 32675 |40990.00|   NA| 1686627154|
|  5|    Acura TLX A-Spec|      2023|   New|     NA|50195.00|50195| 1686627154|
|  6|    Acura TLX A-Spec|      2023|   New|     NA|50195.00|50195| 1686627154|
|  7|    Acura TLX Type S|      2023|   New|     NA|57745.00|   NA| 1686627154|
|  8|    Acura TLX A-Spec|      2023|   New|     NA|47995.00|   NA| 1686627154|
|  9|    Acura TLX A-Spec|      2022|   New|     NA|49545.00|   NA| 1686627154|
| 10|Acura Integra w/A...|      2023|   New|     NA|36895.00|36895| 1686627154|
| 11|    Acura TLX A-Spec|      2023|   New|     NA|48395.00|48395| 1686627154|
| 12|Acura MDX Type S ...|      2023|   New|     NA|75590.00|   NA| 1686627154|
| 13|Acura RDX A-Spec ...|      2023|   New|     NA|55345.00|   NA| 1686627154|
| 14|    Acura TLX A-Spec|      2023|   New|     NA|50195.00|50195| 1686627154|
| 15|Acura RDX A-Spec ...|      2023|   New|     NA|55045.00|   NA| 1686627154|
| 16|    Acura TLX Type S|      2023|   New|     NA|56445.00|   NA| 1686627154|
| 17|    Acura TLX A-Spec|      2023|   New|     NA|47495.00|47495| 1686627154|
| 18|   Acura TLX Advance|      2023|   New|     NA|52245.00|52245| 1686627154|
| 19|    Acura TLX A-Spec|      2023|   New|     NA|50595.00|50595| 1686627154|
+---+--------------------+----------+------+-------+--------+-----+-----------+
only showing top 20 rows

入力データを正常に変換し、 car-data 機能グループ。

@feature_processor コードをリモートで実行する

このセクションでは、機能処理コードを Spark アプリケーションとしてリモートで実行する方法を示します。 @remote 前述したデコレータ。 Spark を使用してフィーチャ処理をリモートで実行し、大規模なデータセットに拡張します。 Spark は、単一マシンでは大きすぎるデータを処理するためにクラスター上で分散処理を提供します。の @remote Decorator は、ローカル Python コードを単一ノードまたはマルチノードの SageMaker トレーニングジョブとして実行します。

@remote デコレータと一緒に @feature_processor デコレータは次のようになります。

@remote(spark_config=SparkConfig(), instance_type = "ml.m5.xlarge", ...)
@feature_processor(inputs=[FeatureGroupDataSource(CAR_SALES_FG_ARN)],
                   output=AGG_CAR_SALES_FG_ARN, target_stores=["OfflineStore"], enable_ingestion=False )

　 spark_config パラメータは、これがとして実行されることを示します Spark application。 SparkConfig インスタンスは、Spark 構成と依存関係を構成します。

定義 aggregate() PySpark SQL とユーザー定義関数 (UDF) を使用してデータを集計する関数。この関数は次のアクションを実行します。
- 連結する model, year, status 作成する model_year_status.
- の平均を取る price 作成する avg_price.
- の最大値を取得します price 作成する max_price.
- の平均を取る mileage 作成する avg_mileage.
- の最大値を取得します mileage 作成する max_mileage.
- の平均を取る msrp 作成する avg_msrp.
- の最大値を取得します msrp 作成する max_msrp.
- グループ化する model_year_status.

def aggregate(source_feature_group, spark):
    """
    Aggregate the data using a SQL query and UDF.
    """
    import time
    from pyspark.sql.types import StringType
    from pyspark.sql.functions import udf     @udf(returnType=StringType())
    def custom_concat(*cols, delimeter: str = ""):
        return delimeter.join(cols)     spark.udf.register("custom_concat", custom_concat)     # Execute SQL string.
    source_feature_group.createOrReplaceTempView("car_data")
    aggregated_car_data = spark.sql(
        f"""
        SELECT
            custom_concat(model, "_", model_year, "_", status) as model_year_status,
            AVG(price) as avg_price,
            MAX(price) as max_price,
            AVG(mileage) as avg_mileage,
            MAX(mileage) as max_mileage,
            AVG(msrp) as avg_msrp,
            MAX(msrp) as max_msrp,
            "{int(time.time())}" as ingest_time
        FROM car_data
        GROUP BY model_year_status
        """
    )     aggregated_car_data.show()     return aggregated_car_data

実行する aggregate() Spark アプリケーションを実行するための SageMaker トレーニングジョブを作成する関数:

# Execute the aggregate function
aggregate()

その結果、SageMaker は、前に定義した Spark アプリケーションに対するトレーニングジョブを作成します。を使用して Spark ランタイム環境を作成します。 sagemaker-spark-processing image.

ここでは SageMaker Training ジョブを使用して、Spark 機能処理アプリケーションを実行します。 SageMaker Training では、SageMaker Processing では利用できないウォームプーリングを使用して、起動時間を 1 分以下に短縮できます。これにより、SageMaker Training は、起動時間が重要な機能処理などの短いバッチジョブに対してより適切に最適化されます。

詳細を表示するには、SageMaker コンソールで、 トレーニングの仕事 下 トレーニング ナビゲーションペインで、次の名前のジョブを選択します。 aggregate-<timestamp>.

画像は Sagemaker トレーニングジョブを示しています

の出力 集計（） 関数はテレメトリコードを生成します。出力内には、次のように集計されたデータが表示されます。

+--------------------+------------------+---------+------------------+-----------+--------+--------+-----------+
|   model_year_status|         avg_price|max_price|       avg_mileage|max_mileage|avg_msrp|max_msrp|ingest_time|
+--------------------+------------------+---------+------------------+-----------+--------+--------+-----------+
|Acura CL 3.0_1997...|            7950.0|  7950.00|          100934.0|    100934 |    null|      NA| 1686634807|
|Acura CL 3.2 Type...|            6795.0|  7591.00|          118692.5|    135760 |    null|      NA| 1686634807|
|Acura CL 3_1998_Used|            9899.0|  9899.00|           63000.0|     63000 |    null|      NA| 1686634807|
|Acura ILX 2.0L Te...|         14014.125| 18995.00|         95534.875|     89103 |    null|      NA| 1686634807|
|Acura ILX 2.0L Te...|           15008.2| 16998.00|           94935.0|     88449 |    null|      NA| 1686634807|
|Acura ILX 2.0L Te...|           16394.6| 19985.00|           97719.4|     80000 |    null|      NA| 1686634807|
|Acura ILX 2.0L w/...|14567.181818181818| 16999.00| 96624.72727272728|     98919 |    null|      NA| 1686634807|
|Acura ILX 2.0L w/...|           16673.4| 18995.00|           84848.6|     96637 |    null|      NA| 1686634807|
|Acura ILX 2.0L w/...|12580.333333333334| 14546.00|100207.33333333333|     95782 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|         14565.375| 17590.00|         92941.125|     81842 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|           14877.9|  9995.00|           99739.5|     89252 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|           15659.5| 15660.00|           82136.0|     89942 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|17121.785714285714| 20990.00| 78278.14285714286|     96067 |    null|      NA| 1686634807|
|Acura ILX 2.4L (A...|           17846.0| 21995.00|          101558.0|     85974 |    null|      NA| 1686634807|
|Acura ILX 2.4L Pr...|           16327.0| 16995.00|           85238.0|     95356 |    null|      NA| 1686634807|
|Acura ILX 2.4L w/...|           12846.0| 12846.00|           75209.0|     75209 |    null|      NA| 1686634807|
|Acura ILX 2.4L_20...|           18998.0| 18998.00|           51002.0|     51002 |    null|      NA| 1686634807|
|Acura ILX 2.4L_20...|17908.615384615383| 19316.00| 74325.38461538461|     89116 |    null|      NA| 1686634807|
|Acura ILX 4DR SDN...|           18995.0| 18995.00|           37017.0|     37017 |    null|      NA| 1686634807|
|Acura ILX 8-SPD_2...|           24995.0| 24995.00|           22334.0|     22334 |    null|      NA| 1686634807|
+--------------------+------------------+---------+------------------+-----------+--------+--------+-----------+
only showing top 20 rows

トレーニングジョブが完了すると、次の出力が表示されるはずです。

06-13 05:40 smspark-submit INFO     spark submit was successful. primary node exiting.
Training seconds: 153
Billable seconds: 153

SageMaker パイプライン経由で機能プロセッサを運用可能にする

このセクションでは、機能プロセッサを SageMaker パイプラインにプロモートし、実行をスケジュールすることで、機能プロセッサを運用可能にする方法を示します。

まず、アップロードします 変換コード.py Amazon S3 への機能処理ロジックを含むファイル:

car_data_s3_uri = s3_path_join("s3://", sagemaker_session.default_bucket(),
                               'transformation_code', 'car-data-ingestion.py')
S3Uploader.upload(local_path='car-data-ingestion.py', desired_s3_uri=car_data_s3_uri)
print(car_data_s3_uri)

次に、Feature Processor パイプラインを作成します。 車のデータパイプライン .to_pipeline() 関数：

car_data_pipeline_name = f"{CAR_SALES_FG_NAME}-ingestion-pipeline"
car_data_pipeline_arn = fp.to_pipeline(pipeline_name=car_data_pipeline_name,
                                      step=transform,
                                      transformation_code=TransformationCode(s3_uri=car_data_s3_uri) )
print(f"Created SageMaker Pipeline: {car_data_pipeline_arn}.")

パイプラインを実行するには、次のコードを使用します。

car_data_pipeline_execution_arn = fp.execute(pipeline_name=car_data_pipeline_name)
print(f"Started an execution with execution arn: {car_data_pipeline_execution_arn}")

同様に、次のような集約機能のパイプラインを作成できます。 car_data_aggregated_pipeline そしてランニングを開始します。
スケジュールする car_data_aggregated_pipeline 24 時間ごとに実行するには:

fp.schedule(pipeline_name=car_data_aggregated_pipeline_name,
           schedule_expression="rate(24 hours)", state="ENABLED")
print(f"Created a schedule.")

出力セクションには、パイプラインの ARN とパイプライン実行ロール、およびスケジュールの詳細が表示されます。

{'pipeline_arn': 'arn:aws:sagemaker:us-west-2:416578662734:pipeline/car-data-aggregated-ingestion-pipeline',
 'pipeline_execution_role_arn': 'arn:aws:iam::416578662734:role/service-role/AmazonSageMaker-ExecutionRole-20230612T120731',
 'schedule_arn': 'arn:aws:scheduler:us-west-2:416578662734:schedule/default/car-data-aggregated-ingestion-pipeline',
 'schedule_expression': 'rate(24 hours)',
 'schedule_state': 'ENABLED',
 'schedule_start_date': '2023-06-13T06:05:17Z',
 'schedule_role': 'arn:aws:iam::416578662734:role/service-role/AmazonSageMaker-ExecutionRole-20230612T120731'}

このアカウントのすべてのフィーチャープロセッサパイプラインを取得するには、 list_pipelines() 機能プロセッサーの関数:

fp.list_pipelines()

出力は次のようになります。

[{'pipeline_name': 'car-data-aggregated-ingestion-pipeline'},
 {'pipeline_name': 'car-data-ingestion-pipeline'}]

SageMaker Feature Processor パイプラインの作成に成功しました。

機能処理パイプラインと ML リネージュを調べる

SageMaker Studio で、次の手順を実行します。

SageMaker Studio コンソール上で、 ホーム メニュー、選択 パイプライン.

パイプラインオプションを強調表示する Sagemaker Studio のホームタブの画像

XNUMX つのパイプラインが作成されたことがわかります。 car-data-ingestion-pipeline および car-data-aggregated-ingestion-pipeline.

Sagemaker Studio パイプラインのイメージとパイプラインのリスト

選択する car-data-ingestion-pipeline.

実行の詳細が表示されます実行タブには何も表示されないことに注意してください。

自動車データ取り込みパイプラインの Sagemaker Studio のイメージ

パイプラインによって設定された機能グループを表示するには、 フィーチャーストア 下且つ選択して car-data.

Sagemaker Studio ホームハイライトデータの画像

前の手順で作成した XNUMX つの機能グループが表示されます。

機能グループが作成された Sagemaker Studio のイメージ

選択する car-data 機能グループ。

機能の詳細は、特徴タブには何も表示されないことに注意してください。

機能グループとグループ内の機能を備えた Sagemaker Studio のイメージ

パイプラインの実行を表示する

パイプラインの実行を表示するには、次の手順を実行します。

ソフトウェア設定ページで、下図のように パイプラインの実行タブで選択します car-data-ingestion-pipeline.

Amazon SageMaker Feature Store 機能プロセッサーを使用して ML の洞察を解き放つ |アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。

これにより、すべての実行が表示されます。

画像はパイプライン実行の Sagemaker 機能グループタブを示しています

いずれかのリンクを選択すると、実行の詳細が表示されます。

画像は、実行中のパイプラインを含む sagemaker UI を示しています

系統を表示するには、[系統] を選択します。

完全な血統 car-data 入力データソースを示します car_data.csv そして上流のエンティティ。の系譜 car-data-aggregated 入力を示します car-data 機能グループ。

自動車データの特徴群の Sagemaker UI のイメージ

選択する ロード機能 それから、 上流系統のクエリ on car-data および car-data-ingestion-pipeline すべての上流エンティティを表示します。

完全な血統 car-data 機能グループは次のスクリーンショットのようになります。

画像は、車の系統を含む Sagemaker フィーチャーストアを示しています

同様に、 car-aggregated-data 機能グループは次のスクリーンショットのようになります。

画像は Sagemaker 機能ストア UI からの集約された機能グループをシューします

SageMaker Studio は、スケジュールされたパイプラインを追跡し、実行を表示し、リネージを探索し、機能処理コードを表示するための単一環境を提供します。

平均価格、最高価格、平均走行距離などの集約された機能は、 car-data-aggregated 機能グループは、データの性質についての洞察を提供します。これらの特徴をデータセットとして使用して、自動車の価格を予測するためのモデルをトレーニングしたり、その他の操作を行うこともできます。ただし、モデルのトレーニングはこの投稿の範囲外であり、特徴エンジニアリングのための SageMaker Feature Store 機能のデモに重点を置いています。

クリーンアップ

継続的な料金が発生しないように、この記事の一部として作成されたリソースをクリーンアップすることを忘れないでください。

スケジュールされたパイプラインを無効にします。 fp.schedule() stateパラメータを次のように指定したメソッド Disabled:

# Disable the scheduled pipeline
fp.schedule(
pipeline_name=car_data_aggregated_pipeline_name,
schedule_expression="rate(24 hours)",
state="DISABLED",
)

両方の機能グループを削除します。

# Delete feature groups
car_sales_fg.delete()
agg_car_sales_fg.delete()

S3 バケットおよびオフライン機能ストアに存在するデータにはコストが発生する可能性があるため、料金が発生しないようにデータを削除する必要があります。

S3 オブジェクトを削除する.
レコードを削除します機能ストアから。

まとめ

この投稿では、自動車販売会社が SageMaker Feature Store 機能プロセッサを使用して、次の方法で生の販売データから貴重な洞察を得る方法を示しました。

Spark を使用した大規模なバッチデータの取り込みと変換
SageMaker パイプラインを介した機能エンジニアリングワークフローの運用化
リネージ追跡と、パイプラインを監視して機能を探索するための単一環境を提供します。
ML モデルのトレーニングに最適化された集約された特徴の準備

これらの手順に従うことで、同社は以前は使用できなかったデータを構造化された特徴に変換し、それを使用して自動車価格を予測するモデルをトレーニングすることができました。 SageMaker Feature Store により、基盤となるインフラストラクチャではなく機能エンジニアリングに集中できるようになりました。

この投稿が、SageMaker Feature Store 機能プロセッサを使用して独自のデータから貴重な ML の洞察を引き出すのに役立つことを願っています。

詳細については、を参照してください。特徴処理と SageMaker の例 Amazon SageMaker 機能ストア: 機能プロセッサの概要.

著者について

ダヴァル・シャー AWS のシニアソリューションアーキテクトであり、機械学習を専門としています。デジタルネイティブビジネスに重点を置き、顧客が AWS を活用してビジネスの成長を促進できるように支援します。 ML 愛好家である Dhaval は、前向きな変化をもたらす影響力のあるソリューションを作成するという情熱に突き動かされています。余暇には旅行を満喫し、家族との充実した時間を大切にしています。

Amazon SageMaker Feature Store 機能プロセッサーを使用して ML の洞察を解き放つ |アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。 ニナド・ジョシ AWS のシニアソリューションアーキテクトであり、世界中の AWS 顧客がクラウド上で安全でスケーラブルでコスト効率の高いソリューションを設計し、現実世界の複雑なビジネス課題を解決できるよう支援しています。機械学習 (ML) における彼の仕事は、エンドツーエンド ML、自然言語処理、コンピュータービジョンに主に焦点を当て、幅広い AI/ML ユースケースをカバーしています。 AWS に入社する前は、Ninad はソフトウェア開発者として 12 年以上働いていました。プロとしての活動以外でも、ニナドはチェスをしたり、さまざまな戦略を模索したりすることを楽しんでいます。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/unlock-ml-insights-using-the-amazon-sagemaker-feature-store-feature-processor/

タイムスタンプ： 2023 年 9 月 19 日

タイムスタンプ： 2022 年 9 月 9 日

Amazon SageMaker Feature Store 機能プロセッサーを使用して ML の洞察を解き放つ | アマゾンウェブサービス

プラトン再発行

ソリューションの概要

前提条件

機能グループの作成

@feature_processor デコレーターを使用してデータをロードする

@feature_processor コードをリモートで実行する

SageMaker パイプライン経由で機能プロセッサを運用可能にする

機能処理パイプラインと ML リネージュを調べる

パイプラインの実行を表示する

クリーンアップ

まとめ

著者について

より多くの AWS機械学習

Amazon Transcribe、Amazon Translate、AmazonPollyで言語の壁を打ち破る

Talkdesk CX Cloud コンタクトセンターで Amazon Lex を使用して強力なセルフサービスエクスペリエンスを作成する

Amazon Transcribe | トランスクリプトを段落に整理します。アマゾンウェブサービス

Amazon SageMaker の地理空間機能を使用して農業データプラットフォームを構築する

AmazonSageMakerとAWSSSOによるチームとユーザーの管理

Snowflake をデータソースとして使用して、Amazon SageMaker で ML モデルをトレーニングする

Amp on Amazon がデータを使用してカスタマーエンゲージメントを向上させた方法、パート 2: Amazon SageMaker を使用してパーソナライズされた番組レコメンデーションプラットフォームを構築する

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー