Sblocca insight ML utilizzando il processore di funzionalità del Feature Store di Amazon SageMaker

Ripubblicato da Platone

Seguaci: 0

Negozio di funzionalità Amazon SageMaker fornisce una soluzione end-to-end per automatizzare l'ingegneria delle funzionalità per l'apprendimento automatico (ML). Per molti casi d'uso del machine learning, i dati grezzi come file di registro, letture di sensori o record di transazioni devono essere trasformati in funzionalità significative ottimizzate per l'addestramento del modello.

La qualità delle funzionalità è fondamentale per garantire un modello ML estremamente accurato. La trasformazione dei dati grezzi in funzionalità mediante aggregazione, codifica, normalizzazione e altre operazioni è spesso necessaria e può richiedere uno sforzo significativo. Gli ingegneri devono scrivere manualmente la logica personalizzata di preelaborazione e aggregazione dei dati in Python o Spark per ogni caso d'uso.

Questo lavoro pesante indifferenziato è ingombrante, ripetitivo e soggetto a errori. IL Processore di funzionalità del negozio di funzionalità SageMaker riduce questo onere trasformando automaticamente i dati grezzi in funzionalità aggregate adatte per l'addestramento in batch di modelli ML. Consente agli ingegneri di fornire semplici funzioni di trasformazione dei dati, quindi di gestirle su larga scala su Spark e di gestire l'infrastruttura sottostante. Ciò consente ai data scientist e agli ingegneri dei dati di concentrarsi sulla logica di progettazione delle funzionalità piuttosto che sui dettagli di implementazione.

In questo post, dimostriamo come un'azienda di vendita di automobili può utilizzare il Feature Processor per trasformare i dati grezzi delle transazioni di vendita in funzionalità in tre passaggi:

Esecuzioni locali di trasformazioni di dati.
Esecuzioni remote su larga scala utilizzando Spark.
Operazionalizzazione tramite pipeline.

Mostriamo come SageMaker Feature Store acquisisce i dati grezzi, esegue trasformazioni di funzionalità in remoto utilizzando Spark e carica le funzionalità aggregate risultanti in un file gruppo di funzionalità. Queste funzionalità progettate possono quindi essere utilizzate per addestrare modelli ML.

Per questo caso d'uso, vediamo come SageMaker Feature Store aiuta a convertire i dati grezzi sulle vendite di auto in funzionalità strutturate. Queste funzionalità vengono successivamente utilizzate per ottenere approfondimenti come:

Prezzo medio e massimo delle decappottabili rosse dal 2010
Modelli con il miglior chilometraggio rispetto al prezzo
Andamento delle vendite di auto nuove e usate nel corso degli anni
Differenze nel prezzo consigliato medio tra le località

Vediamo anche come le pipeline di SageMaker Feature Store mantengono aggiornate le funzionalità man mano che arrivano nuovi dati, consentendo all'azienda di acquisire continuamente informazioni dettagliate nel tempo.

Panoramica della soluzione

Lavoriamo con il set di dati car_data.csv, che contiene specifiche quali modello, anno, stato, chilometraggio, prezzo e prezzo consigliato per le auto nuove e usate vendute dall'azienda. Lo screenshot seguente mostra un esempio del set di dati.

"Immagine che mostra una tabella di dati dell'auto, inclusi modello, anno, chilometraggio, prezzo e prezzo consigliato per vari veicoli."

Il quaderno delle soluzioni feature_processor.ipynb contiene i seguenti passaggi principali, che spieghiamo in questo post:

Crea due gruppi di funzionalità: uno chiamato car-data per i record grezzi di vendite di auto e un altro chiamato car-data-aggregated per i record aggregati delle vendite di automobili.
Usa il @feature_processor decoratore da cui caricare i dati nel gruppo di funzionalità car-data Servizio di archiviazione semplice Amazon (Amazon S3).
Corri il @feature_processor code in remoto come applicazione Spark per aggregare i dati.
Rendere operativo il processore di funzionalità tramite Pipeline SageMaker e le corse programmate.
Esplora le pipeline di elaborazione delle funzionalità e lignaggio in Amazon Sage Maker Studio.
Utilizza funzionalità aggregate per addestrare un modello ML.

Prerequisiti

Per seguire questo tutorial, è necessario quanto segue:

Per questo post facciamo riferimento a quanto segue taccuino, che illustra come iniziare a utilizzare Feature Processor utilizzando SageMaker Python SDK.

Crea gruppi di funzionalità

Per creare i gruppi di funzionalità, completare i seguenti passaggi:

Creare una definizione di gruppo di funzionalità per car-data come segue:

# Feature Group - Car Sales CAR_SALES_FG_NAME = "car-data"
CAR_SALES_FG_ARN = f"arn:aws:sagemaker:{region}:{aws_account_id}:feature-group/{CAR_SALES_FG_NAME}"
CAR_SALES_FG_ROLE_ARN = offline_store_role
CAR_SALES_FG_OFFLINE_STORE_S3_URI = f"s3://{s3_bucket}/{s3_offline_store_prefix}"
CAR_SALES_FG_FEATURE_DEFINITIONS = [
    FeatureDefinition(feature_name="id", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="model", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="model_year", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="status", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="mileage", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="price", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="msrp", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="ingest_time", feature_type=FeatureTypeEnum.FRACTIONAL),
]

Le caratteristiche corrispondono a ciascuna colonna del car_data.csv set di dati (Model, Year, Status, Mileage, Pricee MSRP).

Aggiungi l'identificatore del record id e l'orario dell'evento ingest_time al gruppo di funzionalità:

CAR_SALES_FG_RECORD_IDENTIFIER_NAME = "id"
CAR_SALES_FG_EVENT_TIME_FEATURE_NAME = "ingest_time"

Creare una definizione di gruppo di funzionalità per car-data-aggregated come segue:

# Feature Group - Aggregated Car SalesAGG_CAR_SALES_FG_NAME = "car-data-aggregated"
AGG_CAR_SALES_FG_ARN = (
    f"arn:aws:sagemaker:{region}:{aws_account_id}:feature-group/{AGG_CAR_SALES_FG_NAME}"
)
AGG_CAR_SALES_FG_ROLE_ARN = offline_store_role
AGG_CAR_SALES_FG_OFFLINE_STORE_S3_URI = f"s3://{s3_bucket}/{s3_offline_store_prefix}"
AGG_CAR_SALES_FG_FEATURE_DEFINITIONS = [
    FeatureDefinition(feature_name="model_year_status", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="avg_mileage", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="max_mileage", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="avg_price", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="max_price", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="avg_msrp", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="max_msrp", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="ingest_time", feature_type=FeatureTypeEnum.FRACTIONAL),
]

Per il gruppo di funzionalità aggregate, le funzionalità sono stato dell'anno del modello, chilometraggio medio, chilometraggio massimo, prezzo medio, prezzo massimo, prezzo consigliato medio, prezzo consigliato massimo e tempo di acquisizione. Aggiungiamo l'identificatore del record model_year_status e l'orario dell'evento ingest_time a questo gruppo di funzionalità.

Ora crea il file car-data gruppo di funzioni:

# Create Feature Group - Car sale records.
car_sales_fg = FeatureGroup(
    name=CAR_SALES_FG_NAME,
    feature_definitions=CAR_SALES_FG_FEATURE_DEFINITIONS,
    sagemaker_session=sagemaker_session,
) create_car_sales_fg_resp = car_sales_fg.create(
        record_identifier_name=CAR_SALES_FG_RECORD_IDENTIFIER_NAME,
        event_time_feature_name=CAR_SALES_FG_EVENT_TIME_FEATURE_NAME,
        s3_uri=CAR_SALES_FG_OFFLINE_STORE_S3_URI,
        enable_online_store=True,
        role_arn=CAR_SALES_FG_ROLE_ARN,
    )

creare il car-data-aggregated gruppo di funzioni:

# Create Feature Group - Aggregated car sales records.
agg_car_sales_fg = FeatureGroup(
    name=AGG_CAR_SALES_FG_NAME,
    feature_definitions=AGG_CAR_SALES_FG_FEATURE_DEFINITIONS,
    sagemaker_session=sagemaker_session,
) create_agg_car_sales_fg_resp = agg_car_sales_fg.create(       record_identifier_name=AGG_CAR_SALES_FG_RECORD_IDENTIFIER_NAME,  event_time_feature_name=AGG_CAR_SALES_FG_EVENT_TIME_FEATURE_NAME,
        s3_uri=AGG_CAR_SALES_FG_OFFLINE_STORE_S3_URI,
        enable_online_store=True,
        role_arn=AGG_CAR_SALES_FG_ROLE_ARN,
    )

Puoi accedere all'opzione SageMaker Feature Store sotto Dati su SageMaker Studio Casa menu per visualizzare i gruppi di funzionalità.

Immagine dal negozio di funzionalità Sagemaker con intestazioni Nome e descrizione del gruppo di funzionalità

Utilizza il decoratore @feature_processor per caricare i dati

In questa sezione trasformiamo localmente i dati grezzi di input (car_data.csv) da Amazon S3 nel file car-data gruppo di funzionalità utilizzando il processore di funzionalità dell'archivio funzionalità. Questa esecuzione locale iniziale ci consente di sviluppare ed eseguire l'iterazione prima dell'esecuzione in remoto e, se lo si desidera, potrebbe essere eseguita su un campione di dati per un'iterazione più rapida.

Grazie alla @feature_processor decoratore, la funzione di trasformazione viene eseguita in un ambiente runtime Spark in cui gli argomenti di input forniti alla funzione e il relativo valore restituito sono Spark DataFrames.

installare il Funzionalità SDK del processore dal SDK Python di SageMaker e i suoi extra utilizzando il seguente comando:

pip install sagemaker[feature-processor]

Il numero di parametri di input nella funzione di trasformazione deve corrispondere al numero di input configurati in @feature_processor decoratore. In questo caso, il @feature_processor il decoratore ha car-data.csv come input e il car-data gruppo di funzionalità come output, indicando che si tratta di un'operazione batch con il file target_store as OfflineStore:

from sagemaker.feature_store.feature_processor import (
    feature_processor,
    FeatureGroupDataSource,
    CSVDataSource,
) @feature_processor(
    inputs=[CSVDataSource(RAW_CAR_SALES_S3_URI)],
    output=CAR_SALES_FG_ARN,
    target_stores=["OfflineStore"],
)

Definire il transform() funzione per trasformare i dati. Questa funzione esegue le seguenti azioni:
- Converti i nomi delle colonne in minuscolo.
- Aggiungi l'ora dell'evento al file ingest_time colonna.
- Rimuovi la punteggiatura e sostituisci i valori mancanti con NA.

def transform(raw_s3_data_as_df):
    """Load data from S3, perform basic feature engineering, store it in a Feature Group"""
    from pyspark.sql.functions import regexp_replace
    from pyspark.sql.functions import lit
    import time     transformed_df = (
        raw_s3_data_as_df.withColumn("Price", regexp_replace("Price", "$", ""))
        # Rename Columns
        .withColumnRenamed("Id", "id")
        .withColumnRenamed("Model", "model")
        .withColumnRenamed("Year", "model_year")
        .withColumnRenamed("Status", "status")
        .withColumnRenamed("Mileage", "mileage")
        .withColumnRenamed("Price", "price")
        .withColumnRenamed("MSRP", "msrp")
        # Add Event Time
        .withColumn("ingest_time", lit(int(time.time())))
        # Remove punctuation and fluff; replace with NA
        .withColumn("mileage", regexp_replace("mileage", "(,)|(mi.)", ""))
        .withColumn("mileage", regexp_replace("mileage", "Not available", "NA"))
        .withColumn("price", regexp_replace("price", ",", ""))
        .withColumn("msrp", regexp_replace("msrp", "(^MSRPs$)|(,)", ""))
        .withColumn("msrp", regexp_replace("msrp", "Not specified", "NA"))
        .withColumn("msrp", regexp_replace("msrp", "$d+[a-zA-Zs]+", "NA"))
        .withColumn("model", regexp_replace("model", "^dddds", ""))
    )

Chiama il transform() funzione per memorizzare i dati nel file car-data gruppo di funzioni:

# Execute the FeatureProcessor
transform()

L'output mostra che i dati sono stati inseriti correttamente nel gruppo di funzionalità car-data.

L'output di transform_df.show() la funzione è la seguente:

INFO:sagemaker:Ingesting transformed data to arn:aws:sagemaker:us-west-2:416578662734:feature-group/car-data with target_stores: ['OfflineStore'] +---+--------------------+----------+------+-------+--------+-----+-----------+
| id|               model|model_year|status|mileage|   price| msrp|ingest_time|
+---+--------------------+----------+------+-------+--------+-----+-----------+
|  0|    Acura TLX A-Spec|      2022|   New|     NA|49445.00|49445| 1686627154|
|  1|    Acura RDX A-Spec|      2023|   New|     NA|50895.00|   NA| 1686627154|
|  2|    Acura TLX Type S|      2023|   New|     NA|57745.00|   NA| 1686627154|
|  3|    Acura TLX Type S|      2023|   New|     NA|57545.00|   NA| 1686627154|
|  4|Acura MDX Sport H...|      2019|  Used| 32675 |40990.00|   NA| 1686627154|
|  5|    Acura TLX A-Spec|      2023|   New|     NA|50195.00|50195| 1686627154|
|  6|    Acura TLX A-Spec|      2023|   New|     NA|50195.00|50195| 1686627154|
|  7|    Acura TLX Type S|      2023|   New|     NA|57745.00|   NA| 1686627154|
|  8|    Acura TLX A-Spec|      2023|   New|     NA|47995.00|   NA| 1686627154|
|  9|    Acura TLX A-Spec|      2022|   New|     NA|49545.00|   NA| 1686627154|
| 10|Acura Integra w/A...|      2023|   New|     NA|36895.00|36895| 1686627154|
| 11|    Acura TLX A-Spec|      2023|   New|     NA|48395.00|48395| 1686627154|
| 12|Acura MDX Type S ...|      2023|   New|     NA|75590.00|   NA| 1686627154|
| 13|Acura RDX A-Spec ...|      2023|   New|     NA|55345.00|   NA| 1686627154|
| 14|    Acura TLX A-Spec|      2023|   New|     NA|50195.00|50195| 1686627154|
| 15|Acura RDX A-Spec ...|      2023|   New|     NA|55045.00|   NA| 1686627154|
| 16|    Acura TLX Type S|      2023|   New|     NA|56445.00|   NA| 1686627154|
| 17|    Acura TLX A-Spec|      2023|   New|     NA|47495.00|47495| 1686627154|
| 18|   Acura TLX Advance|      2023|   New|     NA|52245.00|52245| 1686627154|
| 19|    Acura TLX A-Spec|      2023|   New|     NA|50595.00|50595| 1686627154|
+---+--------------------+----------+------+-------+--------+-----+-----------+
only showing top 20 rows

Abbiamo trasformato con successo i dati di input e li abbiamo inseriti nel file car-data gruppo di funzionalità.

Esegui il codice @feature_processor da remoto

In questa sezione viene illustrata l'esecuzione del codice di elaborazione delle funzionalità in remoto come applicazione Spark utilizzando il file @remote decoratore descritto in precedenza. Eseguiamo l'elaborazione delle funzionalità in remoto utilizzando Spark per scalare set di dati di grandi dimensioni. Spark fornisce l'elaborazione distribuita su cluster per gestire dati troppo grandi per una singola macchina. IL @remote decorator esegue il codice Python locale come un lavoro di training SageMaker a nodo singolo o multi-nodo.

Usa il @remote decoratore insieme al @feature_processor decoratore come segue:

@remote(spark_config=SparkConfig(), instance_type = "ml.m5.xlarge", ...)
@feature_processor(inputs=[FeatureGroupDataSource(CAR_SALES_FG_ARN)],
                   output=AGG_CAR_SALES_FG_ARN, target_stores=["OfflineStore"], enable_ingestion=False )

Il spark_config Il parametro indica che questo viene eseguito come a Spark application. L'istanza SparkConfig configura la configurazione e le dipendenze di Spark.

Definire il aggregate() funzione per aggregare i dati utilizzando PySpark SQL e funzioni definite dall'utente (UDF). Questa funzione esegue le seguenti azioni:
- Concatenare model, yeare status creare model_year_status.
- Prendi la media di price creare avg_price.
- Prendi il valore massimo di price creare max_price.
- Prendi la media di mileage creare avg_mileage.
- Prendi il valore massimo di mileage creare max_mileage.
- Prendi la media di msrp creare avg_msrp.
- Prendi il valore massimo di msrp creare max_msrp.
- Raggruppa per model_year_status.

def aggregate(source_feature_group, spark):
    """
    Aggregate the data using a SQL query and UDF.
    """
    import time
    from pyspark.sql.types import StringType
    from pyspark.sql.functions import udf     @udf(returnType=StringType())
    def custom_concat(*cols, delimeter: str = ""):
        return delimeter.join(cols)     spark.udf.register("custom_concat", custom_concat)     # Execute SQL string.
    source_feature_group.createOrReplaceTempView("car_data")
    aggregated_car_data = spark.sql(
        f"""
        SELECT
            custom_concat(model, "_", model_year, "_", status) as model_year_status,
            AVG(price) as avg_price,
            MAX(price) as max_price,
            AVG(mileage) as avg_mileage,
            MAX(mileage) as max_mileage,
            AVG(msrp) as avg_msrp,
            MAX(msrp) as max_msrp,
            "{int(time.time())}" as ingest_time
        FROM car_data
        GROUP BY model_year_status
        """
    )     aggregated_car_data.show()     return aggregated_car_data

Corri il aggregate() funzione, che crea un processo di formazione SageMaker per eseguire l'applicazione Spark:

# Execute the aggregate function
aggregate()

Di conseguenza, SageMaker crea un processo di training per l'applicazione Spark definita in precedenza. Creerà un ambiente runtime Spark utilizzando il file sagemaker-spark-processing image.

Utilizziamo i lavori di formazione SageMaker qui per eseguire la nostra applicazione di elaborazione delle funzionalità Spark. Con SageMaker Training, puoi ridurre i tempi di avvio a 1 minuto o meno utilizzando il warm pooling, che non è disponibile in SageMaker Processing. Ciò rende la formazione SageMaker più ottimizzata per lavori batch brevi come l'elaborazione di funzionalità in cui il tempo di avvio è importante.

Per visualizzare i dettagli, sulla console SageMaker, scegli Lavori di formazione per Training nel riquadro di navigazione, quindi scegli il lavoro con il nome aggregate-<timestamp>.

L'immagine mostra il lavoro di formazione di Sagemaker

L'output di aggregato() la funzione genera il codice di telemetria. All'interno dell'output, vedrai i dati aggregati come segue:

+--------------------+------------------+---------+------------------+-----------+--------+--------+-----------+
|   model_year_status|         avg_price|max_price|       avg_mileage|max_mileage|avg_msrp|max_msrp|ingest_time|
+--------------------+------------------+---------+------------------+-----------+--------+--------+-----------+
|Acura CL 3.0_1997...|            7950.0|  7950.00|          100934.0|    100934 |    null|      NA| 1686634807|
|Acura CL 3.2 Type...|            6795.0|  7591.00|          118692.5|    135760 |    null|      NA| 1686634807|
|Acura CL 3_1998_Used|            9899.0|  9899.00|           63000.0|     63000 |    null|      NA| 1686634807|
|Acura ILX 2.0L Te...|         14014.125| 18995.00|         95534.875|     89103 |    null|      NA| 1686634807|
|Acura ILX 2.0L Te...|           15008.2| 16998.00|           94935.0|     88449 |    null|      NA| 1686634807|
|Acura ILX 2.0L Te...|           16394.6| 19985.00|           97719.4|     80000 |    null|      NA| 1686634807|
|Acura ILX 2.0L w/...|14567.181818181818| 16999.00| 96624.72727272728|     98919 |    null|      NA| 1686634807|
|Acura ILX 2.0L w/...|           16673.4| 18995.00|           84848.6|     96637 |    null|      NA| 1686634807|
|Acura ILX 2.0L w/...|12580.333333333334| 14546.00|100207.33333333333|     95782 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|         14565.375| 17590.00|         92941.125|     81842 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|           14877.9|  9995.00|           99739.5|     89252 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|           15659.5| 15660.00|           82136.0|     89942 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|17121.785714285714| 20990.00| 78278.14285714286|     96067 |    null|      NA| 1686634807|
|Acura ILX 2.4L (A...|           17846.0| 21995.00|          101558.0|     85974 |    null|      NA| 1686634807|
|Acura ILX 2.4L Pr...|           16327.0| 16995.00|           85238.0|     95356 |    null|      NA| 1686634807|
|Acura ILX 2.4L w/...|           12846.0| 12846.00|           75209.0|     75209 |    null|      NA| 1686634807|
|Acura ILX 2.4L_20...|           18998.0| 18998.00|           51002.0|     51002 |    null|      NA| 1686634807|
|Acura ILX 2.4L_20...|17908.615384615383| 19316.00| 74325.38461538461|     89116 |    null|      NA| 1686634807|
|Acura ILX 4DR SDN...|           18995.0| 18995.00|           37017.0|     37017 |    null|      NA| 1686634807|
|Acura ILX 8-SPD_2...|           24995.0| 24995.00|           22334.0|     22334 |    null|      NA| 1686634807|
+--------------------+------------------+---------+------------------+-----------+--------+--------+-----------+
only showing top 20 rows

Una volta completato il lavoro di formazione, dovresti vedere il seguente output:

06-13 05:40 smspark-submit INFO     spark submit was successful. primary node exiting.
Training seconds: 153
Billable seconds: 153

Rendi operativo il processore di funzionalità tramite pipeline SageMaker

In questa sezione, dimostriamo come rendere operativo il processore di funzionalità promuovendolo a una pipeline SageMaker e pianificando le esecuzioni.

Per prima cosa carica il file trasformazione_codice.py file contenente la logica di elaborazione delle funzionalità su Amazon S3:

car_data_s3_uri = s3_path_join("s3://", sagemaker_session.default_bucket(),
                               'transformation_code', 'car-data-ingestion.py')
S3Uploader.upload(local_path='car-data-ingestion.py', desired_s3_uri=car_data_s3_uri)
print(car_data_s3_uri)

Creare quindi una pipeline Processore di funzionalità car_data_pipeline usando il .to_pipeline() funzione:

car_data_pipeline_name = f"{CAR_SALES_FG_NAME}-ingestion-pipeline"
car_data_pipeline_arn = fp.to_pipeline(pipeline_name=car_data_pipeline_name,
                                      step=transform,
                                      transformation_code=TransformationCode(s3_uri=car_data_s3_uri) )
print(f"Created SageMaker Pipeline: {car_data_pipeline_arn}.")

Per eseguire la pipeline, utilizzare il codice seguente:

car_data_pipeline_execution_arn = fp.execute(pipeline_name=car_data_pipeline_name)
print(f"Started an execution with execution arn: {car_data_pipeline_execution_arn}")

Allo stesso modo, puoi creare una pipeline per funzionalità aggregate chiamate car_data_aggregated_pipeline e iniziare una corsa.
Pianifica il file car_data_aggregated_pipeline da eseguire ogni 24 ore:

fp.schedule(pipeline_name=car_data_aggregated_pipeline_name,
           schedule_expression="rate(24 hours)", state="ENABLED")
print(f"Created a schedule.")

Nella sezione di output, vedrai l'ARN della pipeline e il ruolo di esecuzione della pipeline, nonché i dettagli della pianificazione:

{'pipeline_arn': 'arn:aws:sagemaker:us-west-2:416578662734:pipeline/car-data-aggregated-ingestion-pipeline',
 'pipeline_execution_role_arn': 'arn:aws:iam::416578662734:role/service-role/AmazonSageMaker-ExecutionRole-20230612T120731',
 'schedule_arn': 'arn:aws:scheduler:us-west-2:416578662734:schedule/default/car-data-aggregated-ingestion-pipeline',
 'schedule_expression': 'rate(24 hours)',
 'schedule_state': 'ENABLED',
 'schedule_start_date': '2023-06-13T06:05:17Z',
 'schedule_role': 'arn:aws:iam::416578662734:role/service-role/AmazonSageMaker-ExecutionRole-20230612T120731'}

Per ottenere tutte le pipeline del processore di funzionalità in questo account, utilizzare il file list_pipelines() funzione sul Processore Feature:

fp.list_pipelines()

L'output sarà il seguente:

[{'pipeline_name': 'car-data-aggregated-ingestion-pipeline'},
 {'pipeline_name': 'car-data-ingestion-pipeline'}]

Abbiamo creato con successo le pipeline del processore di funzionalità SageMaker.

Esplora le pipeline di elaborazione delle funzionalità e la derivazione ML

In SageMaker Studio, completare i seguenti passaggi:

Sulla console SageMaker Studio, nel file Casa menù, scegliere Condotte.

Immagine della scheda Home di Sagemaker Studio che evidenzia l'opzione pipeline

Dovresti vedere due pipeline create: car-data-ingestion-pipeline ed car-data-aggregated-ingestion-pipeline.

Immagine delle pipeline di Sagemaker Studio con l'elenco delle pipeline

Scegliere il car-data-ingestion-pipeline.

Mostra i dettagli della corsa sul file esecuzioni scheda.

Immagine di Sagemaker Studio della pipeline di acquisizione dei dati dell'auto

Per visualizzare il gruppo di funzionalità popolato dalla pipeline, scegliere Negozio di funzionalità per Dati e scegli car-data.

Immagine della casa di Sagemaker Studio che evidenzia i dati

Vedrai i due gruppi di funzionalità che abbiamo creato nei passaggi precedenti.

Immagine di Sagemaker Studio con i gruppi di funzionalità creati

Scegliere il car-data gruppo di funzionalità.

Vedrai i dettagli delle funzionalità su Caratteristiche scheda.

Immagine di Sagemaker Studio con gruppo di funzionalità e funzionalità nel gruppo

Visualizza le esecuzioni della pipeline

Per visualizzare le esecuzioni della pipeline, completare i seguenti passaggi:

Sulla Esecuzione della pipelinescheda s, selezionare car-data-ingestion-pipeline.

Sblocca insight ML utilizzando il processore di funzionalità del Feature Store di Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Questo mostrerà tutte le corse.

L'immagine mostra la scheda del gruppo Funzionalità Sagemaker delle esecuzioni della pipeline

Scegli uno dei link per vedere i dettagli della corsa.

L'immagine mostra l'interfaccia utente di sagemaker con le pipeline in esecuzione

Per visualizzare la discendenza, scegli Discendenza.

L'intero lignaggio per car-data mostra l'origine dati di input car_data.csv e gli enti a monte. Il lignaggio per car-data-aggregated mostra l'ingresso car-data gruppo di funzionalità.

Immagine dell'interfaccia utente di Sagemaker del gruppo di funzionalità dei dati dell'auto

Scegli Carica funzionalità e quindi scegliere Interroga la discendenza a monte on car-data ed car-data-ingestion-pipeline per vedere tutte le entità a monte.

L'intero lignaggio per car-data il gruppo di funzionalità dovrebbe assomigliare allo screenshot seguente.

L'immagine mostra il negozio di funzionalità Sagemaker con la discendenza delle auto

Allo stesso modo, il lignaggio per il car-aggregated-data il gruppo di funzionalità dovrebbe assomigliare allo screenshot seguente.

L'immagine mostra il gruppo di funzionalità aggregate dall'interfaccia utente di Sagemaker Feature Store

SageMaker Studio fornisce un unico ambiente per tenere traccia delle pipeline pianificate, visualizzare le esecuzioni, esplorare la derivazione e visualizzare il codice di elaborazione delle funzionalità.

Le funzionalità aggregate come prezzo medio, prezzo massimo, chilometraggio medio e altro nel car-data-aggregated gruppo di funzionalità forniscono informazioni sulla natura dei dati. Puoi anche utilizzare queste funzionalità come set di dati per addestrare un modello per prevedere i prezzi delle auto o per altre operazioni. Tuttavia, l'addestramento del modello non rientra nell'ambito di questo post, che si concentra sulla dimostrazione delle funzionalità di SageMaker Feature Store per l'ingegneria delle funzionalità.

ripulire

Non dimenticare di ripulire le risorse create come parte di questo post per evitare di incorrere in spese correnti.

Disabilitare la pipeline pianificata tramite fp.schedule() metodo con il parametro di stato as Disabled:

# Disable the scheduled pipeline
fp.schedule(
pipeline_name=car_data_aggregated_pipeline_name,
schedule_expression="rate(24 hours)",
state="DISABLED",
)

Elimina entrambi i gruppi di funzionalità:

# Delete feature groups
car_sales_fg.delete()
agg_car_sales_fg.delete()

I dati che risiedono nel bucket S3 e nell'archivio funzionalità offline possono comportare costi, pertanto dovresti eliminarli per evitare eventuali addebiti.

Elimina gli oggetti S3.
Elimina i record dal negozio di funzionalità.

Conclusione

In questo post, abbiamo dimostrato come un'azienda di vendita di automobili ha utilizzato il processore di funzionalità SageMaker Feature Store per ottenere informazioni preziose dai dati grezzi di vendita:

Inserimento e trasformazione di dati batch su larga scala utilizzando Spark
Operazionalizzazione dei flussi di lavoro di ingegneria delle funzionalità tramite pipeline SageMaker
Fornire il monitoraggio della derivazione e un unico ambiente per monitorare le pipeline ed esplorare le funzionalità
Preparazione di funzionalità aggregate ottimizzate per l'addestramento di modelli ML

Seguendo questi passaggi, l’azienda è stata in grado di trasformare dati precedentemente inutilizzabili in funzionalità strutturate che potevano poi essere utilizzate per addestrare un modello per prevedere i prezzi delle auto. SageMaker Feature Store ha consentito loro di concentrarsi sulla progettazione delle funzionalità piuttosto che sull'infrastruttura sottostante.

Ci auguriamo che questo post ti aiuti a sbloccare preziose informazioni ML dai tuoi dati utilizzando il processore di funzionalità SageMaker Feature Store!

Per ulteriori informazioni su questo, fare riferimento a Elaborazione delle caratteristiche e l'esempio SageMaker su Negozio di funzionalità Amazon SageMaker: introduzione al processore di funzionalità.

Informazioni sugli autori

Dhaval Shah è un Senior Solutions Architect presso AWS, specializzato in Machine Learning. Con una forte attenzione alle attività native digitali, consente ai clienti di sfruttare AWS e promuovere la crescita del proprio business. In quanto appassionato di ML, Dhaval è guidato dalla sua passione per la creazione di soluzioni di grande impatto che apportano cambiamenti positivi. Nel tempo libero si abbandona al suo amore per i viaggi e apprezza i momenti di qualità con la sua famiglia.

Sblocca insight ML utilizzando il processore di funzionalità del Feature Store di Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Ninad Joshi è un Senior Solutions Architect presso AWS e aiuta i clienti AWS globali a progettare soluzioni sicure, scalabili ed economicamente vantaggiose nel cloud per risolvere le complesse sfide aziendali del mondo reale. Il suo lavoro nel campo del Machine Learning (ML) copre un'ampia gamma di casi d'uso AI/ML, con un focus principale sul ML end-to-end, sull'elaborazione del linguaggio naturale e sulla visione artificiale. Prima di unirsi ad AWS, Ninad ha lavorato come sviluppatore di software per oltre 12 anni. Al di fuori dei suoi impegni professionali, Ninad ama giocare a scacchi ed esplorare diversi stratagemmi.