Lås upp ML Insights med hjälp av Amazon SageMaker Feature Store Feature Processor

Återutgiven av Platon

anhängare: 0

Amazon SageMaker Feature Store tillhandahåller en end-to-end-lösning för att automatisera funktionsteknik för maskininlärning (ML). För många ML-användningsfall måste rådata som loggfiler, sensoravläsningar eller transaktionsposter omvandlas till meningsfulla funktioner som är optimerade för modellträning.

Funktionskvalitet är avgörande för att säkerställa en mycket exakt ML-modell. Att omvandla rådata till funktioner med aggregering, kodning, normalisering och andra operationer behövs ofta och kan kräva betydande ansträngningar. Ingenjörer måste manuellt skriva anpassad dataförbearbetnings- och aggregeringslogik i Python eller Spark för varje användningsfall.

Dessa odifferentierade tunga lyft är besvärliga, repetitiva och felbenägna. De SageMaker Feature Store Feature Processor minskar denna börda genom att automatiskt omvandla rådata till aggregerade funktioner som är lämpliga för batchträning av ML-modeller. Det låter ingenjörer tillhandahålla enkla datatransformationsfunktioner, hanterar sedan att köra dem i stor skala på Spark och hantera den underliggande infrastrukturen. Detta gör det möjligt för datavetare och dataingenjörer att fokusera på funktionsteknisk logik snarare än på implementeringsdetaljer.

I det här inlägget visar vi hur ett bilförsäljningsföretag kan använda funktionsprocessorn för att omvandla rå försäljningstransaktionsdata till funktioner i tre steg:

Lokala körningar av datatransformationer.
Fjärrstyrning körs i skala med Spark.
Operationalisering via pipelines.

Vi visar hur SageMaker Feature Store matar in rådata, kör funktionstransformationer på distans med hjälp av Spark och laddar de resulterande aggregerade funktionerna i en funktionsgrupp. Dessa konstruerade funktioner kan sedan användas för att träna ML-modeller.

För detta användningsfall ser vi hur SageMaker Feature Store hjälper till att konvertera råa bilförsäljningsdata till strukturerade funktioner. Dessa funktioner används sedan för att få insikter som:

Genomsnitts- och maxpris på röda cabriolet från 2010
Modeller med bästa körsträcka kontra pris
Försäljningstrender av nya kontra begagnade bilar genom åren
Skillnader i genomsnittlig MSRP mellan platser

Vi ser också hur SageMaker Feature Store-pipelines håller funktionerna uppdaterade när ny data kommer in, vilket gör det möjligt för företaget att kontinuerligt få insikter över tid.

Lösningsöversikt

Vi arbetar med datamängden car_data.csv, som innehåller specifikationer som modell, år, status, körsträcka, pris och MSRP för begagnade och nya bilar som säljs av företaget. Följande skärmdump visar ett exempel på datasetet.

"Bild som visar en tabell med bildata, inklusive bilmodell, år, körsträcka, pris och MSRP för olika fordon."

Lösningen anteckningsbok feature_processor.ipynb innehåller följande huvudsteg, som vi förklarar i det här inlägget:

Skapa två funktionsgrupper: en anropad car-data för råa bilförsäljningsrekord och en annan ringde car-data-aggregated för aggregerade bilförsäljningsrekord.
Använd @feature_processor dekorator för att ladda data till bildatafunktionsgruppen från Amazon enkel lagringstjänst (Amazon S3).
Kör @feature_processor code på distans som en Spark-applikation för att aggregera data.
Operationalisera funktionsprocessorn via SageMaker pipelines och schemat körs.
Utforska funktionsbehandlingspipelines och härstamning in Amazon SageMaker Studio.
Använd aggregerade funktioner för att träna en ML-modell.

Förutsättningar

För att följa denna handledning behöver du följande:

För detta inlägg hänvisar vi till följande anteckningsbok, som visar hur du kommer igång med Feature Processor med SageMaker Python SDK.

Skapa funktionsgrupper

Utför följande steg för att skapa funktionsgrupperna:

Skapa en funktionsgruppdefinition för car-data enligt följande:

# Feature Group - Car Sales CAR_SALES_FG_NAME = "car-data"
CAR_SALES_FG_ARN = f"arn:aws:sagemaker:{region}:{aws_account_id}:feature-group/{CAR_SALES_FG_NAME}"
CAR_SALES_FG_ROLE_ARN = offline_store_role
CAR_SALES_FG_OFFLINE_STORE_S3_URI = f"s3://{s3_bucket}/{s3_offline_store_prefix}"
CAR_SALES_FG_FEATURE_DEFINITIONS = [
    FeatureDefinition(feature_name="id", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="model", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="model_year", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="status", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="mileage", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="price", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="msrp", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="ingest_time", feature_type=FeatureTypeEnum.FRACTIONAL),
]

Funktionerna motsvarar varje kolumn i car_data.csv dataset (Model, Year, Status, Mileage, Priceoch MSRP).

Lägg till postens identifierare id och evenemangstid ingest_time till funktionsgruppen:

CAR_SALES_FG_RECORD_IDENTIFIER_NAME = "id"
CAR_SALES_FG_EVENT_TIME_FEATURE_NAME = "ingest_time"

Skapa en funktionsgruppdefinition för car-data-aggregated enligt följande:

# Feature Group - Aggregated Car SalesAGG_CAR_SALES_FG_NAME = "car-data-aggregated"
AGG_CAR_SALES_FG_ARN = (
    f"arn:aws:sagemaker:{region}:{aws_account_id}:feature-group/{AGG_CAR_SALES_FG_NAME}"
)
AGG_CAR_SALES_FG_ROLE_ARN = offline_store_role
AGG_CAR_SALES_FG_OFFLINE_STORE_S3_URI = f"s3://{s3_bucket}/{s3_offline_store_prefix}"
AGG_CAR_SALES_FG_FEATURE_DEFINITIONS = [
    FeatureDefinition(feature_name="model_year_status", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="avg_mileage", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="max_mileage", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="avg_price", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="max_price", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="avg_msrp", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="max_msrp", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="ingest_time", feature_type=FeatureTypeEnum.FRACTIONAL),
]

För den aggregerade funktionsgruppen är funktionerna modellårsstatus, genomsnittlig körsträcka, max körsträcka, snittpris, maxpris, genomsnittlig MSRP, max MSRP och intagstid. Vi lägger till postidentifieraren model_year_status och evenemangstid ingest_time till denna funktionsgrupp.

Skapa nu car-data funktionsgrupp:

# Create Feature Group - Car sale records.
car_sales_fg = FeatureGroup(
    name=CAR_SALES_FG_NAME,
    feature_definitions=CAR_SALES_FG_FEATURE_DEFINITIONS,
    sagemaker_session=sagemaker_session,
) create_car_sales_fg_resp = car_sales_fg.create(
        record_identifier_name=CAR_SALES_FG_RECORD_IDENTIFIER_NAME,
        event_time_feature_name=CAR_SALES_FG_EVENT_TIME_FEATURE_NAME,
        s3_uri=CAR_SALES_FG_OFFLINE_STORE_S3_URI,
        enable_online_store=True,
        role_arn=CAR_SALES_FG_ROLE_ARN,
    )

Skapa car-data-aggregated funktionsgrupp:

# Create Feature Group - Aggregated car sales records.
agg_car_sales_fg = FeatureGroup(
    name=AGG_CAR_SALES_FG_NAME,
    feature_definitions=AGG_CAR_SALES_FG_FEATURE_DEFINITIONS,
    sagemaker_session=sagemaker_session,
) create_agg_car_sales_fg_resp = agg_car_sales_fg.create(       record_identifier_name=AGG_CAR_SALES_FG_RECORD_IDENTIFIER_NAME,  event_time_feature_name=AGG_CAR_SALES_FG_EVENT_TIME_FEATURE_NAME,
        s3_uri=AGG_CAR_SALES_FG_OFFLINE_STORE_S3_URI,
        enable_online_store=True,
        role_arn=AGG_CAR_SALES_FG_ROLE_ARN,
    )

Du kan navigera till alternativet SageMaker Feature Store under Data på SageMaker Studio Hem menyn för att se funktionsgrupperna.

Bild från Sagemaker Feature-butik med rubriker Funktionsgruppens namn och beskrivning

Använd @feature_processor decorator för att ladda data

I det här avsnittet transformerar vi lokalt rådata (car_data.csv) från Amazon S3 till car-data funktionsgrupp med hjälp av Feature Store Feature Processor. Denna första lokala körning tillåter oss att utveckla och iterera innan vi kör på distans, och kan göras på ett urval av data om så önskas för snabbare iteration.

Med @feature_processor decorator, din transformationsfunktion körs i en Spark-runtimemiljö där inmatningsargumenten som tillhandahålls till din funktion och dess returvärde är Spark DataFrames.

installera Funktionsprocessor SDK från SageMaker Python SDK och dess extrafunktioner med följande kommando:

pip install sagemaker[feature-processor]

Antalet ingångsparametrar i din transformationsfunktion måste matcha antalet ingångar som konfigurerats i @feature_processor dekoratör. I det här fallet @feature_processor dekoratör har car-data.csv som input och car-data funktionsgrupp som utdata, vilket indikerar att detta är en batchoperation med target_store as OfflineStore:

from sagemaker.feature_store.feature_processor import (
    feature_processor,
    FeatureGroupDataSource,
    CSVDataSource,
) @feature_processor(
    inputs=[CSVDataSource(RAW_CAR_SALES_S3_URI)],
    output=CAR_SALES_FG_ARN,
    target_stores=["OfflineStore"],
)

Definiera transform() funktion för att omvandla data. Denna funktion utför följande åtgärder:
- Konvertera kolumnnamn till gemener.
- Lägg till händelsetiden i ingest_time kolonn.
- Ta bort skiljetecken och ersätt saknade värden med NA.

def transform(raw_s3_data_as_df):
    """Load data from S3, perform basic feature engineering, store it in a Feature Group"""
    from pyspark.sql.functions import regexp_replace
    from pyspark.sql.functions import lit
    import time     transformed_df = (
        raw_s3_data_as_df.withColumn("Price", regexp_replace("Price", "$", ""))
        # Rename Columns
        .withColumnRenamed("Id", "id")
        .withColumnRenamed("Model", "model")
        .withColumnRenamed("Year", "model_year")
        .withColumnRenamed("Status", "status")
        .withColumnRenamed("Mileage", "mileage")
        .withColumnRenamed("Price", "price")
        .withColumnRenamed("MSRP", "msrp")
        # Add Event Time
        .withColumn("ingest_time", lit(int(time.time())))
        # Remove punctuation and fluff; replace with NA
        .withColumn("mileage", regexp_replace("mileage", "(,)|(mi.)", ""))
        .withColumn("mileage", regexp_replace("mileage", "Not available", "NA"))
        .withColumn("price", regexp_replace("price", ",", ""))
        .withColumn("msrp", regexp_replace("msrp", "(^MSRPs$)|(,)", ""))
        .withColumn("msrp", regexp_replace("msrp", "Not specified", "NA"))
        .withColumn("msrp", regexp_replace("msrp", "$d+[a-zA-Zs]+", "NA"))
        .withColumn("model", regexp_replace("model", "^dddds", ""))
    )

Ring transform() funktion för att lagra data i car-data funktionsgrupp:

# Execute the FeatureProcessor
transform()

Utdata visar att data har intagits framgångsrikt i bildatafunktionsgruppen.

Resultatet av transform_df.show() funktionen är som följer:

INFO:sagemaker:Ingesting transformed data to arn:aws:sagemaker:us-west-2:416578662734:feature-group/car-data with target_stores: ['OfflineStore'] +---+--------------------+----------+------+-------+--------+-----+-----------+
| id|               model|model_year|status|mileage|   price| msrp|ingest_time|
+---+--------------------+----------+------+-------+--------+-----+-----------+
|  0|    Acura TLX A-Spec|      2022|   New|     NA|49445.00|49445| 1686627154|
|  1|    Acura RDX A-Spec|      2023|   New|     NA|50895.00|   NA| 1686627154|
|  2|    Acura TLX Type S|      2023|   New|     NA|57745.00|   NA| 1686627154|
|  3|    Acura TLX Type S|      2023|   New|     NA|57545.00|   NA| 1686627154|
|  4|Acura MDX Sport H...|      2019|  Used| 32675 |40990.00|   NA| 1686627154|
|  5|    Acura TLX A-Spec|      2023|   New|     NA|50195.00|50195| 1686627154|
|  6|    Acura TLX A-Spec|      2023|   New|     NA|50195.00|50195| 1686627154|
|  7|    Acura TLX Type S|      2023|   New|     NA|57745.00|   NA| 1686627154|
|  8|    Acura TLX A-Spec|      2023|   New|     NA|47995.00|   NA| 1686627154|
|  9|    Acura TLX A-Spec|      2022|   New|     NA|49545.00|   NA| 1686627154|
| 10|Acura Integra w/A...|      2023|   New|     NA|36895.00|36895| 1686627154|
| 11|    Acura TLX A-Spec|      2023|   New|     NA|48395.00|48395| 1686627154|
| 12|Acura MDX Type S ...|      2023|   New|     NA|75590.00|   NA| 1686627154|
| 13|Acura RDX A-Spec ...|      2023|   New|     NA|55345.00|   NA| 1686627154|
| 14|    Acura TLX A-Spec|      2023|   New|     NA|50195.00|50195| 1686627154|
| 15|Acura RDX A-Spec ...|      2023|   New|     NA|55045.00|   NA| 1686627154|
| 16|    Acura TLX Type S|      2023|   New|     NA|56445.00|   NA| 1686627154|
| 17|    Acura TLX A-Spec|      2023|   New|     NA|47495.00|47495| 1686627154|
| 18|   Acura TLX Advance|      2023|   New|     NA|52245.00|52245| 1686627154|
| 19|    Acura TLX A-Spec|      2023|   New|     NA|50595.00|50595| 1686627154|
+---+--------------------+----------+------+-------+--------+-----+-----------+
only showing top 20 rows

Vi har framgångsrikt transformerat indata och tagit in den i car-data funktionsgrupp.

Kör @feature_processor-koden på distans

I det här avsnittet demonstrerar vi att köra funktionsbehandlingskoden på distans som en Spark-applikation med hjälp av @remote dekoratör som beskrivits tidigare. Vi kör funktionsbearbetningen på distans med hjälp av Spark för att skala till stora datamängder. Spark tillhandahåller distribuerad bearbetning på kluster för att hantera data som är för stor för en enda maskin. De @remote decorator kör den lokala Python-koden som ett SageMaker-utbildningsjobb med en eller flera noder.

Använd @remote dekoratör tillsammans med @feature_processor dekoratör enligt följande:

@remote(spark_config=SparkConfig(), instance_type = "ml.m5.xlarge", ...)
@feature_processor(inputs=[FeatureGroupDataSource(CAR_SALES_FG_ARN)],
                   output=AGG_CAR_SALES_FG_ARN, target_stores=["OfflineStore"], enable_ingestion=False )

Smakämnen spark_config parameter indikerar att detta körs som en Spark application. SparkConfig-instansen konfigurerar Spark-konfigurationen och beroenden.

Definiera aggregate() funktion för att aggregera data med PySpark SQL och användardefinierade funktioner (UDF). Denna funktion utför följande åtgärder:
- HOPLÄNKA model, yearoch status att skapa model_year_status.
- Ta genomsnittet av price att skapa avg_price.
- Ta maxvärdet på price att skapa max_price.
- Ta genomsnittet av mileage att skapa avg_mileage.
- Ta maxvärdet på mileage att skapa max_mileage.
- Ta genomsnittet av msrp att skapa avg_msrp.
- Ta maxvärdet på msrp att skapa max_msrp.
- Grupp av model_year_status.

def aggregate(source_feature_group, spark):
    """
    Aggregate the data using a SQL query and UDF.
    """
    import time
    from pyspark.sql.types import StringType
    from pyspark.sql.functions import udf     @udf(returnType=StringType())
    def custom_concat(*cols, delimeter: str = ""):
        return delimeter.join(cols)     spark.udf.register("custom_concat", custom_concat)     # Execute SQL string.
    source_feature_group.createOrReplaceTempView("car_data")
    aggregated_car_data = spark.sql(
        f"""
        SELECT
            custom_concat(model, "_", model_year, "_", status) as model_year_status,
            AVG(price) as avg_price,
            MAX(price) as max_price,
            AVG(mileage) as avg_mileage,
            MAX(mileage) as max_mileage,
            AVG(msrp) as avg_msrp,
            MAX(msrp) as max_msrp,
            "{int(time.time())}" as ingest_time
        FROM car_data
        GROUP BY model_year_status
        """
    )     aggregated_car_data.show()     return aggregated_car_data

Kör aggregate() funktion, som skapar ett SageMaker-utbildningsjobb för att köra Spark-applikationen:

# Execute the aggregate function
aggregate()

Som ett resultat skapar SageMaker ett träningsjobb till Spark-applikationen som definierats tidigare. Det kommer att skapa en Spark-runtime-miljö med hjälp av sagemaker-spark-processing image.

Vi använder SageMaker Training-jobb här för att köra vår Spark-funktionsbehandlingsapplikation. Med SageMaker Training kan du minska starttiderna till 1 minut eller mindre genom att använda varmpoolning, vilket inte är tillgängligt i SageMaker Processing. Detta gör SageMaker Training bättre optimerad för korta batchjobb som funktionsbearbetning där starttiden är viktig.

För att se detaljerna, välj på SageMaker-konsolen Träningsjobb under Utbildning i navigeringsfönstret och välj sedan jobbet med namnet aggregate-<timestamp>.

Bilden visar utbildningsjobbet Sagemaker

Resultatet av samla() funktionen genererar telemetrikod. Inuti utgången kommer du att se den aggregerade informationen enligt följande:

+--------------------+------------------+---------+------------------+-----------+--------+--------+-----------+
|   model_year_status|         avg_price|max_price|       avg_mileage|max_mileage|avg_msrp|max_msrp|ingest_time|
+--------------------+------------------+---------+------------------+-----------+--------+--------+-----------+
|Acura CL 3.0_1997...|            7950.0|  7950.00|          100934.0|    100934 |    null|      NA| 1686634807|
|Acura CL 3.2 Type...|            6795.0|  7591.00|          118692.5|    135760 |    null|      NA| 1686634807|
|Acura CL 3_1998_Used|            9899.0|  9899.00|           63000.0|     63000 |    null|      NA| 1686634807|
|Acura ILX 2.0L Te...|         14014.125| 18995.00|         95534.875|     89103 |    null|      NA| 1686634807|
|Acura ILX 2.0L Te...|           15008.2| 16998.00|           94935.0|     88449 |    null|      NA| 1686634807|
|Acura ILX 2.0L Te...|           16394.6| 19985.00|           97719.4|     80000 |    null|      NA| 1686634807|
|Acura ILX 2.0L w/...|14567.181818181818| 16999.00| 96624.72727272728|     98919 |    null|      NA| 1686634807|
|Acura ILX 2.0L w/...|           16673.4| 18995.00|           84848.6|     96637 |    null|      NA| 1686634807|
|Acura ILX 2.0L w/...|12580.333333333334| 14546.00|100207.33333333333|     95782 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|         14565.375| 17590.00|         92941.125|     81842 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|           14877.9|  9995.00|           99739.5|     89252 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|           15659.5| 15660.00|           82136.0|     89942 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|17121.785714285714| 20990.00| 78278.14285714286|     96067 |    null|      NA| 1686634807|
|Acura ILX 2.4L (A...|           17846.0| 21995.00|          101558.0|     85974 |    null|      NA| 1686634807|
|Acura ILX 2.4L Pr...|           16327.0| 16995.00|           85238.0|     95356 |    null|      NA| 1686634807|
|Acura ILX 2.4L w/...|           12846.0| 12846.00|           75209.0|     75209 |    null|      NA| 1686634807|
|Acura ILX 2.4L_20...|           18998.0| 18998.00|           51002.0|     51002 |    null|      NA| 1686634807|
|Acura ILX 2.4L_20...|17908.615384615383| 19316.00| 74325.38461538461|     89116 |    null|      NA| 1686634807|
|Acura ILX 4DR SDN...|           18995.0| 18995.00|           37017.0|     37017 |    null|      NA| 1686634807|
|Acura ILX 8-SPD_2...|           24995.0| 24995.00|           22334.0|     22334 |    null|      NA| 1686634807|
+--------------------+------------------+---------+------------------+-----------+--------+--------+-----------+
only showing top 20 rows

När träningsjobbet är klart bör du se följande utdata:

06-13 05:40 smspark-submit INFO     spark submit was successful. primary node exiting.
Training seconds: 153
Billable seconds: 153

Operationalisera funktionsprocessorn via SageMaker pipelines

I det här avsnittet visar vi hur man operationaliserar funktionsprocessorn genom att marknadsföra den till en SageMaker-pipeline och schemalägga körningar.

Ladda först upp transformation_code.py fil som innehåller funktionsbehandlingslogiken till Amazon S3:

car_data_s3_uri = s3_path_join("s3://", sagemaker_session.default_bucket(),
                               'transformation_code', 'car-data-ingestion.py')
S3Uploader.upload(local_path='car-data-ingestion.py', desired_s3_uri=car_data_s3_uri)
print(car_data_s3_uri)

Skapa sedan en funktionsprocessorpipeline car_data_pipeline med .to_pipeline() fungera:

car_data_pipeline_name = f"{CAR_SALES_FG_NAME}-ingestion-pipeline"
car_data_pipeline_arn = fp.to_pipeline(pipeline_name=car_data_pipeline_name,
                                      step=transform,
                                      transformation_code=TransformationCode(s3_uri=car_data_s3_uri) )
print(f"Created SageMaker Pipeline: {car_data_pipeline_arn}.")

För att köra pipeline, använd följande kod:

car_data_pipeline_execution_arn = fp.execute(pipeline_name=car_data_pipeline_name)
print(f"Started an execution with execution arn: {car_data_pipeline_execution_arn}")

På samma sätt kan du skapa en pipeline för aggregerade funktioner som kallas car_data_aggregated_pipeline och börja löpa.
Schemalägg car_data_aggregated_pipeline att köra var 24:e timme:

fp.schedule(pipeline_name=car_data_aggregated_pipeline_name,
           schedule_expression="rate(24 hours)", state="ENABLED")
print(f"Created a schedule.")

I utgångssektionen kommer du att se ARN för pipeline och pipelineexekveringsrollen, och schemadetaljerna:

{'pipeline_arn': 'arn:aws:sagemaker:us-west-2:416578662734:pipeline/car-data-aggregated-ingestion-pipeline',
 'pipeline_execution_role_arn': 'arn:aws:iam::416578662734:role/service-role/AmazonSageMaker-ExecutionRole-20230612T120731',
 'schedule_arn': 'arn:aws:scheduler:us-west-2:416578662734:schedule/default/car-data-aggregated-ingestion-pipeline',
 'schedule_expression': 'rate(24 hours)',
 'schedule_state': 'ENABLED',
 'schedule_start_date': '2023-06-13T06:05:17Z',
 'schedule_role': 'arn:aws:iam::416578662734:role/service-role/AmazonSageMaker-ExecutionRole-20230612T120731'}

För att få alla funktionsprocessorpipelines i det här kontot, använd list_pipelines() funktion på funktionsprocessorn:

fp.list_pipelines()

Utgången kommer att vara följande:

[{'pipeline_name': 'car-data-aggregated-ingestion-pipeline'},
 {'pipeline_name': 'car-data-ingestion-pipeline'}]

Vi har framgångsrikt skapat SageMaker Feature Processor pipelines.

Utforska pipelines för funktionsbearbetning och ML-linje

I SageMaker Studio, slutför följande steg:

På SageMaker Studio-konsolen, på Hem meny, välj Rörledningar.

Bild av Sagemaker Studio startfliken som markerar pipelinesalternativ

Du bör se två pipelines skapade: car-data-ingestion-pipeline och car-data-aggregated-ingestion-pipeline.

Bild på Sagemaker Studio pipelines med listan över pipelines

Välj car-data-ingestion-pipeline.

Den visar löpdetaljerna på avrättningar fliken.

Bild av Sagemaker Studio av pipeline för intag av bildata

För att se funktionsgruppen som fylls av pipeline, välj Feature Store under Data Och välj car-data.

Bild på Sagemaker Studio-hemmarkeringsdata

Du kommer att se de två funktionsgrupperna vi skapade i de föregående stegen.

Bild av Sagemaker Studio med skapade funktionsgrupper

Välj car-data funktionsgrupp.

Du kommer att se funktionerna detaljer på Funktioner fliken.

Bild på Sagemaker Studio med funktionsgrupp och funktionerna i gruppen

Visa pipelinekörningar

Utför följande steg för att se pipelinekörningarna:

På Rörledningsutförandes flik, välj car-data-ingestion-pipeline.

Lås upp ML-insikter med Amazon SageMaker Feature Store Feature Processor | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Detta kommer att visa alla körningar.

Bilden visar gruppfliken Sagemaker Feature för pipelinekörningarna

Välj en av länkarna för att se detaljer om löpningen.

Bilden visar sagemaker-gränssnittet med pipelines i körning

För att se härstamning, välj Linje.

Hela härstamningen för car-data visar indatakällan car_data.csv och uppströmsenheter. Släktet för car-data-aggregated visar ingången car-data funktionsgrupp.

Bild av Sagemaker UI av funktionsgruppen med bildata

Välja Ladda funktioner och välj sedan Fråga uppströms härstamning on car-data och car-data-ingestion-pipeline för att se alla uppströmsenheter.

Hela härstamningen för car-data funktionsgruppen ska se ut som följande skärmdump.

Bilden visar Sagemaker-butiken med bilhärstamning

Likaså härstamningen för car-aggregated-data funktionsgruppen ska se ut som följande skärmdump.

Bilden visar den samlade funktionsgruppen från Sagemaker Feature Store UI

SageMaker Studio tillhandahåller en enda miljö för att spåra schemalagda pipelines, visa körningar, utforska härkomst och se funktionsbehandlingskoden.

De aggregerade funktionerna som genomsnittspris, maxpris, genomsnittlig körsträcka och mer i car-data-aggregated funktionsgrupp ger insikt i uppgifternas natur. Du kan också använda dessa funktioner som en datauppsättning för att träna en modell för att förutsäga bilpriser eller för andra operationer. Att träna modellen är dock utanför räckvidden för detta inlägg, som fokuserar på att demonstrera SageMaker Feature Store-funktionerna för funktionsteknik.

Städa upp

Glöm inte att rensa upp resurserna som skapats som en del av det här inlägget för att undvika pågående avgifter.

Inaktivera den schemalagda pipelinen via fp.schedule() metod med tillståndsparametern som Disabled:

# Disable the scheduled pipeline
fp.schedule(
pipeline_name=car_data_aggregated_pipeline_name,
schedule_expression="rate(24 hours)",
state="DISABLED",
)

Ta bort båda funktionsgrupperna:

# Delete feature groups
car_sales_fg.delete()
agg_car_sales_fg.delete()

Data som finns i S3-hinken och offlinefunktionsbutiken kan medföra kostnader, så du bör radera dem för att undvika avgifter.

Ta bort S3-objekten.
Ta bort posterna från featurebutiken.

Slutsats

I det här inlägget visade vi hur ett bilförsäljningsföretag använde SageMaker Feature Store Feature Processor för att få värdefulla insikter från sina råa försäljningsdata genom att:

Inta och transformera batchdata i skala med hjälp av Spark
Operationalisering av funktionstekniska arbetsflöden via SageMaker pipelines
Tillhandahåller linjespårning och en enda miljö för att övervaka pipelines och utforska funktioner
Förbereder aggregerade funktioner optimerade för träning av ML-modeller

Genom att följa dessa steg kunde företaget omvandla tidigare oanvändbar data till strukturerade funktioner som sedan kunde användas för att träna en modell för att förutsäga bilpriser. SageMaker Feature Store gjorde det möjligt för dem att fokusera på funktionsteknik snarare än den underliggande infrastrukturen.

Vi hoppas att det här inlägget hjälper dig att låsa upp värdefulla ML-insikter från din egen data med hjälp av SageMaker Feature Store Feature Processor!

För mer information om detta, se Funktionsbearbetning och SageMaker-exemplet på Amazon SageMaker Feature Store: Feature Processor Introduktion.

Om författarna

Dhaval Shah är senior lösningsarkitekt på AWS, specialiserad på maskininlärning. Med ett starkt fokus på digitala infödda företag ger han kunderna möjlighet att dra nytta av AWS och driva deras affärstillväxt. Som en ML-entusiast drivs Dhaval av sin passion för att skapa effektfulla lösningar som ger positiv förändring. På sin fritid ägnar han sig åt sin kärlek till resor och värnar om kvalitetsstunder med sin familj.

Lås upp ML-insikter med Amazon SageMaker Feature Store Feature Processor | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai. Ninad Joshi är Senior Solutions Architect på AWS och hjälper globala AWS-kunder att designa säkra, skalbara och kostnadseffektiva lösningar i moln för att lösa deras komplexa verkliga affärsutmaningar. Hans arbete inom maskininlärning (ML) täcker ett brett spektrum av AI/ML-användningsfall, med ett primärt fokus på End-to-End ML, Natural Language Processing och Computer Vision. Innan han började på AWS arbetade Ninad som mjukvaruutvecklare i 12+ år. Utanför sina professionella ansträngningar tycker Ninad om att spela schack och utforska olika gambits.

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
Källa: https://aws.amazon.com/blogs/machine-learning/unlock-ml-insights-using-the-amazon-sagemaker-feature-store-feature-processor/

Tidsstämpel: September 19, 2023

Tidsstämpel: September 9, 2022

Lås upp ML-insikter med Amazon SageMaker Feature Store Feature Processor | Amazon webbtjänster

Återutgiven av Platon

Lösningsöversikt

Förutsättningar

Skapa funktionsgrupper

Använd @feature_processor decorator för att ladda data

Kör @feature_processor-koden på distans

Operationalisera funktionsprocessorn via SageMaker pipelines

Utforska pipelines för funktionsbearbetning och ML-linje

Visa pipelinekörningar

Städa upp

Slutsats

Om författarna

Mer från AWS maskininlärning

Bryt igenom språkbarriärer med Amazon Transcribe, Amazon Translate och Amazon Polly

Skapa kraftfulla självbetjäningsupplevelser med Amazon Lex på Talkdesk CX Cloud kontaktcenter

Ordna dina utskrifter i stycken med Amazon Transcribe | Amazon webbtjänster

Bygg en agronomisk dataplattform med Amazon SageMaker geospatiala funktioner

Team- och användarhantering med Amazon SageMaker och AWS SSO

Använd Snowflake som datakälla för att träna ML-modeller med Amazon SageMaker

Hur Amp på Amazon använde data för att öka kundernas engagemang, del 2: Bygga en personlig showrekommendationsplattform med Amazon SageMaker

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto