Lås op for ML Insights ved hjælp af Amazon SageMaker Feature Store Feature Processor

Genudgivet af Platon

Abonnenter: 0

Amazon SageMaker Feature Store leverer en end-to-end-løsning til at automatisere feature engineering for machine learning (ML). I mange tilfælde af ML-brug skal rådata som logfiler, sensoraflæsninger eller transaktionsregistreringer transformeres til meningsfulde funktioner, der er optimeret til modeltræning.

Funktionskvalitet er afgørende for at sikre en meget nøjagtig ML-model. At transformere rådata til funktioner ved hjælp af aggregering, kodning, normalisering og andre operationer er ofte nødvendig og kan kræve en betydelig indsats. Ingeniører skal manuelt skrive tilpasset dataforbehandling og aggregeringslogik i Python eller Spark for hver brugssag.

Disse udifferentierede tunge løft er besværlige, gentagne og fejltilbøjelige. Det SageMaker Feature Store Feature Processor reducerer denne byrde ved automatisk at transformere rådata til aggregerede funktioner, der er egnede til batchtræning af ML-modeller. Det giver ingeniører mulighed for at levere enkle datatransformationsfunktioner og håndterer derefter at køre dem i skala på Spark og administrere den underliggende infrastruktur. Dette gør det muligt for dataforskere og dataingeniører at fokusere på funktionsingeniørlogikken frem for implementeringsdetaljer.

I dette indlæg demonstrerer vi, hvordan et bilsalgsfirma kan bruge funktionsprocessoren til at omdanne rå salgstransaktionsdata til funktioner i tre trin:

Lokale kørsler af datatransformationer.
Fjernbetjening kører i skala ved hjælp af Spark.
Operationalisering via pipelines.

Vi viser, hvordan SageMaker Feature Store indtager de rå data, fjernkører funktionstransformationer ved hjælp af Spark og indlæser de resulterende aggregerede funktioner i en feature gruppe. Disse konstruerede funktioner kan derefter bruges til at træne ML-modeller.

Til denne brugssag ser vi, hvordan SageMaker Feature Store hjælper med at konvertere de rå bilsalgsdata til strukturerede funktioner. Disse funktioner bruges efterfølgende til at få indsigt som:

Gennemsnits- og maksimumpris på røde cabriolet fra 2010
Modeller med bedste kilometertal vs. pris
Salgetstendenser for nye vs. brugte biler gennem årene
Forskelle i gennemsnitlig MSRP på tværs af lokationer

Vi ser også, hvordan SageMaker Feature Store-pipelines holder funktionerne opdateret, efterhånden som nye data kommer ind, hvilket gør det muligt for virksomheden løbende at få indsigt over tid.

Løsningsoversigt

Vi arbejder med datasættet car_data.csv, som indeholder specifikationer som model, årgang, status, kilometertal, pris og MSRP for brugte og nye biler solgt af virksomheden. Følgende skærmbillede viser et eksempel på datasættet.

"Billede, der viser en tabel med bildata, inklusive bilmodel, årgang, kilometertal, pris og MSRP for forskellige køretøjer."

Løsningen notesbog feature_processor.ipynb indeholder følgende hovedtrin, som vi forklarer i dette indlæg:

Opret to funktionsgrupper: en kaldet car-data for rå bilsalgsrekorder og en anden kaldet car-data-aggregated for aggregerede bilsalgsrekorder.
Brug @feature_processor dekorator til at indlæse data i bildata-funktionsgruppen fra Amazon Simple Storage Service (Amazon S3).
Kør @feature_processor code eksternt som en Spark-applikation til at aggregere dataene.
Operationaliser funktionsprocessoren via SageMaker rørledninger og tidsplan kører.
Udforsk funktionsbehandlingspipelines og afstamning in Amazon SageMaker Studio.
Brug aggregerede funktioner til at træne en ML-model.

Forudsætninger

For at følge denne vejledning skal du bruge følgende:

Til dette indlæg henviser vi til følgende notesbog, som demonstrerer, hvordan du kommer i gang med Feature Processor ved hjælp af SageMaker Python SDK.

Opret funktionsgrupper

For at oprette funktionsgrupperne skal du udføre følgende trin:

Opret en funktionsgruppedefinition for car-data som følger:

# Feature Group - Car Sales CAR_SALES_FG_NAME = "car-data"
CAR_SALES_FG_ARN = f"arn:aws:sagemaker:{region}:{aws_account_id}:feature-group/{CAR_SALES_FG_NAME}"
CAR_SALES_FG_ROLE_ARN = offline_store_role
CAR_SALES_FG_OFFLINE_STORE_S3_URI = f"s3://{s3_bucket}/{s3_offline_store_prefix}"
CAR_SALES_FG_FEATURE_DEFINITIONS = [
    FeatureDefinition(feature_name="id", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="model", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="model_year", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="status", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="mileage", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="price", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="msrp", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="ingest_time", feature_type=FeatureTypeEnum.FRACTIONAL),
]

Funktionerne svarer til hver kolonne i car_data.csv datasæt (Model, Year, Status, Mileage, Priceog MSRP).

Tilføj registreringsidentifikator id og begivenhedstid ingest_time til featuregruppen:

CAR_SALES_FG_RECORD_IDENTIFIER_NAME = "id"
CAR_SALES_FG_EVENT_TIME_FEATURE_NAME = "ingest_time"

Opret en funktionsgruppedefinition for car-data-aggregated som følger:

# Feature Group - Aggregated Car SalesAGG_CAR_SALES_FG_NAME = "car-data-aggregated"
AGG_CAR_SALES_FG_ARN = (
    f"arn:aws:sagemaker:{region}:{aws_account_id}:feature-group/{AGG_CAR_SALES_FG_NAME}"
)
AGG_CAR_SALES_FG_ROLE_ARN = offline_store_role
AGG_CAR_SALES_FG_OFFLINE_STORE_S3_URI = f"s3://{s3_bucket}/{s3_offline_store_prefix}"
AGG_CAR_SALES_FG_FEATURE_DEFINITIONS = [
    FeatureDefinition(feature_name="model_year_status", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="avg_mileage", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="max_mileage", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="avg_price", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="max_price", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="avg_msrp", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="max_msrp", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="ingest_time", feature_type=FeatureTypeEnum.FRACTIONAL),
]

For den aggregerede funktionsgruppe er funktionerne modelårsstatus, gennemsnitlig kilometertal, maks. kilometertal, gennemsnitspris, maks. pris, gennemsnitlig MSRP, maks. MSRP og indtagelsestid. Vi tilføjer registreringsidentifikatoren model_year_status og begivenhedstid ingest_time til denne funktionsgruppe.

Opret nu car-data funktionsgruppe:

# Create Feature Group - Car sale records.
car_sales_fg = FeatureGroup(
    name=CAR_SALES_FG_NAME,
    feature_definitions=CAR_SALES_FG_FEATURE_DEFINITIONS,
    sagemaker_session=sagemaker_session,
) create_car_sales_fg_resp = car_sales_fg.create(
        record_identifier_name=CAR_SALES_FG_RECORD_IDENTIFIER_NAME,
        event_time_feature_name=CAR_SALES_FG_EVENT_TIME_FEATURE_NAME,
        s3_uri=CAR_SALES_FG_OFFLINE_STORE_S3_URI,
        enable_online_store=True,
        role_arn=CAR_SALES_FG_ROLE_ARN,
    )

Opret car-data-aggregated funktionsgruppe:

# Create Feature Group - Aggregated car sales records.
agg_car_sales_fg = FeatureGroup(
    name=AGG_CAR_SALES_FG_NAME,
    feature_definitions=AGG_CAR_SALES_FG_FEATURE_DEFINITIONS,
    sagemaker_session=sagemaker_session,
) create_agg_car_sales_fg_resp = agg_car_sales_fg.create(       record_identifier_name=AGG_CAR_SALES_FG_RECORD_IDENTIFIER_NAME,  event_time_feature_name=AGG_CAR_SALES_FG_EVENT_TIME_FEATURE_NAME,
        s3_uri=AGG_CAR_SALES_FG_OFFLINE_STORE_S3_URI,
        enable_online_store=True,
        role_arn=AGG_CAR_SALES_FG_ROLE_ARN,
    )

Du kan navigere til SageMaker Feature Store-indstillingen under data på SageMaker Studio Home menu for at se funktionsgrupperne.

Billede fra Sagemaker Feature-butik med overskrifter Featuregruppenavn og beskrivelse

Brug @feature_processor dekorator til at indlæse data

I dette afsnit transformerer vi de rå inputdata lokalt (car_data.csv) fra Amazon S3 til car-data funktionsgruppe ved hjælp af Feature Store Feature Processor. Denne indledende lokale kørsel giver os mulighed for at udvikle og iterere, før vi kører eksternt, og kunne udføres på en prøve af dataene, hvis det ønskes for hurtigere iteration.

Med @feature_processor decorator, kører din transformationsfunktion i et Spark-runtime-miljø, hvor input-argumenterne til din funktion og dens returværdi er Spark DataFrames.

Installer Feature Processor SDK fra SageMaker Python SDK og dets ekstramateriale ved hjælp af følgende kommando:

pip install sagemaker[feature-processor]

Antallet af inputparametre i din transformationsfunktion skal svare til antallet af input, der er konfigureret i @feature_processor dekoratør. I dette tilfælde @feature_processor dekoratør har car-data.csv som input og car-data funktionsgruppe som output, hvilket indikerer, at dette er en batch-operation med target_store as OfflineStore:

from sagemaker.feature_store.feature_processor import (
    feature_processor,
    FeatureGroupDataSource,
    CSVDataSource,
) @feature_processor(
    inputs=[CSVDataSource(RAW_CAR_SALES_S3_URI)],
    output=CAR_SALES_FG_ARN,
    target_stores=["OfflineStore"],
)

Definer transform() funktion til at transformere dataene. Denne funktion udfører følgende handlinger:
- Konverter kolonnenavne til små bogstaver.
- Tilføj begivenhedstidspunktet til ingest_time kolonne.
- Fjern tegnsætning og erstat manglende værdier med NA.

def transform(raw_s3_data_as_df):
    """Load data from S3, perform basic feature engineering, store it in a Feature Group"""
    from pyspark.sql.functions import regexp_replace
    from pyspark.sql.functions import lit
    import time     transformed_df = (
        raw_s3_data_as_df.withColumn("Price", regexp_replace("Price", "$", ""))
        # Rename Columns
        .withColumnRenamed("Id", "id")
        .withColumnRenamed("Model", "model")
        .withColumnRenamed("Year", "model_year")
        .withColumnRenamed("Status", "status")
        .withColumnRenamed("Mileage", "mileage")
        .withColumnRenamed("Price", "price")
        .withColumnRenamed("MSRP", "msrp")
        # Add Event Time
        .withColumn("ingest_time", lit(int(time.time())))
        # Remove punctuation and fluff; replace with NA
        .withColumn("mileage", regexp_replace("mileage", "(,)|(mi.)", ""))
        .withColumn("mileage", regexp_replace("mileage", "Not available", "NA"))
        .withColumn("price", regexp_replace("price", ",", ""))
        .withColumn("msrp", regexp_replace("msrp", "(^MSRPs$)|(,)", ""))
        .withColumn("msrp", regexp_replace("msrp", "Not specified", "NA"))
        .withColumn("msrp", regexp_replace("msrp", "$d+[a-zA-Zs]+", "NA"))
        .withColumn("model", regexp_replace("model", "^dddds", ""))
    )

Ring til transform() funktion til at gemme dataene i car-data funktionsgruppe:

# Execute the FeatureProcessor
transform()

Outputtet viser, at dataene er optaget med succes i bildata-funktionsgruppen.

Output fra transform_df.show() funktion er som følger:

INFO:sagemaker:Ingesting transformed data to arn:aws:sagemaker:us-west-2:416578662734:feature-group/car-data with target_stores: ['OfflineStore'] +---+--------------------+----------+------+-------+--------+-----+-----------+
| id|               model|model_year|status|mileage|   price| msrp|ingest_time|
+---+--------------------+----------+------+-------+--------+-----+-----------+
|  0|    Acura TLX A-Spec|      2022|   New|     NA|49445.00|49445| 1686627154|
|  1|    Acura RDX A-Spec|      2023|   New|     NA|50895.00|   NA| 1686627154|
|  2|    Acura TLX Type S|      2023|   New|     NA|57745.00|   NA| 1686627154|
|  3|    Acura TLX Type S|      2023|   New|     NA|57545.00|   NA| 1686627154|
|  4|Acura MDX Sport H...|      2019|  Used| 32675 |40990.00|   NA| 1686627154|
|  5|    Acura TLX A-Spec|      2023|   New|     NA|50195.00|50195| 1686627154|
|  6|    Acura TLX A-Spec|      2023|   New|     NA|50195.00|50195| 1686627154|
|  7|    Acura TLX Type S|      2023|   New|     NA|57745.00|   NA| 1686627154|
|  8|    Acura TLX A-Spec|      2023|   New|     NA|47995.00|   NA| 1686627154|
|  9|    Acura TLX A-Spec|      2022|   New|     NA|49545.00|   NA| 1686627154|
| 10|Acura Integra w/A...|      2023|   New|     NA|36895.00|36895| 1686627154|
| 11|    Acura TLX A-Spec|      2023|   New|     NA|48395.00|48395| 1686627154|
| 12|Acura MDX Type S ...|      2023|   New|     NA|75590.00|   NA| 1686627154|
| 13|Acura RDX A-Spec ...|      2023|   New|     NA|55345.00|   NA| 1686627154|
| 14|    Acura TLX A-Spec|      2023|   New|     NA|50195.00|50195| 1686627154|
| 15|Acura RDX A-Spec ...|      2023|   New|     NA|55045.00|   NA| 1686627154|
| 16|    Acura TLX Type S|      2023|   New|     NA|56445.00|   NA| 1686627154|
| 17|    Acura TLX A-Spec|      2023|   New|     NA|47495.00|47495| 1686627154|
| 18|   Acura TLX Advance|      2023|   New|     NA|52245.00|52245| 1686627154|
| 19|    Acura TLX A-Spec|      2023|   New|     NA|50595.00|50595| 1686627154|
+---+--------------------+----------+------+-------+--------+-----+-----------+
only showing top 20 rows

Vi har med succes transformeret inputdataene og indtaget dem i car-data feature gruppe.

Kør @feature_processor-koden eksternt

I dette afsnit demonstrerer vi at køre funktionsbehandlingskoden eksternt som en Spark-applikation ved hjælp af @remote dekoratør beskrevet tidligere. Vi kører funktionsbehandlingen eksternt ved hjælp af Spark til at skalere til store datasæt. Spark leverer distribueret behandling på klynger for at håndtere data, der er for store til en enkelt maskine. Det @remote decorator kører den lokale Python-kode som et enkelt eller multi-node SageMaker træningsjob.

Brug @remote dekoratør sammen med @feature_processor dekoratør som følger:

@remote(spark_config=SparkConfig(), instance_type = "ml.m5.xlarge", ...)
@feature_processor(inputs=[FeatureGroupDataSource(CAR_SALES_FG_ARN)],
                   output=AGG_CAR_SALES_FG_ARN, target_stores=["OfflineStore"], enable_ingestion=False )

spark_config parameter angiver, at dette køres som en Spark application. SparkConfig-instansen konfigurerer Spark-konfigurationen og afhængigheder.

Definer aggregate() funktion til at aggregere dataene ved hjælp af PySpark SQL og brugerdefinerede funktioner (UDF'er). Denne funktion udfører følgende handlinger:
- Sammenkæde model, yearog status at skabe model_year_status.
- Tag gennemsnittet af price at skabe avg_price.
- Tag den maksimale værdi af price at skabe max_price.
- Tag gennemsnittet af mileage at skabe avg_mileage.
- Tag den maksimale værdi af mileage at skabe max_mileage.
- Tag gennemsnittet af msrp at skabe avg_msrp.
- Tag den maksimale værdi af msrp at skabe max_msrp.
- Gruppe af model_year_status.

def aggregate(source_feature_group, spark):
    """
    Aggregate the data using a SQL query and UDF.
    """
    import time
    from pyspark.sql.types import StringType
    from pyspark.sql.functions import udf     @udf(returnType=StringType())
    def custom_concat(*cols, delimeter: str = ""):
        return delimeter.join(cols)     spark.udf.register("custom_concat", custom_concat)     # Execute SQL string.
    source_feature_group.createOrReplaceTempView("car_data")
    aggregated_car_data = spark.sql(
        f"""
        SELECT
            custom_concat(model, "_", model_year, "_", status) as model_year_status,
            AVG(price) as avg_price,
            MAX(price) as max_price,
            AVG(mileage) as avg_mileage,
            MAX(mileage) as max_mileage,
            AVG(msrp) as avg_msrp,
            MAX(msrp) as max_msrp,
            "{int(time.time())}" as ingest_time
        FROM car_data
        GROUP BY model_year_status
        """
    )     aggregated_car_data.show()     return aggregated_car_data

Kør aggregate() funktion, som opretter et SageMaker træningsjob til at køre Spark-applikationen:

# Execute the aggregate function
aggregate()

Som et resultat opretter SageMaker et træningsjob til den tidligere definerede Spark-applikation. Det vil skabe et Spark runtime-miljø ved hjælp af sagemaker-spark-processing image.

Vi bruger SageMaker Training-job her til at køre vores Spark-funktionsbehandlingsapplikation. Med SageMaker Training kan du reducere opstartstiden til 1 minut eller mindre ved at bruge varm pooling, som ikke er tilgængelig i SageMaker Processing. Dette gør SageMaker Training bedre optimeret til korte batchjobs som funktionsbehandling, hvor opstartstid er vigtig.

For at se detaljerne skal du vælge på SageMaker-konsollen Træningsjob under Kurser i navigationsruden, og vælg derefter jobbet med navnet aggregate-<timestamp>.

Billedet viser Sagemaker-uddannelsen

Output fra samlet() funktion genererer telemetrikode. Inde i outputtet vil du se de aggregerede data som følger:

+--------------------+------------------+---------+------------------+-----------+--------+--------+-----------+
|   model_year_status|         avg_price|max_price|       avg_mileage|max_mileage|avg_msrp|max_msrp|ingest_time|
+--------------------+------------------+---------+------------------+-----------+--------+--------+-----------+
|Acura CL 3.0_1997...|            7950.0|  7950.00|          100934.0|    100934 |    null|      NA| 1686634807|
|Acura CL 3.2 Type...|            6795.0|  7591.00|          118692.5|    135760 |    null|      NA| 1686634807|
|Acura CL 3_1998_Used|            9899.0|  9899.00|           63000.0|     63000 |    null|      NA| 1686634807|
|Acura ILX 2.0L Te...|         14014.125| 18995.00|         95534.875|     89103 |    null|      NA| 1686634807|
|Acura ILX 2.0L Te...|           15008.2| 16998.00|           94935.0|     88449 |    null|      NA| 1686634807|
|Acura ILX 2.0L Te...|           16394.6| 19985.00|           97719.4|     80000 |    null|      NA| 1686634807|
|Acura ILX 2.0L w/...|14567.181818181818| 16999.00| 96624.72727272728|     98919 |    null|      NA| 1686634807|
|Acura ILX 2.0L w/...|           16673.4| 18995.00|           84848.6|     96637 |    null|      NA| 1686634807|
|Acura ILX 2.0L w/...|12580.333333333334| 14546.00|100207.33333333333|     95782 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|         14565.375| 17590.00|         92941.125|     81842 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|           14877.9|  9995.00|           99739.5|     89252 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|           15659.5| 15660.00|           82136.0|     89942 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|17121.785714285714| 20990.00| 78278.14285714286|     96067 |    null|      NA| 1686634807|
|Acura ILX 2.4L (A...|           17846.0| 21995.00|          101558.0|     85974 |    null|      NA| 1686634807|
|Acura ILX 2.4L Pr...|           16327.0| 16995.00|           85238.0|     95356 |    null|      NA| 1686634807|
|Acura ILX 2.4L w/...|           12846.0| 12846.00|           75209.0|     75209 |    null|      NA| 1686634807|
|Acura ILX 2.4L_20...|           18998.0| 18998.00|           51002.0|     51002 |    null|      NA| 1686634807|
|Acura ILX 2.4L_20...|17908.615384615383| 19316.00| 74325.38461538461|     89116 |    null|      NA| 1686634807|
|Acura ILX 4DR SDN...|           18995.0| 18995.00|           37017.0|     37017 |    null|      NA| 1686634807|
|Acura ILX 8-SPD_2...|           24995.0| 24995.00|           22334.0|     22334 |    null|      NA| 1686634807|
+--------------------+------------------+---------+------------------+-----------+--------+--------+-----------+
only showing top 20 rows

Når træningsjobbet er afsluttet, bør du se følgende output:

06-13 05:40 smspark-submit INFO     spark submit was successful. primary node exiting.
Training seconds: 153
Billable seconds: 153

Operationaliser funktionsprocessoren via SageMaker-pipelines

I dette afsnit demonstrerer vi, hvordan man operationaliserer funktionsprocessoren ved at promovere den til en SageMaker-pipeline og planlægge kørsler.

Først skal du uploade transformation_code.py fil, der indeholder funktionsbehandlingslogikken til Amazon S3:

car_data_s3_uri = s3_path_join("s3://", sagemaker_session.default_bucket(),
                               'transformation_code', 'car-data-ingestion.py')
S3Uploader.upload(local_path='car-data-ingestion.py', desired_s3_uri=car_data_s3_uri)
print(car_data_s3_uri)

Opret derefter en Feature Processor-pipeline car_data_pipeline ved hjælp af .to_pipeline() fungere:

car_data_pipeline_name = f"{CAR_SALES_FG_NAME}-ingestion-pipeline"
car_data_pipeline_arn = fp.to_pipeline(pipeline_name=car_data_pipeline_name,
                                      step=transform,
                                      transformation_code=TransformationCode(s3_uri=car_data_s3_uri) )
print(f"Created SageMaker Pipeline: {car_data_pipeline_arn}.")

For at køre pipelinen skal du bruge følgende kode:

car_data_pipeline_execution_arn = fp.execute(pipeline_name=car_data_pipeline_name)
print(f"Started an execution with execution arn: {car_data_pipeline_execution_arn}")

På samme måde kan du oprette en pipeline for aggregerede funktioner kaldet car_data_aggregated_pipeline og start en løbetur.
Planlæg car_data_aggregated_pipeline at køre hver 24 timer:

fp.schedule(pipeline_name=car_data_aggregated_pipeline_name,
           schedule_expression="rate(24 hours)", state="ENABLED")
print(f"Created a schedule.")

I outputsektionen vil du se ARN for pipeline og pipeline-udførelsesrollen og tidsplandetaljerne:

{'pipeline_arn': 'arn:aws:sagemaker:us-west-2:416578662734:pipeline/car-data-aggregated-ingestion-pipeline',
 'pipeline_execution_role_arn': 'arn:aws:iam::416578662734:role/service-role/AmazonSageMaker-ExecutionRole-20230612T120731',
 'schedule_arn': 'arn:aws:scheduler:us-west-2:416578662734:schedule/default/car-data-aggregated-ingestion-pipeline',
 'schedule_expression': 'rate(24 hours)',
 'schedule_state': 'ENABLED',
 'schedule_start_date': '2023-06-13T06:05:17Z',
 'schedule_role': 'arn:aws:iam::416578662734:role/service-role/AmazonSageMaker-ExecutionRole-20230612T120731'}

For at få alle Feature Processor-pipelines på denne konto skal du bruge list_pipelines() funktion på funktionsprocessoren:

fp.list_pipelines()

Outputtet bliver som følger:

[{'pipeline_name': 'car-data-aggregated-ingestion-pipeline'},
 {'pipeline_name': 'car-data-ingestion-pipeline'}]

Vi har med succes skabt SageMaker Feature Processor pipelines.

Udforsk funktionsbehandlingspipelines og ML-afstamning

I SageMaker Studio skal du udføre følgende trin:

På SageMaker Studio-konsollen, på Home menu, vælg Rørledninger.

Billede af Sagemaker Studio-fanen, der fremhæver pipelines-muligheden

Du bør se to pipelines oprettet: car-data-ingestion-pipeline , car-data-aggregated-ingestion-pipeline.

Billede af Sagemaker Studio pipelines med listen over pipelines

Vælg den car-data-ingestion-pipeline.

Det viser løbsdetaljerne på henrettelser fane.

Billede af Sagemaker Studio af pipeline for indtagelse af bildata

For at se funktionsgruppen udfyldt af pipelinen skal du vælge Feature Store under data Og vælg car-data.

Billede af Sagemaker Studio-hjemmefremhævelsesdata

Du vil se de to funktionsgrupper, vi oprettede i de foregående trin.

Billede af Sagemaker Studio med oprettet funktionsgrupper

Vælg den car-data feature gruppe.

Du vil se funktionerne detaljer på Funktionalitet fane.

Billede af Sagemaker Studio med feature-gruppe og funktionerne i gruppen

Se pipelinekørsler

Udfør følgende trin for at se pipeline-kørslerne:

På Rørledningsudførelses fane, vælg car-data-ingestion-pipeline.

Unlock ML insights using the Amazon SageMaker Feature Store Feature Processor | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Dette vil vise alle kørslerne.

Billedet viser fanen Sagemaker Feature-gruppe for pipeline-udførelserne

Vælg et af linkene for at se detaljerne om løbeturen.

Billedet viser sagemaker UI med pipelines i udførelse

For at se afstamning skal du vælge Afstamning.

Den fulde slægt for car-data viser inputdatakilden car_data.csv og upstream-enheder. Slægten for car-data-aggregated viser inputtet car-data feature gruppe.

Billede af Sagemaker UI af funktionsgruppen af bildata

Vælg Indlæs funktioner og vælg derefter Forespørg opstrøms afstamning on car-data , car-data-ingestion-pipeline for at se alle upstream-enheder.

Den fulde slægt for car-data funktionsgruppen skal se ud som følgende skærmbillede.

Billedet viser Sagemaker feature-butikken med bilafstamning

Tilsvarende er slægten for car-aggregated-data funktionsgruppen skal se ud som følgende skærmbillede.

Billedet passer til den samlede funktionsgruppe fra Sagemaker Feature Store UI

SageMaker Studio giver et enkelt miljø til at spore planlagte pipelines, se kørsler, udforske afstamning og se funktionsbehandlingskoden.

De samlede funktioner såsom gennemsnitspris, maks. pris, gennemsnitlig kilometertal og mere i car-data-aggregated feature group giver indsigt i dataenes karakter. Du kan også bruge disse funktioner som et datasæt til at træne en model til at forudsige bilpriser eller til andre operationer. Men træning af modellen er uden for dette indlæg, som fokuserer på at demonstrere SageMaker Feature Store-funktionerne til feature engineering.

Ryd op

Glem ikke at rydde op i de ressourcer, der er oprettet som en del af dette indlæg for at undgå at pådrage sig løbende gebyrer.

Deaktiver den planlagte pipeline via fp.schedule() metode med tilstandsparameteren som Disabled:

# Disable the scheduled pipeline
fp.schedule(
pipeline_name=car_data_aggregated_pipeline_name,
schedule_expression="rate(24 hours)",
state="DISABLED",
)

Slet begge funktionsgrupper:

# Delete feature groups
car_sales_fg.delete()
agg_car_sales_fg.delete()

Dataene i S3-bøtten og offlinefunktionsbutikken kan pådrage sig omkostninger, så du bør slette dem for at undgå gebyrer.

Slet S3-objekterne.
Slet posterne fra featurebutikken.

Konklusion

I dette indlæg demonstrerede vi, hvordan et bilsalgsfirma brugte SageMaker Feature Store Feature Processor til at få værdifuld indsigt fra deres rå salgsdata ved at:

Indtagelse og transformation af batchdata i skala ved hjælp af Spark
Operationalisering af feature engineering workflows via SageMaker pipelines
Leverer afstamningssporing og et enkelt miljø til at overvåge pipelines og udforske funktioner
Forberedelse af aggregerede funktioner, der er optimeret til træning af ML-modeller

Ved at følge disse trin var virksomheden i stand til at transformere tidligere ubrugelige data til strukturerede funktioner, som derefter kunne bruges til at træne en model til at forudsige bilpriser. SageMaker Feature Store gjorde det muligt for dem at fokusere på feature engineering frem for den underliggende infrastruktur.

Vi håber, at dette indlæg hjælper dig med at låse op for værdifuld ML-indsigt fra dine egne data ved hjælp af SageMaker Feature Store Feature Processor!

For mere information om dette, se Funktionsbehandling og SageMaker-eksemplet på Amazon SageMaker Feature Store: Feature Processor Introduktion.

Om forfatterne

Dhaval Shah er Senior Solutions Architect hos AWS med speciale i Machine Learning. Med et stærkt fokus på digitale indfødte virksomheder giver han kunderne mulighed for at udnytte AWS og drive deres virksomhedsvækst. Som ML-entusiast er Dhaval drevet af sin passion for at skabe effektfulde løsninger, der bringer positiv forandring. I sin fritid hengiver han sig til sin kærlighed til rejser og værner om kvalitetsøjeblikke med sin familie.

Unlock ML insights using the Amazon SageMaker Feature Store Feature Processor | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Ninad Joshi er en Senior Solutions Architect hos AWS, der hjælper globale AWS-kunder med at designe sikre, skalerbare og omkostningseffektive løsninger i skyen for at løse deres komplekse forretningsmæssige udfordringer i den virkelige verden. Hans arbejde i Machine Learning (ML) dækker en bred vifte af AI/ML-brugssager med primært fokus på End-to-End ML, Natural Language Processing og Computer Vision. Før han kom til AWS, arbejdede Ninad som softwareudvikler i mere end 12 år. Uden for sine professionelle bestræbelser kan Ninad godt lide at spille skak og udforske forskellige gambits.

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
Kilde: https://aws.amazon.com/blogs/machine-learning/unlock-ml-insights-using-the-amazon-sagemaker-feature-store-feature-processor/

Tidsstempel: September 19, 2023

Mere fra AWS maskinindlæring

Forøg ML-modellens ydeevne og reducer træningstiden ved hjælp af Amazon SageMaker indbyggede algoritmer med forudtrænede modeller

AWS maskinindlæring

Kildeknude: 1817094

Tidsstempel: Mar 22, 2023

Hvordan Mendix transformerer kundeoplevelser med generativ kunstig intelligens og Amazon Bedrock | Amazon Web Services

Kildeklynge:

AWS maskinindlæring

Kildeknude: 1943843

Tidsstempel: Jan 31, 2024

Lås op for ML-indsigt ved hjælp af Amazon SageMaker Feature Store Feature Processor | Amazon Web Services

Genudgivet af Platon

Løsningsoversigt

Forudsætninger

Opret funktionsgrupper

Brug @feature_processor dekorator til at indlæse data

Kør @feature_processor-koden eksternt

Operationaliser funktionsprocessoren via SageMaker-pipelines

Udforsk funktionsbehandlingspipelines og ML-afstamning

Se pipelinekørsler

Ryd op

Konklusion

Om forfatterne

Mere fra AWS maskinindlæring

Forøg ML-modellens ydeevne og reducer træningstiden ved hjælp af Amazon SageMaker indbyggede algoritmer med forudtrænede modeller

Kør effektiviteten med CI/CD bedste praksis på Amazon Lex

Distribueret træning med Amazon EKS og Torch Distributed Elastic

Bongo Learn giver feedback i realtid for at forbedre læringsresultater med Amazon Transcribe

Hjernetumorsegmentering i skala ved hjælp af AWS Inferentia

Introduktion af automatisk træning til løsninger i Amazon Personalize | Amazon Web Services

Forbedre styringen af dine maskinlæringsmodeller med Amazon SageMaker

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto