Lås opp ML Insights ved å bruke Amazon SageMaker Feature Store Feature Processor

Publisert av Platon

Følgere: 0

Amazon SageMaker Feature Store gir en ende-til-ende-løsning for å automatisere funksjonsteknikk for maskinlæring (ML). For mange ML-brukstilfeller må rådata som loggfiler, sensoravlesninger eller transaksjonsposter transformeres til meningsfulle funksjoner som er optimalisert for modelltrening.

Funksjonskvalitet er avgjørende for å sikre en svært nøyaktig ML-modell. Å transformere rådata til funksjoner ved å bruke aggregering, koding, normalisering og andre operasjoner er ofte nødvendig og kan kreve betydelig innsats. Ingeniører må manuelt skrive tilpasset dataforbehandling og aggregeringslogikk i Python eller Spark for hvert brukstilfelle.

Disse udifferensierte tunge løftene er tungvinte, repeterende og utsatt for feil. De SageMaker Feature Store Feature Processor reduserer denne byrden ved automatisk å transformere rådata til aggregerte funksjoner som er egnet for batchtrening ML-modeller. Den lar ingeniører tilby enkle datatransformasjonsfunksjoner, og håndterer deretter å kjøre dem i stor skala på Spark og administrere den underliggende infrastrukturen. Dette gjør det mulig for dataforskere og dataingeniører å fokusere på funksjonsingeniørlogikken i stedet for implementeringsdetaljer.

I dette innlegget viser vi hvordan et bilsalgsselskap kan bruke funksjonsprosessoren til å transformere rå salgstransaksjonsdata til funksjoner i tre trinn:

Lokale serier av datatransformasjoner.
Fjernkjøring i skala med Spark.
Operasjonalisering via rørledninger.

Vi viser hvordan SageMaker Feature Store tar inn rådata, kjører funksjonstransformasjoner eksternt ved hjelp av Spark og laster de resulterende aggregerte funksjonene inn i en funksjonsgruppe. Disse konstruerte funksjonene kan deretter brukes til å trene ML-modeller.

For denne brukssaken ser vi hvordan SageMaker Feature Store hjelper til med å konvertere rå bilsalgsdata til strukturerte funksjoner. Disse funksjonene blir deretter brukt for å få innsikt som:

Gjennomsnittlig og maksimal pris på røde cabriolet fra 2010
Modeller med best kjørelengde vs. pris
Salgetrender av nye kontra brukte biler gjennom årene
Forskjeller i gjennomsnittlig MSRP på tvers av lokasjoner

Vi ser også hvordan SageMaker Feature Store-pipelines holder funksjonene oppdatert etter hvert som nye data kommer inn, slik at selskapet kontinuerlig kan få innsikt over tid.

Løsningsoversikt

Vi jobber med datasettet car_data.csv, som inneholder spesifikasjoner som modell, år, status, kjørelengde, pris og MSRP for brukte og nye biler som selges av selskapet. Følgende skjermbilde viser et eksempel på datasettet.

"Bilde som viser en tabell over bildata, inkludert bilmodell, år, kjørelengde, pris og MSRP for forskjellige kjøretøy."

Løsningens notatbok feature_processor.ipynb inneholder følgende hovedtrinn, som vi forklarer i dette innlegget:

Opprett to funksjonsgrupper: en kalt car-data for råbilsalgsrekorder og en annen ringte car-data-aggregated for aggregerte bilsalgsrekorder.
Bruke @feature_processor dekorator for å laste data inn i bildata-funksjonsgruppen fra Amazon enkel lagringstjeneste (Amazon S3).
Kjør @feature_processor code eksternt som en Spark-applikasjon for å samle dataene.
Operasjonaliser funksjonsprosessoren via SageMaker rørledninger og tidsplanen kjører.
Utforsk funksjonsbehandlingspipelines og avstamning in Amazon SageMaker Studio.
Bruk aggregerte funksjoner for å trene en ML-modell.

Forutsetninger

For å følge denne opplæringen trenger du følgende:

For dette innlegget viser vi til følgende bærbare, som viser hvordan du kommer i gang med Feature Processor ved å bruke SageMaker Python SDK.

Opprett funksjonsgrupper

For å opprette funksjonsgruppene, fullfør følgende trinn:

Lag en funksjonsgruppedefinisjon for car-data som følger:

# Feature Group - Car Sales CAR_SALES_FG_NAME = "car-data"
CAR_SALES_FG_ARN = f"arn:aws:sagemaker:{region}:{aws_account_id}:feature-group/{CAR_SALES_FG_NAME}"
CAR_SALES_FG_ROLE_ARN = offline_store_role
CAR_SALES_FG_OFFLINE_STORE_S3_URI = f"s3://{s3_bucket}/{s3_offline_store_prefix}"
CAR_SALES_FG_FEATURE_DEFINITIONS = [
    FeatureDefinition(feature_name="id", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="model", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="model_year", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="status", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="mileage", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="price", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="msrp", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="ingest_time", feature_type=FeatureTypeEnum.FRACTIONAL),
]

Funksjonene tilsvarer hver kolonne i car_data.csv datasett (Model, Year, Status, Mileage, Priceog MSRP).

Legg til postidentifikatoren id og arrangementstid ingest_time til funksjonsgruppen:

CAR_SALES_FG_RECORD_IDENTIFIER_NAME = "id"
CAR_SALES_FG_EVENT_TIME_FEATURE_NAME = "ingest_time"

Lag en funksjonsgruppedefinisjon for car-data-aggregated som følger:

# Feature Group - Aggregated Car SalesAGG_CAR_SALES_FG_NAME = "car-data-aggregated"
AGG_CAR_SALES_FG_ARN = (
    f"arn:aws:sagemaker:{region}:{aws_account_id}:feature-group/{AGG_CAR_SALES_FG_NAME}"
)
AGG_CAR_SALES_FG_ROLE_ARN = offline_store_role
AGG_CAR_SALES_FG_OFFLINE_STORE_S3_URI = f"s3://{s3_bucket}/{s3_offline_store_prefix}"
AGG_CAR_SALES_FG_FEATURE_DEFINITIONS = [
    FeatureDefinition(feature_name="model_year_status", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="avg_mileage", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="max_mileage", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="avg_price", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="max_price", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="avg_msrp", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="max_msrp", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="ingest_time", feature_type=FeatureTypeEnum.FRACTIONAL),
]

For den aggregerte funksjonsgruppen er funksjonene modellårsstatus, gjennomsnittlig kjørelengde, maks kjørelengde, gjennomsnittlig pris, makspris, gjennomsnittlig MSRP, maks MSRP og inntakstid. Vi legger til postidentifikatoren model_year_status og arrangementstid ingest_time til denne funksjonsgruppen.

Lag nå car-data funksjonsgruppe:

# Create Feature Group - Car sale records.
car_sales_fg = FeatureGroup(
    name=CAR_SALES_FG_NAME,
    feature_definitions=CAR_SALES_FG_FEATURE_DEFINITIONS,
    sagemaker_session=sagemaker_session,
) create_car_sales_fg_resp = car_sales_fg.create(
        record_identifier_name=CAR_SALES_FG_RECORD_IDENTIFIER_NAME,
        event_time_feature_name=CAR_SALES_FG_EVENT_TIME_FEATURE_NAME,
        s3_uri=CAR_SALES_FG_OFFLINE_STORE_S3_URI,
        enable_online_store=True,
        role_arn=CAR_SALES_FG_ROLE_ARN,
    )

Opprett car-data-aggregated funksjonsgruppe:

# Create Feature Group - Aggregated car sales records.
agg_car_sales_fg = FeatureGroup(
    name=AGG_CAR_SALES_FG_NAME,
    feature_definitions=AGG_CAR_SALES_FG_FEATURE_DEFINITIONS,
    sagemaker_session=sagemaker_session,
) create_agg_car_sales_fg_resp = agg_car_sales_fg.create(       record_identifier_name=AGG_CAR_SALES_FG_RECORD_IDENTIFIER_NAME,  event_time_feature_name=AGG_CAR_SALES_FG_EVENT_TIME_FEATURE_NAME,
        s3_uri=AGG_CAR_SALES_FG_OFFLINE_STORE_S3_URI,
        enable_online_store=True,
        role_arn=AGG_CAR_SALES_FG_ROLE_ARN,
    )

Du kan navigere til SageMaker Feature Store-alternativet under Data på SageMaker Studio Hjemprodukt menyen for å se funksjonsgruppene.

Bilde fra Sagemaker Feature-butikk med overskrifter Funksjonsgruppenavn og beskrivelse

Bruk @feature_processor-dekoratoren for å laste inn data

I denne delen transformerer vi de rå inndataene lokalt (car_data.csv) fra Amazon S3 til car-data funksjonsgruppe ved hjelp av Feature Store Feature Processor. Denne innledende lokale kjøringen lar oss utvikle og iterere før vi kjører eksternt, og kan gjøres på et utvalg av dataene hvis ønskelig for raskere iterasjon.

Med @feature_processor decorator, kjører transformasjonsfunksjonen din i et Spark-runtime-miljø der input-argumentene til funksjonen din og dens returverdi er Spark DataFrames.

Installer Funksjonsprosessor SDK fra SageMaker Python SDK og tilleggene ved hjelp av følgende kommando:

pip install sagemaker[feature-processor]

Antallet inngangsparametere i transformasjonsfunksjonen må samsvare med antall innganger som er konfigurert i @feature_processor dekoratør. I dette tilfellet @feature_processor dekoratør har car-data.csv som input og car-data funksjonsgruppe som utgang, noe som indikerer at dette er en batchoperasjon med target_store as OfflineStore:

from sagemaker.feature_store.feature_processor import (
    feature_processor,
    FeatureGroupDataSource,
    CSVDataSource,
) @feature_processor(
    inputs=[CSVDataSource(RAW_CAR_SALES_S3_URI)],
    output=CAR_SALES_FG_ARN,
    target_stores=["OfflineStore"],
)

Definer transform() funksjon for å transformere dataene. Denne funksjonen utfører følgende handlinger:
- Konverter kolonnenavn til små bokstaver.
- Legg til hendelsestidspunktet til ingest_time kolonne.
- Fjern tegnsetting og erstatt manglende verdier med NA.

def transform(raw_s3_data_as_df):
    """Load data from S3, perform basic feature engineering, store it in a Feature Group"""
    from pyspark.sql.functions import regexp_replace
    from pyspark.sql.functions import lit
    import time     transformed_df = (
        raw_s3_data_as_df.withColumn("Price", regexp_replace("Price", "$", ""))
        # Rename Columns
        .withColumnRenamed("Id", "id")
        .withColumnRenamed("Model", "model")
        .withColumnRenamed("Year", "model_year")
        .withColumnRenamed("Status", "status")
        .withColumnRenamed("Mileage", "mileage")
        .withColumnRenamed("Price", "price")
        .withColumnRenamed("MSRP", "msrp")
        # Add Event Time
        .withColumn("ingest_time", lit(int(time.time())))
        # Remove punctuation and fluff; replace with NA
        .withColumn("mileage", regexp_replace("mileage", "(,)|(mi.)", ""))
        .withColumn("mileage", regexp_replace("mileage", "Not available", "NA"))
        .withColumn("price", regexp_replace("price", ",", ""))
        .withColumn("msrp", regexp_replace("msrp", "(^MSRPs$)|(,)", ""))
        .withColumn("msrp", regexp_replace("msrp", "Not specified", "NA"))
        .withColumn("msrp", regexp_replace("msrp", "$d+[a-zA-Zs]+", "NA"))
        .withColumn("model", regexp_replace("model", "^dddds", ""))
    )

Ring transform() funksjon for å lagre dataene i car-data funksjonsgruppe:

# Execute the FeatureProcessor
transform()

Utdataene viser at dataene er vellykket innlemmet i bildatafunksjonsgruppen.

Resultatet av transform_df.show() funksjonen er som følger:

INFO:sagemaker:Ingesting transformed data to arn:aws:sagemaker:us-west-2:416578662734:feature-group/car-data with target_stores: ['OfflineStore'] +---+--------------------+----------+------+-------+--------+-----+-----------+
| id|               model|model_year|status|mileage|   price| msrp|ingest_time|
+---+--------------------+----------+------+-------+--------+-----+-----------+
|  0|    Acura TLX A-Spec|      2022|   New|     NA|49445.00|49445| 1686627154|
|  1|    Acura RDX A-Spec|      2023|   New|     NA|50895.00|   NA| 1686627154|
|  2|    Acura TLX Type S|      2023|   New|     NA|57745.00|   NA| 1686627154|
|  3|    Acura TLX Type S|      2023|   New|     NA|57545.00|   NA| 1686627154|
|  4|Acura MDX Sport H...|      2019|  Used| 32675 |40990.00|   NA| 1686627154|
|  5|    Acura TLX A-Spec|      2023|   New|     NA|50195.00|50195| 1686627154|
|  6|    Acura TLX A-Spec|      2023|   New|     NA|50195.00|50195| 1686627154|
|  7|    Acura TLX Type S|      2023|   New|     NA|57745.00|   NA| 1686627154|
|  8|    Acura TLX A-Spec|      2023|   New|     NA|47995.00|   NA| 1686627154|
|  9|    Acura TLX A-Spec|      2022|   New|     NA|49545.00|   NA| 1686627154|
| 10|Acura Integra w/A...|      2023|   New|     NA|36895.00|36895| 1686627154|
| 11|    Acura TLX A-Spec|      2023|   New|     NA|48395.00|48395| 1686627154|
| 12|Acura MDX Type S ...|      2023|   New|     NA|75590.00|   NA| 1686627154|
| 13|Acura RDX A-Spec ...|      2023|   New|     NA|55345.00|   NA| 1686627154|
| 14|    Acura TLX A-Spec|      2023|   New|     NA|50195.00|50195| 1686627154|
| 15|Acura RDX A-Spec ...|      2023|   New|     NA|55045.00|   NA| 1686627154|
| 16|    Acura TLX Type S|      2023|   New|     NA|56445.00|   NA| 1686627154|
| 17|    Acura TLX A-Spec|      2023|   New|     NA|47495.00|47495| 1686627154|
| 18|   Acura TLX Advance|      2023|   New|     NA|52245.00|52245| 1686627154|
| 19|    Acura TLX A-Spec|      2023|   New|     NA|50595.00|50595| 1686627154|
+---+--------------------+----------+------+-------+--------+-----+-----------+
only showing top 20 rows

Vi har transformert inndataene og tatt dem inn i car-data funksjonsgruppe.

Kjør @feature_processor-koden eksternt

I denne delen demonstrerer vi å kjøre funksjonsbehandlingskoden eksternt som en Spark-applikasjon ved hjelp av @remote dekoratør beskrevet tidligere. Vi kjører funksjonsbehandlingen eksternt ved å bruke Spark for å skalere til store datasett. Spark tilbyr distribuert behandling på klynger for å håndtere data som er for store for en enkelt maskin. De @remote decorator kjører den lokale Python-koden som en SageMaker-treningsjobb med én eller flere noder.

Bruke @remote dekoratør sammen med @feature_processor dekoratør som følger:

@remote(spark_config=SparkConfig(), instance_type = "ml.m5.xlarge", ...)
@feature_processor(inputs=[FeatureGroupDataSource(CAR_SALES_FG_ARN)],
                   output=AGG_CAR_SALES_FG_ARN, target_stores=["OfflineStore"], enable_ingestion=False )

De spark_config parameter indikerer at dette kjøres som en Spark application. SparkConfig-forekomsten konfigurerer Spark-konfigurasjonen og avhengighetene.

Definer aggregate() funksjon for å samle dataene ved hjelp av PySpark SQL og brukerdefinerte funksjoner (UDF). Denne funksjonen utfører følgende handlinger:
- Concatenate model, yearog status å skape model_year_status.
- Ta gjennomsnittet av price å skape avg_price.
- Ta maksverdien av price å skape max_price.
- Ta gjennomsnittet av mileage å skape avg_mileage.
- Ta maksverdien av mileage å skape max_mileage.
- Ta gjennomsnittet av msrp å skape avg_msrp.
- Ta maksverdien av msrp å skape max_msrp.
- Gruppe av model_year_status.

def aggregate(source_feature_group, spark):
    """
    Aggregate the data using a SQL query and UDF.
    """
    import time
    from pyspark.sql.types import StringType
    from pyspark.sql.functions import udf     @udf(returnType=StringType())
    def custom_concat(*cols, delimeter: str = ""):
        return delimeter.join(cols)     spark.udf.register("custom_concat", custom_concat)     # Execute SQL string.
    source_feature_group.createOrReplaceTempView("car_data")
    aggregated_car_data = spark.sql(
        f"""
        SELECT
            custom_concat(model, "_", model_year, "_", status) as model_year_status,
            AVG(price) as avg_price,
            MAX(price) as max_price,
            AVG(mileage) as avg_mileage,
            MAX(mileage) as max_mileage,
            AVG(msrp) as avg_msrp,
            MAX(msrp) as max_msrp,
            "{int(time.time())}" as ingest_time
        FROM car_data
        GROUP BY model_year_status
        """
    )     aggregated_car_data.show()     return aggregated_car_data

Kjør aggregate() funksjon, som oppretter en SageMaker-treningsjobb for å kjøre Spark-applikasjonen:

# Execute the aggregate function
aggregate()

Som et resultat oppretter SageMaker en treningsjobb til Spark-applikasjonen definert tidligere. Det vil skape et Spark-løpemiljø ved å bruke sagemaker-spark-processing image.

Vi bruker SageMaker Training-jobber her for å kjøre vår Spark-funksjonsbehandlingsapplikasjon. Med SageMaker Training kan du redusere oppstartstiden til 1 minutt eller mindre ved å bruke varm pooling, som ikke er tilgjengelig i SageMaker Processing. Dette gjør SageMaker Training bedre optimalisert for korte batchjobber som funksjonsbehandling der oppstartstid er viktig.

For å se detaljene, velg på SageMaker-konsollen Treningsjobber etter Kurs i navigasjonsruten, og velg deretter jobben med navnet aggregate-<timestamp>.

Bildet viser Sagemaker-treningsjobben

Resultatet av samle() funksjonen genererer telemetrikode. Inne i utdataene vil du se de aggregerte dataene som følger:

+--------------------+------------------+---------+------------------+-----------+--------+--------+-----------+
|   model_year_status|         avg_price|max_price|       avg_mileage|max_mileage|avg_msrp|max_msrp|ingest_time|
+--------------------+------------------+---------+------------------+-----------+--------+--------+-----------+
|Acura CL 3.0_1997...|            7950.0|  7950.00|          100934.0|    100934 |    null|      NA| 1686634807|
|Acura CL 3.2 Type...|            6795.0|  7591.00|          118692.5|    135760 |    null|      NA| 1686634807|
|Acura CL 3_1998_Used|            9899.0|  9899.00|           63000.0|     63000 |    null|      NA| 1686634807|
|Acura ILX 2.0L Te...|         14014.125| 18995.00|         95534.875|     89103 |    null|      NA| 1686634807|
|Acura ILX 2.0L Te...|           15008.2| 16998.00|           94935.0|     88449 |    null|      NA| 1686634807|
|Acura ILX 2.0L Te...|           16394.6| 19985.00|           97719.4|     80000 |    null|      NA| 1686634807|
|Acura ILX 2.0L w/...|14567.181818181818| 16999.00| 96624.72727272728|     98919 |    null|      NA| 1686634807|
|Acura ILX 2.0L w/...|           16673.4| 18995.00|           84848.6|     96637 |    null|      NA| 1686634807|
|Acura ILX 2.0L w/...|12580.333333333334| 14546.00|100207.33333333333|     95782 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|         14565.375| 17590.00|         92941.125|     81842 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|           14877.9|  9995.00|           99739.5|     89252 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|           15659.5| 15660.00|           82136.0|     89942 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|17121.785714285714| 20990.00| 78278.14285714286|     96067 |    null|      NA| 1686634807|
|Acura ILX 2.4L (A...|           17846.0| 21995.00|          101558.0|     85974 |    null|      NA| 1686634807|
|Acura ILX 2.4L Pr...|           16327.0| 16995.00|           85238.0|     95356 |    null|      NA| 1686634807|
|Acura ILX 2.4L w/...|           12846.0| 12846.00|           75209.0|     75209 |    null|      NA| 1686634807|
|Acura ILX 2.4L_20...|           18998.0| 18998.00|           51002.0|     51002 |    null|      NA| 1686634807|
|Acura ILX 2.4L_20...|17908.615384615383| 19316.00| 74325.38461538461|     89116 |    null|      NA| 1686634807|
|Acura ILX 4DR SDN...|           18995.0| 18995.00|           37017.0|     37017 |    null|      NA| 1686634807|
|Acura ILX 8-SPD_2...|           24995.0| 24995.00|           22334.0|     22334 |    null|      NA| 1686634807|
+--------------------+------------------+---------+------------------+-----------+--------+--------+-----------+
only showing top 20 rows

Når treningsjobben er fullført, bør du se følgende utdata:

06-13 05:40 smspark-submit INFO     spark submit was successful. primary node exiting.
Training seconds: 153
Billable seconds: 153

Operasjonaliser funksjonsprosessoren via SageMaker-pipelines

I denne delen viser vi hvordan du operasjonaliserer funksjonsprosessoren ved å promotere den til en SageMaker-pipeline og planlegge kjøringer.

Først laster du opp transformation_code.py fil som inneholder funksjonsbehandlingslogikken til Amazon S3:

car_data_s3_uri = s3_path_join("s3://", sagemaker_session.default_bucket(),
                               'transformation_code', 'car-data-ingestion.py')
S3Uploader.upload(local_path='car-data-ingestion.py', desired_s3_uri=car_data_s3_uri)
print(car_data_s3_uri)

Deretter oppretter du en funksjonsprosessor-pipeline car_data_pipeline bruker .to_pipeline() funksjon:

car_data_pipeline_name = f"{CAR_SALES_FG_NAME}-ingestion-pipeline"
car_data_pipeline_arn = fp.to_pipeline(pipeline_name=car_data_pipeline_name,
                                      step=transform,
                                      transformation_code=TransformationCode(s3_uri=car_data_s3_uri) )
print(f"Created SageMaker Pipeline: {car_data_pipeline_arn}.")

For å kjøre rørledningen, bruk følgende kode:

car_data_pipeline_execution_arn = fp.execute(pipeline_name=car_data_pipeline_name)
print(f"Started an execution with execution arn: {car_data_pipeline_execution_arn}")

På samme måte kan du opprette en pipeline for aggregerte funksjoner kalt car_data_aggregated_pipeline og starte en løpetur.
Planlegg car_data_aggregated_pipeline å kjøre hver 24. time:

fp.schedule(pipeline_name=car_data_aggregated_pipeline_name,
           schedule_expression="rate(24 hours)", state="ENABLED")
print(f"Created a schedule.")

I utdatadelen vil du se ARN for pipeline og pipeline-utførelsesrollen, og tidsplandetaljene:

{'pipeline_arn': 'arn:aws:sagemaker:us-west-2:416578662734:pipeline/car-data-aggregated-ingestion-pipeline',
 'pipeline_execution_role_arn': 'arn:aws:iam::416578662734:role/service-role/AmazonSageMaker-ExecutionRole-20230612T120731',
 'schedule_arn': 'arn:aws:scheduler:us-west-2:416578662734:schedule/default/car-data-aggregated-ingestion-pipeline',
 'schedule_expression': 'rate(24 hours)',
 'schedule_state': 'ENABLED',
 'schedule_start_date': '2023-06-13T06:05:17Z',
 'schedule_role': 'arn:aws:iam::416578662734:role/service-role/AmazonSageMaker-ExecutionRole-20230612T120731'}

For å få alle funksjonsprosessor-pipelines i denne kontoen, bruk list_pipelines() funksjon på funksjonsprosessoren:

fp.list_pipelines()

Resultatet blir som følger:

[{'pipeline_name': 'car-data-aggregated-ingestion-pipeline'},
 {'pipeline_name': 'car-data-ingestion-pipeline'}]

Vi har opprettet SageMaker Feature Processor-rørledninger.

Utforsk rørledninger for funksjonsbehandling og ML-linje

I SageMaker Studio, fullfør følgende trinn:

På SageMaker Studio-konsollen, på Hjemprodukt meny, velg Rørledninger.

Bilde av Sagemaker Studio-hjemmefane som fremhever alternativet for rørledninger

Du bør se to rørledninger opprettet: car-data-ingestion-pipeline og car-data-aggregated-ingestion-pipeline.

Bilde av Sagemaker Studio-rørledninger med listen over rørledninger

Velg car-data-ingestion-pipeline.

Den viser løpsdetaljene på henrettelser fanen.

Bilde av Sagemaker Studio av rørledningen for inntak av bildata

For å se funksjonsgruppen som fylles ut av rørledningen, velg Feature Store etter Data Og velg car-data.

Bilde av Sagemaker Studio-hjemmefremhevingsdata

Du vil se de to funksjonsgruppene vi opprettet i de forrige trinnene.

Bilde av Sagemaker Studio med funksjonsgrupper opprettet

Velg car-data funksjonsgruppe.

Du vil se funksjonsdetaljene på Egenskaper fanen.

Bilde av Sagemaker Studio med funksjonsgruppe og funksjonene i gruppen

Se rørledningsløp

For å se rørledningene, fullfør følgende trinn:

På Rørledningsutførelses fane, velg car-data-ingestion-pipeline.

Lås opp ML-innsikt ved hjelp av Amazon SageMaker Feature Store Feature Processor | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Dette vil vise alle kjøringene.

Bildet viser Sagemaker Feature-gruppefanen for pipeline-utførelsene

Velg en av lenkene for å se detaljene om løpeturen.

Bildet viser sagemaker-grensesnittet med rørledningene i utførelse

For å se avstamning, velg Avstamning.

Hele slekten for car-data viser inndatakilden car_data.csv og oppstrøms enheter. Slekten for car-data-aggregated viser inngangen car-data funksjonsgruppe.

Bilde av Sagemaker UI av funksjonsgruppen med bildata

Velg Last inn funksjoner og velg deretter Spørr oppstrøms avstamning on car-data og car-data-ingestion-pipeline for å se alle oppstrømsenhetene.

Hele slekten for car-data funksjonsgruppen skal se ut som følgende skjermbilde.

Bildet viser Sagemaker-butikken med bilavstamning

Tilsvarende er avstamningen for car-aggregated-data funksjonsgruppen skal se ut som følgende skjermbilde.

Bildet viser den samlede funksjonsgruppen fra Sagemaker Feature Store UI

SageMaker Studio tilbyr et enkelt miljø for å spore planlagte rørledninger, se kjøringer, utforske avstamning og se funksjonsbehandlingskoden.

De aggregerte funksjonene som gjennomsnittspris, makspris, gjennomsnittlig kjørelengde og mer i car-data-aggregated funksjonsgruppe gir innsikt i dataenes natur. Du kan også bruke disse funksjonene som et datasett for å trene en modell til å forutsi bilpriser, eller for andre operasjoner. Trening av modellen er imidlertid utenfor rammen for dette innlegget, som fokuserer på å demonstrere SageMaker Feature Store-funksjonene for funksjonsutvikling.

Rydd opp

Ikke glem å rydde opp i ressursene som er opprettet som en del av dette innlegget for å unngå påløpende kostnader.

Deaktiver den planlagte rørledningen via fp.schedule() metode med tilstandsparameteren som Disabled:

# Disable the scheduled pipeline
fp.schedule(
pipeline_name=car_data_aggregated_pipeline_name,
schedule_expression="rate(24 hours)",
state="DISABLED",
)

Slett begge funksjonsgruppene:

# Delete feature groups
car_sales_fg.delete()
agg_car_sales_fg.delete()

Dataene som ligger i S3-bøtte- og offline-funksjonsbutikken kan pådra seg kostnader, så du bør slette dem for å unngå kostnader.

Slett S3-objektene.
Slett postene fra featurebutikken.

konklusjonen

I dette innlegget demonstrerte vi hvordan et bilsalgsselskap brukte SageMaker Feature Store Feature Processor for å få verdifull innsikt fra sine rå salgsdata ved å:

Inntak og transformering av batchdata i stor skala ved hjelp av Spark
Operasjonalisere funksjonsprosjekteringsarbeidsflyter via SageMaker-rørledninger
Tilbyr avstamningssporing og ett enkelt miljø for å overvåke rørledninger og utforske funksjoner
Forbereder aggregerte funksjoner optimalisert for trening av ML-modeller

Ved å følge disse trinnene var selskapet i stand til å transformere tidligere ubrukelige data til strukturerte funksjoner som deretter kunne brukes til å trene en modell til å forutsi bilpriser. SageMaker Feature Store gjorde det mulig for dem å fokusere på funksjonsteknikk i stedet for den underliggende infrastrukturen.

Vi håper dette innlegget hjelper deg å låse opp verdifull ML-innsikt fra dine egne data ved å bruke SageMaker Feature Store Feature Processor!

For mer informasjon om dette, se Funksjonsbehandling og SageMaker-eksemplet på Amazon SageMaker Feature Store: Feature Processor Introduksjon.

Om forfatterne

Dhaval Shah er en senior løsningsarkitekt hos AWS, med spesialisering i maskinlæring. Med et sterkt fokus på digitalt opprinnelige virksomheter gir han kundene muligheten til å utnytte AWS og drive virksomhetens vekst. Som en ML-entusiast er Dhaval drevet av sin lidenskap for å skape effektive løsninger som gir positiv endring. På fritiden hengir han seg til kjærligheten for reiser og setter pris på gode øyeblikk med familien.

Lås opp ML-innsikt ved hjelp av Amazon SageMaker Feature Store Feature Processor | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Ninad Joshi er en Senior Solutions Architect hos AWS, og hjelper globale AWS-kunder med å designe sikre, skalerbare og kostnadseffektive løsninger i skyen for å løse deres komplekse virkelige forretningsutfordringer. Hans arbeid innen Machine Learning (ML) dekker et bredt spekter av AI/ML-brukstilfeller, med hovedfokus på End-to-End ML, Natural Language Processing og Computer Vision. Før han begynte i AWS, jobbet Ninad som programvareutvikler i 12+ år. Utenom sine profesjonelle bestrebelser liker Ninad å spille sjakk og utforske forskjellige gambiter.

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
kilde: https://aws.amazon.com/blogs/machine-learning/unlock-ml-insights-using-the-amazon-sagemaker-feature-store-feature-processor/

Tidstempel: September 19, 2023

Mer fra AWS maskinlæring

Øk ML-modellytelsen og reduser treningstiden ved å bruke Amazon SageMaker innebygde algoritmer med forhåndstrente PlatoBlockchain Data Intelligence-modeller. Vertikalt søk. Ai.

Øk ML-modellytelsen og reduser treningstiden ved å bruke Amazon SageMaker innebygde algoritmer med forhåndstrente modeller

AWS maskinlæring

Kilde node: 1817094

Tidstempel: Mar 22, 2023

Hvordan Mendix transformerer kundeopplevelser med generativ AI og Amazon Bedrock | Amazon Web Services

Kildeklynge:

AWS maskinlæring

Kilde node: 1943843

Tidstempel: Jan 31, 2024

Lås opp ML-innsikt ved hjelp av Amazon SageMaker Feature Store Feature Processor | Amazon Web Services

Publisert av Platon

Løsningsoversikt

Forutsetninger

Opprett funksjonsgrupper

Bruk @feature_processor-dekoratoren for å laste inn data

Kjør @feature_processor-koden eksternt

Operasjonaliser funksjonsprosessoren via SageMaker-pipelines

Utforsk rørledninger for funksjonsbehandling og ML-linje

Se rørledningsløp

Rydd opp

konklusjonen

Om forfatterne

Mer fra AWS maskinlæring

Øk ML-modellytelsen og reduser treningstiden ved å bruke Amazon SageMaker innebygde algoritmer med forhåndstrente modeller

Øk effektiviteten med beste fremgangsmåter for CI/CD på Amazon Lex

Distribuert trening med Amazon EKS og Torch Distributed Elastic

Bongo Learn gir tilbakemelding i sanntid for å forbedre læringsutbytte med Amazon Transcribe

Hjernesvulstsegmentering i skala ved bruk av AWS Inferentia

Vi introduserer automatisk opplæring for løsninger i Amazon Personalize | Amazon Web Services

Forbedre styringen av maskinlæringsmodellene dine med Amazon SageMaker

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn