Deblocați ML Insights utilizând Procesorul de funcții Amazon SageMaker Feature Store

Republicat de Platon

Urmaritori: 0

Magazinul de caracteristici Amazon SageMaker oferă o soluție end-to-end pentru automatizarea ingineriei caracteristicilor pentru învățarea automată (ML). Pentru multe cazuri de utilizare ML, datele brute, cum ar fi fișierele jurnal, citirile senzorilor sau înregistrările tranzacțiilor, trebuie transformate în caracteristici semnificative care sunt optimizate pentru formarea modelului.

Calitatea caracteristicilor este esențială pentru a asigura un model ML foarte precis. Transformarea datelor brute în caracteristici folosind agregarea, codificarea, normalizarea și alte operațiuni este adesea necesară și poate necesita un efort semnificativ. Inginerii trebuie să scrie manual preprocesarea datelor personalizate și logica de agregare în Python sau Spark pentru fiecare caz de utilizare.

Această ridicare nediferențiată de grele este greoaie, repetitivă și predispusă la erori. The SageMaker Feature Store Feature Processor reduce această sarcină prin transformarea automată a datelor brute în caracteristici agregate potrivite pentru modelele ML de formare în serie. Le permite inginerilor să ofere funcții simple de transformare a datelor, apoi se ocupă de rularea lor la scară pe Spark și de gestionarea infrastructurii de bază. Acest lucru le permite oamenilor de știință de date și inginerilor de date să se concentreze pe logica de inginerie a caracteristicilor, mai degrabă decât pe detaliile implementării.

În această postare, demonstrăm modul în care o companie de vânzări de mașini poate folosi Feature Processor pentru a transforma datele brute ale tranzacțiilor de vânzare în funcții în trei pași:

Execuții locale de transformări de date.
La distanță rulează la scară folosind Spark.
Operaționalizare prin conducte.

Arătăm cum SageMaker Feature Store ingerează datele brute, execută transformări de caracteristici de la distanță folosind Spark și încarcă caracteristicile agregate rezultate într-un grup de caracteristici. Aceste caracteristici proiectate pot fi apoi utilizate pentru a antrena modele ML.

Pentru acest caz de utilizare, vedem cum SageMaker Feature Store ajută la convertirea datelor brute despre vânzările de mașini în caracteristici structurate. Aceste caracteristici sunt utilizate ulterior pentru a obține informații precum:

Prețul mediu și maxim al cabrioletelor roșii din 2010
Modele cu cel mai bun kilometraj față de preț
Tendințele de vânzări ale mașinilor noi față de cele folosite de-a lungul anilor
Diferențele de preț mediu mediu între locații

De asemenea, vedem cum pipelines SageMaker Feature Store mențin funcțiile actualizate pe măsură ce apar date noi, permițând companiei să obțină în mod continuu informații în timp.

Prezentare generală a soluțiilor

Lucrăm cu setul de date car_data.csv, care conține specificații precum modelul, anul, starea, kilometrajul, prețul și MSRP pentru mașinile folosite și noi vândute de companie. Următoarea captură de ecran arată un exemplu al setului de date.

„Imagine care afișează un tabel cu date despre mașină, inclusiv modelul mașinii, anul, kilometrajul, prețul și MSRP pentru diferite vehicule.”

Caietul cu soluții feature_processor.ipynb conține următorii pași principali, pe care îi explicăm în această postare:

Creați două grupuri de caracteristici: unul numit car-data pentru recordurile de vânzări de mașini brute și un altul sunat car-data-aggregated pentru înregistrările agregate ale vânzărilor de mașini.
Folosește @feature_processor decorator pentru a încărca date în grupul de caracteristici de date auto din Serviciul Amazon de stocare simplă (Amazon S3).
Pornește @feature_processor code de la distanță ca aplicație Spark pentru a agrega datele.
Operaționalizați procesorul de caracteristici prin Conducte SageMaker și programul rulează.
Explorați conductele de procesare a caracteristicilor și descendență in Amazon SageMaker Studio.
Utilizați caracteristici agregate pentru a antrena un model ML.

Cerințe preliminare

Pentru a urma acest tutorial, aveți nevoie de următoarele:

Pentru această postare, ne referim la următoarele caiet, care demonstrează cum să începeți cu Feature Processor utilizând SDK-ul SageMaker Python.

Creați grupuri de caracteristici

Pentru a crea grupurile de caracteristici, parcurgeți următorii pași:

Creați o definiție de grup de caracteristici pentru car-data după cum urmează:

# Feature Group - Car Sales CAR_SALES_FG_NAME = "car-data"
CAR_SALES_FG_ARN = f"arn:aws:sagemaker:{region}:{aws_account_id}:feature-group/{CAR_SALES_FG_NAME}"
CAR_SALES_FG_ROLE_ARN = offline_store_role
CAR_SALES_FG_OFFLINE_STORE_S3_URI = f"s3://{s3_bucket}/{s3_offline_store_prefix}"
CAR_SALES_FG_FEATURE_DEFINITIONS = [
    FeatureDefinition(feature_name="id", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="model", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="model_year", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="status", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="mileage", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="price", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="msrp", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="ingest_time", feature_type=FeatureTypeEnum.FRACTIONAL),
]

Caracteristicile corespund fiecărei coloane din car_data.csv set de date (Model, Year, Status, Mileage, Price, și MSRP).

Adăugați identificatorul de înregistrare id și ora evenimentului ingest_time la grupul de caracteristici:

CAR_SALES_FG_RECORD_IDENTIFIER_NAME = "id"
CAR_SALES_FG_EVENT_TIME_FEATURE_NAME = "ingest_time"

Creați o definiție de grup de caracteristici pentru car-data-aggregated după cum urmează:

# Feature Group - Aggregated Car SalesAGG_CAR_SALES_FG_NAME = "car-data-aggregated"
AGG_CAR_SALES_FG_ARN = (
    f"arn:aws:sagemaker:{region}:{aws_account_id}:feature-group/{AGG_CAR_SALES_FG_NAME}"
)
AGG_CAR_SALES_FG_ROLE_ARN = offline_store_role
AGG_CAR_SALES_FG_OFFLINE_STORE_S3_URI = f"s3://{s3_bucket}/{s3_offline_store_prefix}"
AGG_CAR_SALES_FG_FEATURE_DEFINITIONS = [
    FeatureDefinition(feature_name="model_year_status", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="avg_mileage", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="max_mileage", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="avg_price", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="max_price", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="avg_msrp", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="max_msrp", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="ingest_time", feature_type=FeatureTypeEnum.FRACTIONAL),
]

Pentru grupul de caracteristici agregate, caracteristicile sunt starea anului modelului, kilometrajul mediu, kilometrajul maxim, prețul mediu, prețul maxim, MSRP mediu, MSRP maxim și timpul de utilizare. Adăugăm identificatorul de înregistrare model_year_status și ora evenimentului ingest_time la acest grup de caracteristici.

Acum, creează car-data grup de caracteristici:

# Create Feature Group - Car sale records.
car_sales_fg = FeatureGroup(
    name=CAR_SALES_FG_NAME,
    feature_definitions=CAR_SALES_FG_FEATURE_DEFINITIONS,
    sagemaker_session=sagemaker_session,
) create_car_sales_fg_resp = car_sales_fg.create(
        record_identifier_name=CAR_SALES_FG_RECORD_IDENTIFIER_NAME,
        event_time_feature_name=CAR_SALES_FG_EVENT_TIME_FEATURE_NAME,
        s3_uri=CAR_SALES_FG_OFFLINE_STORE_S3_URI,
        enable_online_store=True,
        role_arn=CAR_SALES_FG_ROLE_ARN,
    )

Creați car-data-aggregated grup de caracteristici:

# Create Feature Group - Aggregated car sales records.
agg_car_sales_fg = FeatureGroup(
    name=AGG_CAR_SALES_FG_NAME,
    feature_definitions=AGG_CAR_SALES_FG_FEATURE_DEFINITIONS,
    sagemaker_session=sagemaker_session,
) create_agg_car_sales_fg_resp = agg_car_sales_fg.create(       record_identifier_name=AGG_CAR_SALES_FG_RECORD_IDENTIFIER_NAME,  event_time_feature_name=AGG_CAR_SALES_FG_EVENT_TIME_FEATURE_NAME,
        s3_uri=AGG_CAR_SALES_FG_OFFLINE_STORE_S3_URI,
        enable_online_store=True,
        role_arn=AGG_CAR_SALES_FG_ROLE_ARN,
    )

Puteți naviga la opțiunea SageMaker Feature Store sub Date pe SageMaker Studio Acasă meniu pentru a vedea grupurile de caracteristici.

Imagine din magazinul de funcții Sagemaker cu anteturi Numele și descrierea grupului de caracteristici

Utilizați decoratorul @feature_processor pentru a încărca date

În această secțiune, transformăm local datele brute de intrare (car_data.csv) de la Amazon S3 în car-data grup de caracteristici utilizând Feature Store Feature Processor. Această rulare locală inițială ne permite să dezvoltăm și să repetăm înainte de a rula de la distanță și ar putea fi efectuată pe un eșantion de date, dacă se dorește, pentru o iterație mai rapidă.

Cu @feature_processor Decorator, funcția dvs. de transformare rulează într-un mediu de execuție Spark în care argumentele de intrare furnizate funcției dvs. și valoarea returnată a acesteia sunt Spark DataFrames.

instalaţi SDK pentru procesor de caracteristici de la SageMaker Python SDK și extrasele sale folosind următoarea comandă:

pip install sagemaker[feature-processor]

Numărul de parametri de intrare din funcția dvs. de transformare trebuie să se potrivească cu numărul de intrări configurate în @feature_processor decorator. În acest caz, @feature_processor decoratorul are car-data.csv ca intrare și car-data grup de caracteristici ca ieșire, indicând că aceasta este o operațiune în lot cu target_store as OfflineStore:

from sagemaker.feature_store.feature_processor import (
    feature_processor,
    FeatureGroupDataSource,
    CSVDataSource,
) @feature_processor(
    inputs=[CSVDataSource(RAW_CAR_SALES_S3_URI)],
    output=CAR_SALES_FG_ARN,
    target_stores=["OfflineStore"],
)

Definiți transform() funcția de transformare a datelor. Această funcție efectuează următoarele acțiuni:
- Convertiți numele coloanelor în minuscule.
- Adăugați ora evenimentului la ingest_time coloana.
- Eliminați semnele de punctuație și înlocuiți valorile lipsă cu NA.

def transform(raw_s3_data_as_df):
    """Load data from S3, perform basic feature engineering, store it in a Feature Group"""
    from pyspark.sql.functions import regexp_replace
    from pyspark.sql.functions import lit
    import time     transformed_df = (
        raw_s3_data_as_df.withColumn("Price", regexp_replace("Price", "$", ""))
        # Rename Columns
        .withColumnRenamed("Id", "id")
        .withColumnRenamed("Model", "model")
        .withColumnRenamed("Year", "model_year")
        .withColumnRenamed("Status", "status")
        .withColumnRenamed("Mileage", "mileage")
        .withColumnRenamed("Price", "price")
        .withColumnRenamed("MSRP", "msrp")
        # Add Event Time
        .withColumn("ingest_time", lit(int(time.time())))
        # Remove punctuation and fluff; replace with NA
        .withColumn("mileage", regexp_replace("mileage", "(,)|(mi.)", ""))
        .withColumn("mileage", regexp_replace("mileage", "Not available", "NA"))
        .withColumn("price", regexp_replace("price", ",", ""))
        .withColumn("msrp", regexp_replace("msrp", "(^MSRPs$)|(,)", ""))
        .withColumn("msrp", regexp_replace("msrp", "Not specified", "NA"))
        .withColumn("msrp", regexp_replace("msrp", "$d+[a-zA-Zs]+", "NA"))
        .withColumn("model", regexp_replace("model", "^dddds", ""))
    )

Suna transform() funcția de stocare a datelor în car-data grup de caracteristici:

# Execute the FeatureProcessor
transform()

Rezultatul arată că datele sunt ingerate cu succes în grupul de caracteristici de date auto.

Ieșirea fișierului transform_df.show() functia este urmatoarea:

INFO:sagemaker:Ingesting transformed data to arn:aws:sagemaker:us-west-2:416578662734:feature-group/car-data with target_stores: ['OfflineStore'] +---+--------------------+----------+------+-------+--------+-----+-----------+
| id|               model|model_year|status|mileage|   price| msrp|ingest_time|
+---+--------------------+----------+------+-------+--------+-----+-----------+
|  0|    Acura TLX A-Spec|      2022|   New|     NA|49445.00|49445| 1686627154|
|  1|    Acura RDX A-Spec|      2023|   New|     NA|50895.00|   NA| 1686627154|
|  2|    Acura TLX Type S|      2023|   New|     NA|57745.00|   NA| 1686627154|
|  3|    Acura TLX Type S|      2023|   New|     NA|57545.00|   NA| 1686627154|
|  4|Acura MDX Sport H...|      2019|  Used| 32675 |40990.00|   NA| 1686627154|
|  5|    Acura TLX A-Spec|      2023|   New|     NA|50195.00|50195| 1686627154|
|  6|    Acura TLX A-Spec|      2023|   New|     NA|50195.00|50195| 1686627154|
|  7|    Acura TLX Type S|      2023|   New|     NA|57745.00|   NA| 1686627154|
|  8|    Acura TLX A-Spec|      2023|   New|     NA|47995.00|   NA| 1686627154|
|  9|    Acura TLX A-Spec|      2022|   New|     NA|49545.00|   NA| 1686627154|
| 10|Acura Integra w/A...|      2023|   New|     NA|36895.00|36895| 1686627154|
| 11|    Acura TLX A-Spec|      2023|   New|     NA|48395.00|48395| 1686627154|
| 12|Acura MDX Type S ...|      2023|   New|     NA|75590.00|   NA| 1686627154|
| 13|Acura RDX A-Spec ...|      2023|   New|     NA|55345.00|   NA| 1686627154|
| 14|    Acura TLX A-Spec|      2023|   New|     NA|50195.00|50195| 1686627154|
| 15|Acura RDX A-Spec ...|      2023|   New|     NA|55045.00|   NA| 1686627154|
| 16|    Acura TLX Type S|      2023|   New|     NA|56445.00|   NA| 1686627154|
| 17|    Acura TLX A-Spec|      2023|   New|     NA|47495.00|47495| 1686627154|
| 18|   Acura TLX Advance|      2023|   New|     NA|52245.00|52245| 1686627154|
| 19|    Acura TLX A-Spec|      2023|   New|     NA|50595.00|50595| 1686627154|
+---+--------------------+----------+------+-------+--------+-----+-----------+
only showing top 20 rows

Am transformat cu succes datele de intrare și le-am ingerat în car-data grup de caracteristici.

Rulați codul @feature_processor de la distanță

În această secțiune, demonstrăm rularea codului de procesare a caracteristicilor de la distanță ca o aplicație Spark folosind @remote decorator descris mai devreme. Rulem funcția de procesare de la distanță folosind Spark pentru a scala seturi mari de date. Spark oferă procesare distribuită pe clustere pentru a gestiona date prea mari pentru o singură mașină. The @remote decorator rulează codul Python local ca un job de instruire SageMaker cu un singur nod sau cu mai multe noduri.

Folosește @remote decorator împreună cu @feature_processor decorator după cum urmează:

@remote(spark_config=SparkConfig(), instance_type = "ml.m5.xlarge", ...)
@feature_processor(inputs=[FeatureGroupDataSource(CAR_SALES_FG_ARN)],
                   output=AGG_CAR_SALES_FG_ARN, target_stores=["OfflineStore"], enable_ingestion=False )

spark_config parametrul indică că acesta este rulat ca a Spark application. Instanța SparkConfig configurează configurația și dependențele Spark.

Definiți aggregate() funcția de agregare a datelor utilizând PySpark SQL și funcții definite de utilizator (UDF). Această funcție efectuează următoarele acțiuni:
- Înlănţui model, year, și status pentru a crea model_year_status.
- Luați media de price pentru a crea avg_price.
- Luați valoarea maximă a price pentru a crea max_price.
- Luați media de mileage pentru a crea avg_mileage.
- Luați valoarea maximă a mileage pentru a crea max_mileage.
- Luați media de msrp pentru a crea avg_msrp.
- Luați valoarea maximă a msrp pentru a crea max_msrp.
- A se grupa cu model_year_status.

def aggregate(source_feature_group, spark):
    """
    Aggregate the data using a SQL query and UDF.
    """
    import time
    from pyspark.sql.types import StringType
    from pyspark.sql.functions import udf     @udf(returnType=StringType())
    def custom_concat(*cols, delimeter: str = ""):
        return delimeter.join(cols)     spark.udf.register("custom_concat", custom_concat)     # Execute SQL string.
    source_feature_group.createOrReplaceTempView("car_data")
    aggregated_car_data = spark.sql(
        f"""
        SELECT
            custom_concat(model, "_", model_year, "_", status) as model_year_status,
            AVG(price) as avg_price,
            MAX(price) as max_price,
            AVG(mileage) as avg_mileage,
            MAX(mileage) as max_mileage,
            AVG(msrp) as avg_msrp,
            MAX(msrp) as max_msrp,
            "{int(time.time())}" as ingest_time
        FROM car_data
        GROUP BY model_year_status
        """
    )     aggregated_car_data.show()     return aggregated_car_data

Pornește aggregate() funcția, care creează un job de instruire SageMaker pentru a rula aplicația Spark:

# Execute the aggregate function
aggregate()

Ca rezultat, SageMaker creează un job de instruire pentru aplicația Spark definită mai devreme. Acesta va crea un mediu de rulare Spark folosind sagemaker-spark-processing image.

Folosim joburi SageMaker Training aici pentru a rula aplicația noastră de procesare a caracteristicilor Spark. Cu SageMaker Training, puteți reduce timpii de pornire la 1 minut sau mai puțin utilizând gruparea la cald, care nu este disponibilă în SageMaker Processing. Acest lucru face ca SageMaker Training să fie mai bine optimizat pentru lucrări în loturi scurte, cum ar fi procesarea caracteristicilor, unde timpul de pornire este important.

Pentru a vizualiza detaliile, pe consola SageMaker, alegeți Locuri de muncă de formare în Pregătire în panoul de navigare, apoi alegeți jobul cu numele aggregate-<timestamp>.

Imaginea arată jobul de formare Sagemaker

Ieșirea fișierului agregat() funcția generează cod de telemetrie. În interiorul rezultatului, veți vedea datele agregate după cum urmează:

+--------------------+------------------+---------+------------------+-----------+--------+--------+-----------+
|   model_year_status|         avg_price|max_price|       avg_mileage|max_mileage|avg_msrp|max_msrp|ingest_time|
+--------------------+------------------+---------+------------------+-----------+--------+--------+-----------+
|Acura CL 3.0_1997...|            7950.0|  7950.00|          100934.0|    100934 |    null|      NA| 1686634807|
|Acura CL 3.2 Type...|            6795.0|  7591.00|          118692.5|    135760 |    null|      NA| 1686634807|
|Acura CL 3_1998_Used|            9899.0|  9899.00|           63000.0|     63000 |    null|      NA| 1686634807|
|Acura ILX 2.0L Te...|         14014.125| 18995.00|         95534.875|     89103 |    null|      NA| 1686634807|
|Acura ILX 2.0L Te...|           15008.2| 16998.00|           94935.0|     88449 |    null|      NA| 1686634807|
|Acura ILX 2.0L Te...|           16394.6| 19985.00|           97719.4|     80000 |    null|      NA| 1686634807|
|Acura ILX 2.0L w/...|14567.181818181818| 16999.00| 96624.72727272728|     98919 |    null|      NA| 1686634807|
|Acura ILX 2.0L w/...|           16673.4| 18995.00|           84848.6|     96637 |    null|      NA| 1686634807|
|Acura ILX 2.0L w/...|12580.333333333334| 14546.00|100207.33333333333|     95782 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|         14565.375| 17590.00|         92941.125|     81842 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|           14877.9|  9995.00|           99739.5|     89252 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|           15659.5| 15660.00|           82136.0|     89942 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|17121.785714285714| 20990.00| 78278.14285714286|     96067 |    null|      NA| 1686634807|
|Acura ILX 2.4L (A...|           17846.0| 21995.00|          101558.0|     85974 |    null|      NA| 1686634807|
|Acura ILX 2.4L Pr...|           16327.0| 16995.00|           85238.0|     95356 |    null|      NA| 1686634807|
|Acura ILX 2.4L w/...|           12846.0| 12846.00|           75209.0|     75209 |    null|      NA| 1686634807|
|Acura ILX 2.4L_20...|           18998.0| 18998.00|           51002.0|     51002 |    null|      NA| 1686634807|
|Acura ILX 2.4L_20...|17908.615384615383| 19316.00| 74325.38461538461|     89116 |    null|      NA| 1686634807|
|Acura ILX 4DR SDN...|           18995.0| 18995.00|           37017.0|     37017 |    null|      NA| 1686634807|
|Acura ILX 8-SPD_2...|           24995.0| 24995.00|           22334.0|     22334 |    null|      NA| 1686634807|
+--------------------+------------------+---------+------------------+-----------+--------+--------+-----------+
only showing top 20 rows

Când munca de formare este finalizată, ar trebui să vedeți următoarele rezultate:

06-13 05:40 smspark-submit INFO     spark submit was successful. primary node exiting.
Training seconds: 153
Billable seconds: 153

Operaționalizați procesorul de caracteristici prin conducte SageMaker

În această secțiune, demonstrăm cum să operaționalizați procesorul de caracteristici prin promovarea acestuia într-o conductă SageMaker și programând rulări.

Mai întâi, încărcați transform_code.py fișier care conține logica de procesare a caracteristicilor către Amazon S3:

car_data_s3_uri = s3_path_join("s3://", sagemaker_session.default_bucket(),
                               'transformation_code', 'car-data-ingestion.py')
S3Uploader.upload(local_path='car-data-ingestion.py', desired_s3_uri=car_data_s3_uri)
print(car_data_s3_uri)

Apoi, creați o conductă de procesor de caracteristici car_data_pipeline folosind .to_pipeline() funcţie:

car_data_pipeline_name = f"{CAR_SALES_FG_NAME}-ingestion-pipeline"
car_data_pipeline_arn = fp.to_pipeline(pipeline_name=car_data_pipeline_name,
                                      step=transform,
                                      transformation_code=TransformationCode(s3_uri=car_data_s3_uri) )
print(f"Created SageMaker Pipeline: {car_data_pipeline_arn}.")

Pentru a rula conducta, utilizați următorul cod:

car_data_pipeline_execution_arn = fp.execute(pipeline_name=car_data_pipeline_name)
print(f"Started an execution with execution arn: {car_data_pipeline_execution_arn}")

În mod similar, puteți crea o conductă pentru caracteristicile agregate numite car_data_aggregated_pipeline și începe o alergare.
Programează car_data_aggregated_pipeline să ruleze la fiecare 24 de ore:

fp.schedule(pipeline_name=car_data_aggregated_pipeline_name,
           schedule_expression="rate(24 hours)", state="ENABLED")
print(f"Created a schedule.")

În secțiunea de ieșire, veți vedea ARN-ul conductei și rolul de execuție al conductei, precum și detaliile programului:

{'pipeline_arn': 'arn:aws:sagemaker:us-west-2:416578662734:pipeline/car-data-aggregated-ingestion-pipeline',
 'pipeline_execution_role_arn': 'arn:aws:iam::416578662734:role/service-role/AmazonSageMaker-ExecutionRole-20230612T120731',
 'schedule_arn': 'arn:aws:scheduler:us-west-2:416578662734:schedule/default/car-data-aggregated-ingestion-pipeline',
 'schedule_expression': 'rate(24 hours)',
 'schedule_state': 'ENABLED',
 'schedule_start_date': '2023-06-13T06:05:17Z',
 'schedule_role': 'arn:aws:iam::416578662734:role/service-role/AmazonSageMaker-ExecutionRole-20230612T120731'}

Pentru a obține toate conductele Procesor de caracteristici din acest cont, utilizați list_pipelines() funcția pe procesorul de caracteristici:

fp.list_pipelines()

Ieșirea va fi după cum urmează:

[{'pipeline_name': 'car-data-aggregated-ingestion-pipeline'},
 {'pipeline_name': 'car-data-ingestion-pipeline'}]

Am creat cu succes pipeline SageMaker Feature Processor.

Explorați conductele de procesare a caracteristicilor și descendența ML

În SageMaker Studio, parcurgeți următorii pași:

Pe consola SageMaker Studio, pe Acasă meniu, alegeți Conducte.

Imagine a filei de pornire Sagemaker Studio care evidențiază opțiunea conductelor

Ar trebui să vedeți două conducte create: car-data-ingestion-pipeline și car-data-aggregated-ingestion-pipeline.

Imagine a conductelor Sagemaker Studio cu lista de conducte

Alege car-data-ingestion-pipeline.

Afișează detaliile rulării pe Execuții tab.

Imagine a Sagemaker Studio a conductei de asimilare a datelor auto

Pentru a vedea grupul de caracteristici populat de conductă, alegeți Magazin de funcții în Date Și alegeți car-data.

Imagine a datelor de evidențiere a casei Sagemaker Studio

Veți vedea cele două grupuri de caracteristici pe care le-am creat în pașii anteriori.

Imagine a Sagemaker Studio cu grupuri de caracteristici create

Alege car-data grup de caracteristici.

Veți vedea detaliile caracteristicilor pe DESCRIERE tab.

Imagine a Sagemaker Studio cu grupul de caracteristici și caracteristicile din grup

Vedeți cursele conductei

Pentru a vedea rulajele conductei, parcurgeți următorii pași:

Pe Execuția conducteifila s, selectați car-data-ingestion-pipeline.

Deblocați statisticile ML utilizând Procesorul de funcții Amazon SageMaker Feature Store | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Aceasta va afișa toate alergările.

Imaginea arată fila Sagemaker Feature group a execuțiilor pipeline

Alegeți unul dintre linkuri pentru a vedea detaliile cursei.

Imaginea arată interfața de utilizare sagemaker cu conductele în execuție

Pentru a vedea descendența, alegeți descendență.

Genealogia completă pentru car-data arată sursa datelor de intrare car_data.csv și entități din amonte. Genealogia pentru car-data-aggregated arată intrarea car-data grup de caracteristici.

Imagine a interfeței de utilizare Sagemaker a grupului de caracteristici de date auto

Alege Încărcați caracteristici și apoi alegeți Interogați descendența în amonte on car-data și car-data-ingestion-pipeline pentru a vedea toate entitățile din amonte.

Genealogia completă pentru car-data grupul de caracteristici ar trebui să arate ca următoarea captură de ecran.

Imaginea arată magazinul de caracteristici Sagemaker cu descendență de mașini

În mod similar, descendența pentru car-aggregated-data grupul de caracteristici ar trebui să arate ca următoarea captură de ecran.

Imaginea îmbracă grupul de caracteristici agregate din UI Sagemaker Feature Store

SageMaker Studio oferă un singur mediu pentru a urmări conductele programate, a vizualiza rulările, a explora descendența și a vizualiza codul de procesare a caracteristicilor.

Caracteristicile agregate, cum ar fi prețul mediu, prețul maxim, kilometrajul mediu și multe altele în car-data-aggregated grupul de caracteristici oferă o perspectivă asupra naturii datelor. De asemenea, puteți utiliza aceste funcții ca set de date pentru a antrena un model pentru a prezice prețurile mașinilor sau pentru alte operațiuni. Cu toate acestea, instruirea modelului nu este în domeniul de aplicare pentru această postare, care se concentrează pe demonstrarea capabilităților Magazinului de caracteristici SageMaker pentru inginerie de caracteristici.

A curăța

Nu uitați să curățați resursele create ca parte a acestei postări pentru a evita costurile curente.

Dezactivați conducta programată prin intermediul fp.schedule() metoda cu parametrul de stare ca Disabled:

# Disable the scheduled pipeline
fp.schedule(
pipeline_name=car_data_aggregated_pipeline_name,
schedule_expression="rate(24 hours)",
state="DISABLED",
)

Ștergeți ambele grupuri de caracteristici:

# Delete feature groups
car_sales_fg.delete()
agg_car_sales_fg.delete()

Datele care se află în compartimentul S3 și în magazinul de funcții offline pot genera costuri, așa că ar trebui să le ștergeți pentru a evita orice taxe.

Ștergeți obiectele S3.
Ștergeți înregistrările din magazinul de caracteristici.

Concluzie

În această postare, am demonstrat cum o companie de vânzări de mașini a folosit SageMaker Feature Store Feature Processor pentru a obține informații valoroase din datele sale brute de vânzări prin:

Ingerarea și transformarea datelor de lot la scară folosind Spark
Operaționalizarea fluxurilor de lucru de inginerie a caracteristicilor prin conducte SageMaker
Furnizarea de urmărire a descendenței și un mediu unic pentru a monitoriza conductele și a explora funcții
Pregătirea funcțiilor agregate optimizate pentru antrenarea modelelor ML

Urmând acești pași, compania a reușit să transforme date inutilizabile anterior în caracteristici structurate care ar putea fi apoi folosite pentru a antrena un model care să prezică prețurile mașinilor. SageMaker Feature Store le-a permis să se concentreze mai degrabă pe ingineria caracteristicilor decât pe infrastructura de bază.

Sperăm că această postare vă va ajuta să deblocați informații valoroase ML din propriile date folosind Procesorul de caracteristici SageMaker Feature Store!

Pentru mai multe informații despre aceasta, consultați Procesarea caracteristicilor și exemplul SageMaker pe Magazin de funcții Amazon SageMaker: Introducere procesor de caracteristici.

Despre Autori

Dhaval Shah este arhitect senior de soluții la AWS, specializat în Machine Learning. Cu un accent puternic pe afacerile native digitale, el dă putere clienților să folosească AWS și să le impulsioneze creșterea afacerii. În calitate de pasionat de ML, Dhaval este condus de pasiunea sa pentru crearea de soluții de impact care aduc schimbări pozitive. În timpul liber, se complace în dragostea lui pentru călătorii și prețuiește momente de calitate alături de familie.

Deblocați statisticile ML utilizând Procesorul de funcții Amazon SageMaker Feature Store | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai. Ninad Joshi este arhitect senior de soluții la AWS, ajutând clienții globali AWS să proiecteze soluții sigure, scalabile și rentabile în cloud pentru a-și rezolva provocările complexe de afaceri din lumea reală. Activitatea sa în Machine Learning (ML) acoperă o gamă largă de cazuri de utilizare AI/ML, cu un accent principal pe ML end-to-end, procesarea limbajului natural și viziunea pe computer. Înainte de a se alătura AWS, Ninad a lucrat ca dezvoltator de software timp de peste 12 ani. În afara eforturilor sale profesionale, lui Ninad îi place să joace șah și să exploreze diferite gambit-uri.

Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
PlatoData.Network Vertical Generative Ai. Împuterniciți-vă. Accesați Aici.
PlatoAiStream. Web3 Intelligence. Cunoștințe amplificate. Accesați Aici.
PlatoESG. carbon, CleanTech, Energie, Mediu inconjurator, Solar, Managementul deșeurilor. Accesați Aici.
PlatoHealth. Biotehnologie și Inteligență pentru studii clinice. Accesați Aici.
Sursa: https://aws.amazon.com/blogs/machine-learning/unlock-ml-insights-using-the-amazon-sagemaker-feature-store-feature-processor/

Timestamp-ul: 19 Septembrie, 2023

Timestamp-ul: Septembrie 9, 2022

Deblocați statisticile ML utilizând Procesorul de funcții Amazon SageMaker Feature Store | Amazon Web Services

Republicat de Platon

Prezentare generală a soluțiilor

Cerințe preliminare

Creați grupuri de caracteristici

Utilizați decoratorul @feature_processor pentru a încărca date

Rulați codul @feature_processor de la distanță

Operaționalizați procesorul de caracteristici prin conducte SageMaker

Explorați conductele de procesare a caracteristicilor și descendența ML

Vedeți cursele conductei

A curăța

Concluzie

Despre Autori

Mai mult de la Învățare automată AWS

Depășiți barierele lingvistice cu Amazon Transcribe, Amazon Translate și Amazon Polly

Creați experiențe puternice de autoservire cu Amazon Lex în centrul de contact Talkdesk CX Cloud

Aranjați-vă transcrierile în paragrafe cu Amazon Transcribe | Amazon Web Services

Construiți o platformă de date agronomice cu capabilitățile geospațiale Amazon SageMaker

Gestionarea echipelor și a utilizatorilor cu Amazon SageMaker și AWS SSO

Utilizați Snowflake ca sursă de date pentru a antrena modele ML cu Amazon SageMaker

Cum a folosit Amp on Amazon datele pentru a crește implicarea clienților, Partea 2: Construirea unei platforme de recomandare de emisiuni personalizate folosind Amazon SageMaker

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont