Débloquez ML Insights à l'aide du processeur de fonctionnalités Amazon SageMaker Feature Store

Republié par Platon

Suiveurs: 0

Magasin de fonctionnalités Amazon SageMaker fournit une solution de bout en bout pour automatiser l'ingénierie des fonctionnalités pour l'apprentissage automatique (ML). Pour de nombreux cas d'utilisation du ML, les données brutes telles que les fichiers journaux, les relevés de capteurs ou les enregistrements de transactions doivent être transformées en fonctionnalités significatives optimisées pour la formation de modèles.

La qualité des fonctionnalités est essentielle pour garantir un modèle ML très précis. La transformation des données brutes en fonctionnalités à l'aide de l'agrégation, du codage, de la normalisation et d'autres opérations est souvent nécessaire et peut nécessiter des efforts importants. Les ingénieurs doivent écrire manuellement une logique personnalisée de prétraitement et d'agrégation des données dans Python ou Spark pour chaque cas d'utilisation.

Cette tâche lourde et indifférenciée est lourde, répétitive et sujette aux erreurs. Le Processeur de fonctionnalités SageMaker Feature Store réduit cette charge en transformant automatiquement les données brutes en fonctionnalités agrégées adaptées aux modèles ML de formation par lots. Il permet aux ingénieurs de fournir des fonctions simples de transformation de données, puis de gérer leur exécution à grande échelle sur Spark et de gérer l'infrastructure sous-jacente. Cela permet aux data scientists et aux ingénieurs de données de se concentrer sur la logique d'ingénierie des fonctionnalités plutôt que sur les détails de mise en œuvre.

Dans cet article, nous montrons comment une entreprise de vente de voitures peut utiliser le processeur de fonctionnalités pour transformer les données brutes des transactions de vente en fonctionnalités en trois étapes :

Exécutions locales de transformations de données.
Fonctionnement à distance à grande échelle à l'aide de Spark.
Opérationnalisation via pipelines.

Nous montrons comment SageMaker Feature Store ingère les données brutes, exécute les transformations de fonctionnalités à distance à l'aide de Spark et charge les fonctionnalités agrégées résultantes dans un fichier. groupe de fonctionnalités. Ces fonctionnalités conçues peuvent ensuite être utilisées pour entraîner des modèles ML.

Pour ce cas d'utilisation, nous voyons comment SageMaker Feature Store permet de convertir les données brutes de ventes de voitures en fonctionnalités structurées. Ces fonctionnalités sont ensuite utilisées pour obtenir des informations telles que :

Prix moyen et maximum des cabriolets rouges de 2010
Modèles avec le meilleur kilométrage par rapport au prix
Tendances des ventes de voitures neuves et d'occasion au fil des ans
Différences de PDSF moyen selon les emplacements

Nous voyons également comment les pipelines SageMaker Feature Store maintiennent les fonctionnalités à jour à mesure que de nouvelles données arrivent, permettant à l'entreprise d'obtenir continuellement des informations au fil du temps.

Vue d'ensemble de la solution

Nous travaillons avec l'ensemble de données car_data.csv, qui contient des spécifications telles que le modèle, l'année, le statut, le kilométrage, le prix et le PDSF pour les voitures neuves et d'occasion vendues par l'entreprise. La capture d'écran suivante montre un exemple de l'ensemble de données.

"Image affichant un tableau de données sur la voiture, notamment le modèle de voiture, l'année, le kilométrage, le prix et le PDSF pour divers véhicules."

Le carnet de solutions feature_processor.ipynb contient les principales étapes suivantes, que nous expliquons dans cet article :

Créez deux groupes de fonctionnalités : un appelé car-data pour les records bruts de ventes de voitures et un autre appelé car-data-aggregated pour les enregistrements agrégés de ventes de voitures.
Utilisez l'option @feature_processor décorateur pour charger les données dans le groupe de fonctionnalités de données de voiture à partir de Service de stockage simple Amazon (Amazon S3).
Exécutez le @feature_processor code à distance en tant qu'application Spark pour agréger les données.
Opérationnaliser le processeur de fonctionnalités via Pipelines SageMaker et planifier les exécutions.
Explorez les pipelines de traitement des fonctionnalités et lignage in Amazon SageMakerStudio.
Utilisez des fonctionnalités agrégées pour entraîner un modèle ML.

Pré-requis

Pour suivre ce tutoriel, vous avez besoin des éléments suivants :

Pour cet article, nous nous référons à ce qui suit cahier, qui montre comment démarrer avec Feature Processor à l'aide du SDK SageMaker Python.

Créer des groupes de fonctionnalités

Pour créer les groupes de fonctionnalités, procédez comme suit :

Créer une définition de groupe de fonctionnalités pour car-data comme suit:

# Feature Group - Car Sales CAR_SALES_FG_NAME = "car-data"
CAR_SALES_FG_ARN = f"arn:aws:sagemaker:{region}:{aws_account_id}:feature-group/{CAR_SALES_FG_NAME}"
CAR_SALES_FG_ROLE_ARN = offline_store_role
CAR_SALES_FG_OFFLINE_STORE_S3_URI = f"s3://{s3_bucket}/{s3_offline_store_prefix}"
CAR_SALES_FG_FEATURE_DEFINITIONS = [
    FeatureDefinition(feature_name="id", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="model", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="model_year", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="status", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="mileage", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="price", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="msrp", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="ingest_time", feature_type=FeatureTypeEnum.FRACTIONAL),
]

Les caractéristiques correspondent à chaque colonne du car_data.csv base de données (Model, Year, Status, Mileage, Priceet une MSRP).

Ajouter l'identifiant de l'enregistrement id et l'heure de l'événement ingest_time au groupe de fonctionnalités :

CAR_SALES_FG_RECORD_IDENTIFIER_NAME = "id"
CAR_SALES_FG_EVENT_TIME_FEATURE_NAME = "ingest_time"

Créer une définition de groupe de fonctionnalités pour car-data-aggregated comme suit:

# Feature Group - Aggregated Car SalesAGG_CAR_SALES_FG_NAME = "car-data-aggregated"
AGG_CAR_SALES_FG_ARN = (
    f"arn:aws:sagemaker:{region}:{aws_account_id}:feature-group/{AGG_CAR_SALES_FG_NAME}"
)
AGG_CAR_SALES_FG_ROLE_ARN = offline_store_role
AGG_CAR_SALES_FG_OFFLINE_STORE_S3_URI = f"s3://{s3_bucket}/{s3_offline_store_prefix}"
AGG_CAR_SALES_FG_FEATURE_DEFINITIONS = [
    FeatureDefinition(feature_name="model_year_status", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="avg_mileage", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="max_mileage", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="avg_price", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="max_price", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="avg_msrp", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="max_msrp", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="ingest_time", feature_type=FeatureTypeEnum.FRACTIONAL),
]

Pour le groupe de fonctionnalités agrégées, les fonctionnalités sont le statut de l'année modèle, le kilométrage moyen, le kilométrage maximum, le prix moyen, le prix maximum, le PDSF moyen, le PDSF maximum et le temps d'ingestion. Nous ajoutons l'identifiant de l'enregistrement model_year_status et l'heure de l'événement ingest_time à ce groupe de fonctionnalités.

Maintenant, créez le car-data groupe de fonctionnalités :

# Create Feature Group - Car sale records.
car_sales_fg = FeatureGroup(
    name=CAR_SALES_FG_NAME,
    feature_definitions=CAR_SALES_FG_FEATURE_DEFINITIONS,
    sagemaker_session=sagemaker_session,
) create_car_sales_fg_resp = car_sales_fg.create(
        record_identifier_name=CAR_SALES_FG_RECORD_IDENTIFIER_NAME,
        event_time_feature_name=CAR_SALES_FG_EVENT_TIME_FEATURE_NAME,
        s3_uri=CAR_SALES_FG_OFFLINE_STORE_S3_URI,
        enable_online_store=True,
        role_arn=CAR_SALES_FG_ROLE_ARN,
    )

Créez la car-data-aggregated groupe de fonctionnalités :

# Create Feature Group - Aggregated car sales records.
agg_car_sales_fg = FeatureGroup(
    name=AGG_CAR_SALES_FG_NAME,
    feature_definitions=AGG_CAR_SALES_FG_FEATURE_DEFINITIONS,
    sagemaker_session=sagemaker_session,
) create_agg_car_sales_fg_resp = agg_car_sales_fg.create(       record_identifier_name=AGG_CAR_SALES_FG_RECORD_IDENTIFIER_NAME,  event_time_feature_name=AGG_CAR_SALES_FG_EVENT_TIME_FEATURE_NAME,
        s3_uri=AGG_CAR_SALES_FG_OFFLINE_STORE_S3_URI,
        enable_online_store=True,
        role_arn=AGG_CAR_SALES_FG_ROLE_ARN,
    )

Vous pouvez accéder à l'option SageMaker Feature Store sous Données sur le studio SageMaker Accueil menu pour voir les groupes de fonctionnalités.

Image du magasin de fonctionnalités Sagemaker avec en-têtes Nom et description du groupe de fonctionnalités

Utilisez le décorateur @feature_processor pour charger des données

Dans cette section, nous transformons localement les données brutes d'entrée (car_data.csv) d'Amazon S3 vers le car-data groupe de fonctionnalités à l’aide du processeur de fonctionnalités Feature Store. Cette exécution locale initiale nous permet de développer et d'itérer avant d'exécuter à distance, et pourrait être effectuée sur un échantillon de données si vous le souhaitez pour une itération plus rapide.

Avec la @feature_processor décorateur, votre fonction de transformation s'exécute dans un environnement d'exécution Spark où les arguments d'entrée fournis à votre fonction et sa valeur de retour sont des Spark DataFrames.

Installez l' SDK du processeur de fonctionnalités du Kit de développement logiciel (SDK) SageMaker Python et ses extras en utilisant la commande suivante :

pip install sagemaker[feature-processor]

Le nombre de paramètres d'entrée dans votre fonction de transformation doit correspondre au nombre d'entrées configurées dans le @feature_processor décorateur. Dans ce cas, le @feature_processor le décorateur a car-data.csv comme entrée et le car-data groupe de fonctionnalités en sortie, indiquant qu'il s'agit d'une opération par lots avec le target_store as OfflineStore:

from sagemaker.feature_store.feature_processor import (
    feature_processor,
    FeatureGroupDataSource,
    CSVDataSource,
) @feature_processor(
    inputs=[CSVDataSource(RAW_CAR_SALES_S3_URI)],
    output=CAR_SALES_FG_ARN,
    target_stores=["OfflineStore"],
)

Définir la transform() fonction pour transformer les données. Cette fonction effectue les actions suivantes :
- Convertissez les noms de colonnes en minuscules.
- Ajoutez l'heure de l'événement au ingest_time colonne.
- Supprimez la ponctuation et remplacez les valeurs manquantes par NA.

def transform(raw_s3_data_as_df):
    """Load data from S3, perform basic feature engineering, store it in a Feature Group"""
    from pyspark.sql.functions import regexp_replace
    from pyspark.sql.functions import lit
    import time     transformed_df = (
        raw_s3_data_as_df.withColumn("Price", regexp_replace("Price", "$", ""))
        # Rename Columns
        .withColumnRenamed("Id", "id")
        .withColumnRenamed("Model", "model")
        .withColumnRenamed("Year", "model_year")
        .withColumnRenamed("Status", "status")
        .withColumnRenamed("Mileage", "mileage")
        .withColumnRenamed("Price", "price")
        .withColumnRenamed("MSRP", "msrp")
        # Add Event Time
        .withColumn("ingest_time", lit(int(time.time())))
        # Remove punctuation and fluff; replace with NA
        .withColumn("mileage", regexp_replace("mileage", "(,)|(mi.)", ""))
        .withColumn("mileage", regexp_replace("mileage", "Not available", "NA"))
        .withColumn("price", regexp_replace("price", ",", ""))
        .withColumn("msrp", regexp_replace("msrp", "(^MSRPs$)|(,)", ""))
        .withColumn("msrp", regexp_replace("msrp", "Not specified", "NA"))
        .withColumn("msrp", regexp_replace("msrp", "$d+[a-zA-Zs]+", "NA"))
        .withColumn("model", regexp_replace("model", "^dddds", ""))
    )

Appeler le transform() fonction pour stocker les données dans le car-data groupe de fonctionnalités :

# Execute the FeatureProcessor
transform()

Le résultat montre que les données ont été ingérées avec succès dans le groupe de fonctionnalités de données de voiture.

La sortie du transform_df.show() la fonction est la suivante :

INFO:sagemaker:Ingesting transformed data to arn:aws:sagemaker:us-west-2:416578662734:feature-group/car-data with target_stores: ['OfflineStore'] +---+--------------------+----------+------+-------+--------+-----+-----------+
| id|               model|model_year|status|mileage|   price| msrp|ingest_time|
+---+--------------------+----------+------+-------+--------+-----+-----------+
|  0|    Acura TLX A-Spec|      2022|   New|     NA|49445.00|49445| 1686627154|
|  1|    Acura RDX A-Spec|      2023|   New|     NA|50895.00|   NA| 1686627154|
|  2|    Acura TLX Type S|      2023|   New|     NA|57745.00|   NA| 1686627154|
|  3|    Acura TLX Type S|      2023|   New|     NA|57545.00|   NA| 1686627154|
|  4|Acura MDX Sport H...|      2019|  Used| 32675 |40990.00|   NA| 1686627154|
|  5|    Acura TLX A-Spec|      2023|   New|     NA|50195.00|50195| 1686627154|
|  6|    Acura TLX A-Spec|      2023|   New|     NA|50195.00|50195| 1686627154|
|  7|    Acura TLX Type S|      2023|   New|     NA|57745.00|   NA| 1686627154|
|  8|    Acura TLX A-Spec|      2023|   New|     NA|47995.00|   NA| 1686627154|
|  9|    Acura TLX A-Spec|      2022|   New|     NA|49545.00|   NA| 1686627154|
| 10|Acura Integra w/A...|      2023|   New|     NA|36895.00|36895| 1686627154|
| 11|    Acura TLX A-Spec|      2023|   New|     NA|48395.00|48395| 1686627154|
| 12|Acura MDX Type S ...|      2023|   New|     NA|75590.00|   NA| 1686627154|
| 13|Acura RDX A-Spec ...|      2023|   New|     NA|55345.00|   NA| 1686627154|
| 14|    Acura TLX A-Spec|      2023|   New|     NA|50195.00|50195| 1686627154|
| 15|Acura RDX A-Spec ...|      2023|   New|     NA|55045.00|   NA| 1686627154|
| 16|    Acura TLX Type S|      2023|   New|     NA|56445.00|   NA| 1686627154|
| 17|    Acura TLX A-Spec|      2023|   New|     NA|47495.00|47495| 1686627154|
| 18|   Acura TLX Advance|      2023|   New|     NA|52245.00|52245| 1686627154|
| 19|    Acura TLX A-Spec|      2023|   New|     NA|50595.00|50595| 1686627154|
+---+--------------------+----------+------+-------+--------+-----+-----------+
only showing top 20 rows

Nous avons réussi à transformer les données d'entrée et à les ingérer dans le car-data groupe de fonctionnalités.

Exécutez le code @feature_processor à distance

Dans cette section, nous démontrons l'exécution du code de traitement des fonctionnalités à distance en tant qu'application Spark à l'aide de l'outil @remote décorateur décrit plus haut. Nous exécutons le traitement des fonctionnalités à distance à l'aide de Spark pour s'adapter à de grands ensembles de données. Spark fournit un traitement distribué sur des clusters pour gérer les données trop volumineuses pour une seule machine. Le @remote decorator exécute le code Python local en tant que tâche de formation SageMaker à un ou plusieurs nœuds.

Utilisez l'option @remote décorateur avec le @feature_processor décorateur comme suit :

@remote(spark_config=SparkConfig(), instance_type = "ml.m5.xlarge", ...)
@feature_processor(inputs=[FeatureGroupDataSource(CAR_SALES_FG_ARN)],
                   output=AGG_CAR_SALES_FG_ARN, target_stores=["OfflineStore"], enable_ingestion=False )

La spark_config Le paramètre indique qu'il est exécuté en tant que Spark application. L'instance SparkConfig configure la configuration et les dépendances Spark.

Définir la aggregate() fonction pour agréger les données à l'aide de PySpark SQL et de fonctions définies par l'utilisateur (UDF). Cette fonction effectue les actions suivantes :
- Enchaîner model, yearet une status à créer model_year_status.
- Prendre la moyenne de price à créer avg_price.
- Prendre la valeur maximale de price à créer max_price.
- Prendre la moyenne de mileage à créer avg_mileage.
- Prendre la valeur maximale de mileage à créer max_mileage.
- Prendre la moyenne de msrp à créer avg_msrp.
- Prendre la valeur maximale de msrp à créer max_msrp.
- Par groupe model_year_status.

def aggregate(source_feature_group, spark):
    """
    Aggregate the data using a SQL query and UDF.
    """
    import time
    from pyspark.sql.types import StringType
    from pyspark.sql.functions import udf     @udf(returnType=StringType())
    def custom_concat(*cols, delimeter: str = ""):
        return delimeter.join(cols)     spark.udf.register("custom_concat", custom_concat)     # Execute SQL string.
    source_feature_group.createOrReplaceTempView("car_data")
    aggregated_car_data = spark.sql(
        f"""
        SELECT
            custom_concat(model, "_", model_year, "_", status) as model_year_status,
            AVG(price) as avg_price,
            MAX(price) as max_price,
            AVG(mileage) as avg_mileage,
            MAX(mileage) as max_mileage,
            AVG(msrp) as avg_msrp,
            MAX(msrp) as max_msrp,
            "{int(time.time())}" as ingest_time
        FROM car_data
        GROUP BY model_year_status
        """
    )     aggregated_car_data.show()     return aggregated_car_data

Exécutez le aggregate() fonction, qui crée une tâche de formation SageMaker pour exécuter l'application Spark :

# Execute the aggregate function
aggregate()

En conséquence, SageMaker crée une tâche de formation pour l'application Spark définie précédemment. Il créera un environnement d'exécution Spark à l'aide du sagemaker-spark-processing image.

Nous utilisons ici les tâches de formation SageMaker pour exécuter notre application de traitement de fonctionnalités Spark. Avec SageMaker Training, vous pouvez réduire les temps de démarrage à 1 minute ou moins en utilisant le pooling à chaud, qui n'est pas disponible dans SageMaker Processing. Cela rend la formation SageMaker mieux optimisée pour les tâches par lots courtes comme le traitement des fonctionnalités où le temps de démarrage est important.

Pour afficher les détails, sur la console SageMaker, choisissez Emplois de formation sous Formation dans le volet de navigation, puis choisissez la tâche portant le nom aggregate-<timestamp>.

L'image montre le travail de formation Sagemaker

La sortie du agrégat() La fonction génère un code de télémétrie. Dans la sortie, vous verrez les données agrégées comme suit :

+--------------------+------------------+---------+------------------+-----------+--------+--------+-----------+
|   model_year_status|         avg_price|max_price|       avg_mileage|max_mileage|avg_msrp|max_msrp|ingest_time|
+--------------------+------------------+---------+------------------+-----------+--------+--------+-----------+
|Acura CL 3.0_1997...|            7950.0|  7950.00|          100934.0|    100934 |    null|      NA| 1686634807|
|Acura CL 3.2 Type...|            6795.0|  7591.00|          118692.5|    135760 |    null|      NA| 1686634807|
|Acura CL 3_1998_Used|            9899.0|  9899.00|           63000.0|     63000 |    null|      NA| 1686634807|
|Acura ILX 2.0L Te...|         14014.125| 18995.00|         95534.875|     89103 |    null|      NA| 1686634807|
|Acura ILX 2.0L Te...|           15008.2| 16998.00|           94935.0|     88449 |    null|      NA| 1686634807|
|Acura ILX 2.0L Te...|           16394.6| 19985.00|           97719.4|     80000 |    null|      NA| 1686634807|
|Acura ILX 2.0L w/...|14567.181818181818| 16999.00| 96624.72727272728|     98919 |    null|      NA| 1686634807|
|Acura ILX 2.0L w/...|           16673.4| 18995.00|           84848.6|     96637 |    null|      NA| 1686634807|
|Acura ILX 2.0L w/...|12580.333333333334| 14546.00|100207.33333333333|     95782 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|         14565.375| 17590.00|         92941.125|     81842 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|           14877.9|  9995.00|           99739.5|     89252 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|           15659.5| 15660.00|           82136.0|     89942 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|17121.785714285714| 20990.00| 78278.14285714286|     96067 |    null|      NA| 1686634807|
|Acura ILX 2.4L (A...|           17846.0| 21995.00|          101558.0|     85974 |    null|      NA| 1686634807|
|Acura ILX 2.4L Pr...|           16327.0| 16995.00|           85238.0|     95356 |    null|      NA| 1686634807|
|Acura ILX 2.4L w/...|           12846.0| 12846.00|           75209.0|     75209 |    null|      NA| 1686634807|
|Acura ILX 2.4L_20...|           18998.0| 18998.00|           51002.0|     51002 |    null|      NA| 1686634807|
|Acura ILX 2.4L_20...|17908.615384615383| 19316.00| 74325.38461538461|     89116 |    null|      NA| 1686634807|
|Acura ILX 4DR SDN...|           18995.0| 18995.00|           37017.0|     37017 |    null|      NA| 1686634807|
|Acura ILX 8-SPD_2...|           24995.0| 24995.00|           22334.0|     22334 |    null|      NA| 1686634807|
+--------------------+------------------+---------+------------------+-----------+--------+--------+-----------+
only showing top 20 rows

Une fois la tâche de formation terminée, vous devriez voir le résultat suivant :

06-13 05:40 smspark-submit INFO     spark submit was successful. primary node exiting.
Training seconds: 153
Billable seconds: 153

Opérationnaliser le processeur de fonctionnalités via les pipelines SageMaker

Dans cette section, nous montrons comment opérationnaliser le processeur de fonctionnalités en le promouvant en pipeline SageMaker et en planifiant les exécutions.

Tout d'abord, téléchargez le transformation_code.py fichier contenant la logique de traitement des fonctionnalités vers Amazon S3 :

car_data_s3_uri = s3_path_join("s3://", sagemaker_session.default_bucket(),
                               'transformation_code', 'car-data-ingestion.py')
S3Uploader.upload(local_path='car-data-ingestion.py', desired_s3_uri=car_data_s3_uri)
print(car_data_s3_uri)

Ensuite, créez un pipeline de processeur de fonctionnalités car_data_pipeline utilisant l' .to_pipeline() fonction:

car_data_pipeline_name = f"{CAR_SALES_FG_NAME}-ingestion-pipeline"
car_data_pipeline_arn = fp.to_pipeline(pipeline_name=car_data_pipeline_name,
                                      step=transform,
                                      transformation_code=TransformationCode(s3_uri=car_data_s3_uri) )
print(f"Created SageMaker Pipeline: {car_data_pipeline_arn}.")

Pour exécuter le pipeline, utilisez le code suivant :

car_data_pipeline_execution_arn = fp.execute(pipeline_name=car_data_pipeline_name)
print(f"Started an execution with execution arn: {car_data_pipeline_execution_arn}")

De même, vous pouvez créer un pipeline pour les fonctionnalités agrégées appelé car_data_aggregated_pipeline et commencez une course.
Planifiez le car_data_aggregated_pipeline à exécuter toutes les 24 heures :

fp.schedule(pipeline_name=car_data_aggregated_pipeline_name,
           schedule_expression="rate(24 hours)", state="ENABLED")
print(f"Created a schedule.")

Dans la section de sortie, vous verrez l'ARN du pipeline et le rôle d'exécution du pipeline, ainsi que les détails de la planification :

{'pipeline_arn': 'arn:aws:sagemaker:us-west-2:416578662734:pipeline/car-data-aggregated-ingestion-pipeline',
 'pipeline_execution_role_arn': 'arn:aws:iam::416578662734:role/service-role/AmazonSageMaker-ExecutionRole-20230612T120731',
 'schedule_arn': 'arn:aws:scheduler:us-west-2:416578662734:schedule/default/car-data-aggregated-ingestion-pipeline',
 'schedule_expression': 'rate(24 hours)',
 'schedule_state': 'ENABLED',
 'schedule_start_date': '2023-06-13T06:05:17Z',
 'schedule_role': 'arn:aws:iam::416578662734:role/service-role/AmazonSageMaker-ExecutionRole-20230612T120731'}

Pour obtenir tous les pipelines du processeur de fonctionnalités dans ce compte, utilisez le list_pipelines() fonction sur le processeur de fonctionnalités :

fp.list_pipelines()

La sortie sera la suivante:

[{'pipeline_name': 'car-data-aggregated-ingestion-pipeline'},
 {'pipeline_name': 'car-data-ingestion-pipeline'}]

Nous avons créé avec succès les pipelines du processeur de fonctionnalités SageMaker.

Explorez les pipelines de traitement des fonctionnalités et la lignée ML

Dans SageMaker Studio, procédez comme suit :

Sur la console SageMaker Studio, sur le Accueil menu, choisissez Pipelines.

Image de l'onglet d'accueil de Sagemaker Studio mettant en évidence l'option de pipelines

Vous devriez voir deux pipelines créés : car-data-ingestion-pipeline ainsi que le car-data-aggregated-ingestion-pipeline.

Image des pipelines Sagemaker Studio avec la liste des pipelines

Choisissez le car-data-ingestion-pipeline.

Il montre les détails de l'exécution sur le Exécutions languette.

Image de Sagemaker Studio du pipeline d'ingestion de données automobiles

Pour afficher le groupe de fonctionnalités renseigné par le pipeline, choisissez Magasin de fonctionnalités sous Données et choisissez car-data.

Image de la maison Sagemaker Studio mettant en évidence les données

Vous verrez les deux groupes de fonctionnalités que nous avons créés dans les étapes précédentes.

Image de Sagemaker Studio avec des groupes de fonctionnalités créés

Choisissez le car-data groupe de fonctionnalités.

Vous verrez les détails des fonctionnalités sur le Fonctionnalités: languette.

Image de Sagemaker Studio avec groupe de fonctionnalités et fonctionnalités du groupe

Afficher les exécutions de pipeline

Pour afficher les exécutions du pipeline, procédez comme suit :

Sur le Exécution des pipeliness, sélectionnez car-data-ingestion-pipeline.

Débloquez des informations sur le ML à l'aide du processeur de fonctionnalités Amazon SageMaker Feature Store | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Cela montrera toutes les courses.

L'image montre l'onglet du groupe Sagemaker Feature des exécutions de pipeline

Choisissez l'un des liens pour voir les détails de la course.

L'image montre l'interface utilisateur de Sagemaker avec les pipelines en exécution

Pour afficher la lignée, choisissez Lignée.

La lignée complète pour car-data affiche la source de données d'entrée car_data.csv et les entités en amont. La lignée pour car-data-aggregated montre l'entrée car-data groupe de fonctionnalités.

Image de l'interface utilisateur Sagemaker du groupe de fonctionnalités des données de voiture

Selectionnez Charger des fonctionnalités puis choisissez Interroger le lignage en amont on car-data ainsi que le car-data-ingestion-pipeline pour voir toutes les entités en amont.

La lignée complète pour car-data le groupe de fonctionnalités devrait ressembler à la capture d’écran suivante.

L'image montre le magasin de fonctionnalités Sagemaker avec la lignée de voitures

De même, la lignée des car-aggregated-data le groupe de fonctionnalités devrait ressembler à la capture d’écran suivante.

L'image présente le groupe de fonctionnalités agrégées à partir de l'interface utilisateur de Sagemaker Feature Store

SageMaker Studio fournit un environnement unique pour suivre les pipelines planifiés, afficher les exécutions, explorer le lignage et afficher le code de traitement des fonctionnalités.

Les fonctionnalités agrégées telles que le prix moyen, le prix maximum, le kilométrage moyen, etc. car-data-aggregated Le groupe de fonctionnalités donne un aperçu de la nature des données. Vous pouvez également utiliser ces fonctionnalités comme ensemble de données pour entraîner un modèle afin de prédire les prix des voitures ou pour d'autres opérations. Cependant, la formation du modèle est hors de portée de cet article, qui se concentre sur la démonstration des capacités de SageMaker Feature Store pour l'ingénierie des fonctionnalités.

Nettoyer

N'oubliez pas de nettoyer les ressources créées dans le cadre de cet article pour éviter d'encourir des frais permanents.

Désactivez le pipeline planifié via le fp.schedule() méthode avec le paramètre state comme Disabled:

# Disable the scheduled pipeline
fp.schedule(
pipeline_name=car_data_aggregated_pipeline_name,
schedule_expression="rate(24 hours)",
state="DISABLED",
)

Supprimez les deux groupes de fonctionnalités :

# Delete feature groups
car_sales_fg.delete()
agg_car_sales_fg.delete()

Les données résidant dans le compartiment S3 et dans le magasin de fonctionnalités hors ligne peuvent entraîner des coûts. Vous devez donc les supprimer pour éviter tout frais.

Supprimer les objets S3.
Supprimer les enregistrements depuis le magasin de fonctionnalités.

Conclusion

Dans cet article, nous avons démontré comment une entreprise de vente de voitures a utilisé le processeur de fonctionnalités SageMaker Feature Store pour obtenir des informations précieuses à partir de ses données de vente brutes en :

Ingérer et transformer des données par lots à grande échelle à l'aide de Spark
Opérationnalisation des workflows d'ingénierie des fonctionnalités via les pipelines SageMaker
Fournir un suivi du lignage et un environnement unique pour surveiller les pipelines et explorer les fonctionnalités
Préparation de fonctionnalités agrégées optimisées pour la formation des modèles ML

En suivant ces étapes, l’entreprise a pu transformer des données auparavant inutilisables en fonctionnalités structurées qui pourraient ensuite être utilisées pour former un modèle permettant de prédire les prix des voitures. SageMaker Feature Store leur a permis de se concentrer sur l'ingénierie des fonctionnalités plutôt que sur l'infrastructure sous-jacente.

Nous espérons que cet article vous aidera à débloquer de précieuses informations sur le ML à partir de vos propres données à l'aide du processeur de fonctionnalités SageMaker Feature Store !

Pour plus d'informations à ce sujet, reportez-vous à Traitement des fonctionnalités et l'exemple SageMaker sur Magasin de fonctionnalités Amazon SageMaker : introduction au processeur de fonctionnalités.

À propos des auteurs

Dhaval Shah est architecte de solutions senior chez AWS, spécialisé dans l'apprentissage automatique. En mettant l'accent sur les entreprises natives du numérique, il permet aux clients de tirer parti d'AWS et de stimuler la croissance de leur entreprise. En tant que passionné de ML, Dhaval est animé par sa passion pour la création de solutions percutantes qui apportent un changement positif. Dans ses temps libres, il s'adonne à son amour des voyages et chérit les moments de qualité avec sa famille.

Débloquez des informations sur le ML à l'aide du processeur de fonctionnalités Amazon SageMaker Feature Store | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï. Ninad Joshi est un architecte de solutions senior chez AWS, aidant les clients AWS mondiaux à concevoir des solutions sécurisées, évolutives et rentables dans le cloud pour résoudre leurs défis commerciaux complexes du monde réel. Son travail en apprentissage automatique (ML) couvre un large éventail de cas d'utilisation de l'IA/ML, avec un accent principal sur le ML de bout en bout, le traitement du langage naturel et la vision par ordinateur. Avant de rejoindre AWS, Ninad a travaillé comme développeur de logiciels pendant plus de 12 ans. En dehors de ses activités professionnelles, Ninad aime jouer aux échecs et explorer différents jeux.

Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
PlatoData.Network Ai générative verticale. Autonomisez-vous. Accéder ici.
PlatoAiStream. Intelligence Web3. Connaissance Amplifiée. Accéder ici.
PlatonESG. Carbone, Technologie propre, Énergie, Environnement, Solaire, La gestion des déchets. Accéder ici.
PlatoHealth. Veille biotechnologique et essais cliniques. Accéder ici.
La source: https://aws.amazon.com/blogs/machine-learning/unlock-ml-insights-using-the-amazon-sagemaker-feature-store-feature-processor/

Horodatage: 19 septembre 2023

Plus de Apprentissage automatique AWS

Augmentez les performances des modèles ML et réduisez le temps de formation à l'aide des algorithmes intégrés d'Amazon SageMaker avec des modèles pré-entraînés PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Augmentez les performances du modèle ML et réduisez le temps de formation à l'aide des algorithmes intégrés d'Amazon SageMaker avec des modèles pré-formés

Apprentissage automatique AWS

Nœud source: 1817094

Horodatage: 22 Mar 2023

Comment Mendix transforme les expériences client grâce à l'IA générative et à Amazon Bedrock | Services Web Amazon

Cluster source:

Apprentissage automatique AWS

Nœud source: 1943843

Horodatage: Le 31 janvier 2024

Débloquez des informations sur le ML à l'aide du processeur de fonctionnalités Amazon SageMaker Feature Store | Services Web Amazon

Republié par Platon

Vue d'ensemble de la solution

Pré-requis

Créer des groupes de fonctionnalités

Utilisez le décorateur @feature_processor pour charger des données

Exécutez le code @feature_processor à distance

Opérationnaliser le processeur de fonctionnalités via les pipelines SageMaker

Explorez les pipelines de traitement des fonctionnalités et la lignée ML

Afficher les exécutions de pipeline

Nettoyer

Conclusion

À propos des auteurs

Plus de Apprentissage automatique AWS

Augmentez les performances du modèle ML et réduisez le temps de formation à l'aide des algorithmes intégrés d'Amazon SageMaker avec des modèles pré-formés

Améliorez l'efficacité avec les meilleures pratiques CI/CD sur Amazon Lex

Formation distribuée avec Amazon EKS et Torch Distributed Elastic

Bongo Learn fournit des commentaires en temps réel pour améliorer les résultats d'apprentissage avec Amazon Transcribe

Segmentation des tumeurs cérébrales à grande échelle avec AWS Inferentia

Présentation de la formation automatique pour les solutions dans Amazon Personalize | Services Web Amazon

Améliorez la gouvernance de vos modèles de machine learning avec Amazon SageMaker

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte