Desbloquee ML Insights utilizando el procesador de funciones de la tienda de funciones de Amazon SageMaker

Reeditado por Platón

seguidores: 0

Tienda de funciones de Amazon SageMaker proporciona una solución de un extremo a otro para automatizar la ingeniería de funciones para el aprendizaje automático (ML). Para muchos casos de uso de ML, los datos sin procesar, como archivos de registro, lecturas de sensores o registros de transacciones, deben transformarse en funciones significativas que estén optimizadas para el entrenamiento de modelos.

La calidad de las funciones es fundamental para garantizar un modelo de aprendizaje automático de alta precisión. A menudo es necesario transformar datos sin procesar en características mediante agregación, codificación, normalización y otras operaciones, y puede requerir un esfuerzo significativo. Los ingenieros deben escribir manualmente una lógica de agregación y preprocesamiento de datos personalizada en Python o Spark para cada caso de uso.

Este trabajo pesado indiferenciado es engorroso, repetitivo y propenso a errores. El Procesador de funciones de la tienda de funciones de SageMaker reduce esta carga al transformar automáticamente los datos sin procesar en características agregadas adecuadas para el entrenamiento por lotes de modelos de aprendizaje automático. Permite a los ingenieros proporcionar funciones simples de transformación de datos y luego se encarga de ejecutarlas a escala en Spark y administrar la infraestructura subyacente. Esto permite a los científicos e ingenieros de datos centrarse en la lógica de ingeniería de funciones en lugar de en los detalles de implementación.

En esta publicación, demostramos cómo una empresa de venta de automóviles puede utilizar el procesador de funciones para transformar datos de transacciones de ventas sin procesar en funciones en tres pasos:

Ejecuciones locales de transformaciones de datos.
Ejecuciones remotas a escala usando Spark.
Operacionalización vía ductos.

Mostramos cómo SageMaker Feature Store ingiere los datos sin procesar, ejecuta transformaciones de funciones de forma remota utilizando Spark y carga las funciones agregadas resultantes en un grupo de características. Estas características de ingeniería se pueden utilizar para entrenar modelos de ML.

Para este caso de uso, vemos cómo SageMaker Feature Store ayuda a convertir los datos sin procesar de ventas de automóviles en funciones estructuradas. Estas funciones se utilizan posteriormente para obtener información como:

Precio medio y máximo de los convertibles rojos desde 2010
Modelos con mejor kilometraje vs precio
Tendencias de ventas de automóviles nuevos frente a usados a lo largo de los años
Diferencias en el MSRP promedio entre ubicaciones

También vemos cómo los canales de SageMaker Feature Store mantienen las funciones actualizadas a medida que llegan nuevos datos, lo que permite a la empresa obtener información continuamente a lo largo del tiempo.

Resumen de la solución

Trabajamos con el conjunto de datos. car_data.csv, que contiene especificaciones como modelo, año, estado, kilometraje, precio y MSRP para automóviles nuevos y usados vendidos por la empresa. La siguiente captura de pantalla muestra un ejemplo del conjunto de datos.

"Imagen que muestra una tabla de datos del automóvil, incluido el modelo, año, kilometraje, precio y MSRP de varios vehículos".

El cuaderno de soluciones feature_processor.ipynb contiene los siguientes pasos principales, que explicamos en esta publicación:

Cree dos grupos de funciones: uno llamado car-data para registros de ventas de automóviles en bruto y otro llamado car-data-aggregated para registros agregados de ventas de automóviles.
Ingrese al @feature_processor decorador para cargar datos en el grupo de características de datos del automóvil desde Servicio de almacenamiento simple de Amazon (Amazon S3).
Ejecute el @feature_processor code de forma remota como una aplicación Spark para agregar los datos.
Poner en funcionamiento el procesador de funciones a través de Tuberías de SageMaker y programar ejecuciones.
Explore los canales de procesamiento de funciones y linaje in Estudio Amazon SageMaker.
Utilice funciones agregadas para entrenar un modelo de aprendizaje automático.

Requisitos previos

Para seguir este tutorial, necesita lo siguiente:

Para este post nos referimos a lo siguiente cuaderno, que demuestra cómo comenzar con Feature Processor utilizando el SDK de SageMaker Python.

Crear grupos de características

Para crear los grupos de características, complete los siguientes pasos:

Crear una definición de grupo de características para car-data como sigue:

# Feature Group - Car Sales CAR_SALES_FG_NAME = "car-data"
CAR_SALES_FG_ARN = f"arn:aws:sagemaker:{region}:{aws_account_id}:feature-group/{CAR_SALES_FG_NAME}"
CAR_SALES_FG_ROLE_ARN = offline_store_role
CAR_SALES_FG_OFFLINE_STORE_S3_URI = f"s3://{s3_bucket}/{s3_offline_store_prefix}"
CAR_SALES_FG_FEATURE_DEFINITIONS = [
    FeatureDefinition(feature_name="id", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="model", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="model_year", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="status", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="mileage", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="price", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="msrp", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="ingest_time", feature_type=FeatureTypeEnum.FRACTIONAL),
]

Las características corresponden a cada columna del car_data.csv conjunto de datosModel, Year, Status, Mileage, Pricey MSRP).

Agregar el identificador del registro id y hora del evento ingest_time al grupo de características:

CAR_SALES_FG_RECORD_IDENTIFIER_NAME = "id"
CAR_SALES_FG_EVENT_TIME_FEATURE_NAME = "ingest_time"

Crear una definición de grupo de características para car-data-aggregated como sigue:

# Feature Group - Aggregated Car SalesAGG_CAR_SALES_FG_NAME = "car-data-aggregated"
AGG_CAR_SALES_FG_ARN = (
    f"arn:aws:sagemaker:{region}:{aws_account_id}:feature-group/{AGG_CAR_SALES_FG_NAME}"
)
AGG_CAR_SALES_FG_ROLE_ARN = offline_store_role
AGG_CAR_SALES_FG_OFFLINE_STORE_S3_URI = f"s3://{s3_bucket}/{s3_offline_store_prefix}"
AGG_CAR_SALES_FG_FEATURE_DEFINITIONS = [
    FeatureDefinition(feature_name="model_year_status", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="avg_mileage", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="max_mileage", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="avg_price", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="max_price", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="avg_msrp", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="max_msrp", feature_type=FeatureTypeEnum.STRING),
    FeatureDefinition(feature_name="ingest_time", feature_type=FeatureTypeEnum.FRACTIONAL),
]

Para el grupo de funciones agregadas, las funciones son el estado del año del modelo, el kilometraje promedio, el kilometraje máximo, el precio promedio, el precio máximo, el MSRP promedio, el MSRP máximo y el tiempo de ingesta. Agregamos el identificador del registro. model_year_status y hora del evento ingest_time a este grupo de funciones.

Ahora, crea el car-data grupo de características:

# Create Feature Group - Car sale records.
car_sales_fg = FeatureGroup(
    name=CAR_SALES_FG_NAME,
    feature_definitions=CAR_SALES_FG_FEATURE_DEFINITIONS,
    sagemaker_session=sagemaker_session,
) create_car_sales_fg_resp = car_sales_fg.create(
        record_identifier_name=CAR_SALES_FG_RECORD_IDENTIFIER_NAME,
        event_time_feature_name=CAR_SALES_FG_EVENT_TIME_FEATURE_NAME,
        s3_uri=CAR_SALES_FG_OFFLINE_STORE_S3_URI,
        enable_online_store=True,
        role_arn=CAR_SALES_FG_ROLE_ARN,
    )

Crea el car-data-aggregated grupo de características:

# Create Feature Group - Aggregated car sales records.
agg_car_sales_fg = FeatureGroup(
    name=AGG_CAR_SALES_FG_NAME,
    feature_definitions=AGG_CAR_SALES_FG_FEATURE_DEFINITIONS,
    sagemaker_session=sagemaker_session,
) create_agg_car_sales_fg_resp = agg_car_sales_fg.create(       record_identifier_name=AGG_CAR_SALES_FG_RECORD_IDENTIFIER_NAME,  event_time_feature_name=AGG_CAR_SALES_FG_EVENT_TIME_FEATURE_NAME,
        s3_uri=AGG_CAR_SALES_FG_OFFLINE_STORE_S3_URI,
        enable_online_store=True,
        role_arn=AGG_CAR_SALES_FG_ROLE_ARN,
    )

Puede navegar a la opción Tienda de funciones de SageMaker en Datos en SageMaker Studio Inicio menú para ver los grupos de funciones.

Imagen de la tienda de funciones de Sagemaker con encabezados Nombre y descripción del grupo de funciones

Utilice el decorador @feature_processor para cargar datos

En esta sección, transformamos localmente los datos de entrada sin procesar (car_data.csv) de Amazon S3 al car-data grupo de funciones utilizando el procesador de funciones del almacén de funciones. Esta ejecución local inicial nos permite desarrollar e iterar antes de ejecutarla de forma remota, y podría realizarse en una muestra de los datos si se desea para una iteración más rápida.

Con la @feature_processor decorador, su función de transformación se ejecuta en un entorno de ejecución de Spark donde los argumentos de entrada proporcionados a su función y su valor de retorno son Spark DataFrames.

Instale la SDK del procesador de funciones del desplegable SDK de SageMaker Python y sus extras usando el siguiente comando:

pip install sagemaker[feature-processor]

El número de parámetros de entrada en su función de transformación debe coincidir con el número de entradas configuradas en el @feature_processor decorador. En este caso, el @feature_processor decorador tiene car-data.csv como entrada y el car-data grupo de características como salida, lo que indica que se trata de una operación por lotes con el target_store as OfflineStore:

from sagemaker.feature_store.feature_processor import (
    feature_processor,
    FeatureGroupDataSource,
    CSVDataSource,
) @feature_processor(
    inputs=[CSVDataSource(RAW_CAR_SALES_S3_URI)],
    output=CAR_SALES_FG_ARN,
    target_stores=["OfflineStore"],
)

Definir el transform() función para transformar los datos. Esta función realiza las siguientes acciones:
- Convierta los nombres de las columnas a minúsculas.
- Agregue la hora del evento a la ingest_time columna.
- Elimine la puntuación y reemplace los valores faltantes con NA.

def transform(raw_s3_data_as_df):
    """Load data from S3, perform basic feature engineering, store it in a Feature Group"""
    from pyspark.sql.functions import regexp_replace
    from pyspark.sql.functions import lit
    import time     transformed_df = (
        raw_s3_data_as_df.withColumn("Price", regexp_replace("Price", "$", ""))
        # Rename Columns
        .withColumnRenamed("Id", "id")
        .withColumnRenamed("Model", "model")
        .withColumnRenamed("Year", "model_year")
        .withColumnRenamed("Status", "status")
        .withColumnRenamed("Mileage", "mileage")
        .withColumnRenamed("Price", "price")
        .withColumnRenamed("MSRP", "msrp")
        # Add Event Time
        .withColumn("ingest_time", lit(int(time.time())))
        # Remove punctuation and fluff; replace with NA
        .withColumn("mileage", regexp_replace("mileage", "(,)|(mi.)", ""))
        .withColumn("mileage", regexp_replace("mileage", "Not available", "NA"))
        .withColumn("price", regexp_replace("price", ",", ""))
        .withColumn("msrp", regexp_replace("msrp", "(^MSRPs$)|(,)", ""))
        .withColumn("msrp", regexp_replace("msrp", "Not specified", "NA"))
        .withColumn("msrp", regexp_replace("msrp", "$d+[a-zA-Zs]+", "NA"))
        .withColumn("model", regexp_replace("model", "^dddds", ""))
    )

Llama a el transform() función para almacenar los datos en el car-data grupo de características:

# Execute the FeatureProcessor
transform()

El resultado muestra que los datos se incorporan correctamente al grupo de funciones de datos del automóvil.

La salida del transform_df.show() la función es la siguiente:

INFO:sagemaker:Ingesting transformed data to arn:aws:sagemaker:us-west-2:416578662734:feature-group/car-data with target_stores: ['OfflineStore'] +---+--------------------+----------+------+-------+--------+-----+-----------+
| id|               model|model_year|status|mileage|   price| msrp|ingest_time|
+---+--------------------+----------+------+-------+--------+-----+-----------+
|  0|    Acura TLX A-Spec|      2022|   New|     NA|49445.00|49445| 1686627154|
|  1|    Acura RDX A-Spec|      2023|   New|     NA|50895.00|   NA| 1686627154|
|  2|    Acura TLX Type S|      2023|   New|     NA|57745.00|   NA| 1686627154|
|  3|    Acura TLX Type S|      2023|   New|     NA|57545.00|   NA| 1686627154|
|  4|Acura MDX Sport H...|      2019|  Used| 32675 |40990.00|   NA| 1686627154|
|  5|    Acura TLX A-Spec|      2023|   New|     NA|50195.00|50195| 1686627154|
|  6|    Acura TLX A-Spec|      2023|   New|     NA|50195.00|50195| 1686627154|
|  7|    Acura TLX Type S|      2023|   New|     NA|57745.00|   NA| 1686627154|
|  8|    Acura TLX A-Spec|      2023|   New|     NA|47995.00|   NA| 1686627154|
|  9|    Acura TLX A-Spec|      2022|   New|     NA|49545.00|   NA| 1686627154|
| 10|Acura Integra w/A...|      2023|   New|     NA|36895.00|36895| 1686627154|
| 11|    Acura TLX A-Spec|      2023|   New|     NA|48395.00|48395| 1686627154|
| 12|Acura MDX Type S ...|      2023|   New|     NA|75590.00|   NA| 1686627154|
| 13|Acura RDX A-Spec ...|      2023|   New|     NA|55345.00|   NA| 1686627154|
| 14|    Acura TLX A-Spec|      2023|   New|     NA|50195.00|50195| 1686627154|
| 15|Acura RDX A-Spec ...|      2023|   New|     NA|55045.00|   NA| 1686627154|
| 16|    Acura TLX Type S|      2023|   New|     NA|56445.00|   NA| 1686627154|
| 17|    Acura TLX A-Spec|      2023|   New|     NA|47495.00|47495| 1686627154|
| 18|   Acura TLX Advance|      2023|   New|     NA|52245.00|52245| 1686627154|
| 19|    Acura TLX A-Spec|      2023|   New|     NA|50595.00|50595| 1686627154|
+---+--------------------+----------+------+-------+--------+-----+-----------+
only showing top 20 rows

Hemos transformado con éxito los datos de entrada y los hemos ingerido en el car-data grupo de características.

Ejecute el código @feature_processor de forma remota

En esta sección, demostramos cómo ejecutar el código de procesamiento de funciones de forma remota como una aplicación Spark usando el @remote decorador descrito anteriormente. Ejecutamos el procesamiento de funciones de forma remota utilizando Spark para escalar a grandes conjuntos de datos. Spark proporciona procesamiento distribuido en clústeres para manejar datos que son demasiado grandes para una sola máquina. El @remote Decorator ejecuta el código Python local como un trabajo de entrenamiento de SageMaker de uno o varios nodos.

Ingrese al @remote decorador junto con el @feature_processor decorador de la siguiente manera:

@remote(spark_config=SparkConfig(), instance_type = "ml.m5.xlarge", ...)
@feature_processor(inputs=[FeatureGroupDataSource(CAR_SALES_FG_ARN)],
                   output=AGG_CAR_SALES_FG_ARN, target_stores=["OfflineStore"], enable_ingestion=False )

La spark_config El parámetro indica que esto se ejecuta como un Spark application. La instancia de SparkConfig configura la configuración y las dependencias de Spark.

Definir el aggregate() función para agregar los datos utilizando PySpark SQL y funciones definidas por el usuario (UDF). Esta función realiza las siguientes acciones:
- Concatenar model, yeary status crear model_year_status.
- Tome el promedio de price crear avg_price.
- Tome el valor máximo de price crear max_price.
- Tome el promedio de mileage crear avg_mileage.
- Tome el valor máximo de mileage crear max_mileage.
- Tome el promedio de msrp crear avg_msrp.
- Tome el valor máximo de msrp crear max_msrp.
- Agrupar por model_year_status.

def aggregate(source_feature_group, spark):
    """
    Aggregate the data using a SQL query and UDF.
    """
    import time
    from pyspark.sql.types import StringType
    from pyspark.sql.functions import udf     @udf(returnType=StringType())
    def custom_concat(*cols, delimeter: str = ""):
        return delimeter.join(cols)     spark.udf.register("custom_concat", custom_concat)     # Execute SQL string.
    source_feature_group.createOrReplaceTempView("car_data")
    aggregated_car_data = spark.sql(
        f"""
        SELECT
            custom_concat(model, "_", model_year, "_", status) as model_year_status,
            AVG(price) as avg_price,
            MAX(price) as max_price,
            AVG(mileage) as avg_mileage,
            MAX(mileage) as max_mileage,
            AVG(msrp) as avg_msrp,
            MAX(msrp) as max_msrp,
            "{int(time.time())}" as ingest_time
        FROM car_data
        GROUP BY model_year_status
        """
    )     aggregated_car_data.show()     return aggregated_car_data

Ejecute el aggregate() función, que crea un trabajo de entrenamiento de SageMaker para ejecutar la aplicación Spark:

# Execute the aggregate function
aggregate()

Como resultado, SageMaker crea un trabajo de entrenamiento para la aplicación Spark definida anteriormente. Creará un entorno de ejecución de Spark utilizando el sagemaker-spark-processing image.

Usamos trabajos de capacitación de SageMaker aquí para ejecutar nuestra aplicación de procesamiento de funciones Spark. Con SageMaker Training, puede reducir los tiempos de inicio a 1 minuto o menos utilizando la agrupación en caliente, que no está disponible en SageMaker Processing. Esto hace que SageMaker Training esté mejor optimizado para trabajos por lotes cortos, como el procesamiento de funciones, donde el tiempo de inicio es importante.

Para ver los detalles, en la consola de SageMaker, elija Empleos de entrenamiento bajo Formación en el panel de navegación, luego elija el trabajo con el nombre aggregate-<timestamp>.

La imagen muestra el trabajo de formación de Sagemaker.

La salida del agregar() La función genera un código de telemetría. Dentro del resultado, verá los datos agregados de la siguiente manera:

+--------------------+------------------+---------+------------------+-----------+--------+--------+-----------+
|   model_year_status|         avg_price|max_price|       avg_mileage|max_mileage|avg_msrp|max_msrp|ingest_time|
+--------------------+------------------+---------+------------------+-----------+--------+--------+-----------+
|Acura CL 3.0_1997...|            7950.0|  7950.00|          100934.0|    100934 |    null|      NA| 1686634807|
|Acura CL 3.2 Type...|            6795.0|  7591.00|          118692.5|    135760 |    null|      NA| 1686634807|
|Acura CL 3_1998_Used|            9899.0|  9899.00|           63000.0|     63000 |    null|      NA| 1686634807|
|Acura ILX 2.0L Te...|         14014.125| 18995.00|         95534.875|     89103 |    null|      NA| 1686634807|
|Acura ILX 2.0L Te...|           15008.2| 16998.00|           94935.0|     88449 |    null|      NA| 1686634807|
|Acura ILX 2.0L Te...|           16394.6| 19985.00|           97719.4|     80000 |    null|      NA| 1686634807|
|Acura ILX 2.0L w/...|14567.181818181818| 16999.00| 96624.72727272728|     98919 |    null|      NA| 1686634807|
|Acura ILX 2.0L w/...|           16673.4| 18995.00|           84848.6|     96637 |    null|      NA| 1686634807|
|Acura ILX 2.0L w/...|12580.333333333334| 14546.00|100207.33333333333|     95782 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|         14565.375| 17590.00|         92941.125|     81842 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|           14877.9|  9995.00|           99739.5|     89252 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|           15659.5| 15660.00|           82136.0|     89942 |    null|      NA| 1686634807|
|Acura ILX 2.0L_20...|17121.785714285714| 20990.00| 78278.14285714286|     96067 |    null|      NA| 1686634807|
|Acura ILX 2.4L (A...|           17846.0| 21995.00|          101558.0|     85974 |    null|      NA| 1686634807|
|Acura ILX 2.4L Pr...|           16327.0| 16995.00|           85238.0|     95356 |    null|      NA| 1686634807|
|Acura ILX 2.4L w/...|           12846.0| 12846.00|           75209.0|     75209 |    null|      NA| 1686634807|
|Acura ILX 2.4L_20...|           18998.0| 18998.00|           51002.0|     51002 |    null|      NA| 1686634807|
|Acura ILX 2.4L_20...|17908.615384615383| 19316.00| 74325.38461538461|     89116 |    null|      NA| 1686634807|
|Acura ILX 4DR SDN...|           18995.0| 18995.00|           37017.0|     37017 |    null|      NA| 1686634807|
|Acura ILX 8-SPD_2...|           24995.0| 24995.00|           22334.0|     22334 |    null|      NA| 1686634807|
+--------------------+------------------+---------+------------------+-----------+--------+--------+-----------+
only showing top 20 rows

Cuando se complete el trabajo de capacitación, debería ver el siguiente resultado:

06-13 05:40 smspark-submit INFO     spark submit was successful. primary node exiting.
Training seconds: 153
Billable seconds: 153

Poner en funcionamiento el procesador de funciones a través de canalizaciones de SageMaker

En esta sección, demostramos cómo poner en funcionamiento el procesador de funciones promoviéndolo a una canalización de SageMaker y programando ejecuciones.

Primero, sube el código_transformación.py archivo que contiene la lógica de procesamiento de funciones para Amazon S3:

car_data_s3_uri = s3_path_join("s3://", sagemaker_session.default_bucket(),
                               'transformation_code', 'car-data-ingestion.py')
S3Uploader.upload(local_path='car-data-ingestion.py', desired_s3_uri=car_data_s3_uri)
print(car_data_s3_uri)

A continuación, cree una canalización de procesador de funciones. tubería_de_datos_del_automóvil usando el .to_pipeline() función:

car_data_pipeline_name = f"{CAR_SALES_FG_NAME}-ingestion-pipeline"
car_data_pipeline_arn = fp.to_pipeline(pipeline_name=car_data_pipeline_name,
                                      step=transform,
                                      transformation_code=TransformationCode(s3_uri=car_data_s3_uri) )
print(f"Created SageMaker Pipeline: {car_data_pipeline_arn}.")

Para ejecutar la canalización, utilice el siguiente código:

car_data_pipeline_execution_arn = fp.execute(pipeline_name=car_data_pipeline_name)
print(f"Started an execution with execution arn: {car_data_pipeline_execution_arn}")

De manera similar, puede crear una canalización para funciones agregadas llamada car_data_aggregated_pipeline y empezar a correr.
Programe el car_data_aggregated_pipeline para ejecutarse cada 24 horas:

fp.schedule(pipeline_name=car_data_aggregated_pipeline_name,
           schedule_expression="rate(24 hours)", state="ENABLED")
print(f"Created a schedule.")

En la sección de resultados, verá el ARN de la canalización y la función de ejecución de la canalización, y los detalles del cronograma:

{'pipeline_arn': 'arn:aws:sagemaker:us-west-2:416578662734:pipeline/car-data-aggregated-ingestion-pipeline',
 'pipeline_execution_role_arn': 'arn:aws:iam::416578662734:role/service-role/AmazonSageMaker-ExecutionRole-20230612T120731',
 'schedule_arn': 'arn:aws:scheduler:us-west-2:416578662734:schedule/default/car-data-aggregated-ingestion-pipeline',
 'schedule_expression': 'rate(24 hours)',
 'schedule_state': 'ENABLED',
 'schedule_start_date': '2023-06-13T06:05:17Z',
 'schedule_role': 'arn:aws:iam::416578662734:role/service-role/AmazonSageMaker-ExecutionRole-20230612T120731'}

Para obtener todas las canalizaciones del procesador de funciones en esta cuenta, utilice el list_pipelines() función en el procesador de funciones:

fp.list_pipelines()

El resultado será el siguiente:

[{'pipeline_name': 'car-data-aggregated-ingestion-pipeline'},
 {'pipeline_name': 'car-data-ingestion-pipeline'}]

Hemos creado con éxito canalizaciones del procesador de funciones de SageMaker.

Explore los canales de procesamiento de funciones y el linaje de ML

En SageMaker Studio, complete los siguientes pasos:

En la consola de SageMaker Studio, en el Inicio menú, seleccione Pipelines.

Imagen de la pestaña de inicio de Sagemaker Studio que resalta la opción de canalizaciones

Deberías ver dos canalizaciones creadas: car-data-ingestion-pipeline y car-data-aggregated-ingestion-pipeline.

Imagen de los pipelines de Sagemaker Studio con la lista de pipelines

Elija el car-data-ingestion-pipeline.

Muestra los detalles de la ejecución en el Ejecuciones .

Imagen de Sagemaker Studio del canal de ingesta de datos del automóvil

Para ver el grupo de características poblado por la tubería, elija Tienda de características bajo Datos y elige car-data.

Imagen de la casa de Sagemaker Studio destacando datos

Verá los dos grupos de funciones que creamos en los pasos anteriores.

Imagen de Sagemaker Studio con grupos de funciones creados

Elija el car-data grupo de características.

Verá los detalles de las funciones en el Caracteristicas .

Imagen de Sagemaker Studio con el grupo de funciones y las funciones del grupo

Ver ejecuciones de canalización

Para ver las ejecuciones de la canalización, complete los siguientes pasos:

En Ejecución de canalizaciónpestaña s, seleccione car-data-ingestion-pipeline.

Esto mostrará todas las ejecuciones.

La imagen muestra la pestaña del grupo de funciones de Sagemaker de las ejecuciones de canalización.

Elija uno de los enlaces para ver los detalles de la carrera.

La imagen muestra la interfaz de usuario de sagemaker con las canalizaciones en ejecución.

Para ver el linaje, elija Linaje.

El linaje completo de car-data muestra la fuente de datos de entrada car_data.csv y entidades upstream. El linaje para car-data-aggregated muestra la entrada car-data grupo de características.

Imagen de la interfaz de usuario de Sagemaker del grupo de funciones de datos del automóvil

Elige Cargar características y luego elige Consultar linaje ascendente on car-data y car-data-ingestion-pipeline para ver todas las entidades ascendentes.

El linaje completo de car-data El grupo de funciones debería verse como la siguiente captura de pantalla.

La imagen muestra la tienda de funciones de Sagemaker con linaje de automóviles.

De manera similar, el linaje de los car-aggregated-data El grupo de funciones debería verse como la siguiente captura de pantalla.

La imagen muestra el grupo de funciones agregadas de la interfaz de usuario de la tienda de funciones de Sagemaker

SageMaker Studio proporciona un entorno único para realizar un seguimiento de los procesos programados, ver ejecuciones, explorar el linaje y ver el código de procesamiento de funciones.

Las características agregadas como precio promedio, precio máximo, kilometraje promedio y más en el car-data-aggregated El grupo de características proporciona información sobre la naturaleza de los datos. También puede utilizar estas funciones como conjunto de datos para entrenar un modelo para predecir los precios de los automóviles o para otras operaciones. Sin embargo, entrenar el modelo está fuera del alcance de esta publicación, que se centra en demostrar las capacidades del almacén de funciones de SageMaker para la ingeniería de funciones.

Limpiar

No olvide limpiar los recursos creados como parte de esta publicación para evitar incurrir en cargos continuos.

Deshabilite la tubería programada a través del fp.schedule() método con el parámetro de estado como Disabled:

# Disable the scheduled pipeline
fp.schedule(
pipeline_name=car_data_aggregated_pipeline_name,
schedule_expression="rate(24 hours)",
state="DISABLED",
)

Elimine ambos grupos de funciones:

# Delete feature groups
car_sales_fg.delete()
agg_car_sales_fg.delete()

Los datos que residen en el depósito de S3 y en el almacén de funciones fuera de línea pueden generar costos, por lo que debe eliminarlos para evitar cargos.

Eliminar los objetos S3.
Eliminar los registros de la tienda de funciones.

Conclusión

En esta publicación, demostramos cómo una empresa de venta de automóviles utilizó el procesador de funciones de la tienda de funciones SageMaker para obtener información valiosa a partir de sus datos de ventas sin procesar:

Ingerir y transformar datos por lotes a escala usando Spark
Poner en funcionamiento flujos de trabajo de ingeniería de funciones a través de canalizaciones de SageMaker
Proporcionar seguimiento de linaje y un entorno único para monitorear tuberías y explorar características.
Preparación de funciones agregadas optimizadas para entrenar modelos de ML

Siguiendo estos pasos, la empresa pudo transformar datos que antes no se podían utilizar en características estructuradas que luego podrían usarse para entrenar un modelo para predecir los precios de los automóviles. SageMaker Feature Store les permitió centrarse en la ingeniería de funciones en lugar de en la infraestructura subyacente.

Esperamos que esta publicación le ayude a desbloquear información valiosa sobre aprendizaje automático a partir de sus propios datos utilizando el procesador de funciones de SageMaker Feature Store.

Para obtener más información sobre esto, consulte Procesamiento de características y el ejemplo de SageMaker en Tienda de funciones de Amazon SageMaker: Introducción al procesador de funciones.

Acerca de los autores

Dhaval Shah es arquitecto de soluciones senior en AWS, especializado en aprendizaje automático. Con un fuerte enfoque en empresas nativas digitales, capacita a los clientes para aprovechar AWS e impulsar el crecimiento de su negocio. Como entusiasta del aprendizaje automático, a Dhaval lo impulsa su pasión por crear soluciones impactantes que generen cambios positivos. En su tiempo libre, se entrega a su amor por los viajes y disfruta de momentos de calidad con su familia.

Desbloquee información sobre aprendizaje automático mediante el procesador de funciones de la tienda de funciones de Amazon SageMaker | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai. Ninad Joshi es arquitecto senior de soluciones en AWS y ayuda a los clientes globales de AWS a diseñar soluciones seguras, escalables y rentables en la nube para resolver sus complejos desafíos comerciales del mundo real. Su trabajo en aprendizaje automático (ML) cubre una amplia gama de casos de uso de AI/ML, con un enfoque principal en ML de extremo a extremo, procesamiento de lenguaje natural y visión por computadora. Antes de unirse a AWS, Ninad trabajó como desarrollador de software durante más de 12 años. Fuera de sus actividades profesionales, a Ninad le gusta jugar al ajedrez y explorar diferentes tácticas.

Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
PlatoData.Network Vertical Generativo Ai. Empodérate. Accede Aquí.
PlatoAiStream. Inteligencia Web3. Conocimiento amplificado. Accede Aquí.
PlatoESG. Carbón, tecnología limpia, Energía, Ambiente, Solar, Gestión de residuos. Accede Aquí.
PlatoSalud. Inteligencia en Biotecnología y Ensayos Clínicos. Accede Aquí.
Fuente: https://aws.amazon.com/blogs/machine-learning/unlock-ml-insights-using-the-amazon-sagemaker-feature-store-feature-processor/

Sello de tiempo: 19 de septiembre de 2023

Sello de tiempo: 9 de septiembre de 2022

Desbloquee información sobre aprendizaje automático mediante el procesador de funciones de la tienda de funciones de Amazon SageMaker | Servicios web de Amazon

Reeditado por Platón

Resumen de la solución

Requisitos previos

Crear grupos de características

Utilice el decorador @feature_processor para cargar datos

Ejecute el código @feature_processor de forma remota

Poner en funcionamiento el procesador de funciones a través de canalizaciones de SageMaker

Explore los canales de procesamiento de funciones y el linaje de ML

Ver ejecuciones de canalización

Limpiar

Conclusión

Acerca de los autores

Mas de Aprendizaje automático de AWS

Rompa las barreras del idioma con Amazon Transcribe, Amazon Translate y Amazon Polly

Cree potentes experiencias de autoservicio con Amazon Lex en el centro de contacto de Talkdesk CX Cloud

Organice sus transcripciones en párrafos con Amazon Transcribe | Servicios web de Amazon

Cree una plataforma de datos agronómicos con las capacidades geoespaciales de Amazon SageMaker

Gestión de equipos y usuarios con Amazon SageMaker y AWS SSO

Utilice Snowflake como fuente de datos para entrenar modelos ML con Amazon SageMaker

Cómo Amp en Amazon usó datos para aumentar la participación del cliente, Parte 2: Creación de una plataforma de recomendación de espectáculos personalizada con Amazon SageMaker

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta