Cree muestras aleatorias y estratificadas de datos con Amazon SageMaker Data Wrangler

Reeditado por Platón

seguidores: 0

En esta publicación, lo guiaremos a través de dos técnicas de muestreo en Wrangler de datos de Amazon SageMaker para que pueda crear rápidamente flujos de trabajo de procesamiento para sus datos. Cubrimos tanto el muestreo aleatorio como las técnicas de muestreo estratificado para ayudarlo a muestrear sus datos en función de sus requisitos específicos.

Data Wrangler reduce el tiempo que lleva agregar y preparar datos para el aprendizaje automático (ML) de semanas a minutos. Puede simplificar el proceso de preparación de datos y la ingeniería de características, y completar cada paso del flujo de trabajo de preparación de datos, incluida la selección, limpieza, exploración y visualización de datos, desde una única interfaz visual. Con la herramienta de selección de datos de Data Wrangler, puede elegir los datos que desee de varias fuentes de datos e importarlos con un solo clic. Data Wrangler contiene más de 300 transformaciones de datos integradas para que pueda normalizar, transformar y combinar funciones rápidamente sin tener que escribir ningún código. Con las plantillas de visualización de Data Wrangler, puede obtener una vista previa e inspeccionar rápidamente que estas transformaciones se completen según lo previsto al verlas en Estudio Amazon SageMaker, el primer entorno de desarrollo totalmente integrado (IDE) para ML. Una vez que sus datos estén preparados, puede crear flujos de trabajo de aprendizaje automático completamente automatizados con Canalizaciones de Amazon SageMaker y guárdelos para reutilizarlos en Tienda de funciones de Amazon SageMaker.

Qué es el muestreo y cómo puede ayudar

En análisis estadístico, el conjunto total de observaciones se conoce como población. Cuando se trabaja con datos, a menudo no es computacionalmente factible medir cada observación de la población. Muestreo estadístico es un procedimiento que le permite comprender sus datos seleccionando subconjuntos de la población.

El muestreo ofrece una solución práctica que sacrifica algo de precisión en aras de la practicidad y la facilidad. Para asegurarse de que su muestra sea una buena representación de la población general, puede emplear estrategias de muestreo. Data Wrangler admite dos de las estrategias más comunes: muestreo aleatorio y muestreo estratificado.

Muestreo aleatorio

Si tiene un conjunto de datos grande, la experimentación con ese conjunto de datos puede llevar mucho tiempo. Data Wrangler proporciona muestreo aleatorio para que pueda procesar y visualizar sus datos de manera eficiente. Por ejemplo, es posible que desee calcular la cantidad promedio de compras de un cliente dentro de un período de tiempo, o puede que desee calcular la tasa de deserción de un suscriptor. Puede utilizar una muestra aleatoria para visualizar aproximaciones a estas métricas.

Se elige una muestra aleatoria de su conjunto de datos para que cada elemento tenga la misma probabilidad de ser seleccionado. Esta operación se realiza de manera eficiente adecuada para grandes conjuntos de datos, por lo que el tamaño de muestra devuelto es aproximadamente el tamaño solicitado y no necesariamente igual al tamaño solicitado.

Puede utilizar el muestreo aleatorio si desea realizar cálculos aproximados rápidos para comprender su conjunto de datos. A medida que aumenta el tamaño de la muestra, la muestra aleatoria puede aproximarse mejor a todo el conjunto de datos, pero a menos que incluya todos los puntos de datos, es posible que su muestra aleatoria no incluya todos los valores atípicos y los casos límite. Si desea preparar todo su conjunto de datos de forma interactiva, también puede cambiar a un tipo de instancia más grande.

Como regla general, el error de muestreo al calcular la media de la población utilizando una muestra aleatoria tiende a 0 a medida que la muestra se hace más grande. A medida que aumenta el tamaño de la muestra, el error disminuye como el inverso de la raíz cuadrada del tamaño de la muestra. La conclusión es que cuanto mayor sea la muestra, mejor será la aproximación.

Muestreo estratificado

En algunos casos, su población se puede dividir en estratos o segmentos mutuamente excluyentes, como la ubicación geográfica de las direcciones, el año de publicación de las canciones o los tramos impositivos de los ingresos. El muestreo aleatorio es la técnica de muestreo más popular, pero si algunos estratos no son comunes en su población, puede usar el muestreo estratificado en Data Wrangler para asegurarse de que cada estrato esté representado proporcionalmente en su muestra. Esto puede ser útil para reducir los errores de muestreo, así como para asegurarse de que está capturando casos extremos durante su experimentación.

En el mundo real, las transacciones fraudulentas con tarjetas de crédito son eventos raros y, por lo general, representan menos del 1 % de sus datos. Si tuviéramos que tomar una muestra al azar, no es raro que la muestra contenga muy pocas o ninguna transacción fraudulenta. Como resultado, al entrenar un modelo, tendríamos muy pocos ejemplos fraudulentos para aprender un modelo preciso. Podemos utilizar muestreo estratificado para asegurarnos de que tenemos una representación proporcional de las transacciones fraudulentas.

En el muestreo estratificado, el tamaño de cada estrato de la muestra es proporcional al tamaño de los estratos de la población. Esto funciona dividiendo sus datos en estratos según su columna especificada, seleccionando muestras aleatorias de cada estrato con la proporción correcta y combinando esas muestras en una muestra estratificada de la población.

El muestreo estratificado es una técnica útil cuando desea comprender cómo se comparan entre sí los diferentes grupos de sus datos y desea asegurarse de tener una representación adecuada de cada grupo.

Muestreo aleatorio al importar desde Amazon S3

En esta sección, utilizamos un muestreo aleatorio con un conjunto de datos que consta de eventos fraudulentos y no fraudulentos de nuestro sistema de detección de fraude. Puede descargar el conjunto de datos a seguir junto con esta publicación (Licencia de atribución internacional CC 4.0).

En el momento de escribir este artículo, puede importar conjuntos de datos de Servicio de almacenamiento simple de Amazon (Amazon S3), Atenea amazónica, Desplazamiento al rojo de Amazony copo de nieve. Nuestro conjunto de datos es muy grande y contiene 1 millón de filas. En este caso, queremos muestrear 1,0000 filas en la importación desde Amazon S3 para experimentar de forma interactiva dentro de Data Wrangler.

Abra SageMaker Studio y cree un nuevo flujo de Data Wrangler.
under Importar fechas, escoger Amazon S3.
Elija el conjunto de datos para importar.
En Detalles panel, proporcione el nombre de su conjunto de datos y el tipo de archivo.
Muestreo, escoger Aleatorio.
Tamaño de la muestra, introduzca 10000.
Elige Importa para cargar el conjunto de datos en Data Wrangler.

Puede visualizar dos pasos distintos en la página de flujo de datos en Data Wrangler. El primer paso indica la carga del conjunto de datos de muestra en función de la estrategia de muestreo que definió. Una vez que se cargan los datos, Data Wrangler realiza una detección automática de los tipos de datos para cada una de las columnas del conjunto de datos. Este paso se agrega de forma predeterminada para todos los conjuntos de datos.

Ahora puede revisar los datos muestreados aleatoriamente en Data Wrangler agregando un análisis.

Elija el signo más junto a Tipos de datos y elige ECONOMÉTRICOS.
Tipo de análisisescoger Gráfico de dispersión.
Elige hazaña_1 y hazaña_2 como para eje X y Eje Y, respectivamente.
Colorear por, escoger es_fraude.

Cuando se sienta cómodo con el conjunto de datos, proceda a realizar más transformaciones de datos según los requisitos de su negocio para preparar sus datos para ML.

En la siguiente captura de pantalla, podemos observar las transacciones fraudulentas (azul oscuro) y no fraudulentas (azul claro) en nuestro análisis.

En la siguiente sección, analizamos el uso de muestreo estratificado para garantizar que los casos fraudulentos se elijan proporcionalmente.

Muestreo estratificado con una transformada

Data Wrangler le permite muestrear en la importación, así como muestrear a través de una transformación. En esta sección, analizamos el uso del muestreo estratificado a través de una transformación después de haber importado su conjunto de datos a Data Wrangler.

Para iniciar el muestreo, en el Flujo de datos pestaña, elija el signo más junto al conjunto de datos importado y elija Agregar transformación.

En el momento de escribir este artículo, Data Wrangler proporciona más de 300 transformaciones integradas. Además de las transformaciones integradas, puede escribir sus propias transformaciones personalizadas en Pandas o PySpark.

Desde el Agregar transformación lista, elige Muestreo.

Ahora puede utilizar tres estrategias de muestreo distintas: límite, aleatorio y estratificado.

Método de muestreo, escoger Estratificado.
Ingrese al is_fraud columna como columna de estratificación.
Elige Vista previa para obtener una vista previa de la transformación, luego elija Añada para agregar esta transformación como un paso a su receta de transformación.

Su flujo de datos ahora refleja el paso de muestreo agregado.

Ahora podemos revisar los datos muestreados aleatoriamente agregando un análisis.

Elija el signo más y elija ECONOMÉTRICOS.
Tipo de análisisescoger Histograma.
Elige es_fraude por tanto eje X y Colorear por.
Elige Vista previa.

En la siguiente captura de pantalla, podemos observar el desglose de casos fraudulentos (azul oscuro) y no fraudulentos (azul claro) elegidos mediante muestreo estratificado en las proporciones correctas de 20% fraudulento y 80% no fraudulento.

Conclusión

Es esencial muestrear los datos correctamente cuando se trabaja con conjuntos de datos extremadamente grandes y elegir la estrategia de muestreo adecuada para cumplir con los requisitos de su negocio. La efectividad de su muestreo depende de varios factores, incluidos los resultados comerciales, la disponibilidad de datos y la distribución. En esta publicación, cubrimos cómo usar Data Wrangler y sus estrategias de muestreo integradas para preparar sus datos.

Puede comenzar a usar esta capacidad hoy en todas las regiones donde SageMaker Studio está disponible. Para empezar, visite Prepare datos de AA con Amazon SageMaker Data Wrangler.

Agradecimientos

Los autores desean agradecer a Jonathan Chung (científico aplicado) por su revisión y sus valiosos comentarios sobre este artículo.

Acerca de los autores

Ben Harris es un ingeniero de software con experiencia en el diseño, la implementación y el mantenimiento de canalizaciones de datos escalables y soluciones de aprendizaje automático en una variedad de dominios.

vishaal kapoor es un científico aplicado sénior con AWS AI. Le apasiona ayudar a los clientes a comprender sus datos en Data Wrangler. En su tiempo libre, practica mountain bike, snowboard y pasa tiempo con su familia.

Meenakshisundaram Thandavarayan es un especialista sénior en IA/ML de AWS. Ayuda a las cuentas estratégicas de alta tecnología en su viaje de IA y ML. Es un apasionado de la IA basada en datos.

Ajai Sharma es gerente principal de productos de Amazon SageMaker, donde se enfoca en Data Wrangler, una herramienta de preparación de datos visuales para científicos de datos. Antes de AWS, Ajai fue experto en ciencia de datos en McKinsey and Company, donde lideró compromisos centrados en ML para firmas financieras y de seguros líderes en todo el mundo. A Ajai le apasiona la ciencia de datos y le encanta explorar los últimos algoritmos y técnicas de aprendizaje automático.

Sello de tiempo: Abril 26, 2022

Sello de tiempo: 6 de febrero de 2024

Cree muestras aleatorias y estratificadas de datos con Amazon SageMaker Data Wrangler

Reeditado por Platón

Qué es el muestreo y cómo puede ayudar

Muestreo aleatorio

Muestreo estratificado

Muestreo aleatorio al importar desde Amazon S3

Muestreo estratificado con una transformada

Conclusión

Agradecimientos

Acerca de los autores

Mas de Aprendizaje automático de AWS

Ajuste los modelos Whisper en Amazon SageMaker con LoRA | Servicios web de Amazon

Busque de forma inteligente contenido de Adobe Experience Manager utilizando Amazon Kendra | Servicios web de Amazon

Cree datos sintéticos para canalizaciones de visión artificial en AWS

Ponga en funcionamiento sus blocs de notas de Amazon SageMaker Studio como trabajos de blocs de notas programados

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta