Wrangler de datos de Amazon SageMaker es una herramienta de preparación y agregación de datos especialmente diseñada para el aprendizaje automático (ML). Le permite utilizar una interfaz visual para acceder a los datos y realizar análisis exploratorios de datos (EDA) e ingeniería de características. La función EDA viene con capacidades de análisis de datos integradas para gráficos (como diagramas de dispersión o histogramas) y capacidades de análisis de modelos que ahorran tiempo, como la importancia de las características, la fuga de objetivos y la explicabilidad del modelo. La capacidad de ingeniería de funciones tiene más de 300 transformaciones integradas y puede realizar transformaciones personalizadas utilizando el tiempo de ejecución de Python, PySpark o Spark SQL.
Para visualizaciones y transformaciones personalizadas, Data Wrangler ahora proporciona fragmentos de código de ejemplo para tipos comunes de visualizaciones y transformaciones. En esta publicación, demostramos cómo usar estos fragmentos de código para iniciar rápidamente su EDA en Data Wrangler.
Resumen de la solución
En el momento de escribir este artículo, puede importar conjuntos de datos a Data Wrangler desde Servicio de almacenamiento simple de Amazon (Amazon S3), Atenea amazónica, Desplazamiento al rojo de Amazon, Databricks y Snowflake. Para esta publicación, usamos Amazon S3 para almacenar el Amazon 2014 revisa el conjunto de datos. La siguiente es una muestra del conjunto de datos:
En esta publicación, realizamos EDA utilizando tres columnas:asin
, reviewTime
y overall
, que se asignan al ID del producto, la fecha de la revisión y la puntuación general de la revisión, respectivamente. Usamos estos datos para visualizar la dinámica de la cantidad de revisiones a lo largo de meses y años.
Usando un fragmento de código de ejemplo para EDA en Data Wrangler
Para comenzar a realizar EDA en Data Wrangler, complete los siguientes pasos:
- Descargue nuestra Conjunto de datos de reseñas de música digital JSON y cárguelo en Amazon S3.
Usamos esto como el conjunto de datos sin procesar para la EDA. - Abierto Estudio Amazon SageMaker y cree un nuevo flujo de Data Wrangler e importe el conjunto de datos de Amazon S3.
Este conjunto de datos tiene nueve columnas, pero solo usamos tres:
asin
,reviewTime
yoverall
. Necesitamos eliminar las otras seis columnas. - Cree una transformación personalizada y elija Pitón (PySpark).
- Expandir Buscar fragmentos de ejemplo y elige Eliminar todas las columnas excepto varias.
- Ingrese el fragmento proporcionado en su transformación personalizada y siga las instrucciones para modificar el código.
Ahora que tenemos todas las columnas que necesitamos, filtremos los datos para mantener solo las revisiones entre 2000 y 2020.
- Ingrese al Filtrar marca de tiempo fuera del intervalo fragmento para colocar los datos antes del año 2000 y después de 2020:
A continuación, extraemos el año y el mes de la columna reviewTime.
- Ingrese al Destacar fecha/hora transformar.
- Extraer columnas, escoger año y mes.
A continuación, queremos agregar la cantidad de reseñas por año y mes que creamos en el paso anterior.
- Ingrese al Calcular estadísticas en grupos retazo:
- Renombrar la agregación del paso anterior de
count(overall)
areviews_num
por elección Administrar columnas y del Cambiar el nombre de la columna transformar.
Finalmente, queremos crear un mapa de calor para visualizar la distribución de reseñas por año y por mes. - En la pestaña de análisis, elija visualización personalizada.
- Expandir Buscar fragmento y elige Mapa de calor en el menú desplegable.
- Ingrese el fragmento provisto en su visualización personalizada:
Obtenemos la siguiente visualización.
Si desea mejorar aún más el mapa de calor, puede dividir los datos para mostrar solo las reseñas anteriores a 2011. Son difíciles de identificar en el mapa de calor que acabamos de crear debido a la gran cantidad de reseñas desde 2012. - Agregue una línea de código a su visualización personalizada:
Obtenemos el siguiente mapa de calor.
Ahora el mapa de calor refleja las revisiones anteriores a 2011 de manera más visible: podemos observar los efectos estacionales (el final del año trae más compras y, por lo tanto, más revisiones) y podemos identificar meses anómalos, como octubre de 2003 y marzo de 2005. Vale la pena investigar más. para determinar la causa de dichas anomalías.
Conclusión
Data Wrangler es una herramienta de preparación y agregación de datos especialmente diseñada para ML. En esta publicación, demostramos cómo realizar EDA y transformar sus datos rápidamente utilizando fragmentos de código proporcionados por Data Wrangler. Solo necesita encontrar un fragmento, ingresar el código y ajustar los parámetros para que coincidan con su conjunto de datos. Puede continuar iterando en su secuencia de comandos para crear visualizaciones y transformaciones más complejas.
Para obtener más información sobre Data Wrangler, consulte Crear y usar un flujo de Wrangler de datos.
Acerca de los autores
Nikita Ivkina es un científico aplicado, Amazon SageMaker Data Wrangler.
haider naqvi es arquitecto de soluciones en AWS. Tiene una amplia experiencia en desarrollo de software y arquitectura empresarial. Se enfoca en permitir que los clientes logren resultados comerciales con AWS. Tiene su sede en Nueva York.
Harish Rajagopalan es Arquitecto de Soluciones Sénior en Amazon Web Services. Harish trabaja con clientes empresariales y los ayuda con su viaje a la nube.
James Wu es un especialista sénior en AI/ML SA en AWS. Trabaja con los clientes para acelerar su viaje a la nube y acelerar la realización de su valor empresarial. Además de eso, a James también le apasiona desarrollar y escalar grandes soluciones de IA/ML en varios dominios. Antes de unirse a AWS, lideró un equipo de tecnología de innovación multidisciplinar con ingenieros de aprendizaje automático y desarrolladores de software para una de las principales empresas mundiales en el mercado y la industria de la publicidad.
- Coinsmart. El mejor intercambio de Bitcoin y criptografía de Europa.
- Platoblockchain. Inteligencia del Metaverso Web3. Conocimiento amplificado. ACCESO LIBRE.
- CriptoHawk. Radar de altcoins. Prueba gratis.
- Fuente: https://aws.amazon.com/blogs/machine-learning/prepare-data-faster-with-pyspark-and-altair-code-snippets-in-amazon-sagemaker-data-wrangler/
- "
- 100
- 2020
- a
- Sobre nosotros
- acelerar
- de la máquina
- Lograr
- a través de
- adición
- Publicidad
- Todos
- permite
- Amazon
- Amazon Web Services
- análisis
- aplicada
- arquitectura
- Hoy Disponibles
- AWS
- Eje
- porque
- antes
- entre
- incorporado
- capacidades
- Causar
- Gráficas
- Elige
- Soluciones
- código
- Columna
- Algunos
- completar
- integraciones
- continue
- controles
- Para crear
- creado
- personalizado
- Clientes
- datos
- análisis de los datos
- demostrar
- demostrado
- Determinar
- desarrolladores
- el desarrollo
- Desarrollo
- dominios
- DE INSCRIPCIÓN
- Soltar
- dinámica
- los efectos
- permitiendo
- Ingeniería
- certificados
- Participar
- Empresa
- ejemplo
- Excepto
- experience
- en los detalles
- más rápida
- Feature
- Finalmente
- Firme
- Nombre
- de tus señales
- se centra
- seguir
- siguiendo
- en
- función
- funciones
- promover
- Buscar
- maravillosa
- Grupo
- es
- serviciales
- ayuda
- Cómo
- Como Hacer
- HTTPS
- Identifique
- importancia
- energético
- Innovation
- Interfaz
- IT
- Guardar
- large
- APRENDE:
- aprendizaje
- LED
- línea
- Lista
- máquina
- máquina de aprendizaje
- mapa
- Marzo
- Mercado
- Match
- ML
- modelo
- Mes
- meses
- más,
- Música
- nombres
- New York
- número
- Otro
- total
- apasionado
- realizar
- jugando
- Preparar
- anterior
- Producto
- proporcionar
- previsto
- proporciona un
- comprar
- compras
- XNUMX% automáticos
- con rapidez
- Crudo
- archivos
- refleja
- una estrategia SEO para aparecer en las búsquedas de Google.
- Reseñas
- la ampliación
- Científico
- Servicios
- sencillos
- desde
- SEIS
- Software
- Desarrollo de software ad-hoc
- Soluciones
- especialista
- comienzo
- statistics
- STORAGE
- tienda
- Target
- equipo
- Tecnología
- El
- por lo tanto
- Tres
- equipo
- del IRS
- parte superior
- Transformar
- transformaciones
- tipos
- utilizan el
- propuesta de
- diversos
- visualización
- volúmenes
- web
- servicios web
- QUIENES
- maravilloso
- funciona
- valor
- la escritura
- X
- año
- años
- tú