Identificar y evitar problemas de datos comunes al crear modelos de aprendizaje automático sin código con Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Identificar y evitar problemas de datos comunes al crear modelos de aprendizaje automático sin código con Amazon SageMaker Canvas

Los analistas de negocios trabajan con datos y les gusta analizar, explorar y comprender los datos para lograr resultados comerciales efectivos. Para abordar los problemas comerciales, a menudo confían en los profesionales del aprendizaje automático (ML), como los científicos de datos, para ayudar con técnicas como el uso de ML para construir modelos utilizando datos existentes y generar predicciones. Sin embargo, no siempre es posible, ya que los científicos de datos suelen estar ocupados con sus tareas y no tienen el ancho de banda para ayudar a los analistas.

Para ser independiente y lograr tus objetivos como analista de negocios, sería ideal trabajar con herramientas fáciles de usar, intuitivas y visuales que usen ML sin necesidad de conocer los detalles y usar código. El uso de estas herramientas lo ayudará a resolver sus problemas comerciales y lograr los resultados deseados.

Con el objetivo de ayudarlo a usted y a su organización a ser más efectivos y a usar ML sin escribir código, presentó Amazon SageMaker Canvas. Esta es una solución de ML sin código que lo ayuda a crear modelos de ML precisos sin necesidad de conocer detalles técnicos, como algoritmos de ML y métricas de evaluación. SageMaker Canvas ofrece una interfaz visual e intuitiva que le permite importar datos, entrenar modelos ML, realizar análisis de modelos y generar predicciones ML, todo sin escribir una sola línea de código.

Al usar SageMaker Canvas para experimentar, es posible que encuentre problemas de calidad de los datos, como valores faltantes o tener el tipo de problema incorrecto. Es posible que estos problemas no se descubran hasta bastante tarde en el proceso después de entrenar un modelo de ML. Para aliviar este desafío, SageMaker Canvas ahora admite la validación de datos. Esta característica comprueba proactivamente los problemas en sus datos y proporciona orientación sobre las resoluciones.

En esta publicación, demostraremos cómo puede usar la capacidad de validación de datos dentro de SageMaker Canvas antes de la creación del modelo. Como sugiere el nombre, esta función valida su conjunto de datos, informa sobre problemas y proporciona indicaciones útiles para solucionarlos. Al usar datos de mejor calidad, terminará con un modelo ML de mejor rendimiento.

Validar datos en SageMaker Canvas

La validación de datos es una función nueva en SageMaker Canvas para verificar de manera proactiva posibles problemas de calidad de datos. Después de importar los datos y seleccionar una columna de destino, tiene la opción de validar sus datos como se muestra aquí:

Si elige validar sus datos, Canvas analiza sus datos para numerosas condiciones que incluyen:

  • Demasiadas etiquetas únicas en su columna de destino – para el tipo de modelo de predicción de categoría
  • Demasiadas etiquetas únicas en su columna de destino para la cantidad de filas en sus datos – para el tipo de modelo de predicción de categoría
  • Tipo de modelo incorrecto para sus datos – el tipo de modelo no se ajusta a los datos que está prediciendo en la columna Objetivo
  • Demasiadas filas inválidas – valores faltantes en su columna de destino
  • Todas las columnas de funciones son columnas de texto: se eliminarán para compilaciones estándar
  • Muy pocas columnas - muy pocas columnas en sus datos
  • Sin filas completas – todas las filas de sus datos contienen valores faltantes
  • Uno o más nombres de columna contienen guiones bajos dobles – SageMaker no puede manejar (__) en el encabezado de la columna

Los detalles de cada criterio de validación se proporcionarán en las secciones posteriores de esta publicación.

Si se pasan todas las comprobaciones, obtendrá la siguiente confirmación: "No se han encontrado problemas en su conjunto de datos".

Identificar y evitar problemas de datos comunes al crear modelos de aprendizaje automático sin código con Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Si se encuentra algún problema, recibirá una notificación para verlo y comprenderlo. Esto saca a la luz los problemas de calidad de los datos con anticipación y le permite abordarlos de inmediato antes de perder tiempo y recursos en el proceso.

Identificar y evitar problemas de datos comunes al crear modelos de aprendizaje automático sin código con Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai. Identificar y evitar problemas de datos comunes al crear modelos de aprendizaje automático sin código con Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Puede hacer sus ajustes y seguir validando su conjunto de datos hasta que se resuelvan todos los problemas.

Validar la columna de destino y los tipos de modelo

Cuando está creando un modelo ML en SageMaker Canvas, varios problemas de calidad de datos relacionados con el columna de destino puede hacer que la construcción de su modelo falle. SageMaker Canvas busca diferentes tipos de problemas que puedan afectar su columna de destino.

Identificar y evitar problemas de datos comunes al crear modelos de aprendizaje automático sin código con Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

  1. Para su columna de destino, marque el Tipo de modelo incorrecto para sus datos. Por ejemplo, si se selecciona un modelo de predicción de 2 categorías pero su columna de destino tiene más de 2 etiquetas únicas, SageMaker Canvas proporcionará la siguiente advertencia de validación.
    Identificar y evitar problemas de datos comunes al crear modelos de aprendizaje automático sin código con Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  2. Si el tipo de modelo es predicción de categoría 2 o 3+, debe validar demasiadas etiquetas únicas para su columna objetivo. El número máximo de clases únicas es 2000. Si selecciona una columna con más de 2000 valores únicos en su columna Objetivo, Canvas le proporcionará la siguiente advertencia de validación.
    Identificar y evitar problemas de datos comunes al crear modelos de aprendizaje automático sin código con Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  3. Además de demasiadas etiquetas de destino únicas, también debe tener cuidado con muchas etiquetas de destino únicas para el número de filas en sus datos. SageMaker Canvas impone una relación entre la etiqueta de destino y el número total de filas inferior al 10 %. Esto asegura que tenga suficiente representación para cada categoría para un modelo de alta calidad y reduce el potencial de sobreajuste. Su modelo se considera sobreajustado cuando predice bien los datos de entrenamiento pero no los datos nuevos que no ha visto antes. Referirse esta página para obtener más información.
    Identificar y evitar problemas de datos comunes al crear modelos de aprendizaje automático sin código con Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  4. Finalmente, la última verificación para la columna de destino es demasiadas filas inválidas. Si a su columna de destino le falta más del 10 % de los datos o no son válidos, esto afectará el rendimiento de su modelo y, en algunos casos, hará que la construcción de su modelo falle. El siguiente ejemplo tiene muchos valores faltantes (>90 % faltantes) en la columna de destino y recibe la siguiente advertencia de validación.
    Identificar y evitar problemas de datos comunes al crear modelos de aprendizaje automático sin código con Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
    Identificar y evitar problemas de datos comunes al crear modelos de aprendizaje automático sin código con Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Si recibe alguna de las advertencias anteriores para su columna de destino, utilice los siguientes pasos para mitigar los problemas:

  1. ¿Está utilizando la columna de destino de la derecha?
  2. ¿Seleccionó el tipo de modelo correcto?
  3. ¿Puede aumentar la cantidad de filas en su conjunto de datos por etiqueta de destino?
  4. ¿Puedes consolidar/agrupar etiquetas similares juntas?
  5. ¿Puede completar los valores que faltan o no son válidos?
  6. ¿Tiene suficientes datos para eliminar los valores faltantes o no válidos?
  7. Si todas las opciones anteriores no borran la advertencia, entonces debería considerar usar un conjunto de datos diferente.

Para obtener más detalles sobre cómo diseñar y realizar los esfuerzos de seguimiento y evaluación, refierase a Documentación de transformación de datos de SageMaker Canvas para realizar los pasos de imputación mencionados anteriormente.

Validar todas las columnas

Aparte de la columna de destino, también puede encontrarse con problemas de calidad de datos con otras columnas de datos (columnas de características). Las columnas de características son datos de entrada que se utilizan para hacer una predicción de ML.

  • Cada conjunto de datos debe tener al menos 1 columna de características y 1 columna de destino (2 columnas en total). De lo contrario, SageMaker Canvas le dará una Muy pocas columnas en sus datos advertencia. Debe cumplir este requisito antes de poder continuar con la creación de un modelo.
    Identificar y evitar problemas de datos comunes al crear modelos de aprendizaje automático sin código con Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  • Después de eso, debe asegurarse de que sus datos tengan al menos 1 columna numérica. Si no, obtendrá el todas las columnas de características son columnas de texto advertencia. Esto se debe a que las columnas de texto generalmente se eliminan durante las compilaciones estándar, lo que deja al modelo sin funciones para entrenar. Por lo tanto, esto hará que la construcción de su modelo falle. Puede usar SageMaker Canvas para codificar algunas de las columnas de texto en números o usar la compilación rápida en lugar de la compilación estándar.
    Identificar y evitar problemas de datos comunes al crear modelos de aprendizaje automático sin código con Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  • El tercer tipo de advertencia que puede recibir para las columnas de características es Sin filas completas. Esta validación verifica si tiene al menos una fila sin valores faltantes. SageMaker Canvas requiere al menos una fila completa; de lo contrario, su construcción rápida fallará. Intente completar los valores faltantes antes de construir el modelo.
    Identificar y evitar problemas de datos comunes al crear modelos de aprendizaje automático sin código con Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  • El último tipo de validación es Uno o más nombres de columna contienen guiones bajos dobles. Este es un requisito específico de SageMaker Canvas. Si tiene guiones bajos dobles (__) en los encabezados de sus columnas, esto hará que su construcción rápida fallar Cambie el nombre de las columnas para eliminar los guiones bajos dobles y vuelva a intentarlo.
    Identificar y evitar problemas de datos comunes al crear modelos de aprendizaje automático sin código con Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Limpiar

Para evitar incurrir en el futuro cargos de sesión, cierre la sesión de SageMaker Canvas.

Identificar y evitar problemas de datos comunes al crear modelos de aprendizaje automático sin código con Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Conclusión

SageMaker Canvas es una solución de aprendizaje automático sin código que permite a los analistas de negocios crear modelos de aprendizaje automático precisos y generar predicciones a través de una interfaz visual de apuntar y hacer clic. Le mostramos cómo SageMaker Canvas lo ayuda a asegurarse de la calidad de los datos y a mitigar los problemas de datos mediante la validación proactiva del conjunto de datos. Al identificar los problemas de manera temprana, SageMaker Canvas lo ayuda a crear modelos de aprendizaje automático de calidad y reducir las iteraciones de compilación sin experiencia en ciencia de datos y programación. Para obtener más información sobre esta nueva característica, consulte la Documentación de SageMaker Canvas.

Para comenzar y obtener más información sobre SageMaker Canvas, consulte los siguientes recursos:


Sobre los autores

Identificar y evitar problemas de datos comunes al crear modelos de aprendizaje automático sin código con Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai. Hariharan Suresh es arquitecto sénior de soluciones en AWS. Le apasionan las bases de datos, el aprendizaje automático y el diseño de soluciones innovadoras. Antes de unirse a AWS, Hariharan fue arquitecto de productos, especialista en implementación de banca central y desarrollador, y trabajó con organizaciones BFSI durante más de 11 años. Fuera de la tecnología, disfruta del parapente y el ciclismo.

Identificar y evitar problemas de datos comunes al crear modelos de aprendizaje automático sin código con Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.Sainath Miriyala es gerente técnico sénior de cuentas en AWS y trabaja para clientes automotrices en los EE. UU. A Sainath le apasiona diseñar y crear aplicaciones distribuidas a gran escala utilizando AI/ML. En su tiempo libre, Sainath pasa tiempo con su familia y amigos.

Identificar y evitar problemas de datos comunes al crear modelos de aprendizaje automático sin código con Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.James Wu es un arquitecto de soluciones especialista en inteligencia artificial/aprendizaje automático sénior en AWS. ayudar a los clientes a diseñar y crear soluciones de IA/ML. El trabajo de James cubre una amplia gama de casos de uso de ML, con un interés principal en la visión artificial, el aprendizaje profundo y la ampliación de ML en toda la empresa. Antes de unirse a AWS, James fue arquitecto, desarrollador y líder tecnológico durante más de 10 años, incluidos 6 años en ingeniería y 4 años en las industrias de marketing y publicidad.

Sello de tiempo:

Mas de Aprendizaje automático de AWS