Detecte patrones en datos de texto con Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Detecte patrones en datos de texto con Amazon SageMaker Data Wrangler

En este post presentamos un nuevo análisis en el Informe de información y calidad de datos of Wrangler de datos de Amazon SageMaker. Este análisis lo ayuda a validar las características textuales para verificar su corrección y descubrir filas no válidas para reparación u omisión.

Data Wrangler reduce el tiempo que lleva agregar y preparar datos para el aprendizaje automático (ML) de semanas a minutos. Puede simplificar el proceso de preparación de datos y la ingeniería de características, y completar cada paso del flujo de trabajo de preparación de datos, incluida la selección, limpieza, exploración y visualización de datos, desde una única interfaz visual.

Resumen de la solución

El preprocesamiento de datos a menudo implica la limpieza de datos textuales, como direcciones de correo electrónico, números de teléfono y nombres de productos. Estos datos pueden tener restricciones de integridad subyacentes que pueden describirse mediante expresiones regulares. Por ejemplo, para que se considere válido, es posible que un número de teléfono local deba seguir un patrón como [1-9][0-9]{2}-[0-9]{4}, que coincidiría con un dígito distinto de cero, seguido de dos dígitos más, seguido de un guión, seguido de cuatro dígitos más.

Los escenarios comunes que resultan en datos no válidos pueden incluir entradas humanas inconsistentes, por ejemplo, números de teléfono en varios formatos (5551234 vs. 555 1234 vs. 555-1234) o datos inesperados, como 0, 911 o 411. Para un centro de llamadas de clientes, es importante omitir números como 0, 911 o 411 y validar (y posiblemente corregir) entradas como 5551234 o 555 1234.

Desafortunadamente, aunque existen restricciones textuales, es posible que no se proporcionen con los datos. Por lo tanto, un científico de datos que prepara un conjunto de datos debe descubrir manualmente las restricciones observando los datos. Esto puede ser tedioso, propenso a errores y lento.

El aprendizaje de patrones analiza automáticamente sus datos y revela restricciones textuales que pueden aplicarse a su conjunto de datos. Para el ejemplo con números de teléfono, el aprendizaje de patrones puede analizar los datos e identificar que la gran mayoría de los números de teléfono siguen la restricción textual. [1-9][0-9]{2}-[0-9][4]. También puede alertarte de que hay ejemplos de datos no válidos para que puedas excluirlos o corregirlos.

En las siguientes secciones, demostramos cómo usar el aprendizaje de patrones en Data Wrangler utilizando un conjunto de datos ficticio de categorías de productos y códigos SKU (unidad de mantenimiento de existencias).

Este conjunto de datos contiene funciones que describen productos por empresa, marca y consumo de energía. En particular, incluye un SKU de función que tiene un formato incorrecto. Todos los datos de este conjunto de datos son ficticios y se crearon aleatoriamente utilizando marcas y nombres de electrodomésticos aleatorios.

Requisitos previos

Antes de comenzar a usar Data Wrangler, descargar el conjunto de datos de muestra y subirlo a una ubicación en Servicio de almacenamiento simple de Amazon (Amazon S3). Para obtener instrucciones, consulte Cargando objetos.

Importa tu conjunto de datos

Para importar su conjunto de datos, complete los siguientes pasos:

  1. En Data Wrangler, elija Importar y explorar datos para ML.
  2. Elige Importa.
    Detecte patrones en datos de texto con Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  3. Importar fechas, escoger Amazon S3.
    Detecte patrones en datos de texto con Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  4. Localice el archivo en Amazon S3 y elija Importa.
    Detecte patrones en datos de texto con Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Después de importar, podemos navegar al flujo de datos.

Detecte patrones en datos de texto con Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Obtener información de datos

En este paso, creamos un informe de información de datos que incluye información sobre la calidad de los datos. Para obtener más información, consulte Obtenga información sobre los datos y la calidad de los datos. Complete los siguientes pasos:

  1. En Flujo de datos pestaña, elija el signo más junto a Tipos de datos.
  2. Elige Obtener información de datos.
    Detecte patrones en datos de texto con Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  3. Tipo de análisis, escoger Informe de información y calidad de datos.
  4. Para esta publicación, deje columna de destino y Tipo de problema en blanco. Si planea usar su conjunto de datos para una tarea de regresión o clasificación con una función objetivo, puede seleccionar esas opciones y el informe incluirá un análisis sobre cómo sus funciones de entrada se relacionan con su objetivo. Por ejemplo, puede producir informes sobre fugas de objetivos. Para obtener más información, consulte columna de destino.
  5. Elige Crear.
    Detecte patrones en datos de texto con Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Ahora tenemos un Informe de calidad de datos y Perspectivas de datos. Si nos desplazamos hacia abajo hasta el SKU sección, podemos ver un ejemplo de patrón de aprendizaje que describe el SKU. Esta característica parece tener algunos datos no válidos y se requiere una corrección procesable.

Detecte patrones en datos de texto con Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Antes de limpiar la función SKU, desplacémonos hacia arriba hasta la Marca sección para ver más ideas. Aquí vemos que se han descubierto dos patrones, lo que indica que la mayoría de las marcas son palabras individuales que consisten en caracteres de palabras o caracteres alfabéticos. A carácter de palabra es un guión bajo o un carácter que puede aparecer en una palabra en cualquier idioma. Por ejemplo, las cadenas Hello_world y écoute ambos consisten en caracteres de palabras: H y é.

Para esta publicación, no limpiamos esta función.

Detecte patrones en datos de texto con Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Ver información de aprendizaje de patrones

Volvamos a la limpieza de SKU y amplíemos el patrón y el mensaje de advertencia.

Como se muestra en la siguiente captura de pantalla, el aprendizaje de patrones muestra un patrón de alta precisión que coincide con el 97.78 % de los datos. También muestra algunos ejemplos que coinciden con el patrón, así como ejemplos que no coinciden con el patrón. En las no coincidencias, vemos algunos SKU no válidos.

Detecte patrones en datos de texto con Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Además de los patrones mostrados, puede aparecer una advertencia que indica una posible acción para limpiar los datos si hay un patrón de alta precisión, así como algunos datos que no se ajustan al patrón.

Detecte patrones en datos de texto con Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Podemos omitir los datos no válidos. Si elegimos (clic derecho) sobre la expresión regular, podemos copiar la expresión [A-Z]{3}-[0-9]{4,5}.

Eliminar datos no válidos

Vamos a crear una transformación para omitir datos no conformes que no coincidan con este patrón.

  1. En Flujo de datos pestaña, elija el signo más junto a Tipos de datos.
  2. Elige Agregar transformación.
    Detecte patrones en datos de texto con Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  3. Elige Agregar paso.
  4. Busque regex y elige Buscar y editar.
    Detecte patrones en datos de texto con Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  5. Transformar, escoger Convertir no coincidencias en faltantes.
  6. Columnas de entrada, escoger SKU.
  7. Patrón de Costura, ingrese nuestra expresión regular.
  8. Elige Vista previa, A continuación, elija Añada.
    Detecte patrones en datos de texto con Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
    Ahora los datos superfluos se han eliminado de las funciones.
  9. Para eliminar las filas, agregue el paso Falta el mango y elige la transformación Caída perdida.
  10. Elige SKU como columna de entrada.
    Detecte patrones en datos de texto con Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Volvemos a nuestro flujo de datos con los datos erróneos eliminados.

Detecte patrones en datos de texto con Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Conclusión

En esta publicación, le mostramos cómo usar la función de aprendizaje de patrones en las perspectivas de datos para encontrar datos textuales no válidos en su conjunto de datos, así como también cómo corregir u omitir esos datos.

Ahora que ha limpiado una columna de texto, puede visualizar su conjunto de datos usando un análisis o puedes aplicar transformaciones incorporadas para seguir procesando sus datos. Cuando esté satisfecho con sus datos, puede entrenar a un modelo Piloto automático Amazon SageMakero exporta tus datos a una fuente de datos como Amazon S3.

Nos gustaría agradecer a Nikita Ivkin por su revisión reflexiva.


Sobre los autores

Detecte patrones en datos de texto con Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.vishaal kapoor es un científico aplicado sénior con AWS AI. Le apasiona ayudar a los clientes a comprender sus datos en Data Wrangler. En su tiempo libre, practica mountain bike, snowboard y pasa tiempo con su familia.

Detecte patrones en datos de texto con Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.Zohar Karnin es científico principal en Amazon AI. Sus intereses de investigación se encuentran en las áreas de algoritmos de aprendizaje automático en línea y a gran escala. Desarrolla algoritmos de aprendizaje automático infinitamente escalables para Amazon SageMaker.

Detecte patrones en datos de texto con Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.Ajai Sharma es gerente principal de productos de Amazon SageMaker, donde se enfoca en Data Wrangler, una herramienta de preparación de datos visuales para científicos de datos. Antes de AWS, Ajai fue experto en ciencia de datos en McKinsey and Company, donde lideró compromisos centrados en ML para firmas financieras y de seguros líderes en todo el mundo. A Ajai le apasiona la ciencia de datos y le encanta explorar los últimos algoritmos y técnicas de aprendizaje automático.

Detecte patrones en datos de texto con Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai. Derek Barón es gerente de desarrollo de software para Amazon SageMaker Data Wrangler

Sello de tiempo:

Mas de Aprendizaje automático de AWS