Identifier et éviter les problèmes de données courants lors de la création de modèles ML sans code avec Amazon SageMaker Canvas

Republié par Platon

Suiveurs: 0

Les analystes commerciaux travaillent avec des données et aiment analyser, explorer et comprendre les données pour obtenir des résultats commerciaux efficaces. Pour résoudre les problèmes commerciaux, ils s'appuient souvent sur des praticiens de l'apprentissage automatique (ML) tels que les scientifiques des données pour les aider avec des techniques telles que l'utilisation du ML pour créer des modèles à l'aide de données existantes et générer des prédictions. Cependant, ce n'est pas toujours possible, car les scientifiques des données sont généralement accaparés par leurs tâches et n'ont pas la bande passante pour aider les analystes.

Pour être indépendant et atteindre vos objectifs en tant qu'analyste commercial, il serait idéal de travailler avec des outils faciles à utiliser, intuitifs et visuels qui utilisent ML sans avoir besoin de connaître les détails et d'utiliser le code. L'utilisation de ces outils vous aidera à résoudre les problèmes de votre entreprise et à atteindre les résultats souhaités.

Dans le but de vous aider, vous et votre organisation, à devenir plus efficaces et à utiliser le ML sans écrire de code, nous introduit Amazon SageMaker Canvas. Il s'agit d'une solution de ML sans code qui vous aide à créer des modèles de ML précis sans avoir besoin de connaître les détails techniques, tels que les algorithmes de ML et les métriques d'évaluation. SageMaker Canvas offre une interface visuelle et intuitive qui vous permet d'importer des données, de former des modèles ML, d'effectuer une analyse de modèle et de générer des prédictions ML, le tout sans écrire une seule ligne de code.

Lorsque vous utilisez SageMaker Canvas pour expérimenter, vous pouvez rencontrer des problèmes de qualité des données tels que des valeurs manquantes ou le mauvais type de problème. Ces problèmes peuvent ne pas être découverts jusqu'à assez tard dans le processus après la formation d'un modèle ML. Pour atténuer ce défi, SageMaker Canvas prend désormais en charge la validation des données. Cette fonctionnalité vérifie de manière proactive les problèmes dans vos données et fournit des conseils sur les résolutions.

Dans cet article, nous vous montrerons comment vous pouvez utiliser la fonctionnalité de validation des données dans SageMaker Canvas avant la création du modèle. Comme son nom l'indique, cette fonctionnalité valide votre ensemble de données, signale les problèmes et fournit des pointeurs utiles pour les résoudre. En utilisant des données de meilleure qualité, vous obtiendrez un modèle ML plus performant.

Valider les données dans SageMaker Canvas

La validation des données est une nouvelle fonctionnalité de SageMaker Canvas pour vérifier de manière proactive les problèmes potentiels de qualité des données. Après avoir importé les données et sélectionné une colonne cible, vous avez le choix de valider vos données comme indiqué ici :

Si vous choisissez de valider vos données, Canvas analyse vos données pour de nombreuses conditions, notamment :

Trop de libellés uniques dans votre colonne cible – pour le type de modèle de prédiction de catégorie
Trop d'étiquettes uniques dans votre colonne cible pour le nombre de lignes dans vos données – pour le type de modèle de prédiction de catégorie
Mauvais type de modèle pour vos données – le type de modèle ne correspond pas aux données que vous prédisez dans la colonne Cible
Trop de lignes invalides – valeurs manquantes dans votre colonne cible
Toutes les colonnes de fonctionnalités sont des colonnes de texte - ils seront supprimés pour les versions standard
Trop peu de colonnes – trop peu de colonnes dans vos données
Aucune ligne complète – toutes les lignes de vos données contiennent des valeurs manquantes
Un ou plusieurs noms de colonne contiennent des traits de soulignement doubles – SageMaker ne peut pas gérer (__) dans l'en-tête de colonne

Les détails de chaque critère de validation seront fournis dans les sections ultérieures de cet article.

Si toutes les vérifications sont réussies, vous obtiendrez la confirmation suivante : "Aucun problème n'a été trouvé dans votre ensemble de données".

Si un problème est détecté, vous recevrez une notification pour voir et comprendre. Cela met en évidence les problèmes de qualité des données dès le début et vous permet de les résoudre immédiatement avant de perdre du temps et des ressources dans le processus.

Vous pouvez effectuer vos ajustements et continuer à valider votre ensemble de données jusqu'à ce que tous les problèmes soient résolus.

Valider les types de colonnes et de modèles cibles

Lorsque vous créez un modèle ML dans SageMaker Canvas, plusieurs problèmes de qualité des données liés à la colonne cible peut entraîner l'échec de la construction de votre modèle. SageMaker Canvas recherche différents types de problèmes susceptibles d'affecter votre colonne cible.

Pour votre colonne cible, cochez la case Mauvais type de modèle pour vos données. Par exemple, si un modèle de prédiction à 2 catégories est sélectionné mais que votre colonne cible comporte plus de 2 étiquettes uniques, SageMaker Canvas fournira l'avertissement de validation suivant.
Si le type de modèle est une prédiction de catégorie 2 ou 3+, vous devez valider trop d'étiquettes uniques pour votre colonne cible. Le nombre maximum de classes uniques est de 2000 2000. Si vous sélectionnez une colonne avec plus de XNUMX XNUMX valeurs uniques dans votre colonne Cible, Canvas affichera l'avertissement de validation suivant.
En plus d'un trop grand nombre de libellés cibles uniques, vous devez également vous méfier des de nombreuses étiquettes cibles uniques pour le nombre de lignes dans vos données. SageMaker Canvas applique un ratio entre l'étiquette cible et le nombre total de lignes inférieur à 10 %. Cela garantit que vous disposez d'une représentation suffisante pour chaque catégorie pour un modèle de haute qualité et réduit le risque de surajustement. Votre modèle est considéré comme sur-ajusté lorsqu'il prédit bien sur les données d'entraînement, mais pas sur les nouvelles données qu'il n'a jamais vues auparavant. Se référer à ici pour en savoir plus.
Enfin, la dernière vérification de la colonne cible est trop de lignes invalides. Si votre colonne cible contient plus de 10 % des données manquantes ou non valides, cela aura un impact sur les performances de votre modèle et, dans certains cas, entraînera l'échec de la génération de votre modèle. L'exemple suivant comporte de nombreuses valeurs manquantes (> 90 % manquantes) dans la colonne cible, et vous obtenez l'avertissement de validation suivant.

Si vous recevez l'un des avertissements ci-dessus pour votre colonne cible, procédez comme suit pour atténuer les problèmes :

Utilisez-vous la bonne colonne cible ?
Avez-vous sélectionné le bon type de modèle ?
Pouvez-vous augmenter le nombre de lignes de votre ensemble de données par étiquette cible ?
Pouvez-vous consolider/regrouper des étiquettes similaires ?
Pouvez-vous remplir les valeurs manquantes/invalides ?
Avez-vous suffisamment de données pour supprimer les valeurs manquantes/non valides ?
Si toutes les options ci-dessus ne suppriment pas l'avertissement, vous devez envisager d'utiliser un autre jeu de données.

Reportez-vous à Documentation sur la transformation des données SageMaker Canvas pour effectuer les étapes d'imputation mentionnées ci-dessus.

Valider toutes les colonnes

Outre la colonne cible, vous pouvez également rencontrer des problèmes de qualité des données avec d'autres colonnes de données (colonnes de caractéristiques). Les colonnes de caractéristiques sont des données d'entrée utilisées pour effectuer une prédiction de ML.

Chaque jeu de données doit avoir au moins 1 colonne de caractéristiques et 1 colonne cible (2 colonnes au total). Sinon, SageMaker Canvas vous donnera un Trop peu de colonnes dans vos données Attention. Vous devez satisfaire à cette exigence avant de pouvoir créer un modèle.
Après cela, vous devez vous assurer que vos données ont au moins 1 colonne numérique. Si ce n'est pas le cas, vous obtiendrez le toutes les colonnes de fonctionnalités sont des colonnes de texte Attention. En effet, les colonnes de texte sont généralement supprimées lors des générations standard, laissant ainsi le modèle sans fonctionnalités à entraîner. Par conséquent, cela entraînera l'échec de la construction de votre modèle. Vous pouvez utiliser SageMaker Canvas pour coder certaines des colonnes de texte en nombres ou utiliser la construction rapide au lieu de la construction standard.
Le troisième type d'avertissement que vous pouvez recevoir pour les colonnes de caractéristiques est Aucune ligne complète. Cette validation vérifie si vous avez au moins une ligne sans valeurs manquantes. SageMaker Canvas nécessite au moins une ligne complète, sinon votre construction rapide échouera. Essayez de remplir les valeurs manquantes avant de construire le modèle.
Le dernier type de validation est Un ou plusieurs noms de colonne contiennent des traits de soulignement doubles. Il s'agit d'une exigence spécifique à SageMaker Canvas. Si vous avez des traits de soulignement doubles (__) dans vos en-têtes de colonne, cela entraînera votre construction rapide échouer. Renommez les colonnes pour supprimer les doubles traits de soulignement, puis réessayez.

Nettoyer

Pour éviter d'encourir à l'avenir frais de séance, déconnectez-vous de SageMaker Canvas.

Conclusion

SageMaker Canvas est une solution ML sans code qui permet aux analystes métier de créer des modèles ML précis et de générer des prédictions via une interface visuelle pointer-cliquer. Nous vous avons montré comment SageMaker Canvas vous aide à vous assurer de la qualité des données et à atténuer les problèmes de données en validant de manière proactive l'ensemble de données. En identifiant les problèmes tôt, SageMaker Canvas vous aide à créer des modèles ML de qualité et à réduire les itérations de construction sans expertise en science des données et en programmation. Pour en savoir plus sur cette nouvelle fonctionnalité, consultez le Documentation SageMaker Canvas.

Pour commencer et en savoir plus sur SageMaker Canvas, consultez les ressources suivantes :

À propos des auteurs

Hariharan Suresh est architecte de solutions senior chez AWS. Il est passionné par les bases de données, l'apprentissage automatique et la conception de solutions innovantes. Avant de rejoindre AWS, Hariharan était architecte de produits, spécialiste de l'implémentation bancaire de base et développeur, et a travaillé avec des organisations BFSI pendant plus de 11 ans. En dehors de la technologie, il aime le parapente et le vélo.

Sainath Miriyala est responsable de compte technique senior chez AWS travaillant pour des clients automobiles aux États-Unis. Sainath est passionné par la conception et la construction d'applications distribuées à grande échelle utilisant l'IA/ML. Dans ses temps libres, Sainath passe du temps avec sa famille et ses amis.

James Wu est un architecte de solution spécialiste senior AI/ML chez AWS. aider les clients à concevoir et à créer des solutions d'IA/ML. Le travail de James couvre un large éventail de cas d'utilisation du ML, avec un intérêt principal pour la vision par ordinateur, l'apprentissage en profondeur et la mise à l'échelle du ML dans l'entreprise. Avant de rejoindre AWS, James a été architecte, développeur et leader technologique pendant plus de 10 ans, dont 6 ans en ingénierie et 4 ans dans les secteurs du marketing et de la publicité.

Horodatage: 10 novembre 202211 novembre 2022

Horodatage: 5 mai 2022

Identifier et éviter les problèmes de données courants lors de la création de modèles ML sans code avec Amazon SageMaker Canvas

Republié par Platon

Valider les données dans SageMaker Canvas

Valider les types de colonnes et de modèles cibles

Valider toutes les colonnes

Nettoyer

Conclusion

À propos des auteurs

Plus de Apprentissage automatique AWS

Annonce de nouveaux outils et capacités pour permettre une innovation responsable en IA | Services Web Amazon

Activer le CI/CD des points de terminaison Amazon SageMaker multi-régions

Traitement intelligent des documents avec AWS AI et les services d'analyse dans le secteur de l'assurance : partie 2

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte