Créez un flux de travail d'apprentissage automatique de gestion des risques sur Amazon SageMaker sans code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Créez un flux de travail d'apprentissage automatique de gestion des risques sur Amazon SageMaker sans code

Depuis la crise financière mondiale, la gestion des risques a joué un rôle majeur dans la prise de décision des banques, y compris la prévision du statut des prêts pour les clients potentiels. Il s'agit souvent d'un exercice gourmand en données qui nécessite un apprentissage automatique (ML). Cependant, toutes les organisations ne disposent pas des ressources et de l'expertise en science des données pour créer un flux de travail ML de gestion des risques.

Amazon Sage Maker est une plate-forme ML entièrement gérée qui permet aux ingénieurs de données et aux analystes commerciaux de créer, former et déployer rapidement et facilement des modèles ML. Les ingénieurs de données et les analystes commerciaux peuvent collaborer en utilisant les fonctionnalités sans code/à faible code de SageMaker. Les ingénieurs de données peuvent utiliser Gestionnaire de données Amazon SageMaker pour agréger et préparer rapidement les données pour la construction de modèles sans écrire de code. Ensuite, les analystes commerciaux peuvent utiliser l'interface visuelle pointer-cliquer de Toile Amazon SageMaker pour générer eux-mêmes des prédictions ML précises.

Dans cet article, nous montrons à quel point il est simple pour les ingénieurs de données et les analystes commerciaux de collaborer pour créer un flux de travail ML impliquant la préparation des données, la création de modèles et l'inférence sans écrire de code.

Vue d'ensemble de la solution

Bien que le développement ML soit un processus complexe et itératif, vous pouvez généraliser un flux de travail ML dans les étapes de préparation des données, de développement de modèles et de déploiement de modèles.

Créez un flux de travail d'apprentissage automatique de gestion des risques sur Amazon SageMaker sans code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Data Wrangler et Canvas résument les complexités de la préparation des données et du développement de modèles, afin que vous puissiez vous concentrer sur la création de valeur pour votre entreprise en tirant des informations de vos données sans être un expert en développement de code. Le diagramme d'architecture suivant met en évidence les composants d'une solution no-code/low-code.

Créez un flux de travail d'apprentissage automatique de gestion des risques sur Amazon SageMaker sans code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Service de stockage simple Amazon (Amazon S3) agit comme notre référentiel de données pour les données brutes, les données d'ingénierie et les artefacts de modèle. Vous pouvez également choisir d'importer des données depuis Redshift d'Amazon, Amazone Athéna, Databricks et Snowflake.

En tant que data scientists, nous utilisons ensuite Data Wrangler pour l'analyse exploratoire des données et l'ingénierie des fonctionnalités. Bien que Canvas puisse exécuter des tâches d'ingénierie de caractéristiques, l'ingénierie de caractéristiques nécessite généralement des connaissances statistiques et de domaine pour enrichir un jeu de données sous la bonne forme pour le développement de modèles. Par conséquent, nous confions cette responsabilité aux ingénieurs de données afin qu'ils puissent transformer les données sans écrire de code avec Data Wrangler.

Après la préparation des données, nous transférons les responsabilités de création de modèles aux analystes de données, qui peuvent utiliser Canvas pour former un modèle sans avoir à écrire de code.

Enfin, nous effectuons des prédictions uniques et par lots directement dans Canvas à partir du modèle résultant sans avoir à déployer nous-mêmes les points de terminaison du modèle.

Aperçu de l'ensemble de données

Nous utilisons les fonctionnalités de SageMaker pour prédire l'état d'un prêt à l'aide d'une version modifiée de Lending Club's ensemble de données d'analyse des prêts accessible au public. L'ensemble de données contient des données sur les prêts accordés entre 2007 et 2011. Les colonnes décrivant le prêt et l'emprunteur sont nos caractéristiques. La colonne loan_status est la variable cible, c'est-à-dire ce que nous essayons de prédire.

Pour démontrer dans Data Wrangler, nous divisons l'ensemble de données en deux fichiers CSV : partie un ainsi que deuxième partie. Nous avons supprimé certaines colonnes de l'ensemble de données original de Lending Club pour simplifier la démonstration. Notre jeu de données contient plus de 37,000 21 lignes et XNUMX colonnes de caractéristiques, comme décrit dans le tableau suivant.

Nom de colonne Description
loan_status Statut actuel du prêt (variable cible).
loan_amount Le montant indiqué du prêt demandé par l'emprunteur. Si le service de crédit réduit le montant du prêt, cela se reflète dans cette valeur.
funded_amount_by_investors Le montant total engagé par les investisseurs pour ce prêt à ce moment-là.
term Le nombre de versements sur le prêt. Les valeurs sont en mois et peuvent être 36 ou 60.
interest_rate Taux d'intérêt sur le prêt.
installment La mensualité due par l'emprunteur en cas d'origine du prêt.
grade LC a attribué une note de prêt.
sub_grade LC a attribué une sous-catégorie de prêt.
employment_length Durée de l'emploi en années. Les valeurs possibles sont comprises entre 0 et 10, où 0 signifie moins d'un an et 10 signifie dix ans ou plus.
home_ownership Le statut d'accession à la propriété fourni par l'emprunteur lors de son inscription. Nos valeurs sont LOYER, PROPRE, HYPOTHÉCAIRE et AUTRE.
annual_income Le revenu annuel autodéclaré fourni par l'emprunteur lors de l'inscription.
verification_status Indique si le revenu a été vérifié ou non par le LC.
issued_amount Le mois au cours duquel le prêt a été financé.
purpose Une catégorie fournie par l'emprunteur pour la demande de prêt.
dti Un ratio calculé en utilisant le total des paiements mensuels de la dette de l'emprunteur sur le total des dettes, à l'exclusion de l'hypothèque et du prêt LC demandé, divisé par le revenu mensuel autodéclaré de l'emprunteur.
earliest_credit_line Le mois où la première ligne de crédit déclarée par l'emprunteur a été ouverte.
inquiries_last_6_months Le nombre de demandes de renseignements au cours des 6 derniers mois (à l'exclusion des demandes de renseignements sur l'automobile et l'hypothèque).
open_credit_lines Le nombre de lignes de crédit ouvertes dans le dossier de crédit de l'emprunteur.
derogatory_public_records Le nombre de documents publics dérogatoires.
revolving_line_utilization_rate Taux d'utilisation de la ligne renouvelable, ou le montant du crédit utilisé par l'emprunteur par rapport à tous les crédits renouvelables disponibles.
total_credit_lines Le nombre total de lignes de crédit actuellement dans le dossier de crédit de l'emprunteur.

Nous utilisons cet ensemble de données pour notre préparation des données et la formation des modèles.

Pré-requis

Effectuez les étapes préalables suivantes :

  1. Télécharger les deux fichiers de prêt à un compartiment S3 de votre choix.
  2. Assurez-vous de disposer des autorisations nécessaires. Pour plus d'informations, reportez-vous à Premiers pas avec Data Wrangler.
  3. Configurez un domaine SageMaker configuré pour utiliser Data Wrangler. Pour obtenir des instructions, reportez-vous à Intégration au domaine Amazon SageMaker.

Importez les données

Créer un nouveau flux de données Data Wrangler du Interface utilisateur d'Amazon SageMaker Studio.

Créez un flux de travail d'apprentissage automatique de gestion des risques sur Amazon SageMaker sans code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Importez des données depuis Amazon S3 en sélectionnant les fichiers CSV dans le compartiment S3 où vous avez placé votre ensemble de données. Après avoir importé les deux fichiers, vous pouvez voir deux flux de travail distincts dans le Flux de données vue.

Vous pouvez choisir plusieurs options d'échantillonnage lors de l'importation de vos données dans un flux Data Wrangler. L'échantillonnage peut être utile lorsque vous disposez d'un jeu de données trop volumineux pour être préparé de manière interactive ou lorsque vous souhaitez conserver la proportion d'événements rares dans votre jeu de données échantillonné. Parce que notre ensemble de données est petit, nous n'utilisons pas d'échantillonnage.

Préparer les données

Pour notre cas d'utilisation, nous avons deux ensembles de données avec une colonne commune : id. Comme première étape dans la préparation des données, nous voulons combiner ces fichiers en les joignant. Pour obtenir des instructions, reportez-vous à Transformer les données.

Créez un flux de travail d'apprentissage automatique de gestion des risques sur Amazon SageMaker sans code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Nous utilisons les S'inscrire l'étape de transformation des données et utilisez l'outil Inner type de jointure sur le id colonne.

Créez un flux de travail d'apprentissage automatique de gestion des risques sur Amazon SageMaker sans code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

À la suite de notre transformation de jointure, Data Wrangler crée deux colonnes supplémentaires : id_0 ainsi que id_1. Cependant, ces colonnes ne sont pas nécessaires pour nos besoins de construction de modèles. Nous supprimons ces colonnes redondantes en utilisant le Gérer les colonnes étape de transformation.

Créez un flux de travail d'apprentissage automatique de gestion des risques sur Amazon SageMaker sans code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.
Créez un flux de travail d'apprentissage automatique de gestion des risques sur Amazon SageMaker sans code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Nous avons importé nos ensembles de données, les avons joints et supprimé les colonnes inutiles. Nous sommes maintenant prêts à enrichir nos données grâce à l'ingénierie des fonctionnalités et à préparer la construction de modèles.

Réaliser l'ingénierie des fonctionnalités

Nous avons utilisé Data Wrangler pour préparer les données. Vous pouvez également utiliser le Fonctionnalité de rapport sur la qualité des données et les informations dans Data Wrangler pour vérifier la qualité de vos données et détecter les anomalies dans vos données. Les scientifiques des données ont souvent besoin d'utiliser ces informations pour appliquer efficacement les bonnes connaissances du domaine aux fonctionnalités d'ingénierie. Pour cet article, nous supposons que nous avons terminé ces évaluations de qualité et que nous pouvons passer à l'ingénierie des fonctionnalités.

Dans cette étape, nous appliquons quelques transformations aux colonnes numériques, catégorielles et textuelles.

Nous normalisons d'abord le taux d'intérêt pour mettre à l'échelle les valeurs entre 0 et 1. Nous le faisons en utilisant le Processus numérique transformer pour mettre à l'échelle interest_rate colonne à l'aide d'un détartreur min-max. Le but de la normalisation (ou standardisation) est d'éliminer les biais de notre modèle. Les variables mesurées à différentes échelles ne contribueront pas de la même manière au processus d'apprentissage du modèle. Par conséquent, une fonction de transformation telle qu'une transformation de mise à l'échelle min-max aide à normaliser les fonctionnalités.

Créez un flux de travail d'apprentissage automatique de gestion des risques sur Amazon SageMaker sans code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Pour convertir une variable catégorielle en une valeur numérique, nous utilisons un codage à chaud. Nous choisissons le Encoder catégorique transformer, puis choisir Encodage à chaud. L'encodage à chaud améliore la capacité prédictive d'un modèle ML. Ce processus convertit une valeur catégorielle en une nouvelle fonctionnalité en attribuant une valeur binaire de 1 ou 0 à la fonctionnalité. Comme exemple simple, si vous aviez une colonne contenant soit une valeur de yes or no, l'encodage à chaud convertirait cette colonne en deux colonnes : a Yes colonne et une No colonne. Une valeur oui aurait 1 dans le Yes colonne et un 0 dans la No colonne. L'encodage à chaud rend nos données plus utiles car les valeurs numériques peuvent plus facilement déterminer une probabilité pour nos prédictions.

Enfin, nous caractérisons le employer_title colonne pour transformer ses valeurs de chaîne en un vecteur numérique. Nous appliquons le Compter le vectoriseur et un tokenizer standard dans le Vectoriser transformer. La tokenisation décompose une phrase ou une série de texte en mots, tandis qu'un vectoriseur convertit les données textuelles en une forme lisible par machine. Ces mots sont représentés par des vecteurs.

Créez un flux de travail d'apprentissage automatique de gestion des risques sur Amazon SageMaker sans code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Une fois toutes les étapes d'ingénierie des fonctionnalités terminées, nous pouvons exporter les données et générer les résultats dans notre compartiment S3. Vous pouvez également exporter votre flux sous forme de code Python ou un bloc-notes Jupyter pour créer un pipeline avec votre vue à l'aide de Pipelines Amazon SageMaker. Tenez-en compte lorsque vous souhaitez exécuter vos étapes d'ingénierie de fonctionnalités à grande échelle ou dans le cadre d'un pipeline ML.

Créez un flux de travail d'apprentissage automatique de gestion des risques sur Amazon SageMaker sans code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Nous pouvons maintenant utiliser le fichier de sortie Data Wrangler comme entrée pour Canvas. Nous le référençons en tant qu'ensemble de données dans Canvas pour créer notre modèle ML.

Créez un flux de travail d'apprentissage automatique de gestion des risques sur Amazon SageMaker sans code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Dans notre cas, nous avons exporté notre ensemble de données préparé vers le bucket Studio par défaut avec un output préfixe. Nous référençons cet emplacement de jeu de données lors du chargement des données dans Canvas pour la construction du modèle ensuite.

Créez et entraînez votre modèle ML avec Canvas

Sur la console SageMaker, lancez l'application Canvas. Pour créer un modèle de ML à partir des données préparées dans la section précédente, nous effectuons les étapes suivantes :

  1. Importez l'ensemble de données préparé dans Canvas à partir du compartiment S3.

Créez un flux de travail d'apprentissage automatique de gestion des risques sur Amazon SageMaker sans code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Nous référençons le même chemin S3 où nous avons exporté les résultats Data Wrangler de la section précédente.

  1. Créez un nouveau modèle dans Canvas et nommez-le loan_prediction_model.
  2. Sélectionnez le jeu de données importé et ajoutez-le à l'objet modèle.

Créez un flux de travail d'apprentissage automatique de gestion des risques sur Amazon SageMaker sans code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Pour que Canvas construise un modèle, nous devons sélectionner la colonne cible.

  1. Étant donné que notre objectif est de prédire la probabilité de la capacité d'un prêteur à rembourser un prêt, nous choisissons la loan_status colonne.

Canvas identifie automatiquement le type d'énoncé de problème de ML. Au moment de la rédaction, Canvas prend en charge les problèmes de régression, de classification et de prévision de séries chronologiques. Vous pouvez spécifier le type de problème ou demander à Canvas de déduire automatiquement le problème à partir de vos données.

Créez un flux de travail d'apprentissage automatique de gestion des risques sur Amazon SageMaker sans code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

  1. Choisissez votre option pour démarrer le processus de création de modèle : Construction rapide or Construction standard.

La Construction rapide L'option utilise votre jeu de données pour former un modèle en 2 à 15 minutes. Ceci est utile lorsque vous expérimentez un nouvel ensemble de données pour déterminer si l'ensemble de données dont vous disposez sera suffisant pour faire des prédictions. Nous utilisons cette option pour ce post.

La Construction standard L'option choisit la précision plutôt que la vitesse et utilise environ 250 modèles candidats pour former le modèle. Le processus prend généralement 1 à 2 heures.

Une fois le modèle créé, vous pouvez consulter les résultats du modèle. Canvas estime que votre modèle est capable de prédire le bon résultat 82.9 % du temps. Vos propres résultats peuvent varier en raison de la variabilité des modèles de formation.

Créez un flux de travail d'apprentissage automatique de gestion des risques sur Amazon SageMaker sans code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

De plus, vous pouvez approfondir l'analyse détaillée du modèle pour en savoir plus sur le modèle.

L'importance des fonctionnalités représente l'importance estimée de chaque fonctionnalité dans la prédiction de la colonne cible. Dans ce cas, la colonne de ligne de crédit a l'impact le plus significatif pour prédire si un client remboursera le montant du prêt, suivie du taux d'intérêt et du revenu annuel.

Créez un flux de travail d'apprentissage automatique de gestion des risques sur Amazon SageMaker sans code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

La matrice de confusion dans le Métriques avancées contient des informations destinées aux utilisateurs qui souhaitent approfondir leur compréhension des performances de leur modèle.

Créez un flux de travail d'apprentissage automatique de gestion des risques sur Amazon SageMaker sans code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Avant de pouvoir déployer votre modèle pour les charges de travail de production, utilisez Canvas pour tester le modèle. Canvas gère le point de terminaison de notre modèle et nous permet de faire des prédictions directement dans l'interface utilisateur de Canvas.

  1. Selectionnez Prédire et examiner les conclusions soit sur Prédiction par lots or Prédiction unique languette.

Dans l'exemple suivant, nous faisons une seule prédiction en modifiant les valeurs pour prédire notre variable cible loan_status en temps réel

Créez un flux de travail d'apprentissage automatique de gestion des risques sur Amazon SageMaker sans code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Nous pouvons également sélectionner un ensemble de données plus volumineux et demander à Canvas de générer des prédictions par lots en notre nom.

Créez un flux de travail d'apprentissage automatique de gestion des risques sur Amazon SageMaker sans code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Conclusion

L'apprentissage automatique de bout en bout est complexe et itératif, et implique souvent plusieurs personnes, technologies et processus. Data Wrangler et Canvas permettent la collaboration entre les équipes sans que ces équipes aient à écrire de code.

Un ingénieur de données peut facilement préparer des données à l'aide de Data Wrangler sans écrire de code et transmettre l'ensemble de données préparé à un analyste métier. Un analyste métier peut ensuite facilement créer des modèles ML précis en quelques clics à l'aide de Canvas et obtenir des prédictions précises en temps réel ou par lots.

Démarrer avec DataWrangler utiliser ces outils sans avoir à gérer d'infrastructure. Tu peux configurer le canevas commencez rapidement et immédiatement à créer des modèles ML pour répondre aux besoins de votre entreprise.


À propos des auteurs

Créez un flux de travail d'apprentissage automatique de gestion des risques sur Amazon SageMaker sans code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Pierre Chung est un architecte de solutions pour AWS et se passionne pour aider les clients à découvrir des informations à partir de leurs données. Il a créé des solutions pour aider les organisations à prendre des décisions basées sur les données dans les secteurs public et privé. Il détient toutes les certifications AWS ainsi que deux certifications GCP.

Créez un flux de travail d'apprentissage automatique de gestion des risques sur Amazon SageMaker sans code PlatoBlockchain Data Intelligence. Recherche verticale. Aï. Meenakshisundaram Thandavarayan est un spécialiste principal de l'IA/ML chez AWS. Il aide les comptes stratégiques de la haute technologie dans leur parcours vers l'IA et le ML. Il est très passionné par l'IA axée sur les données.

Créez un flux de travail d'apprentissage automatique de gestion des risques sur Amazon SageMaker sans code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Dan Fergusson est un architecte de solutions chez AWS, basé à New York, aux États-Unis. En tant qu'expert en services d'apprentissage automatique, Dan s'efforce d'aider les clients dans leur cheminement vers l'intégration efficace, efficace et durable des flux de travail ML.

Horodatage:

Plus de Apprentissage automatique AWS