Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Réajuster les paramètres formés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler

Gestionnaire de données Amazon SageMaker vous aide à comprendre, agréger, transformer et préparer les données pour l'apprentissage automatique (ML) à partir d'une interface visuelle unique. Il contient plus de 300 transformations de données intégrées afin que vous puissiez rapidement normaliser, transformer et combiner des fonctionnalités sans avoir à écrire de code.

Les praticiens de la science des données génèrent, observent et traitent des données pour résoudre des problèmes commerciaux lorsqu'ils doivent transformer et extraire des fonctionnalités à partir d'ensembles de données. Les transformations telles que l'encodage ordinal ou l'encodage one-hot apprennent les encodages sur votre jeu de données. Ces sorties codées sont appelées paramètres entraînés. Comme les ensembles de données changent au fil du temps, il peut être nécessaire de réajuster les encodages sur des données inédites pour que le flux de transformation reste pertinent pour vos données.

Nous sommes ravis d'annoncer la fonction de paramétrage de réajustement formé, qui vous permet d'utiliser les paramètres formés précédemment et de les réajuster comme vous le souhaitez. Dans cet article, nous montrons comment utiliser cette fonctionnalité.

Présentation de la fonction de réaménagement du Data Wrangler

Nous illustrons le fonctionnement de cette fonctionnalité avec l'exemple suivant, avant de nous plonger dans les spécificités de la fonctionnalité de paramètre formé par refit.

Supposons que votre ensemble de données client comporte une caractéristique catégorielle pour country représenté sous forme de chaînes comme Australia ainsi que Singapore. Les algorithmes ML nécessitent des entrées numériques ; par conséquent, ces valeurs catégorielles doivent être codées en valeurs numériques. L'encodage des données catégorielles est le processus de création d'une représentation numérique pour les catégories. Par exemple, si votre pays de catégorie a des valeurs Australia ainsi que Singapore, vous pouvez coder cette information en deux vecteurs : [1, 0] pour représenter Australia et [0, 1] pour représenter Singapore. La transformation utilisée ici est un codage à chaud et la nouvelle sortie codée reflète les paramètres formés.

Après la formation du modèle, au fil du temps, vos clients peuvent augmenter et vous avez des valeurs plus distinctes dans la liste des pays. Le nouvel ensemble de données pourrait contenir une autre catégorie, India, qui ne faisait pas partie de l'ensemble de données d'origine, ce qui peut affecter la précision du modèle. Par conséquent, il est nécessaire de recycler votre modèle avec les nouvelles données qui ont été collectées au fil du temps.

Pour surmonter ce problème, vous devez actualiser l'encodage pour inclure la nouvelle catégorie et mettre à jour la représentation vectorielle en fonction de votre dernier ensemble de données. Dans notre exemple, l'encodage doit refléter la nouvelle catégorie pour le country, lequel est India. Nous appelons communément ce processus de rafraîchissement d'un encodage une opération de refit. Après avoir effectué l'opération de refit, vous obtenez le nouvel encodage : Australia: [1, 0, 0], Singapore: [0, 1, 0], et India: [0, 0, 1]. Le réajustement de l'encodage one-hot, puis le réentraînement du modèle sur le nouvel ensemble de données permettent d'obtenir des prédictions de meilleure qualité.

La fonction de paramètre formé de refit de Data Wrangler est utile dans les cas suivants :

  • De nouvelles données sont ajoutées au jeu de données – Le recyclage du modèle ML est nécessaire lorsque l'ensemble de données est enrichi avec de nouvelles données. Pour obtenir des résultats optimaux, nous devons réajuster les paramètres formés sur le nouvel ensemble de données.
  • Entraînement sur un jeu de données complet après avoir effectué l'ingénierie des fonctionnalités sur des exemples de données – Pour un ensemble de données volumineux, un échantillon de l'ensemble de données est pris en compte pour l'apprentissage des paramètres formés, qui peuvent ne pas représenter l'intégralité de votre ensemble de données. Nous devons réapprendre les paramètres formés sur l'ensemble de données complet.

Voici quelques-unes des transformations Data Wrangler les plus courantes effectuées sur l'ensemble de données qui bénéficient de l'option de paramètre formé par refit :

Pour plus d'informations sur les transformations dans Data Wrangler, reportez-vous à Transformer les données.

Dans cet article, nous montrons comment traiter ces paramètres formés sur des ensembles de données à l'aide de Data Wrangler. Vous pouvez utiliser les flux Data Wrangler dans les tâches de production pour retraiter vos données à mesure qu'elles grandissent et changent.

Vue d'ensemble de la solution

Pour cet article, nous montrons comment utiliser la fonction de paramètre formé de refit de Data Wrangler avec l'ensemble de données accessible au public sur Kaggle: Données sur le logement aux États-Unis de Zillow, propriétés à vendre aux États-Unis. Il a les prix de vente des maisons à travers différentes géo-distributions de maisons.

Le diagramme suivant illustre l'architecture de haut niveau de Data Wrangler à l'aide de la fonction de paramètre formé par refit. Nous montrons également l'effet sur la qualité des données sans le paramètre de refit formé et comparons les résultats à la fin.

Le workflow comprend les étapes suivantes:

  1. Effectuer une analyse exploratoire des données – Créer un nouveau flux sur Data Wrangler pour démarrer l'analyse exploratoire des données (EDA). Importez des données d'entreprise pour comprendre, nettoyer, agréger, transformer et préparer vos données pour la formation. Faire référence à Explorez les fonctionnalités d'Amazon SageMaker Data Wrangler avec des exemples d'ensembles de données pour plus de détails sur l'exécution d'EDA avec Data Wrangler.
  2. Créer une tâche de traitement de données – Cette étape exporte toutes les transformations que vous avez effectuées sur le jeu de données sous la forme d'un fichier de flux stocké dans le fichier configuré. Service de stockage simple Amazon (Amazon S3). La tâche de traitement de données avec le fichier de flux généré par Data Wrangler applique les transformations et les paramètres formés appris sur votre jeu de données. Lorsque la tâche de traitement des données est terminée, les fichiers de sortie sont téléchargés vers l'emplacement Amazon S3 configuré dans le nœud de destination. Notez que l'option de remise en état est désactivée par défaut. Au lieu d'exécuter la tâche de traitement instantanément, vous pouvez également planifier une tâche de traitement en quelques clics à l'aide de Data Wrangler - Créer un travail à exécuter à des moments précis.
  3. Créer une tâche de traitement de données avec la fonction de refit de paramètres formés – Sélectionnez la nouvelle fonctionnalité de paramètre formé de rajustement lors de la création de la tâche pour appliquer le réapprentissage de vos paramètres formés sur votre jeu de données complet ou renforcé. Conformément à la configuration de l'emplacement Amazon S3 pour le stockage du fichier de flux, la tâche de traitement des données crée ou met à jour le nouveau fichier de flux. Si vous configurez le même emplacement Amazon S3 qu'à l'étape 2, la tâche de traitement des données met à jour le fichier de flux généré à l'étape 2, qui peut être utilisé pour que votre flux reste pertinent pour vos données. Une fois la tâche de traitement terminée, les fichiers de sortie sont chargés dans le compartiment S3 configuré du nœud de destination. Vous pouvez utiliser le flux mis à jour sur l'ensemble de votre jeu de données pour un workflow de production.

Pré-requis

Avant de commencer, chargez l'ensemble de données dans un compartiment S3, puis importez-le dans Data Wrangler. Pour obtenir des instructions, reportez-vous à Importer des données depuis Amazon S3.

Passons maintenant en revue les étapes mentionnées dans le diagramme d'architecture.

Effectuer l'EDA dans Data Wrangler

Pour essayer la fonctionnalité de paramètre formé de rajustement, configurez l'analyse et la transformation suivantes dans Data Wrangler. À la fin de la configuration d'EDA, Data Wrangler crée un fichier de flux capturé avec des paramètres formés à partir de l'ensemble de données.

  1. Créez un nouveau flux dans Amazon SageMaker Data Wrangler pour l'analyse exploratoire des données.
  2. Importez les données d'entreprise que vous avez chargées sur Amazon S3.
  3. Vous pouvez prévisualiser les données et les options pour choisir le type de fichier, le délimiteur, l'échantillonnage, etc. Pour cet exemple, nous utilisons le Premier K option d'échantillonnage fournie par Data Wrangler pour importer les 50,000 XNUMX premiers enregistrements de l'ensemble de données.
  4. Selectionnez L’.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

  1. Après avoir vérifié la correspondance des types de données appliquée par Data Wrangler, ajoutez une nouvelle analyse.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

  1. Pour Type d'analyse, choisissez Rapport sur la qualité des données et les informations.
  2. Selectionnez Création.

Avec le rapport sur la qualité des données et les informations, vous obtenez un bref résumé de l'ensemble de données avec des informations générales telles que les valeurs manquantes, les valeurs non valides, les types d'entités, le nombre de valeurs aberrantes, etc. Vous pouvez choisir des fonctionnalités property_type ainsi que city pour appliquer des transformations sur l'ensemble de données afin de comprendre la fonction de paramètre formé par refit.

Concentrons-nous sur la fonctionnalité property_type à partir de l'ensemble de données. Dans le rapport Longs Détails section, vous pouvez voir la property_type, qui est une caractéristique catégorielle, et six valeurs uniques dérivées des 50,000 XNUMX ensembles de données échantillonnés par Data Wrangler. L'ensemble de données complet peut avoir plus de catégories pour l'entité property_type. Pour une fonctionnalité avec de nombreuses valeurs uniques, vous pouvez préférer le codage ordinal. Si la fonctionnalité a quelques valeurs uniques, une approche de codage à chaud peut être utilisée. Pour cet exemple, nous optons pour un encodage à chaud sur property_type.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

De même, pour le city fonctionnalité, qui est un type de données texte avec un grand nombre de valeurs uniques, appliquons un encodage ordinal à cette fonctionnalité.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

  1. Accédez au flux Data Wrangler, choisissez le signe plus, puis choisissez Ajouter une transformation.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

  1. Choisissez le Encoder catégorique option de transformation des caractéristiques catégorielles.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Dans le rapport sur la qualité des données et les informations, fonctionnalité property_type affiche six catégories uniques : CONDO, LOT, MANUFACTURED, SINGLE_FAMILY, MULTI_FAMILYet TOWNHOUSE.

  1. Pour Transformer, choisissez Encodage à chaud.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Après avoir appliqué l'encodage à chaud sur la fonctionnalité property_type, vous pouvez prévisualiser les six catégories en tant que fonctionnalités distinctes ajoutées en tant que nouvelles colonnes. Notez que 50,000 XNUMX enregistrements ont été échantillonnés à partir de votre jeu de données pour générer cet aperçu. Lors de l'exécution d'une tâche de traitement Data Wrangler avec ce flux, ces transformations sont appliquées à l'intégralité de votre jeu de données.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

  1. Ajoutez une nouvelle transformation et choisissez Encoder catégorique pour appliquer une transformation sur la fonction city, qui contient un plus grand nombre de valeurs de texte catégorielles uniques.
  2. Pour encoder cette caractéristique dans une représentation numérique, choisissez Encodage ordinal en Transformer.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

  1. Choisissez Aperçu sur cette transformation.

Vous pouvez voir que la caractéristique catégorique city est mappé à des valeurs ordinales dans la colonne de sortie e_city.

  1. Ajoutez cette étape en choisissant Mises à jour.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

  1. Vous pouvez définir la destination sur Amazon S3 pour stocker les transformations appliquées sur l'ensemble de données afin de générer la sortie sous forme de fichier CSV.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Data Wrangler stocke le flux de travail que vous avez défini dans l'interface utilisateur en tant que fichier de flux et le télécharge vers l'emplacement Amazon S3 de la tâche de traitement de données configurée. Ce fichier de flux est utilisé lorsque vous créez des tâches de traitement Data Wrangler pour appliquer les transformations sur des jeux de données plus volumineux ou pour transformer de nouvelles données de renforcement afin de recycler le modèle.

Lancer une tâche de traitement de données Data Wrangler sans ajustement activé

Vous pouvez maintenant voir comment l'option de refit utilise des paramètres entraînés sur de nouveaux ensembles de données. Pour cette démonstration, nous définissons deux tâches de traitement Data Wrangler opérant sur les mêmes données. La première tâche de traitement n'activera pas le rajustement ; pour le deuxième travail de traitement, nous utilisons refit. Nous comparons les effets à la fin.

  1. Selectionnez Créer un emploi pour lancer une tâche de traitement de données avec Data Wrangler.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

  1. Pour Nom du travail, entrez un nom.
  2. Sous Paramètres formés, ne sélectionnez pas Remettre en état.
  3. Selectionnez Configurer le travail.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

  1. Configurez les paramètres de tâche tels que les types d'instance, la taille du volume et l'emplacement Amazon S3 pour stocker le fichier de flux de sortie.
  2. Data Wrangler crée un fichier de flux dans l'emplacement S3 du fichier de flux. Le flux utilise des transformations pour former les paramètres, et nous utilisons plus tard l'option refit pour recycler ces paramètres.
  3. Selectionnez Création.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Attendez que la tâche de traitement des données se termine pour voir les données transformées dans le compartiment S3 configuré dans le nœud de destination.

Lancer une tâche de traitement de données Data Wrangler avec le réajustement activé

Créons une autre tâche de traitement activée avec la fonctionnalité de paramètre formé de rajustement activée. Cette option applique les paramètres formés réappris sur l'ensemble de données entier. Lorsque cette tâche de traitement des données est terminée, un fichier de flux est créé ou mis à jour vers l'emplacement Amazon S3 configuré.

  1. Selectionnez Créer un emploi.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

  1. Pour Nom du travail, entrez un nom.
  2. Pour Paramètres formés, sélectionnez Remettre en état.
  3. Si vous choisissez VOIR PLUS , vous pouvez passer en revue tous les paramètres formés.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

  1. Selectionnez Configurer le travail.
  2. Entrez l'emplacement du fichier de flux Amazon S3.
  3. Selectionnez Création.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Attendez que la tâche de traitement des données soit terminée.

Reportez-vous au compartiment S3 configuré dans le nœud de destination pour afficher les données générées par la tâche de traitement de données exécutant les transformations définies.

Exporter vers du code Python pour exécuter des tâches de traitement Data Wrangler

Au lieu de démarrer les tâches de traitement à l'aide de l'option Créer une tâche dans Data Wrangler, vous pouvez déclencher les tâches de traitement de données en exportant le flux Data Wrangler vers un bloc-notes Jupyter. Data Wrangler génère un bloc-notes Jupyter avec des entrées, des sorties, des configurations de tâche de traitement et du code pour les vérifications de l'état des tâches. Vous pouvez modifier ou mettre à jour les paramètres selon vos exigences de transformation de données.

  1. Choisissez le signe plus à côté de la finale Transformer nœud.
  2. Selectionnez Exportations et à Amazon S3 (via le bloc-notes Jupyter).

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Vous pouvez voir un bloc-notes Jupyter ouvert avec des entrées, des sorties, des configurations de tâche de traitement et du code pour les vérifications de l'état de la tâche.

  1. Pour appliquer l'option de rajustement des paramètres formés via le code, définissez l'option refit paramètre True.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Comparer les résultats des tâches de traitement de données

Une fois les tâches de traitement Data Wrangler terminées, vous devez créer deux nouveaux flux Data Wrangler avec la sortie générée par les tâches de traitement de données stockées dans la destination Amazon S3 configurée.

Vous pouvez vous référer à l'emplacement configuré dans le dossier de destination Amazon S3 pour examiner les sorties des tâches de traitement de données.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Pour inspecter les résultats de la tâche de traitement, créez deux nouveaux flux Data Wrangler à l'aide du rapport Data Quality and Insights afin de comparer les résultats de la transformation.

  1. Créez un nouveau flux dans Amazon SageMaker Data Wrangler.
  2. Importez la tâche de traitement de données sans fichier de sortie activé pour le rajustement à partir d'Amazon S3.
  3. Ajouter une nouvelle analyse.
  4. Pour Type d'analyse, choisissez Rapport sur la qualité des données et les informations.
  5. Selectionnez Création.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.
Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Répétez les étapes ci-dessus et créez un nouveau flux de wrangler de données pour analyser la sortie de la tâche de traitement de données avec le rajustement activé.

Examinons maintenant les sorties des tâches de traitement pour la fonctionnalité property_type à l'aide des rapports sur la qualité des données et les informations. Faites défiler jusqu'aux détails de la fonctionnalité dans la liste des rapports de données et d'informations feature_type.

La tâche de traitement des paramètres formés de réajustement a réajusté les paramètres formés sur l'ensemble de données et encodé la nouvelle valeur APARTMENT avec sept valeurs distinctes sur l'ensemble de données complet.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

La tâche de traitement normale a appliqué les exemples de paramètres entraînés de l'ensemble de données, qui n'ont que six valeurs distinctes pour le property_type caractéristique. Pour les données avec feature_type APARTMENT, stratégie de gestion invalide Ignorer est appliqué et la tâche de traitement de données n'apprend pas cette nouvelle catégorie. L'encodage one-hot a ignoré cette nouvelle catégorie présente sur les nouvelles données, et l'encodage ignore la catégorie APARTMENT.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Concentrons-nous maintenant sur une autre fonctionnalité, city. La tâche de traitement des paramètres formés au rajustement a réappris toutes les valeurs disponibles pour le city fonction, compte tenu des nouvelles données.

Comme indiqué dans le Résumé des fonctionnalités section du rapport, la nouvelle colonne des caractéristiques codées e_city a des paramètres valides à 100 % en utilisant la fonction de paramètre de rajustement formé.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

En revanche, le travail de traitement normal a 82.4 % de valeurs manquantes dans la nouvelle colonne de caractéristiques encodées e_city. Ce phénomène est dû au fait que seul l'ensemble d'échantillons de paramètres formés appris est appliqué sur l'ensemble de données complet et qu'aucun réajustement n'est appliqué par le travail de traitement des données.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Les histogrammes suivants illustrent la caractéristique codée ordinale e_city. Le premier histogramme est celui de l'entité transformée avec l'option de refit.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

L'histogramme suivant est celui de l'entité transformée sans l'option de refit. La colonne orange affiche les valeurs manquantes (NaN) dans le rapport sur la qualité des données et les informations. Les nouvelles valeurs qui ne sont pas apprises à partir de l'exemple de jeu de données sont remplacées par Pas un nombre (NaN) comme configuré dans l'interface utilisateur de Data Wrangler stratégie de gestion invalide.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

La tâche de traitement de données avec le paramètre formé de rajustement a réappris le property_type ainsi que city caractéristiques en tenant compte des nouvelles valeurs de l'ensemble de données. Sans le paramètre refit formé, la tâche de traitement des données n'utilise que les paramètres pré-apprennés de l'ensemble de données échantillonné. Il les applique ensuite aux nouvelles données, mais les nouvelles valeurs ne sont pas prises en compte pour l'encodage. Cela aura des implications sur la précision du modèle.

Nettoyer

Lorsque vous n'utilisez pas Data Wrangler, il est important d'arrêter l'instance sur laquelle il s'exécute pour éviter des frais supplémentaires.

Pour éviter de perdre du travail, enregistrez votre flux de données avant d'arrêter Data Wrangler.

  1. Pour enregistrer votre flux de données dans Amazon SageMakerStudio, choisissez Déposez votre dernière attestation , Puis choisissez Enregistrer le flux de Wrangler de données. Data Wrangler enregistre automatiquement votre flux de données toutes les 60 secondes.
  2. Pour arrêter l'instance Data Wrangler, dans Studio, choisissez Exécution d'instances et de noyaux.
  3. Sous APPLICATIONS EN MARCHE, choisissez l'icône d'arrêt à côté de l'application sagemaker-data-wrangler-1.0.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

  1. Selectionnez Fermez tout pour confirmer.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Data Wrangler s'exécute sur une instance ml.m5.4xlarge. Cette instance disparaît de INSTANCES D'EXÉCUTION lorsque vous fermez l'application Data Wrangler.

Après avoir fermé l'application Data Wrangler, elle doit redémarrer la prochaine fois que vous ouvrez un fichier de flux Data Wrangler. Cela peut prendre quelques minutes.

Conclusion

Dans cet article, nous avons fourni une vue d'ensemble de la fonction de paramètre de refit formé dans Data Wrangler. Avec cette nouvelle fonctionnalité, vous pouvez stocker les paramètres formés dans le flux Data Wrangler, et les tâches de traitement de données utilisent les paramètres formés pour appliquer les transformations apprises sur de grands jeux de données ou des jeux de données de renforcement. Vous pouvez appliquer cette option pour vectoriser des entités textuelles, des données numériques et gérer des valeurs aberrantes.

La préservation des paramètres formés tout au long du traitement des données du cycle de vie ML simplifie et réduit les étapes de traitement des données, prend en charge une ingénierie de fonctionnalités robuste et prend en charge la formation de modèles et la formation de renforcement sur de nouvelles données.

Nous vous encourageons à essayer cette nouvelle fonctionnalité pour vos besoins en matière de traitement de données.


À propos des auteurs

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï. Hariharan Suresh est architecte de solutions senior chez AWS. Il est passionné par les bases de données, l'apprentissage automatique et la conception de solutions innovantes. Avant de rejoindre AWS, Hariharan était architecte de produits, spécialiste de l'implémentation bancaire de base et développeur, et a travaillé avec des organisations BFSI pendant plus de 11 ans. En dehors de la technologie, il aime le parapente et le vélo.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Santosh Kulkarni est un architecte de solutions d'entreprise chez Amazon Web Services qui travaille avec des clients sportifs en Australie. Il est passionné par la création d'applications distribuées à grande échelle pour résoudre des problèmes commerciaux en utilisant ses connaissances en IA/ML, en mégadonnées et en développement de logiciels.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Vishaal Kapoor est un scientifique appliqué senior avec AWS AI. Il se passionne pour aider les clients à comprendre leurs données dans Data Wrangler. Dans ses temps libres, il fait du VTT, du snowboard et passe du temps avec sa famille.

Réajustez les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Aniketh Manjunath est ingénieur en développement logiciel chez Amazon SageMaker. Il aide à prendre en charge Amazon SageMaker Data Wrangler et est passionné par les systèmes d'apprentissage automatique distribués. En dehors du travail, il aime faire de la randonnée, regarder des films et jouer au cricket.

Horodatage:

Plus de Apprentissage automatique AWS