Réajuster les paramètres entraînés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler

Republié par Platon

Suiveurs: 0

Gestionnaire de données Amazon SageMaker vous aide à comprendre, agréger, transformer et préparer les données pour l'apprentissage automatique (ML) à partir d'une interface visuelle unique. Il contient plus de 300 transformations de données intégrées afin que vous puissiez rapidement normaliser, transformer et combiner des fonctionnalités sans avoir à écrire de code.

Les praticiens de la science des données génèrent, observent et traitent des données pour résoudre des problèmes commerciaux lorsqu'ils doivent transformer et extraire des fonctionnalités à partir d'ensembles de données. Les transformations telles que l'encodage ordinal ou l'encodage one-hot apprennent les encodages sur votre jeu de données. Ces sorties codées sont appelées paramètres entraînés. Comme les ensembles de données changent au fil du temps, il peut être nécessaire de réajuster les encodages sur des données inédites pour que le flux de transformation reste pertinent pour vos données.

Nous sommes ravis d'annoncer la fonction de paramétrage de réajustement formé, qui vous permet d'utiliser les paramètres formés précédemment et de les réajuster comme vous le souhaitez. Dans cet article, nous montrons comment utiliser cette fonctionnalité.

Présentation de la fonction de réaménagement du Data Wrangler

Nous illustrons le fonctionnement de cette fonctionnalité avec l'exemple suivant, avant de nous plonger dans les spécificités de la fonctionnalité de paramètre formé par refit.

Supposons que votre ensemble de données client comporte une caractéristique catégorielle pour country représenté sous forme de chaînes comme Australia ainsi que Singapore. Les algorithmes ML nécessitent des entrées numériques ; par conséquent, ces valeurs catégorielles doivent être codées en valeurs numériques. L'encodage des données catégorielles est le processus de création d'une représentation numérique pour les catégories. Par exemple, si votre pays de catégorie a des valeurs Australia ainsi que Singapore, vous pouvez coder cette information en deux vecteurs : [1, 0] pour représenter Australia et [0, 1] pour représenter Singapore. La transformation utilisée ici est un codage à chaud et la nouvelle sortie codée reflète les paramètres formés.

Après la formation du modèle, au fil du temps, vos clients peuvent augmenter et vous avez des valeurs plus distinctes dans la liste des pays. Le nouvel ensemble de données pourrait contenir une autre catégorie, India, qui ne faisait pas partie de l'ensemble de données d'origine, ce qui peut affecter la précision du modèle. Par conséquent, il est nécessaire de recycler votre modèle avec les nouvelles données qui ont été collectées au fil du temps.

Pour surmonter ce problème, vous devez actualiser l'encodage pour inclure la nouvelle catégorie et mettre à jour la représentation vectorielle en fonction de votre dernier ensemble de données. Dans notre exemple, l'encodage doit refléter la nouvelle catégorie pour le country, lequel est India. Nous appelons communément ce processus de rafraîchissement d'un encodage une opération de refit. Après avoir effectué l'opération de refit, vous obtenez le nouvel encodage : Australia: [1, 0, 0], Singapore: [0, 1, 0], et India: [0, 0, 1]. Le réajustement de l'encodage one-hot, puis le réentraînement du modèle sur le nouvel ensemble de données permettent d'obtenir des prédictions de meilleure qualité.

La fonction de paramètre formé de refit de Data Wrangler est utile dans les cas suivants :

De nouvelles données sont ajoutées au jeu de données – Le recyclage du modèle ML est nécessaire lorsque l'ensemble de données est enrichi avec de nouvelles données. Pour obtenir des résultats optimaux, nous devons réajuster les paramètres formés sur le nouvel ensemble de données.
Entraînement sur un jeu de données complet après avoir effectué l'ingénierie des fonctionnalités sur des exemples de données – Pour un ensemble de données volumineux, un échantillon de l'ensemble de données est pris en compte pour l'apprentissage des paramètres formés, qui peuvent ne pas représenter l'intégralité de votre ensemble de données. Nous devons réapprendre les paramètres formés sur l'ensemble de données complet.

Voici quelques-unes des transformations Data Wrangler les plus courantes effectuées sur l'ensemble de données qui bénéficient de l'option de paramètre formé par refit :

Pour plus d'informations sur les transformations dans Data Wrangler, reportez-vous à Transformer les données.

Dans cet article, nous montrons comment traiter ces paramètres formés sur des ensembles de données à l'aide de Data Wrangler. Vous pouvez utiliser les flux Data Wrangler dans les tâches de production pour retraiter vos données à mesure qu'elles grandissent et changent.

Vue d'ensemble de la solution

Pour cet article, nous montrons comment utiliser la fonction de paramètre formé de refit de Data Wrangler avec l'ensemble de données accessible au public sur Kaggle: Données sur le logement aux États-Unis de Zillow, propriétés à vendre aux États-Unis. Il a les prix de vente des maisons à travers différentes géo-distributions de maisons.

Le diagramme suivant illustre l'architecture de haut niveau de Data Wrangler à l'aide de la fonction de paramètre formé par refit. Nous montrons également l'effet sur la qualité des données sans le paramètre de refit formé et comparons les résultats à la fin.

Le workflow comprend les étapes suivantes:

Effectuer une analyse exploratoire des données – Créer un nouveau flux sur Data Wrangler pour démarrer l'analyse exploratoire des données (EDA). Importez des données d'entreprise pour comprendre, nettoyer, agréger, transformer et préparer vos données pour la formation. Faire référence à Explorez les fonctionnalités d'Amazon SageMaker Data Wrangler avec des exemples d'ensembles de données pour plus de détails sur l'exécution d'EDA avec Data Wrangler.
Créer une tâche de traitement de données – Cette étape exporte toutes les transformations que vous avez effectuées sur le jeu de données sous la forme d'un fichier de flux stocké dans le fichier configuré. Service de stockage simple Amazon (Amazon S3). La tâche de traitement de données avec le fichier de flux généré par Data Wrangler applique les transformations et les paramètres formés appris sur votre jeu de données. Lorsque la tâche de traitement des données est terminée, les fichiers de sortie sont téléchargés vers l'emplacement Amazon S3 configuré dans le nœud de destination. Notez que l'option de remise en état est désactivée par défaut. Au lieu d'exécuter la tâche de traitement instantanément, vous pouvez également planifier une tâche de traitement en quelques clics à l'aide de Data Wrangler - Créer un travail à exécuter à des moments précis.
Créer une tâche de traitement de données avec la fonction de refit de paramètres formés – Sélectionnez la nouvelle fonctionnalité de paramètre formé de rajustement lors de la création de la tâche pour appliquer le réapprentissage de vos paramètres formés sur votre jeu de données complet ou renforcé. Conformément à la configuration de l'emplacement Amazon S3 pour le stockage du fichier de flux, la tâche de traitement des données crée ou met à jour le nouveau fichier de flux. Si vous configurez le même emplacement Amazon S3 qu'à l'étape 2, la tâche de traitement des données met à jour le fichier de flux généré à l'étape 2, qui peut être utilisé pour que votre flux reste pertinent pour vos données. Une fois la tâche de traitement terminée, les fichiers de sortie sont chargés dans le compartiment S3 configuré du nœud de destination. Vous pouvez utiliser le flux mis à jour sur l'ensemble de votre jeu de données pour un workflow de production.

Pré-requis

Avant de commencer, chargez l'ensemble de données dans un compartiment S3, puis importez-le dans Data Wrangler. Pour obtenir des instructions, reportez-vous à Importer des données depuis Amazon S3.

Passons maintenant en revue les étapes mentionnées dans le diagramme d'architecture.

Effectuer l'EDA dans Data Wrangler

Pour essayer la fonctionnalité de paramètre formé de rajustement, configurez l'analyse et la transformation suivantes dans Data Wrangler. À la fin de la configuration d'EDA, Data Wrangler crée un fichier de flux capturé avec des paramètres formés à partir de l'ensemble de données.

Créez un nouveau flux dans Amazon SageMaker Data Wrangler pour l'analyse exploratoire des données.
Importez les données d'entreprise que vous avez chargées sur Amazon S3.
Vous pouvez prévisualiser les données et les options pour choisir le type de fichier, le délimiteur, l'échantillonnage, etc. Pour cet exemple, nous utilisons le Premier K option d'échantillonnage fournie par Data Wrangler pour importer les 50,000 XNUMX premiers enregistrements de l'ensemble de données.
Selectionnez L’.