Refit getrainde parameters op grote datasets met behulp van Amazon SageMaker Data Wrangler

Heruitgegeven door Plato

volgers: 0

Amazon SageMaker-gegevens Wrangler helpt u gegevens te begrijpen, samen te voegen, te transformeren en voor te bereiden voor machine learning (ML) vanuit één enkele visuele interface. Het bevat meer dan 300 ingebouwde gegevenstransformaties, zodat u snel functies kunt normaliseren, transformeren en combineren zonder dat u code hoeft te schrijven.

Data science-beoefenaars genereren, observeren en verwerken gegevens om bedrijfsproblemen op te lossen waar ze functies uit datasets moeten transformeren en extraheren. Transformaties zoals ordinale codering of one-hot codering leren coderingen op uw dataset. Deze gecodeerde uitvoer wordt aangeduid als getrainde parameters. Aangezien datasets in de loop van de tijd veranderen, kan het nodig zijn om coderingen op eerder ongeziene gegevens aan te passen om de transformatiestroom relevant te houden voor uw gegevens.

We zijn verheugd om de refit-functie voor getrainde parameters aan te kondigen, waarmee u eerder getrainde parameters kunt gebruiken en deze naar wens kunt aanpassen. In dit bericht laten we zien hoe u deze functie kunt gebruiken.

Overzicht van de Data Wrangler-refitfunctie

We illustreren hoe deze functie werkt met het volgende voorbeeld, voordat we ingaan op de details van de refit getrainde parameterfunctie.

Stel dat uw klantgegevensset een categorische functie heeft voor: country weergegeven als strings zoals Australia en Singapore. ML-algoritmen vereisen numerieke invoer; daarom moeten deze categorische waarden worden gecodeerd naar numerieke waarden. Het coderen van categorische gegevens is het proces van het creëren van een numerieke representatie voor categorieën. Als uw categorieland bijvoorbeeld waarden heeft Australia en Singapore, kunt u deze informatie in twee vectoren coderen: [1, 0] om weer te geven Australia en [0, 1] om te vertegenwoordigen Singapore. De hier gebruikte transformatie is one-hot codering en de nieuwe gecodeerde uitvoer weerspiegelt de getrainde parameters.

Na het trainen van het model kunnen uw klanten na verloop van tijd toenemen en heeft u meer onderscheidende waarden in de landenlijst. De nieuwe dataset kan een andere categorie bevatten, India, die geen deel uitmaakte van de oorspronkelijke dataset, wat de nauwkeurigheid van het model kan beïnvloeden. Daarom is het noodzakelijk om uw model opnieuw te trainen met de nieuwe gegevens die in de loop van de tijd zijn verzameld.

Om dit probleem op te lossen, moet u de codering vernieuwen om de nieuwe categorie op te nemen en de vectorrepresentatie bijwerken volgens uw laatste gegevensset. In ons voorbeeld moet de codering de nieuwe categorie weergeven voor de countryDit is India. Dit proces van het vernieuwen van een codering noemen we gewoonlijk een refit-operatie. Nadat u de refit-bewerking hebt uitgevoerd, krijgt u de nieuwe codering: Australia: [1, 0, 0], Singapore: [0, 1, 0], en India: [0, 0, 1]. Het opnieuw aanpassen van de one-hot-codering en het opnieuw trainen van het model op de nieuwe dataset resulteert in voorspellingen van betere kwaliteit.

De refit-getrainde parameterfunctie van Data Wrangler is nuttig in de volgende gevallen:

Er worden nieuwe gegevens toegevoegd aan de dataset – Omscholing van het ML-model is nodig wanneer de dataset wordt verrijkt met nieuwe data. Om optimale resultaten te bereiken, moeten we de getrainde parameters aanpassen aan de nieuwe dataset.
Training op een volledige dataset na het uitvoeren van feature engineering op voorbeelddata – Voor een grote dataset wordt een steekproef van de dataset overwogen voor het leren van getrainde parameters, die mogelijk niet uw volledige dataset vertegenwoordigen. We moeten de getrainde parameters op de volledige dataset opnieuw leren.

Hieronder volgen enkele van de meest voorkomende Data Wrangler-transformaties die op de dataset worden uitgevoerd en die profiteren van de optie voor getrainde refit-parameter:

Voor meer informatie over transformaties in Data Wrangler, zie: Transformeer gegevens.

In dit bericht laten we zien hoe deze getrainde parameters op datasets kunnen worden verwerkt met behulp van Data Wrangler. U kunt Data Wrangler-stromen in productietaken gebruiken om uw gegevens opnieuw te verwerken wanneer deze groeien en veranderen.

Overzicht oplossingen

Voor dit bericht laten we zien hoe u de refit-getrainde parameterfunctie van Data Wrangler kunt gebruiken met de openbaar beschikbare dataset op Kaggle: Amerikaanse huisvestingsgegevens van Zillow, te koop aangeboden woningen in de Verenigde Staten. Het heeft de huizenverkoopprijzen over verschillende geo-distributies van huizen.

Het volgende diagram illustreert de architectuur op hoog niveau van Data Wrangler met behulp van de refit-getrainde parameterfunctie. We laten ook het effect op de datakwaliteit zien zonder de refit-getrainde parameter en contrasteren de resultaten aan het einde.

De workflow omvat de volgende stappen:

Verkennende data-analyse uitvoeren – Maak een nieuwe stroom op Data Wrangler om de verkennende data-analyse (EDA) te starten. Importeer bedrijfsgegevens om uw gegevens te begrijpen, op te schonen, samen te voegen, te transformeren en voor te bereiden op training. Verwijzen naar Ontdek de mogelijkheden van Amazon SageMaker Data Wrangler met voorbeelddatasets voor meer informatie over het uitvoeren van EDA met Data Wrangler.
Maak een gegevensverwerkingstaak aan – Deze stap exporteert alle transformaties die u op de gegevensset hebt gemaakt als een stroombestand dat is opgeslagen in het geconfigureerde Amazon eenvoudige opslagservice (Amazon S3) locatie. De gegevensverwerkingstaak met het door Data Wrangler gegenereerde stroombestand past de transformaties en getrainde parameters toe die zijn geleerd op uw dataset. Wanneer de gegevensverwerkingstaak is voltooid, worden de uitvoerbestanden geüpload naar de Amazon S3-locatie die is geconfigureerd in het bestemmingsknooppunt. Merk op dat de refit-optie standaard is uitgeschakeld. Als alternatief voor het direct uitvoeren van de verwerkingstaak, kunt u dat ook een verwerkingstaak plannen in een paar klikken met behulp van Data Wrangler – Create Job to run at specific times.
Creëer een gegevensverwerkingstaak met de refit getrainde parameterfunctie – Selecteer de nieuwe refit-functie voor getrainde parameters tijdens het maken van de taak om het opnieuw leren van uw getrainde parameters op uw volledige of versterkte dataset af te dwingen. Volgens de Amazon S3-locatieconfiguratie voor het opslaan van het stroombestand, maakt of werkt de gegevensverwerkingstaak het nieuwe stroombestand bij. Als u dezelfde Amazon S3-locatie configureert als in stap 2, werkt de gegevensverwerkingstaak het in stap 2 gegenereerde stroombestand bij, dat kan worden gebruikt om uw stroom relevant te houden voor uw gegevens. Na voltooiing van de verwerkingstaak worden de uitvoerbestanden geüpload naar de geconfigureerde S3-bucket van het bestemmingsknooppunt. U kunt de bijgewerkte stroom op uw volledige dataset gebruiken voor een productieworkflow.

Voorwaarden

Voordat u aan de slag gaat, uploadt u de dataset naar een S3-bucket en importeert u deze vervolgens in Data Wrangler. Raadpleeg voor instructies: Gegevens importeren uit Amazon S3.

Laten we nu de stappen doorlopen die in het architectuurdiagram worden genoemd.

Voer EDA uit in Data Wrangler

Stel de volgende analyse en transformatie in Data Wrangler in om de refit-getrainde parameterfunctie uit te proberen. Aan het einde van het instellen van EDA maakt Data Wrangler een stroombestand dat is vastgelegd met getrainde parameters uit de dataset.

Maak een nieuwe stroom in Amazon SageMaker Data Wrangler voor verkennende gegevensanalyse.
Importeer de bedrijfsgegevens die je hebt geüpload naar Amazon S3.
U kunt een voorbeeld van de gegevens en opties bekijken voor het kiezen van het bestandstype, scheidingsteken, steekproeven, enzovoort. Voor dit voorbeeld gebruiken we de Eerste K samplingoptie geleverd door Data Wrangler om de eerste 50,000 records uit de dataset te importeren.
Kies import.