Gentilpasse trænede parametre på store datasæt ved hjælp af Amazon SageMaker Data Wrangler

Genudgivet af Platon

Abonnenter: 0

Amazon SageMaker Data Wrangler hjælper dig med at forstå, aggregere, transformere og forberede data til maskinlæring (ML) fra en enkelt visuel grænseflade. Den indeholder over 300 indbyggede datatransformationer, så du hurtigt kan normalisere, transformere og kombinere funktioner uden at skulle skrive nogen kode.

Datavidenskabsudøvere genererer, observerer og behandler data for at løse forretningsproblemer, hvor de skal transformere og udtrække funktioner fra datasæt. Transformer såsom ordinær kodning eller one-hot-kodning lærer kodninger på dit datasæt. Disse kodede udgange omtales som trænede parametre. Da datasæt ændrer sig over tid, kan det være nødvendigt at tilpasse kodninger på tidligere usete data for at holde transformationsflowet relevant for dine data.

Vi er glade for at kunne annoncere funktionen til genoptræning af trænede parametre, som giver dig mulighed for at bruge tidligere trænede parametre og genmontere dem som ønsket. I dette indlæg viser vi, hvordan du bruger denne funktion.

Oversigt over Data Wrangler-genopbygningsfunktionen

Vi illustrerer, hvordan denne funktion fungerer, med det følgende eksempel, før vi dykker ned i detaljerne ved den genmonteringstrænede parameterfunktion.

Antag, at dit kundedatasæt har en kategorisk funktion til country repræsenteret som strenge som Australia , Singapore. ML-algoritmer kræver numeriske input; derfor skal disse kategoriske værdier kodes til numeriske værdier. Kodning af kategoriske data er processen med at skabe en numerisk repræsentation for kategorier. For eksempel hvis dit kategoriland har værdier Australia , Singapore, kan du indkode denne information i to vektorer: [1, 0] for at repræsentere Australia og [0, 1] for at repræsentere Singapore. Transformationen, der bruges her, er one-hot-kodning, og det nye kodede output afspejler de trænede parametre.

Efter træning af modellen kan dine kunder over tid stige, og du har mere tydelige værdier på landelisten. Det nye datasæt kunne indeholde en anden kategori, India, som ikke var en del af det originale datasæt, hvilket kan påvirke modellens nøjagtighed. Derfor er det nødvendigt at genoptræne din model med de nye data, der er blevet indsamlet over tid.

For at overvinde dette problem skal du opdatere kodningen for at inkludere den nye kategori og opdatere vektorrepræsentationen i henhold til dit seneste datasæt. I vores eksempel skal kodningen afspejle den nye kategori for country, Hvilket er India. Vi refererer almindeligvis til denne proces med at opdatere en kodning som en ombygningsoperation. Når du har udført ombygningsoperationen, får du den nye kodning: Australia: [1, 0, 0], Singapore: [0, 1, 0], og India: [0, 0, 1]. Gentilpasning af one-hot-kodningen og derefter genoptræning af modellen på det nye datasæt resulterer i forudsigelser af bedre kvalitet.

Data Wranglers genmonteringstrænede parameterfunktion er nyttig i følgende tilfælde:

Nye data tilføjes til datasættet – Efteruddannelse af ML-modellen er nødvendig, når datasættet er beriget med nye data. For at opnå optimale resultater er vi nødt til at tilpasse de trænede parametre på det nye datasæt.
Træning på et komplet datasæt efter at have udført funktionsudvikling på eksempeldata – For et stort datasæt overvejes en stikprøve af datasættet til indlæring af trænede parametre, som muligvis ikke repræsenterer hele dit datasæt. Vi skal genlære de trænede parametre på det komplette datasæt.

Følgende er nogle af de mest almindelige Data Wrangler-transformationer, der udføres på datasættet, og som drager fordel af muligheden for gentilpasset parameter:

For mere information om transformationer i Data Wrangler, se Transform data.

I dette indlæg viser vi, hvordan man behandler disse trænede parametre på datasæt ved hjælp af Data Wrangler. Du kan bruge Data Wrangler-flows i produktionsjob til at genbehandle dine data, efterhånden som de vokser og ændrer sig.

Løsningsoversigt

Til dette indlæg demonstrerer vi, hvordan du bruger Data Wrangler's refit-trænede parameterfunktion med det offentligt tilgængelige datasæt på Kaggle: Boligdata i USA fra Zillow, ejendomme til salg i USA. Det har boligsalgspriserne på tværs af forskellige geo-distributioner af boliger.

Følgende diagram illustrerer højniveau-arkitekturen i Data Wrangler ved hjælp af den genmonterede parameterfunktion. Vi viser også effekten på datakvaliteten uden den gentilrettelagte parameter og kontrasterer resultaterne til sidst.

Arbejdsgangen omfatter følgende trin:

Udfør undersøgende dataanalyse – Opret et nyt flow på Data Wrangler for at starte den eksplorative dataanalyse (EDA). Importer virksomhedsdata for at forstå, rense, samle, transformere og forberede dine data til træning. Henvise til Udforsk Amazon SageMaker Data Wrangler-funktioner med eksempeldatasæt for flere detaljer om udførelse af EDA med Data Wrangler.
Opret et databehandlingsjob – Dette trin eksporterer alle de transformationer, du har lavet på datasættet, som en flowfil gemt i det konfigurerede Amazon Simple Storage Service (Amazon S3) placering. Databehandlingsjobbet med flowfilen genereret af Data Wrangler anvender transformationerne og trænede parametre, der er lært på dit datasæt. Når databehandlingsjobbet er afsluttet, uploades outputfilerne til Amazon S3-lokationen, der er konfigureret i destinationsknuden. Bemærk, at ombygningsindstillingen er slået fra som standard. Som et alternativ til at udføre behandlingsopgaven øjeblikkeligt, kan du også planlægge et behandlingsjob med få klik ved hjælp af Data Wrangler – Opret job til at køre på bestemte tidspunkter.
Opret et databehandlingsjob med genmonteringstrænede parameterfunktion – Vælg den nye gentilpassede parameterfunktion, mens du opretter jobbet for at gennemtvinge genindlæring af dine trænede parametre på dit fulde eller forstærkede datasæt. I henhold til Amazon S3-placeringskonfigurationen til lagring af flowfilen opretter eller opdaterer databehandlingsjobbet den nye flowfil. Hvis du konfigurerer den samme Amazon S3-placering som i trin 2, opdaterer databehandlingsjobbet flowfilen, der er genereret i trin 2, som kan bruges til at holde dit flow relevant for dine data. Når behandlingsjobbet er afsluttet, uploades outputfilerne til den destinationsknudekonfigurerede S3-bøtte. Du kan bruge det opdaterede flow på hele dit datasæt til et produktionsworkflow.

Forudsætninger

Før du går i gang, skal du uploade datasættet til en S3-bøtte og derefter importere det til Data Wrangler. For instruktioner, se Importer data fra Amazon S3.

Lad os nu gå gennem trinene nævnt i arkitekturdiagrammet.

Udfør EDA i Data Wrangler

For at afprøve den genindrettede parameterfunktion skal du konfigurere følgende analyse og transformation i Data Wrangler. I slutningen af opsætningen af EDA opretter Data Wrangler en flowfil, der er fanget med trænede parametre fra datasættet.

Opret et nyt flow i Amazon SageMaker Data Wrangler til udforskende dataanalyse.
Importer de virksomhedsdata, du har uploadet til Amazon S3.
Du kan forhåndsvise dataene og mulighederne for at vælge filtype, afgrænsning, prøveudtagning og så videre. Til dette eksempel bruger vi Først K prøveudtagningsmulighed leveret af Data Wrangler til at importere de første 50,000 poster fra datasættet.
Vælg Importere.