Återpassa tränade parametrar på stora datamängder med Amazon SageMaker Data Wrangler

Återutgiven av Platon

anhängare: 0

Amazon SageMaker Data Wrangler hjälper dig att förstå, aggregera, transformera och förbereda data för maskininlärning (ML) från ett enda visuellt gränssnitt. Den innehåller över 300 inbyggda datatransformationer så att du snabbt kan normalisera, transformera och kombinera funktioner utan att behöva skriva någon kod.

Datavetenskapsutövare genererar, observerar och bearbetar data för att lösa affärsproblem där de behöver transformera och extrahera funktioner från datauppsättningar. Transformeringar som ordinarie kodning eller one-hot encoding lär dig kodningar på din datauppsättning. Dessa kodade utgångar kallas tränade parametrar. Eftersom datamängder förändras över tiden kan det bli nödvändigt att anpassa kodningar på tidigare osynliga data för att hålla transformationsflödet relevant för dina data.

Vi är glada över att kunna presentera funktionen för ombyggnad av tränade parameter, som gör att du kan använda tidigare tränade parametrar och anpassa dem efter önskemål. I det här inlägget visar vi hur du använder den här funktionen.

Översikt över funktionen för återanpassning av Data Wrangler

Vi illustrerar hur den här funktionen fungerar med följande exempel, innan vi dyker in i detaljerna för den återmonterade parameterfunktionen.

Anta att din kunddatauppsättning har en kategorisk funktion för country representeras som strängar som Australia och Singapore. ML-algoritmer kräver numeriska inmatningar; därför måste dessa kategoriska värden kodas till numeriska värden. Att koda kategorisk data är processen att skapa en numerisk representation för kategorier. Till exempel om din kategori land har värden Australia och Singapore, kan du koda denna information i två vektorer: [1, 0] för att representera Australia och [0, 1] för att representera Singapore. Transformationen som används här är one-hot-kodning och den nya kodade utgången återspeglar de tränade parametrarna.

Efter att ha tränat modellen kan dina kunder med tiden öka och du har mer distinkta värden i landslistan. Den nya datamängden kan innehålla en annan kategori, India, som inte var en del av den ursprungliga datamängden, vilket kan påverka modellens noggrannhet. Därför är det nödvändigt att träna om din modell med den nya data som har samlats in över tiden.

För att lösa detta problem måste du uppdatera kodningen för att inkludera den nya kategorin och uppdatera vektorrepresentationen enligt din senaste datauppsättning. I vårt exempel bör kodningen återspegla den nya kategorin för country, vilket är India. Vi hänvisar vanligtvis till denna process för att uppdatera en kodning som en återanpassningsoperation. När du har utfört återanpassningsoperationen får du den nya kodningen: Australia: [1, 0, 0], Singapore: [0, 1, 0] och India: [0, 0, 1]. Att montera om den enkla kodningen och sedan träna om modellen på den nya datamängden resulterar i bättre kvalitetsförutsägelser.

Data Wranglers refittränade parameterfunktion är användbar i följande fall:

Ny data läggs till i datasetet – Omskolning av ML-modellen är nödvändig när datasetet berikas med nya data. För att uppnå optimala resultat måste vi anpassa de tränade parametrarna på den nya datamängden.
Träning på en fullständig datauppsättning efter att ha utfört funktionsteknik på exempeldata – För en stor datamängd övervägs ett urval av datamängden för inlärning av tränade parametrar, som kanske inte representerar hela din dataset. Vi måste lära oss om de tränade parametrarna på hela datasetet.

Följande är några av de vanligaste Data Wrangler-transformationerna som utförs på datamängden och som drar nytta av alternativet för återanpassningsutbildade parameter:

För mer information om transformationer i Data Wrangler, se Transformera data.

I det här inlägget visar vi hur man bearbetar dessa tränade parametrar på dataset med Data Wrangler. Du kan använda Data Wrangler-flöden i produktionsjobb för att bearbeta din data när den växer och förändras.

Lösningsöversikt

För det här inlägget visar vi hur man använder Data Wranglers funktion för ombyggnad av utbildade parameter med den allmänt tillgängliga datamängden på Kaggle: Bostäder i USA från Zillow, fastigheter till salu i USA. Den har hemförsäljningspriser över olika geodistributioner av hem.

Följande diagram illustrerar högnivåarkitekturen för Data Wrangler med hjälp av funktionen för återanpassning av tränade parameter. Vi visar också effekten på datakvaliteten utan den ombyggda parametern och kontrasterar resultaten i slutet.

Arbetsflödet innehåller följande steg:

Utför utforskande dataanalys – Skapa ett nytt flöde på Data Wrangler för att starta den utforskande dataanalysen (EDA). Importera affärsdata för att förstå, rensa, aggregera, transformera och förbereda din data för utbildning. Hänvisa till Utforska Amazon SageMaker Data Wrangler-funktioner med exempeldatauppsättningar för mer information om hur du utför EDA med Data Wrangler.
Skapa ett databearbetningsjobb – Det här steget exporterar alla transformationer som du gjort på datamängden som en flödesfil lagrad i den konfigurerade Amazon enkel lagringstjänst (Amazon S3) plats. Databearbetningsjobbet med flödesfilen som genereras av Data Wrangler tillämpar transformationerna och tränade parametrar som lärts in på din datauppsättning. När databearbetningsjobbet är klart laddas utdatafilerna upp till Amazon S3-platsen som konfigurerats i destinationsnoden. Observera att ombyggnadsalternativet är avstängt som standard. Som ett alternativ till att utföra bearbetningsjobbet omedelbart kan du också schemalägga ett bearbetningsjobb med några få klick med Data Wrangler – Skapa jobb för att köra vid specifika tidpunkter.
Skapa ett databearbetningsjobb med den återmonterade parameterfunktionen – Välj den nya refittränade parameterfunktionen medan du skapar jobbet för att framtvinga återinlärning av dina tränade parametrar på din fullständiga eller förstärkta datauppsättning. Enligt Amazon S3-platskonfigurationen för lagring av flödesfilen skapar eller uppdaterar databearbetningsjobbet den nya flödesfilen. Om du konfigurerar samma Amazon S3-plats som i steg 2, uppdaterar databearbetningsjobbet flödesfilen som genereras i steg 2, som kan användas för att hålla ditt flöde relevant för dina data. När bearbetningsjobbet har slutförts laddas utdatafilerna upp till den S3-bucket som är konfigurerad för målnoden. Du kan använda det uppdaterade flödet på hela din datauppsättning för ett produktionsarbetsflöde.

Förutsättningar

Innan du börjar ladda upp datasetet till en S3-bucket och importera det sedan till Data Wrangler. För instruktioner, se Importera data från Amazon S3.

Låt oss nu gå igenom stegen som nämns i arkitekturdiagrammet.

Utför EDA i Data Wrangler

För att testa funktionen för ombyggnad av utbildade parameter, ställ in följande analys och transformation i Data Wrangler. I slutet av installationen av EDA skapar Data Wrangler en flödesfil som fångas med tränade parametrar från datamängden.

Skapa ett nytt flöde i Amazon SageMaker Data Wrangler för utforskande dataanalys.
Importera företagsdata du laddade upp till Amazon S3.
Du kan förhandsgranska data och alternativ för att välja filtyp, avgränsare, sampling och så vidare. För det här exemplet använder vi Först K samplingsalternativ tillhandahållet av Data Wrangler för att importera de första 50,000 XNUMX posterna från datamängden.
Välja Importera.