Identifiera och undvika vanliga dataproblem samtidigt som man bygger inga Code ML-modeller med Amazon SageMaker Canvas

Återutgiven av Platon

anhängare: 0

Affärsanalytiker arbetar med data och gillar att analysera, utforska och förstå data för att uppnå effektiva affärsresultat. För att ta itu med affärsproblem förlitar de sig ofta på utövare av maskininlärning (ML) som datavetare för att hjälpa till med tekniker som att använda ML för att bygga modeller med befintliga data och generera förutsägelser. Det är dock inte alltid möjligt, eftersom datavetare vanligtvis är bundna till sina uppgifter och inte har bandbredden för att hjälpa analytikerna.

För att vara oberoende och uppnå dina mål som affärsanalytiker skulle det vara idealiskt att arbeta med lättanvända, intuitiva och visuella verktyg som använder ML utan att behöva känna till detaljerna och använda kod. Att använda dessa verktyg hjälper dig att lösa dina affärsproblem och uppnå önskade resultat.

Med ett mål att hjälpa dig och din organisation att bli mer effektiva och använda ML utan att skriva kod, vi introducerade Amazon SageMaker Canvas. Det här är en kodfri ML-lösning som hjälper dig att bygga exakta ML-modeller utan att behöva lära dig mer om tekniska detaljer, såsom ML-algoritmer och utvärderingsmått. SageMaker Canvas erbjuder ett visuellt, intuitivt gränssnitt som låter dig importera data, träna ML-modeller, utföra modellanalyser och generera ML-förutsägelser, allt utan att skriva en enda rad kod.

När du använder SageMaker Canvas för att experimentera kan du stöta på datakvalitetsproblem som saknade värden eller att ha fel problemtyp. Dessa problem kanske inte upptäcks förrän ganska sent i processen efter att ha tränat en ML-modell. För att lindra denna utmaning har SageMaker Canvas nu stöd för datavalidering. Den här funktionen söker proaktivt efter problem i dina data och ger vägledning om lösningar.

I det här inlägget kommer vi att visa hur du kan använda datavalideringsförmågan i SageMaker Canvas innan du bygger modell. Som namnet antyder validerar den här funktionen din datauppsättning, rapporterar problem och ger användbara tips för att åtgärda dem. Genom att använda data av bättre kvalitet kommer du att få en bättre presterande ML-modell.

Validera data i SageMaker Canvas

Datavalidering är en ny funktion i SageMaker Canvas för att proaktivt kontrollera potentiella datakvalitetsproblem. När du har importerat data och valt en målkolumn får du ett val att validera din data som visas här:

Om du väljer att validera din data, analyserar Canvas dina data för ett flertal förhållanden inklusive:

För många unika etiketter i målkolumnen – för kategoriförutsägelsemodelltypen
För många unika etiketter i målkolumnen för antalet rader i din data – för kategoriförutsägelsemodelltypen
Fel modelltyp för dina data – modelltypen stämmer inte överens med de data du förutser i kolumnen Mål
För många ogiltiga rader – saknade värden i din målkolumn
Alla funktionskolumner är textkolumner – de kommer att tas bort för standardbyggen
För få kolumner – för få kolumner i din data
Inga kompletta rader – alla rader i din data innehåller saknade värden
Ett eller flera kolumnnamn innehåller dubbla understreck – SageMaker kan inte hantera (__) i kolumnrubriken

Detaljer för varje valideringskriterium kommer att tillhandahållas i de senare avsnitten av detta inlägg.

Om alla kontroller godkänns får du följande bekräftelse: "Inga problem har hittats i din datauppsättning".

Om något problem upptäcks får du ett meddelande för att se och förstå. Detta visar datakvalitetsproblemen tidigt, och det låter dig ta itu med dem omedelbart innan du slösar tid och resurser vidare i processen.

Du kan göra dina justeringar och fortsätta validera din datauppsättning tills alla problem är åtgärdade.

Validera målkolumn och modelltyper

När du bygger en ML-modell i SageMaker Canvas finns flera datakvalitetsproblem relaterade till målkolumn kan orsaka att din modellbygge misslyckas. SageMaker Canvas letar efter olika typer av problem som kan påverka din målkolumn.

För din målkolumn, kontrollera Fel modelltyp för dina data. Till exempel, om en prediktionsmodell med två kategorier väljs men din målkolumn har fler än två unika etiketter, kommer SageMaker Canvas att ge följande valideringsvarning.
Om modelltypen är 2 eller 3+ kategoriförutsägelse måste du validera för många unika etiketter för din målkolumn. Det maximala antalet unika klasser är 2000. Om du väljer en kolumn med fler än 2000 unika värden i din målkolumn, kommer Canvas att ge följande valideringsvarning.
Förutom för många unika måletiketter bör du också akta dig för många unika måletiketter för antalet rader i din data. SageMaker Canvas tvingar fram ett förhållande mellan måletikett och antalet totala rader som är mindre än 10 %. Detta säkerställer att du har tillräckligt med representation för varje kategori för en högkvalitativ modell och minskar risken för övermontering. Din modell anses vara överanpassad när den förutsäger bra träningsdata men inte på nya data som den inte har sett tidigare. Hänvisa här. att lära sig mer.
Slutligen är den sista kontrollen för målkolumnen för många ogiltiga rader. Om din målkolumn har mer än 10 % av data som saknas eller är ogiltiga, kommer det att påverka din modellprestanda och i vissa fall leda till att modellbygget misslyckas. Följande exempel har många saknade värden (>90 % saknas) i målkolumnen, och du får följande valideringsvarning.

Om du får någon av varningarna ovan för din målkolumn använder du följande steg för att lindra problemen:

Använder du rätt målkolumn?
Valde du rätt modelltyp?
Kan du öka antalet rader i din datauppsättning per måletikett?
Kan du konsolidera/gruppera liknande etiketter?
Kan du fylla i de saknade/ogiltiga värdena?
Har du tillräckligt med data för att du kan släppa de saknade/ogiltiga värdena?
Om alla ovanstående alternativ inte rensar varningen bör du överväga att använda en annan datauppsättning.

Referera till SageMaker Canvas dokumentation för datatransformation för att utföra imputeringsstegen som nämns ovan.

Validera alla kolumner

Bortsett från målkolumnen kan du stöta på datakvalitetsproblem med andra datakolumner (funktionskolumner). Funktionskolumner är indata som används för att göra en ML-förutsägelse.

Varje datauppsättning bör ha minst en funktionskolumn och en målkolumn (totalt två kolumner). Annars ger SageMaker Canvas dig en För få kolumner i din data varning. Du måste uppfylla detta krav innan du kan fortsätta med att bygga en modell.
Därefter måste du se till att din data har minst en numerisk kolumn. Om inte, så får du alla funktionskolumner är textkolumner varning. Detta beror på att textkolumner vanligtvis tas bort under standardbyggen, vilket gör att modellen inte har några funktioner att träna. Därför kommer detta att göra att din modellbyggnad misslyckas. Du kan använda SageMaker Canvas för att koda några av textkolumnerna till siffror eller använda snabbbyggd istället för standardbyggnation.
Den tredje typen av varning du kan få för funktionskolumner är Inga kompletta rader. Denna validering kontrollerar om du har minst en rad utan saknade värden. SageMaker Canvas kräver minst en komplett rad, annars din snabbt bygge kommer misslyckas. Försök att fylla i de saknade värdena innan du bygger modellen.
Den sista typen av validering är Ett eller flera kolumnnamn innehåller dubbla understreck. Detta är ett specifikt krav från SageMaker Canvas. Om du har dubbla understreck (__) i dina kolumnrubriker, kommer detta att orsaka din snabbt bygge att misslyckas. Byt namn på kolumnerna för att ta bort eventuella dubbla understreck och försök sedan igen.

Städa upp

För att undvika att ådra sig framtid sessionsavgifter, logga ut från SageMaker Canvas.

Slutsats

SageMaker Canvas är en kodfri ML-lösning som låter affärsanalytiker skapa korrekta ML-modeller och generera förutsägelser genom ett visuellt peka-och-klicka-gränssnitt. Vi visade dig hur SageMaker Canvas hjälper dig att säkerställa datakvalitet och mildra dataproblem genom att proaktivt validera datamängden. Genom att identifiera problemen tidigt, hjälper SageMaker Canvas dig att bygga ML-modeller av hög kvalitet och minska byggiterationer utan expertis inom datavetenskap och programmering. För att lära dig mer om den här nya funktionen, se SageMaker Canvas dokumentation.

För att komma igång och lära dig mer om SageMaker Canvas, se följande resurser:

Om författarna

Hariharan Suresh är Senior Solutions Architect på AWS. Han brinner för databaser, maskininlärning och att designa innovativa lösningar. Innan han började på AWS var Hariharan produktarkitekt, specialist på implementering av kärnbanker och utvecklare och arbetade med BFSI-organisationer i över 11 år. Utanför tekniken tycker han om att skärmflyga och cykla.

Sainath Miriyala är Senior Technical Account Manager på AWS och arbetar för fordonskunder i USA. Sainath brinner för att designa och bygga storskaliga distribuerade applikationer med AI/ML. På fritiden umgås Sainath med familj och vänner.

James Wu är Senior AI/ML Specialist Solution Architect på AWS. hjälpa kunder att designa och bygga AI/ML-lösningar. James arbete täcker ett brett spektrum av ML-användningsfall, med ett primärt intresse för datorseende, djupinlärning och skalning av ML över hela företaget. Innan han började på AWS var James arkitekt, utvecklare och teknikledare i över 10 år, inklusive 6 år inom ingenjörsbranschen och 4 år inom marknadsförings- och reklambranschen.

Tidsstämpel: November 10, 2022November 11, 2022

Tidsstämpel: Maj 5, 2022

Identifiera och undvika vanliga dataproblem utan att bygga några ML-kodmodeller med Amazon SageMaker Canvas

Återutgiven av Platon

Validera data i SageMaker Canvas

Validera målkolumn och modelltyper

Validera alla kolumner

Städa upp

Slutsats

Om författarna

Mer från AWS maskininlärning

Tillkännage nya verktyg och funktioner för att möjliggöra ansvarsfull AI-innovation | Amazon webbtjänster

Aktivera CI/CD för Amazon SageMaker-slutpunkter för flera regioner

Intelligent dokumentbehandling med AWS AI och Analytics-tjänster inom försäkringsbranschen: Del 2

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto