Identifisere og unngå vanlige dataproblemer mens du bygger ingen Code ML-modeller med Amazon SageMaker Canvas

Publisert av Platon

Følgere: 0

Forretningsanalytikere jobber med data og liker å analysere, utforske og forstå data for å oppnå effektive forretningsresultater. For å løse forretningsproblemer, er de ofte avhengige av maskinlæringsutøvere (ML) som dataforskere for å hjelpe til med teknikker som å bruke ML for å bygge modeller ved å bruke eksisterende data og generere spådommer. Det er imidlertid ikke alltid mulig, da dataforskere vanligvis er bundet opp med oppgavene sine og ikke har båndbredden til å hjelpe analytikerne.

For å være uavhengig og oppnå målene dine som forretningsanalytiker, ville det være ideelt å jobbe med brukervennlige, intuitive og visuelle verktøy som bruker ML uten å måtte kjenne detaljene og bruke kode. Å bruke disse verktøyene vil hjelpe deg med å løse forretningsproblemene dine og oppnå de ønskede resultatene.

Med et mål om å hjelpe deg og din organisasjon til å bli mer effektive, og bruke ML uten å skrive kode, vi introduserte Amazon SageMaker Canvas. Dette er en kodefri ML-løsning som hjelper deg å bygge nøyaktige ML-modeller uten å måtte lære om tekniske detaljer, for eksempel ML-algoritmer og evalueringsmålinger. SageMaker Canvas tilbyr et visuelt, intuitivt grensesnitt som lar deg importere data, trene ML-modeller, utføre modellanalyser og generere ML-spådommer, alt uten å skrive en eneste kodelinje.

Når du bruker SageMaker Canvas til å eksperimentere, kan du støte på problemer med datakvalitet som manglende verdier eller feil problemtype. Disse problemene blir kanskje ikke oppdaget før ganske sent i prosessen etter opplæring av en ML-modell. For å lindre denne utfordringen støtter SageMaker Canvas nå datavalidering. Denne funksjonen sjekker proaktivt for problemer i dataene dine og gir veiledning om løsninger.

I dette innlegget vil vi demonstrere hvordan du kan bruke datavalideringsfunksjonen i SageMaker Canvas før modellbygging. Som navnet antyder, validerer denne funksjonen datasettet ditt, rapporterer problemer og gir nyttige tips for å fikse dem. Ved å bruke data av bedre kvalitet vil du ende opp med en ML-modell som gir bedre resultater.

Valider data i SageMaker Canvas

Datavalidering er en ny funksjon i SageMaker Canvas for proaktivt å se etter potensielle datakvalitetsproblemer. Etter at du har importert dataene og valgt en målkolonne, får du et valg om å validere dataene dine som vist her:

Hvis du velger å validere dataene dine, analyserer Canvas dataene dine for en rekke forhold, inkludert:

For mange unike etiketter i målkolonnen – for kategoriprediksjonsmodelltypen
For mange unike etiketter i målkolonnen for antall rader i dataene dine – for kategoriprediksjonsmodelltypen
Feil modelltype for dataene dine – modelltypen passer ikke til dataene du forutsier i Mål-kolonnen
For mange ugyldige rader – manglende verdier i målkolonnen
Alle funksjonskolonner er tekstkolonner – de vil bli droppet for standardbygg
For få kolonner – for få kolonner i dataene dine
Ingen komplette rader – alle radene i dataene dine inneholder manglende verdier
Ett eller flere kolonnenavn inneholder doble understrekinger – SageMaker kan ikke håndtere (__) i kolonneoverskriften

Detaljer for hvert valideringskriterie vil bli gitt i de senere delene av dette innlegget.

Hvis alle sjekkene er bestått, får du følgende bekreftelse: "Ingen problemer er funnet i datasettet ditt".

Hvis du finner et problem, får du et varsel for å se og forstå. Dette viser datakvalitetsproblemene tidlig, og det lar deg løse dem umiddelbart før du kaster bort tid og ressurser videre i prosessen.

Du kan gjøre justeringer og fortsette å validere datasettet til alle problemene er løst.

Valider målkolonne og modelltyper

Når du bygger en ML-modell i SageMaker Canvas, er det flere datakvalitetsproblemer knyttet til målkolonne kan føre til at modellbyggingen mislykkes. SageMaker Canvas ser etter ulike typer problemer som kan påvirke din målkolonne.

For målkolonnen, sjekk Feil modelltype for dataene dine. For eksempel, hvis en prediksjonsmodell med 2 kategorier er valgt, men målkolonnen din har mer enn 2 unike etiketter, vil SageMaker Canvas gi følgende valideringsadvarsel.
Hvis modelltypen er 2 eller 3+ kategoriprediksjon, må du validere for mange unike etiketter for målkolonnen. Maksimalt antall unike klasser er 2000. Hvis du velger en kolonne med mer enn 2000 unike verdier i Target-kolonnen, vil Canvas gi følgende valideringsadvarsel.
I tillegg til for mange unike måletiketter, bør du også passe deg for mange unike måletiketter for antall rader i dataene dine. SageMaker Canvas håndhever et forhold mellom måletikett og antall totale rader til å være mindre enn 10 %. Dette sikrer at du har nok representasjon for hver kategori for en høykvalitetsmodell og reduserer potensialet for overtilpasning. Modellen din anses som overfitting når den forutsier godt på treningsdataene, men ikke på nye data den ikke har sett før. Henvise her. for å lære mer.
Til slutt er den siste kontrollen for målkolonnen for mange ugyldige rader. Hvis målkolonnen din har mer enn 10 % av dataene som mangler eller er ugyldige, vil det påvirke modellytelsen din, og i noen tilfeller føre til at modellbyggingen mislykkes. Følgende eksempel har mange manglende verdier (>90 % mangler) i målkolonnen, og du får følgende valideringsadvarsel.

Hvis du får noen av advarslene ovenfor for målkolonnen, bruker du følgende trinn for å redusere problemene:

Bruker du høyre målkolonne?
Har du valgt riktig modelltype?
Kan du øke antall rader i datasettet per måletikett?
Kan du konsolidere/gruppere lignende etiketter sammen?
Kan du fylle inn de manglende/ugyldige verdiene?
Har du nok data til at du kan slippe de manglende/ugyldige verdiene?
Hvis alle alternativene ovenfor ikke fjerner advarselen, bør du vurdere å bruke et annet datasett.

Referere til SageMaker Canvas dokumentasjon for datatransformasjon for å utføre imputeringstrinnene nevnt ovenfor.

Valider alle kolonner

Bortsett fra målkolonnen, kan du også støte på datakvalitetsproblemer med andre datakolonner (funksjonskolonner). Funksjonskolonner er inndata som brukes til å lage en ML-prediksjon.

Hvert datasett bør ha minst 1 funksjonskolonne og 1 målkolonne (to kolonner totalt). Ellers vil SageMaker Canvas gi deg en For få kolonner i dataene dine advarsel. Du må tilfredsstille dette kravet før du kan fortsette med å bygge en modell.
Etter det må du sørge for at dataene dine har minst 1 numerisk kolonne. Hvis ikke, så får du alle funksjonskolonner er tekstkolonner advarsel. Dette er fordi tekstkolonner vanligvis utelates under standardbygg, og dermed etterlater modellen ingen funksjoner å trene. Derfor vil dette føre til at modellbyggingen din mislykkes. Du kan bruke SageMaker Canvas til å kode noen av tekstkolonnene til tall eller bruke hurtigbygg i stedet for standardbygg.
Den tredje typen advarsel du kan få for funksjonskolonner er Ingen komplette rader. Denne valideringen sjekker om du har minst én rad uten manglende verdier. SageMaker Canvas krever minst én hel rad, ellers din rask bygging vil mislykkes. Prøv å fylle inn de manglende verdiene før du bygger modellen.
Den siste typen validering er Ett eller flere kolonnenavn inneholder doble understrekinger. Dette er et spesifikt krav fra SageMaker Canvas. Hvis du har doble understrekinger (__) i kolonneoverskriftene dine, vil dette forårsake din rask bygging å mislykkes. Gi nytt navn til kolonnene for å fjerne eventuelle doble understrekinger, og prøv på nytt.

Rydd opp

For å unngå å pådra seg fremtid øktavgifter, logg ut av SageMaker Canvas.

konklusjonen

SageMaker Canvas er en kodefri ML-løsning som lar forretningsanalytikere lage nøyaktige ML-modeller og generere spådommer gjennom et visuelt pek-og-klikk-grensesnitt. Vi viste deg hvordan SageMaker Canvas hjelper deg med å sikre datakvalitet og redusere dataproblemer ved å proaktivt validere datasettet. Ved å identifisere problemene tidlig, hjelper SageMaker Canvas deg med å bygge kvalitets ML-modeller og redusere gjentakelser uten ekspertise innen datavitenskap og programmering. For å lære mer om denne nye funksjonen, se SageMaker Canvas dokumentasjon.

For å komme i gang og lære mer om SageMaker Canvas, se følgende ressurser:

Om forfatterne

Hariharan Suresh er Senior Solutions Architect hos AWS. Han brenner for databaser, maskinlæring og design av innovative løsninger. Før han begynte i AWS, var Hariharan produktarkitekt, kjernebankimplementeringsspesialist og utvikler, og jobbet med BFSI-organisasjoner i over 11 år. Utenom teknologien liker han paragliding og sykling.

Sainath Miriyala er Senior Technical Account Manager hos AWS og jobber for bilkunder i USA. Sainath er lidenskapelig opptatt av å designe og bygge distribuerte applikasjoner i stor skala ved hjelp av AI/ML. På fritiden tilbringer Sainath tid med familie og venner.

James Wu er senior AI/ML spesialistløsningsarkitekt hos AWS. hjelpe kunder med å designe og bygge AI/ML-løsninger. James sitt arbeid dekker et bredt spekter av ML-brukstilfeller, med en primær interesse for datasyn, dyp læring og skalering av ML på tvers av bedriften. Før han begynte i AWS, var James arkitekt, utvikler og teknologileder i over 10 år, inkludert 6 år innen ingeniørfag og 4 år i markedsførings- og reklamebransjen.

Tidstempel: November 10, 2022November 11, 2022

Tidstempel: Kan 5, 2022

Identifisere og unngå vanlige dataproblemer mens du bygger ingen kode ML-modeller med Amazon SageMaker Canvas

Publisert av Platon

Valider data i SageMaker Canvas

Valider målkolonne og modelltyper

Valider alle kolonner

Rydd opp

konklusjonen

Om forfatterne

Mer fra AWS maskinlæring

Kunngjøring av nye verktøy og evner for å muliggjøre ansvarlig AI-innovasjon | Amazon Web Services

Aktiver CI/CD for Amazon SageMaker-endepunkter med flere regioner

Intelligent dokumentbehandling med AWS AI og Analytics-tjenester i forsikringsbransjen: Del 2

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn