Identifisere og unngå vanlige dataproblemer mens du bygger ingen kode ML-modeller med Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Identifisere og unngå vanlige dataproblemer mens du bygger ingen kode ML-modeller med Amazon SageMaker Canvas

Forretningsanalytikere jobber med data og liker å analysere, utforske og forstå data for å oppnå effektive forretningsresultater. For å løse forretningsproblemer, er de ofte avhengige av maskinlæringsutøvere (ML) som dataforskere for å hjelpe til med teknikker som å bruke ML for å bygge modeller ved å bruke eksisterende data og generere spådommer. Det er imidlertid ikke alltid mulig, da dataforskere vanligvis er bundet opp med oppgavene sine og ikke har båndbredden til å hjelpe analytikerne.

For å være uavhengig og oppnå målene dine som forretningsanalytiker, ville det være ideelt å jobbe med brukervennlige, intuitive og visuelle verktøy som bruker ML uten å måtte kjenne detaljene og bruke kode. Å bruke disse verktøyene vil hjelpe deg med å løse forretningsproblemene dine og oppnå de ønskede resultatene.

Med et mål om å hjelpe deg og din organisasjon til å bli mer effektive, og bruke ML uten å skrive kode, vi introduserte Amazon SageMaker Canvas. Dette er en kodefri ML-løsning som hjelper deg å bygge nøyaktige ML-modeller uten å måtte lære om tekniske detaljer, for eksempel ML-algoritmer og evalueringsmålinger. SageMaker Canvas tilbyr et visuelt, intuitivt grensesnitt som lar deg importere data, trene ML-modeller, utføre modellanalyser og generere ML-spådommer, alt uten å skrive en eneste kodelinje.

Når du bruker SageMaker Canvas til å eksperimentere, kan du støte på problemer med datakvalitet som manglende verdier eller feil problemtype. Disse problemene blir kanskje ikke oppdaget før ganske sent i prosessen etter opplæring av en ML-modell. For å lindre denne utfordringen støtter SageMaker Canvas nå datavalidering. Denne funksjonen sjekker proaktivt for problemer i dataene dine og gir veiledning om løsninger.

I dette innlegget vil vi demonstrere hvordan du kan bruke datavalideringsfunksjonen i SageMaker Canvas før modellbygging. Som navnet antyder, validerer denne funksjonen datasettet ditt, rapporterer problemer og gir nyttige tips for å fikse dem. Ved å bruke data av bedre kvalitet vil du ende opp med en ML-modell som gir bedre resultater.

Valider data i SageMaker Canvas

Datavalidering er en ny funksjon i SageMaker Canvas for proaktivt å se etter potensielle datakvalitetsproblemer. Etter at du har importert dataene og valgt en målkolonne, får du et valg om å validere dataene dine som vist her:

Hvis du velger å validere dataene dine, analyserer Canvas dataene dine for en rekke forhold, inkludert:

  • For mange unike etiketter i målkolonnen – for kategoriprediksjonsmodelltypen
  • For mange unike etiketter i målkolonnen for antall rader i dataene dine – for kategoriprediksjonsmodelltypen
  • Feil modelltype for dataene dine – modelltypen passer ikke til dataene du forutsier i Mål-kolonnen
  • For mange ugyldige rader – manglende verdier i målkolonnen
  • Alle funksjonskolonner er tekstkolonner – de vil bli droppet for standardbygg
  • For få kolonner – for få kolonner i dataene dine
  • Ingen komplette rader – alle radene i dataene dine inneholder manglende verdier
  • Ett eller flere kolonnenavn inneholder doble understrekinger – SageMaker kan ikke håndtere (__) i kolonneoverskriften

Detaljer for hvert valideringskriterie vil bli gitt i de senere delene av dette innlegget.

Hvis alle sjekkene er bestått, får du følgende bekreftelse: "Ingen problemer er funnet i datasettet ditt".

Identifisere og unngå vanlige dataproblemer mens du bygger ingen kode ML-modeller med Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Hvis du finner et problem, får du et varsel for å se og forstå. Dette viser datakvalitetsproblemene tidlig, og det lar deg løse dem umiddelbart før du kaster bort tid og ressurser videre i prosessen.

Identifisere og unngå vanlige dataproblemer mens du bygger ingen kode ML-modeller med Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Identifisere og unngå vanlige dataproblemer mens du bygger ingen kode ML-modeller med Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Du kan gjøre justeringer og fortsette å validere datasettet til alle problemene er løst.

Valider målkolonne og modelltyper

Når du bygger en ML-modell i SageMaker Canvas, er det flere datakvalitetsproblemer knyttet til målkolonne kan føre til at modellbyggingen mislykkes. SageMaker Canvas ser etter ulike typer problemer som kan påvirke din målkolonne.

Identifisere og unngå vanlige dataproblemer mens du bygger ingen kode ML-modeller med Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

  1. For målkolonnen, sjekk Feil modelltype for dataene dine. For eksempel, hvis en prediksjonsmodell med 2 kategorier er valgt, men målkolonnen din har mer enn 2 unike etiketter, vil SageMaker Canvas gi følgende valideringsadvarsel.
    Identifisere og unngå vanlige dataproblemer mens du bygger ingen kode ML-modeller med Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  2. Hvis modelltypen er 2 eller 3+ kategoriprediksjon, må du validere for mange unike etiketter for målkolonnen. Maksimalt antall unike klasser er 2000. Hvis du velger en kolonne med mer enn 2000 unike verdier i Target-kolonnen, vil Canvas gi følgende valideringsadvarsel.
    Identifisere og unngå vanlige dataproblemer mens du bygger ingen kode ML-modeller med Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  3. I tillegg til for mange unike måletiketter, bør du også passe deg for mange unike måletiketter for antall rader i dataene dine. SageMaker Canvas håndhever et forhold mellom måletikett og antall totale rader til å være mindre enn 10 %. Dette sikrer at du har nok representasjon for hver kategori for en høykvalitetsmodell og reduserer potensialet for overtilpasning. Modellen din anses som overfitting når den forutsier godt på treningsdataene, men ikke på nye data den ikke har sett før. Henvise her. for å lære mer.
    Identifisere og unngå vanlige dataproblemer mens du bygger ingen kode ML-modeller med Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  4. Til slutt er den siste kontrollen for målkolonnen for mange ugyldige rader. Hvis målkolonnen din har mer enn 10 % av dataene som mangler eller er ugyldige, vil det påvirke modellytelsen din, og i noen tilfeller føre til at modellbyggingen mislykkes. Følgende eksempel har mange manglende verdier (>90 % mangler) i målkolonnen, og du får følgende valideringsadvarsel.
    Identifisere og unngå vanlige dataproblemer mens du bygger ingen kode ML-modeller med Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
    Identifisere og unngå vanlige dataproblemer mens du bygger ingen kode ML-modeller med Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Hvis du får noen av advarslene ovenfor for målkolonnen, bruker du følgende trinn for å redusere problemene:

  1. Bruker du høyre målkolonne?
  2. Har du valgt riktig modelltype?
  3. Kan du øke antall rader i datasettet per måletikett?
  4. Kan du konsolidere/gruppere lignende etiketter sammen?
  5. Kan du fylle inn de manglende/ugyldige verdiene?
  6. Har du nok data til at du kan slippe de manglende/ugyldige verdiene?
  7. Hvis alle alternativene ovenfor ikke fjerner advarselen, bør du vurdere å bruke et annet datasett.

Referere til SageMaker Canvas dokumentasjon for datatransformasjon for å utføre imputeringstrinnene nevnt ovenfor.

Valider alle kolonner

Bortsett fra målkolonnen, kan du også støte på datakvalitetsproblemer med andre datakolonner (funksjonskolonner). Funksjonskolonner er inndata som brukes til å lage en ML-prediksjon.

  • Hvert datasett bør ha minst 1 funksjonskolonne og 1 målkolonne (to kolonner totalt). Ellers vil SageMaker Canvas gi deg en For få kolonner i dataene dine advarsel. Du må tilfredsstille dette kravet før du kan fortsette med å bygge en modell.
    Identifisere og unngå vanlige dataproblemer mens du bygger ingen kode ML-modeller med Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  • Etter det må du sørge for at dataene dine har minst 1 numerisk kolonne. Hvis ikke, så får du alle funksjonskolonner er tekstkolonner advarsel. Dette er fordi tekstkolonner vanligvis utelates under standardbygg, og dermed etterlater modellen ingen funksjoner å trene. Derfor vil dette føre til at modellbyggingen din mislykkes. Du kan bruke SageMaker Canvas til å kode noen av tekstkolonnene til tall eller bruke hurtigbygg i stedet for standardbygg.
    Identifisere og unngå vanlige dataproblemer mens du bygger ingen kode ML-modeller med Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  • Den tredje typen advarsel du kan få for funksjonskolonner er Ingen komplette rader. Denne valideringen sjekker om du har minst én rad uten manglende verdier. SageMaker Canvas krever minst én hel rad, ellers din rask bygging vil mislykkes. Prøv å fylle inn de manglende verdiene før du bygger modellen.
    Identifisere og unngå vanlige dataproblemer mens du bygger ingen kode ML-modeller med Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  • Den siste typen validering er Ett eller flere kolonnenavn inneholder doble understrekinger. Dette er et spesifikt krav fra SageMaker Canvas. Hvis du har doble understrekinger (__) i kolonneoverskriftene dine, vil dette forårsake din rask bygging å mislykkes. Gi nytt navn til kolonnene for å fjerne eventuelle doble understrekinger, og prøv på nytt.
    Identifisere og unngå vanlige dataproblemer mens du bygger ingen kode ML-modeller med Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Rydd opp

For å unngå å pådra seg fremtid øktavgifter, logg ut av SageMaker Canvas.

Identifisere og unngå vanlige dataproblemer mens du bygger ingen kode ML-modeller med Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

konklusjonen

SageMaker Canvas er en kodefri ML-løsning som lar forretningsanalytikere lage nøyaktige ML-modeller og generere spådommer gjennom et visuelt pek-og-klikk-grensesnitt. Vi viste deg hvordan SageMaker Canvas hjelper deg med å sikre datakvalitet og redusere dataproblemer ved å proaktivt validere datasettet. Ved å identifisere problemene tidlig, hjelper SageMaker Canvas deg med å bygge kvalitets ML-modeller og redusere gjentakelser uten ekspertise innen datavitenskap og programmering. For å lære mer om denne nye funksjonen, se SageMaker Canvas dokumentasjon.

For å komme i gang og lære mer om SageMaker Canvas, se følgende ressurser:


Om forfatterne

Identifisere og unngå vanlige dataproblemer mens du bygger ingen kode ML-modeller med Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Hariharan Suresh er Senior Solutions Architect hos AWS. Han brenner for databaser, maskinlæring og design av innovative løsninger. Før han begynte i AWS, var Hariharan produktarkitekt, kjernebankimplementeringsspesialist og utvikler, og jobbet med BFSI-organisasjoner i over 11 år. Utenom teknologien liker han paragliding og sykling.

Identifisere og unngå vanlige dataproblemer mens du bygger ingen kode ML-modeller med Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Sainath Miriyala er Senior Technical Account Manager hos AWS og jobber for bilkunder i USA. Sainath er lidenskapelig opptatt av å designe og bygge distribuerte applikasjoner i stor skala ved hjelp av AI/ML. På fritiden tilbringer Sainath tid med familie og venner.

Identifisere og unngå vanlige dataproblemer mens du bygger ingen kode ML-modeller med Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.James Wu er senior AI/ML spesialistløsningsarkitekt hos AWS. hjelpe kunder med å designe og bygge AI/ML-løsninger. James sitt arbeid dekker et bredt spekter av ML-brukstilfeller, med en primær interesse for datasyn, dyp læring og skalering av ML på tvers av bedriften. Før han begynte i AWS, var James arkitekt, utvikler og teknologileder i over 10 år, inkludert 6 år innen ingeniørfag og 4 år i markedsførings- og reklamebransjen.

Tidstempel:

Mer fra AWS maskinlæring