Identifikation og undgåelse af almindelige dataproblemer, mens du bygger No Code ML-modeller med Amazon SageMaker Canvas

Genudgivet af Platon

Abonnenter: 0

Forretningsanalytikere arbejder med data og kan lide at analysere, udforske og forstå data for at opnå effektive forretningsresultater. For at løse forretningsproblemer er de ofte afhængige af maskinlæringsudøvere (ML) såsom dataforskere til at hjælpe med teknikker såsom at bruge ML til at bygge modeller ved hjælp af eksisterende data og generere forudsigelser. Det er dog ikke altid muligt, da dataforskere typisk er bundet til deres opgaver og ikke har båndbredden til at hjælpe analytikerne.

For at være uafhængig og nå dine mål som forretningsanalytiker ville det være ideelt at arbejde med brugervenlige, intuitive og visuelle værktøjer, der bruger ML uden behov for at kende detaljerne og bruge kode. Brug af disse værktøjer vil hjælpe dig med at løse dine forretningsproblemer og opnå de ønskede resultater.

Med et mål om at hjælpe dig og din organisation med at blive mere effektive og bruge ML uden at skrive kode, vi introducerede Amazon SageMaker Canvas. Dette er en kodefri ML-løsning, der hjælper dig med at bygge nøjagtige ML-modeller uden at skulle lære om tekniske detaljer, såsom ML-algoritmer og evalueringsmetrikker. SageMaker Canvas tilbyder en visuel, intuitiv grænseflade, der lader dig importere data, træne ML-modeller, udføre modelanalyse og generere ML-forudsigelser, alt sammen uden at skrive en enkelt linje kode.

Når du bruger SageMaker Canvas til at eksperimentere, kan du støde på problemer med datakvaliteten, såsom manglende værdier eller den forkerte problemtype. Disse problemer opdages muligvis ikke før ret sent i processen efter træning af en ML-model. For at afhjælpe denne udfordring understøtter SageMaker Canvas nu datavalidering. Denne funktion kontrollerer proaktivt for problemer i dine data og giver vejledning om løsninger.

I dette indlæg vil vi demonstrere, hvordan du kan bruge datavalideringskapaciteten i SageMaker Canvas før modelbygning. Som navnet antyder, validerer denne funktion dit datasæt, rapporterer problemer og giver nyttige tips til at løse dem. Ved at bruge data af bedre kvalitet ender du med en bedre ML-model.

Valider data i SageMaker Canvas

Datavalidering er en ny funktion i SageMaker Canvas til proaktivt at tjekke for potentielle datakvalitetsproblemer. Når du har importeret dataene og valgt en målkolonne, får du mulighed for at validere dine data som vist her:

Hvis du vælger at validere dine data, analyserer Canvas dine data for adskillige forhold, herunder:

For mange unikke etiketter i din målkolonne – for kategoriforudsigelsesmodeltypen
For mange unikke etiketter i din målkolonne til antallet af rækker i dine data – for kategoriforudsigelsesmodeltypen
Forkert modeltype for dine data – modeltypen passer ikke til de data, du forudsiger i kolonnen Mål
For mange ugyldige rækker – manglende værdier i din målkolonne
Alle funktionskolonner er tekstkolonner – de vil blive droppet for standard builds
For få kolonner – for få kolonner i dine data
Ingen komplette rækker – alle rækkerne i dine data indeholder manglende værdier
Et eller flere kolonnenavne indeholder dobbelte understregninger – SageMaker kan ikke håndtere (__) i kolonneoverskriften

Detaljer for hvert valideringskriterie vil blive givet i de senere afsnit af dette indlæg.

Hvis alle kontroller er bestået, får du følgende bekræftelse: "Der er ikke fundet nogen problemer i dit datasæt".

Hvis der findes et problem, får du en meddelelse for at se og forstå. Dette viser datakvalitetsproblemerne tidligt, og det giver dig mulighed for at løse dem umiddelbart før du spilder tid og ressourcer længere i processen.

Du kan foretage dine justeringer og blive ved med at validere dit datasæt, indtil alle problemerne er løst.

Valider målkolonne og modeltyper

Når du bygger en ML-model i SageMaker Canvas, er flere datakvalitetsproblemer relateret til målkolonne kan få din modelbygning til at mislykkes. SageMaker Canvas tjekker for forskellige slags problemer, der kan påvirke din målkolonne.

For din målkolonne skal du kontrollere Forkert modeltype for dine data. For eksempel, hvis en 2-kategoris forudsigelsesmodel er valgt, men din målkolonne har mere end 2 unikke etiketter, så vil SageMaker Canvas give følgende valideringsadvarsel.
Hvis modeltypen er 2 eller 3+ kategori forudsigelse, så skal du validere for mange unikke etiketter for din målkolonne. Det maksimale antal unikke klasser er 2000. Hvis du vælger en kolonne med mere end 2000 unikke værdier i din Target-kolonne, vil Canvas give følgende valideringsadvarsel.
Ud over for mange unikke måletiketter skal du også passe på mange unikke måletiketter for antallet af rækker i dine data. SageMaker Canvas håndhæver et forhold mellem måletiketten og antallet af samlede rækker til at være mindre end 10 %. Dette sikrer, at du har nok repræsentation for hver kategori til en model af høj kvalitet og reducerer risikoen for overfitting. Din model betragtes som overfitting, når den forudsiger godt på træningsdata, men ikke på nye data, den ikke har set før. Henvise link. at lære mere.
Endelig er den sidste kontrol for målkolonnen for mange ugyldige rækker. Hvis din målkolonne mangler mere end 10 % af dataene eller er ugyldige, vil det påvirke din modelydeevne og i nogle tilfælde få din modelbygning til at mislykkes. Følgende eksempel har mange manglende værdier (>90 % mangler) i målkolonnen, og du får følgende valideringsadvarsel.

Hvis du får nogen af ovenstående advarsler for din målkolonne, skal du bruge følgende trin til at afhjælpe problemerne:

Bruger du den rigtige målkolonne?
Har du valgt den rigtige modeltype?
Kan du øge antallet af rækker i dit datasæt pr. måletiket?
Kan du konsolidere/gruppere lignende etiketter sammen?
Kan du udfylde de manglende/ugyldige værdier?
Har du nok data til at du kan droppe de manglende/ugyldige værdier?
Hvis alle ovenstående muligheder ikke fjerner advarslen, bør du overveje at bruge et andet datasæt.

Se i SageMaker Canvas datatransformationsdokumentation at udføre imputeringstrinene nævnt ovenfor.

Valider alle kolonner

Bortset fra målkolonnen kan du også støde på datakvalitetsproblemer med andre datakolonner (funktionskolonner). Funktionskolonner er inputdata, der bruges til at lave en ML-forudsigelse.

Hvert datasæt skal have mindst 1 funktionskolonne og 1 målkolonne (to kolonner i alt). Ellers vil SageMaker Canvas give dig en For få kolonner i dine data advarsel. Du skal opfylde dette krav, før du kan fortsætte med at bygge en model.
Derefter skal du sikre dig, at dine data har mindst 1 numerisk kolonne. Hvis ikke, så får du alle funktionskolonner er tekstkolonner advarsel. Dette skyldes, at tekstkolonner normalt droppes under standard builds, og derved efterlades modellen uden funktioner at træne. Derfor vil dette få din modelbygning til at fejle. Du kan bruge SageMaker Canvas til at kode nogle af tekstkolonnerne til tal eller bruge hurtig build i stedet for standard build.
Den tredje type advarsel, du kan få for funktionskolonner, er Ingen komplette rækker. Denne validering kontrollerer, om du har mindst én række uden manglende værdier. SageMaker Canvas kræver mindst én hel række, ellers din hurtig opbygning vil mislykkes. Prøv at udfylde de manglende værdier, før du bygger modellen.
Den sidste type validering er Et eller flere kolonnenavne indeholder dobbelte understregninger. Dette er et SageMaker Canvas-specifikt krav. Hvis du har dobbelt understregning (__) i dine kolonneoverskrifter, vil dette forårsage din hurtig opbygning at fejle. Omdøb kolonnerne for at fjerne eventuelle dobbelte understregninger, og prøv derefter igen.

Ryd op

For at undgå at pådrage sig fremtid sessionsafgifter, log ud af SageMaker Canvas.

Konklusion

SageMaker Canvas er en kodefri ML-løsning, der giver forretningsanalytikere mulighed for at skabe nøjagtige ML-modeller og generere forudsigelser gennem en visuel peg-og-klik-grænseflade. Vi viste dig, hvordan SageMaker Canvas hjælper dig med at sikre datakvalitet og afbøde dataproblemer ved proaktivt at validere datasættet. Ved at identificere problemerne tidligt hjælper SageMaker Canvas dig med at bygge kvalitets ML-modeller og reducere build-iterationer uden ekspertise inden for datavidenskab og programmering. For at lære mere om denne nye funktion, se SageMaker Canvas dokumentation.

For at komme i gang og lære mere om SageMaker Canvas, se følgende ressourcer:

Om forfatterne

Hariharan Suresh er Senior Solutions Architect hos AWS. Han brænder for databaser, maskinlæring og design af innovative løsninger. Før han kom til AWS, var Hariharan produktarkitekt, specialist i implementering af kernebankvirksomhed og udvikler og arbejdede med BFSI-organisationer i over 11 år. Uden for teknologien nyder han paragliding og cykling.

Sainath Miriyala er Senior Technical Account Manager hos AWS, der arbejder for bilkunder i USA. Sainath brænder for at designe og bygge store distribuerede applikationer ved hjælp af AI/ML. I sin fritid bruger Sainath tid med familie og venner.

James Wu er Senior AI/ML Specialist Solution Architect hos AWS. hjælpe kunder med at designe og bygge AI/ML-løsninger. James' arbejde dækker en bred vifte af ML use cases med en primær interesse i computervision, deep learning og skalering af ML på tværs af virksomheden. Inden han kom til AWS, var James arkitekt, udvikler og teknologileder i over 10 år, herunder 6 år inden for ingeniørvidenskab og 4 år i marketing- og reklamebranchen.

Tidsstempel: November 10, 2022November 11, 2022

Identifikation og undgåelse af almindelige dataproblemer, mens der ikke bygges kode ML-modeller med Amazon SageMaker Canvas

Genudgivet af Platon

Valider data i SageMaker Canvas

Valider målkolonne og modeltyper

Valider alle kolonner

Ryd op

Konklusion

Om forfatterne

Mere fra AWS maskinindlæring

Testmetoder for Amazon SageMaker ML-modeller

Byg gentagelige, sikre og udvidelige end-to-end maskinlærings-workflows ved hjælp af Kubeflow på AWS

Brug ADFS OIDC som IdP for en Amazon SageMaker Ground Truth privat arbejdsstyrke

Forbedre skalerbarheden for Amazon Rekognition statsløse API'er ved hjælp af flere regioner

Introduktion af ét-trins klassificering og enhedsgenkendelse med Amazon Comprehend til intelligent dokumentbehandling

Byg og træne ML-modeller ved hjælp af en datamesh-arkitektur på AWS: Del 2

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto