Tavaliste andmeprobleemide tuvastamine ja vältimine koodita ML-mudelite loomisel Amazon SageMakeri lõuendiga

Taasavaldanud Platon

järgijaid: 0

Ärianalüütikud töötavad andmetega ja neile meeldib analüüsida, uurida ja mõista andmeid, et saavutada tõhusaid äritulemusi. Äriprobleemide lahendamiseks toetuvad nad sageli masinõppe (ML) praktikutele, näiteks andmeteadlastele, kes abistavad selliseid tehnikaid nagu ML kasutamine olemasolevate andmete põhjal mudelite koostamiseks ja prognooside loomiseks. Siiski ei ole see alati võimalik, kuna andmeteadlased on tavaliselt oma ülesannetega seotud ja neil pole analüütikute abistamiseks piisavalt ribalaiust.

Et olla sõltumatu ja saavutada ärianalüütikuna oma eesmärgid, oleks ideaalne töötada lihtsalt kasutatavate, intuitiivsete ja visuaalsete tööriistadega, mis kasutavad ML-i, ilma et oleks vaja detaile teada ja koodi kasutada. Nende tööriistade kasutamine aitab teil lahendada äriprobleeme ja saavutada soovitud tulemusi.

Eesmärgiga aidata teil ja teie organisatsioonil muutuda tõhusamaks ning kasutada ML-i ilma koodi kirjutamata tutvustas Amazon SageMaker Canvas. See on koodita ML-lahendus, mis aitab teil luua täpseid ML-mudeleid, ilma et peaksite tundma õppima tehnilisi üksikasju, nagu ML-algoritmid ja hindamismõõdikud. SageMaker Canvas pakub visuaalset, intuitiivset liidest, mis võimaldab teil importida andmeid, koolitada ML-mudeleid, teostada mudelianalüüsi ja genereerida ML-ennustusi, kõike seda ilma ühtki koodirida kirjutamata.

Kui kasutate SageMaker Canvast katsetamiseks, võib teil tekkida andmekvaliteedi probleeme, nagu puuduvad väärtused või vale probleemi tüüp. Need probleemid võidakse avastada alles üsna hilja pärast ML-mudeli väljaõpetamist. Selle väljakutse leevendamiseks toetab SageMaker Canvas nüüd andmete valideerimist. See funktsioon kontrollib ennetavalt teie andmetes probleeme ja annab juhiseid lahenduste leidmiseks.

Selles postituses näitame, kuidas saate enne mudeli koostamist kasutada SageMaker Canvas andmete valideerimise võimalust. Nagu nimigi ütleb, kinnitab see funktsioon teie andmestiku, teatab probleemidest ja pakub kasulikke näpunäiteid nende parandamiseks. Parema kvaliteediga andmeid kasutades saate paremini toimiva ML-mudeli.

Andmete kinnitamine SageMaker Canvasis

Andmete valideerimine on SageMaker Canvase uus funktsioon potentsiaalsete andmete kvaliteediprobleemide ennetamiseks. Pärast andmete importimist ja sihtveeru valimist antakse teile võimalus oma andmed kinnitada, nagu siin näidatud.

Kui otsustate oma andmeid kinnitada, analüüsib Canvas teie andmeid mitmete tingimuste suhtes, sealhulgas:

Teie sihtveerus on liiga palju unikaalseid silte – kategooria ennustusmudeli tüübi jaoks
Teie sihtveerus on andmete ridade arvu jaoks liiga palju kordumatuid silte – kategooria ennustusmudeli tüübi jaoks
Teie andmete jaoks vale mudelitüüp – mudeli tüüp ei sobi veerus Sihtmärk ennustatavate andmetega
Liiga palju kehtetuid ridu – teie sihtveerus puuduvad väärtused
Kõik funktsiooniveerud on tekstiveerud – standardehituse puhul neist loobutakse
Liiga vähe veerge – teie andmetes on liiga vähe veerge
Täielikke ridu pole – kõik teie andmete read sisaldavad puuduvaid väärtusi
Ühes või mitmes veeru nimes on topeltalakriipsud – SageMaker ei saa veerupäises (__) hakkama

Üksikasjad iga valideerimiskriteeriumi kohta esitatakse selle postituse hilisemates jaotistes.

Kui kõik kontrollid on läbitud, saate järgmise kinnituse. „Teie andmestikust ei leitud probleeme”.

Kui leitakse mõni probleem, saate kuvamiseks ja mõistmiseks märguande. See tõstab andmete kvaliteediprobleemid varakult esile ja võimaldab teil need kohe lahendada, enne kui kulutate protsessi edasisele ajale ja ressursse.

Saate teha muudatusi ja jätkata andmestiku valideerimist, kuni kõik probleemid on lahendatud.

Sihtveergude ja mudelitüüpide kinnitamine

Kui loote rakenduses SageMaker Canvas ML-mudelit, võivad mitmed andmekvaliteediga seotud probleemid sihtveerg võib teie mudeli koostamine ebaõnnestuda. SageMaker Canvas kontrollib erinevaid probleeme, mis võivad teie olukorda mõjutada sihtveerg.

Sihtveeru jaoks kontrollige Teie andmete jaoks vale mudelitüüp. Näiteks kui on valitud 2-kategooria ennustusmudel, kuid teie sihtveerul on rohkem kui kaks unikaalset silti, siis annab SageMaker Canvas järgmise valideerimishoiatuse.
Kui mudeli tüüp on kategooria ennustus 2 või 3+, peate kinnitama liiga palju unikaalseid silte sihtveeru jaoks. Unikaalsete klasside maksimaalne arv on 2000. Kui valite veerus Target rohkem kui 2000 kordumatu väärtusega veeru, kuvab Canvas järgmise kinnitamishoiatuse.
Lisaks liiga paljudele ainulaadsetele sihtmärgistele peaksite olema ka ettevaatlik palju kordumatuid sihtmärke teie andmete ridade arvu jaoks. SageMaker Canvas sunnib sihtmärgise ja ridade koguarvu suhte olema alla 10%. See tagab kvaliteetse mudeli jaoks piisava esindatuse igas kategoorias ja vähendab ülepaigutamise võimalust. Teie mudelit peetakse liiga sobivaks, kui see ennustab hästi treeninguandmeid, kuid mitte uusi andmeid, mida ta varem pole näinud. Viidata siin rohkem teada saada.
Lõpuks on sihtveeru viimane kontroll liiga palju kehtetuid ridu. Kui teie sihtveerus on rohkem kui 10% andmetest puudu või need on kehtetud, mõjutab see teie mudeli toimivust ja mõnel juhul põhjustab mudeli koostamise ebaõnnestumise. Järgmises näites on sihtveerus palju puuduvaid väärtusi (puudub >90%) ja teile kuvatakse järgmine valideerimishoiatus.

Kui saate oma sihtveeru kohta mõne ülaltoodud hoiatustest, kasutage probleemide leevendamiseks järgmisi samme.

Kas kasutate õiget sihtveergu?
Kas valisite õige mudelitüübi?
Kas saate oma andmestiku ridade arvu sihtmärgise kohta suurendada?
Kas saate sarnaseid silte koondada/rühmitada?
Kas saate puuduvad/valed väärtused täita?
Kas teil on piisavalt andmeid, et saaksite puuduvad/kehtetud väärtused ära jätta?
Kui kõik ülaltoodud valikud hoiatust ei kustuta, peaksite kaaluma mõne muu andmestiku kasutamist.

Vt SageMaker Canvas andmete teisendamise dokumentatsioon ülalmainitud imputeerimisetappide sooritamiseks.

Kinnitage kõik veerud

Lisaks sihtveerule võib teil tekkida andmekvaliteedi probleeme ka teiste andmeveergudega (funktsiooni veergudega). Funktsioonide veerud on sisendandmed, mida kasutatakse ML-i prognoosi tegemiseks.

Igal andmestikul peab olema vähemalt 1 funktsiooniveerg ja 1 sihtveerg (kokku 2 veergu). Vastasel juhul annab SageMaker Canvas teile a Teie andmetes on liiga vähe veerge hoiatus. Enne mudeli koostamist peate selle nõude täitma.
Pärast seda peate veenduma, et teie andmetel on vähemalt 1 numbriline veerg. Kui ei, siis saate selle kõik funktsiooniveerud on tekstiveerud hoiatus. Selle põhjuseks on asjaolu, et tekstiveerud jäetakse tavaliselt välja tavajärgimise ajal, mistõttu ei jää mudelile treenitavaid funktsioone. Seetõttu põhjustab see teie mudeli loomise ebaõnnestumise. Saate kasutada SageMaker Canvast, et kodeerida osa tekstiveerud numbriteks või kasutada standardse järgu asemel kiirehitust.
Kolmas tüüpi hoiatus, mida võite funktsioonide veergude kohta saada, on Täielikke ridu pole. See valideerimine kontrollib, kas teil on vähemalt üks rida, kus puuduvad väärtused. SageMaker Canvas nõuab vähemalt ühte täielikku rida, vastasel juhul teie kiire ehitamine ebaõnnestub. Proovige enne mudeli koostamist puuduvad väärtused täita.
Viimane valideerimise tüüp on Ühes või mitmes veeru nimes on topeltalakriipsud. See on SageMaker Canvase spetsiifiline nõue. Kui teie veerupäistes on topeltalakriipsud (__), põhjustab see teie kiire ehitamine ebaõnnestuda. Topeltalakriipsude eemaldamiseks nimetage veerud ümber ja proovige seejärel uuesti.

Koristage

Et vältida tulevikus tekkimist seansi tasud, logige SageMaker Canvasist välja.

Järeldus

SageMaker Canvas on koodita ML-lahendus, mis võimaldab ärianalüütikutel luua täpseid ML-mudeleid ja genereerida ennustusi visuaalse osuta-ja-klõpsatava liidese kaudu. Näitasime teile, kuidas SageMaker Canvas aitab teil andmete kvaliteedis veenduda ja andmeprobleeme leevendada, valideerides andmestiku ennetavalt. Tuvastades probleemid varakult, aitab SageMaker Canvas teil luua kvaliteetseid ML-mudeleid ja vähendada loomise iteratsioone ilma andmeteaduse ja programmeerimise alaste teadmisteta. Selle uue funktsiooni kohta lisateabe saamiseks vaadake SageMaker Canvas dokumentatsioon.

Alustamiseks ja SageMaker Canvase kohta lisateabe saamiseks vaadake järgmisi ressursse:

Autoritest

Hariharan Suresh on AWSi vanemlahenduste arhitekt. Ta on kirglik andmebaaside, masinõppe ja uuenduslike lahenduste kujundamise vastu. Enne AWS-iga liitumist oli Hariharan tootearhitekt, põhipanganduse juurutamise spetsialist ja arendaja ning töötas BFSI organisatsioonidega üle 11 aasta. Väljaspool tehnikat naudib ta paraplaaniga lendamist ja jalgrattasõitu.

Sainath Miriyala on AWS-i vanemtehniline kliendihaldur, kes töötab USA autoklientide heaks. Sainath on kirglik AI/ML abil suuremahuliste hajutatud rakenduste kavandamise ja ehitamise vastu. Vabal ajal veedab Sainath aega pere ja sõpradega.

James Wu on AWS-i vanem AI/ML-lahenduste spetsialist. aidata klientidel AI/ML lahendusi kavandada ja luua. Jamesi töö hõlmab laia valikut ML kasutusjuhtumeid, mille peamine huvi on arvutinägemine, sügav õppimine ja ML-i skaleerimine kogu ettevõttes. Enne AWS-iga liitumist oli James arhitekt, arendaja ja tehnoloogiajuht üle 10 aasta, sealhulgas 6 aastat inseneritöös ning 4 aastat turundus- ja reklaamitööstuses.

Ajatempel: November 10, 2022November 11, 2022

Ajatempel: Võib 5 2022

Tavaliste andmeprobleemide tuvastamine ja vältimine Amazon SageMaker Canvasiga koodita ML-mudelite loomisel

Taasavaldanud Platon

Andmete kinnitamine SageMaker Canvasis

Sihtveergude ja mudelitüüpide kinnitamine

Kinnitage kõik veerud

Koristage

Järeldus

Autoritest

Veel alates AWS-i masinõpe

Teatame uutest tööriistadest ja võimalustest vastutustundliku tehisintellekti innovatsiooni võimaldamiseks | Amazoni veebiteenused

Lubage mitme piirkonna Amazon SageMakeri lõpp-punktide CI/CD

Arukas dokumenditöötlus AWS AI ja Analyticsi teenustega kindlustussektoris: 2. osa

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto