Tutvustame Amazon SageMaker Data Wrangleri uusi manustatud visualiseerimisi PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Tutvustame Amazon SageMaker Data Wrangleri uusi manustatud visualiseerimisi

Andmete kvaliteedi käsitsi kontrollimine ja andmete puhastamine on valus ja aeganõudev protsess, mis võib võtta projektiga seotud andmeteadlase ajast tohutult aega. Anaconda 2020. aasta andmeteadlaste küsitluse kohaselt kulutavad andmeteadlased ligikaudu 66% oma ajast andmete ettevalmistamise ja analüüsimise ülesannetele, sealhulgas laadimisele (19%), puhastamisele (26%) ja andmete visualiseerimisele (21%). Amazon SageMaker pakub erinevaid andmete ettevalmistamise tööriistu, mis vastavad klientide erinevatele vajadustele ja eelistustele. Kasutajatele, kes eelistavad GUI-põhist interaktiivset liidest, SageMaker Data Wrangler pakub 300+ sisseehitatud visualiseerimist, analüüsi ja teisendust, et tõhusalt töödelda Sparki tagatud andmeid ilma ühtki koodirida kirjutamata.

Andmete visualiseerimine masinõppes (ML) on iteratiivne protsess ja nõuab avastamiseks, uurimiseks ja kinnitamiseks andmestiku pidevat visualiseerimist. Andmete perspektiivi paigutamine eeldab iga veeru nägemist, et mõista võimalikke andmevigu, puuduvaid väärtusi, valesid andmetüüpe, eksitavaid/valeid andmeid, kõrvalekalduvaid andmeid ja muud.

Selles postituses näitame teile, kuidas Amazon SageMaker Data Wrangler loob automaatselt andmete levitamise peamised visualiseeringud, tuvastab andmete kvaliteediprobleemid ja toob välja iga funktsiooni kohta andmeid, näiteks kõrvalekaldeid, ilma ühtki koodirida kirjutamata. See aitab parandada andmevõrgu kasutuskogemust automaatsete kvaliteedihoiatustega (nt puuduvad väärtused või kehtetud väärtused). Automaatselt genereeritud visualiseeringud on samuti interaktiivsed. Näiteks saate kuvada tabeli viie kõige sagedasema üksuse kohta, mis on järjestatud protsentides, ja hõljutage kursorit riba kohal, et vahetada loenduse ja protsendi vahel.

Eeldused

Amazon SageMaker Data Wrangler on SageMakeri funktsioon, mis on saadaval SageMaker Studios. Saate jälgida Stuudio liitumisprotsess Studio keskkonna ja märkmikute keerutamiseks. Kuigi saate valida mõne autentimismeetodi vahel, on kõige lihtsam viis Studio domeeni loomiseks järgida Kiirjuhised. Kiirkäivitus kasutab samu vaikesätteid, mis Studio standardseadistus. Saate valida ka pardal oleva kasutamise AWS-i identiteedi- ja juurdepääsuhalduse (IAM) identiteedikeskus (AWS Single Sign-On järglane) autentimiseks (vt Sisseehitatud Amazon SageMakeri domeeniga, kasutades IAM-i identiteedikeskust).

Lahendus Juurdepääs

Alusta oma SageMakeri stuudio Keskkond ja luua uus Data Wrangleri voog. Saate importida oma andmestiku või kasutada näidisandmestikku (Titaanlik), nagu on näha järgmisel pildil. Need kaks sõlme ( allikas sõlm ja andmed tüüpi node) on klõpsatavad – kui topeltklõpsate neil kahel sõlmel, kuvab Data Wrangler tabeli.

Meie puhul paremklõpsame ikooni Andmetüübid ikoon ja Lisage teisendus:

Nüüd peaksite nägema iga veeru peal visualiseeringuid. Palun oodake graafikute laadimiseks veidi aega. Latentsusaeg sõltub andmestiku suurusest (Titanicu andmekogumi puhul peaks see vaikeeksemplari korral võtma 1–2 sekundit).

Tutvustame Amazon SageMaker Data Wrangleri uusi manustatud visualiseerimisi PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Kerige horisontaalse ülemise ribani, hõljutades kursorit tööriistaspikri kohal. Nüüd, kui diagrammid on laaditud, näete andmete jaotust, kehtetuid väärtusi ja puuduvaid väärtusi. Kõrvalekalded ja puuduvad väärtused on ekslike andmete tunnused ning nende tuvastamine on ülioluline, kuna need võivad tulemusi mõjutada. See tähendab, et kuna teie andmed pärinevad mitterepresentatiivsest valimist, ei pruugi teie järeldused olla üldistatavad teie uuringust väljapoole jäävate olukordade jaoks. Väärtuste klassifikatsiooni saab näha allosas olevatel graafikutel, kus kehtiv väärtused on esitatud valgega, kehtetu väärtused on sinised ja puuduvad väärtused lillas. Võite vaadata ka kõrvalised näitajad kujutatud siniste täppidega diagrammist vasakul või paremal.

Tutvustame Amazon SageMaker Data Wrangleri uusi manustatud visualiseerimisi PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Kõik visualiseeringud on histogrammide kujul. Mittekategooriliste andmete jaoks määratakse iga prügikasti jaoks ämbrikomplekt. Kategooriliste andmete puhul käsitletakse iga kordumatut väärtust prügikastina. Histogrammi peal on tulpdiagramm, mis näitab kehtetuid ja puuduvaid väärtusi. Saame vaadata numbrilise, kategooria, kahendkoodi, teksti ja kuupäeva tüüpi kehtivate väärtuste suhet, samuti puuduvate väärtuste suhet null- ja tühjade lahtrite koguarvu põhjal ning lõpuks kehtetute väärtuste suhet. Vaatame mõningaid näiteid, et mõista, kuidas neid kasutades näha Data Wrangleri eellaaditud näidis Titanicu andmestik.

Näiteks 1 – Saame vaadata 20% puuduvaid väärtusi AGE tunnus/veerg. Andmetega seotud uuringute/ML-i valdkonnas on ülioluline tegeleda puuduvate andmetega, kas need eemaldades või imputeerides (puuduvate väärtuste käsitlemine teatud hinnanguga).

Tutvustame Amazon SageMaker Data Wrangleri uusi manustatud visualiseerimisi PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.
Puuduvaid väärtusi saate töödelda kasutades Käsitlege puuduvaid väärtusi ümberkujundamisrühm. Kasuta Arvestus puudub teisendus, et genereerida kaudseid väärtusi, kui sisendveerus leiti puuduvad väärtused. Konfiguratsioon sõltub teie andmetüübist.

Tutvustame Amazon SageMaker Data Wrangleri uusi manustatud visualiseerimisi PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Selles näites on AGE veerus on numbriline andmetüüp. Imputeerimisstrateegia puhul võime imputeerida keskmine või ligikaudne mediaan üle teie andmekogus olevate väärtuste.

Tutvustame Amazon SageMaker Data Wrangleri uusi manustatud visualiseerimisi PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Nüüd, kui oleme teisenduse lisanud, näeme, et AGE veerus pole enam väärtusi puudu.

Tutvustame Amazon SageMaker Data Wrangleri uusi manustatud visualiseerimisi PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Näiteks 2 – Saame vaadata 27% kehtetuid väärtusi PILET omadus/veerg, mis on STRING tüüp. Kehtetud andmed võivad anda kallutatud hinnanguid, mis võivad vähendada mudeli täpsust ja põhjustada valesid järeldusi. Uurime mõnda teisendust, mida saame kasutada kehtetute andmete käsitlemiseks PILET kolonni.

Ekraanipilti vaadates näeme, et mõned sisendid on kirjutatud vormingus, mis sisaldab tähestikku enne numbreid "PC 17318ja teised on lihtsalt numbrid, näiteks11769".

Võime valida teisenduse rakendamise, et otsida ja redigeerida teatud mustreid stringides, näiteks "arvuti” ja asendada need. Järgmisena saame valada oma nöör veerus uut tüüpi, näiteks Pikk kasutamise lihtsustamiseks.

Tutvustame Amazon SageMaker Data Wrangleri uusi manustatud visualiseerimisi PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Tutvustame Amazon SageMaker Data Wrangleri uusi manustatud visualiseerimisi PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

See jätab meile endiselt 19% väärtused puudu PILET tunnusjoon. Sarnaselt näitele 1 saame nüüd puuduvaid väärtusi arvutada keskmise või ligikaudse mediaani abil. Funktsioon PILET Alloleval pildil ei tohiks enam olla valesid või puuduvaid väärtusi.

Tutvustame Amazon SageMaker Data Wrangleri uusi manustatud visualiseerimisi PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Veendumaks, et pärast selle õpetuse järgimist teil ei tekiks tasusid, veenduge, et sulgege rakendus Data Wrangler.

Järeldus 

Selles postituses tutvustasime uut Amazon Sagemaker Data Wrangler vidin, mis aitab eemaldada diferentseerimata raskete tõstmine lõppkasutajatele andmete ettevalmistamise ajal koos automaatselt ilmuvate visualisatsioonide ja andmete profileerimisega iga funktsiooni kohta. Selle vidina abil on lihtne visualiseerida andmeid (nt kategooriline/mittekategooriline histogramm), tuvastada andmekvaliteediga seotud probleeme (nt puuduvad väärtused ja kehtetud väärtused) ning teha andmete põhjal ülevaadet (nt kõrvalekalded ja ülemine N üksus).

Saate seda võimalust juba täna kasutama hakata kõigis piirkondades, kus SageMaker Studio on saadaval. Proovi, ja andke meile teada, mida arvate. Ootame alati teie tagasisidet kas teie tavapäraste AWS-i tugikontaktide kaudu või aadressil AWS foorum SageMakeri jaoks.


Autoritest

Tutvustame Amazon SageMaker Data Wrangleri uusi manustatud visualiseerimisi PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Isha Dua on San Francisco lahe piirkonnas asuv vanemlahenduste arhitekt. Ta aitab AWS Enterprise'i klientidel kasvada, mõistes nende eesmärke ja väljakutseid, ning juhendab neid, kuidas nad saavad oma rakendusi pilvepõhiselt üles ehitada, tagades samas nende vastupidavuse ja skaleeritavuse. Ta on kirglik masinõppetehnoloogiate ja keskkonnasäästlikkuse vastu.

Tutvustame Amazon SageMaker Data Wrangleri uusi manustatud visualiseerimisi PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Parth Patel on lahenduste arhitekt AWSis San Francisco lahe piirkonnas. Parth juhendab kliente kiirendama nende teekonda pilve poole ja aitab neil AWS-pilve edukalt kasutusele võtta. Ta keskendub ML-ile ja rakenduste moderniseerimisele.

Ajatempel:

Veel alates AWS-i masinõpe