Kasutage Amazon SageMaker Canvas'i uurimuslikuks andmeanalüüsiks PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Kasutage uurimuslikuks andmete analüüsiks rakendust Amazon SageMaker Canvas

Uurimuslik andmete analüüs (EDA) on tavaline ülesanne, mida ärianalüütikud teevad, et avastada mustreid, mõista seoseid, kinnitada eeldusi ja tuvastada andmetes anomaaliaid. Masinõppes (ML) on enne mudeli loomisega alustamist oluline esmalt mõista andmeid ja nende seoseid. Traditsioonilised ML-i arendustsüklid võivad mõnikord kesta kuid ja nõuda täiustatud andmeteaduse ja ML-inseneri oskusi, samas kui koodita ML-lahendused võivad aidata ettevõtetel kiirendada ML-lahenduste tarnimist päevade või isegi tundidega.

Amazon SageMakeri lõuend on koodita ML-tööriist, mis aitab ärianalüütikutel luua täpseid ML-prognoose ilma koodi kirjutamata või ML-i kogemust nõudmata. Canvas pakub hõlpsasti kasutatavat visuaalset liidest andmekogumite laadimiseks, puhastamiseks ja teisendamiseks, millele järgneb ML-mudelite loomine ja täpsete prognooside genereerimine.

Selles postituses käsitleme tänu Canvase sisseehitatud täiustatud visualiseerimistele, kuidas EDA-d läbi viia, et enne ML-mudeli loomist oma andmetest paremini aru saada. Need visualiseeringud aitavad teil analüüsida andmekogumite funktsioonide vahelisi seoseid ja oma andmeid paremini mõista. Seda tehakse intuitiivselt, võimaldades andmetega suhelda ja avastada teadmisi, mis võivad ad hoc päringute puhul märkamatuks jääda. Neid saab enne ML-mudelite ehitamist ja treenimist kiiresti luua Canvas'i andmete visualiseerija abil.

Lahenduse ülevaade

Need visualiseeringud täiendavad andmete ettevalmistamise ja uurimise võimalusi, mida Canvas juba pakub, sealhulgas võime parandada puuduvaid väärtusi ja asendada kõrvalekaldeid; andmekogumeid filtreerida, ühendada ja muuta; ja eraldage ajatemplitest konkreetsed ajaväärtused. Kui soovite lisateavet selle kohta, kuidas Canvas saab aidata teil andmekogu puhastada, teisendada ja ette valmistada, vaadake lehte Valmistage ette andmed täpsemate teisendustega.

Oma kasutusjuhtumi puhul vaatleme, miks kliendid mistahes äritegevusest loobuvad, ja illustreerime, kuidas EDA saab analüütiku seisukohast aidata. Selles postituses kasutatav andmekogum on telekommunikatsiooni mobiiltelefoni operaatori sünteetiline andmestik klientide vähenemise prognoosimiseks, mille saate alla laadida (churn.csv) või võtate katsetamiseks kaasa oma andmestiku. Oma andmestiku importimise juhiste saamiseks vaadake Andmete importimine Amazon SageMaker Canvasis.

Eeldused

Järgige juhiseid jaotises Eeltingimused Amazon SageMaker Canvase seadistamiseks enne kui jätkate.

Importige oma andmestik Canvasesse

Näidisandmestiku Canvasisse importimiseks toimige järgmiselt.

  1. Logige Canvasesse sisse ärikasutajana.Esmalt laadime eelnevalt mainitud andmestiku oma kohalikust arvutist üles Canvasesse. Kui soovite kasutada muid allikaid, nt Amazoni punane nihe, viitama Ühendage välise andmeallikaga.
  2. Vali Import.Kasutage Amazon SageMaker Canvas'i uurimuslikuks andmeanalüüsiks PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.
  3. Vali Täiendava, siis vali Valige oma arvutist failid.
  4. Valige oma andmestik (churn.csv) ja valige Andmete importimine.Kasutage Amazon SageMaker Canvas'i uurimuslikuks andmeanalüüsiks PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.
  5. Valige andmestik ja valige Loo mudel.Kasutage Amazon SageMaker Canvas'i uurimuslikuks andmeanalüüsiks PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.
  6. eest mudeli nimi, sisestage nimi (selle postituse jaoks oleme andnud nimeks Churn ennustus).
  7. Vali Looma.
    Kasutage Amazon SageMaker Canvas'i uurimuslikuks andmeanalüüsiks PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.
    Niipea kui valite andmestiku, kuvatakse teile ülevaade, mis kirjeldab vastavate veergude andmetüüpe, puuduvad väärtused, mittevastavad väärtused, kordumatud väärtused ja keskmised või režiimi väärtused.Kasutage Amazon SageMaker Canvas'i uurimuslikuks andmeanalüüsiks PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.
    EDA vaatenurgast saate jälgida, et andmekogus ei ole puuduvaid ega sobimatuid väärtusi. Ärianalüütikuna võite soovida saada esialgse ülevaate mudeli koostamisest juba enne andmete uurimise alustamist, et teha kindlaks, kuidas mudel töötab ja millised tegurid mudeli toimivust mõjutavad. Canvas annab teile võimaluse hankida oma andmetest statistikat enne mudeli koostamist, vaadates esmalt mudeli eelvaadet.
  8. Enne andmete uurimist tehke valik Mudeli eelvaade.Kasutage Amazon SageMaker Canvas'i uurimuslikuks andmeanalüüsiks PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.
  9. Valige ennustatav veerg (lõuend). Lõuend tuvastab automaatselt, et see on kahekategooria ennustus.
  10. Vali Mudeli eelvaade. SageMaker Canvas kasutab teie andmete alamhulka, et luua kiiresti mudel, et kontrollida, kas teie andmed on täpse ennustuse loomiseks valmis. Seda näidismudelit kasutades saate aru praeguse mudeli täpsusest ja iga veeru suhtelisest mõjust prognoosidele.

Järgmine ekraanipilt näitab meie eelvaadet.

Kasutage Amazon SageMaker Canvas'i uurimuslikuks andmeanalüüsiks PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Mudeli eelvaade näitab, et mudel ennustab õiget sihtmärki (churn?) 95.6% ajast. Näete ka esialgset veeru mõju (mõju iga veeru sihtveergule). Teeme veidi andmete uurimist, visualiseerimist ja teisendamist ning seejärel jätkame mudeli koostamist.

Andmete uurimine

Canvas pakub juba mõnda levinumat põhivisualiseerimist, näiteks andmete jaotust ruudustikuvaates Ehitama sakk. Need sobivad suurepäraselt andmetest kõrgetasemelise ülevaate saamiseks, andmete jaotamise mõistmiseks ja andmekogumist kokkuvõtliku ülevaate saamiseks.

Ärianalüütikuna peate enne mudeli loomist andmeseost hõlpsasti mõistma. Nüüd saate valida Pildivaade et saada ülevaade andmete jaotusest.

Kasutage Amazon SageMaker Canvas'i uurimuslikuks andmeanalüüsiks PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Järgmine ekraanipilt näitab ülevaadet andmestiku jaotusest.

Kasutage Amazon SageMaker Canvas'i uurimuslikuks andmeanalüüsiks PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Saame teha järgmised tähelepanekud:

  • Telefon omandab liiga palju ainulaadseid väärtusi, et sellest praktilist kasu oleks. Teame, et telefon on kliendi ID, ja me ei taha luua mudelit, mis võiks arvestada konkreetsete klientidega, vaid pigem õppida üldisemas mõttes, mis võib kaasa tuua tööturu vähenemise. Saate selle muutuja eemaldada.
  • Enamik numbrilisi tunnuseid on kenasti jaotatud, järgides a Gaussi keel kella kõver. ML-is soovite, et andmed jaotataks normaalselt, kuna iga muutujat, millel on normaaljaotus, saab prognoosida suurema täpsusega.

Läheme sügavamale ja tutvume Canvasis saadaolevate täiustatud visualisatsioonidega.

Andmete visualiseerimine

Ärianalüütikutena soovite näha, kas andmeelementide vahel on seoseid ja kuidas need on seotud katkestusega. Canvasiga saate oma andmeid uurida ja visualiseerida, mis aitab teil enne ML-mudelite loomist oma andmetest täpsema ülevaate saada. Saate visualiseerida hajuvusgraafikute, tulpdiagrammide ja kastdiagrammide abil, mis aitavad teil oma andmeid mõista ja avastada seoseid funktsioonide vahel, mis võivad mudeli täpsust mõjutada.

Visualisatsioonide loomise alustamiseks toimige järgmiselt.

  • Kohta Ehitama Valige rakenduse Canvas vahekaart Andmete visualiseerija.

Kasutage Amazon SageMaker Canvas'i uurimuslikuks andmeanalüüsiks PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Lõuendi visualiseerimise peamine kiirendaja on Andmete visualiseerija. Parema vaatenurga saamiseks muudame valimi suurust.

  • Valige kõrval olevate ridade arv Visualiseerimise näidis.
  • Kasutage liugurit soovitud valimi suuruse valimiseks.

Kasutage Amazon SageMaker Canvas'i uurimuslikuks andmeanalüüsiks PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

  • Vali Värskendused valimi suuruse muudatuse kinnitamiseks.

Võimalik, et soovite muuta valimi suurust oma andmestiku põhjal. Mõnel juhul võib teil olla mõnisada kuni paar tuhat rida, kus saate valida kogu andmestiku. Mõnel juhul võib teil olla mitu tuhat rida, sel juhul võite valida paarsada või paar tuhat rida olenevalt kasutusjuhtumist.

Kasutage Amazon SageMaker Canvas'i uurimuslikuks andmeanalüüsiks PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Hajumisdiagramm näitab seost kahe kvantitatiivse muutuja vahel, mida mõõdetakse samade isikute puhul. Meie puhul on korrelatsiooni kontrollimiseks oluline mõista väärtuste vahelist seost.

Kuna meil on kõned, minutid ja tasu, joonistame nendevahelise korrelatsiooni päeva, õhtu ja öö jaoks.

Kõigepealt loome a hajuvusdiagramm vahel päevatasu vs. päeva min.

Kasutage Amazon SageMaker Canvas'i uurimuslikuks andmeanalüüsiks PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Võime täheldada, et päevaminutide suurenedes suureneb ka päevatasu.

Kasutage Amazon SageMaker Canvas'i uurimuslikuks andmeanalüüsiks PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Sama kehtib ka õhtuste kõnede kohta.

Kasutage Amazon SageMaker Canvas'i uurimuslikuks andmeanalüüsiks PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Ka öökõnedel on sama muster.

Kasutage Amazon SageMaker Canvas'i uurimuslikuks andmeanalüüsiks PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Kuna min ja laeng näivad kasvavat lineaarselt, võib täheldada, et neil on teineteisega suur korrelatsioon. Nende funktsioonipaaride lisamine mõnesse ML-algoritmi võib võtta täiendavat salvestusruumi ja vähendada treeningu kiirust ning sarnase teabe olemasolu rohkem kui ühes veerus võib viia selleni, et mudel rõhutab mõjusid üle ja toob kaasa soovimatu kallutatuse mudelis. Eemaldame igast tugevalt korrelatsioonis olevast paarist ühe funktsiooni: päevatasu päevaminutitega paarilt, öine tasu öiste minutitega paarilt ja rahvusvaheline tasu paarilt rahvusvaheliste minutitega.

Andmete tasakaal ja variatsioon

Lintdiagramm on graafik x-teljel asuva kategoorilise muutuja ja y-telje numbrilise muutuja vahel, et uurida mõlema muutuja vahelist seost. Loome tulpdiagrammi, et näha, kuidas kõned on jaotatud meie sihtveerus Tõene ja vale. Vali Tulpdiagramm ja pukseerige päevakõnesid ja keerake vastavalt y-teljele ja x-teljele.

Kasutage Amazon SageMaker Canvas'i uurimuslikuks andmeanalüüsiks PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Nüüd loome sama tulpdiagrammi õhtuste kõnede ja kõnede katkestamise jaoks.

Kasutage Amazon SageMaker Canvas'i uurimuslikuks andmeanalüüsiks PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Järgmisena loome tulpdiagrammi öökõnede ja kõnede katkestamise kohta.

Kasutage Amazon SageMaker Canvas'i uurimuslikuks andmeanalüüsiks PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Näib, et klientide käitumises on erinevusi nende klientide vahel, kes on seganud ja mitte.

Kastdiagrammid on kasulikud, kuna need näitavad erinevusi andmete käitumises klasside kaupa (käitumine või mitte). Kuna kavatseme ennustada väljalangevust (sihtveerg), loome mõnede funktsioonide kastidiagrammi võrreldes meie sihtveeruga, et tuletada andmestiku kirjeldavat statistikat, nagu keskmine, maksimaalne, min, mediaan ja kõrvalekalded.

Vali Kasti krunt ja pukseerige Day mins ja Churn vastavalt y-teljele ja x-teljele.

Kasutage Amazon SageMaker Canvas'i uurimuslikuks andmeanalüüsiks PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Võite proovida sama lähenemisviisi ka teiste veergude puhul meie sihtveeru (churn) vastu.

Loome nüüd päevaminutite ja klienditeeninduse kõnede kastigraafiku, et mõista, kuidas klienditeeninduse kõned päevaminutite väärtusest ületavad. Näete, et klienditeeninduse kõnedel ei ole sõltuvust ega korrelatsiooni päeva minuti väärtusest.

Kasutage Amazon SageMaker Canvas'i uurimuslikuks andmeanalüüsiks PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Meie tähelepanekute põhjal saame kindlaks teha, et andmestik on üsna tasakaalustatud. Soovime, et andmed oleksid tõeste ja valede väärtuste vahel ühtlaselt jaotatud, et mudel ei oleks ühe väärtuse poole kaldu.

Ümberarvutused

Meie tähelepanekute põhjal loobume veerust Telefon, kuna see on vaid kontonumber ja veerud Päevatasu, Eeva tasu, Öine tasu, kuna need sisaldavad kattuvat teavet, nagu miinuste veerud, kuid kinnitamiseks saame eelvaate uuesti käivitada.

Kasutage Amazon SageMaker Canvas'i uurimuslikuks andmeanalüüsiks PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Pärast andmete analüüsi ja teisendamist vaatame mudeli eelvaadet uuesti.

Kasutage Amazon SageMaker Canvas'i uurimuslikuks andmeanalüüsiks PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Võite täheldada, et mudeli hinnanguline täpsus muutus 95.6%-lt 93.6%-le (see võib varieeruda), kuid konkreetsete veergude veeru mõju (funktsiooni tähtsus) on oluliselt muutunud, mis parandab treeningu kiirust ja veergude mõju ennustus, kui liigume mudeli loomise järgmiste sammude juurde. Meie andmekogum ei vaja täiendavat ümberkujundamist, kuid vajadusel võite seda ära kasutada ML-andmete teisendused andmete puhastamiseks, teisendamiseks ja mudeli loomiseks ettevalmistamiseks.

Ehitage mudel

Nüüd saate jätkata mudeli koostamist ja tulemuste analüüsimist. Lisateabe saamiseks vaadake Ennustage klientide vähenemist koodita masinõppega, kasutades Amazon SageMaker Canvas.

Koristage

Et vältida tulevikus tekkimist seansi tasud, logi välja lõuendist.

Kasutage Amazon SageMaker Canvas'i uurimuslikuks andmeanalüüsiks PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Järeldus

Selles postituses näitasime, kuidas saate kasutada EDA jaoks Canvase visualiseerimisvõimalusi, et enne mudeli loomist oma andmeid paremini mõista, luua täpseid ML-mudeleid ja genereerida ennustusi, kasutades koodivaba visuaalset, osuta ja klõpsa liidest.


Autoritest

Kasutage Amazon SageMaker Canvas'i uurimuslikuks andmeanalüüsiks PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Rajakumar Sampathkumar on AWS-i peamine tehniline kontohaldur, kes annab klientidele juhiseid äritehnoloogia kooskõlla viimiseks ning toetab nende pilveoperatsioonimudelite ja -protsesside taasleiutamist. Ta on kirglik pilve- ja masinõppe vastu. Raj on ka masinõppe spetsialist ja töötab AWS-i klientidega nende AWS-i töökoormuse ja arhitektuuri kujundamisel, juurutamisel ja haldamisel.

Kasutage Amazon SageMaker Canvas'i uurimuslikuks andmeanalüüsiks PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Rahul Nabera on AWS Professional Services andmeanalüüsi konsultant. Tema praegune töö keskendub sellele, et võimaldada klientidel luua oma andmete ja masinõppe töökoormusi AWS-is. Vabal ajal mängib ta meelsasti kriketit ja võrkpalli.

Kasutage Amazon SageMaker Canvas'i uurimuslikuks andmeanalüüsiks PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Raviteja Yelamanchili on New Yorgis asuva Amazon Web Servicesi ettevõtte lahenduste arhitekt. Ta teeb koostööd suurte finantsteenuste ettevõtete klientidega, et kujundada ja juurutada pilves üliturvalisi, skaleeritavaid, usaldusväärseid ja kulutõhusaid rakendusi. Ta toob endaga kaasa üle 11-aastase riskijuhtimise, tehnoloogiaalase nõustamise, andmeanalüütika ja masinõppe kogemuse. Kui ta kliente ei aita, naudib ta reisimist ja PS5 mängimist.

Ajatempel:

Veel alates AWS-i masinõpe