Käytä Amazon SageMaker Canvasia tutkivaan tietojen analysointiin PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Käytä Amazon SageMaker Canvaa tutkivaan tietojen analysointiin

Tutkiva data-analyysi (EDA) on yritysanalyytikoiden yleinen tehtävä löytääkseen malleja, ymmärtääkseen suhteita, vahvistaakseen olettamuksia ja tunnistaakseen poikkeavuuksia tiedoissaan. Koneoppimisessa (ML) on tärkeää ensin ymmärtää data ja niiden suhteet ennen mallin rakentamiseen ryhtymistä. Perinteiset ML-kehityssyklit voivat joskus kestää kuukausia ja vaatia edistyneitä tietotieteitä ja ML-insinööritaitoja, kun taas koodittomat ML-ratkaisut voivat auttaa yrityksiä nopeuttamaan ML-ratkaisujen toimittamista päiviin tai jopa tunteihin.

Amazon SageMaker Canvas on kooditon ML-työkalu, jonka avulla yritysanalyytikot voivat luoda tarkkoja ML-ennusteita ilman koodin kirjoittamista tai ML-kokemusta. Canvas tarjoaa helppokäyttöisen visuaalisen käyttöliittymän datajoukkojen lataamiseen, puhdistamiseen ja muuntamiseen, minkä jälkeen voidaan rakentaa ML-malleja ja luoda tarkkoja ennusteita.

Tässä viestissä käymme läpi EDA:n suorittamisen saadaksesi paremman käsityksen tiedoistasi ennen ML-mallin rakentamista Canvasin sisäänrakennettujen edistyneiden visualisointien ansiosta. Nämä visualisoinnit auttavat sinua analysoimaan tietojoukkoidesi ominaisuuksien välisiä suhteita ja ymmärtämään tietojasi paremmin. Tämä tehdään intuitiivisesti, jolloin voit olla vuorovaikutuksessa tietojen kanssa ja löytää oivalluksia, jotka voivat jäädä huomaamatta ad hoc -kyselyissä. Ne voidaan luoda nopeasti Canvasin "Data visualizer" -sovelluksella ennen ML-mallien rakentamista ja harjoittelua.

Ratkaisun yleiskatsaus

Nämä visualisoinnit lisäävät Canvasin jo tarjoamia tietojen valmistelu- ja tutkimisominaisuuksia, mukaan lukien kyky korjata puuttuvia arvoja ja korvata poikkeavia arvoja. suodattaa, yhdistää ja muokata tietojoukkoja; ja poimi tiettyjä aikaarvoja aikaleimoista. Saat lisätietoja siitä, kuinka Canvas voi auttaa sinua puhdistamaan, muuntamaan ja valmistelemaan tietojoukkosi, tutustumalla Valmistele tiedot edistyneillä muunnoksilla.

Käyttötapauksessamme tarkastelemme, miksi asiakkaat vaimentavat missä tahansa liiketoiminnassa, ja havainnollistamme, kuinka EDA voi auttaa analyytikon näkökulmasta. Tässä viestissä käyttämämme tietojoukko on synteettinen tietojoukko televiestintämatkapuhelinoperaattorilta asiakkaiden vaihtuvuuden ennustamista varten, jonka voit ladata (churn.csv), tai tuot oman tietojoukkosi kokeiltavaksi. Ohjeita oman tietojoukon tuomiseen on kohdassa Tietojen tuonti Amazon SageMaker Canvasissa.

Edellytykset

Seuraa ohjeita Amazon SageMaker Canvasin asennuksen edellytykset ennen kuin jatkat eteenpäin.

Tuo tietojoukkosi Canvasiin

Voit tuoda mallitietojoukon Canvasiin suorittamalla seuraavat vaiheet:

  1. Kirjaudu Canvasiin yrityskäyttäjänä.Ensin lataamme aiemmin mainitun tietojoukon paikalliselta tietokoneeltamme Canvasiin. Jos haluat käyttää muita lähteitä, kuten Amazonin punainen siirto, viitata Yhdistä ulkoiseen tietolähteeseen.
  2. Valita Tuo.Käytä Amazon SageMaker Canvasia tutkivaan tietojen analysointiin PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
  3. Valita Lataa, valitse sitten Valitse tiedostoja tietokoneeltasi.
  4. Valitse tietojoukkosi (churn.csv) ja valitse Tuo päivämäärät.Käytä Amazon SageMaker Canvasia tutkivaan tietojen analysointiin PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
  5. Valitse tietojoukko ja valitse Luo malli.Käytä Amazon SageMaker Canvasia tutkivaan tietojen analysointiin PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
  6. varten Mallin nimi, anna nimi (tälle viestille olemme antaneet nimen Churn-ennustus).
  7. Valita luoda.
    Käytä Amazon SageMaker Canvasia tutkivaan tietojen analysointiin PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
    Heti kun valitset tietojoukon, sinulle esitetään yleiskatsaus, jossa esitetään tietotyypit, puuttuvat arvot, yhteensopimattomat arvot, yksilölliset arvot ja vastaavien sarakkeiden keskiarvo- tai tila-arvot.Käytä Amazon SageMaker Canvasia tutkivaan tietojen analysointiin PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
    EDA:n näkökulmasta voit havaita, ettei tietojoukossa ole puuttuvia tai yhteensopimattomia arvoja. Liiketoimintaanalyytikkona saatat haluta saada alustavan käsityksen mallin rakentamisesta jo ennen tietojen kartoituksen aloittamista, jotta voit selvittää, kuinka malli toimii ja mitkä tekijät vaikuttavat mallin suorituskykyyn. Canvas antaa sinulle mahdollisuuden saada tietoja tiedoistasi ennen mallin rakentamista esikatselemalla mallia.
  8. Ennen kuin teet mitään tietojen tutkimista, valitse Esikatselu malli.Käytä Amazon SageMaker Canvasia tutkivaan tietojen analysointiin PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
  9. Valitse ennustava sarake (churn). Canvas havaitsee automaattisesti, että tämä on kaksiluokkainen ennuste.
  10. Valita Esikatselu malli. SageMaker Canvas käyttää osaa tiedoistasi mallin nopeaan rakentamiseen tarkistaakseen, ovatko tietosi valmiita luomaan tarkan ennusteen. Tämän mallimallin avulla voit ymmärtää nykyisen mallin tarkkuuden ja kunkin sarakkeen suhteellisen vaikutuksen ennusteisiin.

Seuraava kuvakaappaus näyttää esikatselumme.

Käytä Amazon SageMaker Canvasia tutkivaan tietojen analysointiin PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Mallin esikatselu osoittaa, että malli ennustaa oikean kohteen (churn?) 95.6 % ajasta. Voit myös nähdä alkuperäisen sarakkeen vaikutuksen (vaikutus jokaisella sarakkeella on kohdesarakkeessa). Tutkitaan, visualisoidaan ja muunnetaan tietoja ja edetään sitten mallin rakentamiseen.

Tietojen etsintä

Canvas tarjoaa jo joitain yleisiä perusvisualisointeja, kuten tietojen jakelun ruudukkonäkymässä Rakentaa -välilehti. Nämä ovat hyviä, kun haluat saada korkean tason yleiskatsauksen tiedoista, ymmärtää, kuinka tiedot jakautuvat, ja saada yhteenveto tietojoukosta.

Liiketoimintaanalyytikkona saatat joutua saamaan korkean tason näkemyksiä siitä, kuinka tiedot jakautuvat ja kuinka jakautuminen heijastuu kohdesarakkeeseen (churn), jotta voit helposti ymmärtää tietosuhteen ennen mallin rakentamista. Nyt voit valita Ruudukko saadaksesi yleiskuvan tietojen jakelusta.

Käytä Amazon SageMaker Canvasia tutkivaan tietojen analysointiin PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Seuraava kuvakaappaus näyttää yleiskatsauksen tietojoukon jakelusta.

Käytä Amazon SageMaker Canvasia tutkivaan tietojen analysointiin PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Voimme tehdä seuraavat havainnot:

  • Puhelin saa liian monia ainutlaatuisia arvoja, jotta siitä olisi mitään käytännön hyötyä. Tiedämme, että puhelin on asiakastunnus, emmekä halua rakentaa mallia, joka voisi ottaa huomioon tietyt asiakkaat, vaan pikemminkin oppia yleisemmin, mikä voi johtaa vaihtumiseen. Voit poistaa tämän muuttujan.
  • Suurin osa numeerisista ominaisuuksista on jaettu hienosti seuraavien a Gaussin kellokäyrä. ML:ssä haluat tietojen jakautuvan normaalisti, koska mikä tahansa muuttuja, jolla on normaalijakauma, voidaan ennustaa suuremmalla tarkkuudella.

Mennään syvemmälle ja tutustutaan Canvasissa saatavilla oleviin edistyneisiin visualisointeihin.

Tietojen visualisointi

Yritysanalyytikoina haluat nähdä, onko tietoelementtien välillä suhteita ja miten ne liittyvät vaihtumiseen. Canvasin avulla voit tutkia ja visualisoida tietojasi, mikä auttaa sinua saamaan edistyneitä tietoja tiedoistasi ennen ML-mallien rakentamista. Voit visualisoida käyttämällä sirontakaavioita, pylväskaavioita ja laatikkokaavioita, jotka voivat auttaa sinua ymmärtämään tietojasi ja löytämään ominaisuuksien väliset suhteet, jotka voivat vaikuttaa mallin tarkkuuteen.

Aloita visualisointien luominen suorittamalla seuraavat vaiheet:

  • On Rakentaa Valitse Canvas-sovelluksen välilehti Tietojen visualisoija.

Käytä Amazon SageMaker Canvasia tutkivaan tietojen analysointiin PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Canvasin visualisoinnin tärkein kiihdytin on Tietojen visualisoija. Muutetaan otoksen kokoa paremman näkökulman saamiseksi.

  • Valitse rivien lukumäärä vieressä Visualisointinäyte.
  • Valitse haluamasi näytekoko liukusäätimellä.

Käytä Amazon SageMaker Canvasia tutkivaan tietojen analysointiin PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

  • Valita Päivitykset vahvistaaksesi otoskoon muutoksen.

Haluat ehkä muuttaa otoskokoa tietojoukkosi perusteella. Joissakin tapauksissa sinulla voi olla muutamasta sadasta muutamaan tuhanteen rivejä, joista voit valita koko tietojoukon. Joissain tapauksissa sinulla voi olla useita tuhansia rivejä, jolloin voit valita muutaman sadan tai muutaman tuhannen rivin käyttötapauksesi mukaan.

Käytä Amazon SageMaker Canvasia tutkivaan tietojen analysointiin PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Sirontadiagrammi näyttää kahden kvantitatiivisen muuttujan välisen suhteen samoille yksilöille mitattuna. Meidän tapauksessamme on tärkeää ymmärtää arvojen välinen suhde korrelaation tarkistamiseksi.

Koska meillä on puhelut, minuutit ja lataus, kuvaamme niiden välisen korrelaation päivälle, illalle ja yölle.

Ensin luodaan sironta juoni Päivämaksu vs. Päivä Min.

Käytä Amazon SageMaker Canvasia tutkivaan tietojen analysointiin PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Voimme havaita, että päiväminuuttien kasvaessa myös päivämaksu kasvaa.

Käytä Amazon SageMaker Canvasia tutkivaan tietojen analysointiin PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Sama pätee iltapuheluihin.

Käytä Amazon SageMaker Canvasia tutkivaan tietojen analysointiin PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Myös yöpuheluissa on sama kuvio.

Käytä Amazon SageMaker Canvasia tutkivaan tietojen analysointiin PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Koska min ja lataus näyttävät kasvavan lineaarisesti, voit havaita, että niillä on korkea korrelaatio keskenään. Näiden ominaisuusparien sisällyttäminen joihinkin ML-algoritmeihin voi viedä lisätallennustilaa ja hidastaa harjoittelun nopeutta, ja samankaltaisten tietojen saaminen useammassa kuin yhdessä sarakkeessa saattaa johtaa siihen, että malli korostaa liikaa vaikutuksia ja johtaa ei-toivottuun harhaan mallissa. Poistetaan yksi ominaisuus kustakin erittäin korreloidusta parista: Päivävaraus parista, jossa on Day Mins, Night Charge parista, jossa on Night Mins, ja Intl Charge parista, jossa on Intl Mins.

Tietojen tasapaino ja vaihtelu

Pylväskaavio on kaavio x-akselilla olevan kategorisen muuttujan ja y-akselin numeerisen muuttujan välillä molempien muuttujien välisen suhteen tutkimiseksi. Luodaan pylväskaavio nähdäksesi, kuinka puhelut jakautuvat kohdesarakkeessamme Vaihtuvuus oikein ja väärin. Valita Pylväsdiagrammi ja vedä ja pudota päiväpuhelut ja vaihda y-akselille ja x-akselille, vastaavasti.

Käytä Amazon SageMaker Canvasia tutkivaan tietojen analysointiin PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Luodaan nyt sama pylväskaavio iltapuheluille ja vaihtuville puheluille.

Käytä Amazon SageMaker Canvasia tutkivaan tietojen analysointiin PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Luodaan seuraavaksi pylväskaavio yöpuheluista vs. vaihtuvuus.

Käytä Amazon SageMaker Canvasia tutkivaan tietojen analysointiin PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Vaikuttaa siltä, ​​että asiakkaiden käyttäytymisessä on eroja niiden asiakkaiden välillä, jotka ovat vaikeuttaneet, ja niiden asiakkaiden välillä, jotka eivät sitä tehneet.

Laatikkokaaviot ovat hyödyllisiä, koska ne osoittavat eroja datan käyttäytymisessä luokittain (vaihtuvuus vai ei). Koska aiomme ennustaa vaihtuvuutta (tavoitesarake), luodaan laatikkokaavio joistakin ominaisuuksista kohdesaraketta vasten, jotta voimme päätellä tietojoukon kuvaavat tilastot, kuten keskiarvo, maksimi, minimi, mediaani ja poikkeamat.

Valita Laatikon juoni ja vedä ja pudota Day mins ja Churn y-akselille ja X-akselille, vastaavasti.

Käytä Amazon SageMaker Canvasia tutkivaan tietojen analysointiin PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Voit myös kokeilla samaa lähestymistapaa muihin sarakkeisiin kohdesaraketta (churn) vastaan.

Luodaan nyt laatikkokäyrä päiväminuuteista asiakaspalvelupuheluihin nähden, jotta ymmärrämme, kuinka asiakaspalvelupuhelut jakautuvat päivän minuuttiarvon mukaan. Voit nähdä, että asiakaspalvelupuheluilla ei ole riippuvuutta tai korrelaatiota päiväminuuttien arvosta.

Käytä Amazon SageMaker Canvasia tutkivaan tietojen analysointiin PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Havainnoistamme voimme päätellä, että tietojoukko on melko tasapainoinen. Haluamme, että tiedot jakautuvat tasaisesti oikeiden ja väärien arvojen kesken, jotta malli ei ole vinoutunut yhteen arvoon.

muunnokset

Havainnojemme perusteella pudotamme Puhelin-sarakkeen, koska se on vain tilinumero ja päivämaksu-, aattoveloitus- ja yömaksu-sarakkeet, koska ne sisältävät päällekkäisiä tietoja, kuten minuuttisarakkeet, mutta voimme suorittaa esikatselun uudelleen vahvistaaksemme.

Käytä Amazon SageMaker Canvasia tutkivaan tietojen analysointiin PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Data-analyysin ja muunnoksen jälkeen esikatsellaan mallia uudelleen.

Käytä Amazon SageMaker Canvasia tutkivaan tietojen analysointiin PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Voit havaita, että mallin arvioitu tarkkuus muuttui 95.6 %:sta 93.6 %:iin (tämä voi vaihdella), mutta sarakkeiden vaikutus (ominaisuuden tärkeys) tiettyjen sarakkeiden kohdalla on muuttunut huomattavasti, mikä parantaa harjoituksen nopeutta sekä sarakkeiden vaikutusta ennuste, kun siirrymme mallin rakentamisen seuraaviin vaiheisiin. Tietojoukkomme ei vaadi lisämuutoksia, mutta voit hyödyntää sitä tarvittaessa ML-datan muunnos puhdistaa, muuttaa ja valmistella tietosi mallinrakennusta varten.

Rakenna malli

Nyt voit jatkaa mallin rakentamista ja tulosten analysointia. Lisätietoja on kohdassa Ennusta asiakkaiden vaihtuvuus koodittomalla koneoppimisella Amazon SageMaker Canvasin avulla.

Puhdistaa

Välttääksesi tulevaisuuden istuntomaksut, kirjaudu ulos Canvasista.

Käytä Amazon SageMaker Canvasia tutkivaan tietojen analysointiin PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Yhteenveto

Tässä viestissä osoitimme, kuinka voit käyttää Canvas-visualisointiominaisuuksia EDA:ssa ymmärtääksesi paremmin tietojasi ennen mallin rakentamista, luodaksesi tarkkoja ML-malleja ja luodaksesi ennusteita koodittoman visuaalisen osoita ja napsauta käyttöliittymän avulla.


Tietoja Tekijät

Käytä Amazon SageMaker Canvasia tutkivaan tietojen analysointiin PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Rajakumar Sampathkumar on AWS:n pääasiallinen tekninen asiakaspäällikkö, joka opastaa asiakkaita liiketoiminta-teknologian yhteensovittamisessa ja tukee heidän pilvitoimintamalliensa ja -prosessiensa uudelleenkeksimistä. Hän on intohimoinen pilvi- ja koneoppimiseen. Raj on myös koneoppimisen asiantuntija ja työskentelee AWS-asiakkaiden kanssa heidän AWS-työkuormien ja -arkkitehtuurien suunnittelussa, käyttöönotossa ja hallinnassa.

Käytä Amazon SageMaker Canvasia tutkivaan tietojen analysointiin PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Rahul Nabera on Data Analytics -konsultti AWS Professional Services -palvelussa. Hänen nykyinen työnsä keskittyy siihen, että asiakkaat voivat rakentaa data- ja koneoppimistyökuormituksiaan AWS:llä. Vapaa-ajallaan hän pelaa krikettiä ja lentopalloa.

Käytä Amazon SageMaker Canvasia tutkivaan tietojen analysointiin PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Raviteja Yelamanchili on Enterprise Solutions -arkkitehti Amazon Web Services -palvelussa New Yorkissa. Hän työskentelee suurten rahoituspalveluyritysasiakkaiden kanssa suunnitellakseen ja ottaakseen käyttöön erittäin turvallisia, skaalautuvia, luotettavia ja kustannustehokkaita sovelluksia pilvessä. Hänellä on yli 11 vuoden riskienhallinta-, teknologiakonsultointi-, data-analytiikka- ja koneoppimiskokemus. Kun hän ei auta asiakkaita, hän nauttii matkustamisesta ja PS5:n pelaamisesta.

Aikaleima:

Lisää aiheesta AWS-koneoppiminen