Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.

Kasutage andmete ettevalmistamiseks Amazon SageMaker Data Wranglerit ja ML-i õppimiseks ja katsetamiseks Studio Labsi

Amazon SageMaker Studio Lab on tasuta masinõppe (ML) arenduskeskkond, mis põhineb avatud lähtekoodiga JupyterLabil, et igaüks saaks õppida ja katsetada ML-i, kasutades AWS ML arvutusressursse. See põhineb samal arhitektuuril ja kasutajaliidesel nagu Amazon SageMaker Studio, kuid Studio võimaluste alamhulgaga.

Kui alustate tööd ML-algatustega, peate enne mudeli loomisega jätkamist läbi viima uurimusliku andmeanalüüsi (EDA) või andmete ettevalmistamise. Amazon SageMaker Data Wrangler on võime Amazon SageMaker mis muudab andmeteadlaste ja inseneride jaoks visuaalse liidese kaudu andmete ettevalmistamise ML-rakenduste jaoks kiiremaks. Data Wrangler vähendab ML jaoks andmete koondamiseks ja ettevalmistamiseks kuluvat aega nädalatelt minutiteni.

Funktsioonide ettevalmistamise peamine kiirendaja Data Wrangleris on Andmekvaliteedi ja ülevaate aruanne. See aruanne kontrollib andmete kvaliteeti ja aitab tuvastada teie andmetes esinevaid kõrvalekaldeid, et saaksite teha andmestiku parandamiseks vajaliku andmetöötluse. Andmekvaliteedi ja ülevaate aruannet saate kasutada oma andmete analüüsimiseks, et saada ülevaadet oma andmekogumist, näiteks puuduvate väärtuste ja kõrvalekallete arvu kohta. Kui teil on andmetega probleeme (nt leke või tasakaalustamatus), võib statistikaaruanne juhtida nendele probleemidele teie tähelepanu ja aidata teil tuvastada andmete ettevalmistamise toimingud, mida peate tegema.

Studio Labi kasutajad saavad Data Wranglerist kasu, kuna andmete kvaliteet ja funktsioonide kavandamine on teie mudeli prognoositava jõudluse jaoks kriitilise tähtsusega. Data Wrangler aitab parandada andmete kvaliteeti ja funktsioonide kavandamist, andes ülevaate andmekvaliteedi probleemidest ning võimaldades hõlpsalt funktsioonide kiire iteratsiooni ja projekteerimise madala koodiga kasutajaliidese abil.

Selles postituses näitame teile, kuidas teha uurimuslikku andmeanalüüsi, valmistada ette ja teisendada andmeid Data Wrangleri abil ning eksportida teisendatud ja ettevalmistatud andmed Studio Labi mudelite ehitamiseks.

Lahenduse ülevaade

Lahendus sisaldab järgmisi kõrgetasemelisi samme:

  1. Looge AWS-i konto ja administraatori kasutaja. See on eeltingimus
  2. Laadige alla andmestik churn.csv.
  3. Laadige andmekomplekt asukohta Amazoni lihtne salvestusteenus (Amazon S3).
  4. Looge SageMaker Studio domeen ja käivitage Data Wrangler.
  5. Importige andmestik Amazon S3-st Data Wrangleri voogu.
  6. Looge andmete kvaliteedi ja ülevaate aruanne ning tehke järeldused vajalike funktsioonide kavandamise kohta.
  7. Tehke Data Wrangleris vajalikud andmete teisendused.
  8. Laadige alla andmete kvaliteedi ja ülevaate aruanne ning teisendatud andmestik.
  9. Laadige andmed üles Studio Labi projekti mudelikoolituseks.

Järgmine diagramm illustreerib seda töövoogu.

Eeldused

Data Wrangleri ja Studio Labi kasutamiseks on teil vaja järgmisi eeltingimusi.

Looge Data Wrangleriga andmete ettevalmistamise töövoog

Alustamiseks toimige järgmiselt.

  1. Laadige oma andmestik üles Amazon S3-sse.
    Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.
  2. SageMakeri konsoolil, all Juhtpaneel valige navigeerimispaanil stuudio.
    Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.
  3. Kohta Käivitage rakendus valige oma kasutajaprofiili kõrval olev menüü stuudio.
    Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.
    Pärast edukat Studiosse sisselogimist peaksite nägema arenduskeskkonda, nagu järgmine ekraanipilt.
  4. Uue Data Wrangleri töövoo loomiseks kasutage fail menüüst valige Uus, siis vali Data Wrangleri voog.
    Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.
    Data Wrangleri esimene samm on import teie andmed. Saate importida andmeid mitmest andmeallikast, näiteks Amazon S3, Amazonase Athena, Amazoni punane nihe, Lumehelvesja Andmebaasid. Selles näites kasutame Amazon S3. Kui soovite lihtsalt näha, kuidas Data Wrangler töötab, saate alati valida Kasutage näidisandmestikku.
  5. Vali Andmete importimine.
    Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.
  6. Vali Amazon S3.
    Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.
  7. Valige üles laaditud andmestik ja valige Import.
    Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.
    Data Wrangler võimaldab teil importida kogu andmestiku või proovi võtta osa sellest.
  8. Andmestiku kohta kiire ülevaate saamiseks valige Esiteks K eest väljavõtteline uuring ja sisestage 50000 XNUMX Näidissuurus.
    Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.

Andmete kvaliteedi mõistmine ja ülevaated

Kasutame Data Wranglerisse imporditud andmete analüüsimiseks andmekvaliteedi ja ülevaate aruannet. Aruande abil saate aru saada, milliseid samme peate andmete puhastamiseks ja töötlemiseks tegema. See aruanne sisaldab teavet, nagu puuduvate väärtuste arv ja kõrvalekallete arv. Kui teil on andmetega probleeme (nt sihtmärgi leke või tasakaalustamatus), võib statistikaaruanne neile probleemidele teie tähelepanu juhtida.

  1. Valige kõrval olev plussmärk Andmetüübid Ja vali Hankige andmete statistikat.
    Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.
  2. eest Analüüsi tüüp, vali Andmekvaliteedi ja ülevaate aruanne.
  3. eest Sihtveerg, vali Kastma?.
  4. eest Probleemi tüüp¸ vali Klassifikatsioon.
  5. Vali Looma.
    Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.

Teile esitatakse üksikasjalik aruanne, mille saate üle vaadata ja alla laadida. Aruanne sisaldab mitmeid jaotisi, nagu kiirmudel, funktsioonide kokkuvõte, funktsioonide korrelatsioon ja andmete ülevaade. Järgmised ekraanipildid pakuvad nende jaotiste näiteid.

Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.

Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai. Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai. Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.

Tähelepanekud aruandest

Aruandest saame teha järgmised tähelepanekud:

  • Korduvaid ridu ei leitud.
  • . State veerg näib olevat üsna ühtlaselt jaotunud, seega on andmed osariigi rahvaarvu osas tasakaalus.
  • . Phone veerus on liiga palju kordumatuid väärtusi, et sellest oleks praktilist kasu. Liiga palju kordumatuid väärtusi muudab selle veeru ebaotstarbekaks. Võime loobuda Phone veerus meie transformatsioonis.
  • Aruande funktsioonide korrelatsiooni jaotise põhjal Mins ja Charge on tugevalt korrelatsioonis. Me saame ühe neist eemaldada.

Transformation

Meie tähelepanekute põhjal tahame teha järgmised muudatused:

  • Eemalda Phone veerus, kuna sellel on palju kordumatuid väärtusi.
  • Näeme ka mitmeid funktsioone, millel on sisuliselt 100% korrelatsioon. Nende funktsioonipaaride kaasamine mõnesse ML-algoritmi võib tekitada soovimatuid probleeme, samas kui teistes toob see kaasa vaid väikese liiasuse ja kallutatuse. Eemaldame igast tugevalt korrelatsioonis olevast paarist ühe tunnuse: Day Charge paarist koos Day Mins, Night Charge paarist koos Night Minsja Intl Charge paarist koos Intl Mins.
  • Muutma True or False aasta Churn veerus on arvväärtus 1 või 0.
  1. Naaske andmevoogu ja valige kõrval olev plussmärk Andmetüübid.
  2. Vali Lisa teisendus.
    Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.
  3. Vali Lisa samm.
    Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.
  4. Saate otsida otsitavat teisendust (meie puhul hallata veerge).
    Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.
  5. Vali Veergude haldamine.
    Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.
  6. eest Muutma¸ vali Langetage veerg.
  7. eest Veerud kukutamiseks¸ vali Phone, Day Charge, Eve Charge, Night Chargeja Intl Charge.
  8. Vali Eelvaade, siis vali Värskendused.
    Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.
    Lisame teise teisenduse, et teostada kategooriline kodeerimine Churn? kolonni.
  9. Valige teisendus Kodeeri kategooriline.
    Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.
  10. eest Muutma, vali Ordinaalkodeering.
  11. eest Sisestusveerud, Vali Churn? kolonni.
  12. eest Kehtetu käsitsemisstrateegia, vali Asenda NaN-ga.
  13. Vali Eelvaade, siis vali Värskendused.
    Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.

Nüüd True ja False teisendatakse vastavalt 1-ks ja 0-ks.

Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.

Nüüd, kui oleme andmetest hästi aru saanud ning oleme andmed mudelite loomiseks ette valmistanud ja teisendanud, saame need mudelite loomiseks teisaldada Studio Labi.

Laadige andmed üles Studio Labi

Andmete kasutamise alustamiseks Studio Labis toimige järgmiselt.

  1. Vali Andmete eksportimine et eksport S3 ämbrisse.
    Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.
  2. eest Amazon S3 asukoht, sisestage oma S3 tee.
  3. Määrake faili tüüp.
  4. Vali Andmete eksportimine.
    Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.
  5. Pärast andmete eksportimist saate andmed S3 ämbrist oma kohalikku arvutisse alla laadida.
    Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.
  6. Nüüd saate minna Studio Labi ja faili Studio Labi üles laadida.
    Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.
    Teise võimalusena saate Studio Labist ühenduse luua Amazon S3-ga. Lisateabe saamiseks vaadake Kasutage Amazon SageMaker Studio Labis väliseid ressursse.
    Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.
  7. Installime SageMakeri ja impordime Pandad.
    Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.
  8. Importige kõik raamatukogud vastavalt vajadusele.
    Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.
  9. Nüüd saame lugeda CSV-faili.
    Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.
  10. Trükime churn et kinnitada, et andmestik on õige.
    Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.

Nüüd, kui teil on Studio Labis töödeldud andmestik, saate teha täiendavaid mudeli koostamiseks vajalikke samme.

Data Wrangleri hinnakujundus

Saate täita kõiki selles postituses olevaid toiminguid EDA või andmete ettevalmistamise jaoks Data Wrangleris ja maksma lihtsa näite puhul töökohad ja salvestusruumi hinnad, mis põhinevad kasutamisel või tarbimisel. Ettemaksu ega litsentsitasusid ei nõuta.

Koristage

Kui te Data Wranglerit ei kasuta, on lisatasude vältimiseks oluline sulgeda eksemplar, millel see töötab. Töö kaotamise vältimiseks salvestage andmevoog enne Data Wrangleri väljalülitamist.

  1. Andmevoo salvestamiseks Studios valige fail, siis vali Salvesta andmete Wrangler Flow.
    Data Wrangler salvestab teie andmevoo automaatselt iga 60 sekundi järel.
  2. Data Wrangleri eksemplari sulgemiseks Studios valige Eksemplaride ja tuumade käitamine.
  3. alla RAKENDUSTE TÖÖTAMINE, valige väljalülitamise ikoon kõrval sagemaker-data-wrangler-1.0 app.
  4. Vali Pange kõik kinni kinnitada.
    Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.

Data Wrangler töötab ml.m5.4xsuurel eksemplaril. See juhtum kaob JOOKSUJUHTUMID kui sulgete rakenduse Data Wrangler.

Pärast Data Wrangleri rakenduse sulgemist peab see järgmisel korral Data Wrangleri voofaili avamisel taaskäivitama. Selleks võib kuluda mõni minut.

Järeldus

Selles postituses nägime, kuidas saate oma andmekogumist ülevaate saada, teha uurimuslikku andmeanalüüsi, valmistada ja teisendada andmeid Studios Data Wrangleri abil ning eksportida teisendatud ja ettevalmistatud andmed Studio Labi ning teha mudelite loomist ja muid samme.

SageMaker Data Wrangleri abil saate lihtsustada andmete ettevalmistamise ja funktsioonide kavandamise protsessi ning viia lõpule andmete ettevalmistamise töövoo kõik etapid, sealhulgas andmete valimise, puhastamise, uurimise ja visualiseerimise ühest visuaalsest liidesest.


Autoritest

Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.Rajakumar Sampathkumar on AWS-i peamine tehniline kontohaldur, kes annab klientidele juhiseid äritehnoloogia kooskõlla viimiseks ning toetab nende pilveoperatsiooni mudelite ja protsesside taasleiutamist. Ta on kirglik pilve ja masinõppe vastu. Raj on ka masinõppe spetsialist ja töötab AWS-i klientidega nende AWS-i töökoormuse ja arhitektuuri kujundamisel, juurutamisel ja haldamisel.

Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.Meenakshisundaram Thandavarayan on AI/ML vanemspetsialist, kelle kirg on kujundada, luua ja edendada inimkeskseid andme- ja analüüsikogemusi. Ta toetab AWS Strategic kliente nende muutumisel andmepõhiseks organisatsiooniks.

Kasutage andmete ettevalmistamiseks rakendust Amazon SageMaker Data Wrangler ja ML PlatoBlockchain Data Intelligence'i õppimiseks ja katsetamiseks Studio Labsi. Vertikaalne otsing. Ai.James Wu on AWS-i vanem AI/ML-lahenduste spetsialist. aidata klientidel AI/ML lahendusi kavandada ja luua. Jamesi töö hõlmab laia valikut ML kasutusjuhtumeid, mille peamine huvi on arvutinägemine, sügav õppimine ja ML-i skaleerimine kogu ettevõttes. Enne AWS-iga liitumist oli James arhitekt, arendaja ja tehnoloogiajuht üle 10 aasta, sealhulgas 6 aastat inseneritöös ning 4 aastat turundus- ja reklaamitööstuses.

Ajatempel:

Veel alates AWS-i masinõpe