Kasutage Githubi näidiseid koos Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'iga. Vertikaalne otsing. Ai.

Kasutage Githubi näidiseid koos Amazon SageMaker Data Wrangleriga

Amazon SageMaker Data Wrangler on kasutajaliidesepõhine andmete ettevalmistamise tööriist, mis aitab andmeid analüüsida, eeltöötleda ja visualiseerida koos funktsioonidega andmete kiiremaks puhastamiseks, teisendamiseks ja ettevalmistamiseks. Data Wrangleri eelseadistatud voomallid aitavad andmeteadlastel ja masinõppe praktikutel kiirendada andmete ettevalmistamist, aidates teil tavalisi andmekogumeid kasutades kiirendada ja mõista andmevoogude parimaid tavasid.

Saate kasutada Data Wrangleri vooge järgmiste toimingute tegemiseks.

  • Andmete visualiseerimine – Andmestiku iga veeru statistiliste omaduste uurimine, histogrammide koostamine, kõrvalekallete uurimine
  • Andmete puhastamine – Duplikaatide eemaldamine, kirjete mahajätmine või puuduvate väärtustega täitmine, kõrvalekallete eemaldamine
  • Andmete rikastamine ja funktsioonide projekteerimine – Veergude töötlemine väljendusrikkamate funktsioonide loomiseks, funktsioonide alamhulga valimine treenimiseks

See postitus aitab teil mõista Data Wranglerit, kasutades järgmisi eelehitatud voogusid GitHub. Hoidlas kuvatakse tabeliandmete teisendusi, aegridade andmete teisendusi ja ühendatud andmehulga teisendusi. Igaüks neist nõuab oma põhiolemuse tõttu erinevat tüüpi teisendusi. Standardseid tabeli- või ristlõikeandmeid kogutakse kindlal ajahetkel. Seevastu aegridade andmeid kogutakse aja jooksul korduvalt, kusjuures iga järgnev andmepunkt sõltub selle varasematest väärtustest.

Vaatame näidet selle kohta, kuidas saame kasutada näidisandmevoogu tabeliandmete jaoks.

Eeldused

Data Wrangler on Amazon SageMaker sees saadaval olev funktsioon Amazon SageMaker Studio, seega peame Studio keskkonna ja märkmike täiustamiseks järgima Studio sisseviimise protsessi. Kuigi saate valida mõne autentimismeetodi vahel, on kõige lihtsam viis Studio domeeni loomiseks järgida Kiire algus juhiseid. Kiirkäivitus kasutab samu vaikesätteid nagu standardne stuudio seadistus. Saate valida ka pardal oleva kasutamise AWS IAM identiteedikeskus (AWS Single Sign-On järglane) autentimiseks (vt Sisseehitatud Amazon SageMakeri domeeniga, kasutades IAM-i identiteedikeskust).

Importige andmestik ja voofailid Studio abil Data Wranglerisse

Järgmised sammud kirjeldavad, kuidas importida andmeid SageMakerisse, et neid Data Wrangler tarbiks.

Initsialiseerige Data Wrangler Studio kasutajaliidese kaudu, valides Uus andmevoog.

Kloonige GitHub repo voofailide allalaadimiseks oma Studio keskkonda.

Kasutage Githubi näidiseid koos Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'iga. Vertikaalne otsing. Ai.

Kui kloon on lõpetatud, peaksite vasakpoolsel paanil nägema hoidla sisu.

Kasutage Githubi näidiseid koos Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'iga. Vertikaalne otsing. Ai.

Valige fail Hotel-Bookings-Classification.flow voofaili importimiseks Data Wranglerisse.

Kui kasutate aegrida või ühendatud andmevoogu, kuvatakse voog erineva nimega.Pärast voo importimist peaksite nägema järgmist ekraanipilti. See näitab meile vigu, kuna peame veenduma, et voofail osutab õigele andmeallikale Amazoni lihtne salvestusteenus (Amazon S3).

Kasutage Githubi näidiseid koos Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'iga. Vertikaalne otsing. Ai.

Vali Andmestiku muutmine et tuua kõik oma S3 ämbrid üles. Järgmisena valige andmestik hotel_bookings.csv oma S3 ämbrist läbi jooksmiseks tabeliline andmevoog.

Pange tähele, et kui kasutate ühendatud andmevoogu, peate võib-olla importima mitu andmestikku Data WranglerisseKasutage Githubi näidiseid koos Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'iga. Vertikaalne otsing. Ai.

Paremal paanil veenduge LÕIGE valitakse eraldajaks ja väljavõtteline uuring on seatud väärtusele Esiteks K. Meie andmestik on piisavalt väike, et käitada Data Wrangleri teisendusi kogu andmekogumis, kuid soovisime rõhutada, kuidas saate andmestikku importida. Kui teil on suur andmestik, kaaluge valimi kasutamist. Vali Import selle andmestiku importimiseks Data Wranglerisse.

Kasutage Githubi näidiseid koos Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'iga. Vertikaalne otsing. Ai.

Pärast andmekogumi importimist kinnitab Data Wrangler andmestiku automaatselt ja tuvastab andmetüübid. Näete, et vead on kadunud, kuna osutame õigele andmekogumile. Vooredaktor näitab nüüd kahte plokki, mis näitavad, et andmed imporditi allikast ja andmetüübid tuvastati. Vajadusel saate muuta ka andmetüüpe.

Kasutage Githubi näidiseid koos Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'iga. Vertikaalne otsing. Ai.

Järgmine ekraanipilt näitab meie andmetüüpe.

Kasutage Githubi näidiseid koos Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'iga. Vertikaalne otsing. Ai.

Vaatame mõnda selle tabelivoo osana tehtud teisendusi. Kui kasutate aegridad or liitunud andmevoogusid, vaadake mõningaid levinumaid teisendusi GitHub repo. Tegime mõned põhilised uurimuslikud andmete analüüsid, kasutades andmeülevaate aruandeid, mis uurisid andmestiku sihtleket ja funktsioonide kollineaarsust, tabeli kokkuvõtte analüüse ja kiiret modelleerimisvõimalust. Uurige samme GitHub repo.

Nüüd eemaldame veerud andmete ülevaate ja kvaliteediaruande soovituste põhjal.

  • Sihtlekke korral langetage broneeringu_olek.
  • Üleliigsete veergude puhul kukutage days_in_waiting_list, hotel, reserved_room_type, érkezési_kuupäev_kuu, booking_status_date, beebid, ja saabumise_kuupäev_kuu_päev.
  • Lineaarse korrelatsiooni tulemuste põhjal langetage veerud saabumise_kuupäev_nädala_number ja saabumise_kuupäev_aasta kuna nende tunnuste (veeru) paaride korrelatsiooniväärtused on suuremad kui soovitatud lävi 0.90.
  • Mittelineaarse korrelatsiooni tulemuste põhjal langeda broneeringu_olek. See veerg oli sihtlekkeanalüüsi põhjal juba märgitud mahajätmiseks.
  • Protsessi arvväärtused (min-max skaleerimine) jaoks läbiviimisaeg, viibib nädalapäevadel, ööbib nädalapäevadel, on_korduv külaline, eelmine_tühistamised, eelmine_broneeringud_ei_tühistatud, broneerimismuudatused, adr, eritaotluste_kokku, ja nõutavad_auto_parkimiskohad.
  • One-hot kodeerib kategoorilisi muutujaid nagu eine, on_korduv_külaline, turu_segment, määratud_toa_tüüp, hoiuse_tüüp, ja kliendi_tüüp.
  • Tasakaalustage sihtmuutuja Juhuslik ülevalim klassi tasakaalustamatuse jaoks. Kasutage kiiret modelleerimisvõimalust kõrvalekallete ja puuduvate väärtuste käsitlemiseks.

Kasutage Githubi näidiseid koos Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'iga. Vertikaalne otsing. Ai.

Ekspordi Amazon S3-sse

Nüüd oleme läbinud erinevad teisendused ja oleme valmis andmeid Amazon S3-sse eksportima. See suvand loob SageMakeri töötlemistöö, mis käivitab Data Wrangleri töötlemisvoo ja salvestab saadud andmestiku määratud S3 ämbrisse. Amazon S3-sse eksportimise seadistamiseks järgige järgmisi samme.

Valige teisenduselementide kogu kõrval plussmärk ja valige Lisa sihtkoht, Siis Amazon S3.

Kasutage Githubi näidiseid koos Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'iga. Vertikaalne otsing. Ai.

  • eest Andmestiku nimi, sisestage näiteks uue andmestiku nimi NYC_export.
  • eest Faili tüüp, vali CSV.
  • eest Eraldaja, vali Koma.
  • eest Kokkusurumine, vali mitte ükski.
  • eest Amazon S3 asukoht, kasutage sama ämbri nime, mille lõime varem.
  • Vali Lisa sihtkoht.

Kasutage Githubi näidiseid koos Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'iga. Vertikaalne otsing. Ai.

Vali Loo töökoht.

Kasutage Githubi näidiseid koos Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'iga. Vertikaalne otsing. Ai.

eest Töö nimi, sisestage nimi või jätke automaatselt genereeritud valik alles ja valige sihtkoht. Meil on ainult üks sihtkoht, S3:testingtabulardata, kuid teie töövoo eri etappides võib olla mitu sihtkohta. Jäta KMS-i võti ARN väli tühjaks ja valige järgmine.

Nüüd peate konfigureerima töö arvutusvõimsuse. Selle näite puhul saate säilitada kõik vaikeväärtused.

  • eest Eksemplari tüüp, kasutage ml.m5.4xlarge.
  • eest Juhtumite arv, kasutage 2.
  • Saate uurida Täiendav konfiguratsioon, kuid säilita vaikeseaded.
  • Vali jooks.

Kasutage Githubi näidiseid koos Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'iga. Vertikaalne otsing. Ai.

Nüüd on teie töö alanud ja 6 GB andmete töötlemine meie Data Wrangleri töötlemisvoo järgi võtab veidi aega. Selle töö maksumus on umbes 2 USD, sest ml.m5.4xlarge maksab 0.922 USD tunnis ja me kasutame neist kahte.

Kui valite töö nime, suunatakse teid töö üksikasjadega uude aknasse.

Kasutage Githubi näidiseid koos Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'iga. Vertikaalne otsing. Ai.

Töö üksikasjade lehel näete kõiki eelmiste sammude parameetreid.

Kui töö olekuks muutub Lõpetatud, saate kontrollida ka Töötlemisaeg (sekundites) väärtus. Selle töötlemistöö lõpuleviimiseks kulub umbes 5–10 minutit.

Kasutage Githubi näidiseid koos Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'iga. Vertikaalne otsing. Ai.

Kui töö on lõpetatud, on koolitus- ja testiväljundfailid saadaval vastavates S3 väljundkaustades. Väljundi asukoha leiate töötlemistöö konfiguratsioonidest.

Kasutage Githubi näidiseid koos Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'iga. Vertikaalne otsing. Ai.

Pärast Data Wrangleri töötlemistöö lõpetamist saame kontrollida meie S3 ämbrisse salvestatud tulemusi. Ärge unustage värskendada job_name muutuja teie töönimega.

Nüüd saate neid eksporditud andmeid kasutada ML-mudelite käitamiseks.

Koristage

Kustutage oma S3 ämbrid ja teie Data Wrangleri voog et kustutada aluseks olevad ressursid ja vältida soovimatuid kulusid pärast katse lõpetamist.

Järeldus

Selles postituses näitasime, kuidas saate importida tabelina koostatud eelseadistatud andmevoogu Data Wranglerisse, ühendada selle meie andmekogumiga ja eksportida tulemused Amazon S3-sse. Kui teie kasutusjuhtumid nõuavad aegridade andmetega manipuleerimist või mitme andmestiku ühendamist, saate läbida muud eelnevalt koostatud valimivood GitHub repo.

Pärast eelseadistatud andmete ettevalmistamise töövoo importimist saate selle integreerida rakendusega Amazon SageMaker Processing, Amazon SageMakeri torujuhtmedja Amazon SageMakeri funktsioonipood ML koolitusandmete töötlemise, jagamise ja salvestamise ülesande lihtsustamiseks. Saate selle näidisandmevoo eksportida ka Pythoni skripti ja luua kohandatud ML-i andmete ettevalmistamise konveieri, kiirendades sellega vabastamise kiirust.

Soovitame teil meiega tutvuda GitHubi hoidla et saada praktilist praktikat ja leida uusi viise mudeli täpsuse parandamiseks! SageMakeri kohta lisateabe saamiseks külastage lehte Amazon SageMakeri arendaja juhend.


Autoritest

Kasutage Githubi näidiseid koos Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'iga. Vertikaalne otsing. Ai.Isha Dua on San Francisco lahe piirkonnas asuv vanemlahenduste arhitekt. Ta aitab AWS Enterprise'i klientidel kasvada, mõistes nende eesmärke ja väljakutseid, ning juhendab neid, kuidas nad saavad oma rakendusi pilvepõhiselt üles ehitada, tagades samas nende vastupidavuse ja skaleeritavuse. Ta on kirglik masinõppetehnoloogiate ja keskkonnasäästlikkuse vastu.

Ajatempel:

Veel alates AWS-i masinõpe