Amazon SageMaker Data Wrangler vähendab aega, mis kulub andmete koondamiseks ja ettevalmistamiseks masinõppeks (ML) nädalatelt minutitele Amazon SageMaker Studio, esimene täielikult integreeritud arenduskeskkond (IDE) ML jaoks. Data Wrangleriga saate lihtsustada andmete ettevalmistamise ja funktsioonide kavandamise protsessi ning viia läbi andmete ettevalmistamise töövoo kõik etapid, sealhulgas andmete valimise, puhastamise, uurimise ja visualiseerimise, ühest visuaalse liidese kaudu. Saate importida andmeid mitmest andmeallikast, näiteks Amazoni lihtne salvestusteenus (Amazon S3), Amazoni punane nihe, Lumehelvesja 26 ühendatud päringu andmeallikat toetab Amazonase Athena.
Alates tänasest saate Athena andmeallikatest andmete importimisel konfigureerida S3 päringu väljundi asukoha ja andmete säilitamise perioodi, et importida andmed Data Wranglerisse, et juhtida, kus ja kui kaua Athena vahendavaid andmeid salvestab. Selles postituses tutvustame teile seda uut funktsiooni.
Lahenduse ülevaade
Athena on interaktiivne päringuteenus, mis muudab veebilehe sirvimise lihtsaks AWS liim Andmekataloog ja andmete analüüsimine Amazon S3-s ja 26 ühendatud päringu andmeallikas, kasutades standardset SQL-i. Kui kasutate andmete importimiseks Athenat, saate Athena päringuväljundi jaoks kasutada Data Wrangleri S3 vaikeasukohta või määrata kohandatud S3 asukoha jõustamiseks Athena töörühma. Varem pidite nende vaheandmete eemaldamiseks rakendama puhastustöövooge või käsitsi seadistama S3 elutsükli konfiguratsiooni, et hallata salvestuskulusid ja täita oma organisatsiooni andmeturbenõudeid. See on suur töökulu ja seda ei saa skaleerida.
Data Wrangler toetab nüüd teie Athena päringuväljundi jaoks kohandatud S3 asukohti ja andmete säilitamise perioode. Selle uue funktsiooniga saate muuta Athena päringu väljundi asukoha kohandatud S3 ämbriks. Teil on nüüd Athena päringuväljundi jaoks andmete säilitamise vaikepoliitika 5 päeva ja saate seda muuta, et see vastaks oma organisatsiooni andmeturbenõuetele. Säilitusperioodi põhjal puhastatakse S3 ämbris olev Athena päringuväljund automaatselt. Pärast andmete importimist saate teha selle andmestiku uurimusliku andmeanalüüsi ja salvestada puhtad andmed tagasi Amazon S3-sse.
Järgmine diagramm illustreerib seda arhitektuuri.
Meie kasutusjuhtumi puhul kasutame lahenduse läbimiseks näidispanga andmestikku. Töövoog koosneb järgmistest sammudest:
- Lae alla näidisandmekogum ja laadige see S3 ämbrisse.
- Seadistage AWS-liim roomik skeemi roomamiseks ja metaandmete skeemi salvestamiseks AWS-i liimiandmete kataloogi.
- Kasutage Athenat, et pääseda juurde andmekataloogile, et teha päringuid S3 ämbrist.
- Looge Athenaga ühenduse loomiseks uus Data Wrangleri voog.
- Ühenduse loomisel määrake andmestiku säilitamise TTL.
- Kasutage seda ühendust töövoos ja salvestage puhtad andmed teise S3 ämbrisse.
Lihtsuse huvides eeldame, et olete Athena keskkonna juba seadistanud (sammud 1–3). Järgnevaid samme kirjeldame üksikasjalikult selles postituses.
Eeldused
Athena keskkonna seadistamiseks vaadake jaotist Kasutusjuhend samm-sammuliste juhiste saamiseks ja täitke eelmises jaotises kirjeldatud sammud 1–3.
Importige oma andmed Athenast Data Wranglerisse
Andmete importimiseks toimige järgmiselt.
- Valige Studio konsoolil Vahendid ikooni navigeerimispaanil.
- Vali Data Wrangler rippmenüüs.
- Vali Uus vool.
- Kohta Import valige vahekaart Amazonase Athena.
Avaneb üksikasjade leht, kus saate Athenaga ühenduse luua ja andmebaasist importimiseks kirjutada SQL-päringu. - Sisestage oma ühenduse nimi.
- Laiendama Täpsem konfiguratsioon.
Athenaga ühenduse loomisel kasutab Data Wrangler Amazon S3 päringuandmete etapistamiseks. Vaikimisi on need andmed lavastatud S3 asukohtas3://sagemaker-{region}-{account_id}/athena/
säilitusajaga 5 päeva. - eest Amazon S3 päringutulemuste asukoht, sisestage oma S3 asukoht.
- valima Andmete säilitamise periood ja määrake andmete säilitamise periood (selle postituse jaoks 1 päev).
Kui tühistate selle valiku, säilivad andmed määramata ajaks.Kulisside taga lisab Data Wrangler sellele S3 asukohale automaatseks puhastamiseks S3 elutsükli konfiguratsioonipoliitika. Vaadake järgmist näidispoliitikat.Sa pead
s3:GetLifecycleConfiguration
jas3:PutLifecycleConfiguration
et teie SageMakeri täitmisroll elutsükli konfiguratsioonipoliitikat õigesti rakendaks. Ilma nende lubadeta kuvatakse andmete importimisel veateateid.Järgmine tõrketeade on näide selle puudumisest
GetLifecycleConfiguration
luba.Järgmine tõrketeade on näide selle puudumisest
PutLifecycleConfiguration
luba. - Valikuliselt, jaoks Töörühm, saate määrata Athena töörühma.
Athena töörühm eraldab kasutajad, meeskonnad, rakendused või töökoormused rühmadesse, millest igaühel on oma õigused ja konfiguratsiooniseaded. Kui määrate töörühma, pärib Data Wrangler Athenas määratletud töörühma sätte. Näiteks kui töörühmal on päringu tulemuste ja lubade salvestamiseks määratud S3 asukoht Alista kliendipool seaded, ei saa te S3 päringu tulemuse asukohta muuta.Vaikimisi salvestab Data Wrangler teie eest ka Athena ühenduse. Seda kuvatakse uue Athena paanina Import sakk. Saate selle ühenduse alati uuesti avada, et teha päringuid ja tuua Data Wranglerisse erinevaid andmeid. - Tühista valik Salvesta ühendus kui te ei soovi ühendust salvestada.
- Athena ühenduse konfigureerimiseks valige mitte ükski eest väljavõtteline uuring kogu andmestiku importimiseks.
Suurte andmekogumite puhul võimaldab Data Wrangler teil teisendustöövoo loomiseks importida andmete alamhulka ja töödelda kogu andmestikku alles siis, kui olete selleks valmis. See kiirendab iteratsioonitsüklit ning säästab töötlemise aega ja kulusid. Lisateavet saadaolevate andmete proovivõtu valikute kohta leiate aadressilt Amazon SageMaker Data Wrangler toetab nüüd juhuslikku valimit ja kihilist valimit. - eest Andmekataloog¸ vali AwsDataCatalog.
- eest andmebaas, valige oma andmebaas.
Data Wrangler kuvab saadaolevad tabelid. Skeemi kontrollimiseks ja andmete eelvaateks saate valida iga tabeli. - Sisestage päringuväljale järgmine kood:
- Vali jooks andmete eelvaateks.
- Kui kõik tundub hea, vali Import.
- Sisestage andmestiku nimi ja valige lisama et importida andmed oma Data Wrangleri tööruumi.
Andmete analüüsimine ja töötlemine Data Wrangleriga
Pärast andmete laadimist Data Wranglerisse saate teha uurimuslikku andmeanalüüsi (EDA) ja valmistada andmed ette masinõppeks.
- Valige plussmärk kõrval
bank-data
andmevoo andmestik ja valige Lisage analüüs.
Data Wrangler pakub sisseehitatud analüüse, sealhulgas andmete kvaliteedi ja ülevaate aruannet, andmete korrelatsiooni, koolituseelset kallutatuse aruannet, teie andmekogumi kokkuvõtet ja visualiseerimisi (nt histogramme ja hajuvusgraafikuid). Lisaks saate luua oma kohandatud visualiseerimise. - eest Analüüsi tüüp¸ vali Andmekvaliteedi ja ülevaate aruanne.
See loob automaatselt visualiseeringud, analüüsid andmete kvaliteediprobleemide tuvastamiseks ja soovitused teie andmestiku jaoks vajalike õigete teisenduste tegemiseks. - eest Sihtveerg, vali Y.
- Sest see on klassifitseerimisprobleemi avaldus Probleemi tüüpvalige Klassifikatsioon.
- Vali Looma.
Data Wrangler loob teie andmestiku kohta üksikasjaliku aruande. Samuti saate aruande alla laadida oma kohalikku masinasse. - Andmete ettevalmistamiseks valige andmevoos pangaandmete andmestiku kõrval plussmärk ja valige Lisa teisendus.
- Vali Lisa samm et alustada oma ümberkujundamist.
Selle kirjutamise ajal pakub Data Wrangler üle 300 sisseehitatud teisenduse. Pandade või PySparki abil saate kirjutada ka oma teisendusi.
Nüüd saate alustada oma ärinõuetest lähtuvate teisenduste ja analüüside koostamist.
Koristage
Jooksvate kulude vältimiseks kustutage Data Wrangleri ressursid, kui olete lõpetanud, järgides alltoodud samme.
- Valige ikoon Käitavad eksemplarid ja tuumad.
- Jaotises RAKENDUSTE TÖÖTAMINE klõpsake suletusikooni kõrval
sagemaker-data-wrangler-1.0 app
. - Kinnitamiseks valige Sule kõik.
Järeldus
Selles postituses andsime ülevaate teie S3 asukoha kohandamisest ja S3 elutsükli konfiguratsioonide lubamisest andmete importimiseks Athenast Data Wranglerisse. Selle funktsiooni abil saate salvestada vahendajaandmeid kaitstud S3-asukohta ja pärast säilitusperioodi andmete koopia automaatselt eemaldada, et vähendada andmetele volitamata juurdepääsu ohtu. Soovitame teil seda uut funktsiooni proovida. Head ehitamist!
Athena ja SageMakeri kohta lisateabe saamiseks külastage veebilehte Athena kasutusjuhend ja Amazon SageMakeri dokumentatsioon.
Autoritest
Meenakshisundaram Thandavarayan on AWS-iga AI/ML vanemspetsialist. Ta aitab kõrgtehnoloogilisi strateegilisi kontosid nende AI ja ML teekonnal. Ta on väga kirglik andmepõhise AI vastu.
Harish Rajagopalan on Amazon Web Servicesi vanemlahenduste arhitekt. Harish töötab äriklientidega ja aitab neil pilveteekonnal.
James Wu on AWS-i vanem AI/ML-lahenduste spetsialist. aidata klientidel AI/ML lahendusi kavandada ja luua. Jamesi töö hõlmab laia valikut ML kasutusjuhtumeid, mille peamine huvi on arvutinägemine, sügav õppimine ja ML-i skaleerimine kogu ettevõttes. Enne AWS-iga liitumist oli James arhitekt, arendaja ja tehnoloogiajuht üle 10 aasta, sealhulgas 6 aastat inseneritöös ning 4 aastat turundus- ja reklaamitööstuses.
- AI
- ai kunst
- ai kunsti generaator
- on robot
- Amazonase Athena
- Amazon SageMaker
- Amazon SageMaker Data Wrangler
- Amazon Simple Storage Service (S3)
- tehisintellekti
- tehisintellekti sertifikaat
- tehisintellekt panganduses
- tehisintellekti robot
- tehisintellekti robotid
- tehisintellekti tarkvara
- AWS-i masinõpe
- blockchain
- plokiahela konverents ai
- coingenius
- vestluslik tehisintellekt
- krüptokonverents ai
- dall's
- sügav õpe
- google ai
- masinõpe
- Platon
- plato ai
- Platoni andmete intelligentsus
- Platoni mäng
- PlatoData
- platogaming
- skaala ai
- süntaks
- sephyrnet