Konfigureerige kohandatud Amazon S3 päringu väljundi asukoht ja andmete säilitamise poliitika Amazon Athena andmeallikate jaoks rakenduses Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Konfigureerige Amazon SageMaker Data Wrangleris Amazon Athena andmeallikate jaoks kohandatud Amazon S3 päringu väljundi asukoht ja andmete säilitamise poliitika

Amazon SageMaker Data Wrangler vähendab aega, mis kulub andmete koondamiseks ja ettevalmistamiseks masinõppeks (ML) nädalatelt minutitele Amazon SageMaker Studio, esimene täielikult integreeritud arenduskeskkond (IDE) ML jaoks. Data Wrangleriga saate lihtsustada andmete ettevalmistamise ja funktsioonide kavandamise protsessi ning viia läbi andmete ettevalmistamise töövoo kõik etapid, sealhulgas andmete valimise, puhastamise, uurimise ja visualiseerimise, ühest visuaalse liidese kaudu. Saate importida andmeid mitmest andmeallikast, näiteks Amazoni lihtne salvestusteenus (Amazon S3), Amazoni punane nihe, Lumehelvesja 26 ühendatud päringu andmeallikat toetab Amazonase Athena.

Alates tänasest saate Athena andmeallikatest andmete importimisel konfigureerida S3 päringu väljundi asukoha ja andmete säilitamise perioodi, et importida andmed Data Wranglerisse, et juhtida, kus ja kui kaua Athena vahendavaid andmeid salvestab. Selles postituses tutvustame teile seda uut funktsiooni.

Lahenduse ülevaade

Athena on interaktiivne päringuteenus, mis muudab veebilehe sirvimise lihtsaks AWS liim Andmekataloog ja andmete analüüsimine Amazon S3-s ja 26 ühendatud päringu andmeallikas, kasutades standardset SQL-i. Kui kasutate andmete importimiseks Athenat, saate Athena päringuväljundi jaoks kasutada Data Wrangleri S3 vaikeasukohta või määrata kohandatud S3 asukoha jõustamiseks Athena töörühma. Varem pidite nende vaheandmete eemaldamiseks rakendama puhastustöövooge või käsitsi seadistama S3 elutsükli konfiguratsiooni, et hallata salvestuskulusid ja täita oma organisatsiooni andmeturbenõudeid. See on suur töökulu ja seda ei saa skaleerida.

Data Wrangler toetab nüüd teie Athena päringuväljundi jaoks kohandatud S3 asukohti ja andmete säilitamise perioode. Selle uue funktsiooniga saate muuta Athena päringu väljundi asukoha kohandatud S3 ämbriks. Teil on nüüd Athena päringuväljundi jaoks andmete säilitamise vaikepoliitika 5 päeva ja saate seda muuta, et see vastaks oma organisatsiooni andmeturbenõuetele. Säilitusperioodi põhjal puhastatakse S3 ämbris olev Athena päringuväljund automaatselt. Pärast andmete importimist saate teha selle andmestiku uurimusliku andmeanalüüsi ja salvestada puhtad andmed tagasi Amazon S3-sse.

Järgmine diagramm illustreerib seda arhitektuuri.

Meie kasutusjuhtumi puhul kasutame lahenduse läbimiseks näidispanga andmestikku. Töövoog koosneb järgmistest sammudest:

  1. Lae alla näidisandmekogum ja laadige see S3 ämbrisse.
  2. Seadistage AWS-liim roomik skeemi roomamiseks ja metaandmete skeemi salvestamiseks AWS-i liimiandmete kataloogi.
  3. Kasutage Athenat, et pääseda juurde andmekataloogile, et teha päringuid S3 ämbrist.
  4. Looge Athenaga ühenduse loomiseks uus Data Wrangleri voog.
  5. Ühenduse loomisel määrake andmestiku säilitamise TTL.
  6. Kasutage seda ühendust töövoos ja salvestage puhtad andmed teise S3 ämbrisse.

Lihtsuse huvides eeldame, et olete Athena keskkonna juba seadistanud (sammud 1–3). Järgnevaid samme kirjeldame üksikasjalikult selles postituses.

Eeldused

Athena keskkonna seadistamiseks vaadake jaotist Kasutusjuhend samm-sammuliste juhiste saamiseks ja täitke eelmises jaotises kirjeldatud sammud 1–3.

Importige oma andmed Athenast Data Wranglerisse

Andmete importimiseks toimige järgmiselt.

  1. Valige Studio konsoolil Vahendid ikooni navigeerimispaanil.
  2. Vali Data Wrangler rippmenüüs.
  3. Vali Uus vool.
    Konfigureerige kohandatud Amazon S3 päringu väljundi asukoht ja andmete säilitamise poliitika Amazon Athena andmeallikate jaoks rakenduses Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.
  4. Kohta Import valige vahekaart Amazonase Athena.
    Konfigureerige kohandatud Amazon S3 päringu väljundi asukoht ja andmete säilitamise poliitika Amazon Athena andmeallikate jaoks rakenduses Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.
    Avaneb üksikasjade leht, kus saate Athenaga ühenduse luua ja andmebaasist importimiseks kirjutada SQL-päringu.
  5. Sisestage oma ühenduse nimi.
    Konfigureerige kohandatud Amazon S3 päringu väljundi asukoht ja andmete säilitamise poliitika Amazon Athena andmeallikate jaoks rakenduses Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.
  6. Laiendama Täpsem konfiguratsioon.
    Athenaga ühenduse loomisel kasutab Data Wrangler Amazon S3 päringuandmete etapistamiseks. Vaikimisi on need andmed lavastatud S3 asukohta s3://sagemaker-{region}-{account_id}/athena/ säilitusajaga 5 päeva.
  7. eest Amazon S3 päringutulemuste asukoht, sisestage oma S3 asukoht.
  8. valima Andmete säilitamise periood ja määrake andmete säilitamise periood (selle postituse jaoks 1 päev).
    Kui tühistate selle valiku, säilivad andmed määramata ajaks.Konfigureerige kohandatud Amazon S3 päringu väljundi asukoht ja andmete säilitamise poliitika Amazon Athena andmeallikate jaoks rakenduses Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Kulisside taga lisab Data Wrangler sellele S3 asukohale automaatseks puhastamiseks S3 elutsükli konfiguratsioonipoliitika. Vaadake järgmist näidispoliitikat.
     "Rules": [
            {
                "Expiration": {
                    "Days": 1
                },
                "ID": "sm-data-wrangler-retention-policy-xxxxxxx",
                "Filter": {
                    "Prefix": "athena/test"
                },
                "Status": "Enabled"
            }
        ]

    Sa pead s3:GetLifecycleConfiguration ja s3:PutLifecycleConfiguration et teie SageMakeri täitmisroll elutsükli konfiguratsioonipoliitikat õigesti rakendaks. Ilma nende lubadeta kuvatakse andmete importimisel veateateid.

    Järgmine tõrketeade on näide selle puudumisest GetLifecycleConfiguration luba.
    Konfigureerige kohandatud Amazon S3 päringu väljundi asukoht ja andmete säilitamise poliitika Amazon Athena andmeallikate jaoks rakenduses Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

    Järgmine tõrketeade on näide selle puudumisest PutLifecycleConfiguration luba.

    Konfigureerige kohandatud Amazon S3 päringu väljundi asukoht ja andmete säilitamise poliitika Amazon Athena andmeallikate jaoks rakenduses Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

  9. Valikuliselt, jaoks Töörühm, saate määrata Athena töörühma.
    Athena töörühm eraldab kasutajad, meeskonnad, rakendused või töökoormused rühmadesse, millest igaühel on oma õigused ja konfiguratsiooniseaded. Kui määrate töörühma, pärib Data Wrangler Athenas määratletud töörühma sätte. Näiteks kui töörühmal on päringu tulemuste ja lubade salvestamiseks määratud S3 asukoht Alista kliendipool seaded, ei saa te S3 päringu tulemuse asukohta muuta.Konfigureerige kohandatud Amazon S3 päringu väljundi asukoht ja andmete säilitamise poliitika Amazon Athena andmeallikate jaoks rakenduses Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Vaikimisi salvestab Data Wrangler teie eest ka Athena ühenduse. Seda kuvatakse uue Athena paanina Import sakk. Saate selle ühenduse alati uuesti avada, et teha päringuid ja tuua Data Wranglerisse erinevaid andmeid.
    Konfigureerige kohandatud Amazon S3 päringu väljundi asukoht ja andmete säilitamise poliitika Amazon Athena andmeallikate jaoks rakenduses Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.
  10. Tühista valik Salvesta ühendus kui te ei soovi ühendust salvestada.
    Konfigureerige kohandatud Amazon S3 päringu väljundi asukoht ja andmete säilitamise poliitika Amazon Athena andmeallikate jaoks rakenduses Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.
  11. Athena ühenduse konfigureerimiseks valige mitte ükski eest väljavõtteline uuring kogu andmestiku importimiseks.
    Konfigureerige kohandatud Amazon S3 päringu väljundi asukoht ja andmete säilitamise poliitika Amazon Athena andmeallikate jaoks rakenduses Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.
    Suurte andmekogumite puhul võimaldab Data Wrangler teil teisendustöövoo loomiseks importida andmete alamhulka ja töödelda kogu andmestikku alles siis, kui olete selleks valmis. See kiirendab iteratsioonitsüklit ning säästab töötlemise aega ja kulusid. Lisateavet saadaolevate andmete proovivõtu valikute kohta leiate aadressilt Amazon SageMaker Data Wrangler toetab nüüd juhuslikku valimit ja kihilist valimit.
  12. eest Andmekataloog¸ vali AwsDataCatalog.
  13. eest andmebaas, valige oma andmebaas.
    Konfigureerige kohandatud Amazon S3 päringu väljundi asukoht ja andmete säilitamise poliitika Amazon Athena andmeallikate jaoks rakenduses Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.
    Data Wrangler kuvab saadaolevad tabelid. Skeemi kontrollimiseks ja andmete eelvaateks saate valida iga tabeli.
    Konfigureerige kohandatud Amazon S3 päringu väljundi asukoht ja andmete säilitamise poliitika Amazon Athena andmeallikate jaoks rakenduses Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.
  14. Sisestage päringuväljale järgmine kood:
    Select *
    From bank_additional_full

  15. Vali jooks andmete eelvaateks.
  16. Kui kõik tundub hea, vali Import.
  17. Sisestage andmestiku nimi ja valige lisama et importida andmed oma Data Wrangleri tööruumi.
    Konfigureerige kohandatud Amazon S3 päringu väljundi asukoht ja andmete säilitamise poliitika Amazon Athena andmeallikate jaoks rakenduses Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Andmete analüüsimine ja töötlemine Data Wrangleriga

Pärast andmete laadimist Data Wranglerisse saate teha uurimuslikku andmeanalüüsi (EDA) ja valmistada andmed ette masinõppeks.

  1. Valige plussmärk kõrval bank-data andmevoo andmestik ja valige Lisage analüüs.
    Data Wrangler pakub sisseehitatud analüüse, sealhulgas andmete kvaliteedi ja ülevaate aruannet, andmete korrelatsiooni, koolituseelset kallutatuse aruannet, teie andmekogumi kokkuvõtet ja visualiseerimisi (nt histogramme ja hajuvusgraafikuid). Lisaks saate luua oma kohandatud visualiseerimise.
    Konfigureerige kohandatud Amazon S3 päringu väljundi asukoht ja andmete säilitamise poliitika Amazon Athena andmeallikate jaoks rakenduses Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.
  2. eest Analüüsi tüüp¸ vali Andmekvaliteedi ja ülevaate aruanne.
    See loob automaatselt visualiseeringud, analüüsid andmete kvaliteediprobleemide tuvastamiseks ja soovitused teie andmestiku jaoks vajalike õigete teisenduste tegemiseks.
  3. eest Sihtveerg, vali Y.
  4. Sest see on klassifitseerimisprobleemi avaldus Probleemi tüüpvalige Klassifikatsioon.
  5. Vali Looma.
    Konfigureerige kohandatud Amazon S3 päringu väljundi asukoht ja andmete säilitamise poliitika Amazon Athena andmeallikate jaoks rakenduses Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.
    Data Wrangler loob teie andmestiku kohta üksikasjaliku aruande. Samuti saate aruande alla laadida oma kohalikku masinasse.
    Konfigureerige kohandatud Amazon S3 päringu väljundi asukoht ja andmete säilitamise poliitika Amazon Athena andmeallikate jaoks rakenduses Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.
  6. Andmete ettevalmistamiseks valige andmevoos pangaandmete andmestiku kõrval plussmärk ja valige Lisa teisendus.
  7. Vali Lisa samm et alustada oma ümberkujundamist.
    Konfigureerige kohandatud Amazon S3 päringu väljundi asukoht ja andmete säilitamise poliitika Amazon Athena andmeallikate jaoks rakenduses Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Selle kirjutamise ajal pakub Data Wrangler üle 300 sisseehitatud teisenduse. Pandade või PySparki abil saate kirjutada ka oma teisendusi.

Konfigureerige kohandatud Amazon S3 päringu väljundi asukoht ja andmete säilitamise poliitika Amazon Athena andmeallikate jaoks rakenduses Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Nüüd saate alustada oma ärinõuetest lähtuvate teisenduste ja analüüside koostamist.

Koristage

Jooksvate kulude vältimiseks kustutage Data Wrangleri ressursid, kui olete lõpetanud, järgides alltoodud samme.

  1. Valige ikoon Käitavad eksemplarid ja tuumad.
  2. Jaotises RAKENDUSTE TÖÖTAMINE klõpsake suletusikooni kõrval sagemaker-data-wrangler-1.0 app.
  3. Kinnitamiseks valige Sule kõik.

Konfigureerige kohandatud Amazon S3 päringu väljundi asukoht ja andmete säilitamise poliitika Amazon Athena andmeallikate jaoks rakenduses Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Järeldus

Selles postituses andsime ülevaate teie S3 asukoha kohandamisest ja S3 elutsükli konfiguratsioonide lubamisest andmete importimiseks Athenast Data Wranglerisse. Selle funktsiooni abil saate salvestada vahendajaandmeid kaitstud S3-asukohta ja pärast säilitusperioodi andmete koopia automaatselt eemaldada, et vähendada andmetele volitamata juurdepääsu ohtu. Soovitame teil seda uut funktsiooni proovida. Head ehitamist!

Athena ja SageMakeri kohta lisateabe saamiseks külastage veebilehte Athena kasutusjuhend ja Amazon SageMakeri dokumentatsioon.


Autoritest

Konfigureerige kohandatud Amazon S3 päringu väljundi asukoht ja andmete säilitamise poliitika Amazon Athena andmeallikate jaoks rakenduses Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai. Meenakshisundaram Thandavarayan on AWS-iga AI/ML vanemspetsialist. Ta aitab kõrgtehnoloogilisi strateegilisi kontosid nende AI ja ML teekonnal. Ta on väga kirglik andmepõhise AI vastu.

Konfigureerige kohandatud Amazon S3 päringu väljundi asukoht ja andmete säilitamise poliitika Amazon Athena andmeallikate jaoks rakenduses Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Harish Rajagopalan on Amazon Web Servicesi vanemlahenduste arhitekt. Harish töötab äriklientidega ja aitab neil pilveteekonnal.

Konfigureerige kohandatud Amazon S3 päringu väljundi asukoht ja andmete säilitamise poliitika Amazon Athena andmeallikate jaoks rakenduses Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.James Wu on AWS-i vanem AI/ML-lahenduste spetsialist. aidata klientidel AI/ML lahendusi kavandada ja luua. Jamesi töö hõlmab laia valikut ML kasutusjuhtumeid, mille peamine huvi on arvutinägemine, sügav õppimine ja ML-i skaleerimine kogu ettevõttes. Enne AWS-iga liitumist oli James arhitekt, arendaja ja tehnoloogiajuht üle 10 aasta, sealhulgas 6 aastat inseneritöös ning 4 aastat turundus- ja reklaamitööstuses.

Ajatempel:

Veel alates AWS-i masinõpe