Konfigurirajte izhodno lokacijo poizvedbe Amazon S3 po meri in politiko hrambe podatkov za vire podatkov Amazon Athena v Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Konfigurirajte izhodno lokacijo poizvedbe Amazon S3 po meri in politiko hrambe podatkov za vire podatkov Amazon Athena v Amazon SageMaker Data Wrangler

Amazon SageMaker Data Wrangler skrajša čas, ki je potreben za združevanje in pripravo podatkov za strojno učenje (ML) s tednov na minute Amazon SageMaker Studio, prvo popolnoma integrirano razvojno okolje (IDE) za ML. Z Data Wranglerjem lahko poenostavite postopek priprave podatkov in inženiringa funkcij ter dokončate vsak korak delovnega toka priprave podatkov, vključno z izbiro podatkov, čiščenjem, raziskovanjem in vizualizacijo, iz enega samega vizualnega vmesnika. Podatke lahko uvozite iz več virov podatkov, kot je npr Preprosta storitev shranjevanja Amazon (Amazon S3), Amazon RedShift, Snowflakein 26 virov podatkov zveznih poizvedb ki jih podpira Amazonska Atena.

Od danes naprej lahko pri uvozu podatkov iz podatkovnih virov Athena konfigurirate lokacijo izhoda poizvedbe S3 in obdobje hrambe podatkov za uvoz podatkov v Data Wrangler za nadzor, kje in kako dolgo Athena shranjuje vmesne podatke. V tej objavi vas vodimo skozi to novo funkcijo.

Pregled rešitev

Athena je interaktivna poizvedovalna storitev, ki olajša brskanje po AWS lepilo Katalog podatkov in analizirajte podatke v Amazon S3 in 26 zveznih virih podatkov poizvedb z uporabo standardnega SQL. Ko uporabljate Atheno za uvoz podatkov, lahko uporabite privzeto lokacijo S3 Data Wranglerja za izpis poizvedbe Athena ali določite delovno skupino Athene za uveljavitev lokacije S3 po meri. Prej ste morali izvajati poteke dela čiščenja, da ste odstranili te vmesne podatke, ali pa ročno nastaviti konfiguracijo življenjskega cikla S3 za nadzor stroškov shranjevanja in izpolnjevanje zahtev vaše organizacije glede varnosti podatkov. To je velik operativni strošek in ni razširljiv.

Data Wrangler zdaj podpira lokacije S3 po meri in obdobja hrambe podatkov za vaš rezultat poizvedbe Athena. S to novo funkcijo lahko spremenite izhodno lokacijo poizvedbe Athena v vedro S3 po meri. Zdaj imate privzeto politiko hrambe podatkov 5 dni za izpis poizvedbe Athena in to lahko spremenite, da bo ustrezala zahtevam vaše organizacije glede varnosti podatkov. Na podlagi obdobja hrambe se izhod poizvedbe Athena v vedru S3 samodejno očisti. Ko uvozite podatke, lahko izvedete raziskovalno analizo podatkov o tem naboru podatkov in shranite čiste podatke nazaj v Amazon S3.

Naslednji diagram prikazuje to arhitekturo.

Za naš primer uporabe uporabljamo vzorčni nabor bančnih podatkov za sprehod skozi rešitev. Potek dela je sestavljen iz naslednjih korakov:

  1. Prenos vzorec nabora podatkov in ga naložite v vedro S3.
  2. Nastavite lepilo AWS gosenicah za pajkanje po shemi in shranjevanje sheme metapodatkov v katalogu podatkov AWS Glue.
  3. Uporabite Atheno za dostop do podatkovnega kataloga za poizvedbo po podatkih iz vedra S3.
  4. Ustvarite nov tok Data Wrangler za povezavo z Atheno.
  5. Ko ustvarjate povezavo, nastavite TTL hrambe za nabor podatkov.
  6. Uporabite to povezavo v delovnem toku in shranite čiste podatke v drugo vedro S3.

Zaradi poenostavitve predpostavljamo, da ste okolje Athena že nastavili (1.–3. koraka). V tej objavi podrobno opisujemo nadaljnje korake.

Predpogoji

Če želite nastaviti okolje Athena, glejte Priročnik za uporabo za navodila po korakih in dokončajte korake 1–3, kot je opisano v prejšnjem razdelku.

Uvozite svoje podatke iz Athene v Data Wrangler

Za uvoz podatkov izvedite naslednje korake:

  1. Na konzoli Studio izberite viri ikono v navigacijskem podoknu.
  2. Izberite Data Wrangler v spustnem meniju.
  3. Izberite Nov tok.
    Konfigurirajte izhodno lokacijo poizvedbe Amazon S3 po meri in politiko hrambe podatkov za vire podatkov Amazon Athena v Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.
  4. o uvoz izberite jeziček Amazonska Atena.
    Konfigurirajte izhodno lokacijo poizvedbe Amazon S3 po meri in politiko hrambe podatkov za vire podatkov Amazon Athena v Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.
    Odpre se stran s podrobnostmi, kjer se lahko povežete z Atheno in napišete poizvedbo SQL za uvoz iz baze podatkov.
  5. Vnesite ime za svojo povezavo.
    Konfigurirajte izhodno lokacijo poizvedbe Amazon S3 po meri in politiko hrambe podatkov za vire podatkov Amazon Athena v Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.
  6. Razširi Napredna konfiguracija.
    Pri povezovanju z Atheno Data Wrangler uporablja Amazon S3 za urejanje poizvedovanih podatkov. Privzeto so ti podatki uprizorjeni na lokaciji S3 s3://sagemaker-{region}-{account_id}/athena/ z rokom hrambe 5 dni.
  7. za Amazon S3 lokacija rezultatov poizvedbe, vnesite svojo lokacijo S3.
  8. Izberite Obdobje hrambe podatkov in nastavite obdobje hrambe podatkov (za to objavo 1 dan).
    Če prekličete izbiro te možnosti, se bodo podatki ohranili za nedoločen čas.Konfigurirajte izhodno lokacijo poizvedbe Amazon S3 po meri in politiko hrambe podatkov za vire podatkov Amazon Athena v Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.V zakulisju Data Wrangler priloži pravilnik o konfiguraciji življenjskega cikla S3 na to lokacijo S3 za samodejno čiščenje. Oglejte si naslednji primer pravilnika:
     "Rules": [
            {
                "Expiration": {
                    "Days": 1
                },
                "ID": "sm-data-wrangler-retention-policy-xxxxxxx",
                "Filter": {
                    "Prefix": "athena/test"
                },
                "Status": "Enabled"
            }
        ]

    Kar potrebujete s3:GetLifecycleConfiguration in s3:PutLifecycleConfiguration za vašo izvršilno vlogo SageMaker za pravilno uporabo pravilnikov konfiguracije življenjskega cikla. Brez teh dovoljenj se prikažejo sporočila o napakah, ko poskušate uvoziti podatke.

    Naslednje sporočilo o napaki je primer manjkajočega GetLifecycleConfiguration dovoljenje.
    Konfigurirajte izhodno lokacijo poizvedbe Amazon S3 po meri in politiko hrambe podatkov za vire podatkov Amazon Athena v Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

    Naslednje sporočilo o napaki je primer manjkajočega PutLifecycleConfiguration dovoljenje.

    Konfigurirajte izhodno lokacijo poizvedbe Amazon S3 po meri in politiko hrambe podatkov za vire podatkov Amazon Athena v Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

  9. Neobvezno za Delovna skupina, lahko določite delovno skupino Athena.
    Delovna skupina Athena izolira uporabnike, ekipe, aplikacije ali delovne obremenitve v skupine, od katerih ima vsaka svoja dovoljenja in konfiguracijske nastavitve. Ko določite delovno skupino, Data Wrangler podeduje nastavitev delovne skupine, definirano v Atheni. Na primer, če ima delovna skupina določeno lokacijo S3 za shranjevanje rezultatov poizvedbe in omogoča Preglasi odjemalsko stran nastavitve, ne morete urejati mesta rezultata poizvedbe S3.Konfigurirajte izhodno lokacijo poizvedbe Amazon S3 po meri in politiko hrambe podatkov za vire podatkov Amazon Athena v Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.Data Wrangler vam privzeto shrani tudi povezavo Athena. To je prikazano kot nova ploščica Athena v uvoz zavihek. To povezavo lahko kadar koli znova odprete za poizvedbo in prenos različnih podatkov v Data Wrangler.
    Konfigurirajte izhodno lokacijo poizvedbe Amazon S3 po meri in politiko hrambe podatkov za vire podatkov Amazon Athena v Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.
  10. Prekliči izbiro Shrani povezavo če ne želite shraniti povezave.
    Konfigurirajte izhodno lokacijo poizvedbe Amazon S3 po meri in politiko hrambe podatkov za vire podatkov Amazon Athena v Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.
  11. Če želite konfigurirati povezavo Athena, izberite Noben za Vzorčenje za uvoz celotnega nabora podatkov.
    Konfigurirajte izhodno lokacijo poizvedbe Amazon S3 po meri in politiko hrambe podatkov za vire podatkov Amazon Athena v Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.
    Za velike nabore podatkov vam Data Wrangler omogoča uvoz podnabora vaših podatkov, da sestavite potek dela preoblikovanja, in obdelavo celotnega nabora podatkov šele, ko ste pripravljeni. To pospeši cikel iteracije in prihrani čas in stroške obdelave. Če želite izvedeti več o različnih možnostih vzorčenja podatkov, ki so na voljo, obiščite Amazon SageMaker Data Wrangler zdaj podpira naključno vzorčenje in stratificirano vzorčenje.
  12. za Katalog podatkov¸ izberite AwsDataCatalog.
  13. za Baze podatkov, izberite svojo zbirko podatkov.
    Konfigurirajte izhodno lokacijo poizvedbe Amazon S3 po meri in politiko hrambe podatkov za vire podatkov Amazon Athena v Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.
    Data Wrangler prikaže razpoložljive tabele. Izberete lahko vsako tabelo, da preverite shemo in predogledate podatke.
    Konfigurirajte izhodno lokacijo poizvedbe Amazon S3 po meri in politiko hrambe podatkov za vire podatkov Amazon Athena v Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.
  14. V polje za poizvedbo vnesite naslednjo kodo:
    Select *
    From bank_additional_full

  15. Izberite Run za predogled podatkov.
  16. Če vse izgleda dobro, izberite uvoz.
  17. Vnesite ime nabora podatkov in izberite Dodaj za uvoz podatkov v vaš delovni prostor Data Wrangler.
    Konfigurirajte izhodno lokacijo poizvedbe Amazon S3 po meri in politiko hrambe podatkov za vire podatkov Amazon Athena v Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Analizirajte in obdelajte podatke s programom Data Wrangler

Ko naložite podatke v Data Wrangler, lahko izvedete raziskovalno analizo podatkov (EDA) in pripravite podatke za strojno učenje.

  1. Izberite znak plus poleg bank-data nabor podatkov v toku podatkov in izberite Dodaj analizo.
    Data Wrangler ponuja vgrajene analize, vključno s poročilom o kakovosti podatkov in vpogledih, korelacijo podatkov, poročilom o pristranskosti pred usposabljanjem, povzetkom vašega nabora podatkov in vizualizacijami (kot so histogrami in razpršeni diagrami). Poleg tega lahko ustvarite lastno vizualizacijo po meri.
    Konfigurirajte izhodno lokacijo poizvedbe Amazon S3 po meri in politiko hrambe podatkov za vire podatkov Amazon Athena v Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.
  2. za Vrsta analize¸ izberite Poročilo o kakovosti podatkov in vpogledu.
    To samodejno ustvari vizualizacije, analize za prepoznavanje težav s kakovostjo podatkov in priporočila za prave transformacije, potrebne za vaš nabor podatkov.
  3. za Ciljni stolpec, izberite Y.
  4. Ker je to trditev o problemu klasifikacije, za Vrsta težavetako, da izberete Razvrstitev.
  5. Izberite ustvarjanje.
    Konfigurirajte izhodno lokacijo poizvedbe Amazon S3 po meri in politiko hrambe podatkov za vire podatkov Amazon Athena v Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.
    Data Wrangler ustvari podrobno poročilo o vašem naboru podatkov. Poročilo lahko tudi prenesete na svoj lokalni računalnik.
    Konfigurirajte izhodno lokacijo poizvedbe Amazon S3 po meri in politiko hrambe podatkov za vire podatkov Amazon Athena v Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.
  6. Za pripravo podatkov izberite znak plus poleg nabora bančnih podatkov v toku podatkov in izberite Dodaj preoblikovanje.
  7. Izberite Dodaj korak da začnete graditi svoje preobrazbe.
    Konfigurirajte izhodno lokacijo poizvedbe Amazon S3 po meri in politiko hrambe podatkov za vire podatkov Amazon Athena v Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

V času tega pisanja ponuja Data Wrangler več kot 300 vgrajenih transformacij. Svoje transformacije lahko napišete tudi s Pandas ali PySpark.

Konfigurirajte izhodno lokacijo poizvedbe Amazon S3 po meri in politiko hrambe podatkov za vire podatkov Amazon Athena v Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Zdaj lahko začnete graditi svoje transformacije in analize na podlagi vaših poslovnih zahtev.

Čiščenje

Če želite preprečiti tekoče stroške, izbrišite vire Data Wrangler po spodnjih korakih, ko končate.

  1. Izberite ikono za izvajajoče se primerke in jedra.
  2. V razdelku TEKUČE APLIKACIJE kliknite ikono za zaustavitev poleg sagemaker-data-wrangler-1.0 app.
  3. Za potrditev izberite Zaustavi vse.

Konfigurirajte izhodno lokacijo poizvedbe Amazon S3 po meri in politiko hrambe podatkov za vire podatkov Amazon Athena v Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

zaključek

V tej objavi smo zagotovili pregled prilagajanja vaše lokacije S3 in omogočanja konfiguracij življenjskega cikla S3 za uvoz podatkov iz Athene v Data Wrangler. S to funkcijo lahko shranite vmesne podatke na varno lokacijo S3 in samodejno odstranite kopijo podatkov po obdobju hrambe, da zmanjšate tveganje za nepooblaščen dostop do podatkov. Svetujemo vam, da preizkusite to novo funkcijo. Srečno gradnjo!

Če želite izvedeti več o Athena in SageMaker, obiščite Uporabniški priročnik Athena in Dokumentacija Amazon SageMaker.


O avtorjih

Konfigurirajte izhodno lokacijo poizvedbe Amazon S3 po meri in politiko hrambe podatkov za vire podatkov Amazon Athena v Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. Meenakshisundaram Thandavarayan je višji strokovnjak za AI/ML pri AWS. Pomaga visokotehnološkim strateškim računom na njihovi poti AI in ML. Zelo je navdušen nad AI, ki temelji na podatkih.

Konfigurirajte izhodno lokacijo poizvedbe Amazon S3 po meri in politiko hrambe podatkov za vire podatkov Amazon Athena v Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.Harish Rajagopalan je višji arhitekt rešitev pri Amazon Web Services. Harish sodeluje s podjetniškimi strankami in jim pomaga pri njihovem potovanju v oblak.

Konfigurirajte izhodno lokacijo poizvedbe Amazon S3 po meri in politiko hrambe podatkov za vire podatkov Amazon Athena v Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.James Wu je višji specialist za AI/ML rešitve pri AWS. pomoč strankam pri načrtovanju in izdelavi rešitev AI/ML. Jamesovo delo pokriva širok spekter primerov uporabe ML, s primarnim zanimanjem za računalniški vid, globoko učenje in razširjanje ML v podjetju. Preden se je pridružil podjetju AWS, je bil James več kot 10 let arhitekt, razvijalec in tehnološki vodja, od tega 6 let v inženiringu in 4 leta v trženju in oglaševalski industriji.

Časovni žig:

Več od Strojno učenje AWS