Määritä mukautettu Amazon S3 -kyselyn lähtösijainti ja tietojen säilytyskäytäntö Amazon Athena -tietolähteille Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.

Määritä mukautettu Amazon S3 -kyselyn lähtösijainti ja tietojen säilytyskäytäntö Amazon Athena -tietolähteille Amazon SageMaker Data Wranglerissa

Amazon SageMaker Data Wrangler vähentää aikaa, joka kuluu tietojen kokoamiseen ja valmisteluun koneoppimista varten (ML) viikoista minuutteihin Amazon SageMaker Studio, ensimmäinen täysin integroitu kehitysympäristö (IDE) ML:lle. Data Wranglerin avulla voit yksinkertaistaa tietojen valmistelua ja ominaisuuksien suunnittelua ja suorittaa tietojen valmistelutyön jokaisen vaiheen, mukaan lukien tietojen valinnan, puhdistamisen, tutkimisen ja visualisoinnin, yhdestä visuaalisesta käyttöliittymästä. Voit tuoda tietoja useista tietolähteistä, kuten Amazonin yksinkertainen tallennuspalvelu (Amazon S3), Amazonin punainen siirto, Lumihiutaleja 26 yhdistettyä kyselytietolähdettä tukema Amazon Athena.

Tästä päivästä alkaen, kun tuot tietoja Athena-tietolähteistä, voit määrittää S3-kyselyn lähtöpaikan ja tietojen säilytysajan tuomaan tietoja Data Wrangleriin hallitaksesi, missä ja kuinka kauan Athena tallentaa välittäjätietoja. Tässä viestissä opastamme sinut tämän uuden ominaisuuden läpi.

Ratkaisun yleiskatsaus

Athena on interaktiivinen kyselypalvelu, jonka avulla on helppo selata AWS-liima Data Catalog ja analysoida tietoja Amazon S3:ssa ja 26 yhdistetyssä kyselytietolähteessä käyttämällä tavallista SQL:ää. Kun käytät Athenaa tietojen tuomiseen, voit käyttää Data Wranglerin oletusarvoista S3-sijaintia Athena-kyselyn lähtöön tai määrittää Athena-työryhmän pakottamaan mukautetun S3-sijainnin. Aiemmin sinun piti ottaa käyttöön puhdistustyönkulkuja näiden välitietojen poistamiseksi tai määrittää manuaalisesti S3-elinkaarimääritykset varastointikustannusten hallitsemiseksi ja organisaatiosi tietoturvavaatimusten täyttämiseksi. Tämä on suuri toiminnallinen lisäkustannus, eikä sitä voi skaalautua.

Data Wrangler tukee nyt mukautettuja S3-sijainteja ja tietojen säilytysaikoja Athena-kyselytulosteessasi. Tämän uuden ominaisuuden avulla voit muuttaa Athena-kyselyn tulostussijainnin mukautetuksi S3-säilöksi. Sinulla on nyt oletusarvoinen 5 päivän tietojen säilytyskäytäntö Athena-kyselyn lähdölle, ja voit muuttaa tätä vastaamaan organisaatiosi tietoturvavaatimuksia. Säilytysjakson perusteella Athena-kyselytulos S3-säilössä siivotaan automaattisesti. Kun olet tuonut tiedot, voit suorittaa tutkimustietoanalyysin tälle tietojoukolle ja tallentaa puhtaat tiedot takaisin Amazon S3:een.

Seuraava kaavio kuvaa tätä arkkitehtuuria.

Käyttötapauksessamme käytämme ratkaisun läpikäymiseen esimerkkipankkitietoaineistoa. Työnkulku koostuu seuraavista vaiheista:

  1. Lataa näytetiedosto ja lataa se S3-ämpäriin.
  2. Aseta AWS-liima tela indeksoidaksesi skeeman ja tallentaaksesi metatietoskeeman AWS Glue Data Catalogiin.
  3. Käytä Athenaa päästäksesi tietokatalogiin ja kysyäksesi tietoja S3-säilöstä.
  4. Luo uusi Data Wrangler -kulku yhdistääksesi Athenaan.
  5. Kun luot yhteyttä, aseta tietojoukolle säilytys-TTL.
  6. Käytä tätä yhteyttä työnkulussa ja tallenna puhtaat tiedot toiseen S3-ämpäriin.

Yksinkertaisuuden vuoksi oletamme, että olet jo määrittänyt Athena-ympäristön (vaiheet 1–3). Tässä viestissä kerromme yksityiskohtaisesti seuraavista vaiheista.

Edellytykset

Jos haluat määrittää Athena-ympäristön, katso Käyttöopas saadaksesi vaiheittaiset ohjeet ja suorita vaiheet 1–3 edellisen osan mukaisesti.

Tuo tietosi Athenasta Data Wrangleriin

Tuo tietosi suorittamalla seuraavat vaiheet:

  1. Valitse Studio-konsolista Esittelymateriaalit -kuvaketta navigointiruudussa.
  2. Valita Data Wrangler avattavasta valikosta.
  3. Valita Uusi virtaus.
    Määritä mukautettu Amazon S3 -kyselyn lähtösijainti ja tietojen säilytyskäytäntö Amazon Athena -tietolähteille Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.
  4. On Tuo välilehti, valitse Amazon Athena.
    Määritä mukautettu Amazon S3 -kyselyn lähtösijainti ja tietojen säilytyskäytäntö Amazon Athena -tietolähteille Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.
    Näyttöön tulee tietosivu, jolla voit muodostaa yhteyden Athenaan ja kirjoittaa SQL-kyselyn tietokannasta tuotavaksi.
  5. Anna yhteydellesi nimi.
    Määritä mukautettu Amazon S3 -kyselyn lähtösijainti ja tietojen säilytyskäytäntö Amazon Athena -tietolähteille Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.
  6. Laajentaa Lisäasetukset.
    Yhdistettäessä Athenaan Data Wrangler käyttää Amazon S3:a kyselyn tietojen vaiheittamiseen. Oletuksena nämä tiedot lavastetaan S3-paikkaan s3://sagemaker-{region}-{account_id}/athena/ joiden säilytysaika on 5 päivää.
  7. varten Amazon S3 kyselyn tulosten sijainti, anna S3-sijaintisi.
  8. valita Tietojen säilytysaika ja aseta tietojen säilytysaika (tälle viestille 1 päivä).
    Jos poistat tämän vaihtoehdon valinnan, tiedot säilyvät ikuisesti.Määritä mukautettu Amazon S3 -kyselyn lähtösijainti ja tietojen säilytyskäytäntö Amazon Athena -tietolähteille Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.Kulissien takana Data Wrangler liittää S3-elinkaarimäärityskäytännön kyseiseen S3-sijaintiin automaattisesti puhdistaakseen. Katso seuraava esimerkkikäytäntö:
     "Rules": [
            {
                "Expiration": {
                    "Days": 1
                },
                "ID": "sm-data-wrangler-retention-policy-xxxxxxx",
                "Filter": {
                    "Prefix": "athena/test"
                },
                "Status": "Enabled"
            }
        ]

    Tarvitset s3:GetLifecycleConfiguration ja s3:PutLifecycleConfiguration jotta SageMaker-suoritusrooli soveltaa elinkaaren määrityskäytäntöjä oikein. Ilman näitä oikeuksia saat virheilmoituksia, kun yrität tuoda tietoja.

    Seuraava virheilmoitus on esimerkki puuttuvasta GetLifecycleConfiguration lupa.
    Määritä mukautettu Amazon S3 -kyselyn lähtösijainti ja tietojen säilytyskäytäntö Amazon Athena -tietolähteille Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.

    Seuraava virheilmoitus on esimerkki puuttuvasta PutLifecycleConfiguration lupa.

    Määritä mukautettu Amazon S3 -kyselyn lähtösijainti ja tietojen säilytyskäytäntö Amazon Athena -tietolähteille Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.

  9. Valinnaisesti Workgroup, voit määrittää Athena-työryhmän.
    Athena-työryhmä eristää käyttäjät, ryhmät, sovellukset tai työkuormat ryhmiin, joilla kullakin on omat käyttöoikeutensa ja määritysasetukset. Kun määrität työryhmän, Data Wrangler perii Athenassa määritetyn työryhmäasetuksen. Jos työryhmällä on esimerkiksi S3-sijainti, joka on määritetty tallentamaan kyselyn tulokset ja ottaa käyttöön Ohita asiakaspuoli asetukset, et voi muokata S3-kyselyn tulosten sijaintia.Määritä mukautettu Amazon S3 -kyselyn lähtösijainti ja tietojen säilytyskäytäntö Amazon Athena -tietolähteille Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.Data Wrangler tallentaa oletuksena myös Athena-yhteyden puolestasi. Tämä näkyy uutena Athena-laatana Tuo -välilehti. Voit aina avata yhteyden uudelleen tehdäksesi kyselyitä ja tuodaksesi erilaisia ​​tietoja Data Wrangleriin.
    Määritä mukautettu Amazon S3 -kyselyn lähtösijainti ja tietojen säilytyskäytäntö Amazon Athena -tietolähteille Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.
  10. Poista valinta Tallenna yhteys jos et halua tallentaa yhteyttä.
    Määritä mukautettu Amazon S3 -kyselyn lähtösijainti ja tietojen säilytyskäytäntö Amazon Athena -tietolähteille Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.
  11. Määritä Athena-yhteys valitsemalla Ei eristetty varten Näytteenotto tuodaksesi koko tietojoukon.
    Määritä mukautettu Amazon S3 -kyselyn lähtösijainti ja tietojen säilytyskäytäntö Amazon Athena -tietolähteille Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.
    Suurille tietojoukoille Data Wranglerin avulla voit tuoda osajoukon tiedoistasi muunnostyönkulun rakentamiseksi ja käsitellä koko tietojoukkoa vasta, kun olet valmis. Tämä nopeuttaa iterointisykliä ja säästää käsittelyaikaa ja kustannuksia. Saat lisätietoja erilaisista käytettävissä olevista datanäytteenottovaihtoehdoista osoitteessa Amazon SageMaker Data Wrangler tukee nyt satunnaisotantaa ja ositettua otantaa.
  12. varten Tietoluettelo¸ valitse AwsDataCatalog.
  13. varten tietokanta, valitse tietokanta.
    Määritä mukautettu Amazon S3 -kyselyn lähtösijainti ja tietojen säilytyskäytäntö Amazon Athena -tietolähteille Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.
    Data Wrangler näyttää käytettävissä olevat taulukot. Voit valita jokaisen taulukon tarkistaaksesi skeeman ja esikatsellaksesi tietoja.
    Määritä mukautettu Amazon S3 -kyselyn lähtösijainti ja tietojen säilytyskäytäntö Amazon Athena -tietolähteille Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.
  14. Kirjoita kyselykenttään seuraava koodi:
    Select *
    From bank_additional_full

  15. Valita ajaa esikatsellaksesi tietoja.
  16. Jos kaikki näyttää hyvältä, valitse Tuo.
  17. Anna tietojoukon nimi ja valitse Lisää tuodaksesi tiedot Data Wrangler -työtilaan.
    Määritä mukautettu Amazon S3 -kyselyn lähtösijainti ja tietojen säilytyskäytäntö Amazon Athena -tietolähteille Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.

Analysoi ja käsittele tietoja Data Wranglerilla

Kun olet ladannut tiedot Data Wrangleriin, voit tehdä tutkivan data-analyysin (EDA) ja valmistella tiedot koneoppimista varten.

  1. Valitse plusmerkki vierestä bank-data tietojoukko tietovirrassa ja valitse Lisää analyysi.
    Data Wrangler tarjoaa sisäänrakennettuja analyysejä, kuten Data Quality and Insights -raportin, tietojen korrelaation, harjoittelua edeltävän harharaportin, yhteenvedon tietojoukostasi ja visualisointeja (kuten histogrammeja ja hajontakaavioita). Lisäksi voit luoda oman mukautetun visualisoinnin.
    Määritä mukautettu Amazon S3 -kyselyn lähtösijainti ja tietojen säilytyskäytäntö Amazon Athena -tietolähteille Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.
  2. varten Analyysityyppi¸ valitse Tietojen laatu- ja tilastoraportti.
    Tämä luo automaattisesti visualisointeja, analyyseja tietojen laatuongelmien tunnistamiseksi ja suosituksia tietojoukkollesi tarvittavista oikeista muunnoksista.
  3. varten Kohdesarake, valitse Y.
  4. Koska tämä on luokitteluongelmalause Ongelman tyyppivalitse Luokittelu.
  5. Valita luoda.
    Määritä mukautettu Amazon S3 -kyselyn lähtösijainti ja tietojen säilytyskäytäntö Amazon Athena -tietolähteille Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.
    Data Wrangler luo yksityiskohtaisen raportin tietojoukostasi. Voit myös ladata raportin paikalliselle koneellesi.
    Määritä mukautettu Amazon S3 -kyselyn lähtösijainti ja tietojen säilytyskäytäntö Amazon Athena -tietolähteille Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.
  6. Valitse tietojen valmistelua varten plusmerkki tietokulussa pankkitietojoukon vierestä ja valitse Lisää muunnos.
  7. Valita Lisää vaihe aloittaaksesi muutosten rakentamisen.
    Määritä mukautettu Amazon S3 -kyselyn lähtösijainti ja tietojen säilytyskäytäntö Amazon Athena -tietolähteille Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.

Tätä kirjoitettaessa Data Wrangler tarjoaa yli 300 sisäänrakennettua muunnosa. Voit myös kirjoittaa omia muunnoksiasi Pandasin tai PySparkin avulla.

Määritä mukautettu Amazon S3 -kyselyn lähtösijainti ja tietojen säilytyskäytäntö Amazon Athena -tietolähteille Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.

Nyt voit alkaa rakentaa muutoksiasi ja analyysejäsi yrityksesi vaatimusten perusteella.

Puhdistaa

Voit välttää jatkuvia kustannuksia poistamalla Data Wrangler -resurssit alla olevien ohjeiden mukaisesti, kun olet valmis.

  1. Valitse Suorittavat ilmentymät ja ytimet -kuvake.
  2. Napsauta KÄYNNISSÄ SOVELLUKSET -kohdassa sammutuskuvaketta -kohdan vieressä sagemaker-data-wrangler-1.0 app.
  3. Vahvista valitsemalla Sammuta kaikki.

Määritä mukautettu Amazon S3 -kyselyn lähtösijainti ja tietojen säilytyskäytäntö Amazon Athena -tietolähteille Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.

Yhteenveto

Tässä viestissä annoimme yleiskatsauksen S3-sijainnin mukauttamisesta ja S3-elinkaarikonfiguraatioiden sallimisesta tietojen tuomiseksi Athenasta Data Wrangleriin. Tämän ominaisuuden avulla voit tallentaa välittäjätietoja suojattuun S3-paikkaan ja poistaa datakopion automaattisesti säilytysajan jälkeen, jotta tietoihin pääsee luvatta. Suosittelemme kokeilemaan tätä uutta ominaisuutta. Onnellista rakentamista!

Saat lisätietoja Athenasta ja SageMakerista vierailemalla osoitteessa Athena -käyttöopas ja Amazon SageMaker -dokumentaatio.


Tietoja kirjoittajista

Määritä mukautettu Amazon S3 -kyselyn lähtösijainti ja tietojen säilytyskäytäntö Amazon Athena -tietolähteille Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai. Meenakshisundaram Thandavarayan on vanhempi AI/ML-asiantuntija, jolla on AWS. Hän auttaa huipputeknologian strategisia tilejä heidän tekoäly- ja ML-matkallaan. Hän on erittäin intohimoinen tietopohjaiseen tekoälyyn.

Määritä mukautettu Amazon S3 -kyselyn lähtösijainti ja tietojen säilytyskäytäntö Amazon Athena -tietolähteille Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.Harish Rajagopalan on vanhempi ratkaisuarkkitehti Amazon Web Servicesissä. Harish työskentelee yritysasiakkaiden kanssa ja auttaa heitä heidän pilvimatkallaan.

Määritä mukautettu Amazon S3 -kyselyn lähtösijainti ja tietojen säilytyskäytäntö Amazon Athena -tietolähteille Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.James Wu on AWS:n vanhempi AI/ML-asiantuntijaratkaisuarkkitehti. auttaa asiakkaita suunnittelemaan ja rakentamaan AI/ML-ratkaisuja. Jamesin työ kattaa laajan valikoiman ML-käyttötapauksia, ja hänen ensisijaisena kiinnostuksena ovat tietokonenäkö, syväoppiminen ja ML:n skaalaaminen koko yrityksessä. Ennen AWS:ään liittymistään James oli arkkitehti, kehittäjä ja teknologiajohtaja yli 10 vuoden ajan, joista 6 vuotta suunnittelussa ja 4 vuotta markkinointi- ja mainontateollisuudessa.

Aikaleima:

Lisää aiheesta AWS-koneoppiminen