Konfigurer en tilpasset Amazon S3-spørringsutdataplassering og dataoppbevaringspolicy for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Konfigurer en tilpasset Amazon S3-søkeutdataplassering og dataoppbevaringspolicy for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler

Amazon SageMaker Data Wrangler reduserer tiden det tar å samle og forberede data for maskinlæring (ML) fra uker til minutter Amazon SageMaker Studio, det første fullt integrerte utviklingsmiljøet (IDE) for ML. Med Data Wrangler kan du forenkle prosessen med dataforberedelse og funksjonsutvikling, og fullføre hvert trinn i dataforberedelsesarbeidsflyten, inkludert datavalg, rensing, utforskning og visualisering, fra ett enkelt visuelt grensesnitt. Du kan importere data fra flere datakilder som f.eks Amazon enkel lagringstjeneste (Amazon S3), Amazon RedShift, Snowflakeog 26 forente spørringsdatakilder støttet av Amazonas Athena.

Fra og med i dag, når du importerer data fra Athena-datakilder, kan du konfigurere S3-spørringsutdataplasseringen og dataoppbevaringsperioden for å importere data i Data Wrangler for å kontrollere hvor og hvor lenge Athena lagrer mellomdataene. I dette innlegget leder vi deg gjennom denne nye funksjonen.

Løsningsoversikt

Athena er en interaktiv spørringstjeneste som gjør det enkelt å bla gjennom AWS Lim Datakatalog, og analyser data i Amazon S3 og 26 fødererte spørringsdatakilder ved bruk av standard SQL. Når du bruker Athena til å importere data, kan du bruke Data Wranglers standard S3-plassering for Athena-spørringsutdata, eller spesifisere en Athena-arbeidsgruppe for å fremtvinge en tilpasset S3-plassering. Tidligere måtte du implementere oppryddingsarbeidsflyter for å fjerne disse mellomdataene, eller manuelt sette opp S3-livssykluskonfigurasjon for å kontrollere lagringskostnadene og oppfylle organisasjonens datasikkerhetskrav. Dette er en stor operasjonell overhead, og ikke skalerbar.

Data Wrangler støtter nå tilpassede S3-plasseringer og dataoppbevaringsperioder for din Athena-spørring. Med denne nye funksjonen kan du endre utdataplasseringen for Athena-spørringen til en tilpasset S3-bøtte. Du har nå en standard policy for dataoppbevaring på 5 dager for Athena-spørringen, og du kan endre dette for å møte organisasjonens datasikkerhetskrav. Basert på oppbevaringsperioden, blir Athena-spørringsutgangen i S3-bøtten ryddet opp automatisk. Etter at du har importert dataene, kan du utføre utforskende dataanalyse på dette datasettet og lagre de rene dataene tilbake til Amazon S3.

Følgende diagram illustrerer denne arkitekturen.

For vår brukssituasjon bruker vi et eksempelbankdatasett for å gå gjennom løsningen. Arbeidsflyten består av følgende trinn:

  1. Last ned eksempel datasett og last den opp til en S3-bøtte.
  2. Sett opp et AWS-lim crawler for å gjennomsøke skjemaet og lagre metadataskjemaet i AWS Glue Data Catalog.
  3. Bruk Athena for å få tilgang til datakatalogen for å søke etter data fra S3-bøtten.
  4. Opprett en ny Data Wrangler-flyt for å koble til Athena.
  5. Når du oppretter tilkoblingen, angi retensjons-TTL for datasettet.
  6. Bruk denne tilkoblingen i arbeidsflyten og lagre de rene dataene i en annen S3-bøtte.

For enkelhets skyld antar vi at du allerede har satt opp Athena-miljøet (trinn 1–3). Vi beskriver de påfølgende trinnene i dette innlegget.

Forutsetninger

For å sette opp Athena-miljøet, se Brukerhåndbok for trinnvise instruksjoner, og fullfør trinn 1–3 som beskrevet i forrige avsnitt.

Importer dataene dine fra Athena til Data Wrangler

For å importere dataene dine, fullfør følgende trinn:

  1. På Studio-konsollen velger du Ressurser ikonet i navigasjonsruten.
  2. Velg Data Wrangler på rullegardinmenyen.
  3. Velg Ny flyt.
    Konfigurer en tilpasset Amazon S3-spørringsutdataplassering og dataoppbevaringspolicy for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  4. Import kategorien, velg Amazonas Athena.
    Konfigurer en tilpasset Amazon S3-spørringsutdataplassering og dataoppbevaringspolicy for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
    En detaljside åpnes der du kan koble til Athena og skrive en SQL-spørring for å importere fra databasen.
  5. Skriv inn et navn for tilkoblingen din.
    Konfigurer en tilpasset Amazon S3-spørringsutdataplassering og dataoppbevaringspolicy for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  6. Expand Avansert konfigurasjon.
    Når du kobler til Athena, bruker Data Wrangler Amazon S3 for å iscenesette de forespurte dataene. Som standard er disse dataene iscenesatt på S3-lokasjonen s3://sagemaker-{region}-{account_id}/athena/ med en oppbevaringsperiode på 5 dager.
  7. Til Amazon S3 plassering av søkeresultater, skriv inn S3-posisjonen din.
  8. Plukke ut Oppbevaringsperiode for data og angi datalagringsperioden (for dette innlegget, 1 dag).
    Hvis du fjerner valget av dette alternativet, vil dataene vedvare på ubestemt tid.Konfigurer en tilpasset Amazon S3-spørringsutdataplassering og dataoppbevaringspolicy for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Bak kulissene knytter Data Wrangler en S3-livssykluskonfigurasjonspolicy til det S3-stedet for å rydde opp automatisk. Se følgende eksempelpolicy:
     "Rules": [
            {
                "Expiration": {
                    "Days": 1
                },
                "ID": "sm-data-wrangler-retention-policy-xxxxxxx",
                "Filter": {
                    "Prefix": "athena/test"
                },
                "Status": "Enabled"
            }
        ]

    Du trenger s3:GetLifecycleConfiguration og s3:PutLifecycleConfiguration for at SageMaker-utførelsesrollen din skal bruke livssykluskonfigurasjonspolicyene på riktig måte. Uten disse tillatelsene får du feilmeldinger når du prøver å importere dataene.

    Følgende feilmelding er et eksempel på manglende GetLifecycleConfiguration tillatelse.
    Konfigurer en tilpasset Amazon S3-spørringsutdataplassering og dataoppbevaringspolicy for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

    Følgende feilmelding er et eksempel på manglende PutLifecycleConfiguration tillatelse.

    Konfigurer en tilpasset Amazon S3-spørringsutdataplassering og dataoppbevaringspolicy for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

  9. Eventuelt for arbeidsgruppe, kan du spesifisere en Athena-arbeidsgruppe.
    En Athena-arbeidsgruppe isolerer brukere, team, applikasjoner eller arbeidsbelastninger i grupper, hver med sine egne tillatelser og konfigurasjonsinnstillinger. Når du spesifiserer en arbeidsgruppe, arver Data Wrangler arbeidsgruppeinnstillingen definert i Athena. For eksempel, hvis en arbeidsgruppe har en S3-plassering definert for å lagre spørringsresultater og aktiverer Overstyr klientsiden innstillinger, kan du ikke redigere S3-søkeresultatplasseringen.Konfigurer en tilpasset Amazon S3-spørringsutdataplassering og dataoppbevaringspolicy for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Som standard lagrer Data Wrangler også Athena-tilkoblingen for deg. Dette vises som en ny Athena-brikke i Import fanen. Du kan alltid åpne den forbindelsen på nytt for å spørre og bringe forskjellige data inn i Data Wrangler.
    Konfigurer en tilpasset Amazon S3-spørringsutdataplassering og dataoppbevaringspolicy for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  10. oppheve valget Lagre tilkoblingen hvis du ikke vil lagre tilkoblingen.
    Konfigurer en tilpasset Amazon S3-spørringsutdataplassering og dataoppbevaringspolicy for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  11. For å konfigurere Athena-tilkoblingen, velg none forum sampling for å importere hele datasettet.
    Konfigurer en tilpasset Amazon S3-spørringsutdataplassering og dataoppbevaringspolicy for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
    For store datasett lar Data Wrangler deg importere et delsett av dataene dine for å bygge ut din transformasjonsarbeidsflyt, og kun behandle hele datasettet når du er klar. Dette øker hastigheten på iterasjonssyklusen og sparer behandlingstid og kostnader. For å lære mer om forskjellige tilgjengelige datasamplingsalternativer, besøk Amazon SageMaker Data Wrangler støtter nå tilfeldig prøvetaking og stratifisert prøvetaking.
  12. Til Datakatalog¸ velg AwsDataCatalog.
  13. Til Database, velg databasen din.
    Konfigurer en tilpasset Amazon S3-spørringsutdataplassering og dataoppbevaringspolicy for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
    Data Wrangler viser de tilgjengelige tabellene. Du kan velge hver tabell for å sjekke skjemaet og forhåndsvise dataene.
    Konfigurer en tilpasset Amazon S3-spørringsutdataplassering og dataoppbevaringspolicy for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  14. Skriv inn følgende kode i søkefeltet:
    Select *
    From bank_additional_full

  15. Velg Kjør for å forhåndsvise dataene.
  16. Hvis alt ser bra ut, velg Import.
  17. Skriv inn et datasettnavn og velg Legg til for å importere dataene til Data Wrangler-arbeidsområdet.
    Konfigurer en tilpasset Amazon S3-spørringsutdataplassering og dataoppbevaringspolicy for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Analyser og behandle data med Data Wrangler

Etter at du har lastet inn dataene i Data Wrangler, kan du gjøre utforskende dataanalyse (EDA) og forberede dataene for maskinlæring.

  1. Velg plusstegnet ved siden av bank-data datasett i dataflyten, og velg Legg til analyse.
    Data Wrangler gir innebygde analyser, inkludert en datakvalitets- og innsiktsrapport, datakorrelasjon, en pre-trening bias-rapport, et sammendrag av datasettet ditt og visualiseringer (som histogrammer og spredningsplott). I tillegg kan du lage din egen tilpassede visualisering.
    Konfigurer en tilpasset Amazon S3-spørringsutdataplassering og dataoppbevaringspolicy for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  2. Til Analysetype¸ velg Datakvalitets- og innsiktsrapport.
    Dette genererer automatisk visualiseringer, analyser for å identifisere datakvalitetsproblemer og anbefalinger for de riktige transformasjonene som kreves for datasettet ditt.
  3. Til Målkolonne, velg Y.
  4. Fordi dette er en klassifiseringsproblemstilling, for Problemtype, plukke ut Klassifisering.
  5. Velg Opprett.
    Konfigurer en tilpasset Amazon S3-spørringsutdataplassering og dataoppbevaringspolicy for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
    Data Wrangler lager en detaljert rapport på datasettet ditt. Du kan også laste ned rapporten til din lokale maskin.
    Konfigurer en tilpasset Amazon S3-spørringsutdataplassering og dataoppbevaringspolicy for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  6. For dataforberedelse, velg plusstegnet ved siden av bankdatadatasettet i dataflyten, og velg Legg til transform.
  7. Velg Legg til trinn å begynne å bygge dine transformasjoner.
    Konfigurer en tilpasset Amazon S3-spørringsutdataplassering og dataoppbevaringspolicy for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Når dette skrives, tilbyr Data Wrangler over 300 innebygde transformasjoner. Du kan også skrive dine egne transformasjoner ved å bruke Pandas eller PySpark.

Konfigurer en tilpasset Amazon S3-spørringsutdataplassering og dataoppbevaringspolicy for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Du kan nå begynne å bygge dine transformasjoner og analyser basert på forretningskravene dine.

Rydd opp

For å unngå løpende kostnader, slett Data Wrangler-ressursene ved å bruke trinnene nedenfor når du er ferdig.

  1. Velg Kjørende forekomster og kjerner-ikonet.
  2. Under KJØRER APPER klikker du på avslutningsikonet ved siden av sagemaker-data-wrangler-1.0 app.
  3. Velg Slå av alle for å bekrefte.

Konfigurer en tilpasset Amazon S3-spørringsutdataplassering og dataoppbevaringspolicy for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

konklusjonen

I dette innlegget ga vi en oversikt over å tilpasse S3-plasseringen din og aktivere S3-livssykluskonfigurasjoner for import av data fra Athena til Data Wrangler. Med denne funksjonen kan du lagre mellomliggende data på et sikret S3-sted, og automatisk fjerne datakopien etter oppbevaringsperioden for å redusere risikoen for uautorisert tilgang til data. Vi oppfordrer deg til å prøve denne nye funksjonen. Lykke til med bygningen!

For å lære mer om Athena og SageMaker, besøk Athena brukerveiledning og Amazon SageMaker-dokumentasjon.


Om forfatterne

Konfigurer en tilpasset Amazon S3-spørringsutdataplassering og dataoppbevaringspolicy for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Meenakshisundaram Thandavarayan er en senior AI/ML-spesialist med AWS. Han hjelper høyteknologiske strategiske kontoer på deres AI- og ML-reise. Han er veldig lidenskapelig opptatt av datadrevet AI.

Konfigurer en tilpasset Amazon S3-spørringsutdataplassering og dataoppbevaringspolicy for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Harish Rajagopalan er senior løsningsarkitekt hos Amazon Web Services. Harish jobber med bedriftskunder og hjelper dem med deres skyreise.

Konfigurer en tilpasset Amazon S3-spørringsutdataplassering og dataoppbevaringspolicy for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.James Wu er senior AI/ML spesialistløsningsarkitekt hos AWS. hjelpe kunder med å designe og bygge AI/ML-løsninger. James sitt arbeid dekker et bredt spekter av ML-brukstilfeller, med en primær interesse for datasyn, dyp læring og skalering av ML på tvers av bedriften. Før han begynte i AWS, var James arkitekt, utvikler og teknologileder i over 10 år, inkludert 6 år innen ingeniørfag og 4 år i markedsførings- og reklamebransjen.

Tidstempel:

Mer fra AWS maskinlæring