Konfigurer en tilpasset Amazon S3-forespørgselsoutputplacering og dataopbevaringspolitik for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Konfigurer en tilpasset Amazon S3-forespørgselsoutputplacering og dataopbevaringspolitik for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler

Amazon SageMaker Data Wrangler reducerer den tid, det tager at samle og forberede data til maskinlæring (ML) fra uger til minutter Amazon SageMaker Studio, det første fuldt integrerede udviklingsmiljø (IDE) til ML. Med Data Wrangler kan du forenkle processen med dataforberedelse og funktionsudvikling og fuldføre hvert trin i dataforberedelsesworkflowet, inklusive datavalg, rensning, udforskning og visualisering, fra en enkelt visuel grænseflade. Du kan importere data fra flere datakilder som f.eks Amazon Simple Storage Service (Amazon S3), Amazon rødforskydning, Snowflakeog 26 fødererede forespørgselsdatakilder støttet af Amazonas Athena.

Fra og med i dag, når du importerer data fra Athena-datakilder, kan du konfigurere S3-forespørgselsoutputplaceringen og dataopbevaringsperioden til at importere data i Data Wrangler for at kontrollere, hvor og hvor længe Athena gemmer de mellemliggende data. I dette indlæg guider vi dig gennem denne nye funktion.

Løsningsoversigt

Athena er en interaktiv forespørgselstjeneste, der gør det nemt at gennemse AWS Lim Datakatalog, og analyser data i Amazon S3 og 26 fødererede forespørgselsdatakilder ved hjælp af standard SQL. Når du bruger Athena til at importere data, kan du bruge Data Wranglers standard S3-placering til Athena-forespørgselsoutputtet eller angive en Athena-arbejdsgruppe for at gennemtvinge en tilpasset S3-placering. Tidligere skulle du implementere oprydningsarbejdsgange for at fjerne disse mellemliggende data eller manuelt opsætte S3-livscykluskonfiguration for at kontrollere lageromkostninger og opfylde din organisations datasikkerhedskrav. Dette er en stor operationel overhead og ikke skalerbar.

Data Wrangler understøtter nu tilpassede S3-placeringer og dataopbevaringsperioder for dit Athena-forespørgselsoutput. Med denne nye funktion kan du ændre Athena-forespørgselsoutputplaceringen til en brugerdefineret S3-bøtte. Du har nu en standardpolitik for dataopbevaring på 5 dage for Athena-forespørgselsoutputtet, og du kan ændre dette for at opfylde din organisations datasikkerhedskrav. Baseret på opbevaringsperioden bliver Athena-forespørgselsoutputtet i S3-bøtten ryddet op automatisk. Når du har importeret dataene, kan du udføre undersøgende dataanalyse på dette datasæt og gemme de rene data tilbage til Amazon S3.

Følgende diagram illustrerer denne arkitektur.

Til vores brugssag bruger vi et eksempelbankdatasæt til at gennemgå løsningen. Arbejdsgangen består af følgende trin:

  1. Download eksempeldatasæt og upload det til en S3-bøtte.
  2. Opsæt en AWS-lim crawler for at gennemgå skemaet og gemme metadataskemaet i AWS Glue Data Catalog.
  3. Brug Athena til at få adgang til datakataloget til at forespørge data fra S3-bøtten.
  4. Opret et nyt Data Wrangler-flow for at oprette forbindelse til Athena.
  5. Når du opretter forbindelsen, skal du indstille tilbageholdelses-TTL for datasættet.
  6. Brug denne forbindelse i arbejdsgangen og gem de rene data i en anden S3-bøtte.

For nemheds skyld antager vi, at du allerede har konfigureret Athena-miljøet (trin 1-3). Vi beskriver de efterfølgende trin i dette indlæg.

Forudsætninger

For at konfigurere Athena-miljøet, se Brugervejledning for trin-for-trin instruktioner, og udfør trin 1-3 som beskrevet i det foregående afsnit.

Importer dine data fra Athena til Data Wrangler

For at importere dine data skal du udføre følgende trin:

  1. På Studio-konsollen skal du vælge Ressourcer ikon i navigationsruden.
  2. Vælg Data Wrangler i rullemenuen.
  3. Vælg Nyt flow.
    Konfigurer en tilpasset Amazon S3-forespørgselsoutputplacering og dataopbevaringspolitik for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  4. Importere fanebladet, vælg Amazonas Athena.
    Konfigurer en tilpasset Amazon S3-forespørgselsoutputplacering og dataopbevaringspolitik for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
    En detaljeside åbnes, hvor du kan oprette forbindelse til Athena og skrive en SQL-forespørgsel, der skal importeres fra databasen.
  5. Indtast et navn til din forbindelse.
    Konfigurer en tilpasset Amazon S3-forespørgselsoutputplacering og dataopbevaringspolitik for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  6. Udvid Avanceret konfiguration.
    Når du opretter forbindelse til Athena, bruger Data Wrangler Amazon S3 til at iscenesætte de forespurgte data. Som standard er disse data iscenesat på S3-lokationen s3://sagemaker-{region}-{account_id}/athena/ med en opbevaringsperiode på 5 dage.
  7. Til Amazon S3 placering af forespørgselsresultater, indtast din S3-placering.
  8. Type Datalagringsperiode og indstil dataopbevaringsperioden (for dette indlæg, 1 dag).
    Hvis du fravælger denne mulighed, vil dataene bevares på ubestemt tid.Konfigurer en tilpasset Amazon S3-forespørgselsoutputplacering og dataopbevaringspolitik for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.Bag kulisserne knytter Data Wrangler en S3-livscykluskonfigurationspolitik til den S3-placering for automatisk at rydde op. Se følgende eksempelpolitik:
     "Rules": [
            {
                "Expiration": {
                    "Days": 1
                },
                "ID": "sm-data-wrangler-retention-policy-xxxxxxx",
                "Filter": {
                    "Prefix": "athena/test"
                },
                "Status": "Enabled"
            }
        ]

    Du har brug for: varmt vand, vaskeklude og vatrondeller. s3:GetLifecycleConfiguration , s3:PutLifecycleConfiguration for at din SageMaker-udførelsesrolle anvender livscykluskonfigurationspolitikkerne korrekt. Uden disse tilladelser får du fejlmeddelelser, når du forsøger at importere dataene.

    Følgende fejlmeddelelse er et eksempel på manglende GetLifecycleConfiguration tilladelse.
    Konfigurer en tilpasset Amazon S3-forespørgselsoutputplacering og dataopbevaringspolitik for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

    Følgende fejlmeddelelse er et eksempel på manglende PutLifecycleConfiguration tilladelse.

    Konfigurer en tilpasset Amazon S3-forespørgselsoutputplacering og dataopbevaringspolitik for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

  9. Eventuelt for arbejdsgruppe, kan du angive en Athena-arbejdsgruppe.
    En Athena-arbejdsgruppe isolerer brugere, teams, applikationer eller arbejdsbelastninger i grupper, hver med sine egne tilladelser og konfigurationsindstillinger. Når du angiver en arbejdsgruppe, arver Data Wrangler den arbejdsgruppeindstilling, der er defineret i Athena. For eksempel, hvis en arbejdsgruppe har en S3-placering defineret til at gemme forespørgselsresultater og aktivere Tilsidesæt klientsiden indstillinger, kan du ikke redigere S3-forespørgselsresultatets placering.Konfigurer en tilpasset Amazon S3-forespørgselsoutputplacering og dataopbevaringspolitik for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.Som standard gemmer Data Wrangler også Athena-forbindelsen for dig. Dette vises som en ny Athena-flise i Importere fanen. Du kan altid genåbne denne forbindelse for at forespørge og bringe forskellige data ind i Data Wrangler.
    Konfigurer en tilpasset Amazon S3-forespørgselsoutputplacering og dataopbevaringspolitik for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  10. Fravælg Gem forbindelse hvis du ikke vil gemme forbindelsen.
    Konfigurer en tilpasset Amazon S3-forespørgselsoutputplacering og dataopbevaringspolitik for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  11. For at konfigurere Athena-forbindelsen skal du vælge Ingen forum Sampling for at importere hele datasættet.
    Konfigurer en tilpasset Amazon S3-forespørgselsoutputplacering og dataopbevaringspolitik for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
    For store datasæt giver Data Wrangler dig mulighed for at importere et undersæt af dine data for at opbygge dit transformationsworkflow og kun behandle hele datasættet, når du er klar. Dette fremskynder iterationscyklussen og sparer behandlingstid og omkostninger. Besøg Amazon SageMaker Data Wrangler understøtter nu tilfældig prøveudtagning og stratificeret prøveudtagning.
  12. Til Datakatalog¸ vælg AwsDataCatalog.
  13. Til Database, vælg din database.
    Konfigurer en tilpasset Amazon S3-forespørgselsoutputplacering og dataopbevaringspolitik for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
    Data Wrangler viser de tilgængelige tabeller. Du kan vælge hver tabel for at kontrollere skemaet og få vist dataene.
    Konfigurer en tilpasset Amazon S3-forespørgselsoutputplacering og dataopbevaringspolitik for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  14. Indtast følgende kode i forespørgselsfeltet:
    Select *
    From bank_additional_full

  15. Vælg Kør for at få vist dataene.
  16. Hvis alt ser godt ud, så vælg Importere.
  17. Indtast et datasætnavn, og vælg Tilføj for at importere dataene til dit Data Wrangler-arbejdsområde.
    Konfigurer en tilpasset Amazon S3-forespørgselsoutputplacering og dataopbevaringspolitik for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Analyser og bearbejd data med Data Wrangler

Når du har indlæst dataene i Data Wrangler, kan du lave eksplorativ dataanalyse (EDA) og forberede dataene til maskinlæring.

  1. Vælg plustegnet ved siden af bank-data datasæt i dataflowet, og vælg Tilføj analyse.
    Data Wrangler leverer indbyggede analyser, herunder en datakvalitets- og indsigtsrapport, datakorrelation, en pre-training bias-rapport, et resumé af dit datasæt og visualiseringer (såsom histogrammer og scatterplot). Derudover kan du oprette din egen tilpassede visualisering.
    Konfigurer en tilpasset Amazon S3-forespørgselsoutputplacering og dataopbevaringspolitik for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  2. Til Analyse type¸ vælg Rapport om datakvalitet og indsigt.
    Dette genererer automatisk visualiseringer, analyser for at identificere datakvalitetsproblemer og anbefalinger til de rigtige transformationer, der kræves til dit datasæt.
  3. Til Målkolonne, vælg Y.
  4. Fordi dette er en klassificeringsproblemformulering, for Problektype, Vælg Klassifikation.
  5. Vælg Opret.
    Konfigurer en tilpasset Amazon S3-forespørgselsoutputplacering og dataopbevaringspolitik for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
    Data Wrangler opretter en detaljeret rapport om dit datasæt. Du kan også downloade rapporten til din lokale maskine.
    Konfigurer en tilpasset Amazon S3-forespørgselsoutputplacering og dataopbevaringspolitik for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  6. Til dataforberedelse skal du vælge plustegnet ved siden af ​​bankdatasættet i dataflowet og vælge Tilføj transformation.
  7. Vælg Tilføj trin at begynde at bygge dine transformationer.
    Konfigurer en tilpasset Amazon S3-forespørgselsoutputplacering og dataopbevaringspolitik for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

I skrivende stund leverer Data Wrangler over 300 indbyggede transformationer. Du kan også skrive dine egne transformationer ved hjælp af Pandas eller PySpark.

Konfigurer en tilpasset Amazon S3-forespørgselsoutputplacering og dataopbevaringspolitik for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Du kan nu begynde at bygge dine transformationer og analyser baseret på dine forretningskrav.

Ryd op

For at undgå løbende omkostninger skal du slette Data Wrangler-ressourcerne ved at bruge nedenstående trin, når du er færdig.

  1. Vælg ikonet Kørende forekomster og kerner.
  2. Under KØRER APPS skal du klikke på lukningsikonet ved siden af sagemaker-data-wrangler-1.0 app.
  3. Vælg Luk alle for at bekræfte.

Konfigurer en tilpasset Amazon S3-forespørgselsoutputplacering og dataopbevaringspolitik for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Konklusion

I dette indlæg gav vi en oversigt over tilpasning af din S3-placering og aktivering af S3-livscykluskonfigurationer til import af data fra Athena til Data Wrangler. Med denne funktion kan du gemme mellemliggende data på en sikret S3-placering og automatisk fjerne datakopien efter opbevaringsperioden for at reducere risikoen for uautoriseret adgang til data. Vi opfordrer dig til at prøve denne nye funktion. Glad bygning!

For at lære mere om Athena og SageMaker, besøg Athena brugervejledning , Amazon SageMaker-dokumentation.


Om forfatterne

Konfigurer en tilpasset Amazon S3-forespørgselsoutputplacering og dataopbevaringspolitik for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai. Meenakshisundaram Thandavarayan er senior AI/ML specialist med AWS. Han hjælper hi-tech strategiske konti på deres AI og ML rejse. Han er meget passioneret omkring datadrevet AI.

Konfigurer en tilpasset Amazon S3-forespørgselsoutputplacering og dataopbevaringspolitik for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.Harish Rajagopalan er Senior Solutions Architect hos Amazon Web Services. Harish arbejder med virksomhedskunder og hjælper dem med deres cloudrejse.

Konfigurer en tilpasset Amazon S3-forespørgselsoutputplacering og dataopbevaringspolitik for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.James Wu er Senior AI/ML Specialist Solution Architect hos AWS. hjælpe kunder med at designe og bygge AI/ML-løsninger. James' arbejde dækker en bred vifte af ML use cases med en primær interesse i computervision, deep learning og skalering af ML på tværs af virksomheden. Inden han kom til AWS, var James arkitekt, udvikler og teknologileder i over 10 år, herunder 6 år inden for ingeniørvidenskab og 4 år i marketing- og reklamebranchen.

Tidsstempel:

Mere fra AWS maskinindlæring