Konfigurera en anpassad Amazon S3-frågautgångsplats och datalagringspolicy för Amazon Athena-datakällor i Amazon SageMaker Data Wrangler

Återutgiven av Platon

anhängare: 0

Amazon SageMaker Data Wrangler minskar tiden det tar att aggregera och förbereda data för maskininlärning (ML) från veckor till minuter in Amazon SageMaker Studio, den första helt integrerade utvecklingsmiljön (IDE) för ML. Med Data Wrangler kan du förenkla processen för dataförberedelse och funktionsutveckling, och slutföra varje steg i dataförberedelsens arbetsflöde, inklusive dataurval, rensning, utforskning och visualisering, från ett enda visuellt gränssnitt. Du kan importera data från flera datakällor som t.ex Amazon enkel lagringstjänst (Amazon S3), Amazon RedShift, Snöflingaoch 26 förenade frågedatakällor stöds av Amazonas Athena.

Från och med idag, när du importerar data från Athena-datakällor, kan du konfigurera S3-frågans utdataplats och datalagringsperiod för att importera data i Data Wrangler för att styra var och hur länge Athena lagrar mellanliggande data. I det här inlägget går vi igenom den här nya funktionen.

Lösningsöversikt

Athena är en interaktiv frågetjänst som gör det enkelt att bläddra i AWS-lim Datakatalog och analysera data i Amazon S3 och 26 federerade frågedatakällor med standard SQL. När du använder Athena för att importera data kan du använda Data Wranglers standard S3-plats för Athena-frågeutdata, eller ange en Athena-arbetsgrupp för att genomdriva en anpassad S3-plats. Tidigare var du tvungen att implementera rensningsarbetsflöden för att ta bort dessa mellanliggande data, eller manuellt ställa in S3-livscykelkonfiguration för att kontrollera lagringskostnaden och uppfylla din organisations datasäkerhetskrav. Detta är en stor operativ omkostnad och inte skalbar.

Data Wrangler stöder nu anpassade S3-platser och datalagringsperioder för din Athena-fråga. Med den här nya funktionen kan du ändra Athena-frågans utdataplats till en anpassad S3-hink. Du har nu en standardpolicy för datalagring på 5 dagar för Athena-frågans utdata, och du kan ändra detta för att möta din organisations datasäkerhetskrav. Baserat på lagringsperioden rensas Athena-frågans utdata i S3-skopan automatiskt. När du har importerat data kan du utföra utforskande dataanalys på denna datauppsättning och lagra den rena datan tillbaka till Amazon S3.

Följande diagram illustrerar denna arkitektur.

För vårt användningsfall använder vi en exempelbankdatauppsättning för att gå igenom lösningen. Arbetsflödet består av följande steg:

ladda ner exempeluppsättning och ladda upp den till en S3-hink.
Sätt upp ett AWS-lim sökrobot för att genomsöka schemat och lagra metadataschemat i AWS Glue Data Catalog.
Använd Athena för att komma åt datakatalogen för att söka efter data från S3-hinken.
Skapa ett nytt Data Wrangler-flöde för att ansluta till Athena.
När du skapar anslutningen ställer du in retentions-TTL för datamängden.
Använd den här anslutningen i arbetsflödet och lagra den rena datan i en annan S3-hink.

För enkelhetens skull antar vi att du redan har ställt in Athena-miljön (steg 1–3). Vi beskriver de efterföljande stegen i det här inlägget.

Förutsättningar

För att ställa in Athena-miljön, se Användarhandbok för steg-för-steg-instruktioner och slutför steg 1–3 enligt beskrivningen i föregående avsnitt.

Importera din data från Athena till Data Wrangler

För att importera din data, utför följande steg:

På Studio-konsolen väljer du Resurser ikonen i navigeringsfönstret.
Välja Data Wrangler på rullgardinsmenyn.
Välja Nytt flöde.
På Importera fliken, välj Amazonas Athena.

En detaljsida öppnas där du kan ansluta till Athena och skriva en SQL-fråga för att importera från databasen.
Ange ett namn för din anslutning.
Bygga ut Avancerad konfiguration.
När du ansluter till Athena använder Data Wrangler Amazon S3 för att iscensätta den efterfrågade informationen. Som standard placeras denna data på S3-platsen s3://sagemaker-{region}-{account_id}/athena/ med en lagringstid på 5 dagar.
För Amazon S3 placering av frågeresultat, ange din S3-plats.
Välja Datalagringsperiod och ställ in datalagringsperioden (för detta inlägg, 1 dag).
Om du avmarkerar det här alternativet kommer data att finnas kvar på obestämd tid.Bakom kulisserna kopplar Data Wrangler en S3-livscykelkonfigurationspolicy till den S3-platsen för att automatiskt städa upp. Se följande exempelpolicy:
```
 "Rules": [
        {
            "Expiration": {
                "Days": 1
            },
            "ID": "sm-data-wrangler-retention-policy-xxxxxxx",
            "Filter": {
                "Prefix": "athena/test"
            },
            "Status": "Enabled"
        }
    ]
```
Du behöver s3:GetLifecycleConfiguration och s3:PutLifecycleConfiguration för att din SageMaker-exekveringsroll ska tillämpa livscykelkonfigurationspolicyerna korrekt. Utan dessa behörigheter får du felmeddelanden när du försöker importera data.

Följande felmeddelande är ett exempel på att GetLifecycleConfiguration lov.

Följande felmeddelande är ett exempel på att PutLifecycleConfiguration lov.
Valfritt för arbetsgrupp, kan du ange en Athena-arbetsgrupp.
En Athena-arbetsgrupp isolerar användare, team, applikationer eller arbetsbelastningar i grupper, var och en med sina egna behörigheter och konfigurationsinställningar. När du anger en arbetsgrupp ärver Data Wrangler arbetsgruppsinställningen som definierats i Athena. Till exempel, om en arbetsgrupp har en S3-plats definierad för att lagra frågeresultat och aktiverar Åsidosätt klientsidan inställningar kan du inte redigera S3-frågeresultatplatsen.Som standard sparar Data Wrangler även Athena-anslutningen åt dig. Detta visas som en ny Athena-bricka i Importera flik. Du kan alltid öppna den anslutningen igen för att fråga och ta med olika data till Data Wrangler.
Välja bort Spara anslutning om du inte vill spara anslutningen.
För att konfigurera Athena-anslutningen, välj Ingen för provtagning för att importera hela datamängden.

För stora datamängder låter Data Wrangler dig importera en delmängd av dina data för att bygga ut ditt transformationsarbetsflöde och bara bearbeta hela datasetet när du är redo. Detta snabbar upp iterationscykeln och sparar bearbetningstid och kostnader. För att lära dig mer om olika tillgängliga datasamplingsalternativ, besök Amazon SageMaker Data Wrangler stöder nu slumpmässigt urval och stratifierat urval.
För Datakatalog¸ välja AwsDataCatalog.
För Databas, välj din databas.

Data Wrangler visar tillgängliga tabeller. Du kan välja varje tabell för att kontrollera schemat och förhandsgranska data.
Ange följande kod i frågefältet:
```
Select *
From bank_additional_full
```
Välja Körning för att förhandsgranska data.
Om allt ser bra ut, välj Importera.
Ange ett datauppsättningsnamn och välj Lägg till för att importera data till din Data Wrangler-arbetsyta.

Analysera och bearbeta data med Data Wrangler

När du har laddat in data i Data Wrangler kan du göra utforskande dataanalys (EDA) och förbereda data för maskininlärning.

Välj plustecknet bredvid bank-data dataset i dataflödet och välj Lägg till analys.
Data Wrangler tillhandahåller inbyggda analyser, inklusive en datakvalitets- och insiktsrapport, datakorrelation, en pre-training bias-rapport, en sammanfattning av din datauppsättning och visualiseringar (som histogram och spridningsdiagram). Dessutom kan du skapa din egen anpassade visualisering.
För Analystyp¸ välja Rapport för datakvalitet och insikt.
Detta genererar automatiskt visualiseringar, analyser för att identifiera datakvalitetsproblem och rekommendationer för rätt transformationer som krävs för din datauppsättning.
För Målkolumnväljer Y.
Eftersom detta är en klassificeringsproblemformulering, för Problemtyp, Välj Klassificering.
Välja Skapa.

Data Wrangler skapar en detaljerad rapport om din datauppsättning. Du kan också ladda ner rapporten till din lokala dator.
För dataförberedelse, välj plustecknet bredvid bankdatadataset i dataflödet och välj Lägg till transform.
Välja Lägg till steg att börja bygga dina transformationer.

När detta skrivs tillhandahåller Data Wrangler över 300 inbyggda transformationer. Du kan också skriva dina egna transformationer med Pandas eller PySpark.

Du kan nu börja bygga dina transformationer och analyser baserat på dina affärskrav.

Städa upp

För att undvika pågående kostnader, radera Data Wrangler-resurserna med hjälp av stegen nedan när du är klar.

Välj ikonen Körande instanser och kärnor.
Under KÖR APPAR klickar du på avstängningsikonen bredvid sagemaker-data-wrangler-1.0 app.
Välj Stäng av alla för att bekräfta.

Slutsats

I det här inlägget gav vi en översikt över hur du anpassar din S3-plats och aktiverar S3-livscykelkonfigurationer för att importera data från Athena till Data Wrangler. Med den här funktionen kan du lagra mellanliggande data på en säker S3-plats och automatiskt ta bort datakopian efter lagringsperioden för att minska risken för obehörig åtkomst till data. Vi uppmuntrar dig att prova denna nya funktion. Lycka till med att bygga!

För att lära dig mer om Athena och SageMaker, besök Athena Användarhandbok och Amazon SageMaker-dokumentation.

Om författarna

Konfigurera en anpassad Amazon S3-frågeutdataplats och datalagringspolicy för Amazon Athena-datakällor i Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikal sökning. Ai. Meenakshisundaram Thandavarayan är senior AI/ML-specialist med AWS. Han hjälper högteknologiska strategiska konton på deras AI- och ML-resa. Han brinner mycket för datadriven AI.

Harish Rajagopalan är Senior Solutions Architect på Amazon Web Services. Harish arbetar med företagskunder och hjälper dem med deras molnresa.

James Wu är Senior AI/ML Specialist Solution Architect på AWS. hjälpa kunder att designa och bygga AI/ML-lösningar. James arbete täcker ett brett spektrum av ML-användningsfall, med ett primärt intresse för datorseende, djupinlärning och skalning av ML över hela företaget. Innan han började på AWS var James arkitekt, utvecklare och teknikledare i över 10 år, inklusive 6 år inom ingenjörsbranschen och 4 år inom marknadsförings- och reklambranschen.

Tidsstämpel: September 20, 2022September 21, 2022

Tidsstämpel: Mar 10, 2023

Att skydda konsumenter och främja innovation – AI-reglering och bygga förtroende för ansvarsfull AI

Källkluster:

AWS maskininlärning

Källnod: 1765573

Tidsstämpel: December 1, 2022

Amazon SageMaker JumpStart erbjuder nu Amazon Comprehend-anteckningsböcker för anpassad klassificering och anpassad enhetsdetektering PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Amazon SageMaker JumpStart erbjuder nu Amazon Comprehend-anteckningsböcker för anpassad klassificering och identifiering av anpassade enheter

Källkluster:

AWS maskininlärning

Källnod: 1771393

Tidsstämpel: December 12, 2022

Amazon Personalize lanserar nya recept som stöder större produktkataloger med lägre latens | Amazon webbtjänster

Källkluster:

AWS maskininlärning

Källnod: 1970709

Tidsstämpel: Maj 2, 2024

Konfigurera en anpassad Amazon S3-frågeutdataplats och datalagringspolicy för Amazon Athena-datakällor i Amazon SageMaker Data Wrangler

Återutgiven av Platon

Lösningsöversikt

Förutsättningar

Importera din data från Athena till Data Wrangler

Analysera och bearbeta data med Data Wrangler

Städa upp

Slutsats

Om författarna

Mer från AWS maskininlärning

MLOps för batch-inferens med modellövervakning och omskolning med Amazon SageMaker, HashiCorp Terraform och GitLab CI/CD | Amazon webbtjänster

Träna och distribuera ML-modeller i en multimolnmiljö med Amazon SageMaker | Amazon webbtjänster

Möjliggör snabbare träning med Amazon SageMaker data parallellbibliotek | Amazon webbtjänster

Lokalisera innehåll till flera språk med hjälp av AWS maskininlärningstjänster

Att skydda konsumenter och främja innovation – AI-reglering och bygga förtroende för ansvarsfull AI

Amazon SageMaker JumpStart erbjuder nu Amazon Comprehend-anteckningsböcker för anpassad klassificering och identifiering av anpassade enheter

Amazon Personalize lanserar nya recept som stöder större produktkataloger med lägre latens | Amazon webbtjänster

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto