Importera data från Amazon Redshift över flera konton i Amazon SageMaker Data Wrangler för utforskande dataanalys och dataförberedelse

Återutgiven av Platon

anhängare: 0

Organisationer som går mot en datadriven kultur anammar användningen av data och maskininlärning (ML) i beslutsfattande. För att fatta ML-baserade beslut från data behöver du din data tillgänglig, tillgänglig, ren och i rätt format för att träna ML-modeller. Organisationer med en arkitektur för flera konton vill undvika situationer där de måste extrahera data från ett konto och ladda det till ett annat för dataförberedande aktiviteter. Att manuellt bygga och underhålla de olika extrahera, transformera och ladda (ETL) jobben i olika konton ökar komplexiteten och kostnaden och gör det svårare att upprätthålla de bästa metoderna för styrning, efterlevnad och säkerhet för att hålla din data säker.

Amazon RedShift är ett snabbt, fullt hanterat molndatalager. Amazon Redshift-funktionen för datadelning över flera konton ger ett enkelt och säkert sätt att dela färsk, komplett och konsekvent data i ditt Amazon Redshift-datalager med valfritt antal intressenter i olika AWS-konton. Amazon SageMaker Data Wrangler är en förmåga att Amazon SageMaker som gör det snabbare för datavetare och ingenjörer att förbereda data för ML-applikationer genom att använda ett visuellt gränssnitt. Data Wrangler låter dig utforska och transformera data för ML genom att ansluta till Amazon Redshift datashares.

I det här inlägget går vi igenom att ställa in en integration över flera konton med en Amazon Redshift-datadelning och förbereda data med Data Wrangler.

Lösningsöversikt

Vi börjar med två AWS-konton: ett producentkonto med Amazon Redshifts datalager och ett konsumentkonto för SageMaker ML användningsfall. För det här inlägget använder vi bankdatauppsättning. För att följa med, ladda ner datasetet till din lokala dator. Följande är en översikt över arbetsflödet på hög nivå:

Instantiera ett Amazon Redshift RA3-kluster i producentkontot och ladda datauppsättningen.
Skapa en Amazon Redshift-datadelning i producentkontot och låt konsumentkontot komma åt data.
Få tillgång till Amazon Redshift-datadelning i konsumentkontot.
Analysera och bearbeta data med Data Wrangler i konsumentkontot och bygg upp dina dataförberedande arbetsflöden.

Var medveten om överväganden för att arbeta med Amazon Redshift-datadelning:

Flera AWS-konton – Du behöver minst två AWS-konton: ett producentkonto och ett konsumentkonto.
Klustertyp – Datadelning stöds i RA3-klustertypen. När du instansierar ett Amazon Redshift-kluster, se till att välja RA3-klustertyp.
kryptering – För att datadelning ska fungera måste både producent- och konsumentklustret vara krypterade och bör vara i samma AWS-region.
Regioner – Datadelning över flera konton är tillgängligt för alla Amazon Redshift RA3 nodtyper i USA East (N. Virginia), USA East (Ohio), USA West (N. Kalifornien), USA West (Oregon), Asia Pacific (Mumbai), Asia Pacific (Seoul), Asia Pacific (Singapore), Asia Pacific ( Sydney), Asien och Stillahavsområdet (Tokyo), Kanada (Central), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Europa (Stockholm) och Sydamerika (São Paulo).
Priser – Datadelning över flera konton är tillgängligt över kluster som finns i samma region. Det kostar inget att dela data. Du betalar bara för Amazon Redshift-klustren som deltar i delning.

Datadelning över flera konton är en process i två steg. Först skapar en producentklusteradministratör en datadelning, lägger till objekt och ger åtkomst till konsumentkontot. Sedan godkänner producentkontoadministratören delning av data för den angivna konsumenten. Du kan göra detta från Amazon Redshift-konsolen.

Skapa en Amazon Redshift-datadelning i producentkontot

För att skapa din datadelning, slutför följande steg:

På Amazon Redshift-konsolen skapar du ett Amazon Redshift-kluster.
Ange Produktion och välj nodtypen RA3.
Enligt Ytterligare konfigurationer, avmarkera Använd standardinställningar.
Enligt Databas konfigurationer, ställ in kryptering för ditt kluster.
När du har skapat klustret importerar du direktmarknadsföringsbankens datauppsättning. Du kan ladda ner från följande URL: https://sagemaker-sample-data-us-west-2.s3-us-west-2.amazonaws.com/autopilot/direct_marketing/bank-additional.zip.
Ladda bank-additional-full.csv till en Amazon enkel lagringstjänst (Amazon S3) hink som ditt kluster har tillgång till.

Använd Amazon Redshift-frågeredigeraren och kör följande SQL-fråga för att kopiera data till Amazon Redshift:

create table bank_additional_full ( age char(40), job char(40), marital char(40), education char(40), default_history varchar(40), housing char(40), loan char(40), contact char(40), month char(40), day_of_week char(40), duration char(40), campaign char(40), pdays char(40), previous char(40), poutcome char(40), emp_var_rate char(40), cons_price_idx char(40), cons_conf_idx char(40), euribor3m char(40), nr_employed char(40), y char(40));
copy bank_additional_full
from <S3 LOCATION OF THE CSV FILE>
credentials <CLUSTER ROLE ARN>
region 'us-east-1'
format csv
IGNOREBLANKLINES
IGNOREHEADER 1

Navigera till sidan med klusterdetaljer och på Datashares fliken, välj Skapa datadelning.
För Datashare namn, ange ett namn.
För Databas namn, välj en databas.
I Lägg till datashare-objekt väljer du objekten från databasen som du vill inkludera i datadelningen.
Du har detaljerad kontroll över vad du väljer att dela med andra. För enkelhetens skull delar vi alla bord. I praktiken kan du välja en eller flera tabeller, vyer eller användardefinierade funktioner.
Välja Lägg till.
För att lägga till datakonsumenter, välj Lägg till AWS-konton till datadelningen och lägg till ditt sekundära AWS-konto-ID.
Välja Skapa datadelning.
För att auktorisera datakonsumenten du just skapade, gå till Datashares sida på Amazon Redshift-konsolen och välj den nya datadelningen.
Välj datakonsument och välj Godkänna.

Konsumentstatusen ändras från Pending authorization till Authorized.

Få tillgång till Amazon Redshift-datadelning över flera konton i konsumentens AWS-konto

Nu när datadelningen är inställd byter du till ditt konsument-AWS-konto för att konsumera datadelningen. Se till att du har minst ett Amazon Redshift-kluster skapat i ditt konsumentkonto. Klustret måste vara krypterat och i samma region som källan.

Välj på Amazon Redshift-konsolen Datashares i navigeringsfönstret.
På Från andra konton fliken, välj den datadelning du skapade och välj Associate.
Du kan associera datadelningen med ett eller flera kluster i detta konto eller associera datadelningen till hela kontot så att nuvarande och framtida kluster i konsumentkontot får tillgång till denna andel.
Ange dina anslutningsdetaljer och välj Kontakta.
Välja Skapa databas från datashare och ange ett namn för din nya databas.
För att testa datadelningen, gå till frågeredigeraren och kör frågor mot den nya databasen för att se till att alla objekt är tillgängliga som en del av datadelningen.

Analysera och bearbeta data med Data Wrangler

Du kan nu använda Data Wrangler för att komma åt data över flera konton som skapats som en datadelning i Amazon Redshift.

Öppen Amazon SageMaker Studio.
På Fil meny, välj Nya och Data Wrangler Flow.
På Importera fliken, välj Lägg till datakälla och Amazon RedShift.
Ange anslutningsdetaljerna för Amazon Redshift-klustret som du just skapade i konsumentkontot för datadelningen.
Välja Kontakta.
Använd AWS identitets- och åtkomsthantering (IAM) roll som du använde för ditt Amazon Redshift-kluster.

Observera att även om datadelningen är en ny databas i Amazon Redshift-klustret, kan du inte ansluta till den direkt från Data Wrangler.

Det korrekta sättet är att först ansluta till standardklusterdatabasen och sedan använda SQL för att fråga datadelningsdatabasen. Ange den information som krävs för att ansluta till standardklusterdatabasen. Observera att en AWS nyckelhanteringstjänst (AWS KMS) nyckel-ID krävs inte för att ansluta.

Data Wrangler är nu ansluten till Amazon Redshift-instansen.

Fråga data i Amazon Redshift datashare-databasen med en SQL-redigerare.
Välja Importera för att importera datamängden till Data Wrangler.
Ange ett namn för datasetet och välj Lägg till.

Du kan nu se flödet på Data flöde fliken Data Wrangler.

Efter att du har laddat in data i Data Wrangler kan du göra utforskande dataanalys och förbereda data för ML.

Välj plustecknet och välj Lägg till analys.

Data Wrangler tillhandahåller inbyggda analyser. Dessa inkluderar men är inte begränsade till en datakvalitets- och insiktsrapport, datakorrelation, en pre-training bias-rapport, en sammanfattning av din datauppsättning och visualiseringar (som histogram och spridningsdiagram). Du kan också skapa din egen anpassade visualisering.

Du kan använda rapporten Datakvalitet och insikter för att automatiskt generera visualiseringar och analyser för att identifiera datakvalitetsproblem och rekommendera rätt transformation som krävs för din datauppsättning.

Välja Rapport för datakvalitet och insikteroch välj Målkolumn as y.
Eftersom detta är en klassificeringsproblemformulering, för Problemtyp, Välj Klassificering.
Välja Skapa.

Data Wrangler skapar en detaljerad rapport om din datauppsättning. Du kan också ladda ner rapporten till din lokala dator.

För dataförberedelse, välj plustecknet och välj Lägg till analys.
Välja Lägg till steg att börja bygga dina transformationer.

När detta skrivs tillhandahåller Data Wrangler över 300 inbyggda transformationer. Du kan också skriva dina egna transformationer med Pandas eller PySpark.

Du kan nu börja bygga dina transformationer och analyser baserat på dina affärsbehov.

Slutsats

I det här inlägget utforskade vi att dela data mellan konton med Amazon Redshift-datadelning utan att behöva ladda ner och ladda upp data manuellt. Vi gick igenom hur man kommer åt delade data med Data Wrangler och förbereder data för dina ML-användningsfall. Denna funktion utan kod/låg kod hos Amazon Redshift-datadelning och Data Wrangler påskyndar förberedelse av träningsdata och ökar smidigheten hos dataingenjörer och dataforskare med snabbare iterativ dataförberedelse.

För att lära dig mer om Amazon Redshift och SageMaker, se Amazon Redshift Database Developer Guide och Amazon SageMaker-dokumentation.

Om författarna

Importera data från Amazon Redshift över flera konton i Amazon SageMaker Data Wrangler för utforskande dataanalys och dataförberedelse PlatoBlockchain Data Intelligence. Vertikal sökning. Ai. Meenakshisundaram Thandavarayan är senior AI/ML-specialist med AWS. Han hjälper högteknologiska strategiska konton på deras AI- och ML-resa. Han brinner mycket för datadriven AI.

James Wu är Senior AI/ML Specialist Solution Architect på AWS. hjälpa kunder att designa och bygga AI/ML-lösningar. James arbete täcker ett brett spektrum av ML-användningsfall, med ett primärt intresse för datorseende, djupinlärning och skalning av ML över hela företaget. Innan han började på AWS var James arkitekt, utvecklare och teknikledare i över 10 år, inklusive 6 år inom ingenjörsbranschen och 4 år inom marknadsförings- och reklambranschen.

Tidsstämpel: Juni 23, 2022

Tidsstämpel: December 1, 2022

Återutgiven av Platon

Få mer kontroll över dina Amazon SageMaker Data Wrangler-arbetsbelastningar med parametriserade datauppsättningar och schemalagda jobb

Effektrekommendation och sökning med hjälp av en IMDb-kunskapsgraf – Del 1

Förstärk bedrägeritransaktioner med hjälp av syntetiska data i Amazon SageMaker

Förbättra styrningen av dina maskininlärningsmodeller med Amazon SageMaker

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto