Organisationer, der bevæger sig mod en datadrevet kultur, omfavner brugen af data og maskinlæring (ML) i beslutningstagning. For at træffe ML-baserede beslutninger ud fra data skal du have dine data tilgængelige, tilgængelige, rene og i det rigtige format til at træne ML-modeller. Organisationer med en multi-konto arkitektur ønsker at undgå situationer, hvor de skal udtrække data fra én konto og indlæse den til en anden til dataforberedelsesaktiviteter. Manuel opbygning og vedligeholdelse af de forskellige udtræk, transformer og indlæs (ETL)-job på forskellige konti tilføjer kompleksitet og omkostninger og gør det sværere at vedligeholde de bedste praksisser for styring, overholdelse og sikkerhed for at holde dine data sikre.
Amazon rødforskydning er et hurtigt, fuldt administreret cloud-datavarehus. Amazon Redshift-funktionen til deling af data på tværs af konti giver en enkel og sikker måde at dele friske, komplette og konsistente data i dit Amazon Redshift-datavarehus med et vilkårligt antal interessenter i forskellige AWS-konti. Amazon SageMaker Data Wrangler er en evne til Amazon SageMaker der gør det hurtigere for datavidenskabsfolk og ingeniører at forberede data til ML-applikationer ved at bruge en visuel grænseflade. Data Wrangler giver dig mulighed for at udforske og transformere data til ML ved at oprette forbindelse til Amazon Redshift-datashares.
I dette indlæg gennemgår vi opsætning af en integration på tværs af konti ved hjælp af en Amazon Redshift-datadeling og forberedelse af data ved hjælp af Data Wrangler.
Løsningsoversigt
Vi starter med to AWS-konti: en producentkonto hos Amazon Redshift-datavarehuset og en forbrugerkonto til SageMaker ML-brugssager. Til dette indlæg bruger vi bankdatasæt. For at følge med skal du downloade datasættet til din lokale maskine. Følgende er et overblik over arbejdsgangen på højt niveau:
- Instantiér en Amazon Redshift RA3-klynge i producentkontoen og indlæs datasættet.
- Opret en Amazon Redshift-datashare på producentkontoen, og lad forbrugerkontoen få adgang til dataene.
- Få adgang til Amazon Redshift-datadelingen på forbrugerkontoen.
- Analyser og bearbejd data med Data Wrangler på forbrugerkontoen og opbyg dine dataforberedende arbejdsgange.
Vær opmærksom på overvejelser for at arbejde med Amazon Redshift-datadeling:
- Flere AWS-konti – Du skal bruge mindst to AWS-konti: en producentkonto og en forbrugerkonto.
- Klynge type – Datadeling er understøttet i RA3-klyngetypen. Når du instansierer en Amazon Redshift-klynge, skal du sørge for at vælge RA3-klyngetypen.
- Kryptering – For at datadeling skal fungere, skal både producent- og forbrugerklynger være krypteret og skal være i samme AWS-region.
- Regioner – Datadeling på tværs af konti er tilgængelig for alle Amazon Redshift RA3 nodetyper i US East (N. Virginia), US East (Ohio), US West (N. Californien), US West (Oregon), Asia Pacific (Mumbai), Asia Pacific (Seoul), Asia Pacific (Singapore), Asia Pacific Sydney), Asien og Stillehavsområdet (Tokyo), Canada (Central), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Europa (Stockholm) og Sydamerika (São Paulo).
- Priser – Datadeling på tværs af konti er tilgængelig på tværs af klynger, der er i samme region. Det koster ikke noget at dele data. Du betaler bare for Amazon Redshift-klyngerne, der deltager i deling.
Datadeling på tværs af konti er en to-trins proces. Først opretter en producentklyngeadministrator en datashare, tilføjer objekter og giver adgang til forbrugerkontoen. Derefter godkender producentens kontoadministrator deling af data for den angivne forbruger. Du kan gøre dette fra Amazon Redshift-konsollen.
Opret en Amazon Redshift-datadeling på producentkontoen
For at oprette din datadeling skal du udføre følgende trin:
- På Amazon Redshift-konsollen skal du oprette en Amazon Redshift-klynge.
- Angiv produktion og vælg RA3-nodetypen.
- Under Yderligere konfigurationer, fravælg Brug standardindstillinger.
- Under Database konfigurationer, opsæt kryptering for din klynge.
- Når du har oprettet klyngen, skal du importere direkte marketingbankdatasættet. Du kan downloade fra følgende URL: https://sagemaker-sample-data-us-west-2.s3-us-west-2.amazonaws.com/autopilot/direct_marketing/bank-additional.zip.
- Upload
bank-additional-full.csv
til en Amazon Simple Storage Service (Amazon S3) spand, som din klynge har adgang til. - Brug Amazon Redshift-forespørgselseditoren og kør følgende SQL-forespørgsel for at kopiere dataene til Amazon Redshift:
- Naviger til siden med klyngedetaljer og på Datashares fanebladet, vælg Opret datadeling.
- Til Datashare navn, indtast et navn.
- Til Databasens navn, vælg en database.
- I Tilføj datashare-objekter skal du vælge de objekter fra databasen, du vil inkludere i datadelingen.
Du har detaljeret kontrol over, hvad du vælger at dele med andre. For nemheds skyld deler vi alle bordene. I praksis kan du vælge en eller flere tabeller, visninger eller brugerdefinerede funktioner. - Vælg Tilføj.
- For at tilføje dataforbrugere skal du vælge Tilføj AWS-konti til datadelingen og tilføj dit sekundære AWS-konto-id.
- Vælg Opret datadeling.
- For at godkende den dataforbruger, du lige har oprettet, skal du gå til Datashares side på Amazon Redshift-konsollen og vælg den nye datadeling.
- Vælg dataforbrugeren og vælg Bemyndige.
Forbrugerstatus ændres fra Pending authorization
til Authorized
.
Få adgang til Amazon Redshift-datadeling på tværs af konti på forbrugerens AWS-konto
Nu hvor datadelingen er konfigureret, skal du skifte til din forbruger-AWS-konto for at bruge datadelingen. Sørg for, at du har oprettet mindst én Amazon Redshift-klynge på din forbrugerkonto. Klyngen skal være krypteret og i samme region som kilden.
- På Amazon Redshift-konsollen skal du vælge Datashares i navigationsruden.
- På Fra andre konti fanen, vælg den datadeling, du har oprettet, og vælg Associate.
- Du kan knytte datadelingen til en eller flere klynger på denne konto eller tilknytte datadelingen til hele kontoen, så de nuværende og fremtidige klynger på forbrugerkontoen får adgang til denne andel.
- Angiv dine forbindelsesdetaljer og vælg Tilslut.
- Vælg Opret database fra datashare og indtast et navn til din nye database.
- For at teste datadelingen skal du gå til forespørgselseditoren og køre forespørgsler mod den nye database for at sikre, at alle objekterne er tilgængelige som en del af datadelingen.
Analyser og bearbejd data med Data Wrangler
Du kan nu bruge Data Wrangler til at få adgang til data på tværs af konti, der er oprettet som en datadeling i Amazon Redshift.
- Åbne Amazon SageMaker Studio.
- På File (Felt) menu, vælg Ny , Data Wrangler Flow.
- På Importere fanebladet, vælg Tilføj datakilde , Amazon rødforskydning.
- Indtast forbindelsesoplysningerne for Amazon Redshift-klyngen, du lige har oprettet på forbrugerkontoen for datadelingen.
- Vælg Tilslut.
- Brug AWS identitets- og adgangsstyring (IAM) rolle, du brugte til din Amazon Redshift-klynge.
Bemærk, at selvom datadelingen er en ny database i Amazon Redshift-klyngen, kan du ikke oprette forbindelse til den direkte fra Data Wrangler.
Den korrekte måde er først at oprette forbindelse til standardklyngedatabasen og derefter bruge SQL til at forespørge datadelingsdatabasen. Angiv de nødvendige oplysninger for at oprette forbindelse til standardklyngedatabasen. Bemærk, at en AWS Key Management Service (AWS KMS) nøgle-id er ikke påkrævet for at oprette forbindelse.
Data Wrangler er nu forbundet til Amazon Redshift-instansen.
- Forespørg dataene i Amazon Redshift datashare-databasen ved hjælp af en SQL-editor.
- Vælg Importere for at importere datasættet til Data Wrangler.
- Indtast et navn til datasættet, og vælg Tilføj.
Du kan nu se flowet på Dataflow fanen i Data Wrangler.
Når du har indlæst dataene i Data Wrangler, kan du lave undersøgende dataanalyse og forberede data til ML.
- Vælg plustegnet og vælg Tilføj analyse.
Data Wrangler giver indbyggede analyser. Disse omfatter, men er ikke begrænset til, en datakvalitets- og indsigtsrapport, datakorrelation, en pre-training bias-rapport, et resumé af dit datasæt og visualiseringer (såsom histogrammer og scatterplot). Du kan også oprette din egen tilpassede visualisering.
Du kan bruge rapporten Datakvalitet og indsigt til automatisk at generere visualiseringer og analyser for at identificere datakvalitetsproblemer og anbefale den rigtige transformation, der kræves til dit datasæt.
- Vælg Rapport om datakvalitet og indsigt, og vælg Målkolonne as y.
- Fordi dette er en klassificeringsproblemformulering, for Problektype, Vælg Klassifikation.
- Vælg Opret.
Data Wrangler opretter en detaljeret rapport om dit datasæt. Du kan også downloade rapporten til din lokale maskine.
- For dataforberedelse skal du vælge plustegnet og vælge Tilføj analyse.
- Vælg Tilføj trin at begynde at bygge dine transformationer.
I skrivende stund leverer Data Wrangler over 300 indbyggede transformationer. Du kan også skrive dine egne transformationer ved hjælp af Pandas eller PySpark.
Du kan nu begynde at bygge dine transformationer og analyser baseret på dine forretningsbehov.
Konklusion
I dette indlæg undersøgte vi deling af data på tværs af konti ved hjælp af Amazon Redshift datashares uden at skulle manuelt downloade og uploade data. Vi gennemgik, hvordan du får adgang til de delte data ved hjælp af Data Wrangler og forbereder dataene til dine ML-brugssager. Denne kapacitet uden kode/lav kode i Amazon Redshift datashares og Data Wrangler fremskynder forberedelse af træningsdata og øger smidigheden hos dataingeniører og dataforskere med hurtigere iterativ dataforberedelse.
For at lære mere om Amazon Redshift og SageMaker, se Amazon Redshift Database Developer Guide , Amazon SageMaker-dokumentation.
Om forfatterne
Meenakshisundaram Thandavarayan er senior AI/ML specialist med AWS. Han hjælper hi-tech strategiske konti på deres AI og ML rejse. Han er meget passioneret omkring datadrevet AI.
James Wu er Senior AI/ML Specialist Solution Architect hos AWS. hjælpe kunder med at designe og bygge AI/ML-løsninger. James' arbejde dækker en bred vifte af ML use cases med en primær interesse i computervision, deep learning og skalering af ML på tværs af virksomheden. Inden han kom til AWS, var James arkitekt, udvikler og teknologileder i over 10 år, herunder 6 år inden for ingeniørvidenskab og 4 år i marketing- og reklamebranchen.
- Coinsmart. Europas bedste Bitcoin og Crypto Exchange.
- Platoblokkæde. Web3 Metaverse Intelligence. Viden forstærket. FRI ADGANG.
- CryptoHawk. Altcoin radar. Gratis prøveversion.
- Kilde: https://aws.amazon.com/blogs/machine-learning/import-data-from-cross-account-amazon-redshift-in-amazon-sagemaker-data-wrangler-for-exploratory-data-analysis- og-data-forberedelse/
- "
- &
- 10
- 100
- 11
- 7
- a
- Om
- adgang
- tilgængelig
- Konto
- tværs
- aktiviteter
- Reklame
- mod
- AI
- Alle
- tillader
- Amazon
- amerika
- analyse
- En anden
- applikationer
- arkitektur
- asia
- asien pacific
- Associate
- automatisk
- til rådighed
- AWS
- Bank
- BEDSTE
- bedste praksis
- grænse
- bygge
- Bygning
- indbygget
- virksomhed
- california
- Kampagne
- Canada
- tilfælde
- central
- Vælg
- klassificering
- Cloud
- fuldføre
- Compliance
- computer
- Tilslut
- tilsluttet
- Tilslutning
- tilslutning
- konsekvent
- Konsol
- forbruge
- forbruger
- Forbrugere
- kontakt
- kontrol
- skabe
- oprettet
- skaber
- Legitimationsoplysninger
- Medarbejder kultur
- Nuværende
- skik
- Kunder
- data
- dataanalyse
- datadeling
- Database
- afgørelser
- dyb
- Design
- detaljeret
- detaljer
- Udvikler
- forskellige
- svært
- direkte
- direkte
- downloade
- editor
- Uddannelse
- omfavne
- kryptering
- Engineering
- Ingeniører
- Indtast
- Enterprise
- Europa
- udforske
- FAST
- hurtigere
- Feature
- Fornavn
- flow
- følger
- efter
- format
- frisk
- fra
- funktioner
- fremtiden
- generere
- regeringsførelse
- have
- hjælpe
- hjælper
- boliger
- Hvordan
- How To
- HTTPS
- identificere
- Identity
- omfatter
- Herunder
- industrier
- oplysninger
- indsigt
- instans
- integration
- interesse
- grænseflade
- irland
- spørgsmål
- IT
- Job
- Karriere
- sammenføjning
- rejse
- Holde
- Nøgle
- leder
- LÆR
- læring
- Limited
- belastning
- lokale
- placering
- London
- maskine
- machine learning
- vedligeholde
- lave
- maerker
- lykkedes
- ledelse
- manuelt
- Marketing
- måske
- ML
- modeller
- Måned
- mere
- flytning
- Mumbai
- Navigation
- nummer
- Ohio
- ordrer
- Oregon
- organisationer
- Andet
- egen
- Pacific
- Paris
- del
- deltage
- lidenskabelige
- Betal
- praksis
- Forbered
- tidligere
- primære
- Problem
- behandle
- producent
- give
- giver
- kvalitet
- rækkevidde
- anbefaler
- region
- indberette
- påkrævet
- roller
- Kør
- sikker
- samme
- skalering
- forskere
- sekundær
- sikker
- sikkerhed
- Seoul
- sæt
- indstilling
- Del
- delt
- deling
- underskrive
- Simpelt
- Singapore
- So
- solid
- løsninger
- Løsninger
- Syd
- specialist
- starte
- Statement
- Status
- opbevaring
- Strategisk
- Understøttet
- Kontakt
- sydney
- Teknologier
- prøve
- The Source
- Gennem
- tid
- tokyo
- mod
- Kurser
- Transform
- Transformation
- transformationer
- us
- brug
- Virginia
- vision
- visualisering
- Vest
- Hvad
- uden
- Arbejde
- arbejdsgange
- arbejder
- skrivning
- år
- Din