Organisaties die op weg zijn naar een datagedreven cultuur omarmen het gebruik van data en machine learning (ML) bij besluitvorming. Om op ML gebaseerde beslissingen te nemen op basis van gegevens, moet u uw gegevens beschikbaar, toegankelijk, schoon en in het juiste formaat hebben om ML-modellen te trainen. Organisaties met een architectuur met meerdere accounts willen situaties vermijden waarin ze gegevens uit het ene account moeten halen en in een ander account moeten laden voor gegevensvoorbereidingsactiviteiten. Het handmatig bouwen en onderhouden van de verschillende taken voor extraheren, transformeren en laden (ETL) in verschillende accounts voegt complexiteit en kosten toe, en maakt het moeilijker om de best practices voor governance, compliance en beveiliging te handhaven om uw gegevens veilig te houden.
Amazon roodverschuiving is een snel, volledig beheerd cloud datawarehouse. De Amazon Redshift-functie voor het delen van gegevens tussen accounts biedt een eenvoudige en veilige manier om nieuwe, volledige en consistente gegevens in uw Amazon Redshift-datawarehouse te delen met een willekeurig aantal belanghebbenden in verschillende AWS-accounts. Amazon SageMaker-gegevens Wrangler is een vermogen van Amazon Sage Maker dat maakt het sneller voor datawetenschappers en technici om gegevens voor te bereiden voor ML-toepassingen met behulp van een visuele interface. Met Data Wrangler kunt u gegevens voor ML verkennen en transformeren door verbinding te maken met Amazon Redshift-gegevensshares.
In dit bericht lopen we door het opzetten van een cross-account integratie met behulp van een Amazon Redshift datashare en het voorbereiden van data met behulp van Data Wrangler.
Overzicht oplossingen
We beginnen met twee AWS-accounts: een producentenaccount bij het Amazon Redshift-datawarehouse en een consumentenaccount voor SageMaker ML-gebruiksscenario's. Voor dit bericht gebruiken we de bankgegevensset. Download de dataset naar uw lokale computer om mee te volgen. Het volgende is een overzicht op hoog niveau van de workflow:
- Instantieer een Amazon Redshift RA3-cluster in het producentenaccount en laad de dataset.
- Maak een Amazon Redshift-datashare aan in het producentenaccount en geef het consumentenaccount toegang tot de gegevens.
- Toegang tot de Amazon Redshift-datashare in het consumentenaccount.
- Analyseer en verwerk gegevens met Data Wrangler in het consumentenaccount en bouw uw workflows voor gegevensvoorbereiding.
Let op de overwegingen voor het werken met Amazon Redshift-gegevensuitwisseling:
- Meerdere AWS-accounts – Je hebt minimaal twee AWS-accounts nodig: een producentenaccount en een consumentenaccount.
- Clustertype – Het delen van gegevens wordt ondersteund in het RA3-clustertype. Zorg ervoor dat u bij het instantiëren van een Amazon Redshift-cluster het RA3-clustertype kiest.
- Encryptie – Om het delen van gegevens te laten werken, moeten zowel de producenten- als de consumentenclusters versleuteld zijn en zich in dezelfde AWS-regio bevinden.
- Regio's – Gegevens delen tussen accounts is beschikbaar voor alle Amazon Redshift RA3-knooppunttypen in het oosten van de VS (N. Virginia), het oosten van de VS (Ohio), het westen van de VS (N. Californië), het westen van de VS (Oregon), Azië-Pacific (Mumbai), Azië-Pacific (Seoul), Azië-Pacific (Singapore), Azië-Pacific ( Sydney), Azië-Pacific (Tokyo), Canada (Centraal), Europa (Frankfurt), Europa (Ierland), Europa (Londen), Europa (Parijs), Europa (Stockholm) en Zuid-Amerika (São Paulo).
- Prijzen – Het delen van gegevens tussen verschillende accounts is beschikbaar tussen clusters die zich in dezelfde regio bevinden. Aan het delen van gegevens zijn geen kosten verbonden. U betaalt alleen voor de Amazon Redshift-clusters die deelnemen aan delen.
Het delen van gegevens tussen accounts is een proces in twee stappen. Ten eerste maakt een beheerder van een producentencluster een datashare, voegt objecten toe en geeft toegang tot het consumentenaccount. Vervolgens autoriseert de beheerder van het producentenaccount het delen van gegevens voor de opgegeven consument. U kunt dit doen vanaf de Amazon Redshift-console.
Maak een Amazon Redshift-gegevensshare aan in het producentenaccount
Voer de volgende stappen uit om uw datashare te maken:
- Maak op de Amazon Redshift-console een Amazon Redshift-cluster.
- Specificeren productie en kies het RA3-knooppunttype.
- Onder Aanvullende configuraties, deselecteren Standaardinstellingen gebruiken.
- Onder Databaseconfiguraties, stel versleuteling in voor uw cluster.
- Nadat u het cluster hebt gemaakt, importeert u de direct-marketingbankgegevensset. U kunt downloaden van de volgende URL: https://sagemaker-sample-data-us-west-2.s3-us-west-2.amazonaws.com/autopilot/direct_marketing/bank-additional.zip.
- Uploaden
bank-additional-full.csv
een Amazon eenvoudige opslagservice (Amazon S3) bucket waartoe uw cluster toegang heeft. - Gebruik de Amazon Redshift-query-editor en voer de volgende SQL-query uit om de gegevens naar Amazon Redshift te kopiëren:
- Navigeer naar de pagina met clusterdetails en op de Gegevens delen tabblad, kies Gegevensshare maken.
- Voor Naam gegevensshare, voer een naam in.
- Voor Database naam, kies een databank.
- In het Datashare-objecten toevoegen sectie, kiest u de objecten uit de database die u in de datashare wilt opnemen.
U heeft gedetailleerde controle over wat u met anderen wilt delen. Voor de eenvoud delen we alle tabellen. In de praktijk kunt u een of meer tabellen, weergaven of door de gebruiker gedefinieerde functies kiezen. - Kies Toevoegen.
- Om dataconsumenten toe te voegen, selecteer Voeg AWS-accounts toe aan de datashare en voeg uw secundaire AWS-account-ID toe.
- Kies Gegevensshare maken.
- Om de gegevensconsument die u zojuist hebt gemaakt te autoriseren, gaat u naar de Gegevens delen pagina op de Amazon Redshift-console en kies de nieuwe datashare.
- Selecteer de dataconsument en kies machtigen.
De status van de consument verandert van Pending authorization
naar Authorized
.
Toegang tot de Amazon Redshift cross-account datashare in het AWS-account voor consumenten
Nu de datashare is ingesteld, schakelt u over naar uw consumenten AWS-account om de datashare te gebruiken. Zorg ervoor dat je ten minste één Amazon Redshift-cluster hebt aangemaakt in je consumentenaccount. Het cluster moet versleuteld zijn en zich in dezelfde regio bevinden als de bron.
- Kies op de Amazon Redshift-console Gegevens delen in het navigatievenster.
- Op de Van andere accounts tabblad, selecteer de datashare die u hebt gemaakt en kies Associëren.
- U kunt de datashare koppelen aan een of meer clusters in dit account of de datashare koppelen aan het gehele account zodat de huidige en toekomstige clusters in het consumentenaccount toegang krijgen tot deze share.
- Geef uw verbindingsgegevens op en kies Verbinden.
- Kies Database maken van datashare en voer een naam in voor uw nieuwe database.
- Om de datashare te testen, gaat u naar de query-editor en voert u query's uit op de nieuwe database om er zeker van te zijn dat alle objecten beschikbaar zijn als onderdeel van de datashare.
Analyseer en verwerk gegevens met Data Wrangler
U kunt nu Data Wrangler gebruiken om toegang te krijgen tot de cross-accountgegevens die zijn gemaakt als een datashare in Amazon Redshift.
- Openen Amazon SageMaker Studio.
- Op de Dien in menu, kies New en Data Wrangler-stroom.
- Op de import tabblad, kies Gegevensbron toevoegen en Amazon roodverschuiving.
- Voer de verbindingsdetails in van het Amazon Redshift-cluster dat u zojuist hebt gemaakt in het consumentenaccount voor de datashare.
- Kies Verbinden.
- Gebruik de AWS Identiteits- en toegangsbeheer (IAM)-rol die u gebruikte voor uw Amazon Redshift-cluster.
Merk op dat hoewel de datashare een nieuwe database is in het Amazon Redshift-cluster, u er niet rechtstreeks vanuit Data Wrangler verbinding mee kunt maken.
De juiste manier is om eerst verbinding te maken met de standaard clusterdatabase en vervolgens SQL te gebruiken om de datashare-database te doorzoeken. Geef de vereiste informatie op om verbinding te maken met de standaardclusterdatabase. Merk op dat een AWS Sleutelbeheerservice (AWS KMS) sleutel-ID is niet vereist om verbinding te maken.
Data Wrangler is nu verbonden met de Amazon Redshift-instantie.
- Vraag de gegevens in de Amazon Redshift datashare-database op met behulp van een SQL-editor.
- Kies import om de dataset naar Data Wrangler te importeren.
- Voer een naam in voor de dataset en kies Toevoegen.
Je kunt nu de stroom zien op de Informatiestroom tabblad van Data Wrangler.
Nadat u de gegevens in Data Wrangler hebt geladen, kunt u verkennende gegevensanalyses uitvoeren en gegevens voorbereiden voor ML.
- Kies het plusteken en kies Analyse toevoegen.
Data Wrangler biedt ingebouwde analyses. Deze omvatten, maar zijn niet beperkt tot, een rapport over gegevenskwaliteit en inzichten, gegevenscorrelatie, een pre-trainingsbiasrapport, een samenvatting van uw gegevensset en visualisaties (zoals histogrammen en spreidingsdiagrammen). U kunt ook uw eigen aangepaste visualisatie maken.
U kunt het Data Quality and Insights Report gebruiken om automatisch visualisaties en analyses te genereren om problemen met de gegevenskwaliteit te identificeren en om de juiste transformatie aan te bevelen die nodig is voor uw dataset.
- Kies Rapport Gegevenskwaliteit en inzichtenen kies het Doelkolom as y.
- Omdat dit een classificatieprobleem is, voor: Type probleemselecteer Classificatie.
- Kies creëren.
Data Wrangler maakt een gedetailleerd rapport over uw dataset. U kunt het rapport ook downloaden naar uw lokale computer.
- Kies voor gegevensvoorbereiding het plusteken en kies Analyse toevoegen.
- Kies Stap toevoegen om te beginnen met het bouwen van uw transformaties.
Op het moment van schrijven biedt Data Wrangler meer dan 300 ingebouwde transformaties. U kunt ook uw eigen transformaties schrijven met Panda's of PySpark.
U kunt nu beginnen met het bouwen van uw transformaties en analyses op basis van uw zakelijke vereisten.
Conclusie
In dit bericht hebben we het delen van gegevens tussen accounts onderzocht met Amazon Redshift-gegevensshares zonder handmatig gegevens te hoeven downloaden en uploaden. We hebben uitgelegd hoe u toegang kunt krijgen tot de gedeelde gegevens met behulp van Data Wrangler en de gegevens voorbereidt voor uw ML-gebruiksscenario's. Deze no-code/low-code-mogelijkheid van Amazon Redshift-datashares en Data Wrangler versnelt de voorbereiding van trainingsdata en vergroot de flexibiliteit van data-engineers en datawetenschappers met snellere iteratieve datavoorbereiding.
Voor meer informatie over Amazon Redshift en SageMaker, raadpleeg de: Handleiding voor ontwikkelaars van Amazon Redshift-database en Amazon SageMaker-documentatie.
Over de auteurs
Meenakshisundaram Thandavarayan is een Senior AI/ML-specialist bij AWS. Hij helpt hi-tech strategische accounts op hun AI- en ML-reis. Hij heeft een grote passie voor datagedreven AI.
James Wu is Senior AI/ML Specialist Solution Architect bij AWS. klanten helpen bij het ontwerpen en bouwen van AI/ML-oplossingen. James' werk omvat een breed scala aan ML-gebruikscasussen, met een primaire interesse in computervisie, deep learning en het opschalen van ML in de hele onderneming. Voordat hij bij AWS kwam, was James meer dan 10 jaar architect, ontwikkelaar en technologieleider, waarvan 6 jaar in engineering en 4 jaar in marketing- en reclamesectoren.
- Coinsmart. Europa's beste Bitcoin- en crypto-uitwisseling.
- Platoblockchain. Web3 Metaverse Intelligentie. Kennis versterkt. GRATIS TOEGANG.
- CryptoHawk. Altcoin-radar. Gratis proefversie.
- Bron: https://aws.amazon.com/blogs/machine-learning/import-data-from-cross-account-amazon-redshift-in-amazon-sagemaker-data-wrangler-for-exploratory-data-analysis- en-gegevensvoorbereiding/
- "
- &
- 10
- 100
- 11
- 7
- a
- Over
- toegang
- beschikbaar
- Account
- over
- activiteiten
- ADVERTISING
- tegen
- AI
- Alles
- toestaat
- Amazone
- Amerika
- analyse
- Nog een
- toepassingen
- architectuur
- Azië
- Asia Pacific
- Associëren
- webmaster.
- Beschikbaar
- AWS
- Bank
- BEST
- 'best practices'
- grens
- bouw
- Gebouw
- ingebouwd
- bedrijfsdeskundigen
- Californië
- Campagne
- Canada
- gevallen
- centraal
- Kies
- classificatie
- Cloud
- compleet
- nakoming
- computer
- Verbinden
- gekoppeld blijven
- Wij verbinden
- versterken
- consequent
- troosten
- consumeren
- consument
- Consumenten
- contact
- onder controle te houden
- en je merk te creëren
- aangemaakt
- creëert
- Geloofsbrieven
- Culture
- Actueel
- gewoonte
- Klanten
- gegevens
- gegevensanalyse
- het delen van gegevens
- Database
- beslissingen
- deep
- Design
- gedetailleerd
- gegevens
- Ontwikkelaar
- anders
- moeilijk
- directe
- direct
- Download
- editor
- Onderwijs
- omarmen
- encryptie
- Engineering
- Ingenieurs
- Enter
- Enterprise
- Europa
- Verken
- SNELLE
- sneller
- Kenmerk
- Voornaam*
- stroom
- volgen
- volgend
- formaat
- vers
- oppompen van
- functies
- toekomst
- voortbrengen
- bestuur
- met
- het helpen van
- helpt
- behuizing
- Hoe
- How To
- HTTPS
- identificeren
- Identiteit
- omvatten
- Inclusief
- industrieën
- informatie
- inzichten
- instantie
- integratie
- belang
- Interface
- Ierland
- problemen
- IT
- Jobomschrijving:
- Vacatures
- aansluiting
- Houden
- sleutel
- leider
- LEARN
- leren
- Beperkt
- laden
- lokaal
- plaats
- London
- machine
- machine learning
- onderhouden
- maken
- MERKEN
- beheerd
- management
- handmatig
- Marketing
- macht
- ML
- modellen
- Maand
- meer
- bewegend
- Mumbai
- Navigatie
- aantal
- Ohio
- bestellen
- Oregon
- organisaties
- Overige
- het te bezitten.
- Pacific
- Parijs
- deel
- deelnemen
- hartstochtelijk
- Betaal
- praktijk
- Voorbereiden
- vorig
- primair
- probleem
- producent
- zorgen voor
- biedt
- kwaliteit
- reeks
- adviseren
- regio
- verslag
- nodig
- Rol
- lopen
- veilig
- dezelfde
- scaling
- wetenschappers
- secundair
- beveiligen
- veiligheid
- Seoul
- reeks
- het instellen van
- Delen
- gedeeld
- delen
- teken
- Eenvoudig
- Singapore
- So
- solide
- oplossing
- Oplossingen
- Zuiden
- specialist
- begin
- Statement
- Status
- mediaopslag
- strategisch
- ondersteunde
- Stap over voor slechts
- sydney
- Technologie
- proef
- De
- De Bron
- Door
- niet de tijd of
- tokyo
- in de richting van
- Trainingen
- Transformeren
- Transformatie
- transformaties
- us
- .
- Virginia
- visie
- visualisatie
- West
- Wat
- zonder
- Mijn werk
- workflows
- werkzaam
- het schrijven van
- jaar
- Your