Tietovetoiseen kulttuuriin siirtyvät organisaatiot omaksuvat datan ja koneoppimisen (ML) käytön päätöksenteossa. Jotta voit tehdä ML-pohjaisia päätöksiä tiedoista, tarvitset tietosi saatavilla, käytettävissä, puhtaana ja oikeassa muodossa ML-mallien kouluttamiseksi. Usean tilin arkkitehtuuria käyttävät organisaatiot haluavat välttää tilanteet, joissa niiden on poimittava tiedot yhdeltä tililtä ja ladattava ne toiselle tietojen valmistelua varten. Erilaisten erotus-, muunnos- ja lataustöiden (ETL) luominen ja ylläpito manuaalisesti eri tileillä lisää monimutkaisuutta ja kustannuksia sekä vaikeuttaa parhaiden hallinta-, vaatimustenmukaisuus- ja tietoturvakäytäntöjen ylläpitämistä tietojen turvaamiseksi.
Amazonin punainen siirto on nopea, täysin hallittu pilvitietovarasto. Amazon Redshift -tilien välinen tiedonjakoominaisuus tarjoaa yksinkertaisen ja turvallisen tavan jakaa tuoreita, täydellisiä ja johdonmukaisia tietoja Amazon Redshift -tietovarastossasi useiden sidosryhmien kanssa eri AWS-tileillä. Amazon SageMaker Data Wrangler on kyky Amazon Sage Maker Tämä nopeuttaa datatieteilijöiden ja insinöörien valmistamista ML-sovelluksiin visuaalisen käyttöliittymän avulla. Data Wranglerin avulla voit tutkia ja muuttaa ML-tietoja muodostamalla yhteyden Amazon Redshift -dataosuuksiin.
Tässä viestissä käymme läpi tilien välisen integraation määrittämisen Amazon Redshift datashare -palvelun avulla ja tietojen valmistelun Data Wranglerin avulla.
Ratkaisun yleiskatsaus
Aloitamme kahdella AWS-tilillä: tuottajatilillä Amazon Redshift -tietovarastossa ja kuluttajatilillä SageMaker ML -käyttötapauksia varten. Tässä viestissä käytämme pankkitietojoukko. Jatka lataamalla tietojoukko paikalliselle koneellesi. Seuraavassa on korkeatasoinen yleiskatsaus työnkulkuun:
- Luo Amazon Redshift RA3 -klusteri tuottajatilille ja lataa tietojoukko.
- Luo Amazon Redshift datashare tuottajatilille ja anna kuluttajatilin käyttää tietoja.
- Käytä Amazon Redshift datasharea kuluttajatilillä.
- Analysoi ja käsittele dataa Data Wranglerilla kuluttajatilillä ja rakenna tietojen valmistelutyönkulkusi.
Ole tietoinen näkökohdat työskentelemään Amazon Redshift -tietojen jakamisen kanssa:
- Useita AWS-tilejä – Tarvitset vähintään kaksi AWS-tiliä: tuottajatilin ja kuluttajatilin.
- Klusterin tyyppi – Tietojen jakamista tuetaan RA3-klusterityypissä. Kun luot Amazon Redshift -klusterin, muista valita RA3-klusterin tyyppi.
- Salaus – Jotta tietojen jakaminen toimisi, sekä tuottaja- että kuluttajaklusterien on oltava salattuja ja niiden tulee olla samalla AWS-alueella.
- alueet – Tilien välinen tietojen jakaminen on saatavilla kaikille Amazon Redshiftille RA3 -solmutyypit USA:n idässä (N. Virginia), USA:n idässä (Ohio), USA:n lännessä (N. California), USA:n lännessä (Oregon), Aasian ja Tyynenmeren alueella (Mumbai), Aasian ja Tyynenmeren alueella (Soul), Aasian ja Tyynenmeren alueella (Singapore), Aasian ja Tyynenmeren alueella ( Sydney), Aasian ja Tyynenmeren alue (Tokio), Kanada (Keski), Eurooppa (Frankfurt), Eurooppa (Irlanti), Eurooppa (Lontoo), Eurooppa (Pariisi), Eurooppa (Tukholma) ja Etelä-Amerikka (São Paulo).
- Hinnasto – Tilien välinen tiedon jakaminen on käytettävissä samalla alueella sijaitsevien klustereiden kesken. Tietojen jakamisesta ei aiheudu kustannuksia. Maksat vain Amazon Redshift -klustereista, jotka osallistuvat jakamiseen.
Tilien välinen tietojen jakaminen on kaksivaiheinen prosessi. Ensin tuottajaklusterin ylläpitäjä luo dataosuuden, lisää objekteja ja antaa pääsyn kuluttajatilille. Sitten tuottajatilin järjestelmänvalvoja valtuuttaa tietojen jakamisen määritetylle kuluttajalle. Voit tehdä tämän Amazon Redshift -konsolista.
Luo Amazon Redshift datashare tuottajatilille
Luodaksesi jaetun datan, suorita seuraavat vaiheet:
- Luo Amazon Redshift -konsolissa Amazon Redshift -klusteri.
- Eritellä tuotanto ja valitse RA3-solmun tyyppi.
- Alle Lisäkokoonpanot, poista valinta Käytä oletusasetuksia.
- Alle Tietokannan kokoonpanot, määritä klusterin salaus.
- Kun olet luonut klusterin, tuo suoramarkkinointipankkitietojoukko. Voit ladata seuraavasta URL-osoitteesta: https://sagemaker-sample-data-us-west-2.s3-us-west-2.amazonaws.com/autopilot/direct_marketing/bank-additional.zip.
- Lataa
bank-additional-full.csv
ja Amazonin yksinkertainen tallennuspalvelu (Amazon S3) -ämpäri, johon klusterillasi on pääsy. - Käytä Amazon Redshift -kyselyeditoria ja suorita seuraava SQL-kysely kopioidaksesi tiedot Amazon Redshiftiin:
- Siirry klusterin tietosivulle ja Datashares välilehti, valitse Luo datashare.
- varten Datan jaetun nimi, kirjoita nimi.
- varten Tietokannan nimi, valitse tietokanta.
- In Lisää datashare-objekteja -osiossa, valitse tietokannasta objektit, jotka haluat sisällyttää jakoon.
Hallitset tarkasti, mitä päätät jakaa muiden kanssa. Yksinkertaisuuden vuoksi jaamme kaikki taulukot. Käytännössä voit valita yhden tai useamman taulukon, näkymän tai käyttäjän määrittämän funktion. - Valita Lisää.
- Lisää datakuluttajia valitsemalla Lisää AWS-tilejä datashareen ja lisää toissijainen AWS-tilisi tunnus.
- Valita Luo datashare.
- Voit valtuuttaa juuri luomasi datan kuluttajan siirtymällä kohtaan Datashares sivu Amazon Redshift -konsolissa ja valitse uusi datashare.
- Valitse tiedonkuluttaja ja valitse valtuuttaa.
Kuluttajan asema muuttuu Pending authorization
että Authorized
.
Käytä Amazon Redshift -tilien välistä dataa kuluttajan AWS-tilillä
Nyt kun tiedonjako on määritetty, vaihda kuluttaja-AWS-tilillesi kuluttaaksesi datan jakoa. Varmista, että kuluttajatilillesi on luotu vähintään yksi Amazon Redshift -klusteri. Klusterin on oltava salattu ja samalla alueella kuin lähde.
- Valitse Amazon Redshift -konsolissa Datashares navigointipaneelissa.
- On Muilta tileiltä -välilehti, valitse luomasi datashare ja valitse Työtoveri.
- Voit liittää jaetun datan yhteen tai useampaan klusteriin tällä tilillä tai yhdistää datan jaon koko tiliin, jotta kuluttajatilin nykyiset ja tulevat klusterit pääsevät käyttämään tätä osuutta.
- Määritä yhteystietosi ja valitse kytkeä.
- Valita Luo tietokanta datasharesta ja anna nimi uudelle tietokannallesi.
- Testaa datashare siirtymällä kyselyeditoriin ja suorittamalla kyselyitä uudessa tietokannassa varmistaaksesi, että kaikki objektit ovat saatavilla osana datasharea.
Analysoi ja käsittele tietoja Data Wranglerilla
Voit nyt käyttää Data Wrangleria päästäksesi käsiksi Amazon Redshiftissä datashare-muotoon luotuihin tilien välisiin tietoihin.
- avoin Amazon SageMaker Studio.
- On filee valikosta, valitse Uusi ja Data Wrangler Flow.
- On Tuo välilehti, valitse Lisää tietolähde ja Amazonin punainen siirto.
- Syötä juuri luomasi Amazon Redshift -klusterin yhteystiedot datashare-kuluttajatilille.
- Valita kytkeä.
- Käytä AWS-henkilöllisyyden ja käyttöoikeuksien hallinta (IAM) roolia, jota käytit Amazon Redshift -klusterissasi.
Huomaa, että vaikka datashare on uusi tietokanta Amazon Redshift -klusterissa, et voi muodostaa yhteyttä siihen suoraan Data Wranglerista.
Oikea tapa on muodostaa ensin yhteys oletusklusteritietokantaan ja tehdä sitten SQL-kysely datashare-tietokannasta. Anna tarvittavat tiedot yhteyden muodostamiseksi oletusklusteritietokantaan. Huomaa, että an AWS-avainhallintapalvelu (AWS KMS) avaimen tunnusta ei vaadita yhteyden muodostamiseen.
Data Wrangler on nyt yhdistetty Amazon Redshift -instanssiin.
- Kysele Amazon Redshift -tietokannan tiedoista SQL-editorilla.
- Valita Tuo tuodaksesi tietojoukon Data Wrangleriin.
- Anna tietojoukolle nimi ja valitse Lisää.
Voit nyt nähdä virran näytössä Tietovirta Data Wranglerin välilehti.
Kun olet ladannut tiedot Data Wrangleriin, voit tehdä kartoittavan data-analyysin ja valmistella tiedot ML:ää varten.
- Valitse plusmerkki ja valitse Lisää analyysi.
Data Wrangler tarjoaa sisäänrakennettuja analyyseja. Näitä ovat muun muassa tietojen laatu- ja havaintoraportti, tietojen korrelaatio, harjoitusta edeltävä harharaportti, yhteenveto tietojoukostasi ja visualisoinnit (kuten histogrammit ja hajontakaaviot). Voit myös luoda oman mukautetun visualisoinnin.
Data Quality and Insights -raportin avulla voit luoda automaattisesti visualisointeja ja analyyseja, joiden avulla voit tunnistaa tiedon laatuongelmia ja suositella tietojoukkollesi tarvittavaa oikeaa muunnosa.
- Valita Data Quality and Insights -raporttija valitse Kohdesarake as y.
- Koska tämä on luokitteluongelmalause Ongelman tyyppivalitse Luokittelu.
- Valita luoda.
Data Wrangler luo yksityiskohtaisen raportin tietojoukostasi. Voit myös ladata raportin paikalliselle koneellesi.
- Tietojen valmistelua varten valitse plusmerkki ja valitse Lisää analyysi.
- Valita Lisää vaihe aloittaaksesi muutosten rakentamisen.
Tätä kirjoitettaessa Data Wrangler tarjoaa yli 300 sisäänrakennettua muunnosa. Voit myös kirjoittaa omia muunnoksiasi Pandasin tai PySparkin avulla.
Nyt voit alkaa rakentaa muutoksiasi ja analyysejäsi liiketoimintatarpeesi perusteella.
Yhteenveto
Tässä viestissä tutkimme tietojen jakamista tilien välillä Amazon Redshift -dataosien avulla ilman, että sinun tarvitsee ladata ja lähettää tietoja manuaalisesti. Kävimme läpi, kuinka pääset käsiksi jaettuun dataan Data Wranglerin avulla ja valmistelemme tiedot ML-käyttötapauksiasi varten. Tämä Amazon Redshift -dataosien ja Data Wranglerin kooditon/low-code-ominaisuus nopeuttaa harjoitustietojen valmistelua ja lisää tietosuunnittelijoiden ja datatieteilijöiden ketteryyttä nopeammalla iteratiivisella tietojen valmistelulla.
Lisätietoja Amazon Redshiftistä ja SageMakerista on osoitteessa Amazon Redshift -tietokannan kehittäjäopas ja Amazon SageMaker -dokumentaatio.
Tietoja Tekijät
Meenakshisundaram Thandavarayan on vanhempi AI/ML-asiantuntija, jolla on AWS. Hän auttaa huipputeknologian strategisia tilejä heidän tekoäly- ja ML-matkallaan. Hän on erittäin intohimoinen tietopohjaiseen tekoälyyn.
James Wu on AWS:n vanhempi AI/ML-asiantuntijaratkaisuarkkitehti. auttaa asiakkaita suunnittelemaan ja rakentamaan AI/ML-ratkaisuja. Jamesin työ kattaa laajan valikoiman ML-käyttötapauksia, ja hänen ensisijaisena kiinnostuksena ovat tietokonenäkö, syväoppiminen ja ML:n skaalaaminen koko yrityksessä. Ennen AWS:ään liittymistään James oli arkkitehti, kehittäjä ja teknologiajohtaja yli 10 vuoden ajan, joista 6 vuotta suunnittelussa ja 4 vuotta markkinointi- ja mainontateollisuudessa.
- Coinsmart. Euroopan paras Bitcoin- ja kryptopörssi.
- Platoblockchain. Web3 Metaverse Intelligence. Tietoa laajennettu. VAPAA PÄÄSY.
- CryptoHawk. Altcoinin tutka. Ilmainen kokeilu.
- Lähde: https://aws.amazon.com/blogs/machine-learning/import-data-from-cross-account-amazon-redshift-in-amazon-sagemaker-data-wrangler-for-exploratory-data-analysis- and-data-preparation/
- "
- &
- 10
- 100
- 11
- 7
- a
- Meistä
- pääsy
- saatavilla
- Tili
- poikki
- toiminta
- mainonta
- vastaan
- AI
- Kaikki
- mahdollistaa
- Amazon
- Amerikka
- analyysi
- Toinen
- sovellukset
- arkkitehtuuri
- Aasia
- Aasia pacific
- Työtoveri
- automaattisesti
- saatavissa
- AWS
- Pankki
- PARAS
- parhaat käytännöt
- reunus
- rakentaa
- Rakentaminen
- sisäänrakennettu
- liiketoiminta
- Kalifornia
- Kampanja
- Kanada
- tapauksissa
- keskeinen
- Valita
- luokittelu
- pilvi
- täydellinen
- noudattaminen
- tietokone
- kytkeä
- kytketty
- Kytkeminen
- liitäntä
- johdonmukainen
- Console
- kuluttaa
- kuluttaja
- Kuluttajat
- ottaa yhteyttä
- ohjaus
- luoda
- luotu
- luo
- Valtakirja
- Kulttuuri
- Nykyinen
- asiakassuhde
- Asiakkaat
- tiedot
- tietojen analysointi
- tietojen jakaminen
- tietokanta
- päätökset
- syvä
- Malli
- yksityiskohtainen
- yksityiskohdat
- Kehittäjä
- eri
- vaikea
- ohjata
- suoraan
- download
- toimittaja
- koulutus
- omaksua
- salaus
- Tekniikka
- Engineers
- enter
- yritys
- Eurooppa
- tutkia
- FAST
- nopeampi
- Ominaisuus
- Etunimi
- virtaus
- seurata
- jälkeen
- muoto
- tuore
- alkaen
- tehtävät
- tulevaisuutta
- tuottaa
- hallinto
- ottaa
- auttaa
- auttaa
- kotelo
- Miten
- Miten
- HTTPS
- tunnistaa
- Identiteetti
- sisältää
- Mukaan lukien
- teollisuuden
- tiedot
- oivalluksia
- esimerkki
- integraatio
- korko
- liitäntä
- Irlanti
- kysymykset
- IT
- Job
- Työpaikat
- tuloaan
- matka
- Pitää
- avain
- johtaja
- OPPIA
- oppiminen
- rajallinen
- kuormitus
- paikallinen
- sijainti
- Lontoo
- kone
- koneoppiminen
- ylläpitää
- tehdä
- TEE
- onnistui
- johto
- käsin
- Marketing
- ehkä
- ML
- mallit
- Kuukausi
- lisää
- liikkuvat
- Mumbai
- suunnistus
- numero
- Ohio
- tilata
- Oregon
- organisaatioiden
- Muut
- oma
- Tyynenmeren
- Pariisi
- osa
- osallistua
- intohimoinen
- Maksaa
- harjoitusta.
- Valmistella
- edellinen
- ensisijainen
- Ongelma
- prosessi
- tuottaja
- toimittaa
- tarjoaa
- laatu
- alue
- suositella
- alue
- raportti
- tarvitaan
- Rooli
- ajaa
- turvallista
- sama
- skaalaus
- tutkijat
- toissijainen
- turvallinen
- turvallisuus
- Seoul
- setti
- asetus
- Jaa:
- yhteinen
- jakaminen
- merkki
- Yksinkertainen
- Singapore
- So
- vankka
- ratkaisu
- Ratkaisumme
- Etelä
- asiantuntija
- Alkaa
- Lausunto
- Tila
- Levytila
- Strateginen
- Tuetut
- Vaihtaa
- sydney
- Elektroniikka
- testi
- -
- Lähde
- Kautta
- aika
- Tokio
- kohti
- koulutus
- Muuttaa
- Muutos
- muunnokset
- us
- käyttää
- virginia
- visio
- visualisointi
- Länsi
- Mitä
- ilman
- Referenssit
- työnkulkuja
- työskentely
- kirjoittaminen
- vuotta
- Sinun