Viime vuonna julkistimme yleisen saatavuuden RStudio Amazon SageMakerissa, alan ensimmäinen täysin hallittu RStudio Workbench integroitu kehitysympäristö (IDE) pilvessä. Voit nopeasti käynnistää tutun RStudio IDE:n ja soittaa ylös ja alas taustalla oleviin laskentaresursseihin keskeyttämättä työtäsi, mikä tekee koneoppimis- (ML) ja analytiikkaratkaisujen rakentamisesta helppoa mittakaavassa R:ssä.
Monet SageMakerin RStudion käyttäjistä ovat myös käyttäjiä Amazonin punainen siirto, täysin hallittu, petatavun mittakaava, massiivisesti rinnakkainen tietovarasto tietojen tallentamiseen ja analyyttisiin työkuormiin. Sen avulla on nopeaa, yksinkertaista ja kustannustehokasta analysoida kaikki tietosi käyttämällä SQL-standardia ja olemassa olevia Business Intelligence (BI) -työkalujasi. Käyttäjät voivat myös olla vuorovaikutuksessa tietojen kanssa ODBC:n, JDBC:n tai Amazon Redshift Data API:n avulla.
RStudion käyttö SageMakerissa ja Amazon Redshiftissä voi olla hyödyllistä analysoida tehokkaasti suuria tietojoukkoja pilvessä. Tietojen käsittely pilvessä voi kuitenkin aiheuttaa haasteita, kuten tarvetta poistaa organisaation tietosiilot, ylläpitää turvallisuutta ja vaatimustenmukaisuutta sekä vähentää monimutkaisuutta standardoimalla työkaluja. AWS tarjoaa työkaluja, kuten RStudion SageMakerissa ja Amazon Redshiftissä, auttaakseen vastaamaan näihin haasteisiin.
Tässä blogikirjoituksessa näytämme, kuinka voit käyttää näitä molempia palveluita yhdessä, jotta voit tehokkaasti analysoida valtavia tietojoukkoja pilvessä ja samalla vastata yllä mainittuihin haasteisiin. Tämä blogi keskittyy Rstudioon Amazon SageMaker -kielellä, jonka kohdeyleisönä ovat yritysanalyytikot, tietosuunnittelijat, datatieteilijät ja kaikki kehittäjät, jotka käyttävät R-kieltä ja Amazon Redshiftiä.
Jos haluat käyttää perinteistä SageMaker Studio -kokemusta Amazon Redshiftin kanssa, katso Amazon Redshift Data API:n käyttäminen vuorovaikutukseen Amazon SageMaker Jupyter -muistikirjasta.
Ratkaisun yleiskatsaus
Teemme tänään blogissa seuraavat vaiheet:
- Näytevaraston kloonaaminen vaadituilla paketeilla.
- Yhdistäminen Amazon Redshiftiin suojatulla ODBC-yhteydellä (ODBC on suositeltu protokolla RStudiolle).
- Kyselyjen ja SageMaker API -toimintojen suorittaminen tiedoilla Amazon Redshift Serverlessissa SageMakerin RStudion kautta
Tämä prosessi on kuvattu seuraavassa ratkaisuarkkitehtuurissa:
Ratkaisun läpikäynti
Edellytykset
Ennen kuin aloitat, varmista, että sinulla on kaikki vaatimukset RStudion määrittämiseksi Amazon SageMakerissa ja Amazon Redshift Serverlessissä, kuten:
Käytämme CloudFormation-pinoa tarvittavan infrastruktuurin luomiseen.
Huomautus: Jos sinulla on jo RStudio-verkkotunnus ja Amazon Redshift -klusteri, voit ohittaa tämän vaiheen
Tämän pinon käynnistäminen luo seuraavat resurssit:
- 3 Yksityiset aliverkot
- 1 Julkinen aliverkko
- 1 NAT-yhdyskäytävä
- Internet-yhdyskäytävä
- Amazon Redshift -palvelinton klusteri
- SageMaker-verkkotunnus RStudion kanssa
- SageMaker RStudio -käyttäjäprofiili
- IAM-palvelurooli SageMaker RStudio -verkkotunnuksen suorittamiseen
- IAM-palvelurooli SageMaker RStudio -käyttäjäprofiilin suorittamiseen
Tämä malli on suunniteltu toimimaan alueella (esim. us-east-1
, us-west-2
) kolmella saatavuusvyöhykkeellä, RStudio SageMakerissa ja Amazon Redshift Serverless. Varmista, että alueellasi on pääsy näihin resursseihin, tai muokkaa malleja vastaavasti.
paina Käynnistä pino -painiketta luodaksesi pinon.
- On Luo pino sivu, valitse seuraava.
- On Määritä pinon yksityiskohdat -sivulle, anna pinolle nimi ja jätä loput vaihtoehdot oletusasetuksiksi ja valitse sitten seuraava.
- On Määritä pinoasetukset sivu, jätä asetukset oletusarvoiksi ja paina seuraava.
- On Tarkista sivuValitse
- Myönnän, että AWS CloudFormation saattaa luoda IAM-resursseja mukautetuilla nimillä
- Myönnän, että AWS CloudFormation saattaa edellyttää seuraavia ominaisuuksia: CAPABILITY_AUTO_EXPANDvalintaruudut ja valitse Lähetä.
Malli luo viisi pinoa.
Kun pinon tila on CREATE_COMPLETE, siirry Amazon Redshift Serverless -konsoliin. Tämä on uusi ominaisuus, joka tekee analytiikan suorittamisesta pilvessä erittäin helppoa ja suorituskykyä missä tahansa mittakaavassa. Lataa vain tietosi ja aloita kysely. Klustereita ei tarvitse perustaa ja hallita.
Huomautuksia: Tässä blogissa esitetty malli, joka integroi Amazon Redshiftin ja RStudion Amazon SageMakerissa, on sama riippumatta Amazon Redshiftin käyttöönottomallista (palvelimeton tai perinteinen klusteri).
Ladataan tietoja Amazon Redshift Serverlessissä
CloudFormation-skripti loi tietokannan nimeltä sagemaker
. Täytä tämä tietokanta taulukoilla RStudio-käyttäjän kyselyjä varten. Luo SQL-editori-välilehti ja varmista sagemaker
tietokanta on valittu. Tulemme käyttämään synteettiset luottokorttitapahtumatiedot luodaksesi taulukoita tietokantaamme. Nämä tiedot ovat osa SageMaker-mallitaulukkotietojoukkoja s3://sagemaker-sample-files/datasets/tabular/synthetic_credit_card_transactions
.
Aiomme suorittaa seuraavan kyselyn kyselyeditorissa. Tämä luo kolme taulukkoa, kortit, tapahtumat, ja Käyttäjät.
Voit varmistaa, että kysely suoritettiin onnistuneesti, kun näet kolme taulukkoa kyselyeditorin vasemmassa ruudussa.
Kun kaikki taulukot on täytetty, siirry SageMaker RStudioon ja aloita uusi istunto RSession-peruskuvalla ml.m5.xlarge-esiintymässä.
Kun istunto on käynnistetty, suoritamme tämän koodin luodaksemme yhteyden Amazon Redshift Serverless -tietokantaamme.
Jotta voit tarkastella synteettisen skeeman taulukoita, sinun on myönnettävä Amazon Redshiftin käyttöoikeus kyselyeditorin kautta.
RStudio Liitännät ruudussa pitäisi näkyä sagemaker
tietokanta skeema synteettisiä ja taulukoita kortit, tapahtumat, käyttäjät.
Voit tarkastella 1,000 XNUMX tietuetta napsauttamalla taulukoiden vieressä olevaa taulukkokuvaketta.
Huomautus: Olemme luoneet valmiiksi rakennetun R Markdown -tiedoston, jossa on kaikki valmiiksi rakennetut koodilohkot, jotka löytyvät projektista GitHub repo.
Nyt käytetään DBI
pakettitoiminto dbListTables()
tarkastellaksesi olemassa olevia taulukoita.
Käytä dbGetQuery()-komentoa SQL-kyselyn välittämiseen tietokantaan.
Voimme käyttää myös dbplyr
ja dplyr
paketteja kyselyjen suorittamiseen tietokannassa. Katsotaanpa count()
kuinka monta tapahtumaa tapahtumataulukossa on. Mutta ensin meidän on asennettava nämä paketit.
Käytä tbl()
toimintoa määrittäessään skeemaa.
Lasketaan jokaisen taulukon rivien määrä.
Meillä on siis 2,000 6,146 käyttäjää; 24,386,900 XNUMX korttia; ja XNUMX XNUMX XNUMX tapahtumaa. Pöydät voimme tarkastella myös konsolissa.
transactions_tbl
Voimme myös katsoa mitä dplyr
verbit tekevät konepellin alla.
Tarkastellaan visuaalisesti tapahtumien määrää vuosittain.
Voimme myös tiivistää tietokannan tiedot seuraavasti:
Oletetaan, että haluamme tarkastella petoksia käyttämällä korttitietoja. Meidän tarvitsee vain yhdistää taulukot ja sitten ryhmitellä ne määritteen mukaan.
Valmistellaan nyt tietojoukko, jota voitaisiin käyttää koneoppimiseen. Suodatetaan tapahtumatiedot niin, että ne sisältävät vain Discover-luottokortit, mutta säilytetään vain osa sarakkeita.
Ja nyt tehdään siivous seuraavilla muunnoksilla:
- Muuntaa
is_fraud
binäärimääritteeksi - Poista tapahtumamerkkijono kohteesta
use_chip
ja nimeä se uudelleen kirjoitettavaksi - Yhdistä vuosi, kuukausi ja päivä tietoobjektiksi
- Poista summasta $ ja muunna numeeriseksi tietotyypiksi
Nyt kun olemme suodattaneet ja puhdistaneet tietojoukkomme, olemme valmiita keräämään tämän tietojoukon paikalliseen RAM-muistiin.
Nyt meillä on toimiva tietojoukko ominaisuuksien ja sovitusmallien luomisen aloittamiseksi. Emme käsittele näitä vaiheita tässä blogissa, mutta jos haluat lisätietoja mallien rakentamisesta SageMakerin RStudiossa, katso Täysin hallinnoidun RStudion julkaiseminen Amazon SageMaker for Data Scientists -palvelussa.
Uudelleenjärjestäminen
Poista CloudFormation-juurimalli, jotta voit puhdistaa resurssit välttääksesi toistuvia kustannuksia. Poista myös kaikki luodut EFS-liitännät ja kaikki luodut S3-sämpötilöt ja -objektit.
Yhteenveto
Tietojen analysointi ja mallintaminen voivat olla haastavia työskenneltäessä suurten tietojoukkojen kanssa pilvessä. Amazon Redshift on suosittu tietovarasto, joka voi auttaa käyttäjiä suorittamaan nämä tehtävät. RStudiota, joka on yksi laajimmin käytetyistä integroiduista kehitysympäristöistä (IDE) tietojen analysointiin, käytetään usein R-kielen kanssa. Tässä blogiviestissä osoitimme, kuinka käyttää Amazon Redshiftiä ja RStudioa SageMakerissa yhdessä valtavien tietojoukkojen analyysin suorittamiseen tehokkaasti. Käyttämällä RStudiota SageMakerissa käyttäjät voivat hyödyntää SageMakerin täysin hallittua infrastruktuuria, kulunvalvontaa, verkko- ja suojausominaisuuksia ja samalla yksinkertaistaa integraatiota Amazon Redshiftin kanssa. Jos haluat oppia lisää näiden kahden työkalun käyttämisestä yhdessä, tutustu muihin blogiteksteihimme ja resursseihin. Voit myös kokeilla RStudion käyttöä SageMakerissa ja Amazon Redshiftissä itse ja nähdä, kuinka ne voivat auttaa sinua data-analyysi- ja mallinnustehtävissäsi.
Lisää palautetta tähän blogiin tai luo vetopyyntö GitHub.
Tietoja Tekijät
Ryan Garner on tietotutkija, jolla on AWS Professional Services. Hän on intohimoinen auttaakseen AWS-asiakkaita käyttämään R:tä datatieteen ja koneoppimisen ongelmien ratkaisemisessa.
Raj Pathak on Senior Solutions -arkkitehti ja -teknologi, joka on erikoistunut rahoituspalveluihin (vakuutus, pankkitoiminta, pääomamarkkinat) ja koneoppimiseen. Hän on erikoistunut luonnollisen kielen käsittelyyn (NLP), suuriin kielimalleihin (LLM) ja koneoppimisen infrastruktuuri- ja toimintaprojekteihin (MLOps).
Aditi Rajnish on toisen vuoden ohjelmistotekniikan opiskelija Waterloon yliopistossa. Hänen kiinnostuksen kohteitaan ovat tietokonenäkö, luonnollisen kielen käsittely ja reunalaskenta. Hän on myös intohimoinen yhteisöpohjaiseen STEM-yhteistyöhön ja edunvalvontaan. Vapaa-ajallaan hän voi tavata kalliokiipeilyä, soittaa pianoa tai oppia leipomaan täydellisen sconsin.
Saiteja Pudi on ratkaisuarkkitehti AWS:ssä, jonka kotipaikka on Dallas, Tx. Hän on työskennellyt AWS:ssä yli 3 vuotta ja auttanut asiakkaita hyödyntämään AWS:n todellista potentiaalia olemalla heidän luotettu neuvonantajansa. Hän on kotoisin sovelluskehitystaustasta, ja hän on kiinnostunut tietotieteestä ja koneoppimisesta.
- AI
- ai taide
- ai taiteen generaattori
- ai robotti
- Amazonin punainen siirto
- Amazon Sage Maker
- tekoäly
- tekoälyn sertifiointi
- tekoäly pankkitoiminnassa
- tekoäly robotti
- tekoälyrobotit
- tekoälyohjelmisto
- AWS-koneoppiminen
- blockchain
- blockchain-konferenssi ai
- coingenius
- keskustelullinen tekoäly
- kryptokonferenssi ai
- dall's
- syvä oppiminen
- Asiantuntija (400)
- google ai
- koneoppiminen
- Platon
- plato ai
- Platonin tietotieto
- Platon peli
- PlatonData
- platopeliä
- mittakaava ai
- syntaksi
- Tekniset ohjeet
- zephyrnet