Ota RStudio käyttöön AWS-ympäristössäsi ja käytä datajärveäsi käyttämällä AWS Lake Formation -käyttöoikeuksia PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Ota RStudio käyttöön AWS-ympäristössäsi ja käytä datajärveäsi AWS Lake Formation -oikeuksilla

R on suosittu analyyttinen ohjelmointikieli, jota datatieteilijät ja analyytikot käyttävät tietojenkäsittelyyn, tilastollisiin analyyseihin, datavisualisaatioiden luomiseen ja koneoppimismallien (ML) rakentamiseen. RStudio, R:n integroitu kehitysympäristö, tarjoaa avoimen lähdekoodin työkaluja ja yritysvalmiita ammattiohjelmistoja tiimeille, jotka voivat kehittää ja jakaa työnsä koko organisaatiossa. RStudion rakentaminen, turvaaminen, skaalaaminen ja ylläpito itse on kuitenkin työlästä ja vaivalloista.

RStudio-ympäristön käyttöönotto AWS:ssä tarjoaa joustavuutta ja skaalautuvuutta, joita sinulla ei ole, kun otat käyttöön on-prem, mikä poistaa infrastruktuurin hallinnan tarpeen. Voit valita haluamasi laskennan ja muistin käsittelyvaatimusten perusteella ja voit myös skaalata ylös tai alas työskennelläksesi erikokoisten analyyttisten ja ML-työkuormien kanssa ilman ennakkoinvestointia. Näin voit nopeasti kokeilla uusia tietolähteitä ja koodia sekä ottaa käyttöön uusia analytiikkaprosesseja ja ML-malleja muulle organisaatiolle. Voit myös integroida Data Lake -resurssit saumattomasti, jotta ne ovat kehittäjien ja tietotieteilijöiden saatavilla ja suojata tiedot käyttämällä rivi- ja saraketason käyttöoikeuksia AWS-järvien muodostuminen.

Tämä viesti esittelee kaksi tapaa ottaa helposti käyttöön ja käyttää RStudioa AWS:ssä datajärveen tallennettujen tietojen käyttämiseksi:

  • Täysin hallinnassa Amazon Sage Maker
  • Itseisännöity päällä Amazonin elastinen laskentapilvi (Amazon EC2)
    • Voit ottaa käyttöön RStudion avoimen lähdekoodin version käyttämällä EC2-isännöityä lähestymistapaa, jota myös kuvailemme tässä viestissä. Itseisännöity vaihtoehto edellyttää, että järjestelmänvalvoja luo EC2-esiintymän ja asentaa RStudion manuaalisesti tai käyttämällä AWS-pilven muodostuminen Tässä vaihtoehdossa on myös vähemmän joustavuutta käyttäjien käyttöoikeuksien hallintaan, koska kaikilla käyttäjillä on sama käyttöoikeustaso tämän tyyppisessä toteutuksessa.

RStudio Amazon SageMakerissa

Voit käynnistää RStudio Workbenchin yhdellä napsautuksella SageMakerista. SageMakerin avulla asiakkaiden ei tarvitse kantaa RStudion rakentamisen, asennuksen, turvaamisen, skaalauksen ja ylläpidon yleiskustannuksia, heidän ei tarvitse maksaa jatkuvasti käynnissä olevasta RStudio-palvelimesta (jos he käyttävät t3.mediumia) ja he maksavat vain RSession-laskentaan, kun he käyttävät sitä. RStudio-käyttäjät voivat joustavasti skaalata laskentaa dynaamisesti vaihtamalla esiintymiä lennossa. RStudion käyttäminen SageMakerissa edellyttää, että järjestelmänvalvoja perustaa SageMaker-toimialueen ja siihen liittyvät käyttäjäprofiilit. Tarvitset myös asianmukaisen RStudio-lisenssin

SageMakerissa voit myöntää käyttöoikeudet RStudion järjestelmänvalvojan ja RStudion käyttäjätason eri käyttöoikeuksin. Vain käyttäjäprofiilit, joille on myönnetty toinen näistä kahdesta roolista, voivat käyttää RStudiota SageMakerissa. Lisätietoja järjestelmänvalvojan tehtävistä RStudion määrittämiseksi SageMakerissa on kohdassa Aloita RStudion käyttö Amazon SageMakerissa. Tämä viesti näyttää myös prosessin EC2-ilmentymien valitsemiseksi kullekin istunnolle ja kuinka järjestelmänvalvoja voi rajoittaa EC2-ilmentymien vaihtoehtoja RStudio-käyttäjille.

Kuva 1: Arkkitehtuurikaavio, joka näyttää eri AWS-palvelujen vuorovaikutuksen

Käytä Lake Formationin rivi- ja saraketason suojauskäyttöä

Sen lisäksi, että annat tiimisi käynnistää RStudio-istuntoja SageMakerissa, voit myös suojata datajärven käyttämällä Lake Formationin rivi- ja saraketason käyttöoikeuksia. Lisätietoja on kohdassa Tehokkaat datajärvet AWS Lake Formationin avulla, osa 4: Solutason ja rivitason suojauksen toteuttaminen.

Lake Formation -turvaohjauksilla voit varmistaa, että jokaisella on oikeus päästä käsiksi datajärven tietoihin. Harkitse seuraavia kahta SageMaker-toimialueen käyttäjäprofiilia, joilla kummallakin on erilainen suoritusrooli:

Käyttäjäprofiili Toteutusrooli
rstudiouser-fullaccess AmazonSageMaker-ExecutionRole-FullAccess
rstudiouser-limitedaccess AmazonSageMaker-ExecutionRole-LimitedAccess

Seuraava kuvakaappaus näyttää rstudiouser-limitedaccess profiilin tiedot.

Kuva 2: rstudiouser-limitedaccess -roolin profiilitiedot

Kuva 2: rstudiouser-limitedaccess -roolin profiilitiedot

Seuraava kuvakaappaus näyttää rstudiouser-fullaccess profiilin tiedot.

Kuva 3: rstudiouser-fullaccess -roolin profiilitiedot

Kuva 3: rstudiouser-fullaccess -roolin profiilitiedot

Tässä viestissä käytetty tietojoukko on a Julkinen COVID-19-tietojoukko. Seuraavassa kuvakaappauksessa on esimerkki tiedoista:

Kuva 4: Julkinen COVID-19-tietojoukko

Kuva 4: Julkinen COVID-19-tietojoukko

Kun olet luonut käyttäjäprofiilin ja määrittänyt sille sopivan roolin, voit käyttää Lake Formationia indeksoidaksesi tietoja AWS-liima, luo metatiedot ja taulukko ja myönnä pääsy taulukkotietoihin. Varten AmazonSageMaker-ExecutionRole-FullAccess rooli, annat pääsyn kaikkiin taulukon sarakkeisiin ja varten AmazonSageMaker-ExecutionRole-LimitedAccess, annat käyttöoikeuden tietosuodattimen avulla USA_Filter. Käytämme tätä suodatinta rivi- ja solutason sarakekäyttöoikeuksien tarjoamiseen (katso Resurssi sarake seuraavassa kuvakaappauksessa).

Kuva 5: AWS-järven muodostusoikeudet AmazonSageMaker-ExecutionRole-rooleille - Full/Limited Access

Kuva 5: AWS-järven muodostusoikeudet AmazonSageMaker-ExecutionRole-rooleille - Full/Limited Access

Kuten seuraavassa kuvakaappauksessa näkyy, toisen roolin käyttöoikeus on rajoitettu. Tähän rooliin liittyvät käyttäjät voivat käyttää vain continent, date, total_cases, total_deaths, new_cases, new_deathsja iso_codecolumns.

Kuva 6: AWS Lake Formation -saraketason käyttöoikeudet AmazonSageMaker-ExecutionRole-Limited Access -rooliin

Kuva 6: AWS Lake Formation -saraketason käyttöoikeudet AmazonSageMaker-ExecutionRole-Limited Access -rooliin

Kun jokaiseen käyttäjäprofiiliin on liitetty rooliluvat, voimme nähdä, kuinka Lake Formation pakottaa asianmukaiset rivi- ja saraketason käyttöoikeudet. Voit avata RStudio Workbenchin osoitteesta Käynnistä sovellus avattavasta valikosta luodussa käyttäjäluettelossa ja valitse RStudio.

Seuraavassa kuvakaappauksessa käynnistämme sovelluksen nimellä rstudiouser-limitedaccess user.

Kuva 7: RStudio-istunnon käynnistäminen rstudiouser-limitedaccess -käyttäjälle Amazon SageMaker Consolesta

Kuva 7: RStudio-istunnon käynnistäminen rstudiouser-limitedaccess -käyttäjälle Amazon SageMaker Consolesta

Näet RStudio Workbenchin kotisivun ja luettelon istunnoista, projekteista ja julkaistusta sisällöstä.

Kuva 8: R Studio Workbench -istunto rstudiouser-limitedaccess -käyttäjälle

Kuva 8: R Studio Workbench -istunto rstudiouser-limitedaccess -käyttäjälle

Valitse istunnon nimi aloittaaksesi istunnon SageMakerissa. Asenna Paws (katso ohjeet aiemmin tässä viestissä), jotta voit käyttää asianmukaisia ​​AWS-palveluita. Nyt voit suorittaa kyselyn hakeaksesi kaikki kentät tietojoukosta kautta Amazon Athena, käyttämällä komentoa “SELECT * FROM "databasename.tablename", ja tallenna kyselyn tulos an Amazonin yksinkertainen tallennuspalvelu (Amazon S3)-kauha.

Kuva 9: ​​Athena-kyselyn suoritus R Studio -istunnossa

Kuva 9: ​​Athena-kyselyn suoritus R Studio -istunnossa

Seuraavassa kuvakaappauksessa näkyvät S3-säihön tulostustiedostot.

Kuva 10: Athena-kyselyn suoritus johtaa Amazon S3 Bucketiin

Kuva 10: Athena-kyselyn suoritus johtaa Amazon S3 Bucketiin

Seuraava kuvakaappaus näyttää näiden tulostiedostojen tiedot käyttämällä Amazon S3 Select.

Kuva 11: Lähtötietojen tarkastelu Amazon S3 Selectin avulla

Kuva 11: Lähtötietojen tarkastelu Amazon S3 Selectin avulla

Vain USA:n tiedot ja sarakkeet maanosa, päivämäärä, total_cases, total_deaths, new_cases, new_deathsja iso_code näkyvät tuloksessa kohteelle rstudiouser-limitedaccess käyttäjälle.

Toistetaan samat vaiheet rstudiouser-fullaccess käyttäjälle.

Kuva 12: RStudio-istunnon käynnistäminen rstudious-fullaccess -käyttäjälle Amazon SageMaker Consolesta

Kuva 12: RStudio-istunnon käynnistäminen rstudious-fullaccess -käyttäjälle Amazon SageMaker Consolesta

Näet RStudio Workbenchin kotisivun ja luettelon istunnoista, projekteista ja julkaistusta sisällöstä.

Kuva 13: R Studio Workbench -istunto opiskelijoille, joilla on täysi käyttöoikeus

Kuva 13: R Studio Workbench -istunto opiskelijoille, joilla on täysi käyttöoikeus

Suoritetaan sama kysely “SELECT * FROM "databasename.tablename" käyttämällä Athenetta.

Kuva 14: ​​Athena-kyselyn suoritus R Studio -istunnossa

Kuva 14: ​​Athena-kyselyn suoritus R Studio -istunnossa

Seuraavassa kuvakaappauksessa näkyvät S3-säihön tulostustiedostot.

Kuva 15: Athena-kyselyn suoritus johtaa Amazon S3 Bucketiin

Kuva 15: Athena-kyselyn suoritus johtaa Amazon S3 Bucketiin

Seuraava kuvakaappaus näyttää näiden tulostiedostojen tiedot käyttämällä Amazon S3 Select.

Kuva 16: Lähtötietojen tarkastelu Amazon S3 Selectin avulla

Kuva 16: Lähtötietojen tarkastelu Amazon S3 Selectin avulla

Kuten tässä esimerkissä näkyy, rstudiouser-fullaccess käyttäjällä on pääsy kaikkiin tietojoukon sarakkeisiin ja riveihin.

Itse isännöity Amazon EC2:ssa

Jos haluat alkaa kokeilla RStudion avoimen lähdekoodin versiota AWS:ssä, voit asentaa Rstudion EC2-esiintymään. Tämä tässä viestissä annettu CloudFormation-malli sisältää EC2-ilmentymän ja asentaa RStudion käyttäjädatakomentosarjan avulla. Voit suorittaa mallin useita kertoja ja luoda useita RStudio-esiintymiä tarpeen mukaan, ja voit käyttää sitä missä tahansa AWS-alueella. Kun otat CloudFormation-mallin käyttöön, se tarjoaa sinulle URL-osoitteen, jolla pääset RStudioon verkkoselaimella. Amazon EC2:n avulla voit skaalata ylös tai alas käsitelläksesi muutoksia datan koossa ja tarvittavassa laskentakapasiteetissa analytiikan suorittamiseen.

Luo avain-arvo-pari suojattua käyttöä varten

AWS käyttää julkisen avaimen salausta EC2-instanssisi kirjautumistietojen suojaamiseen. Määrität avainparin nimen KeyPair parametri, kun käynnistät CloudFormation-mallin. Tämän jälkeen voit käyttää samaa avainta kirjautuaksesi myöhemmin tarvittaessa sisään valmistettuun EC2-instanssiin.

Ennen kuin suoritat CloudFormation-mallin, varmista, että sinulla on Amazon EC2 -avainpari AWS-tilissä, jota aiot käyttää. Jos ei, niin katso Luo avainpari Amazon EC2: lla saadaksesi ohjeet sellaisen luomiseen.

Käynnistä CloudFormation-malliKirjaudu sisään CloudFormation-konsoliin us-east-1 Alue ja valitse Launch Stack.

Käynnistä pinopainike

Sinun on syötettävä useita parametreja CloudFormation-malliin:

  • InitialUser ja InitialPassword – Käyttäjätunnus ja salasana, joita käytät kirjautuessasi RStudio-istuntoon. Oletusarvot ovat rstudio ja Rstudio@123Vastaavasti.
  • Tapaustyyppi – EC2-ilmentymätyyppi, johon RStudio-palvelin otetaan käyttöön. Malli hyväksyy tällä hetkellä kaikki ilmentymät t2-, m4-, c4-, r4-, g2-, p2- ja g3-instanssiperheistä, ja se voi helposti sisällyttää muita ilmentymäperheitä. Oletusarvo on t2.micro.
  • KeyPair – Avainpari, jolla kirjaudut EC2-instanssiin.
  • VpcId ja SubnetId - Amazonin virtuaalinen yksityinen pilvi (Amazon VPC) ja aliverkko, jossa ilmentymä käynnistetään.

Kun olet antanut nämä parametrit, ota CloudFormation-malli käyttöön. Kun se on valmis, seuraavat resurssit ovat käytettävissä:

  • EC2-ilmentymä, johon on asennettu RStudio.
  • IAM-rooli, jolla on tarvittavat oikeudet muodostaa yhteys muihin AWS-palveluihin.
  • Suojausryhmä, jolla on säännöt portin 8787 avaamiseksi RStudio-palvelimelle.

Kirjaudu RStudioon

Nyt olet valmis käyttämään RStudioa! Siirry kohtaan Lähdöt välilehti CloudFormation-pinolle ja kopioi RStudion URL-arvo (se on muodossa http://ec2-XX-XX-XXX-XX.compute-1.amazonaws.com:8787/). Kirjoita URL-osoite verkkoselaimeen. Tämä avaa RStudio-istunnon, johon voit kirjautua samalla käyttäjänimellä ja salasanalla, jotka annoit CloudFormation-mallia suoritettaessa.

Käytä AWS-palveluita RStudiosta

Kun olet avannut RStudio-istunnon, sinun tulee asentaa R-paketti AWS:lle (Paws). Tämän avulla voit muodostaa yhteyden moniin AWS-palveluihin, mukaan lukien datajärvesi palvelut ja resurssit. Asenna Paws kirjoittamalla ja suorittamalla seuraava R-koodi:

install.packages("paws")

Jos haluat käyttää AWS-palvelua, luo asiakas ja käytä palvelun toimintoja kyseiseltä asiakkaalta. Kun käytät AWS-sovellusliittymiä, sinun on annettava kirjautumistietosi ja alueesi. Paws etsii tunnistetietoja ja aluetta AWS-todennusketjun avulla:

  • Eksplisiittisesti annettu pääsyavain, salainen avain, istuntotunnus, profiili tai alue
  • R ympäristömuuttujat
  • Käyttöjärjestelmän ympäristömuuttujat
  • AWS jakoi kirjautumistiedot ja määritystiedostot .aws/credentials ja .aws/config
  • Säilön IAM-rooli
  • Esim IAM-rooli

Koska käytät EC2-esiintymää, johon on liitetty IAM-rooli, Paws käyttää automaattisesti IAM-roolitunnuksiasi AWS-sovellusliittymäpyyntöjen todentamiseen.

# To interact with an Amazon S3 service, first create an S3 client then list the objects within your bucket by invoking: rstudio-XXXXXXXXXX
s3 <- paws::s3(config = list(region = 'us-east-1'))s3$list_objects(Bucket = "rstudio-XXXXXXXXXX")
# Let’s see how we can interactively query data from your data lake using Amazon Athena.
athena <- paws::athena(config = list(region = 'us-east-1'))
athena$start_query_execution(QueryString = "SELECT * FROM "databasename.tablename" limit 10;",QueryExecutionContext = list(Database = "databasename", Catalog = "catalogname"),ResultConfiguration = list(OutputLocation = "S3 Bucket",EncryptionConfiguration = list(EncryptionOption = "SSE_S3")), WorkGroup = "workgroup name")
$QueryExecutionId[1] 
"17ccec8a-d196-4b4c-b31c-314fab8939f3"

Tuotantoympäristössä suosittelemme käyttämään skaalautuvaa Rstudio-ratkaisua, joka on kuvattu tämä blogi.

Yhteenveto

Opit ottamaan RStudio-ympäristösi käyttöön AWS:ssä. Osoitimme RStudion käytön edut Amazon SageMakerissa ja kuinka pääset alkuun. Opit myös kuinka nopeasti aloittaa kokeileminen RStudion avoimen lähdekoodin versiolla käyttämällä itseisännöityä asennusta Amazon EC2:n avulla. Osoitimme myös, kuinka integroida RStudio datajärvi-arkkitehtuuriisi ja toteuttaa hienorakeinen pääsynhallinta Data Lake -taulukossa Lake Formationin rivi- ja solutason suojausominaisuuden avulla.

Seuraavassa viestissämme esittelemme, kuinka R-komentosarjat säilytetään ja suoritetaan niiden avulla AWS Lambda.


Tietoja kirjoittajista

Ota RStudio käyttöön AWS-ympäristössäsi ja käytä datajärveäsi käyttämällä AWS Lake Formation -käyttöoikeuksia PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Venkata Kampana on vanhempi ratkaisuarkkitehti AWS Health and Human Services -tiimissä ja sijaitsee Sacramentossa, Kaliforniassa. Tässä roolissa hän auttaa julkisen sektorin asiakkaita saavuttamaan missiotavoitteensa AWS:n hyvin suunniteltujen ratkaisujen avulla.

Ota RStudio käyttöön AWS-ympäristössäsi ja käytä datajärveäsi käyttämällä AWS Lake Formation -käyttöoikeuksia PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Tohtori Dawn Heisey-Grove on Amazon Web Servicesin osavaltio- ja paikallishallinnon tiimin kansanterveysanalytiikkajohtaja. Tässä roolissa hän vastaa valtion ja paikallisten terveysvirastojen auttamisesta luovasti miettimään, kuinka saavuttaa analytiikan haasteensa ja pitkän aikavälin tavoitteensa. Hän on käyttänyt uransa etsiessään uusia tapoja käyttää olemassa olevia tai uusia tietoja kansanterveyden seurannan ja tutkimuksen tukemiseen.

Aikaleima:

Lisää aiheesta AWS-koneoppiminen