R on suosittu analyyttinen ohjelmointikieli, jota datatieteilijät ja analyytikot käyttävät tietojenkäsittelyyn, tilastollisiin analyyseihin, datavisualisaatioiden luomiseen ja koneoppimismallien (ML) rakentamiseen. RStudio, R:n integroitu kehitysympäristö, tarjoaa avoimen lähdekoodin työkaluja ja yritysvalmiita ammattiohjelmistoja tiimeille, jotka voivat kehittää ja jakaa työnsä koko organisaatiossa. RStudion rakentaminen, turvaaminen, skaalaaminen ja ylläpito itse on kuitenkin työlästä ja vaivalloista.
RStudio-ympäristön käyttöönotto AWS:ssä tarjoaa joustavuutta ja skaalautuvuutta, joita sinulla ei ole, kun otat käyttöön on-prem, mikä poistaa infrastruktuurin hallinnan tarpeen. Voit valita haluamasi laskennan ja muistin käsittelyvaatimusten perusteella ja voit myös skaalata ylös tai alas työskennelläksesi erikokoisten analyyttisten ja ML-työkuormien kanssa ilman ennakkoinvestointia. Näin voit nopeasti kokeilla uusia tietolähteitä ja koodia sekä ottaa käyttöön uusia analytiikkaprosesseja ja ML-malleja muulle organisaatiolle. Voit myös integroida Data Lake -resurssit saumattomasti, jotta ne ovat kehittäjien ja tietotieteilijöiden saatavilla ja suojata tiedot käyttämällä rivi- ja saraketason käyttöoikeuksia AWS-järvien muodostuminen.
Tämä viesti esittelee kaksi tapaa ottaa helposti käyttöön ja käyttää RStudioa AWS:ssä datajärveen tallennettujen tietojen käyttämiseksi:
- Täysin hallinnassa Amazon Sage Maker
- Itseisännöity päällä Amazonin elastinen laskentapilvi (Amazon EC2)
- Voit ottaa käyttöön RStudion avoimen lähdekoodin version käyttämällä EC2-isännöityä lähestymistapaa, jota myös kuvailemme tässä viestissä. Itseisännöity vaihtoehto edellyttää, että järjestelmänvalvoja luo EC2-esiintymän ja asentaa RStudion manuaalisesti tai käyttämällä AWS-pilven muodostuminen Tässä vaihtoehdossa on myös vähemmän joustavuutta käyttäjien käyttöoikeuksien hallintaan, koska kaikilla käyttäjillä on sama käyttöoikeustaso tämän tyyppisessä toteutuksessa.
RStudio Amazon SageMakerissa
Voit käynnistää RStudio Workbenchin yhdellä napsautuksella SageMakerista. SageMakerin avulla asiakkaiden ei tarvitse kantaa RStudion rakentamisen, asennuksen, turvaamisen, skaalauksen ja ylläpidon yleiskustannuksia, heidän ei tarvitse maksaa jatkuvasti käynnissä olevasta RStudio-palvelimesta (jos he käyttävät t3.mediumia) ja he maksavat vain RSession-laskentaan, kun he käyttävät sitä. RStudio-käyttäjät voivat joustavasti skaalata laskentaa dynaamisesti vaihtamalla esiintymiä lennossa. RStudion käyttäminen SageMakerissa edellyttää, että järjestelmänvalvoja perustaa SageMaker-toimialueen ja siihen liittyvät käyttäjäprofiilit. Tarvitset myös asianmukaisen RStudio-lisenssin
SageMakerissa voit myöntää käyttöoikeudet RStudion järjestelmänvalvojan ja RStudion käyttäjätason eri käyttöoikeuksin. Vain käyttäjäprofiilit, joille on myönnetty toinen näistä kahdesta roolista, voivat käyttää RStudiota SageMakerissa. Lisätietoja järjestelmänvalvojan tehtävistä RStudion määrittämiseksi SageMakerissa on kohdassa Aloita RStudion käyttö Amazon SageMakerissa. Tämä viesti näyttää myös prosessin EC2-ilmentymien valitsemiseksi kullekin istunnolle ja kuinka järjestelmänvalvoja voi rajoittaa EC2-ilmentymien vaihtoehtoja RStudio-käyttäjille.
Käytä Lake Formationin rivi- ja saraketason suojauskäyttöä
Sen lisäksi, että annat tiimisi käynnistää RStudio-istuntoja SageMakerissa, voit myös suojata datajärven käyttämällä Lake Formationin rivi- ja saraketason käyttöoikeuksia. Lisätietoja on kohdassa Tehokkaat datajärvet AWS Lake Formationin avulla, osa 4: Solutason ja rivitason suojauksen toteuttaminen.
Lake Formation -turvaohjauksilla voit varmistaa, että jokaisella on oikeus päästä käsiksi datajärven tietoihin. Harkitse seuraavia kahta SageMaker-toimialueen käyttäjäprofiilia, joilla kummallakin on erilainen suoritusrooli:
Käyttäjäprofiili | Toteutusrooli |
rstudiouser-fullaccess |
AmazonSageMaker-ExecutionRole-FullAccess |
rstudiouser-limitedaccess |
AmazonSageMaker-ExecutionRole-LimitedAccess |
Seuraava kuvakaappaus näyttää rstudiouser-limitedaccess
profiilin tiedot.
Seuraava kuvakaappaus näyttää rstudiouser-fullaccess
profiilin tiedot.
Tässä viestissä käytetty tietojoukko on a Julkinen COVID-19-tietojoukko. Seuraavassa kuvakaappauksessa on esimerkki tiedoista:
Kun olet luonut käyttäjäprofiilin ja määrittänyt sille sopivan roolin, voit käyttää Lake Formationia indeksoidaksesi tietoja AWS-liima, luo metatiedot ja taulukko ja myönnä pääsy taulukkotietoihin. Varten AmazonSageMaker-ExecutionRole-FullAccess
rooli, annat pääsyn kaikkiin taulukon sarakkeisiin ja varten AmazonSageMaker-ExecutionRole-LimitedAccess
, annat käyttöoikeuden tietosuodattimen avulla USA_Filter
. Käytämme tätä suodatinta rivi- ja solutason sarakekäyttöoikeuksien tarjoamiseen (katso Resurssi sarake seuraavassa kuvakaappauksessa).
Kuten seuraavassa kuvakaappauksessa näkyy, toisen roolin käyttöoikeus on rajoitettu. Tähän rooliin liittyvät käyttäjät voivat käyttää vain continent
, date
, total_cases
, total_deaths
, new_cases
, new_deaths
ja iso_codecolumns
.
Kun jokaiseen käyttäjäprofiiliin on liitetty rooliluvat, voimme nähdä, kuinka Lake Formation pakottaa asianmukaiset rivi- ja saraketason käyttöoikeudet. Voit avata RStudio Workbenchin osoitteesta Käynnistä sovellus avattavasta valikosta luodussa käyttäjäluettelossa ja valitse RStudio.
Seuraavassa kuvakaappauksessa käynnistämme sovelluksen nimellä rstudiouser-limitedaccess user
.
Näet RStudio Workbenchin kotisivun ja luettelon istunnoista, projekteista ja julkaistusta sisällöstä.
Valitse istunnon nimi aloittaaksesi istunnon SageMakerissa. Asenna Paws (katso ohjeet aiemmin tässä viestissä), jotta voit käyttää asianmukaisia AWS-palveluita. Nyt voit suorittaa kyselyn hakeaksesi kaikki kentät tietojoukosta kautta Amazon Athena, käyttämällä komentoa “SELECT * FROM "databasename.tablename"
, ja tallenna kyselyn tulos an Amazonin yksinkertainen tallennuspalvelu (Amazon S3)-kauha.
Seuraavassa kuvakaappauksessa näkyvät S3-säihön tulostustiedostot.
Seuraava kuvakaappaus näyttää näiden tulostiedostojen tiedot käyttämällä Amazon S3 Select.
Vain USA:n tiedot ja sarakkeet maanosa, päivämäärä, total_cases
, total_deaths
, new_cases
, new_deaths
ja iso_code
näkyvät tuloksessa kohteelle rstudiouser-limitedaccess
käyttäjälle.
Toistetaan samat vaiheet rstudiouser-fullaccess
käyttäjälle.
Näet RStudio Workbenchin kotisivun ja luettelon istunnoista, projekteista ja julkaistusta sisällöstä.
Suoritetaan sama kysely “SELECT * FROM "databasename.tablename"
käyttämällä Athenetta.
Seuraavassa kuvakaappauksessa näkyvät S3-säihön tulostustiedostot.
Seuraava kuvakaappaus näyttää näiden tulostiedostojen tiedot käyttämällä Amazon S3 Select.
Kuten tässä esimerkissä näkyy, rstudiouser-fullaccess
käyttäjällä on pääsy kaikkiin tietojoukon sarakkeisiin ja riveihin.
Itse isännöity Amazon EC2:ssa
Jos haluat alkaa kokeilla RStudion avoimen lähdekoodin versiota AWS:ssä, voit asentaa Rstudion EC2-esiintymään. Tämä tässä viestissä annettu CloudFormation-malli sisältää EC2-ilmentymän ja asentaa RStudion käyttäjädatakomentosarjan avulla. Voit suorittaa mallin useita kertoja ja luoda useita RStudio-esiintymiä tarpeen mukaan, ja voit käyttää sitä missä tahansa AWS-alueella. Kun otat CloudFormation-mallin käyttöön, se tarjoaa sinulle URL-osoitteen, jolla pääset RStudioon verkkoselaimella. Amazon EC2:n avulla voit skaalata ylös tai alas käsitelläksesi muutoksia datan koossa ja tarvittavassa laskentakapasiteetissa analytiikan suorittamiseen.
Luo avain-arvo-pari suojattua käyttöä varten
AWS käyttää julkisen avaimen salausta EC2-instanssisi kirjautumistietojen suojaamiseen. Määrität avainparin nimen KeyPair
parametri, kun käynnistät CloudFormation-mallin. Tämän jälkeen voit käyttää samaa avainta kirjautuaksesi myöhemmin tarvittaessa sisään valmistettuun EC2-instanssiin.
Ennen kuin suoritat CloudFormation-mallin, varmista, että sinulla on Amazon EC2 -avainpari AWS-tilissä, jota aiot käyttää. Jos ei, niin katso Luo avainpari Amazon EC2: lla saadaksesi ohjeet sellaisen luomiseen.
Käynnistä CloudFormation-malliKirjaudu sisään CloudFormation-konsoliin us-east-1
Alue ja valitse Launch Stack.
Sinun on syötettävä useita parametreja CloudFormation-malliin:
- InitialUser ja InitialPassword – Käyttäjätunnus ja salasana, joita käytät kirjautuessasi RStudio-istuntoon. Oletusarvot ovat
rstudio
jaRstudio@123
Vastaavasti. - Tapaustyyppi – EC2-ilmentymätyyppi, johon RStudio-palvelin otetaan käyttöön. Malli hyväksyy tällä hetkellä kaikki ilmentymät t2-, m4-, c4-, r4-, g2-, p2- ja g3-instanssiperheistä, ja se voi helposti sisällyttää muita ilmentymäperheitä. Oletusarvo on t2.micro.
- KeyPair – Avainpari, jolla kirjaudut EC2-instanssiin.
- VpcId ja SubnetId - Amazonin virtuaalinen yksityinen pilvi (Amazon VPC) ja aliverkko, jossa ilmentymä käynnistetään.
Kun olet antanut nämä parametrit, ota CloudFormation-malli käyttöön. Kun se on valmis, seuraavat resurssit ovat käytettävissä:
- EC2-ilmentymä, johon on asennettu RStudio.
- IAM-rooli, jolla on tarvittavat oikeudet muodostaa yhteys muihin AWS-palveluihin.
- Suojausryhmä, jolla on säännöt portin 8787 avaamiseksi RStudio-palvelimelle.
Kirjaudu RStudioon
Nyt olet valmis käyttämään RStudioa! Siirry kohtaan Lähdöt välilehti CloudFormation-pinolle ja kopioi RStudion URL-arvo (se on muodossa http://ec2-XX-XX-XXX-XX.compute-1.amazonaws.com:8787/
). Kirjoita URL-osoite verkkoselaimeen. Tämä avaa RStudio-istunnon, johon voit kirjautua samalla käyttäjänimellä ja salasanalla, jotka annoit CloudFormation-mallia suoritettaessa.
Käytä AWS-palveluita RStudiosta
Kun olet avannut RStudio-istunnon, sinun tulee asentaa R-paketti AWS:lle (Paws). Tämän avulla voit muodostaa yhteyden moniin AWS-palveluihin, mukaan lukien datajärvesi palvelut ja resurssit. Asenna Paws kirjoittamalla ja suorittamalla seuraava R-koodi:
Jos haluat käyttää AWS-palvelua, luo asiakas ja käytä palvelun toimintoja kyseiseltä asiakkaalta. Kun käytät AWS-sovellusliittymiä, sinun on annettava kirjautumistietosi ja alueesi. Paws etsii tunnistetietoja ja aluetta AWS-todennusketjun avulla:
- Eksplisiittisesti annettu pääsyavain, salainen avain, istuntotunnus, profiili tai alue
- R ympäristömuuttujat
- Käyttöjärjestelmän ympäristömuuttujat
- AWS jakoi kirjautumistiedot ja määritystiedostot
.aws/credentials
ja.aws/config
- Säilön IAM-rooli
- Esim IAM-rooli
Koska käytät EC2-esiintymää, johon on liitetty IAM-rooli, Paws käyttää automaattisesti IAM-roolitunnuksiasi AWS-sovellusliittymäpyyntöjen todentamiseen.
Tuotantoympäristössä suosittelemme käyttämään skaalautuvaa Rstudio-ratkaisua, joka on kuvattu tämä blogi.
Yhteenveto
Opit ottamaan RStudio-ympäristösi käyttöön AWS:ssä. Osoitimme RStudion käytön edut Amazon SageMakerissa ja kuinka pääset alkuun. Opit myös kuinka nopeasti aloittaa kokeileminen RStudion avoimen lähdekoodin versiolla käyttämällä itseisännöityä asennusta Amazon EC2:n avulla. Osoitimme myös, kuinka integroida RStudio datajärvi-arkkitehtuuriisi ja toteuttaa hienorakeinen pääsynhallinta Data Lake -taulukossa Lake Formationin rivi- ja solutason suojausominaisuuden avulla.
Seuraavassa viestissämme esittelemme, kuinka R-komentosarjat säilytetään ja suoritetaan niiden avulla AWS Lambda.
Tietoja kirjoittajista
Venkata Kampana on vanhempi ratkaisuarkkitehti AWS Health and Human Services -tiimissä ja sijaitsee Sacramentossa, Kaliforniassa. Tässä roolissa hän auttaa julkisen sektorin asiakkaita saavuttamaan missiotavoitteensa AWS:n hyvin suunniteltujen ratkaisujen avulla.
Tohtori Dawn Heisey-Grove on Amazon Web Servicesin osavaltio- ja paikallishallinnon tiimin kansanterveysanalytiikkajohtaja. Tässä roolissa hän vastaa valtion ja paikallisten terveysvirastojen auttamisesta luovasti miettimään, kuinka saavuttaa analytiikan haasteensa ja pitkän aikavälin tavoitteensa. Hän on käyttänyt uransa etsiessään uusia tapoja käyttää olemassa olevia tai uusia tietoja kansanterveyden seurannan ja tutkimuksen tukemiseen.
- AI
- ai taide
- ai taiteen generaattori
- ai robotti
- Amazon Sage Maker
- tekoäly
- tekoälyn sertifiointi
- tekoäly pankkitoiminnassa
- tekoäly robotti
- tekoälyrobotit
- tekoälyohjelmisto
- AWS-koneoppiminen
- blockchain
- blockchain-konferenssi ai
- coingenius
- keskustelullinen tekoäly
- kryptokonferenssi ai
- dall's
- syvä oppiminen
- google ai
- koneoppiminen
- Platon
- plato ai
- Platonin tietotieto
- Platon peli
- PlatonData
- platopeliä
- mittakaava ai
- syntaksi
- zephyrnet