Rakendage RStudio oma AWS-i keskkonnas ja pääsete juurde oma andmejärvele, kasutades AWS Lake Formationi lubasid PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Rakendage RStudio oma AWS-i keskkonnas ja pääsete juurde oma andmejärvele, kasutades AWS Lake Formationi õigusi

R on populaarne analüütiline programmeerimiskeel, mida andmeteadlased ja analüütikud kasutavad andmete töötlemiseks, statistiliste analüüside tegemiseks, andmete visualiseerimiste loomiseks ja masinõppe (ML) mudelite loomiseks. R-i integreeritud arenduskeskkond RStudio pakub avatud lähtekoodiga tööriistu ja ettevõtte jaoks valmis professionaalset tarkvara, et meeskonnad saaksid oma tööd oma organisatsioonis arendada ja jagada. RStudio ise ehitamine, turvamine, skaleerimine ja hooldamine on aga tüütu ja tülikas.

RStudio keskkonna juurutamine AWS-is tagab elastsuse ja mastaapsuse, mida teil kohapeal juurutades ei ole, kõrvaldades vajaduse selle infrastruktuuri haldamise järele. Saate valida soovitud arvutuse ja mälu vastavalt töötlemisnõuetele, samuti saate seda suurendada või vähendada, et töötada erineva suurusega analüütiliste ja ML-i töökoormustega ilma eelneva investeeringuta. See võimaldab teil kiiresti katsetada uusi andmeallikaid ja koodi ning levitada ülejäänud organisatsioonis uusi analüütilisi protsesse ja ML-mudeleid. Samuti saate oma Data Lake'i ressursse sujuvalt integreerida, et muuta need arendajatele ja andmeteadlastele kättesaadavaks ning kaitsta andmeid, kasutades rea- ja veerutasemel juurdepääsu juhtelemente AWS järve kihistu.

See postitus tutvustab kahte võimalust RStudio hõlpsaks juurutamiseks ja käitamiseks AWS-is, et pääseda juurde andmejärves salvestatud andmetele:

  • Täielikult juhitud Amazon SageMaker
  • Ise majutatud Amazon Elastic Compute Cloud (Amazon EC2)
    • Saate juurutada RStudio avatud lähtekoodiga versiooni, kasutades EC2 hostitud lähenemisviisi, mida kirjeldame ka selles postituses. Isehostitav valik nõuab, et administraator looks EC2 eksemplari ja installiks RStudio käsitsi või AWS CloudFormation Selle valiku puhul on kasutaja juurdepääsu juhtelementide rakendamisel ka vähem paindlikkust, kuna seda tüüpi juurutuse puhul on kõigil kasutajatel sama juurdepääsutase.

RStudio Amazon SageMakeris

RStudio Workbenchi saate käivitada SageMakeri lihtsa klõpsuga. SageMakeriga ei pea kliendid kandma RStudio ehitamise, paigaldamise, turvalisuse, skaleerimise ja hooldamise üldkulusid, nad ei pea maksma pidevalt töötava RStudio serveri eest (kui nad kasutavad t3.mediumi) ja maksavad ainult RSessioni arvutamiseks, kui nad seda kasutavad. RStudio kasutajad saavad paindlikult arvutusi dünaamiliselt skaleerida, vahetades eksemplare käigupealt. RStudio käivitamine SageMakeris nõuab, et administraator looks SageMakeri domeeni ja sellega seotud kasutajaprofiilid. Teil on vaja ka vastavat RStudio litsentsi

SageMakeris saate anda juurdepääsu RStudio administraatori ja RStudio kasutaja tasemel erinevate õigustega. Ainult kasutajaprofiilid, kellele on antud üks neist kahest rollist, pääsevad SageMakeris RStudiole juurde. Lisateavet RStudio SageMakeris seadistamise administraatori ülesannete kohta leiate artiklist Alustage RStudioga Amazon SageMakeris. See postitus näitab ka iga seansi jaoks EC2 eksemplaride valimise protsessi ja seda, kuidas administraator saab RStudio kasutajatele EC2 eksemplari valikuid piirata.

Joonis 1: arhitektuuridiagramm, mis näitab erinevate AWS-teenuste koostoimet

Kasutage Lake Formationi rea- ja veerutasemel turbejuurdepääsu

Lisaks sellele, et saate oma meeskonnal käivitada SageMakeris RStudio seansse, saate andmejärve kaitsta ka Lake Formationi rea- ja veerutaseme juurdepääsu juhtelementide abil. Lisateabe saamiseks vaadake Tõhusad andmejärved, mis kasutavad AWS Lake Formationit, 4. osa: raku- ja reataseme turvalisuse rakendamine.

Lake Formationi turvakontrollide kaudu saate veenduda, et igal inimesel on andmejärves olevatele andmetele õige juurdepääs. Mõelge järgmistele kahele SageMakeri domeeni kasutajaprofiilile, millest igaühel on erinev täitmise roll:

Kasutajaprofiil Täitmise roll
rstudiouser-fullaccess AmazonSageMaker-ExecutionRole-FullAccess
rstudiouser-limitedaccess AmazonSageMaker-ExecutionRole-LimitedAccess

Järgmine ekraanipilt näitab rstudiouser-limitedaccess profiili üksikasjad.

Joonis 2: rstudiouser-limitedaccess rolli profiili üksikasjad

Joonis 2: rstudiouser-limitedaccess rolli profiili üksikasjad

Järgmine ekraanipilt näitab rstudiouser-fullaccess profiili üksikasjad.

Joonis 3. Raadioülema rolli profiili üksikasjad

Joonis 3. Raadioülema rolli profiili üksikasjad

Selle postituse jaoks kasutatud andmestik on a COVID-19 avalik andmestik. Järgmisel ekraanipildil on näide andmetest:

Joonis 4: COVID-19 avalik andmestik

Joonis 4: COVID-19 avalik andmestik

Kui olete kasutajaprofiili loonud ja määranud selle sobivale rollile, pääsete juurde Lake Formationile, et andmeid kasutades roomata. AWS liim, looge metaandmed ja tabel ning andke juurdepääs tabeliandmetele. Jaoks AmazonSageMaker-ExecutionRole-FullAccess rolli, annate juurdepääsu kõigile tabeli veergudele ja jaoks AmazonSageMaker-ExecutionRole-LimitedAccess, annate juurdepääsu andmefiltri abil USA_Filter. Kasutame seda filtrit rea- ja lahtritaseme veeruõiguste andmiseks (vt Ressurss veerus järgmisel ekraanipildil).

Joonis 5: AWS Lake'i moodustamise load AmazonSageMaker-ExecutionRole'i ​​jaoks – täieliku/piiratud juurdepääsuga rollid

Joonis 5: AWS Lake'i moodustamise load AmazonSageMaker-ExecutionRole'i ​​jaoks – täieliku/piiratud juurdepääsuga rollid

Nagu on näidatud järgmisel ekraanipildil, on teisele rollile juurdepääs piiratud. Selle rolliga seotud kasutajad pääsevad juurde ainult continent, date, total_cases, total_deaths, new_cases, new_deathsja iso_codecolumns.

Joonis 6: AWS-i järve moodustamise veerutaseme load AmazonSageMaker-ExecutionRole-Limited Access rolli jaoks

Joonis 6: AWS-i järve moodustamise veerutaseme load AmazonSageMaker-ExecutionRole-Limited Access rolli jaoks

Igale kasutajaprofiilile lisatud rolliõigused näeme, kuidas Lake Formation jõustab asjakohased rea- ja veerutaseme õigused. RStudio Workbenchi saate avada aadressilt Käivitage rakendus rippmenüüst loodud kasutajate loendis ja valige RStuudio.

Järgmisel ekraanipildil käivitame rakenduse kui rstudiouser-limitedaccess user.

Joonis 7: RStudio seansi käivitamine rstudiouseri piiratud juurdepääsuga kasutajale Amazon SageMaker Console'ist

Joonis 7: RStudio seansi käivitamine rstudiouseri piiratud juurdepääsuga kasutajale Amazon SageMaker Console'ist

Näete RStudio Workbenchi kodulehte ning seansside, projektide ja avaldatud sisu loendit.

Joonis 8: R Studio Workbenchi seanss rstudiouser-limited accessiga kasutajale

Joonis 8: R Studio Workbenchi seanss rstudiouser-limited accessiga kasutajale

Valige SageMakeris seansi alustamiseks seansi nimi. Installige Paws (vt selle postituse varasemaid juhiseid), et pääseksite juurde asjakohastele AWS-i teenustele. Nüüd saate käivitada päringu, et tõmmata kõik andmestiku väljad selle kaudu Amazonase Athena, kasutades käsku “SELECT * FROM "databasename.tablename"ja salvestage päringu väljund an Amazoni lihtne salvestusteenus (Amazon S3) kopp.

Joonis 9: Athena päringu täitmine R Studio seansis

Joonis 9: Athena päringu täitmine R Studio seansis

Järgmine ekraanipilt näitab S3 ämbris olevaid väljundfaile.

Joonis 10: Athena päringu käivitamise tulemuseks on Amazon S3 Bucket

Joonis 10: Athena päringu käivitamise tulemuseks on Amazon S3 Bucket

Järgmine ekraanipilt näitab nende väljundfailide andmeid kasutades Amazon S3 Select.

Joonis 11: Väljundandmete ülevaatamine Amazon S3 Selecti abil

Joonis 11: Väljundandmete ülevaatamine Amazon S3 Selecti abil

Ainult USA andmed ja veerud kontinent, kuupäev, total_cases, total_deaths, new_cases, new_deathsja iso_code on näidatud tulemustes rstudiouser-limitedaccess kasutaja.

Kordame samu samme rstudiouser-fullaccess kasutaja.

Joonis 12: RStudio seansi käivitamine Amazon SageMaker Console'i ​​kaudu suuremate teadmistega kasutaja jaoks

Joonis 12: RStudio seansi käivitamine Amazon SageMaker Console'i ​​kaudu suuremate teadmistega kasutaja jaoks

Näete RStudio Workbenchi kodulehte ning seansside, projektide ja avaldatud sisu loendit.

Joonis 13: R Studio Workbenchi seanss kõige õppivama täieliku juurdepääsuga kasutajale

Joonis 13: R Studio Workbenchi seanss kõige õppivama täieliku juurdepääsuga kasutajale

Käitame sama päringu “SELECT * FROM "databasename.tablename" kasutades Athenat.

Joonis 14: Athena päringu täitmine R Studio seansis

Joonis 14: Athena päringu täitmine R Studio seansis

Järgmine ekraanipilt näitab S3 ämbris olevaid väljundfaile.

Joonis 15: Athena päringu käivitamise tulemuseks on Amazon S3 Bucket

Joonis 15: Athena päringu käivitamise tulemuseks on Amazon S3 Bucket

Järgmine ekraanipilt näitab nende väljundfailide andmeid kasutades Amazon S3 Select.

Joonis 16: Väljundandmete ülevaatamine Amazon S3 Selecti abil

Joonis 16: Väljundandmete ülevaatamine Amazon S3 Selecti abil

Nagu selles näites näidatud, rstudiouser-fullaccess kasutajal on juurdepääs kõikidele andmestiku veergudele ja ridadele.

Ise hostitud Amazon EC2-s

Kui soovite alustada katsetamist RStudio avatud lähtekoodiga versiooniga AWS-is, saate installida Rstudio EC2 eksemplari. See selles postituses esitatud CloudFormationi mall näeb ette EC2 eksemplari ja installib RStudio kasutajaandmete skripti kasutades. Saate malli mitu korda käitada, et varustada vajaduse korral mitu RStudio eksemplari, ja saate seda kasutada mis tahes AWS-i piirkonnas. Pärast CloudFormationi malli juurutamist pakub see teile URL-i RStudiole veebibrauseris juurdepääsemiseks. Amazon EC2 võimaldab teil skaleerida üles või alla, et käsitleda andmete suuruse ja analüüsi käitamiseks vajaliku arvutusvõimsuse muutusi.

Turvaliseks juurdepääsuks looge võtme-väärtuse paar

AWS kasutab teie EC2 eksemplari sisselogimisteabe kaitsmiseks avaliku võtme krüptograafiat. Saate määrata võtmepaari nime KeyPair CloudFormationi malli käivitamisel. Seejärel saate vajaduse korral kasutada sama võtit, et hiljem varustatud EC2 eksemplari sisse logida.

Enne CloudFormationi malli käivitamist veenduge, et teil on AWS-i kontol Amazon EC2 võtmepaar, mida kavatsete kasutada. Kui ei, siis vaadake Looge Amazon EC2 abil võtmepaar juhiste saamiseks selle loomiseks.

Käivitage CloudFormationi mallLogige sisse CloudFormationi konsooli us-east-1 Piirkond ja valige Launch Stack.

Virna käivitamise nupp

Peate CloudFormationi malli sisestama mitu parameetrit:

  • InitialUser ja InitialPassword – kasutajanimi ja parool, mida kasutate RStudio seansi sisselogimiseks. Vaikeväärtused on rstudio ja Rstudio@123, Vastavalt.
  • InstanceType – EC2 eksemplari tüüp, millele RStudio server juurutada. Mall aktsepteerib praegu kõiki eksemplare t2, m4, c4, r4, g2, p2 ja g3 eksemplariperekondades ning võib hõlpsasti kaasata muid eksemplariperekondi. Vaikeväärtus on t2.micro.
  • Võtmepaar – võtmepaar, mida kasutate EC2 eksemplari sisselogimiseks.
  • VpcId ja SubnetId - Amazoni virtuaalne privaatpilv (Amazon VPC) ja alamvõrk, milles eksemplar käivitada.

Pärast nende parameetrite sisestamist juurutage CloudFormationi mall. Kui see on valmis, on saadaval järgmised ressursid:

  • EC2 eksemplar, millele on installitud RStudio.
  • IAM-i roll koos vajalike õigustega teiste AWS-teenustega ühenduse loomiseks.
  • Turvagrupp reeglitega RStudio serveri pordi 8787 avamiseks.

Logige RStudiosse sisse

Nüüd olete RStudio kasutamiseks valmis! Mine lehele Väljundid vahekaarti CloudFormationi virna jaoks ja kopeerige RStudio URL-i väärtus (see on vormingus http://ec2-XX-XX-XXX-XX.compute-1.amazonaws.com:8787/). Sisestage see URL veebibrauserisse. See avab teie RStudio seansi, kuhu saate sisse logida sama kasutajanime ja parooliga, mille andsite CloudFormationi malli käitamisel.

Juurdepääs AWS-i teenustele RStudio kaudu

Pärast RStudio seansile sisenemist peaksite installima AWS-i (Paws) R-paketi. See võimaldab teil luua ühenduse paljude AWS-teenustega, sealhulgas teie andmejärve teenuste ja ressurssidega. Pawsi installimiseks sisestage ja käivitage järgmine R-kood:

install.packages("paws")

AWS-teenuse kasutamiseks looge klient ja pääsete selle kliendi kaudu teenuse toimingutele juurde. AWS-i API-dele juurde pääsedes peate esitama oma mandaadid ja piirkonna. Paws otsib mandaate ja piirkonda AWS-i autentimisahela abil:

  • Selgelt antud juurdepääsuvõti, salavõti, seansi tunnus, profiil või piirkond
  • R keskkonnamuutujad
  • Operatsioonisüsteemi keskkonnamuutujad
  • AWS jagas mandaate ja konfiguratsioonifaile .aws/credentials ja .aws/config
  • Konteineri IAM-i roll
  • Juhtumi IAM-i roll

Kuna kasutate EC2 eksemplari, millele on lisatud IAM-i roll, kasutab Paws automaatselt teie IAM-i rolli mandaate AWS API taotluste autentimiseks.

# To interact with an Amazon S3 service, first create an S3 client then list the objects within your bucket by invoking: rstudio-XXXXXXXXXX
s3 <- paws::s3(config = list(region = 'us-east-1'))s3$list_objects(Bucket = "rstudio-XXXXXXXXXX")
# Let’s see how we can interactively query data from your data lake using Amazon Athena.
athena <- paws::athena(config = list(region = 'us-east-1'))
athena$start_query_execution(QueryString = "SELECT * FROM "databasename.tablename" limit 10;",QueryExecutionContext = list(Database = "databasename", Catalog = "catalogname"),ResultConfiguration = list(OutputLocation = "S3 Bucket",EncryptionConfiguration = list(EncryptionOption = "SSE_S3")), WorkGroup = "workgroup name")
$QueryExecutionId[1] 
"17ccec8a-d196-4b4c-b31c-314fab8939f3"

Tootmiskeskkonna jaoks soovitame kasutada skaleeritavat Rstudio lahendust, mis on kirjeldatud see blogi.

Järeldus

Õppisite, kuidas juurutada oma RStudio keskkonda AWS-is. Näitasime RStudio kasutamise eeliseid Amazon SageMakeris ja alustasime. Samuti õppisite, kuidas kiiresti alustada katsetamist RStudio avatud lähtekoodiga versiooniga, kasutades Amazon EC2 isehostitavat installi. Samuti näitasime, kuidas integreerida RStudio oma andmejärve arhitektuuridesse ja rakendada andmejärve tabelis peeneteralist juurdepääsukontrolli, kasutades Lake Formationi rea- ja rakutaseme turvafunktsiooni.

Järgmises postituses näitame, kuidas R-skripte konteinerisse paigutada ja neid kasutades käivitada AWS Lambda.


Autoritest

Rakendage RStudio oma AWS-i keskkonnas ja pääsete juurde oma andmejärvele, kasutades AWS Lake Formationi lubasid PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Venkata Kampana on AWS-i tervishoiu- ja inimteenuste meeskonna vanemlahenduste arhitekt ning asub Sacramentos, CA. Selles rollis aitab ta avaliku sektori klientidel AWS-i hästi läbimõeldud lahendustega saavutada oma missioonieesmärke.

Rakendage RStudio oma AWS-i keskkonnas ja pääsete juurde oma andmejärvele, kasutades AWS Lake Formationi lubasid PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Dr Dawn Heisey-Grove on Amazon Web Servicesi osariigi ja kohaliku omavalitsuse meeskonna rahvatervise analüütika juht. Selles rollis vastutab ta selle eest, et aidata riiklikel ja kohalikel rahvatervise asutustel loovalt mõelda, kuidas saavutada oma analüüsiprobleeme ja pikaajalisi eesmärke. Ta on veetnud oma karjääri, otsides uusi viise olemasolevate või uute andmete kasutamiseks rahvatervise järelevalve ja uurimistöö toetamiseks.

Ajatempel:

Veel alates AWS-i masinõpe