R on populaarne analüütiline programmeerimiskeel, mida andmeteadlased ja analüütikud kasutavad andmete töötlemiseks, statistiliste analüüside tegemiseks, andmete visualiseerimiste loomiseks ja masinõppe (ML) mudelite loomiseks. R-i integreeritud arenduskeskkond RStudio pakub avatud lähtekoodiga tööriistu ja ettevõtte jaoks valmis professionaalset tarkvara, et meeskonnad saaksid oma tööd oma organisatsioonis arendada ja jagada. RStudio ise ehitamine, turvamine, skaleerimine ja hooldamine on aga tüütu ja tülikas.
RStudio keskkonna juurutamine AWS-is tagab elastsuse ja mastaapsuse, mida teil kohapeal juurutades ei ole, kõrvaldades vajaduse selle infrastruktuuri haldamise järele. Saate valida soovitud arvutuse ja mälu vastavalt töötlemisnõuetele, samuti saate seda suurendada või vähendada, et töötada erineva suurusega analüütiliste ja ML-i töökoormustega ilma eelneva investeeringuta. See võimaldab teil kiiresti katsetada uusi andmeallikaid ja koodi ning levitada ülejäänud organisatsioonis uusi analüütilisi protsesse ja ML-mudeleid. Samuti saate oma Data Lake'i ressursse sujuvalt integreerida, et muuta need arendajatele ja andmeteadlastele kättesaadavaks ning kaitsta andmeid, kasutades rea- ja veerutasemel juurdepääsu juhtelemente AWS järve kihistu.
See postitus tutvustab kahte võimalust RStudio hõlpsaks juurutamiseks ja käitamiseks AWS-is, et pääseda juurde andmejärves salvestatud andmetele:
- Täielikult juhitud Amazon SageMaker
- Ise majutatud Amazon Elastic Compute Cloud (Amazon EC2)
- Saate juurutada RStudio avatud lähtekoodiga versiooni, kasutades EC2 hostitud lähenemisviisi, mida kirjeldame ka selles postituses. Isehostitav valik nõuab, et administraator looks EC2 eksemplari ja installiks RStudio käsitsi või AWS CloudFormation Selle valiku puhul on kasutaja juurdepääsu juhtelementide rakendamisel ka vähem paindlikkust, kuna seda tüüpi juurutuse puhul on kõigil kasutajatel sama juurdepääsutase.
RStudio Amazon SageMakeris
RStudio Workbenchi saate käivitada SageMakeri lihtsa klõpsuga. SageMakeriga ei pea kliendid kandma RStudio ehitamise, paigaldamise, turvalisuse, skaleerimise ja hooldamise üldkulusid, nad ei pea maksma pidevalt töötava RStudio serveri eest (kui nad kasutavad t3.mediumi) ja maksavad ainult RSessioni arvutamiseks, kui nad seda kasutavad. RStudio kasutajad saavad paindlikult arvutusi dünaamiliselt skaleerida, vahetades eksemplare käigupealt. RStudio käivitamine SageMakeris nõuab, et administraator looks SageMakeri domeeni ja sellega seotud kasutajaprofiilid. Teil on vaja ka vastavat RStudio litsentsi
SageMakeris saate anda juurdepääsu RStudio administraatori ja RStudio kasutaja tasemel erinevate õigustega. Ainult kasutajaprofiilid, kellele on antud üks neist kahest rollist, pääsevad SageMakeris RStudiole juurde. Lisateavet RStudio SageMakeris seadistamise administraatori ülesannete kohta leiate artiklist Alustage RStudioga Amazon SageMakeris. See postitus näitab ka iga seansi jaoks EC2 eksemplaride valimise protsessi ja seda, kuidas administraator saab RStudio kasutajatele EC2 eksemplari valikuid piirata.
Kasutage Lake Formationi rea- ja veerutasemel turbejuurdepääsu
Lisaks sellele, et saate oma meeskonnal käivitada SageMakeris RStudio seansse, saate andmejärve kaitsta ka Lake Formationi rea- ja veerutaseme juurdepääsu juhtelementide abil. Lisateabe saamiseks vaadake Tõhusad andmejärved, mis kasutavad AWS Lake Formationit, 4. osa: raku- ja reataseme turvalisuse rakendamine.
Lake Formationi turvakontrollide kaudu saate veenduda, et igal inimesel on andmejärves olevatele andmetele õige juurdepääs. Mõelge järgmistele kahele SageMakeri domeeni kasutajaprofiilile, millest igaühel on erinev täitmise roll:
Kasutajaprofiil | Täitmise roll |
rstudiouser-fullaccess |
AmazonSageMaker-ExecutionRole-FullAccess |
rstudiouser-limitedaccess |
AmazonSageMaker-ExecutionRole-LimitedAccess |
Järgmine ekraanipilt näitab rstudiouser-limitedaccess
profiili üksikasjad.
Järgmine ekraanipilt näitab rstudiouser-fullaccess
profiili üksikasjad.
Selle postituse jaoks kasutatud andmestik on a COVID-19 avalik andmestik. Järgmisel ekraanipildil on näide andmetest:
Kui olete kasutajaprofiili loonud ja määranud selle sobivale rollile, pääsete juurde Lake Formationile, et andmeid kasutades roomata. AWS liim, looge metaandmed ja tabel ning andke juurdepääs tabeliandmetele. Jaoks AmazonSageMaker-ExecutionRole-FullAccess
rolli, annate juurdepääsu kõigile tabeli veergudele ja jaoks AmazonSageMaker-ExecutionRole-LimitedAccess
, annate juurdepääsu andmefiltri abil USA_Filter
. Kasutame seda filtrit rea- ja lahtritaseme veeruõiguste andmiseks (vt Ressurss veerus järgmisel ekraanipildil).
Nagu on näidatud järgmisel ekraanipildil, on teisele rollile juurdepääs piiratud. Selle rolliga seotud kasutajad pääsevad juurde ainult continent
, date
, total_cases
, total_deaths
, new_cases
, new_deaths
ja iso_codecolumns
.
Igale kasutajaprofiilile lisatud rolliõigused näeme, kuidas Lake Formation jõustab asjakohased rea- ja veerutaseme õigused. RStudio Workbenchi saate avada aadressilt Käivitage rakendus rippmenüüst loodud kasutajate loendis ja valige RStuudio.
Järgmisel ekraanipildil käivitame rakenduse kui rstudiouser-limitedaccess user
.
Näete RStudio Workbenchi kodulehte ning seansside, projektide ja avaldatud sisu loendit.
Valige SageMakeris seansi alustamiseks seansi nimi. Installige Paws (vt selle postituse varasemaid juhiseid), et pääseksite juurde asjakohastele AWS-i teenustele. Nüüd saate käivitada päringu, et tõmmata kõik andmestiku väljad selle kaudu Amazonase Athena, kasutades käsku “SELECT * FROM "databasename.tablename"
ja salvestage päringu väljund an Amazoni lihtne salvestusteenus (Amazon S3) kopp.
Järgmine ekraanipilt näitab S3 ämbris olevaid väljundfaile.
Järgmine ekraanipilt näitab nende väljundfailide andmeid kasutades Amazon S3 Select.
Ainult USA andmed ja veerud kontinent, kuupäev, total_cases
, total_deaths
, new_cases
, new_deaths
ja iso_code
on näidatud tulemustes rstudiouser-limitedaccess
kasutaja.
Kordame samu samme rstudiouser-fullaccess
kasutaja.
Näete RStudio Workbenchi kodulehte ning seansside, projektide ja avaldatud sisu loendit.
Käitame sama päringu “SELECT * FROM "databasename.tablename"
kasutades Athenat.
Järgmine ekraanipilt näitab S3 ämbris olevaid väljundfaile.
Järgmine ekraanipilt näitab nende väljundfailide andmeid kasutades Amazon S3 Select.
Nagu selles näites näidatud, rstudiouser-fullaccess
kasutajal on juurdepääs kõikidele andmestiku veergudele ja ridadele.
Ise hostitud Amazon EC2-s
Kui soovite alustada katsetamist RStudio avatud lähtekoodiga versiooniga AWS-is, saate installida Rstudio EC2 eksemplari. See selles postituses esitatud CloudFormationi mall näeb ette EC2 eksemplari ja installib RStudio kasutajaandmete skripti kasutades. Saate malli mitu korda käitada, et varustada vajaduse korral mitu RStudio eksemplari, ja saate seda kasutada mis tahes AWS-i piirkonnas. Pärast CloudFormationi malli juurutamist pakub see teile URL-i RStudiole veebibrauseris juurdepääsemiseks. Amazon EC2 võimaldab teil skaleerida üles või alla, et käsitleda andmete suuruse ja analüüsi käitamiseks vajaliku arvutusvõimsuse muutusi.
Turvaliseks juurdepääsuks looge võtme-väärtuse paar
AWS kasutab teie EC2 eksemplari sisselogimisteabe kaitsmiseks avaliku võtme krüptograafiat. Saate määrata võtmepaari nime KeyPair
CloudFormationi malli käivitamisel. Seejärel saate vajaduse korral kasutada sama võtit, et hiljem varustatud EC2 eksemplari sisse logida.
Enne CloudFormationi malli käivitamist veenduge, et teil on AWS-i kontol Amazon EC2 võtmepaar, mida kavatsete kasutada. Kui ei, siis vaadake Looge Amazon EC2 abil võtmepaar juhiste saamiseks selle loomiseks.
Käivitage CloudFormationi mallLogige sisse CloudFormationi konsooli us-east-1
Piirkond ja valige Launch Stack.
Peate CloudFormationi malli sisestama mitu parameetrit:
- InitialUser ja InitialPassword – kasutajanimi ja parool, mida kasutate RStudio seansi sisselogimiseks. Vaikeväärtused on
rstudio
jaRstudio@123
, Vastavalt. - InstanceType – EC2 eksemplari tüüp, millele RStudio server juurutada. Mall aktsepteerib praegu kõiki eksemplare t2, m4, c4, r4, g2, p2 ja g3 eksemplariperekondades ning võib hõlpsasti kaasata muid eksemplariperekondi. Vaikeväärtus on t2.micro.
- Võtmepaar – võtmepaar, mida kasutate EC2 eksemplari sisselogimiseks.
- VpcId ja SubnetId - Amazoni virtuaalne privaatpilv (Amazon VPC) ja alamvõrk, milles eksemplar käivitada.
Pärast nende parameetrite sisestamist juurutage CloudFormationi mall. Kui see on valmis, on saadaval järgmised ressursid:
- EC2 eksemplar, millele on installitud RStudio.
- IAM-i roll koos vajalike õigustega teiste AWS-teenustega ühenduse loomiseks.
- Turvagrupp reeglitega RStudio serveri pordi 8787 avamiseks.
Logige RStudiosse sisse
Nüüd olete RStudio kasutamiseks valmis! Mine lehele Väljundid vahekaarti CloudFormationi virna jaoks ja kopeerige RStudio URL-i väärtus (see on vormingus http://ec2-XX-XX-XXX-XX.compute-1.amazonaws.com:8787/
). Sisestage see URL veebibrauserisse. See avab teie RStudio seansi, kuhu saate sisse logida sama kasutajanime ja parooliga, mille andsite CloudFormationi malli käitamisel.
Juurdepääs AWS-i teenustele RStudio kaudu
Pärast RStudio seansile sisenemist peaksite installima AWS-i (Paws) R-paketi. See võimaldab teil luua ühenduse paljude AWS-teenustega, sealhulgas teie andmejärve teenuste ja ressurssidega. Pawsi installimiseks sisestage ja käivitage järgmine R-kood:
AWS-teenuse kasutamiseks looge klient ja pääsete selle kliendi kaudu teenuse toimingutele juurde. AWS-i API-dele juurde pääsedes peate esitama oma mandaadid ja piirkonna. Paws otsib mandaate ja piirkonda AWS-i autentimisahela abil:
- Selgelt antud juurdepääsuvõti, salavõti, seansi tunnus, profiil või piirkond
- R keskkonnamuutujad
- Operatsioonisüsteemi keskkonnamuutujad
- AWS jagas mandaate ja konfiguratsioonifaile
.aws/credentials
ja.aws/config
- Konteineri IAM-i roll
- Juhtumi IAM-i roll
Kuna kasutate EC2 eksemplari, millele on lisatud IAM-i roll, kasutab Paws automaatselt teie IAM-i rolli mandaate AWS API taotluste autentimiseks.
Tootmiskeskkonna jaoks soovitame kasutada skaleeritavat Rstudio lahendust, mis on kirjeldatud see blogi.
Järeldus
Õppisite, kuidas juurutada oma RStudio keskkonda AWS-is. Näitasime RStudio kasutamise eeliseid Amazon SageMakeris ja alustasime. Samuti õppisite, kuidas kiiresti alustada katsetamist RStudio avatud lähtekoodiga versiooniga, kasutades Amazon EC2 isehostitavat installi. Samuti näitasime, kuidas integreerida RStudio oma andmejärve arhitektuuridesse ja rakendada andmejärve tabelis peeneteralist juurdepääsukontrolli, kasutades Lake Formationi rea- ja rakutaseme turvafunktsiooni.
Järgmises postituses näitame, kuidas R-skripte konteinerisse paigutada ja neid kasutades käivitada AWS Lambda.
Autoritest
Venkata Kampana on AWS-i tervishoiu- ja inimteenuste meeskonna vanemlahenduste arhitekt ning asub Sacramentos, CA. Selles rollis aitab ta avaliku sektori klientidel AWS-i hästi läbimõeldud lahendustega saavutada oma missioonieesmärke.
Dr Dawn Heisey-Grove on Amazon Web Servicesi osariigi ja kohaliku omavalitsuse meeskonna rahvatervise analüütika juht. Selles rollis vastutab ta selle eest, et aidata riiklikel ja kohalikel rahvatervise asutustel loovalt mõelda, kuidas saavutada oma analüüsiprobleeme ja pikaajalisi eesmärke. Ta on veetnud oma karjääri, otsides uusi viise olemasolevate või uute andmete kasutamiseks rahvatervise järelevalve ja uurimistöö toetamiseks.
- AI
- ai kunst
- ai kunsti generaator
- on robot
- Amazon SageMaker
- tehisintellekti
- tehisintellekti sertifikaat
- tehisintellekt panganduses
- tehisintellekti robot
- tehisintellekti robotid
- tehisintellekti tarkvara
- AWS-i masinõpe
- blockchain
- plokiahela konverents ai
- coingenius
- vestluslik tehisintellekt
- krüptokonverents ai
- dall's
- sügav õpe
- google ai
- masinõpe
- Platon
- plato ai
- Platoni andmete intelligentsus
- Platoni mäng
- PlatoData
- platogaming
- skaala ai
- süntaks
- sephyrnet