R je priljubljen analitični programski jezik, ki ga uporabljajo podatkovni znanstveniki in analitiki za obdelavo podatkov, izvajanje statističnih analiz, ustvarjanje vizualizacij podatkov in gradnjo modelov strojnega učenja (ML). RStudio, integrirano razvojno okolje za R, ponuja odprtokodna orodja in profesionalno programsko opremo, pripravljeno za podjetja, za ekipe, da razvijajo in delijo svoje delo v celotni organizaciji. Gradnja, varovanje, prilagajanje in vzdrževanje RStudia sami pa je dolgočasno in okorno.
Implementacija okolja RStudio v AWS zagotavlja elastičnost in razširljivost, ki ju nimate pri uvajanju on-prem, s čimer odpravite potrebo po upravljanju te infrastrukture. Izberete lahko želeno računalništvo in pomnilnik na podlagi zahtev za obdelavo in lahko tudi povečate ali zmanjšate za delo z analitičnimi in ML delovnimi obremenitvami različnih velikosti brez vnaprejšnje naložbe. To vam omogoča hitro eksperimentiranje z novimi viri podatkov in kodo ter uvajanje novih analitičnih procesov in modelov ML v preostali organizaciji. Svoje vire Data Lake lahko tudi brezhibno integrirate, da jih daste na voljo razvijalcem in podatkovnim znanstvenikom ter zavarujete podatke z uporabo nadzora dostopa na ravni vrstic in stolpcev iz Oblikovanje jezera AWS.
Ta objava predstavlja dva načina za preprosto uvajanje in zagon RStudio na AWS za dostop do podatkov, shranjenih v podatkovnem jezeru:
- Popolnoma upravljan naprej Amazon SageMaker
- Samostojno gostovanje na Amazonski elastični računalniški oblak (Amazon EC2)
- Lahko se odločite za uvedbo odprtokodne različice RStudio z uporabo gostujočega pristopa EC2, ki ga bomo tudi opisali v tej objavi. Možnost samostojnega gostovanja zahteva, da skrbnik ustvari primerek EC2 in namesti RStudio ročno ali z Oblikovanje oblaka AWS Pri tej možnosti je tudi manj prilagodljivosti za implementacijo kontrol uporabniškega dostopa, saj imajo vsi uporabniki pri tej vrsti implementacije enako raven dostopa.
RStudio na Amazon SageMaker
RStudio Workbench lahko zaženete s preprostim klikom v SageMakerju. S SageMaker strankam ni treba nositi operativnih režijskih stroškov gradnje, namestitve, zavarovanja, prilagajanja in vzdrževanja RStudio, ni jim treba plačati za nenehno delujoč strežnik RStudio (če uporabljajo t3.medium) in plačajo samo za RSession compute, ko ga uporabljajo. Uporabniki RStudio bodo imeli prilagodljivost za dinamično prilagajanje računalništva s sprotnim preklapljanjem instanc. Zagon RStudio na SageMaker zahteva, da skrbnik vzpostavi domeno SageMaker in povezane uporabniške profile. Potrebujete tudi ustrezno licenco RStudio
Znotraj SageMaker lahko odobrite dostop na ravni skrbnika in uporabnika RStudio z različnimi dovoljenji. Samo uporabniški profili, ki jim je dodeljena ena od teh dveh vlog, lahko dostopajo do RStudio v SageMakerju. Za več informacij o skrbniških nalogah za nastavitev RStudio na SageMaker glejte Začnite uporabljati RStudio na Amazon SageMaker. Ta objava prikazuje tudi postopek izbire primerkov EC2 za vsako sejo in kako lahko skrbnik omeji možnosti primerkov EC2 za uporabnike RStudio.
Uporabite varnostni dostop na ravni vrstic in stolpcev Lake Formation
Poleg tega, da vaši ekipi omogočite zagon sej RStudio na SageMakerju, lahko zavarujete tudi podatkovno jezero z uporabo nadzora dostopa na ravni vrstic in stolpcev iz Lake Formation. Za več informacij glejte Učinkovita podatkovna jezera z uporabo AWS Lake Formation, 4. del: Implementacija varnosti na ravni celice in vrstice.
Z varnostnimi kontrolami Lake Formation lahko zagotovite, da ima vsaka oseba pravi dostop do podatkov v podatkovnem jezeru. Razmislite o naslednjih dveh uporabniških profilih v domeni SageMaker, od katerih ima vsak drugačno izvršilno vlogo:
uporabnik | Izvršilna vloga |
rstudiouser-fullaccess |
AmazonSageMaker-ExecutionRole-FullAccess |
rstudiouser-limitedaccess |
AmazonSageMaker-ExecutionRole-LimitedAccess |
Naslednji posnetek zaslona prikazuje rstudiouser-limitedaccess
podrobnosti profila.
Naslednji posnetek zaslona prikazuje rstudiouser-fullaccess
podrobnosti profila.
Nabor podatkov, uporabljen za to objavo, je a Javni nabor podatkov o COVID-19. Naslednji posnetek zaslona prikazuje primer podatkov:
Ko ustvarite uporabniški profil in ga dodelite ustrezni vlogi, lahko dostopate do Lake Formation za pajkanje podatkov z AWS lepilo, ustvarite metapodatke in tabelo ter odobrite dostop do podatkov tabele. Za AmazonSageMaker-ExecutionRole-FullAccess
vlogo dovolite dostop do vseh stolpcev v tabeli in za AmazonSageMaker-ExecutionRole-LimitedAccess
, omogočite dostop z uporabo podatkovnega filtra USA_Filter
. Ta filter uporabljamo za zagotavljanje dovoljenj za stolpce na ravni vrstice in celice (glejte Vir stolpec na naslednjem posnetku zaslona).
Kot je prikazano na naslednjem posnetku zaslona, ima druga vloga omejen dostop. Uporabniki, povezani s to vlogo, lahko dostopajo le do continent
, date
, total_cases
, total_deaths
, new_cases
, new_deaths
in iso_codecolumns
.
Z dovoljenji vlog, priloženimi vsakemu uporabniškemu profilu, lahko vidimo, kako Lake Formation uveljavlja ustrezna dovoljenja na ravni vrstic in stolpcev. RStudio Workbench lahko odprete iz Zaženite aplikacijo spustnem meniju na ustvarjenem seznamu uporabnikov in izberite RStudio.
Na naslednjem posnetku zaslona zaženemo aplikacijo kot rstudiouser-limitedaccess user
.
Ogledate si lahko domačo stran RStudio Workbench in seznam sej, projektov in objavljene vsebine.
Izberite ime seje, da začnete sejo v SageMakerju. Namestite Paws (glejte navodila prej v tej objavi), da boste lahko dostopali do ustreznih storitev AWS. Zdaj lahko zaženete poizvedbo, s katero povlečete vsa polja iz nabora podatkov Amazonska Atena, z uporabo ukaza “SELECT * FROM "databasename.tablename"
in shranite izhod poizvedbe v Preprosta storitev shranjevanja Amazon (Amazon S3) vedro.
Naslednji posnetek zaslona prikazuje izhodne datoteke v vedru S3.
Naslednji posnetek zaslona prikazuje podatke v teh izhodnih datotekah z uporabo Amazon S3 Select.
Samo podatki ZDA in stolpci celina, datum, total_cases
, total_deaths
, new_cases
, new_deaths
in iso_code
so prikazani v rezultatu za rstudiouser-limitedaccess
uporabnik.
Ponovimo iste korake za rstudiouser-fullaccess
uporabnik.
Ogledate si lahko domačo stran RStudio Workbench in seznam sej, projektov in objavljene vsebine.
Zaženimo isto poizvedbo “SELECT * FROM "databasename.tablename"
z uporabo Athene.
Naslednji posnetek zaslona prikazuje izhodne datoteke v vedru S3.
Naslednji posnetek zaslona prikazuje podatke v teh izhodnih datotekah z uporabo Amazon S3 Select.
Kot je prikazano v tem primeru, rstudiouser-fullaccess
uporabnik ima dostop do vseh stolpcev in vrstic v naboru podatkov.
Samostojno gostovanje na Amazon EC2
Če želite začeti eksperimentirati z odprtokodno različico RStudio na AWS, lahko Rstudio namestite na instanco EC2. Ta predloga CloudFormation, ki je na voljo v tej objavi, zagotavlja primerek EC2 in namesti RStudio s pomočjo skripta uporabniških podatkov. Predlogo lahko zaženete večkrat, da zagotovite več primerkov RStudio, kot je potrebno, in jo lahko uporabite v kateri koli regiji AWS. Ko uvedete predlogo CloudFormation, vam zagotovi URL za dostop do RStudio iz spletnega brskalnika. Amazon EC2 vam omogoča povečanje ali zmanjšanje obsega za obvladovanje sprememb velikosti podatkov in potrebne računalniške zmogljivosti za izvajanje vaše analitike.
Ustvarite par ključ-vrednost za varen dostop
AWS uporablja kriptografijo z javnim ključem za zaščito podatkov za prijavo za vaš primerek EC2. Določite ime para ključev v KeyPair
ko zaženete predlogo CloudFormation. Nato se lahko z istim ključem pozneje prijavite v predvideni primerek EC2, če je to potrebno.
Preden zaženete predlogo CloudFormation, se prepričajte, da imate v računu AWS, ki ga nameravate uporabiti, par ključev Amazon EC2. Če ne, se obrnite na Ustvarite par ključev z uporabo Amazon EC2 za navodila za ustvarjanje.
Zaženite predlogo CloudFormation. Prijavite se v konzolo CloudFormation v us-east-1
Regija in izberite Launch Stack.
V predlogo CloudFormation morate vnesti več parametrov:
- InitialUser in InitialPassword – Uporabniško ime in geslo, ki ju uporabljate za prijavo v sejo RStudio. Privzete vrednosti so
rstudio
inRstudio@123
Oz. - InstanceType – Tip primerka EC2, na katerem želite razmestiti strežnik RStudio. Predloga trenutno sprejema vse primerke v družinah primerkov t2, m4, c4, r4, g2, p2 in g3 in lahko preprosto vključi druge družine primerkov. Privzeta vrednost je t2.micro.
- KeyPair – Par ključev, ki ga uporabljate za prijavo v instanco EC2.
- VpcId in SubnetId - Amazon Virtual Private Cloud (Amazon VPC) in podomrežje, v katerem želite zagnati primerek.
Ko vnesete te parametre, razmestite predlogo CloudFormation. Ko je končan, so na voljo naslednji viri:
- Primerek EC2 z nameščenim programom RStudio.
- Vloga IAM s potrebnimi dovoljenji za povezovanje z drugimi storitvami AWS.
- Varnostna skupina s pravili za odpiranje vrat 8787 za strežnik RStudio.
Prijavite se v RStudio
Zdaj ste pripravljeni na uporabo RStudia! Pojdi na Izhodi zavihek za sklad CloudFormation in kopirajte vrednost URL-ja RStudio (je v formatu http://ec2-XX-XX-XXX-XX.compute-1.amazonaws.com:8787/
). Vnesite ta URL v spletni brskalnik. S tem se odpre vaša seja RStudio, v katero se lahko prijavite z istim uporabniškim imenom in geslom, ki ste ju vnesli med izvajanjem predloge CloudFormation.
Dostop do storitev AWS iz RStudio
Ko dostopate do seje RStudio, morate namestiti paket R za AWS (Paws). To vam omogoča povezavo s številnimi storitvami AWS, vključno s storitvami in viri v vašem podatkovnem jezeru. Če želite namestiti Paws, vnesite in zaženite to kodo R:
Če želite uporabljati storitev AWS, ustvarite odjemalca in dostopajte do operacij storitve iz tega odjemalca. Ko dostopate do API-jev AWS, morate navesti svoje poverilnice in regijo. Paws išče poverilnice in regijo z uporabo verige za preverjanje pristnosti AWS:
- Eksplicitno naveden ključ za dostop, skrivni ključ, žeton seje, profil ali regija
- spremenljivke okolja R
- Spremenljivke okolja operacijskega sistema
- AWS je delil poverilnice in konfiguracijske datoteke
.aws/credentials
in.aws/config
- Vloga IAM vsebnika
- Vloga primerka IAM
Ker izvajate primerek EC2 s priloženo vlogo IAM, Paws samodejno uporabi poverilnice vaše vloge IAM za preverjanje pristnosti zahtev API-ja AWS.
Za produkcijsko okolje priporočamo uporabo razširljive rešitve Rstudio, opisane v ta blog.
zaključek
Naučili ste se, kako uvesti svoje okolje RStudio v AWS. Prikazali smo prednosti uporabe RStudio na Amazon SageMaker in kako lahko začnete. Naučili ste se tudi, kako hitro začeti eksperimentirati z odprtokodno različico RStudio z uporabo samostojne namestitve z uporabo Amazon EC2. Pokazali smo tudi, kako integrirati RStudio v vaše arhitekture podatkovnega jezera in implementirati natančen nadzor dostopa do tabele podatkovnega jezera z uporabo varnostne funkcije Lake Formation na ravni vrstic in celic.
V naši naslednji objavi bomo pokazali, kako pospraviti skripte R v vsebnike in jih izvajati z uporabo AWS Lambda.
O avtorjih
Venkata Kampana je višji arhitekt rešitev v ekipi AWS Health and Human Services in ima sedež v Sacramentu, CA. V tej vlogi strankam iz javnega sektorja pomaga doseči cilje svojega poslanstva z dobro zasnovanimi rešitvami na AWS.
Dr. Dawn Heisey-Grove je vodja analitike javnega zdravja za državno in lokalno vladno skupino Amazon Web Services. V tej vlogi je odgovorna za pomoč državnim in lokalnim agencijam za javno zdravje pri ustvarjalnem razmišljanju o tem, kako doseči svoje analitične izzive in dolgoročne cilje. Svojo kariero je posvetila iskanju novih načinov za uporabo obstoječih ali novih podatkov za podporo nadzora in raziskav javnega zdravja.
- AI
- ai art
- ai art generator
- imajo robota
- Amazon SageMaker
- Umetna inteligenca
- certificiranje umetne inteligence
- umetna inteligenca v bančništvu
- robot z umetno inteligenco
- roboti z umetno inteligenco
- programska oprema za umetno inteligenco
- Strojno učenje AWS
- blockchain
- blockchain konferenca ai
- coingenius
- pogovorna umetna inteligenca
- kripto konferenca ai
- dall's
- globoko učenje
- strojno učenje
- platon
- platon ai
- Platonova podatkovna inteligenca
- Igra Platon
- PlatoData
- platogaming
- lestvica ai
- sintaksa
- zefirnet