Implementirajte RStudio v svojem okolju AWS in dostopajte do svojega podatkovnega jezera z uporabo dovoljenj AWS Lake Formation PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Implementirajte RStudio v svojem okolju AWS in dostopajte do podatkovnega jezera z dovoljenji AWS Lake Formation

R je priljubljen analitični programski jezik, ki ga uporabljajo podatkovni znanstveniki in analitiki za obdelavo podatkov, izvajanje statističnih analiz, ustvarjanje vizualizacij podatkov in gradnjo modelov strojnega učenja (ML). RStudio, integrirano razvojno okolje za R, ponuja odprtokodna orodja in profesionalno programsko opremo, pripravljeno za podjetja, za ekipe, da razvijajo in delijo svoje delo v celotni organizaciji. Gradnja, varovanje, prilagajanje in vzdrževanje RStudia sami pa je dolgočasno in okorno.

Implementacija okolja RStudio v AWS zagotavlja elastičnost in razširljivost, ki ju nimate pri uvajanju on-prem, s čimer odpravite potrebo po upravljanju te infrastrukture. Izberete lahko želeno računalništvo in pomnilnik na podlagi zahtev za obdelavo in lahko tudi povečate ali zmanjšate za delo z analitičnimi in ML delovnimi obremenitvami različnih velikosti brez vnaprejšnje naložbe. To vam omogoča hitro eksperimentiranje z novimi viri podatkov in kodo ter uvajanje novih analitičnih procesov in modelov ML v preostali organizaciji. Svoje vire Data Lake lahko tudi brezhibno integrirate, da jih daste na voljo razvijalcem in podatkovnim znanstvenikom ter zavarujete podatke z uporabo nadzora dostopa na ravni vrstic in stolpcev iz Oblikovanje jezera AWS.

Ta objava predstavlja dva načina za preprosto uvajanje in zagon RStudio na AWS za dostop do podatkov, shranjenih v podatkovnem jezeru:

  • Popolnoma upravljan naprej Amazon SageMaker
  • Samostojno gostovanje na Amazonski elastični računalniški oblak (Amazon EC2)
    • Lahko se odločite za uvedbo odprtokodne različice RStudio z uporabo gostujočega pristopa EC2, ki ga bomo tudi opisali v tej objavi. Možnost samostojnega gostovanja zahteva, da skrbnik ustvari primerek EC2 in namesti RStudio ročno ali z Oblikovanje oblaka AWS Pri tej možnosti je tudi manj prilagodljivosti za implementacijo kontrol uporabniškega dostopa, saj imajo vsi uporabniki pri tej vrsti implementacije enako raven dostopa.

RStudio na Amazon SageMaker

RStudio Workbench lahko zaženete s preprostim klikom v SageMakerju. S SageMaker strankam ni treba nositi operativnih režijskih stroškov gradnje, namestitve, zavarovanja, prilagajanja in vzdrževanja RStudio, ni jim treba plačati za nenehno delujoč strežnik RStudio (če uporabljajo t3.medium) in plačajo samo za RSession compute, ko ga uporabljajo. Uporabniki RStudio bodo imeli prilagodljivost za dinamično prilagajanje računalništva s sprotnim preklapljanjem instanc. Zagon RStudio na SageMaker zahteva, da skrbnik vzpostavi domeno SageMaker in povezane uporabniške profile. Potrebujete tudi ustrezno licenco RStudio

Znotraj SageMaker lahko odobrite dostop na ravni skrbnika in uporabnika RStudio z različnimi dovoljenji. Samo uporabniški profili, ki jim je dodeljena ena od teh dveh vlog, lahko dostopajo do RStudio v SageMakerju. Za več informacij o skrbniških nalogah za nastavitev RStudio na SageMaker glejte Začnite uporabljati RStudio na Amazon SageMaker. Ta objava prikazuje tudi postopek izbire primerkov EC2 za vsako sejo in kako lahko skrbnik omeji možnosti primerkov EC2 za uporabnike RStudio.

Slika 1: Diagram arhitekture, ki prikazuje interakcijo različnih storitev AWS

Uporabite varnostni dostop na ravni vrstic in stolpcev Lake Formation

Poleg tega, da vaši ekipi omogočite zagon sej RStudio na SageMakerju, lahko zavarujete tudi podatkovno jezero z uporabo nadzora dostopa na ravni vrstic in stolpcev iz Lake Formation. Za več informacij glejte Učinkovita podatkovna jezera z uporabo AWS Lake Formation, 4. del: Implementacija varnosti na ravni celice in vrstice.

Z varnostnimi kontrolami Lake Formation lahko zagotovite, da ima vsaka oseba pravi dostop do podatkov v podatkovnem jezeru. Razmislite o naslednjih dveh uporabniških profilih v domeni SageMaker, od katerih ima vsak drugačno izvršilno vlogo:

uporabnik Izvršilna vloga
rstudiouser-fullaccess AmazonSageMaker-ExecutionRole-FullAccess
rstudiouser-limitedaccess AmazonSageMaker-ExecutionRole-LimitedAccess

Naslednji posnetek zaslona prikazuje rstudiouser-limitedaccess podrobnosti profila.

Slika 2: Podrobnosti profila vloge rstudiouser-limitedaccess

Slika 2: Podrobnosti profila vloge rstudiouser-limitedaccess

Naslednji posnetek zaslona prikazuje rstudiouser-fullaccess podrobnosti profila.

Slika 3: Podrobnosti profila vloge rstudiouser-fullaccess

Slika 3: Podrobnosti profila vloge rstudiouser-fullaccess

Nabor podatkov, uporabljen za to objavo, je a Javni nabor podatkov o COVID-19. Naslednji posnetek zaslona prikazuje primer podatkov:

Slika 4: Javni nabor podatkov COVID-19

Slika 4: Javni nabor podatkov COVID-19

Ko ustvarite uporabniški profil in ga dodelite ustrezni vlogi, lahko dostopate do Lake Formation za pajkanje podatkov z AWS lepilo, ustvarite metapodatke in tabelo ter odobrite dostop do podatkov tabele. Za AmazonSageMaker-ExecutionRole-FullAccess vlogo dovolite dostop do vseh stolpcev v tabeli in za AmazonSageMaker-ExecutionRole-LimitedAccess, omogočite dostop z uporabo podatkovnega filtra USA_Filter. Ta filter uporabljamo za zagotavljanje dovoljenj za stolpce na ravni vrstice in celice (glejte Vir stolpec na naslednjem posnetku zaslona).

Slika 5: Dovoljenja AWS Lake Formation za vloge AmazonSageMaker-ExecutionRole -Full/Limited Access

Slika 5: Dovoljenja AWS Lake Formation za vloge AmazonSageMaker-ExecutionRole -Full/Limited Access

Kot je prikazano na naslednjem posnetku zaslona, ​​ima druga vloga omejen dostop. Uporabniki, povezani s to vlogo, lahko dostopajo le do continent, date, total_cases, total_deaths, new_cases, new_deathsin iso_codecolumns.

Slika 6: Dovoljenja na ravni stolpca AWS Lake Formation za vlogo AmazonSageMaker-ExecutionRole-Limited Access

Slika 6: Dovoljenja na ravni stolpca AWS Lake Formation za vlogo AmazonSageMaker-ExecutionRole-Limited Access

Z dovoljenji vlog, priloženimi vsakemu uporabniškemu profilu, lahko vidimo, kako Lake Formation uveljavlja ustrezna dovoljenja na ravni vrstic in stolpcev. RStudio Workbench lahko odprete iz Zaženite aplikacijo spustnem meniju na ustvarjenem seznamu uporabnikov in izberite RStudio.

Na naslednjem posnetku zaslona zaženemo aplikacijo kot rstudiouser-limitedaccess user.

Slika 7: Zagon seje RStudio za uporabnika z omejenim dostopom rstudiouser iz konzole Amazon SageMaker

Slika 7: Zagon seje RStudio za uporabnika z omejenim dostopom rstudiouser iz konzole Amazon SageMaker

Ogledate si lahko domačo stran RStudio Workbench in seznam sej, projektov in objavljene vsebine.

Slika 8: Seja R Studio Workbench za uporabnika z omejenim dostopom rstudiouser

Slika 8: Seja R Studio Workbench za uporabnika z omejenim dostopom rstudiouser

Izberite ime seje, da začnete sejo v SageMakerju. Namestite Paws (glejte navodila prej v tej objavi), da boste lahko dostopali do ustreznih storitev AWS. Zdaj lahko zaženete poizvedbo, s katero povlečete vsa polja iz nabora podatkov Amazonska Atena, z uporabo ukaza “SELECT * FROM "databasename.tablename"in shranite izhod poizvedbe v Preprosta storitev shranjevanja Amazon (Amazon S3) vedro.

Slika 9: Izvedba poizvedbe Athena v seji R Studio

Slika 9: Izvedba poizvedbe Athena v seji R Studio

Naslednji posnetek zaslona prikazuje izhodne datoteke v vedru S3.

Slika 10: Rezultati izvajanja poizvedbe Athena v vedru Amazon S3

Slika 10: Rezultati izvajanja poizvedbe Athena v vedru Amazon S3

Naslednji posnetek zaslona prikazuje podatke v teh izhodnih datotekah z uporabo Amazon S3 Select.

Slika 11: Pregled izhodnih podatkov z uporabo Amazon S3 Select

Slika 11: Pregled izhodnih podatkov z uporabo Amazon S3 Select

Samo podatki ZDA in stolpci celina, datum, total_cases, total_deaths, new_cases, new_deathsin iso_code so prikazani v rezultatu za rstudiouser-limitedaccess uporabnik.

Ponovimo iste korake za rstudiouser-fullaccess uporabnik.

Slika 12: Zagon seje RStudio za uporabnika rstudiouser-fullaccess iz konzole Amazon SageMaker

Slika 12: Zagon seje RStudio za uporabnika rstudiouser-fullaccess iz konzole Amazon SageMaker

Ogledate si lahko domačo stran RStudio Workbench in seznam sej, projektov in objavljene vsebine.

Slika 13: Seja R Studio Workbench za uporabnika rstudiouser-fullaccess

Slika 13: Seja R Studio Workbench za uporabnika rstudiouser-fullaccess

Zaženimo isto poizvedbo “SELECT * FROM "databasename.tablename" z uporabo Athene.

Slika 14: Izvedba poizvedbe Athena v seji R Studio

Slika 14: Izvedba poizvedbe Athena v seji R Studio

Naslednji posnetek zaslona prikazuje izhodne datoteke v vedru S3.

Slika 15: Rezultati izvajanja poizvedbe Athena v vedru Amazon S3

Slika 15: Rezultati izvajanja poizvedbe Athena v vedru Amazon S3

Naslednji posnetek zaslona prikazuje podatke v teh izhodnih datotekah z uporabo Amazon S3 Select.

Slika 16: Pregled izhodnih podatkov z uporabo Amazon S3 Select

Slika 16: Pregled izhodnih podatkov z uporabo Amazon S3 Select

Kot je prikazano v tem primeru, rstudiouser-fullaccess uporabnik ima dostop do vseh stolpcev in vrstic v naboru podatkov.

Samostojno gostovanje na Amazon EC2

Če želite začeti eksperimentirati z odprtokodno različico RStudio na AWS, lahko Rstudio namestite na instanco EC2. Ta predloga CloudFormation, ki je na voljo v tej objavi, zagotavlja primerek EC2 in namesti RStudio s pomočjo skripta uporabniških podatkov. Predlogo lahko zaženete večkrat, da zagotovite več primerkov RStudio, kot je potrebno, in jo lahko uporabite v kateri koli regiji AWS. Ko uvedete predlogo CloudFormation, vam zagotovi URL za dostop do RStudio iz spletnega brskalnika. Amazon EC2 vam omogoča povečanje ali zmanjšanje obsega za obvladovanje sprememb velikosti podatkov in potrebne računalniške zmogljivosti za izvajanje vaše analitike.

Ustvarite par ključ-vrednost za varen dostop

AWS uporablja kriptografijo z javnim ključem za zaščito podatkov za prijavo za vaš primerek EC2. Določite ime para ključev v KeyPair ko zaženete predlogo CloudFormation. Nato se lahko z istim ključem pozneje prijavite v predvideni primerek EC2, če je to potrebno.

Preden zaženete predlogo CloudFormation, se prepričajte, da imate v računu AWS, ki ga nameravate uporabiti, par ključev Amazon EC2. Če ne, se obrnite na Ustvarite par ključev z uporabo Amazon EC2 za navodila za ustvarjanje.

Zaženite predlogo CloudFormation. Prijavite se v konzolo CloudFormation v us-east-1 Regija in izberite Launch Stack.

Gumb za zagon sklada

V predlogo CloudFormation morate vnesti več parametrov:

  • InitialUser in InitialPassword – Uporabniško ime in geslo, ki ju uporabljate za prijavo v sejo RStudio. Privzete vrednosti so rstudio in Rstudio@123Oz.
  • InstanceType – Tip primerka EC2, na katerem želite razmestiti strežnik RStudio. Predloga trenutno sprejema vse primerke v družinah primerkov t2, m4, c4, r4, g2, p2 in g3 in lahko preprosto vključi druge družine primerkov. Privzeta vrednost je t2.micro.
  • KeyPair – Par ključev, ki ga uporabljate za prijavo v instanco EC2.
  • VpcId in SubnetId - Amazon Virtual Private Cloud (Amazon VPC) in podomrežje, v katerem želite zagnati primerek.

Ko vnesete te parametre, razmestite predlogo CloudFormation. Ko je končan, so na voljo naslednji viri:

  • Primerek EC2 z nameščenim programom RStudio.
  • Vloga IAM s potrebnimi dovoljenji za povezovanje z drugimi storitvami AWS.
  • Varnostna skupina s pravili za odpiranje vrat 8787 za strežnik RStudio.

Prijavite se v RStudio

Zdaj ste pripravljeni na uporabo RStudia! Pojdi na Izhodi zavihek za sklad CloudFormation in kopirajte vrednost URL-ja RStudio (je v formatu http://ec2-XX-XX-XXX-XX.compute-1.amazonaws.com:8787/). Vnesite ta URL v spletni brskalnik. S tem se odpre vaša seja RStudio, v katero se lahko prijavite z istim uporabniškim imenom in geslom, ki ste ju vnesli med izvajanjem predloge CloudFormation.

Dostop do storitev AWS iz RStudio

Ko dostopate do seje RStudio, morate namestiti paket R za AWS (Paws). To vam omogoča povezavo s številnimi storitvami AWS, vključno s storitvami in viri v vašem podatkovnem jezeru. Če želite namestiti Paws, vnesite in zaženite to kodo R:

install.packages("paws")

Če želite uporabljati storitev AWS, ustvarite odjemalca in dostopajte do operacij storitve iz tega odjemalca. Ko dostopate do API-jev AWS, morate navesti svoje poverilnice in regijo. Paws išče poverilnice in regijo z uporabo verige za preverjanje pristnosti AWS:

  • Eksplicitno naveden ključ za dostop, skrivni ključ, žeton seje, profil ali regija
  • spremenljivke okolja R
  • Spremenljivke okolja operacijskega sistema
  • AWS je delil poverilnice in konfiguracijske datoteke .aws/credentials in .aws/config
  • Vloga IAM vsebnika
  • Vloga primerka IAM

Ker izvajate primerek EC2 s priloženo vlogo IAM, Paws samodejno uporabi poverilnice vaše vloge IAM za preverjanje pristnosti zahtev API-ja AWS.

# To interact with an Amazon S3 service, first create an S3 client then list the objects within your bucket by invoking: rstudio-XXXXXXXXXX
s3 <- paws::s3(config = list(region = 'us-east-1'))s3$list_objects(Bucket = "rstudio-XXXXXXXXXX")
# Let’s see how we can interactively query data from your data lake using Amazon Athena.
athena <- paws::athena(config = list(region = 'us-east-1'))
athena$start_query_execution(QueryString = "SELECT * FROM "databasename.tablename" limit 10;",QueryExecutionContext = list(Database = "databasename", Catalog = "catalogname"),ResultConfiguration = list(OutputLocation = "S3 Bucket",EncryptionConfiguration = list(EncryptionOption = "SSE_S3")), WorkGroup = "workgroup name")
$QueryExecutionId[1] 
"17ccec8a-d196-4b4c-b31c-314fab8939f3"

Za produkcijsko okolje priporočamo uporabo razširljive rešitve Rstudio, opisane v ta blog.

zaključek

Naučili ste se, kako uvesti svoje okolje RStudio v AWS. Prikazali smo prednosti uporabe RStudio na Amazon SageMaker in kako lahko začnete. Naučili ste se tudi, kako hitro začeti eksperimentirati z odprtokodno različico RStudio z uporabo samostojne namestitve z uporabo Amazon EC2. Pokazali smo tudi, kako integrirati RStudio v vaše arhitekture podatkovnega jezera in implementirati natančen nadzor dostopa do tabele podatkovnega jezera z uporabo varnostne funkcije Lake Formation na ravni vrstic in celic.

V naši naslednji objavi bomo pokazali, kako pospraviti skripte R v vsebnike in jih izvajati z uporabo AWS Lambda.


O avtorjih

Implementirajte RStudio v svojem okolju AWS in dostopajte do svojega podatkovnega jezera z uporabo dovoljenj AWS Lake Formation PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.Venkata Kampana je višji arhitekt rešitev v ekipi AWS Health and Human Services in ima sedež v Sacramentu, CA. V tej vlogi strankam iz javnega sektorja pomaga doseči cilje svojega poslanstva z dobro zasnovanimi rešitvami na AWS.

Implementirajte RStudio v svojem okolju AWS in dostopajte do svojega podatkovnega jezera z uporabo dovoljenj AWS Lake Formation PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.Dr. Dawn Heisey-Grove je vodja analitike javnega zdravja za državno in lokalno vladno skupino Amazon Web Services. V tej vlogi je odgovorna za pomoč državnim in lokalnim agencijam za javno zdravje pri ustvarjalnem razmišljanju o tem, kako doseči svoje analitične izzive in dolgoročne cilje. Svojo kariero je posvetila iskanju novih načinov za uporabo obstoječih ali novih podatkov za podporo nadzora in raziskav javnega zdravja.

Časovni žig:

Več od Strojno učenje AWS