Valósítsa meg az RStudio-t AWS-környezetében, és érje el adattóját az AWS Lake Formation PlatoBlockchain Data Intelligence engedélyeivel. Függőleges keresés. Ai.

Valósítsa meg az RStudio-t AWS-környezetében, és az AWS Lake Formation engedélyeivel érje el a Data Lake-et

Az R egy népszerű analitikus programozási nyelv, amelyet adattudósok és elemzők használnak adatfeldolgozáshoz, statisztikai elemzésekhez, adatvizualizációk létrehozásához és gépi tanulási (ML) modellek felépítéséhez. Az RStudio, az R integrált fejlesztőkörnyezete nyílt forráskódú eszközöket és nagyvállalati használatra kész professzionális szoftvereket biztosít a csapatok számára, hogy fejleszthessék és megosszák munkájukat szervezetükben. Az RStudio felépítése, biztosítása, méretezése és karbantartása azonban fárasztó és nehézkes.

Az RStudio-környezet AWS-ben való megvalósítása rugalmasságot és méretezhetőséget biztosít, amellyel az on-prem üzembe helyezéskor nem rendelkezik, így nincs szükség az infrastruktúra kezelésére. Kiválaszthatja a kívánt számítást és memóriát a feldolgozási követelmények alapján, valamint felfelé vagy lefelé is méretezhet, hogy különböző méretű analitikai és ML munkaterhelésekkel dolgozzon előzetes befektetés nélkül. Ez lehetővé teszi, hogy gyorsan kísérletezzen új adatforrásokkal és kóddal, valamint új elemzési folyamatokat és ML modelleket terjesszen ki a szervezet többi tagja számára. Ezenkívül zökkenőmentesen integrálhatja Data Lake-erőforrásait, hogy elérhetővé tegyék azokat a fejlesztők és adatkutatók számára, és biztonságossá tegyék az adatokat a sor- és oszlopszintű hozzáférés-vezérlők használatával. AWS-tó formáció.

Ez a bejegyzés két módot mutat be az RStudio egyszerű üzembe helyezésére és futtatására AWS-en a Data Lake-ben tárolt adatok eléréséhez:

  • Teljesen sikerült Amazon SageMaker
  • Saját házigazda be Amazon rugalmas számítási felhő (Amazon EC2)
    • Dönthet úgy, hogy az RStudio nyílt forráskódú verzióját az EC2 által üzemeltetett megközelítéssel telepíti, amelyet ebben a bejegyzésben is ismertetünk. A saját üzemeltetésű beállítás megköveteli, hogy a rendszergazda EC2-példányt hozzon létre, és az RStudio-t manuálisan vagy egy AWS felhőképződés Ennél a lehetőségnél kisebb a rugalmasság a felhasználói hozzáférési vezérlők megvalósításában is, mivel minden felhasználónak azonos hozzáférési szintje van az ilyen típusú megvalósításban.

RStudio az Amazon SageMakeren

Az RStudio Workbench egyszerű kattintással elindítható a SageMaker alkalmazásból. A SageMakerrel az ügyfeleknek nem kell viselniük az RStudio felépítésének, telepítésének, biztosításának, méretezésének és karbantartásának üzemeltetési költségeit, nem kell fizetniük a folyamatosan futó RStudio szerverért (ha t3.mediumot használnak), és csak fizetnek. az RSession számításhoz, amikor használják. Az RStudio felhasználók rugalmasan méretezhetik a számításokat a példányok menet közbeni váltásával. Az RStudio SageMakeren való futtatásához egy adminisztrátornak kell létrehoznia egy SageMaker-tartományt és a kapcsolódó felhasználói profilokat. Szüksége van egy megfelelő RStudio licencre is

A SageMakeren belül az RStudio adminisztrátori és az RStudio felhasználói szintjén különböző jogosultságokkal adhat hozzáférést. Csak azok a felhasználói profilok érhetik el a SageMaker RStudióját, akiknek e két szerepkör valamelyike ​​van. Az RStudio SageMaker rendszerben történő beállításával kapcsolatos adminisztrátori feladatokkal kapcsolatos további információkért lásd: Kezdje el az RStudio használatát az Amazon SageMakeren. Ez a bejegyzés bemutatja az EC2-példányok kiválasztásának folyamatát is az egyes munkamenetekhez, valamint azt, hogy a rendszergazda hogyan korlátozhatja az EC2-példányok beállításait az RStudio-felhasználók számára.

1. ábra: A különböző AWS-szolgáltatások interakcióját bemutató architektúra diagram

Használja a Lake Formation sor- és oszlopszintű biztonsági hozzáférését

Amellett, hogy lehetővé teszi csapata számára, hogy RStudio-munkameneteket indítson el a SageMakeren, a Lake Formation sor- és oszlopszintű hozzáférés-vezérlőivel is biztonságossá teheti az adattót. További információkért lásd: Hatékony adatlakok az AWS Lake Formation használatával, 4. rész: Cellaszintű és sorszintű biztonság megvalósítása.

A Lake Formation biztonsági ellenőrzései révén megbizonyosodhat arról, hogy minden személy megfelelő hozzáféréssel rendelkezik az adattóban lévő adatokhoz. Tekintsük a következő két felhasználói profilt a SageMaker tartományban, mindegyik más-más végrehajtási szereppel:

Felhasználói profil Végrehajtási szerep
rstudiouser-fullaccess AmazonSageMaker-ExecutionRole-FullAccess
rstudiouser-limitedaccess AmazonSageMaker-ExecutionRole-LimitedAccess

A következő képernyőképen látható a rstudiouser-limitedaccess profil adatai.

2. ábra: Az rstudiouser-limitedaccess szerepkör profilrészletei

2. ábra: Az rstudiouser-limitedaccess szerepkör profilrészletei

A következő képernyőképen látható a rstudiouser-fullaccess profil adatai.

3. ábra: Az rstudiouser-fullaccess szerep profil részletei

3. ábra: Az rstudiouser-fullaccess szerep profil részletei

A bejegyzéshez használt adatkészlet a COVID-19 nyilvános adatkészlet. A következő képernyőkép példát mutat az adatokra:

4. ábra: COVID-19 nyilvános adatkészlet

4. ábra: COVID-19 nyilvános adatkészlet

Miután létrehozta a felhasználói profilt, és hozzárendelte a megfelelő szerepkörhöz, elérheti a Lake Formationt az adatok feltérképezéséhez AWS ragasztó, hozza létre a metaadatokat és a táblát, és biztosítson hozzáférést a táblázat adataihoz. A AmazonSageMaker-ExecutionRole-FullAccess szerepkörrel, hozzáférést biztosít a táblázat összes oszlopához, és a számára AmazonSageMaker-ExecutionRole-LimitedAccess, hozzáférést biztosít az adatszűrő használatával USA_Filter. Ezzel a szűrővel sor- és cellaszintű oszlop-engedélyeket biztosítunk (lásd a Forrás oszlop a következő képernyőképen).

5. ábra: AWS Lake formációs engedélyek az AmazonSageMaker-ExecutionRole - Teljes/korlátozott hozzáférésű szerepkörökhöz

5. ábra: AWS Lake formációs engedélyek az AmazonSageMaker-ExecutionRole - Teljes/korlátozott hozzáférésű szerepkörökhöz

Amint az a következő képernyőképen látható, a második szerepkör korlátozott hozzáféréssel rendelkezik. Az ehhez a szerepkörhöz tartozó felhasználók csak a continent, date, total_cases, total_deaths, new_cases, new_deathsés iso_codecolumns.

6. ábra: AWS Lake Formation oszlopszintű engedélyei az AmazonSageMaker-ExecutionRole-Limited Access szerepkörhöz

6. ábra: AWS Lake Formation oszlopszintű engedélyei az AmazonSageMaker-ExecutionRole-Limited Access szerepkörhöz

Az egyes felhasználói profilokhoz csatolt szerepjogosultságokkal láthatjuk, hogy a Lake Formation hogyan kényszeríti ki a megfelelő sor- és oszlopszintű engedélyeket. Az RStudio Workbench megnyitható a Indítsa el az alkalmazást legördülő menüből a létrehozott felhasználói listában, és válassza ki RStudio.

A következő képernyőképen elindítjuk az alkalmazást a rstudiouser-limitedaccess user.

7. ábra: RStudio munkamenet indítása rstudiouser-limitedaccess felhasználók számára az Amazon SageMaker Console-ról

7. ábra: RStudio munkamenet indítása rstudiouser-limitedaccess felhasználók számára az Amazon SageMaker Console-ról

Megtekintheti az RStudio Workbench kezdőlapját, valamint a munkamenetek, projektek és közzétett tartalmak listáját.

8. ábra: R Studio Workbench munkamenet rstudiouser-limitedaccess felhasználó számára

8. ábra: R Studio Workbench munkamenet rstudiouser-limitedaccess felhasználó számára

Válassza ki a munkamenet nevét, hogy elindítsa a munkamenetet a SageMakerben. Telepítse a Paws-t (lásd a bejegyzés korábbi útmutatóját), hogy hozzáférhessen a megfelelő AWS-szolgáltatásokhoz. Most futtathat egy lekérdezést az adatkészlet összes mezőjének lehívásához Amazon Athéné, a parancs segítségével “SELECT * FROM "databasename.tablename", és tárolja a lekérdezés kimenetét egy Amazon egyszerű tárolási szolgáltatás (Amazon S3) vödör.

9. ábra: Az Athena lekérdezés végrehajtása az R Studio munkamenetben

9. ábra: Az Athena lekérdezés végrehajtása az R Studio munkamenetben

A következő képernyőkép az S3 vödör kimeneti fájljait mutatja.

10. ábra: Az Athena Query végrehajtása az Amazon S3 Bucketben eredményez

10. ábra: Az Athena Query végrehajtása az Amazon S3 Bucketben eredményez

A következő képernyőkép a kimeneti fájlok adatait mutatja Amazon S3 Select.

11. ábra: A kimeneti adatok áttekintése az Amazon S3 Select használatával

11. ábra: A kimeneti adatok áttekintése az Amazon S3 Select használatával

Csak az USA adatai és oszlopai kontinens, dátum, total_cases, total_deaths, new_cases, new_deathsés iso_code az eredményben jelennek meg a rstudiouser-limitedaccess felhasználó.

Ismételjük meg ugyanezeket a lépéseket a rstudiouser-fullaccess felhasználó.

12. ábra: RStudio munkamenet indítása az rstudiouser teljes körű felhasználó számára az Amazon SageMaker Console-ról

12. ábra: RStudio munkamenet indítása az rstudiouser teljes körű felhasználó számára az Amazon SageMaker Console-ról

Megtekintheti az RStudio Workbench kezdőlapját, valamint a munkamenetek, projektek és közzétett tartalmak listáját.

13. ábra: R Studio Workbench munkamenet szokványosabb, teljes körű felhasználó számára

13. ábra: R Studio Workbench munkamenet szokványosabb, teljes körű felhasználó számára

Futtassuk le ugyanazt a lekérdezést “SELECT * FROM "databasename.tablename" az Athena segítségével.

14. ábra: Az Athena lekérdezés végrehajtása az R Studio munkamenetben

14. ábra: Az Athena lekérdezés végrehajtása az R Studio munkamenetben

A következő képernyőkép az S3 vödör kimeneti fájljait mutatja.

15. ábra: Az Athena Query végrehajtása az Amazon S3 Bucketben eredményez

15. ábra: Az Athena Query végrehajtása az Amazon S3 Bucketben eredményez

A következő képernyőkép a kimeneti fájlok adatait mutatja Amazon S3 Select.

16. ábra: A kimeneti adatok áttekintése az Amazon S3 Select használatával

16. ábra: A kimeneti adatok áttekintése az Amazon S3 Select használatával

Amint ebben a példában látható, a rstudiouser-fullaccess a felhasználó hozzáfér az adatkészlet összes oszlopához és sorához.

Önálló az Amazon EC2-n

Ha szeretne kísérletezni az RStudio nyílt forráskódú verziójával az AWS-en, telepítheti az Rstudio-t egy EC2 példányra. Ez a bejegyzésben található CloudFormation-sablon biztosítja az EC2-példányt, és telepíti az RStudio-t a felhasználói adatszkript használatával. A sablont többször is futtathatja, hogy szükség szerint több RStudio-példányt létesítsen, és bármely AWS-régióban felhasználhatja. A CloudFormation sablon üzembe helyezése után egy URL-t biztosít az RStudio webböngészőből való eléréséhez. Az Amazon EC2 lehetővé teszi a méretezést felfelé vagy lefelé, hogy kezelje az adatméret változásait és az elemzés futtatásához szükséges számítási kapacitást.

Hozzon létre egy kulcs-érték párt a biztonságos hozzáférés érdekében

Az AWS nyilvános kulcsú titkosítást használ az EC2-példány bejelentkezési adatainak védelmére. Megadja a kulcspár nevét a KeyPair paramétert, amikor elindítja a CloudFormation sablont. Ezután ugyanezzel a kulccsal később bejelentkezhet a kiépített EC2-példányba, ha szükséges.

A CloudFormation sablon futtatása előtt győződjön meg arról, hogy a használni kívánt AWS-fiókban megvan az Amazon EC2 kulcspár. Ha nem, akkor hivatkozzon Hozzon létre egy kulcspárt az Amazon EC2 segítségével létrehozásához szükséges utasításokért.

Indítsa el a CloudFormation sablont Jelentkezzen be a CloudFormation konzolba a következőben us-east-1 Régió, és válassza a Verem indítása lehetőséget.

Verem elindítása gomb

Számos paramétert kell megadnia a CloudFormation sablonban:

  • InitialUser és InitialPassword – Az RStudio munkamenetbe való bejelentkezéshez használt felhasználónév és jelszó. Az alapértelmezett értékek rstudio és a Rstudio@123, Ill.
  • InstanceType – Az EC2 példánytípus, amelyen az RStudio kiszolgálót telepíteni kell. A sablon jelenleg a t2, m4, c4, r4, g2, p2 és g3 példánycsalád összes példányát elfogadja, és könnyen beépíthet más példánycsaládokat is. Az alapértelmezett érték a t2.micro.
  • KeyPair – Az EC2 példányba való bejelentkezéshez használt kulcspár.
  • VpcId és SubnetId - A Amazon Virtual Private Cloud (Amazon VPC) és az alhálózat, amelyen a példányt el kell indítani.

Miután megadta ezeket a paramétereket, telepítse a CloudFormation sablont. Ha elkészült, a következő források állnak rendelkezésre:

  • Egy EC2 példány, amelyen az RStudio telepítve van.
  • IAM-szerepkör más AWS-szolgáltatásokhoz való csatlakozáshoz szükséges engedélyekkel.
  • Biztonsági csoport az RStudio Server 8787-es portjának megnyitásához szükséges szabályokkal.

Jelentkezzen be az RStudióba

Most már készen áll az RStudio használatára! Menj a Kimenetek fület a CloudFormation veremhez, és másolja ki az RStudio URL értékét (a formátumban http://ec2-XX-XX-XXX-XX.compute-1.amazonaws.com:8787/). Írja be az URL-t egy webböngészőbe. Ez megnyitja az RStudio munkamenetet, amelybe ugyanazzal a felhasználónévvel és jelszóval jelentkezhet be, amelyet a CloudFormation sablon futtatásakor adott meg.

Hozzáférés az AWS-szolgáltatásokhoz az RStudio-ból

Az RStudio munkamenet elérése után telepítenie kell az R Package for AWS (Paws) csomagot. Ez lehetővé teszi számos AWS-szolgáltatáshoz való csatlakozást, beleértve a Data Lake szolgáltatásait és erőforrásait. A Paws telepítéséhez írja be és futtassa a következő R kódot:

install.packages("paws")

Az AWS-szolgáltatás használatához hozzon létre egy ügyfelet, és érje el a szolgáltatás műveleteit arról az ügyfélről. Az AWS API-k elérésekor meg kell adnia hitelesítő adatait és régióját. A Paws az AWS hitelesítési lánc segítségével keresi a hitelesítő adatokat és a régiót:

  • Kifejezetten megadott hozzáférési kulcs, titkos kulcs, munkamenet-token, profil vagy régió
  • R környezeti változók
  • Az operációs rendszer környezeti változói
  • Az AWS megosztott hitelesítő adatokat és konfigurációs fájlokat .aws/credentials és a .aws/config
  • Tároló IAM szerepkör
  • Példány IAM szerepkör

Mivel Ön egy csatolt IAM-szerepkörrel rendelkező EC2-példányon fut, a Paws automatikusan az Ön IAM-szerepkörének hitelesítő adatait használja az AWS API-kérelmek hitelesítésére.

# To interact with an Amazon S3 service, first create an S3 client then list the objects within your bucket by invoking: rstudio-XXXXXXXXXX
s3 <- paws::s3(config = list(region = 'us-east-1'))s3$list_objects(Bucket = "rstudio-XXXXXXXXXX")
# Let’s see how we can interactively query data from your data lake using Amazon Athena.
athena <- paws::athena(config = list(region = 'us-east-1'))
athena$start_query_execution(QueryString = "SELECT * FROM "databasename.tablename" limit 10;",QueryExecutionContext = list(Database = "databasename", Catalog = "catalogname"),ResultConfiguration = list(OutputLocation = "S3 Bucket",EncryptionConfiguration = list(EncryptionOption = "SSE_S3")), WorkGroup = "workgroup name")
$QueryExecutionId[1] 
"17ccec8a-d196-4b4c-b31c-314fab8939f3"

Éles környezetben javasoljuk a méretezhető Rstudio megoldás használatát, amelyről a cikkben vázoltunk ez a blog.

Következtetés

Megtanulta, hogyan telepítheti RStudio-környezetét AWS-ben. Bemutattuk, milyen előnyei vannak az RStudio használatának az Amazon SageMakeren, és hogyan kezdheti el. Azt is megtanulta, hogyan kezdhet gyorsan kísérletezni az RStudio nyílt forráskódú verziójával az Amazon EC2-t használó önálló telepítéssel. Azt is bemutattuk, hogyan integrálhatja az RStudio-t a Data Lake-architektúrákba, és hogyan valósíthat meg finomszemcsés hozzáférés-vezérlést egy Data Lake-táblázaton a Lake Formation sor- és cellaszintű biztonsági funkciójával.

Következő bejegyzésünkben bemutatjuk, hogyan lehet R-szkripteket konténerbe helyezni és segítségével futtatni AWS Lambda.


A szerzőkről

Valósítsa meg az RStudio-t AWS-környezetében, és érje el adattóját az AWS Lake Formation PlatoBlockchain Data Intelligence engedélyeivel. Függőleges keresés. Ai.Venkata Kampana az AWS egészségügyi és humán szolgáltatások csapatának vezető megoldástervezője, székhelye Sacramento, CA. Ebben a szerepkörében az AWS-en jól megtervezett megoldásokkal segíti a közszféra ügyfeleit küldetésük céljainak elérésében.

Valósítsa meg az RStudio-t AWS-környezetében, és érje el adattóját az AWS Lake Formation PlatoBlockchain Data Intelligence engedélyeivel. Függőleges keresés. Ai.Dr. Dawn Heisey-Grove az Amazon Web Services állami és önkormányzati csapatának közegészségügyi elemzési vezetője. Ebben a szerepkörben az a feladata, hogy segítse az állami és a helyi közegészségügyi ügynökségeket abban, hogy kreatívan gondolkodjanak arról, hogyan érhetik el analitikai kihívásaikat és hosszú távú céljaikat. Pályafutását azzal töltötte, hogy új módszereket talált a meglévő vagy új adatok felhasználására a közegészségügyi felügyelet és kutatás támogatására.

Időbélyeg:

Még több AWS gépi tanulás