Az R egy népszerű analitikus programozási nyelv, amelyet adattudósok és elemzők használnak adatfeldolgozáshoz, statisztikai elemzésekhez, adatvizualizációk létrehozásához és gépi tanulási (ML) modellek felépítéséhez. Az RStudio, az R integrált fejlesztőkörnyezete nyílt forráskódú eszközöket és nagyvállalati használatra kész professzionális szoftvereket biztosít a csapatok számára, hogy fejleszthessék és megosszák munkájukat szervezetükben. Az RStudio felépítése, biztosítása, méretezése és karbantartása azonban fárasztó és nehézkes.
Az RStudio-környezet AWS-ben való megvalósítása rugalmasságot és méretezhetőséget biztosít, amellyel az on-prem üzembe helyezéskor nem rendelkezik, így nincs szükség az infrastruktúra kezelésére. Kiválaszthatja a kívánt számítást és memóriát a feldolgozási követelmények alapján, valamint felfelé vagy lefelé is méretezhet, hogy különböző méretű analitikai és ML munkaterhelésekkel dolgozzon előzetes befektetés nélkül. Ez lehetővé teszi, hogy gyorsan kísérletezzen új adatforrásokkal és kóddal, valamint új elemzési folyamatokat és ML modelleket terjesszen ki a szervezet többi tagja számára. Ezenkívül zökkenőmentesen integrálhatja Data Lake-erőforrásait, hogy elérhetővé tegyék azokat a fejlesztők és adatkutatók számára, és biztonságossá tegyék az adatokat a sor- és oszlopszintű hozzáférés-vezérlők használatával. AWS-tó formáció.
Ez a bejegyzés két módot mutat be az RStudio egyszerű üzembe helyezésére és futtatására AWS-en a Data Lake-ben tárolt adatok eléréséhez:
- Teljesen sikerült Amazon SageMaker
- Saját házigazda be Amazon rugalmas számítási felhő (Amazon EC2)
- Dönthet úgy, hogy az RStudio nyílt forráskódú verzióját az EC2 által üzemeltetett megközelítéssel telepíti, amelyet ebben a bejegyzésben is ismertetünk. A saját üzemeltetésű beállítás megköveteli, hogy a rendszergazda EC2-példányt hozzon létre, és az RStudio-t manuálisan vagy egy AWS felhőképződés Ennél a lehetőségnél kisebb a rugalmasság a felhasználói hozzáférési vezérlők megvalósításában is, mivel minden felhasználónak azonos hozzáférési szintje van az ilyen típusú megvalósításban.
RStudio az Amazon SageMakeren
Az RStudio Workbench egyszerű kattintással elindítható a SageMaker alkalmazásból. A SageMakerrel az ügyfeleknek nem kell viselniük az RStudio felépítésének, telepítésének, biztosításának, méretezésének és karbantartásának üzemeltetési költségeit, nem kell fizetniük a folyamatosan futó RStudio szerverért (ha t3.mediumot használnak), és csak fizetnek. az RSession számításhoz, amikor használják. Az RStudio felhasználók rugalmasan méretezhetik a számításokat a példányok menet közbeni váltásával. Az RStudio SageMakeren való futtatásához egy adminisztrátornak kell létrehoznia egy SageMaker-tartományt és a kapcsolódó felhasználói profilokat. Szüksége van egy megfelelő RStudio licencre is
A SageMakeren belül az RStudio adminisztrátori és az RStudio felhasználói szintjén különböző jogosultságokkal adhat hozzáférést. Csak azok a felhasználói profilok érhetik el a SageMaker RStudióját, akiknek e két szerepkör valamelyike van. Az RStudio SageMaker rendszerben történő beállításával kapcsolatos adminisztrátori feladatokkal kapcsolatos további információkért lásd: Kezdje el az RStudio használatát az Amazon SageMakeren. Ez a bejegyzés bemutatja az EC2-példányok kiválasztásának folyamatát is az egyes munkamenetekhez, valamint azt, hogy a rendszergazda hogyan korlátozhatja az EC2-példányok beállításait az RStudio-felhasználók számára.
Használja a Lake Formation sor- és oszlopszintű biztonsági hozzáférését
Amellett, hogy lehetővé teszi csapata számára, hogy RStudio-munkameneteket indítson el a SageMakeren, a Lake Formation sor- és oszlopszintű hozzáférés-vezérlőivel is biztonságossá teheti az adattót. További információkért lásd: Hatékony adatlakok az AWS Lake Formation használatával, 4. rész: Cellaszintű és sorszintű biztonság megvalósítása.
A Lake Formation biztonsági ellenőrzései révén megbizonyosodhat arról, hogy minden személy megfelelő hozzáféréssel rendelkezik az adattóban lévő adatokhoz. Tekintsük a következő két felhasználói profilt a SageMaker tartományban, mindegyik más-más végrehajtási szereppel:
Felhasználói profil | Végrehajtási szerep |
rstudiouser-fullaccess |
AmazonSageMaker-ExecutionRole-FullAccess |
rstudiouser-limitedaccess |
AmazonSageMaker-ExecutionRole-LimitedAccess |
A következő képernyőképen látható a rstudiouser-limitedaccess
profil adatai.
A következő képernyőképen látható a rstudiouser-fullaccess
profil adatai.
A bejegyzéshez használt adatkészlet a COVID-19 nyilvános adatkészlet. A következő képernyőkép példát mutat az adatokra:
Miután létrehozta a felhasználói profilt, és hozzárendelte a megfelelő szerepkörhöz, elérheti a Lake Formationt az adatok feltérképezéséhez AWS ragasztó, hozza létre a metaadatokat és a táblát, és biztosítson hozzáférést a táblázat adataihoz. A AmazonSageMaker-ExecutionRole-FullAccess
szerepkörrel, hozzáférést biztosít a táblázat összes oszlopához, és a számára AmazonSageMaker-ExecutionRole-LimitedAccess
, hozzáférést biztosít az adatszűrő használatával USA_Filter
. Ezzel a szűrővel sor- és cellaszintű oszlop-engedélyeket biztosítunk (lásd a Forrás oszlop a következő képernyőképen).
Amint az a következő képernyőképen látható, a második szerepkör korlátozott hozzáféréssel rendelkezik. Az ehhez a szerepkörhöz tartozó felhasználók csak a continent
, date
, total_cases
, total_deaths
, new_cases
, new_deaths
és iso_codecolumns
.
Az egyes felhasználói profilokhoz csatolt szerepjogosultságokkal láthatjuk, hogy a Lake Formation hogyan kényszeríti ki a megfelelő sor- és oszlopszintű engedélyeket. Az RStudio Workbench megnyitható a Indítsa el az alkalmazást legördülő menüből a létrehozott felhasználói listában, és válassza ki RStudio.
A következő képernyőképen elindítjuk az alkalmazást a rstudiouser-limitedaccess user
.
Megtekintheti az RStudio Workbench kezdőlapját, valamint a munkamenetek, projektek és közzétett tartalmak listáját.
Válassza ki a munkamenet nevét, hogy elindítsa a munkamenetet a SageMakerben. Telepítse a Paws-t (lásd a bejegyzés korábbi útmutatóját), hogy hozzáférhessen a megfelelő AWS-szolgáltatásokhoz. Most futtathat egy lekérdezést az adatkészlet összes mezőjének lehívásához Amazon Athéné, a parancs segítségével “SELECT * FROM "databasename.tablename"
, és tárolja a lekérdezés kimenetét egy Amazon egyszerű tárolási szolgáltatás (Amazon S3) vödör.
A következő képernyőkép az S3 vödör kimeneti fájljait mutatja.
A következő képernyőkép a kimeneti fájlok adatait mutatja Amazon S3 Select.
Csak az USA adatai és oszlopai kontinens, dátum, total_cases
, total_deaths
, new_cases
, new_deaths
és iso_code
az eredményben jelennek meg a rstudiouser-limitedaccess
felhasználó.
Ismételjük meg ugyanezeket a lépéseket a rstudiouser-fullaccess
felhasználó.
Megtekintheti az RStudio Workbench kezdőlapját, valamint a munkamenetek, projektek és közzétett tartalmak listáját.
Futtassuk le ugyanazt a lekérdezést “SELECT * FROM "databasename.tablename"
az Athena segítségével.
A következő képernyőkép az S3 vödör kimeneti fájljait mutatja.
A következő képernyőkép a kimeneti fájlok adatait mutatja Amazon S3 Select.
Amint ebben a példában látható, a rstudiouser-fullaccess
a felhasználó hozzáfér az adatkészlet összes oszlopához és sorához.
Önálló az Amazon EC2-n
Ha szeretne kísérletezni az RStudio nyílt forráskódú verziójával az AWS-en, telepítheti az Rstudio-t egy EC2 példányra. Ez a bejegyzésben található CloudFormation-sablon biztosítja az EC2-példányt, és telepíti az RStudio-t a felhasználói adatszkript használatával. A sablont többször is futtathatja, hogy szükség szerint több RStudio-példányt létesítsen, és bármely AWS-régióban felhasználhatja. A CloudFormation sablon üzembe helyezése után egy URL-t biztosít az RStudio webböngészőből való eléréséhez. Az Amazon EC2 lehetővé teszi a méretezést felfelé vagy lefelé, hogy kezelje az adatméret változásait és az elemzés futtatásához szükséges számítási kapacitást.
Hozzon létre egy kulcs-érték párt a biztonságos hozzáférés érdekében
Az AWS nyilvános kulcsú titkosítást használ az EC2-példány bejelentkezési adatainak védelmére. Megadja a kulcspár nevét a KeyPair
paramétert, amikor elindítja a CloudFormation sablont. Ezután ugyanezzel a kulccsal később bejelentkezhet a kiépített EC2-példányba, ha szükséges.
A CloudFormation sablon futtatása előtt győződjön meg arról, hogy a használni kívánt AWS-fiókban megvan az Amazon EC2 kulcspár. Ha nem, akkor hivatkozzon Hozzon létre egy kulcspárt az Amazon EC2 segítségével létrehozásához szükséges utasításokért.
Indítsa el a CloudFormation sablont Jelentkezzen be a CloudFormation konzolba a következőben us-east-1
Régió, és válassza a Verem indítása lehetőséget.
Számos paramétert kell megadnia a CloudFormation sablonban:
- InitialUser és InitialPassword – Az RStudio munkamenetbe való bejelentkezéshez használt felhasználónév és jelszó. Az alapértelmezett értékek
rstudio
és aRstudio@123
, Ill. - InstanceType – Az EC2 példánytípus, amelyen az RStudio kiszolgálót telepíteni kell. A sablon jelenleg a t2, m4, c4, r4, g2, p2 és g3 példánycsalád összes példányát elfogadja, és könnyen beépíthet más példánycsaládokat is. Az alapértelmezett érték a t2.micro.
- KeyPair – Az EC2 példányba való bejelentkezéshez használt kulcspár.
- VpcId és SubnetId - A Amazon Virtual Private Cloud (Amazon VPC) és az alhálózat, amelyen a példányt el kell indítani.
Miután megadta ezeket a paramétereket, telepítse a CloudFormation sablont. Ha elkészült, a következő források állnak rendelkezésre:
- Egy EC2 példány, amelyen az RStudio telepítve van.
- IAM-szerepkör más AWS-szolgáltatásokhoz való csatlakozáshoz szükséges engedélyekkel.
- Biztonsági csoport az RStudio Server 8787-es portjának megnyitásához szükséges szabályokkal.
Jelentkezzen be az RStudióba
Most már készen áll az RStudio használatára! Menj a Kimenetek fület a CloudFormation veremhez, és másolja ki az RStudio URL értékét (a formátumban http://ec2-XX-XX-XXX-XX.compute-1.amazonaws.com:8787/
). Írja be az URL-t egy webböngészőbe. Ez megnyitja az RStudio munkamenetet, amelybe ugyanazzal a felhasználónévvel és jelszóval jelentkezhet be, amelyet a CloudFormation sablon futtatásakor adott meg.
Hozzáférés az AWS-szolgáltatásokhoz az RStudio-ból
Az RStudio munkamenet elérése után telepítenie kell az R Package for AWS (Paws) csomagot. Ez lehetővé teszi számos AWS-szolgáltatáshoz való csatlakozást, beleértve a Data Lake szolgáltatásait és erőforrásait. A Paws telepítéséhez írja be és futtassa a következő R kódot:
Az AWS-szolgáltatás használatához hozzon létre egy ügyfelet, és érje el a szolgáltatás műveleteit arról az ügyfélről. Az AWS API-k elérésekor meg kell adnia hitelesítő adatait és régióját. A Paws az AWS hitelesítési lánc segítségével keresi a hitelesítő adatokat és a régiót:
- Kifejezetten megadott hozzáférési kulcs, titkos kulcs, munkamenet-token, profil vagy régió
- R környezeti változók
- Az operációs rendszer környezeti változói
- Az AWS megosztott hitelesítő adatokat és konfigurációs fájlokat
.aws/credentials
és a.aws/config
- Tároló IAM szerepkör
- Példány IAM szerepkör
Mivel Ön egy csatolt IAM-szerepkörrel rendelkező EC2-példányon fut, a Paws automatikusan az Ön IAM-szerepkörének hitelesítő adatait használja az AWS API-kérelmek hitelesítésére.
Éles környezetben javasoljuk a méretezhető Rstudio megoldás használatát, amelyről a cikkben vázoltunk ez a blog.
Következtetés
Megtanulta, hogyan telepítheti RStudio-környezetét AWS-ben. Bemutattuk, milyen előnyei vannak az RStudio használatának az Amazon SageMakeren, és hogyan kezdheti el. Azt is megtanulta, hogyan kezdhet gyorsan kísérletezni az RStudio nyílt forráskódú verziójával az Amazon EC2-t használó önálló telepítéssel. Azt is bemutattuk, hogyan integrálhatja az RStudio-t a Data Lake-architektúrákba, és hogyan valósíthat meg finomszemcsés hozzáférés-vezérlést egy Data Lake-táblázaton a Lake Formation sor- és cellaszintű biztonsági funkciójával.
Következő bejegyzésünkben bemutatjuk, hogyan lehet R-szkripteket konténerbe helyezni és segítségével futtatni AWS Lambda.
A szerzőkről
Venkata Kampana az AWS egészségügyi és humán szolgáltatások csapatának vezető megoldástervezője, székhelye Sacramento, CA. Ebben a szerepkörében az AWS-en jól megtervezett megoldásokkal segíti a közszféra ügyfeleit küldetésük céljainak elérésében.
Dr. Dawn Heisey-Grove az Amazon Web Services állami és önkormányzati csapatának közegészségügyi elemzési vezetője. Ebben a szerepkörben az a feladata, hogy segítse az állami és a helyi közegészségügyi ügynökségeket abban, hogy kreatívan gondolkodjanak arról, hogyan érhetik el analitikai kihívásaikat és hosszú távú céljaikat. Pályafutását azzal töltötte, hogy új módszereket talált a meglévő vagy új adatok felhasználására a közegészségügyi felügyelet és kutatás támogatására.
- AI
- ai művészet
- ai art generátor
- van egy robotod
- Amazon SageMaker
- mesterséges intelligencia
- mesterséges intelligencia tanúsítás
- mesterséges intelligencia a bankszektorban
- mesterséges intelligencia robot
- mesterséges intelligencia robotok
- mesterséges intelligencia szoftver
- AWS gépi tanulás
- blockchain
- blokklánc konferencia ai
- coingenius
- társalgási mesterséges intelligencia
- kriptokonferencia ai
- dall's
- mély tanulás
- google azt
- gépi tanulás
- Plató
- plato ai
- Platón adatintelligencia
- Platón játék
- PlatoData
- platogaming
- skála ai
- szintaxis
- zephyrnet