הטמיע RStudio בסביבת ה-AWS שלך וקבל גישה לאגם הנתונים שלך באמצעות הרשאות AWS Lake Formation PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

הטמיע RStudio בסביבת ה-AWS שלך וקבל גישה לאגם הנתונים שלך באמצעות הרשאות AWS Lake Formation

R היא שפת תכנות אנליטית פופולרית המשמשת מדעני נתונים ואנליסטים לביצוע עיבוד נתונים, ביצוע ניתוחים סטטיסטיים, יצירת הדמיות נתונים ובניית מודלים של למידת מכונה (ML). RStudio, סביבת הפיתוח המשולבת עבור R, מספקת כלים בקוד פתוח ותוכנה מקצועית מוכנה לארגונים לצוותים לפתח ולשתף את עבודתם ברחבי הארגון שלהם בנייה, אבטחה, קנה מידה ותחזוקה של RStudio בעצמך היא, עם זאת, מייגעת ומסורבלת.

הטמעת סביבת RStudio ב-AWS מספקת גמישות ומדרגיות שאין לך בעת פריסה מקומית, ומבטלת את הצורך בניהול תשתית זו. אתה יכול לבחור את המחשוב והזיכרון הרצויים בהתבסס על דרישות העיבוד ויכולים גם להגדיל או להקטין לעבוד עם עומסי עבודה אנליטיים ו-ML בגדלים שונים ללא השקעה מראש. זה מאפשר לך להתנסות במהירות עם מקורות נתונים וקוד חדשים, ולהפיץ תהליכי ניתוח חדשים ומודלי ML לשאר הארגון. אתה יכול גם לשלב בצורה חלקה את משאבי ה-Data Lake שלך ​​כדי להפוך אותם לזמינים למפתחים ומדעני נתונים ולאבטח את הנתונים על ידי שימוש בבקרות גישה ברמת השורה וברמת העמודה מ- תצורת אגם AWS.

פוסט זה מציג שתי דרכים לפרוס ולהפעיל בקלות את RStudio ב-AWS כדי לגשת לנתונים המאוחסנים באגם נתונים:

  • מנוהל באופן מלא אמזון SageMaker
  • אירוח עצמי ב- ענן מחשוב אלסטי של אמזון (אמזון EC2)
    • אתה יכול לבחור לפרוס את גרסת הקוד הפתוח של RStudio באמצעות גישה מתארחת EC2 אותה נתאר גם בפוסט זה. האפשרות לאירוח עצמי מחייבת את מנהל המערכת ליצור מופע EC2 ולהתקין את RStudio באופן ידני או באמצעות AWS CloudFormation קיימת גם פחות גמישות להטמעת בקרות גישה למשתמשים באפשרות זו מאחר שלכל המשתמשים יש אותה רמת גישה ביישום מסוג זה.

RStudio ב- Amazon SageMaker

אתה יכול להפעיל את RStudio Workbench בלחיצה פשוטה מ- SageMaker. עם SageMaker לקוחות לא צריכים לשאת את התקורה התפעולית של בנייה, התקנה, אבטחה, קנה מידה ותחזוקה של RStudio, הם לא צריכים לשלם עבור RStudio Server הפועל ברציפות (אם הם משתמשים ב-t3.medium) והם משלמים רק עבור RSession מחשוב כשהם משתמשים בו. למשתמשי RStudio תהיה גמישות לשינוי קנה מידה דינמי של מחשוב על ידי החלפת מופעים תוך כדי תנועה. הפעלת RStudio ב- SageMaker דורשת ממנהל מערכת להקים תחום SageMaker ופרופילי משתמש משויכים. אתה צריך גם רישיון RStudio מתאים

בתוך SageMaker, אתה יכול להעניק גישה ברמת מנהל RStudio ורמת משתמש RStudio, עם הרשאות שונות. רק פרופילי משתמשים שקיבלו אחד משני התפקידים הללו יכולים לגשת ל-RStudio ב-SageMaker. למידע נוסף על משימות מנהל להגדרת RStudio ב- SageMaker, עיין ב התחל עם RStudio באמזון SageMaker. הפוסט הזה מציג גם את התהליך של בחירת מופעי EC2 עבור כל הפעלה, וכיצד מנהל המערכת יכול להגביל אפשרויות מופע EC2 עבור משתמשי RStudio.

איור 1: תרשים ארכיטקטורה המציג את האינטראקציה של שירותי AWS שונים

השתמש בגישה אבטחה ברמת השורה והעמודה של Lake Formation

בנוסף לאפשר לצוות שלך להשיק הפעלות של RStudio ב- SageMaker, אתה יכול גם לאבטח את אגם הנתונים על ידי שימוש בבקרות גישה ברמת השורה וברמת העמודה מ-Lake Formation. למידע נוסף, עיין ב אגמי נתונים יעילים באמצעות AWS Lake Formation, חלק 4: יישום אבטחה ברמת התא וברמת השורה.

באמצעות בקרות האבטחה של Lake Formation, אתה יכול לוודא שלכל אדם יש את הגישה הנכונה לנתונים באגם הנתונים. שקול את שני פרופילי המשתמש הבאים בתחום SageMaker, כל אחד עם תפקיד ביצוע שונה:

פרופיל משתמש תפקיד ביצוע
rstudiouser-fullaccess AmazonSageMaker-ExecutionRole-FullAccess
rstudiouser-limitedaccess AmazonSageMaker-ExecutionRole-LimitedAccess

המסך הבא מציג את rstudiouser-limitedaccess פרטי הפרופיל.

איור 2: פרטי פרופיל של תפקיד rstudiouser-limited access

איור 2: פרטי פרופיל של תפקיד rstudiouser-limited access

המסך הבא מציג את rstudiouser-fullaccess פרטי הפרופיל.

איור 3: פרטי פרופיל של תפקיד rstudiouser-fullaccess

איור 3: פרטי פרופיל של תפקיד rstudiouser-fullaccess

מערך הנתונים המשמש לפוסט זה הוא א מערך נתונים ציבורי של COVID-19. צילום המסך הבא מציג דוגמה לנתונים:

איור 4: מערך נתונים ציבורי של COVID-19

איור 4: מערך נתונים ציבורי של COVID-19

לאחר שתיצור את פרופיל המשתמש ותקצה אותו לתפקיד המתאים, תוכל לגשת ל-Lake Formation כדי לסרוק את הנתונים איתו דבק AWS, צור את המטא נתונים והטבלה והענקת גישה לנתוני הטבלה. בשביל ה AmazonSageMaker-ExecutionRole-FullAccess תפקיד, אתה מעניק גישה לכל העמודות בטבלה, ועבור AmazonSageMaker-ExecutionRole-LimitedAccess, אתה מעניק גישה באמצעות מסנן הנתונים USA_Filter. אנו משתמשים במסנן זה כדי לספק הרשאות עמודה ברמת השורה וברמת התא (ראה את משאב העמודה בצילום המסך הבא).

איור 5: הרשאות יצירת אגם של AWS עבור AmazonSageMaker-ExecutionRole -תפקידי גישה מלאה/מוגבלת

איור 5: הרשאות יצירת אגם של AWS עבור AmazonSageMaker-ExecutionRole -תפקידי גישה מלאה/מוגבלת

כפי שמוצג בצילום המסך הבא, לתפקיד השני יש גישה מוגבלת. משתמשים המשויכים לתפקיד זה יכולים לגשת רק ל- continent, date, total_cases, total_deaths, new_cases, new_deaths, ו iso_codecolumns.

איור 6: AWS Lake Formation הרשאות ברמת העמודה עבור תפקיד AmazonSageMaker-ExecutionRole-Limited Access

איור 6: AWS Lake Formation הרשאות ברמת העמודה עבור תפקיד AmazonSageMaker-ExecutionRole-Limited Access

עם הרשאות תפקיד המצורפות לכל פרופיל משתמש, אנו יכולים לראות כיצד Lake Formation אוכפת את ההרשאות המתאימות ברמת השורה וברמת העמודה. אתה יכול לפתוח את RStudio Workbench מה- אפליקציית צהריים התפריט הנפתח ברשימת המשתמשים שנוצרה, ובחר RStudio.

בצילום המסך הבא, אנו מפעילים את האפליקציה בתור rstudiouser-limitedaccess user.

איור 7: השקת הפעלת RStudio עבור משתמש rstudiouser עם גישה מוגבלת מ- Amazon SageMaker Console

איור 7: השקת הפעלת RStudio עבור משתמש rstudiouser עם גישה מוגבלת מ- Amazon SageMaker Console

אתה יכול לראות את דף הבית של RStudio Workbench ורשימת הפעלות, פרויקטים ותוכן שפורסם.

איור 8: הפעלת R Studio Workbench עבור משתמש rstudiouser עם גישה מוגבלת

איור 8: הפעלת R Studio Workbench עבור משתמש rstudiouser עם גישה מוגבלת

בחר שם הפעלה כדי להתחיל את ההפעלה ב- SageMaker. התקן Paws (ראה הנחיות מוקדם יותר בפוסט זה) כדי שתוכל לגשת לשירותי AWS המתאימים. כעת אתה יכול להריץ שאילתה כדי למשוך את כל השדות ממערך הנתונים באמצעות אמזונה אתנה, באמצעות הפקודה “SELECT * FROM "databasename.tablename", ואחסן את פלט השאילתה ב-an שירות אחסון פשוט של אמזון (אמזון S3) דלי.

איור 9: ביצוע שאילתת Athena בהפעלה R Studio

איור 9: ביצוע שאילתת Athena בהפעלה R Studio

צילום המסך הבא מציג את קבצי הפלט בדלי S3.

איור 10: תוצאות ביצוע שאילתת Athena ב-Amazon S3 Bucket

איור 10: תוצאות ביצוע שאילתת Athena ב-Amazon S3 Bucket

צילום המסך הבא מציג את הנתונים בקובצי הפלט הללו באמצעות Amazon S3 Select.

איור 11: סקירת נתוני הפלט באמצעות Amazon S3 Select

איור 11: סקירת נתוני הפלט באמצעות Amazon S3 Select

רק נתונים ועמודות בארה"ב יבשת, תאריך, total_cases, total_deaths, new_cases, new_deaths, ו iso_code מוצגים בתוצאה עבור rstudiouser-limitedaccess המשתמש.

בואו נחזור על אותם שלבים עבור rstudiouser-fullaccess המשתמש.

איור 12: הפעלת RStudio עבור משתמש rstudiouser בגישה מלאה מ- Amazon SageMaker Console

איור 12: הפעלת RStudio עבור משתמש rstudiouser בגישה מלאה מ- Amazon SageMaker Console

אתה יכול לראות את דף הבית של RStudio Workbench ורשימת הפעלות, פרויקטים ותוכן שפורסם.

איור 13: הפעלת R Studio Workbench עבור משתמש rstudiouser עם גישה מלאה

איור 13: הפעלת R Studio Workbench עבור משתמש rstudiouser עם גישה מלאה

בוא נריץ את אותה שאילתה “SELECT * FROM "databasename.tablename" באמצעות אתנה.

איור 14: ביצוע שאילתת Athena בהפעלה R Studio

איור 14: ביצוע שאילתת Athena בהפעלה R Studio

צילום המסך הבא מציג את קבצי הפלט בדלי S3.

איור 15: תוצאות ביצוע שאילתת Athena ב-Amazon S3 Bucket

איור 15: תוצאות ביצוע שאילתת Athena ב-Amazon S3 Bucket

צילום המסך הבא מציג את הנתונים בקובצי הפלט הללו באמצעות Amazon S3 Select.

איור 16: סקירת נתוני הפלט באמצעות Amazon S3 Select

איור 16: סקירת נתוני הפלט באמצעות Amazon S3 Select

כפי שמוצג בדוגמה זו, ה rstudiouser-fullaccess למשתמש יש גישה לכל העמודות והשורות במערך הנתונים.

אירוח עצמי באמזון EC2

אם אתה רוצה להתחיל להתנסות בגרסת הקוד הפתוח של RStudio ב-AWS, אתה יכול להתקין את Rstudio על מופע EC2. תבנית CloudFormation זו שסופקה בפוסט זה מספקת את מופע EC2 ומתקינה את RStudio באמצעות סקריפט נתוני המשתמש. אתה יכול להריץ את התבנית מספר פעמים כדי לספק מופעי RStudio מרובים לפי הצורך, ותוכל להשתמש בה בכל אזור AWS. לאחר פריסת תבנית CloudFormation, היא מספקת לך כתובת URL לגישה ל-RStudio מדפדפן אינטרנט. Amazon EC2 מאפשר לך להגדיל או להקטין כדי לטפל בשינויים בגודל הנתונים וביכולת המחשוב הדרושה כדי להפעיל את הניתוח שלך.

צור צמד מפתח-ערך לגישה מאובטחת

AWS משתמשת בהצפנת מפתח ציבורי כדי לאבטח את פרטי הכניסה עבור מופע ה-EC2 שלך. אתה מציין את השם של צמד המפתחות ב- KeyPair פרמטר בעת הפעלת תבנית CloudFormation. לאחר מכן תוכל להשתמש באותו מפתח כדי להיכנס למופע ה-EC2 המיועד מאוחר יותר במידת הצורך.

לפני שתפעיל את תבנית CloudFormation, ודא שיש לך את צמד המפתחות של Amazon EC2 בחשבון AWS שבו אתה מתכנן להשתמש. אם לא, אז עיין ב צור זוג מפתחות באמצעות Amazon EC2 להוראות ליצירת אחד.

הפעל את תבנית CloudFormation היכנס למסוף CloudFormation ב- us-east-1 אזור ובחר Launch Stack.

לחצן הפעלה מחסנית

עליך להזין מספר פרמטרים לתבנית CloudFormation:

  • InitialUser ו-InitialPassword – שם המשתמש והסיסמה שבהם אתה משתמש כדי להיכנס להפעלת RStudio. ערכי ברירת המחדל הם rstudio ו Rstudio@123, בהתאמה.
  • InstanceType – סוג המופע של EC2 שעליו יש לפרוס את שרת RStudio. התבנית מקבלת כרגע את כל המופעים במשפחות המופעים t2, m4, c4, r4, g2, p2 ו-g3, ויכולה לשלב בקלות משפחות מופעים אחרות. ערך ברירת המחדל הוא t2.micro.
  • KeyPair – צמד המפתחות שבו אתה משתמש כדי להיכנס למופע EC2.
  • VpcId ו-SubnetId - ענן וירטואלי פרטי של אמזון (VPC של אמזון) ורשת משנה שבה יש להפעיל את המופע.

לאחר שתזין את הפרמטרים האלה, פרוס את תבנית CloudFormation. כשזה יושלם, המשאבים הבאים יהיו זמינים:

  • מופע EC2 עם RStudio מותקן עליו.
  • תפקיד IAM עם הרשאות הכרחיות להתחבר לשירותי AWS אחרים.
  • קבוצת אבטחה עם כללים לפתיחת יציאה 8787 עבור שרת RStudio.

היכנס ל-RStudio

עכשיו אתה מוכן להשתמש ב- RStudio! עבור אל יציאות לשונית עבור מחסנית CloudFormation והעתק את ערך ה-URL של RStudio (הוא בפורמט http://ec2-XX-XX-XXX-XX.compute-1.amazonaws.com:8787/). הזן את כתובת האתר בדפדפן אינטרנט. זה פותח את הפעלת RStudio שלך, שאליה תוכל להיכנס באמצעות אותם שם משתמש וסיסמה שסיפקת בעת הפעלת תבנית CloudFormation.

גש לשירותי AWS מ-RStudio

לאחר גישה להפעלת RStudio, עליך להתקין את חבילת R עבור AWS (Paws). זה מאפשר לך להתחבר לשירותי AWS רבים, כולל השירותים והמשאבים באגם הנתונים שלך. כדי להתקין Paws, הזן והפעל את קוד R הבא:

install.packages("paws")

כדי להשתמש בשירות AWS, צור לקוח וגישה לפעולות השירות מאותו לקוח. בעת גישה לממשקי API של AWS, עליך לספק את האישורים והאזור שלך. Paws מחפש את האישורים ואת האזור באמצעות שרשרת האימות של AWS:

  • מסופק במפורש מפתח גישה, מפתח סודי, אסימון הפעלה, פרופיל או אזור
  • משתני סביבה R
  • משתני סביבת מערכת ההפעלה
  • AWS שיתפה אישורים וקובצי תצורה ב .aws/credentials ו .aws/config
  • תפקיד מיכל IAM
  • תפקיד IAM למשל

מכיוון שאתה פועל על מופע EC2 עם תפקיד IAM מצורף, Paws משתמש אוטומטית באישורי תפקיד IAM שלך כדי לאמת בקשות API של AWS.

# To interact with an Amazon S3 service, first create an S3 client then list the objects within your bucket by invoking: rstudio-XXXXXXXXXX
s3 <- paws::s3(config = list(region = 'us-east-1'))s3$list_objects(Bucket = "rstudio-XXXXXXXXXX")
# Let’s see how we can interactively query data from your data lake using Amazon Athena.
athena <- paws::athena(config = list(region = 'us-east-1'))
athena$start_query_execution(QueryString = "SELECT * FROM "databasename.tablename" limit 10;",QueryExecutionContext = list(Database = "databasename", Catalog = "catalogname"),ResultConfiguration = list(OutputLocation = "S3 Bucket",EncryptionConfiguration = list(EncryptionOption = "SSE_S3")), WorkGroup = "workgroup name")
$QueryExecutionId[1] 
"17ccec8a-d196-4b4c-b31c-314fab8939f3"

עבור סביבת הפקה, אנו ממליצים להשתמש בפתרון Rstudio הניתן להרחבה המתואר ב הבלוג הזה.

סיכום

למדת כיצד לפרוס את סביבת RStudio שלך ב-AWS. הדגמנו את היתרונות של השימוש ב- RStudio ב- Amazon SageMaker וכיצד תוכלו להתחיל. למדת גם כיצד להתחיל להתנסות במהירות בגרסת הקוד הפתוח של RStudio באמצעות התקנה באירוח עצמי באמצעות Amazon EC2. הדגמנו גם כיצד לשלב את RStudio בארכיטקטורות אגם הנתונים שלך וליישם בקרת גישה עדינה בטבלת אגם נתונים באמצעות תכונת האבטחה ברמת השורה וברמת התא של Lake Formation.

בפוסט הבא שלנו, נדגים כיצד להכיל סקריפטים של R ולהריץ אותם באמצעות AWS למבדה.


על המחברים

הטמיע RStudio בסביבת ה-AWS שלך וקבל גישה לאגם הנתונים שלך באמצעות הרשאות AWS Lake Formation PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.ונקטה קמפאנה הוא ארכיטקט פתרונות בכיר בצוות שירותי הבריאות והאנוש של AWS ובסיסו בסקרמנטו, קליפורניה. בתפקיד זה, הוא עוזר ללקוחות במגזר הציבורי להשיג את יעדי המשימה שלהם עם פתרונות מתוכננים היטב ב-AWS.

הטמיע RStudio בסביבת ה-AWS שלך וקבל גישה לאגם הנתונים שלך באמצעות הרשאות AWS Lake Formation PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.ד"ר דאון הייזי-גרוב הוא מוביל ניתוחי בריאות הציבור של צוות הממשל המקומי והממשל המקומי של אמזון. בתפקיד זה, היא אחראית לעזור לסוכנויות בריאות ציבוריות ממלכתיות ומקומיות לחשוב בצורה יצירתית על איך להשיג את אתגרי הניתוח והיעדים ארוכי הטווח שלהן. היא בילתה את הקריירה שלה בחיפוש אחר דרכים חדשות להשתמש בנתונים קיימים או חדשים כדי לתמוך במעקב ובמחקר על בריאות הציבור.

בול זמן:

עוד מ למידת מכונות AWS