בשנה שעברה, הכרזנו על זמינות כללית של RStudio ב- Amazon SageMaker, סביבת הפיתוח המשולבת (IDE) בענן המנוהלת במלואה הראשונה של התעשייה RStudio Workbench. אתה יכול להפעיל במהירות את RStudio IDE המוכר ולבצע חיוג למעלה ולמטה את משאבי המחשוב הבסיסיים מבלי להפריע לעבודה שלך, מה שמקל על בניית פתרונות למידת מכונה (ML) ואנליטיקה ב-R בקנה מידה.
רבים ממשתמשי RStudio ב- SageMaker הם גם משתמשים האדום של אמזון, מחסן נתונים מקביל בצורה מאסיבית, מנוהל במלואו, בקנה מידה פטה-בייט, לאחסון נתונים ועומסי עבודה אנליטיים. זה הופך את זה למהיר, פשוט וחסכוני לנתח את כל הנתונים שלך באמצעות SQL סטנדרטי וכלי בינה עסקית (BI) הקיימים שלך. משתמשים יכולים גם לקיים אינטראקציה עם נתונים עם ODBC, JDBC או ה-Amazon Redshift Data API.
השימוש ב- RStudio ב- SageMaker וב- Amazon Redshift יכול להיות מועיל לביצוע ניתוח יעיל של מערכי נתונים גדולים בענן. עם זאת, עבודה עם נתונים בענן יכולה להציג אתגרים, כמו הצורך להסיר ממגורות נתונים ארגוניים, לשמור על אבטחה ותאימות, ולהפחית את המורכבות על ידי סטנדרטיזציה של כלים. AWS מציעה כלים כגון RStudio ב- SageMaker ו- Amazon Redshift כדי לסייע בהתמודדות עם אתגרים אלו.
בפוסט זה בבלוג, נראה לך כיצד להשתמש בשני השירותים הללו יחד כדי לבצע ניתוח ביעילות של מערכי נתונים מסיביים בענן תוך התמודדות עם האתגרים שהוזכרו לעיל. בלוג זה מתמקד ב-Rstudio בשפת Amazon SageMaker, עם אנליסטים עסקיים, מהנדסי נתונים, מדעני נתונים וכל המפתחים שמשתמשים ב-R Language וב-Amazon Redshift, כקהל היעד.
אם תרצה להשתמש בחוויית SageMaker Studio המסורתית עם Amazon Redshift, עיין ב שימוש ב-Amazon Redshift Data API לאינטראקציה ממחברת אמזון SageMaker Jupyter.
סקירת פתרונות
בבלוג היום, נבצע את השלבים הבאים:
- שיבוט מאגר הדוגמאות עם החבילות הנדרשות.
- מתחבר לאמזון Redshift עם חיבור ODBC מאובטח (ODBC הוא הפרוטוקול המועדף עבור RStudio).
- הפעלת שאילתות ופעולות SageMaker API על נתונים בתוך Amazon Redshift Serverless דרך RStudio ב- SageMaker
תהליך זה מתואר בארכיטקטורת הפתרונות הבאה:
דרך פיתרון
תנאים מוקדמים
לפני תחילת העבודה, ודא שיש לך את כל הדרישות להגדרת RStudio ב-Amazon SageMaker ו-Amazon Redshift Serverless, כגון:
אנו נשתמש בערימת CloudFormation כדי ליצור את התשתית הנדרשת.
הערה: אם כבר יש לך דומיין RStudio ואשכול האדום של אמזון, תוכל לדלג על שלב זה
הפעלת מחסנית זו יוצרת את המשאבים הבאים:
- 3 רשתות משנה פרטיות
- 1 תת רשת ציבורית
- שער NAT 1
- שער אינטרנט
- אמזון Redshift Serverless אשכול
- דומיין SageMaker עם RStudio
- פרופיל משתמש SageMaker RStudio
- תפקיד שירות IAM עבור ביצוע תחום SageMaker RStudio
- תפקיד שירות IAM עבור ביצוע פרופיל משתמש של SageMaker RStudio
תבנית זו מיועדת לעבוד באזור (לדוגמה. us-east-1
, us-west-2
) עם שלושה אזורי זמינות, RStudio ב-SageMaker ו-Amazon Redshift Serverless. ודא שלאזור שלך יש גישה למשאבים אלה, או שנה את התבניות בהתאם.
לחץ השקת ערימה לחצן כדי ליצור את הערימה.
- על צור ערימה עמוד, בחר הַבָּא.
- על ציין פרטי ערימה עמוד, ספק שם לערימה שלך והשאיר את האפשרויות הנותרות כברירת מחדל, ולאחר מכן בחר הַבָּא.
- על הגדר אפשרויות ערימה עמוד, השאר את האפשרויות כברירת מחדל ולחץ הַבָּא.
- על סקור את הדף, בחר את
- אני מאשר ש- AWS CloudFormation עשוי ליצור משאבי IAM עם שמות מותאמים אישית
- אני מאשר ש- AWS CloudFormation עשוי לדרוש את היכולת הבאה: CAPABILITY_AUTO_EXPANDתיבות סימון ובחר חפש.
התבנית תיצור חמש ערימות.
ברגע שסטטוס המחסנית הוא CREATE_COMPLETE, נווט אל קונסולת Amazon Redshift Serverless. זוהי יכולת חדשה שעושה את זה סופר קל להפעיל אנליטיקה בענן עם ביצועים גבוהים בכל קנה מידה. פשוט טען את הנתונים שלך והתחל לבצע שאילתות. אין צורך להגדיר ולנהל אשכולות.
הערות: הדפוס המודגם בבלוג זה המשלב את Amazon Redshift ו-RStudio באמזון SageMaker יהיה זהה ללא קשר לדפוס הפריסה של Amazon Redshift (ללא שרת או אשכול מסורתי).
טוען נתונים באמזון Redshift Serverless
הסקריפט של CloudFormation יצר מסד נתונים בשם sagemaker
. בוא נאכלס את מסד הנתונים הזה בטבלאות עבור משתמש RStudio לשאילתה. צור לשונית עורך SQL והקפד על sagemaker
מסד הנתונים נבחר. אנו נשתמש ב- נתוני עסקה סינתטיים בכרטיס אשראי כדי ליצור טבלאות במסד הנתונים שלנו. נתונים אלה הם חלק ממערך הנתונים הטבלאי לדוגמה של SageMaker s3://sagemaker-sample-files/datasets/tabular/synthetic_credit_card_transactions
.
אנחנו הולכים לבצע את השאילתה הבאה בעורך השאילתות. זה ייצור שלוש טבלאות, כרטיסים, עסקאות, ו משתמשים.
אתה יכול לאמת שהשאילתה רצה בהצלחה על ידי הצגת שלוש טבלאות בחלונית השמאלית של עורך השאילתות.
לאחר שכל הטבלאות מאוכלסות, נווט אל SageMaker RStudio והתחל הפעלה חדשה עם תמונת בסיס RSession במופע ml.m5.xlarge.
לאחר השקת ההפעלה, נריץ את הקוד הזה כדי ליצור חיבור למסד הנתונים שלנו ללא שרתים של Amazon Redshift.
על מנת להציג את הטבלאות בסכימה הסינתטית, תצטרך להעניק גישה באמזון Redshift דרך עורך השאילתות.
ה-RStudio חיבורי חלונית צריכה להראות את sagemaker
מסד נתונים עם סכימה סינתטית וטבלאות כרטיסים, עסקאות, משתמשים.
אתה יכול ללחוץ על סמל הטבלה שליד הטבלאות כדי להציג 1,000 רשומות.
הערה: יצרנו קובץ R Markdown בנוי מראש עם כל בלוקי הקוד בנויים מראש שניתן למצוא בפרויקט GitHub ריפו.
עכשיו בואו נשתמש ב DBI
פונקציית חבילה dbListTables()
לצפייה בטבלאות קיימות.
השתמש ב-dbGetQuery() כדי להעביר שאילתת SQL למסד הנתונים.
אנחנו יכולים גם להשתמש ב- dbplyr
ו dplyr
חבילות לביצוע שאילתות במסד הנתונים. בואו count()
כמה עסקאות יש בטבלת העסקאות. אבל ראשית, עלינו להתקין את החבילות הללו.
השתמש tbl()
פונקציה תוך ציון הסכימה.
בואו נריץ ספירה של מספר השורות עבור כל טבלה.
אז יש לנו 2,000 משתמשים; 6,146 קלפים; ו-24,386,900 עסקאות. אנחנו יכולים גם להציג את הטבלאות בקונסולה.
transactions_tbl
אנחנו יכולים גם לראות מה dplyr
פעלים עושים מתחת למכסה המנוע.
בואו נבדוק חזותית את מספר העסקאות לפי שנה.
אנו יכולים גם לסכם נתונים במסד הנתונים באופן הבא:
נניח שאנו רוצים לראות הונאה באמצעות פרטי כרטיס. אנחנו רק צריכים להצטרף לטבלאות ואז לקבץ אותם לפי התכונה.
עכשיו בואו נכין מערך נתונים שיכול לשמש ללמידת מכונה. בואו נסנן את נתוני העסקאות כך שיכללו רק כרטיסי אשראי של Discover תוך שמירה על תת-קבוצה של עמודות.
ועכשיו בואו נעשה ניקוי באמצעות התמורות הבאות:
- המרת
is_fraud
לתכונה בינארית - הסר מחרוזת עסקה מ
use_chip
ושנה את השם לסוג - שלב שנה, חודש ויום לאובייקט נתונים
- הסר $ מהסכום והמר לסוג נתונים מספרי
כעת, לאחר שסיננו וניקינו את מערך הנתונים שלנו, אנו מוכנים לאסוף את מערך הנתונים הזה לתוך זיכרון RAM מקומי.
כעת יש לנו מערך נתונים עובד כדי להתחיל ליצור תכונות ולהתאים מודלים. לא נסקור את השלבים האלה בבלוג הזה, אבל אם אתה רוצה ללמוד עוד על בניית מודלים ב-RStudio ב- SageMaker, עיין ב הכרזה על RStudio מנוהל במלואו באמזון SageMaker עבור מדעני נתונים.
ניקוי
כדי לנקות משאבים כלשהם כדי למנוע עלויות חוזרות, מחק את תבנית השורש CloudFormation. מחק גם את כל רכיבי ה-EFS שנוצרו ואת כל הדליים והאובייקטים של S3 שנוצרו.
סיכום
ניתוח נתונים ומידול יכולים להיות מאתגרים כאשר עובדים עם מערכי נתונים גדולים בענן. Amazon Redshift הוא מחסן נתונים פופולרי שיכול לעזור למשתמשים לבצע משימות אלו. RStudio, אחת מסביבות הפיתוח המשולבות (IDE) הנפוצות ביותר לניתוח נתונים, משמשת לעתים קרובות עם שפת R. בפוסט זה בבלוג, הראינו כיצד להשתמש באמזון Redshift ו- RStudio ב- SageMaker יחד כדי לבצע ניתוח ביעילות על מערכי נתונים מסיביים. על ידי שימוש ב-RStudio ב- SageMaker, משתמשים יכולים לנצל את התשתית המנוהלת במלואה, בקרת הגישה, הרשתות והאבטחה של SageMaker, ובמקביל גם לפשט את האינטגרציה עם Amazon Redshift. אם תרצה ללמוד עוד על השימוש בשני הכלים הללו יחד, עיין בפוסטים ובמשאבים האחרים בבלוג שלנו. אתה יכול גם לנסות להשתמש ב-RStudio ב-SageMaker וב-Amazon Redshift בעצמך ולראות כיצד הם יכולים לעזור לך עם משימות ניתוח הנתונים והמודלים שלך.
אנא הוסף את המשוב שלך לבלוג זה, או צור בקשת משיכה ב- GitHub.
על הכותבים
ריאן גארנר הוא מדען נתונים עם שירותים מקצועיים של AWS. הוא נלהב לעזור ללקוחות AWS להשתמש ב-R כדי לפתור את בעיות מדעי הנתונים ולמידת המכונה שלהם.
ראג' פאתאק הוא אדריכל פתרונות בכיר וטכנולוג המתמחה בשירותים פיננסיים (ביטוח, בנקאות, שוק הון) ולמידת מכונה. הוא מתמחה בעיבוד שפה טבעית (NLP), מודלים של שפה גדולה (LLM) ופרויקטים של תשתית ותפעול למידת מכונה (MLOps).
עדיטי ראג'ניש הוא סטודנט שנה שנייה להנדסת תוכנה באוניברסיטת ווטרלו. תחומי העניין שלה כוללים ראייה ממוחשבת, עיבוד שפה טבעית ומחשוב קצה. היא גם נלהבת מהסברה והסברה של STEM מבוססי קהילה. בזמנה הפנוי אפשר למצוא אותה מטפסת על צוקים, מנגנת בפסנתר או לומדת איך לאפות את הסקונס המושלם.
Saiteja Pudi הוא אדריכל פתרונות ב-AWS, שבסיסו בדאלאס, טקסס. הוא עובד עם AWS כבר יותר מ-3 שנים, ועוזר ללקוחות להפיק את הפוטנציאל האמיתי של AWS בכך שהוא היועץ המהימן שלהם. הוא מגיע מרקע של פיתוח אפליקציות, מתעניין במדעי נתונים ולמידת מכונה.
- AI
- איי אמנות
- מחולל אמנות ai
- איי רובוט
- האדום של אמזון
- אמזון SageMaker
- בינה מלאכותית
- הסמכת בינה מלאכותית
- בינה מלאכותית בבנקאות
- רובוט בינה מלאכותית
- רובוטים של בינה מלאכותית
- תוכנת בינה מלאכותית
- למידת מכונות AWS
- blockchain
- blockchain conference ai
- קוינגניוס
- בינה מלאכותית של שיחה
- קריפטו כנס ai
- של דאל
- למידה עמוקה
- מומחה (400)
- גוגל איי
- למידת מכונה
- אפלטון
- plato ai
- מודיעין אפלטון
- משחק אפלטון
- אפלטון נתונים
- פלטוגיימינג
- סולם ai
- תחביר
- מדריך טכני
- זפירנט