ארגונים הנעים לעבר תרבות מונעת נתונים מאמצים את השימוש בנתונים ולמידת מכונה (ML) בקבלת החלטות. כדי לקבל החלטות מבוססות ML מנתונים, אתה צריך את הנתונים שלך זמינים, נגישים, נקיים ובפורמט הנכון כדי להכשיר מודלים של ML. ארגונים עם ארכיטקטורה מרובת חשבונות רוצים להימנע ממצבים שבהם עליהם לחלץ נתונים מחשבון אחד ולטעון אותם לחשבון אחר לצורך פעילויות הכנת נתונים. בנייה ותחזוקה ידנית של עבודות החילוץ, ההמרה והטעינה (ETL) השונות בחשבונות שונים מוסיפה מורכבות ועלות, ומקשה על שמירה על שיטות הניהול, התאימות והאבטחה המומלצות כדי לשמור על בטיחות הנתונים שלך.
האדום של אמזון הוא מחסן נתונים בענן מהיר ומנוהל במלואו. תכונת שיתוף הנתונים חוצה-חשבונות של Amazon Redshift מספקת דרך פשוטה ומאובטחת לשתף נתונים רעננים, מלאים ועקביים במחסן הנתונים של Amazon Redshift שלך עם כל מספר של בעלי עניין בחשבונות AWS שונים. רנגלר הנתונים של אמזון SageMaker היא יכולת של אמזון SageMaker זה הופך את זה למהיר יותר עבור מדעני נתונים ומהנדסים להכין נתונים עבור יישומי ML באמצעות ממשק חזותי. Data Wrangler מאפשר לך לחקור ולשנות נתונים עבור ML על ידי חיבור לשיתוף נתונים של Amazon Redshift.
בפוסט זה, אנו עוברים דרך הגדרת אינטגרציה חוצת חשבונות באמצעות שיתוף נתונים של Amazon Redshift והכנת נתונים באמצעות Data Wrangler.
סקירת פתרונות
אנחנו מתחילים עם שני חשבונות AWS: חשבון יצרן עם מחסן הנתונים של אמזון Redshift, וחשבון צרכן עבור מקרי שימוש של SageMaker ML. עבור פוסט זה, אנו משתמשים ב- מערך נתונים בנקאי. כדי לעקוב אחריך, הורד את מערך הנתונים למחשב המקומי שלך. להלן סקירה ברמה גבוהה של זרימת העבודה:
- בצע מופע של אשכול אמזון Redshift RA3 בחשבון המפיק וטען את מערך הנתונים.
- צור שיתוף נתונים של Amazon Redshift בחשבון היצרן ואפשר לחשבון הצרכן לגשת לנתונים.
- גש לשיתוף הנתונים של Amazon Redshift בחשבון הצרכן.
- נתח ועבד נתונים עם Data Wrangler בחשבון הצרכן ובנה את תהליכי העבודה שלך בהכנת הנתונים.
להיות מודע ל שיקולים לעבודה עם שיתוף נתונים של Amazon Redshift:
- מספר חשבונות AWS - אתה צריך לפחות שני חשבונות AWS: חשבון מפיק וחשבון צרכן.
- סוג אשכול - שיתוף נתונים נתמך בסוג אשכול RA3. בעת יצירת אשכול אמזון האדום, הקפד לבחור בסוג אשכול RA3.
- הצף - כדי ששיתוף הנתונים יעבוד, גם אשכול היצרן וגם הצרכנים חייבים להיות מוצפנים וצריכים להיות באותו אזור AWS.
- אזורים - שיתוף נתונים חוצה-חשבונות זמין עבור כל אמזון האדום סוגי צומת RA3 בארה"ב מזרח (נ' וירג'יניה), ארה"ב מזרח (אוהיו), ארה"ב מערב (נ' קליפורניה), ארה"ב מערב (אורגון), אסיה פסיפיק (מומביי), אסיה פסיפיק (סיאול), אסיה פסיפיק (סינגפור), אסיה פסיפיק ( סידני), אסיה פסיפיק (טוקיו), קנדה (מרכז), אירופה (פרנקפורט), אירופה (אירלנד), אירופה (לונדון), אירופה (פריז), אירופה (שטוקהולם) ודרום אמריקה (סאו פאולו).
- מחיר כרטיס - שיתוף נתונים חוצה-חשבונות זמין בין אשכולות שנמצאים באותו אזור. אין עלות לשיתוף נתונים. אתה רק משלם עבור אשכולות אמזון האדום שמשתתפים בשיתוף.
שיתוף נתונים בין חשבונות הוא תהליך דו-שלבי. ראשית, מנהל אשכול יצרנים יוצר שיתוף נתונים, מוסיף אובייקטים ומעניק גישה לחשבון הצרכן. לאחר מכן, מנהל חשבון היצרן מאשר שיתוף נתונים עבור הצרכן שצוין. אתה יכול לעשות זאת ממסוף אמזון Redshift.
צור שיתוף נתונים של Amazon Redshift בחשבון המפיק
כדי ליצור את שיתוף הנתונים שלך, בצע את השלבים הבאים:
- בקונסולת Amazon Redshift, צור אשכול אמזון Redshift.
- לפרט הפקה ובחר את סוג הצומת RA3.
- תַחַת תצורות נוספות, בטל את הבחירה השתמש בברירות מחדל.
- תַחַת תצורות מסדי נתונים, הגדר הצפנה עבור האשכול שלך.
- לאחר יצירת האשכול, ייבא את מערך הנתונים של בנק השיווק הישיר. אתה יכול להוריד מכתובת האתר הבאה: https://sagemaker-sample-data-us-west-2.s3-us-west-2.amazonaws.com/autopilot/direct_marketing/bank-additional.zip.
- העלה
bank-additional-full.csv
כדי שירות אחסון פשוט של אמזון (Amazon S3) לדלי יש לאשכול שלך גישה. - השתמש בעורך השאילתות של Amazon Redshift והפעל את שאילתת SQL הבאה כדי להעתיק את הנתונים לתוך Amazon Redshift:
- נווט אל דף הפרטים של האשכול וב- שיתופי נתונים בחר, בחר צור שיתוף נתונים.
- בעד שם שיתוף נתונים, הכנס שם.
- בעד שם בסיס הנתונים, בחר מסד נתונים.
- ב הוסף אובייקטי שיתוף נתונים בקטע, בחר את האובייקטים ממסד הנתונים שברצונך לכלול ב-datashare.
יש לך שליטה מפורטת במה שאתה בוחר לשתף עם אחרים. לשם הפשטות, אנו חולקים את כל הטבלאות. בפועל, תוכל לבחור טבלה אחת או יותר, תצוגות או פונקציות מוגדרות על ידי משתמש. - בחרו להוסיף.
- כדי להוסיף צרכני נתונים, בחר הוסף חשבונות AWS לשיתוף הנתונים והוסף את מזהה חשבון AWS המשני שלך.
- בחרו צור שיתוף נתונים.
- כדי לאשר את צרכן הנתונים שזה עתה יצרת, עבור אל שיתופי נתונים עמוד בקונסולת אמזון Redshift ובחר את שיתוף הנתונים החדש.
- בחר את צרכן הנתונים ובחר לְאַשֵׁר.
סטטוס הצרכן משתנה מ Pending authorization
ל Authorized
.
גש לשיתוף הנתונים חוצה-חשבונות של Amazon Redshift בחשבון AWS לצרכן
כעת לאחר הגדרת שיתוף הנתונים, עבור לחשבון ה-AWS הצרכני שלך כדי לצרוך את שיתוף הנתונים. ודא שיש לך לפחות אשכול אמזון Redshift אחד שנוצר בחשבון הצרכן שלך. האשכול חייב להיות מוצפן ובאותו אזור כמו המקור.
- בקונסולת אמזון Redshift, בחר שיתופי נתונים בחלונית הניווט.
- על מחשבונות אחרים בכרטיסייה, בחר את שיתוף הנתונים שיצרת ובחר עמית.
- אתה יכול לשייך את שיתוף הנתונים לאשכולות אחד או יותר בחשבון זה או לשייך את שיתוף הנתונים לכל החשבון כך שהאשכולות הנוכחיים והעתידיים בחשבון הצרכן יקבלו גישה לשיתוף זה.
- ציין את פרטי החיבור שלך ובחר לְחַבֵּר.
- בחרו צור מסד נתונים משיתוף נתונים והזן שם למסד הנתונים החדש שלך.
- כדי לבדוק את שיתוף הנתונים, עבור אל עורך השאילתות והפעל שאילתות מול מסד הנתונים החדש כדי לוודא שכל האובייקטים זמינים כחלק משיתוף הנתונים.
ניתוח ועיבוד נתונים באמצעות Data Wrangler
כעת אתה יכול להשתמש ב-Data Wrangler כדי לגשת לנתונים חוצי החשבונות שנוצרו כשיתוף נתונים באמזון Redshift.
- להרחיב סטודיו SageMaker של אמזון.
- על שלח בתפריט, בחר חדש ו זרימת רנגלר נתונים.
- על תבואו בחר, בחר הוסף מקור נתונים ו האדום של אמזון.
- הזן את פרטי החיבור של אשכול האדום של אמזון שיצרת זה עתה בחשבון הצרכן עבור שיתוף הנתונים.
- בחרו לְחַבֵּר.
- השתמש AWS זהות וניהול גישה התפקיד (IAM) שבו השתמשת עבור אשכול אמזון האדום שלך.
שימו לב שלמרות שה-datashare הוא מסד נתונים חדש באשכול האדום של אמזון, לא ניתן להתחבר אליו ישירות מ-Data Wrangler.
הדרך הנכונה היא להתחבר תחילה למסד הנתונים של אשכול ברירת המחדל, ולאחר מכן להשתמש ב-SQL כדי לבצע שאילתות במסד הנתונים של שיתוף הנתונים. ספק את המידע הנדרש לחיבור למסד הנתונים של אשכול ברירת המחדל. שימו לב כי א שירות ניהול מפתח AWS מזהה מפתח (AWS KMS) אינו נדרש על מנת להתחבר.
Data Wrangler מחובר כעת למופע של Amazon Redshift.
- שאל את הנתונים במסד הנתונים של Amazon Redshift Datashare באמצעות עורך SQL.
- בחרו תבואו לייבא את מערך הנתונים ל-Data Wrangler.
- הזן שם עבור מערך הנתונים ובחר להוסיף.
עכשיו אתה יכול לראות את הזרימה על זרימת נתונים לשונית של Data Wrangler.
לאחר שטענת את הנתונים ל-Data Wrangler, תוכל לבצע ניתוח נתונים חקרני ולהכין נתונים עבור ML.
- בחר את סימן הפלוס ובחר הוסף ניתוח.
Data Wrangler מספק ניתוחים מובנים. אלה כוללים, בין היתר, דוח איכות נתונים ותובנות, מתאם נתונים, דוח הטיה לפני אימון, סיכום של מערך הנתונים שלך והדמיות (כגון היסטוגרמות וחלקות פיזור). אתה יכול גם ליצור הדמיה מותאמת אישית משלך.
אתה יכול להשתמש בדוח איכות נתונים ותובנות כדי ליצור אוטומטית הדמיות וניתוחים כדי לזהות בעיות באיכות הנתונים, ולהמליץ על השינוי הנכון הנדרש עבור מערך הנתונים שלך.
- בחרו דוח איכות נתונים ותובנות, ובחר את עמודת יעד as y.
- כי זו הצהרת בעיית סיווג, עבור סוג הבעיה, בחר מִיוּן.
- בחרו צור.
Data Wrangler יוצר דוח מפורט על מערך הנתונים שלך. אתה יכול גם להוריד את הדוח למחשב המקומי שלך.
בזמן כתיבת שורות אלה, Data Wrangler מספקת למעלה מ-300 טרנספורמציות מובנות. אתה יכול גם לכתוב טרנספורמציות משלך באמצעות Pandas או PySpark.
כעת אתה יכול להתחיל לבנות את ההמרות והניתוח שלך על סמך הדרישה העסקית שלך.
סיכום
בפוסט זה, חקרנו שיתוף נתונים בין חשבונות באמצעות שיתופי נתונים של Amazon Redshift מבלי צורך להוריד ולהעלות נתונים באופן ידני. עברנו על איך לגשת לנתונים המשותפים באמצעות Data Wrangler ולהכין את הנתונים למקרי השימוש שלך ב-ML. היכולת הזו ללא קוד/קוד נמוך של Amazon Redshift Datashares ו-Data Wrangler מאיצה הכנת נתוני אימון ומגבירה את הזריזות של מהנדסי נתונים ומדעני נתונים עם הכנת נתונים איטרטיביים מהירה יותר.
למידע נוסף על Amazon Redshift ו- SageMaker, עיין ב- Amazon Redshift מדריך למפתחים ו תיעוד אמזון SageMaker.
על הכותבים
Meenakshisundaram Thandavarayan הוא מומחה בכיר בינה מלאכותית/ML עם AWS. הוא עוזר לחשבונות אסטרטגיים היי-טק במסע ה-AI וה-ML שלהם. הוא מאוד נלהב מבינה מלאכותית מונעת נתונים.
ג'יימס וו הוא ארכיטקט פתרונות מומחה בינה מלאכותית/ML בכיר ב-AWS. עוזר ללקוחות לתכנן ולבנות פתרונות AI/ML. עבודתו של ג'יימס מכסה מגוון רחב של מקרי שימוש ב-ML, עם עניין עיקרי בראייה ממוחשבת, למידה עמוקה והרחבת ML ברחבי הארגון. לפני שהצטרף ל-AWS, ג'יימס היה אדריכל, מפתח ומוביל טכנולוגיה במשך למעלה מ-10 שנים, כולל 6 שנים בהנדסה ו-4 שנים בתעשיות שיווק ופרסום.
- Coinsmart. בורסת הביטקוין והקריפטו הטובה באירופה.
- Platoblockchain. Web3 Metaverse Intelligence. ידע מוגבר. גישה חופשית.
- CryptoHawk. רדאר אלטקוין. ניסיון חינם.
- מקור: https://aws.amazon.com/blogs/machine-learning/import-data-from-cross-account-amazon-redshift-in-amazon-sagemaker-data-wrangler-for-exploratory-data-analysis- והכנת-נתונים/
- "
- &
- 10
- 100
- 11
- 7
- a
- אודות
- גישה
- נגיש
- חֶשְׁבּוֹן
- לרוחב
- פעילויות
- פרסום
- נגד
- AI
- תעשיות
- מאפשר
- אמזון בעברית
- אמריקה
- אנליזה
- אחר
- יישומים
- ארכיטקטורה
- אסיה
- אסיה פסיפיק
- עמית
- באופן אוטומטי
- זמין
- AWS
- בנק
- הטוב ביותר
- שיטות עבודה מומלצות
- גבול
- לִבנוֹת
- בִּניָן
- מובנה
- עסקים
- קליפורניה
- מבצע
- קנדה
- מקרים
- מֶרכָּזִי
- בחרו
- מיון
- ענן
- להשלים
- הענות
- המחשב
- לְחַבֵּר
- מחובר
- מקשר
- הקשר
- עִקבִי
- קונסול
- לצרוך
- צרכן
- צרכנים
- צור קשר
- לִשְׁלוֹט
- לִיצוֹר
- נוצר
- יוצר
- אישורים
- תַרְבּוּת
- נוֹכְחִי
- מנהג
- לקוחות
- נתונים
- ניתוח נתונים
- שיתוף מידע
- מסד נתונים
- החלטות
- עמוק
- עיצוב
- מְפוֹרָט
- פרטים
- מפתח
- אחר
- קשה
- ישיר
- ישירות
- להורדה
- עורך
- חינוך
- לחבק
- הצף
- הנדסה
- מהנדסים
- זן
- מִפְעָל
- אירופה
- לחקור
- מהר
- מהר יותר
- מאפיין
- ראשון
- תזרים
- לעקוב
- הבא
- פוּרמָט
- טרי
- החל מ-
- פונקציות
- עתיד
- ליצור
- ממשל
- יש
- עזרה
- עוזר
- דיור
- איך
- איך
- HTTPS
- לזהות
- זהות
- לכלול
- כולל
- תעשיות
- מידע
- תובנות
- למשל
- השתלבות
- אינטרס
- מִמְשָׁק
- אירלנד
- בעיות
- IT
- עבודה
- מקומות תעסוקה
- הצטרפות
- מסע
- שמור
- מפתח
- מנהיג
- לִלמוֹד
- למידה
- מוגבל
- לִטעוֹן
- מקומי
- מיקום
- לונדון
- מכונה
- למידת מכונה
- לתחזק
- לעשות
- עושה
- הצליח
- ניהול
- באופן ידני
- שיווק
- יכול
- ML
- מודלים
- חוֹדֶשׁ
- יותר
- נע
- מומבאי
- ניווט
- מספר
- אוהיו
- להזמין
- אורגון
- ארגונים
- אחר
- שֶׁלוֹ
- פסיפיק
- פריז
- חלק
- להשתתף
- לוהט
- תשלום
- תרגול
- להכין
- קודם
- יְסוֹדִי
- בעיה
- תהליך
- יַצרָן
- לספק
- מספק
- איכות
- רכס
- להמליץ
- באזור
- לדווח
- נדרש
- תפקיד
- הפעלה
- בטוח
- אותו
- דרוג
- מדענים
- משני
- לבטח
- אבטחה
- סיאול
- סט
- הצבה
- שיתוף
- משותף
- שיתוף
- סִימָן
- פָּשׁוּט
- סינגפור
- So
- מוצק
- פִּתָרוֹן
- פתרונות
- דרום
- מומחה
- התחלה
- הצהרה
- מצב
- אחסון
- אסטרטגי
- נתמך
- מתג
- סידני
- טכנולוגיה
- מבחן
- השמיים
- המקור
- דרך
- זמן
- טוקיו
- לקראת
- הדרכה
- לשנות
- טרנספורמציה
- טרנספורמציות
- us
- להשתמש
- וירג'יניה
- חזון
- ראיה
- מערב
- מה
- לְלֹא
- תיק עבודות
- זרימות עבודה
- עובד
- כתיבה
- שנים