יערות המנגרובים הם חלק חשוב ממערכת אקולוגית בריאה, ופעילויות אנושיות הן אחת הסיבות העיקריות להיעלמותן ההדרגתית מקווי החוף ברחבי העולם. שימוש במודל למידת מכונה (ML) לזיהוי אזורי מנגרובים מתמונת לוויין נותן לחוקרים דרך יעילה לנטר את גודל היערות לאורך זמן. ב חלק 1 מהסדרה הזו, הראינו כיצד לאסוף נתוני לוויין בצורה אוטומטית ולנתח אותם סטודיו SageMaker של אמזון עם הדמיה אינטראקטיבית. בפוסט זה, אנו מראים כיצד להשתמש טייס אוטומטי של אמזון לאוטומציה של תהליך בניית סיווג מנגרובים מותאם אישית.
אימון דגם עם טייס אוטומטי
טייס אוטומטי מספק דרך מאוזנת לבנות מספר דגמים ולבחור את הטוב ביותר. תוך יצירת שילובים מרובים של טכניקות שונות לעיבוד מוקדם של נתונים ומודלים של ML במינימום מאמץ, הטייס האוטומטי מספק שליטה מלאה על שלבי הרכיבים הללו למדען הנתונים, אם תרצה בכך.
אתה יכול להשתמש בטייס אוטומטי באמצעות אחד מה-SDKs של AWS (פרטים זמינים ב- מדריך עזר ל-API עבור טייס אוטומטי) או דרך סטודיו. אנו משתמשים בטייס אוטומטי בפתרון הסטודיו שלנו בהתאם לשלבים המתוארים בסעיף זה:
- בדף Studio Launcher, בחר את סימן הפלוס עבור ניסוי טייס אוטומטי חדש.
- בעד חבר את הנתונים שלך, בחר מצא את דלי S3, והזן את שם הדלי שבו שמרת את מערכי ההדרכה והבדיקות.
- בעד שם קובץ מערך הנתונים, הזן את השם של קובץ נתוני האימון שיצרת ב- הכן את נתוני ההדרכה קטע ב חלק 1.
- בעד מיקום נתוני פלט (דלי S3), הזן את אותו שם דלי שבו השתמשת בשלב 2.
- בעד שם ספריית ערכת הנתונים, הזן שם תיקיה מתחת לדלי שבו תרצה שהטייס האוטומטי יאחסן חפצים.
- בעד האם קלט ה-S3 שלך הוא קובץ מניפסט?, בחר כבוי.
- בעד יעד, בחר תווית.
- בעד פריסה אוטומטית, בחר כבוי.
- תחת הגדרות מתקדמות, עבור סוג בעיית למידת מכונה, בחר סיווג בינארי.
- בעד מדד אובייקטיבי, בחר AUC.
- בעד בחר כיצד להפעיל את הניסוי שלך, בחר לא, הפעל פיילוט ליצירת מחברת עם הגדרות מועמדים.
- בחרו צור ניסוי.
למידע נוסף על יצירת ניסוי, עיין ב צור ניסוי טייס אוטומטי של אמזון SageMaker.ייתכן שייקח כ-15 דקות להפעיל את השלב הזה. - בסיום, בחר מחברת פתיחת דור מועמדים פתוחה, שפותח מחברת חדשה במצב קריאה בלבד.
- בחרו ייבוא מחברת כדי להפוך את המחברת לניתנת לעריכה.
- עבור תמונה, בחר מדע נתונים.
- בעד גַרעִין, בחר פייתון 3.
- בחרו בחר.
למחברת שנוצרה אוטומטית יש הסברים מפורטים ומספקת שליטה מלאה על משימת בניית הדגם בפועל. גרסה מותאמת אישית של מחברה, שבו מסווג מאומן באמצעות פסי לוויין Landsat משנת 2013, זמין במאגר הקודים תחת notebooks/mangrove-2013.ipynb
.
מסגרת בניית המודל מורכבת משני חלקים: טרנספורמציה של תכונות כחלק משלב עיבוד הנתונים, ואופטימיזציה של היפרפרמטרים (HPO) כחלק משלב בחירת המודל. כל החפצים הדרושים עבור משימות אלה נוצרו במהלך ניסוי הטייס האוטומטי ונשמרו שירות אחסון פשוט של אמזון (אמזון S3). תא המחברת הראשון מוריד את החפצים הללו מאמזון S3 למקומון אמזון SageMaker מערכת קבצים לבדיקה ולכל שינוי הכרחי. יש שתי תיקיות: generated_module
ו sagemaker_automl
, שבו מאוחסנים כל המודולים והסקריפטים של Python הדרושים להפעלת המחברת. שלבי שינוי התכונות השונים כמו זקיפה, קנה מידה ו-PCA נשמרים בשם generated_modules/candidate_data_processors/dpp*.py.
הטייס האוטומטי יוצר שלושה מודלים שונים המבוססים על האלגוריתמים XGBoost, לומד לינארי ורב שכבתי (MLP). צינור מועמד מורכב מאחת מאפשרויות טרנספורמציה של תכונה, המכונה data_transformer
ואלגוריתם. צינור הוא מילון פייתון וניתן להגדיר אותו כך:
בדוגמה זו, הצינור הופך את נתוני האימון בהתאם לסקריפט פנימה generated_modules/candidate_data_processors/dpp5.py
ובונה דגם XGBoost. זה המקום שבו הטייס האוטומטי מספק שליטה מלאה למדען הנתונים, שיכול לבחור את שלבי שינוי התכונות שנוצרו אוטומטית ואת שלבי בחירת המודל או לבנות שילוב משלהם.
כעת תוכל להוסיף את הצינור למאגר כדי שהטייס האוטומטי יפעיל את הניסוי באופן הבא:
זהו צעד חשוב שבו אתה יכול להחליט לשמור רק תת-קבוצה של מועמדים שהוצעו על ידי טייס אוטומטי, בהתבסס על מומחיות בנושא, כדי להפחית את זמן הריצה הכולל. לעת עתה, שמור את כל הצעות הטייס האוטומטי, אותן תוכל לרשום באופן הבא:
שם מועמד | אַלגוֹרִיתְם | תכונה שנאי |
dpp0-xgboost | xgboost | dpp0.py |
dpp1-xgboost | xgboost | dpp1.py |
dpp2-linear-learner | לומד לינארי | dpp2.py |
dpp3-xgboost | xgboost | dpp3.py |
dpp4-xgboost | xgboost | dpp4.py |
dpp5-xgboost | xgboost | dpp5.py |
dpp6-mlp | MLP | dpp6.py |
ניסוי הטייס האוטומטי המלא נעשה בשני חלקים. ראשית, עליך להפעיל את עבודות שינוי הנתונים:
שלב זה אמור להסתיים תוך כ-30 דקות עבור כל המועמדים, אם לא תבצע שינויים נוספים ב- dpp*.py
קבצים.
השלב הבא הוא לבנות את קבוצת המודלים הטובה ביותר על ידי כוונון ההיפרפרמטרים עבור האלגוריתמים המתאימים. ההיפרפרמטרים מחולקים בדרך כלל לשני חלקים: סטטי ו-tunable. הפרמטרים ההיפר-סטטיים נשארים ללא שינוי לאורך הניסוי עבור כל המועמדים שחולקים את אותו אלגוריתם. ההיפרפרמטרים הללו מועברים לניסוי כמילון. אם תבחר לבחור את המודל הטוב ביותר של XGBoost על ידי מיקסום AUC משלושה סבבים של ערכת אימות צולב פי חמישה, המילון נראה כמו הקוד הבא:
עבור ההיפרפרמטרים הניתנים לשינוי, עליך להעביר מילון נוסף עם טווחים וסוג קנה מידה:
הסט המלא של ההיפרפרמטרים זמין ב- mangrove-2013.ipynb
מחברה.
כדי ליצור ניסוי שבו ניתן לבדוק את כל שבעת המועמדים במקביל, צור מקלט HPO מרובה אלגוריתמים:
המדדים האובייקטיביים מוגדרים באופן עצמאי עבור כל אלגוריתם:
ניסיון של כל הערכים האפשריים של היפרפרמטרים עבור כל הניסויים הוא בזבזני; אתה יכול לאמץ אסטרטגיה בייסיאנית ליצירת מקלט HPO:
בהגדרת ברירת המחדל, הטייס האוטומטי בוחר 250 עבודות בטיונר כדי לבחור את הדגם הטוב ביותר. עבור מקרה שימוש זה, מספיק להגדיר max_jobs=50
כדי לחסוך זמן ומשאבים, ללא כל עונש משמעותי במונחים של בחירת קבוצת ההיפרפרמטרים הטובה ביותר. לבסוף, שלח את עבודת HPO באופן הבא:
התהליך אורך כ-80 דקות במופעי ml.m5.4xlarge. אתה יכול לעקוב אחר ההתקדמות בקונסולת SageMaker על ידי בחירה עבודות כוונון היפרפרמטרים תחת הדרכה בחלונית הניווט.
אתה יכול לדמיין שורה של מידע שימושי, כולל הביצועים של כל מועמד, על ידי בחירת שם המשרה בתהליך.
לבסוף, השווה את ביצועי המודל של המועמדים הטובים ביותר באופן הבא:
מועמד | AUC | זמן ריצה (ים) |
dpp6-mlp | 0.96008 | 2711.0 |
dpp4-xgboost | 0.95236 | 385.0 |
dpp3-xgboost | 0.95095 | 202.0 |
dpp4-xgboost | 0.95069 | 458.0 |
dpp3-xgboost | 0.95015 | 361.0 |
המודל בעל הביצועים הטובים ביותר המבוסס על MLP, למרות שהוא טוב יותר באופן שולי מדגמי XGBoost עם אפשרויות שונות של שלבי עיבוד נתונים, גם לוקח הרבה יותר זמן לאימון. אתה יכול למצוא פרטים חשובים על אימון מודל MLP, כולל שילוב הפרמטרים המשמשים, כדלקמן:
TrainingJobName | mangrove-2-notebook–211021-2016-012-500271c8 |
סטטוס אימון עבודה | השלמת |
FinalObjectiveValue | 0.96008 |
TrainingStartTime | 2021-10-21 20:22:55+00:00 |
TrainingEndTime | 2021-10-21 21:08:06+00:00 |
TrainingElapsedTimeSeconds | 2711 |
TrainingJobDefinitionName | dpp6-mlp |
dropout_prob | 0.415778 |
Embedding_size_factor | 0.849226 |
שכבות | 256 |
שיעור_למידה | 0.00013862 |
mini_batch_size | 317 |
סוג רשת | הזנה |
משקל_דעיכה | 1.29323e-12 |
צור צינור מסקנות
כדי ליצור מסקנות על נתונים חדשים, עליך לבנות צינור מסקנות ב- SageMaker כדי לארח את המודל הטוב ביותר שניתן לקרוא לו מאוחר יותר כדי ליצור מסקנות. מודל הצינור של SageMaker דורש שלושה מיכלים כמרכיביו: טרנספורמציה של נתונים, אלגוריתם ושינוי תוויות הפוך (אם יש למפות תחזיות מספריות לתוויות לא מספריות). למען הקיצור, רק חלק מהקוד הנדרש מוצג בקטע הבא; הקוד המלא זמין ב- mangrove-2013.ipynb
מחברה:
לאחר בניית מכולות הדגם, תוכל לבנות ולפרוס את הצינור באופן הבא:
פריסת נקודת הקצה נמשכת כ-10 דקות להשלמת.
קבל הסקה על מערך הנתונים של הבדיקה באמצעות נקודת קצה
לאחר פריסת נקודת הקצה, אתה יכול להפעיל אותה עם מטען של תכונות B1–B7 כדי לסווג כל פיקסל בתמונה כמנגרוב (1) או אחר (0):
פרטים מלאים על עיבוד לאחר עיבוד של תחזיות המודל להערכה וזימה זמינים ב notebooks/model_performance.ipynb
.
קבל הסקה על מערך הנתונים של הבדיקה באמצעות טרנספורמציה אצווה
כעת, לאחר שיצרת את הדגם בעל הביצועים הטובים ביותר עם טייס אוטומטי, אנו יכולים להשתמש במודל להסקת מסקנות. כדי לקבל מסקנות על מערכי נתונים גדולים, יעיל יותר להשתמש בהמרת אצווה. בואו ניצור תחזיות על כל מערך הנתונים (הדרכה ובדיקה) ונצרף את התוצאות לתכונות, כדי שנוכל לבצע ניתוח נוסף כדי, למשל, לבדוק את החזויים לעומת המציאות ואת התפלגות התכונות בין המחלקות החזויות.
ראשית, אנו יוצרים קובץ מניפסט באמזון S3 המצביע על מיקומי ההדרכה ונתוני הבדיקה משלבי עיבוד הנתונים הקודמים:
כעת נוכל ליצור עבודת טרנספורמציה אצווה. כי יש לרכבת הקלט ולמערך הנתונים שלנו label
בתור העמודה האחרונה, עלינו לשחרר אותו במהלך ההסקה. כדי לעשות זאת, אנחנו עוברים InputFilter
ב DataProcessing
טַעֲנָה. הקוד "$[:-2]"
מציין לשחרר את העמודה האחרונה. לאחר מכן מצטרף הפלט החזוי עם נתוני המקור לניתוח נוסף.
בקוד הבא, אנו בונים את הארגומנטים עבור עבודת המרת האצווה ולאחר מכן מעבירים ל- create_transform_job
פוּנקצִיָה:
אתה יכול לעקוב אחר מצב העבודה בקונסולת SageMaker.
דמיין את ביצועי המודל
כעת אתה יכול לדמיין את הביצועים של המודל הטוב ביותר במערך הבדיקה, המורכב מאזורים מהודו, מיאנמר, קובה וויאטנם, כמטריצת בלבול. למודל יש ערך ריקול גבוה עבור פיקסלים המייצגים מנגרובים, אך רק כ-75% דיוק. הדיוק של פיקסלים שאינם מנגרובים או אחרים עומד על 99% עם ריקול של 85%. אתה יכול לכוון את חתך ההסתברות של תחזיות המודל כדי להתאים את הערכים המתאימים בהתאם למקרה השימוש הספציפי.
ראוי לציין שהתוצאות מהוות שיפור משמעותי ביחס לדגם ה-smileCart המובנה.
דמיין תחזיות מודל
לבסוף, כדאי לצפות בביצועי המודל באזורים ספציפיים במפה. בתמונה הבאה, אזור המנגרובים בגבול הודו-בנגלדש מתואר באדום. נקודות שנדגמו מתיקון התמונה של Landsat השייכות למערך הנתונים של הבדיקה מונחות על האזור, כאשר כל נקודה היא פיקסל שהמודל קובע כמייצג מנגרובים. הנקודות הכחולות מסווגות בצורה נכונה לפי הדגם, בעוד שהנקודות השחורות מייצגות טעויות של הדגם.
התמונה הבאה מציגה רק את הנקודות שהדגם חזה שאינן מייצגות מנגרובים, עם אותה ערכת צבעים כמו הדוגמה הקודמת. קו המתאר האפור הוא החלק של חלקת ה-Landsat שאינו כולל מנגרובים. כפי שעולה מהתמונה, המודל לא עושה שום טעות בסיווג נקודות על מים, אלא עומד בפני אתגר כאשר מבחין בין פיקסלים המייצגים מנגרובים לאלו המייצגים עלווה רגילה.
התמונה הבאה מציגה את ביצועי הדגם באזור המנגרובים של מיאנמר.
בתמונה הבאה, המודל עושה עבודה טובה יותר בזיהוי פיקסלים מנגרובים.
לנקות את
נקודת הסיום של SageMaker ממשיכה לגבות עלות אם היא נשארת פועלת. מחק את נקודת הקצה באופן הבא כשתסיים:
סיכום
סדרת פוסטים זו סיפקה מסגרת מקצה לקצה עבור מדעני נתונים לפתרון בעיות GIS. חלק 1 הראה את תהליך ה-ETL ודרך נוחה לאינטראקציה ויזואלית עם הנתונים. חלק 2 הראה כיצד להשתמש בטייס אוטומטי כדי להפוך בניית סיווג מנגרובים מותאם אישית.
אתה יכול להשתמש במסגרת זו כדי לחקור מערכי נתונים חדשים של לוויינים המכילים קבוצה עשירה יותר של להקות שימושיות לסיווג מנגרובים ולחקור הנדסת תכונות על ידי שילוב ידע בתחום.
על הכותבים
אנדריי איבנוביץ' הוא סטודנט נכנס לתואר שני במדעי המחשב באוניברסיטת טורונטו ובוגר טרי של התוכנית למדעי ההנדסה באוניברסיטת טורונטו, בהתמחות במודיעין מכונה עם קטין רובוטיקה/מכטרוניקה. הוא מתעניין בראייה ממוחשבת, למידה עמוקה ורובוטיקה. הוא עשה את העבודה שהוצגה בפוסט הזה במהלך התמחות הקיץ שלו באמזון.
דיוויד דונג הוא מדען נתונים בשירותי האינטרנט של אמזון.
ארקג'יוטי מיסרה הוא מדען נתונים ב- Amazon LastMile Transportation. הוא נלהב ליישם טכניקות של ראיית מחשב כדי לפתור בעיות שעוזרות לכדור הארץ. הוא אוהב לעבוד עם ארגונים ללא מטרות רווח והוא חבר מייסד של ekipi.org.
- Coinsmart. בורסת הביטקוין והקריפטו הטובה באירופה.
- Platoblockchain. Web3 Metaverse Intelligence. ידע מוגבר. גישה חופשית.
- CryptoHawk. רדאר אלטקוין. ניסיון חינם.
- מקור: https://aws.amazon.com/blogs/machine-learning/part-2-identify-mangrove-forests-using-satellite-image-features-using-amazon-sagemaker-studio-and-amazon-sagemaker- טייס אוטומטי/
- "
- 10
- 100
- a
- אודות
- פי
- פעילויות
- אַלגוֹרִיתְם
- אלגוריתמים
- תעשיות
- אמזון בעברית
- אמזון שירותי אינטרנט
- בין היתר
- אנליזה
- ניתוח
- לנתח
- אחר
- מריחה
- AREA
- טיעונים
- סביב
- אוטומטי
- אוטומטי
- באופן אוטומטי
- זמין
- AWS
- כי
- הטוב ביותר
- שחור
- גוּף
- גבול
- לִבנוֹת
- בִּניָן
- בונה
- מובנה
- מועמד
- מועמדים
- מקרה
- לאתגר
- בחירות
- בחרו
- כיתות
- מיון
- מְסוּוָג
- קוד
- טור
- שילוב
- שילובים
- להשלים
- רְכִיב
- רכיבים
- המחשב
- מדעי מחשב
- בלבול
- קונסול
- מכולות
- ממשיך
- לִשְׁלוֹט
- נוֹחַ
- לִיצוֹר
- נוצר
- יוצר
- יוצרים
- קובה
- מנהג
- נתונים
- עיבוד נתונים
- מדען נתונים
- עמוק
- תלוי
- לפרוס
- פרס
- פריסה
- מְפוֹרָט
- פרטים
- DID
- אחר
- לְהַצִיג
- הפצה
- לא
- תחום
- הורדות
- ירידה
- בְּמַהֲלָך
- כל אחד
- כדור הארץ
- המערכת האקולוגית
- אפקטיבי
- יעיל
- מאמץ
- מקצה לקצה
- נקודת קצה
- הנדסה
- זן
- הערכה
- דוגמה
- לְנַסוֹת
- מומחיות
- לחקור
- פנים
- אופנה
- מאפיין
- תכונות
- בסופו של דבר
- ראשון
- לעקוב
- הבא
- כדלקמן
- ייסוד
- מסגרת
- החל מ-
- מלא
- פונקציה
- נוסף
- ליצור
- נוצר
- דור
- בוגר
- אפור
- מדריך
- גובה
- עוזר
- גָבוֹהַ
- איך
- איך
- HTTPS
- בן אנוש
- לזהות
- זיהוי
- תמונה
- חשוב
- השבחה
- לכלול
- כולל
- באופן עצמאי
- הודו
- מידע
- קלט
- למשל
- מוֹדִיעִין
- אינטראקטיבי
- מעוניין
- IT
- עבודה
- מקומות תעסוקה
- הצטרף
- שמור
- ידע
- ידוע
- תווית
- תוויות
- גָדוֹל
- למידה
- קו
- רשימה
- מקומי
- מיקום
- מקומות
- מכונה
- למידת מכונה
- גדול
- לעשות
- מַפָּה
- מאסטר
- מַטרִיצָה
- דבר
- חבר
- מדדים
- טעויות
- ML
- מודל
- מודלים
- צג
- יותר
- מספר
- מיאנמר
- ניווט
- הכרחי
- הבא
- ללא כוונת רווח
- מחברה
- נפתח
- אופטימיזציה
- אפשרויות
- ארגונים
- אחר
- שֶׁלוֹ
- חלק
- מסוים
- לוהט
- תיקון
- ביצועים
- הופעות
- ביצוע
- טַיָס
- נקודה
- נקודות
- בריכה
- אפשרי
- הודעות
- התחזיות
- קודם
- בעיה
- בעיות
- תהליך
- תהליך
- תָכְנִית
- ובלבד
- מספק
- סיבות
- לאחרונה
- להפחית
- באזור
- רגיל
- להשאר
- מאגר
- לייצג
- המייצג
- לבקש
- נדרש
- דורש
- חוקרים
- משאבים
- תוצאות
- רובוטיקה
- תפקיד
- סיבובים
- הפעלה
- ריצה
- אותו
- הלוויין
- שמור
- דרוג
- תכנית
- מדע
- מַדְעָן
- מדענים
- מבחר
- סדרה
- שירותים
- סט
- הצבה
- כמה
- שיתוף
- לְהַצִיג
- הראה
- סִימָן
- משמעותי
- פָּשׁוּט
- מידה
- So
- מוצק
- פִּתָרוֹן
- לפתור
- ספציפי
- לעמוד
- מצב
- אחסון
- חנות
- אִסטרָטֶגִיָה
- סטודנט
- סטודיו
- נושא
- קיץ
- מערכת
- משימות
- טכניקות
- מונחים
- מבחן
- השמיים
- המקור
- העולם
- שְׁלוֹשָׁה
- דרך
- בכל
- זמן
- חלק עליון
- 5 העליון
- טורונטו
- הדרכה
- לשנות
- טרנספורמציה
- טרנספורמציות
- הובלה
- תחת
- אוניברסיטה
- להשתמש
- בְּדֶרֶך כְּלַל
- אימות
- ערך
- שונים
- גרסה
- חזון
- ראיה
- מים
- אינטרנט
- שירותי אינטרנט
- בזמן
- מי
- לְלֹא
- תיק עבודות
- עוֹלָם
- ראוי
- X