קדם גילוי תכונות ושימוש חוזר ברחבי הארגון שלך באמצעות Amazon SageMaker Feature Store ויכולת המטא-נתונים שלה ברמת התכונה PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

קדם גילוי תכונות ושימוש חוזר ברחבי הארגון שלך באמצעות Amazon SageMaker Feature Store ויכולת המטא נתונים שלה ברמת התכונה

חנות הפונקציות של אמזון SageMaker עוזר למדעני נתונים ומהנדסי למידת מכונה (ML) לאחסן, לגלות ולשתף בצורה מאובטחת נתונים שנאספו המשמשים בתהליכי הדרכה וחיזוי. Feature Store הוא חנות מרכזית לתכונות ומטא נתונים משויכים, המאפשרת לגלות בקלות תכונות ולעשות בהן שימוש חוזר על ידי צוותי מדעני נתונים העובדים על פרויקטים שונים או מודלים של ML.

עם Feature Store, תמיד יכולת להוסיף מטא נתונים ברמת קבוצת התכונות. מדעני נתונים שרוצים את היכולת לחפש ולגלות תכונות קיימות עבור המודלים שלהם יש כעת את היכולת לחפש מידע ברמת התכונה על ידי הוספת מטא נתונים מותאמים אישית. לדוגמה, המידע יכול לכלול תיאור של התכונה, התאריך שבו השתנה לאחרונה, מקור הנתונים המקורי שלו, מדדים מסוימים או רמת הרגישות.

התרשים הבא ממחיש את קשרי הארכיטקטורה בין קבוצות תכונות, תכונות ומטא נתונים משויכים. שימו לב כיצד מדעני נתונים יכולים כעת לציין תיאורים ומטא נתונים הן ברמת קבוצת התכונות והן ברמת התכונות הפרטניות.

בפוסט זה, אנו מסבירים כיצד מדעני נתונים ומהנדסי ML יכולים להשתמש במטא נתונים ברמת התכונה עם יכולות החיפוש והגילוי החדשות של Feature Store כדי לקדם שימוש חוזר טוב יותר בתכונות ברחבי הארגון שלהם. יכולת זו יכולה לסייע באופן משמעותי למדעני נתונים בתהליך בחירת התכונות, וכתוצאה מכך לעזור לך לזהות תכונות המובילות לדיוק מוגבר של המודל.

השתמש במקרה

למטרות פוסט זה, אנו משתמשים בשתי קבוצות תכונות, customer ו loan.

אל האני customer לקבוצת תכונות יש את התכונות הבאות:

  • גיל - גיל הלקוח (מספרי)
  • עבודה – סוג העבודה (מקודד חם אחד, כגון admin or services)
  • משפחתי – מצב משפחתי (מקודד חם אחד, כגון married or single)
  • השכלה – רמת השכלה (מקודד חם אחד, כגון basic 4y or high school)

אל האני loan לקבוצת תכונות יש את התכונות הבאות:

  • ברירת מחדל - האם אשראי במחדל? (מקודד חם אחד: no or yes)
  • דיור - יש הלוואות לדיור? (מקודד חם אחד: no or yes)
  • להלוות - יש הלוואה אישית? (מקודד חם אחד: no or yes)
  • סכום סופי - סכום כולל של הלוואות (מספרי)

האיור הבא מציג קבוצות תכונות ומטא נתונים לדוגמה.

קדם גילוי תכונות ושימוש חוזר ברחבי הארגון שלך באמצעות Amazon SageMaker Feature Store ויכולת המטא-נתונים שלה ברמת התכונה PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

המטרה של הוספת תיאור והקצאת מטא נתונים לכל תכונה היא להגביר את מהירות הגילוי על ידי הפעלת פרמטרי חיפוש חדשים שלאורכם מדען נתונים או מהנדס ML יכולים לחקור תכונות. אלה יכולים לשקף פרטים על תכונה כמו החישוב שלה, בין אם זה ממוצע במשך 6 חודשים או שנה, מקור, יוצר או בעלים, מה המשמעות של התכונה ועוד.

בסעיפים הבאים, אנו מספקים שתי גישות לחיפוש וגילוי תכונות ולהגדיר מטא נתונים ברמת התכונה: הראשונה באמצעות סטודיו SageMaker של אמזון ישירות, והשני באופן תוכניתי.

גילוי תכונה בסטודיו

אתה יכול בקלות לחפש ולשאול תכונות באמצעות Studio. עם יכולות החיפוש והגילוי המשופרות החדשות, אתה יכול לאחזר תוצאות באופן מיידי באמצעות הקלדה פשוטה לפני כמה תווים.

צילום המסך הבא מדגים את היכולות הבאות:

  • ניתן לגשת אל קטלוג תכונות לשונית ולצפות בתכונות בין קבוצות תכונות. התכונות מוצגות בטבלה הכוללת את שם התכונה, הסוג, התיאור, הפרמטרים, תאריך היצירה ושם קבוצת התכונה המשויכת.
  • אתה יכול להשתמש ישירות בפונקציונליות ההקדמה כדי להחזיר תוצאות חיפוש באופן מיידי.
  • יש לך את הגמישות להשתמש בסוגים שונים של אפשרויות סינון: All, Feature name, Description, או Parameters. שים לב ש All יחזיר את כל התכונות שבהן Feature name, Description, או Parameters מתאימים לקריטריוני החיפוש.
  • אתה יכול לצמצם את החיפוש עוד יותר על ידי ציון טווח תאריכים באמצעות ה Created from ו Created to שדות וציון פרמטרים באמצעות ה Search parameter key ו Search parameter value שדות.

קדם גילוי תכונות ושימוש חוזר ברחבי הארגון שלך באמצעות Amazon SageMaker Feature Store ויכולת המטא-נתונים שלה ברמת התכונה PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

לאחר שבחרת תכונה, תוכל לבחור את שם התכונה כדי להעלות את פרטיה. כשאתה בוחר ערוך מטא נתונים, ניתן להוסיף תיאור ועד 25 פרמטרים של ערך מפתח, כפי שמוצג בצילום המסך הבא. בתוך תצוגה זו, תוכל בסופו של דבר ליצור, להציג, לעדכן ולמחוק את המטא נתונים של התכונה. צילום המסך הבא ממחיש כיצד לערוך מטא נתונים של תכונה total_amount.

קדם גילוי תכונות ושימוש חוזר ברחבי הארגון שלך באמצעות Amazon SageMaker Feature Store ויכולת המטא-נתונים שלה ברמת התכונה PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

כפי שצוין קודם לכן, הוספת צמדי מפתח-ערך לתכונה מעניקה לך מימדים נוספים שבהם תוכל לחפש את התכונות הנתונות שלה. לדוגמה שלנו, מקור התכונה התווסף למטא נתונים של כל תכונה. כשאתה בוחר בסמל החיפוש ומסנן לאורך צמד המפתח-ערך origin: job, אתה יכול לראות את כל התכונות שקודדו ב-hot-one מתוך תכונת הבסיס הזו.

גילוי תכונות באמצעות קוד

אתה יכול גם לגשת ולעדכן מידע על תכונה דרך ממשק שורת הפקודה של AWS (AWS CLI) ו-SDK (Boto3) במקום ישירות דרך קונסולת הניהול של AWS. זה מאפשר לך לשלב את פונקציונליות החיפוש ברמת התכונה של Feature Store עם פלטפורמות מדעי הנתונים המותאמות אישית שלך. בסעיף זה, אנו מקיימים אינטראקציה עם נקודות הקצה של Boto3 API כדי לעדכן ולחפש מטא נתונים של תכונות.

כדי להתחיל לשפר את החיפוש והגילוי של תכונות, אתה יכול להוסיף מטא נתונים באמצעות update_feature_metadata ממשק API. בנוסף ל description ו created_date שדות, אתה יכול להוסיף עד 25 פרמטרים (צמדי מפתח-ערך) לתכונה נתונה.

הקוד הבא הוא דוגמה לחמישה פרמטרים אפשריים של ערך מפתח שנוספו ל- job_admin תכונה. תכונה זו נוצרה, יחד עם job_services ו job_none, על ידי קידוד חם אחד job.

sagemaker_client.update_feature_metadata(
    FeatureGroupName="customer",
    FeatureName="job_admin",
    ParameterAdditions=[
        {"Key": "author", "Value": "arnaud"}, # Feature's author
        {"Key": "team", "Value": "mlops"}, # Team owning the feature
        {"Key": "origin", "Value": "job"}, # Raw input parameter
        {"Key": "sensitivity", "Value": "5"}, # 1-5 scale for data sensitivity
        {"Key": "env", "Value": "testing"} # Environment the feature is used in
    ]
)

לאחר author, team, origin, sensitivity, ו env נוספו ל job_admin תכונה, מדעני נתונים או מהנדסי ML יכולים לאחזר אותם על ידי קריאה ל- describe_feature_metadata ממשק API. אתה יכול לנווט אל Parameters אובייקט בתגובה עבור המטא נתונים שהוספנו בעבר לתכונה שלנו. ה describe_feature_metadata נקודת קצה API מאפשרת לך לקבל תובנה טובה יותר לגבי תכונה נתונה על ידי קבלת המטא נתונים המשויכים לה.

response = sagemaker_client.describe_feature_metadata(
    FeatureGroupName="customer",
    FeatureName="job_admin",
)

# Navigate to 'Parameters' in response to get metadata
metadata = response['Parameters']

אתה יכול לחפש תכונות באמצעות SageMaker search API משתמש במטא נתונים כפרמטרי חיפוש. הקוד הבא הוא פונקציה לדוגמה שלוקחת את a search_string פרמטר כקלט ומחזיר את כל התכונות שבהן השם, התיאור או הפרמטרים של התכונה תואמים לתנאי:

def search_features_using_string(search_string):
    response = sagemaker_client.search(
        Resource= "FeatureMetadata",
        SearchExpression={
            'Filters': [
               {
                   'Name': 'FeatureName',
                   'Operator': 'Contains',
                   'Value': search_string
               },
               {
                   'Name': 'Description',
                   'Operator': 'Contains',
                   'Value': search_string
               },
               {
                   'Name': 'AllParameters',
                   'Operator': 'Contains',
                   'Value': search_string
               }
           ],
           "Operator": "Or"
        },
    )

    # Displaying results in a pandas DataFrame
    df=pd.json_normalize(response['Results'], max_level=1)
    df.columns = df.columns.map(lambda col: col.split(".")[1])
    df=df.drop('FeatureGroupArn', axis=1)

    return df

קטע הקוד הבא משתמש שלנו search_features פונקציה כדי לאחזר את כל התכונות שעבורן שם התכונה, התיאור או הפרמטרים מכילים את המילה job:

search_results = search_features_using_string('mlops')
search_results

צילום המסך הבא מכיל את רשימת שמות התכונות התואמות וכן המטא נתונים התואמים שלהן, כולל חותמות זמן ליצירת כל תכונה ושינוי אחרון. אתה יכול להשתמש במידע זה כדי לשפר את הגילוי והנראות של תכונות הארגון שלך.

קדם גילוי תכונות ושימוש חוזר ברחבי הארגון שלך באמצעות Amazon SageMaker Feature Store ויכולת המטא-נתונים שלה ברמת התכונה PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

סיכום

SageMaker Feature Store מספק פתרון ניהול תכונה בנוי במיוחד כדי לעזור לארגונים להגדיל את פיתוח ML בין יחידות עסקיות וצוותי מדעי נתונים. שיפור השימוש החוזר בתכונות ועקביות התכונות הם היתרונות העיקריים של חנות תכונות. בפוסט זה, הסברנו כיצד ניתן להשתמש במטא נתונים ברמת התכונה כדי לשפר את החיפוש והגילוי של תכונות. זה כלל יצירת מטא נתונים סביב מגוון מקרי שימוש ושימוש בהם כפרמטרי חיפוש נוספים.

נסה את זה, וספר לנו מה אתה חושב בתגובות. אם ברצונך ללמוד עוד על שיתוף פעולה ושיתוף תכונות ב- Feature Store, עיין ב אפשר שימוש חוזר בתכונות בכל חשבונות וצוותים באמצעות חנות התכונות של Amazon SageMaker.


על המחברים

קדם גילוי תכונות ושימוש חוזר ברחבי הארגון שלך באמצעות Amazon SageMaker Feature Store ויכולת המטא-נתונים שלה ברמת התכונה PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. ארנו לאואר הוא אדריכל פתרונות שותפים בכיר בצוות המגזר הציבורי ב-AWS. הוא מאפשר לשותפים וללקוחות להבין כיצד להשתמש בצורה הטובה ביותר בטכנולוגיות AWS כדי לתרגם צרכים עסקיים לפתרונות. הוא מביא עם יותר מ-16 שנות ניסיון במתן וארכיטקטורה של פרויקטים של טרנספורמציה דיגיטלית במגוון תעשיות, כולל המגזר הציבורי, אנרגיה ומוצרי צריכה. בינה מלאכותית ולמידת מכונה הם חלק מהתשוקות שלו. ארנו מחזיק ב-12 הסמכות AWS, כולל הסמכת ML Specialty.

קדם גילוי תכונות ושימוש חוזר ברחבי הארגון שלך באמצעות Amazon SageMaker Feature Store ויכולת המטא-נתונים שלה ברמת התכונה PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.ניקולס ברנייה הוא Associate Solutions Architect, חלק מצוות המגזר הציבורי הקנדי ב-AWS. כיום הוא מנהל תואר שני עם תחום מחקר בלמידה עמוקה ומחזיק בחמש הסמכות AWS, כולל הסמכת ML Specialty. ניקולס נלהב לעזור ללקוחות להעמיק את הידע שלהם ב-AWS על ידי עבודה איתם כדי לתרגם את האתגרים העסקיים שלהם לפתרונות טכניים.

קדם גילוי תכונות ושימוש חוזר ברחבי הארגון שלך באמצעות Amazon SageMaker Feature Store ויכולת המטא-נתונים שלה ברמת התכונה PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.מארק רוי הוא אדריכל למידה ממוחשבת של AWS, המסייע ללקוחות לתכנן ולבנות פתרונות AI / ML. עבודתו של מארק מכסה מגוון רחב של מקרים לשימוש ב- ML, תוך התעניינות ראשונית בראייה ממוחשבת, למידה עמוקה והיקף ML ברחבי הארגון. הוא סייע לחברות בענפים רבים, כולל ביטוח, שירותים פיננסיים, מדיה ובידור, שירותי בריאות, שירותים וייצור. מארק מחזיק בשש אישורי AWS, כולל הסמכת ML Speciality. לפני שהצטרף ל- AWS, היה מארק אדריכל, מפתח ומוביל טכנולוגיה במשך 25 שנה, כולל 19 שנים בשירותים פיננסיים.

קדם גילוי תכונות ושימוש חוזר ברחבי הארגון שלך באמצעות Amazon SageMaker Feature Store ויכולת המטא-נתונים שלה ברמת התכונה PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.Khusboo Srivastava הוא מנהל מוצר בכיר עבור Amazon SageMaker. היא נהנית לבנות מוצרים שמפשטים ללקוחות את תהליכי העבודה של למידת מכונה. בזמנה הפנוי היא נהנית לנגן בכינור, לתרגל יוגה ולטייל.

בול זמן:

עוד מ למידת מכונות AWS