قم بتعزيز اكتشاف الميزات وإعادة استخدامها عبر مؤسستك باستخدام Amazon SageMaker Feature Store وإمكانية البيانات الوصفية على مستوى الميزات الخاصة به PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

قم بتعزيز اكتشاف الميزات وإعادة استخدامها عبر مؤسستك باستخدام Amazon SageMaker Feature Store وإمكانية البيانات الوصفية على مستوى الميزات الخاصة به

متجر ميزات Amazon SageMaker يساعد علماء البيانات ومهندسي التعلم الآلي (ML) على تخزين واكتشاف ومشاركة البيانات المنسقة المستخدمة في سير عمل التدريب والتنبؤ بشكل آمن. Feature Store هو متجر مركزي للميزات والبيانات الوصفية المرتبطة بها ، مما يسمح بسهولة اكتشاف الميزات وإعادة استخدامها من قبل فرق علماء البيانات التي تعمل في مشاريع مختلفة أو نماذج ML.

باستخدام Feature Store ، كنت دائمًا قادرًا على إضافة البيانات الوصفية على مستوى مجموعة الميزات. علماء البيانات الذين يريدون القدرة على البحث واكتشاف الميزات الموجودة لنماذجهم لديهم الآن القدرة على البحث عن المعلومات على مستوى الميزة عن طريق إضافة بيانات وصفية مخصصة. على سبيل المثال ، يمكن أن تتضمن المعلومات وصفًا للميزة أو تاريخ آخر تعديل لها أو مصدر بياناتها الأصلي أو مقاييس معينة أو مستوى الحساسية.

يوضح الرسم التخطيطي التالي علاقات البنية بين مجموعات الميزات والميزات والبيانات الوصفية المرتبطة. لاحظ كيف يمكن لعلماء البيانات الآن تحديد الأوصاف والبيانات الوصفية على مستوى مجموعة المعالم ومستوى الميزات الفردية.

في هذا المنشور ، نوضح كيف يمكن لعلماء البيانات ومهندسي ML استخدام البيانات الوصفية على مستوى الميزات مع إمكانات البحث والاكتشاف الجديدة لمتجر الميزات لتعزيز إعادة استخدام الميزات بشكل أفضل عبر مؤسستهم. يمكن أن تساعد هذه الإمكانية علماء البيانات بشكل كبير في عملية اختيار الميزة ، ونتيجة لذلك ، تساعدك على تحديد الميزات التي تؤدي إلى زيادة دقة النموذج.

حالة الاستخدام

لأغراض هذا المنشور ، نستخدم مجموعتين من الميزات ، customer و loan.

customer مجموعة الميزات لديها الميزات التالية:

  • السن - عمر العميل (رقمي)
  • وظيفة - نوع الوظيفة (تشفير واحد ساخن ، مثل admin or services)
  • الزوجي - الحالة الاجتماعية (واحد ساخن مشفر مثل married or single)
  • التعليم - مستوى التعليم (واحد ساخن مشفر ، مثل basic 4y or high school)

loan مجموعة الميزات لديها الميزات التالية:

  • الافتراضي - هل الائتمان في التخلف عن السداد؟ (واحد ساخن مشفر: no or yes)
  • إسكان - هل لديك قرض سكني؟ (واحد ساخن مشفر: no or yes)
  • قرض - لديه قرض شخصي؟ (واحد ساخن مشفر: no or yes)
  • المبلغ الإجمالي - إجمالي مبلغ القروض (رقمي)

يوضح الشكل التالي أمثلة على مجموعات الميزات والبيانات الوصفية للميزات.

قم بتعزيز اكتشاف الميزات وإعادة استخدامها عبر مؤسستك باستخدام Amazon SageMaker Feature Store وإمكانية البيانات الوصفية على مستوى الميزات الخاصة به PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

الغرض من إضافة وصف وتعيين بيانات وصفية لكل ميزة هو زيادة سرعة الاكتشاف عن طريق تمكين معلمات بحث جديدة يمكن لعالم البيانات أو مهندس ML استكشاف الميزات من خلالها. يمكن أن تعكس هذه تفاصيل حول ميزة مثل حسابها ، سواء كان متوسطها أكثر من 6 أشهر أو سنة واحدة ، أو الأصل ، أو المنشئ ، أو المالك ، وما تعنيه الميزة ، والمزيد.

في الأقسام التالية ، نقدم طريقتين للبحث واكتشاف الميزات وتكوين البيانات الوصفية على مستوى الميزة: الطريقة الأولى تستخدم أمازون ساجميكر ستوديو مباشرة ، والثاني برمجيًا.

اكتشاف الميزة في الاستوديو

يمكنك بسهولة البحث والاستعلام عن الميزات باستخدام الاستوديو. من خلال إمكانات البحث والاكتشاف المحسّنة الجديدة ، يمكنك استرداد النتائج فورًا باستخدام كتابة مسبقة بسيطة تتكون من بضعة أحرف.

توضح لقطة الشاشة التالية الإمكانات التالية:

  • يمكنك الوصول إلى كتالوج الميزات علامة التبويب ولاحظ الميزات عبر مجموعات الميزات. يتم تقديم الميزات في جدول يتضمن اسم الميزة والنوع والوصف والمعلمات وتاريخ الإنشاء واسم مجموعة المعالم المرتبطة.
  • يمكنك استخدام وظيفة الكتابة المسبقة مباشرة لإرجاع نتائج البحث على الفور.
  • لديك المرونة في استخدام أنواع مختلفة من خيارات التصفية: All, Feature name, Descriptionالطرق أو Parameters. لاحظ أن All سيعيد جميع الميزات حيث إما Feature name, Descriptionالطرق أو Parameters تطابق معايير البحث.
  • يمكنك تضييق نطاق البحث بشكل أكبر عن طريق تحديد نطاق زمني باستخدام ملف Created from و Created to الحقول وتحديد المعلمات باستخدام Search parameter key و Search parameter value الحقول.

قم بتعزيز اكتشاف الميزات وإعادة استخدامها عبر مؤسستك باستخدام Amazon SageMaker Feature Store وإمكانية البيانات الوصفية على مستوى الميزات الخاصة به PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

بعد تحديد الميزة ، يمكنك اختيار اسم الميزة لإظهار تفاصيلها. عندما تختار تحرير البيانات الوصفية، يمكنك إضافة وصف وما يصل إلى 25 معلمة ذات قيمة مفتاح ، كما هو موضح في لقطة الشاشة التالية. ضمن هذا العرض ، يمكنك في النهاية إنشاء ، وعرض ، وتحديث ، وحذف البيانات الوصفية للمعلم. توضح لقطة الشاشة التالية كيفية تحرير البيانات الوصفية للميزات لـ total_amount.

قم بتعزيز اكتشاف الميزات وإعادة استخدامها عبر مؤسستك باستخدام Amazon SageMaker Feature Store وإمكانية البيانات الوصفية على مستوى الميزات الخاصة به PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

كما ذكرنا سابقًا ، فإن إضافة أزواج القيمة الرئيسية إلى الميزة يمنحك المزيد من الأبعاد التي يمكنك من خلالها البحث عن ميزاتها المحددة. على سبيل المثال ، تمت إضافة أصل الميزة إلى البيانات الوصفية لكل ميزة. عند اختيار رمز البحث والتصفية على طول زوج المفتاح والقيمة origin: job، يمكنك مشاهدة جميع الميزات التي تم ترميزها مرة واحدة من هذه السمة الأساسية.

اكتشاف الميزة باستخدام الكود

يمكنك أيضًا الوصول إلى معلومات الميزة وتحديثها من خلال واجهة سطر الأوامر AWS (AWS CLI) و SDK (Boto3) وليس مباشرة من خلال ملف وحدة تحكم إدارة AWS. يتيح لك ذلك دمج وظيفة البحث على مستوى الميزة في Feature Store مع الأنظمة الأساسية لعلوم البيانات المخصصة الخاصة بك. في هذا القسم ، نتفاعل مع نقاط نهاية Boto3 API لتحديث البيانات الوصفية للميزات والبحث فيها.

لبدء تحسين البحث عن المعالم واكتشافها ، يمكنك إضافة البيانات الوصفية باستخدام update_feature_metadata API. بالإضافة الى description و created_date الحقول ، يمكنك إضافة ما يصل إلى 25 معلمة (أزواج مفتاح - قيمة) إلى ميزة معينة.

الكود التالي هو مثال لخمس معلمات محتملة لقيمة المفتاح والتي تمت إضافتها إلى ملف job_admin خاصية. تم إنشاء هذه الميزة ، جنبًا إلى جنب مع job_services و job_none، عن طريق ترميز واحد ساخن job.

sagemaker_client.update_feature_metadata(
    FeatureGroupName="customer",
    FeatureName="job_admin",
    ParameterAdditions=[
        {"Key": "author", "Value": "arnaud"}, # Feature's author
        {"Key": "team", "Value": "mlops"}, # Team owning the feature
        {"Key": "origin", "Value": "job"}, # Raw input parameter
        {"Key": "sensitivity", "Value": "5"}, # 1-5 scale for data sensitivity
        {"Key": "env", "Value": "testing"} # Environment the feature is used in
    ]
)

بعد author, team, origin, sensitivityو env تمت إضافته إلى job_admin يمكن لعلماء البيانات أو مهندسي ML استردادها عن طريق استدعاء describe_feature_metadata API. يمكنك الانتقال إلى ملف Parameters الكائن في الرد على البيانات الوصفية التي أضفناها مسبقًا إلى ميزتنا. ال describe_feature_metadata تتيح لك نقطة نهاية واجهة برمجة التطبيقات الحصول على رؤية أعمق لميزة معينة من خلال الحصول على البيانات الوصفية المرتبطة بها.

response = sagemaker_client.describe_feature_metadata(
    FeatureGroupName="customer",
    FeatureName="job_admin",
)

# Navigate to 'Parameters' in response to get metadata
metadata = response['Parameters']

يمكنك البحث عن الميزات باستخدام SageMaker search API باستخدام البيانات الوصفية كمعلمات البحث. الكود التالي هو مثال لدالة تأخذ الامتداد search_string المعلمة كمدخل وتعيد جميع المعالم حيث يتطابق اسم العنصر أو الوصف أو المعلمات مع الشرط:

def search_features_using_string(search_string):
    response = sagemaker_client.search(
        Resource= "FeatureMetadata",
        SearchExpression={
            'Filters': [
               {
                   'Name': 'FeatureName',
                   'Operator': 'Contains',
                   'Value': search_string
               },
               {
                   'Name': 'Description',
                   'Operator': 'Contains',
                   'Value': search_string
               },
               {
                   'Name': 'AllParameters',
                   'Operator': 'Contains',
                   'Value': search_string
               }
           ],
           "Operator": "Or"
        },
    )

    # Displaying results in a pandas DataFrame
    df=pd.json_normalize(response['Results'], max_level=1)
    df.columns = df.columns.map(lambda col: col.split(".")[1])
    df=df.drop('FeatureGroupArn', axis=1)

    return df

يستخدم مقتطف الشفرة التالي الخاص بنا search_features لاسترداد جميع الميزات التي يحتوي اسم الميزة أو الوصف أو المعلمات على الكلمة الخاصة بها job:

search_results = search_features_using_string('mlops')
search_results

تحتوي لقطة الشاشة التالية على قائمة بأسماء الميزات المطابقة بالإضافة إلى البيانات الوصفية المقابلة لها ، بما في ذلك الطوابع الزمنية لإنشاء كل ميزة وتعديلها الأخير. يمكنك استخدام هذه المعلومات لتحسين الاكتشاف والرؤية لميزات مؤسستك.

قم بتعزيز اكتشاف الميزات وإعادة استخدامها عبر مؤسستك باستخدام Amazon SageMaker Feature Store وإمكانية البيانات الوصفية على مستوى الميزات الخاصة به PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

وفي الختام

يوفر SageMaker Feature Store حلاً لإدارة الميزات مبنيًا لغرض معين لمساعدة المؤسسات على توسيع نطاق تطوير ML عبر وحدات الأعمال وفرق علوم البيانات. يعد تحسين إعادة استخدام الميزات واتساقها من الفوائد الأساسية لمتجر الميزات. في هذا المنشور ، أوضحنا كيف يمكنك استخدام البيانات الوصفية على مستوى الميزات لتحسين البحث واكتشاف الميزات. وشمل ذلك إنشاء بيانات وصفية حول مجموعة متنوعة من حالات الاستخدام واستخدامها كمعلمات بحث إضافية.

جربه وأخبرنا برأيك في التعليقات. إذا كنت تريد معرفة المزيد حول ميزات التعاون والمشاركة داخل Feature Store ، فارجع إلى قم بتمكين إعادة استخدام الميزات عبر الحسابات والفرق باستخدام Amazon SageMaker Feature Store.


عن المؤلفين

قم بتعزيز اكتشاف الميزات وإعادة استخدامها عبر مؤسستك باستخدام Amazon SageMaker Feature Store وإمكانية البيانات الوصفية على مستوى الميزات الخاصة به PlatoBlockchain Data Intelligence. البحث العمودي. عاي. أرنو لاور هو مهندس حلول شريك أول في فريق القطاع العام في AWS. إنه يمكّن الشركاء والعملاء من فهم أفضل السبل لاستخدام تقنيات AWS لترجمة احتياجات العمل إلى حلول. يتمتع بخبرة تزيد عن 16 عامًا في تقديم وهندسة مشاريع التحول الرقمي عبر مجموعة من الصناعات ، بما في ذلك القطاع العام والطاقة والسلع الاستهلاكية. الذكاء الاصطناعي والتعلم الآلي هي بعض من اهتماماته. يحمل Arnaud 12 شهادة AWS ، بما في ذلك شهادة ML Speciality Certification.

قم بتعزيز اكتشاف الميزات وإعادة استخدامها عبر مؤسستك باستخدام Amazon SageMaker Feature Store وإمكانية البيانات الوصفية على مستوى الميزات الخاصة به PlatoBlockchain Data Intelligence. البحث العمودي. عاي.نيكولاس بيرنييه مهندس حلول مشارك ، وهو جزء من فريق القطاع العام الكندي في AWS. يقوم حاليًا بإجراء درجة الماجستير في مجال بحث في التعلم العميق ويحمل خمس شهادات AWS ، بما في ذلك شهادة التخصص في ML. نيكولا متحمس لمساعدة العملاء على تعميق معرفتهم بـ AWS من خلال العمل معهم لترجمة تحديات أعمالهم إلى حلول تقنية.

قم بتعزيز اكتشاف الميزات وإعادة استخدامها عبر مؤسستك باستخدام Amazon SageMaker Feature Store وإمكانية البيانات الوصفية على مستوى الميزات الخاصة به PlatoBlockchain Data Intelligence. البحث العمودي. عاي.مارك روي هو مهندس رئيسي لتعلم الآلة في AWS ، يساعد العملاء على تصميم وبناء حلول AI / ML. يغطي عمل Mark مجموعة واسعة من حالات استخدام ML ، مع اهتمام أساسي برؤية الكمبيوتر والتعلم العميق وتوسيع ML عبر المؤسسة. لقد ساعد الشركات في العديد من الصناعات ، بما في ذلك التأمين والخدمات المالية والإعلام والترفيه والرعاية الصحية والمرافق والتصنيع. يحمل مارك ست شهادات AWS ، بما في ذلك شهادة التخصص في ML. قبل انضمامه إلى AWS ، كان مارك مهندسًا معماريًا ومطورًا وقائدًا تقنيًا لأكثر من 25 عامًا ، بما في ذلك 19 عامًا في الخدمات المالية.

قم بتعزيز اكتشاف الميزات وإعادة استخدامها عبر مؤسستك باستخدام Amazon SageMaker Feature Store وإمكانية البيانات الوصفية على مستوى الميزات الخاصة به PlatoBlockchain Data Intelligence. البحث العمودي. عاي.خوشبو سريفاستافا هو مدير أول للمنتجات في Amazon SageMaker. تستمتع ببناء المنتجات التي تبسط سير عمل التعلم الآلي للعملاء. تستمتع في أوقات فراغها بالعزف على الكمان وممارسة اليوجا والسفر.

الطابع الزمني:

اكثر من التعلم الآلي من AWS