Amazon SageMaker Feature Store とその機能レベルのメタデータ機能である PlatoBlockchain Data Intelligence を使用して、組織全体で機能の発見と再利用を促進します。 垂直検索。 あい。

Amazon SageMaker Feature Store とその機能レベルのメタデータ機能を使用して、組織全体で機能の発見と再利用を促進します

Amazon SageMaker フィーチャーストア データ サイエンティストと機械学習 (ML) エンジニアが、トレーニングと予測のワークフローで使用される精選されたデータを安全に保存、検出、共有できるように支援します。 Feature Store は、機能と関連するメタデータの一元化されたストアであり、さまざまなプロジェクトや ML モデルに取り組んでいるデータ サイエンティスト チームが機能を簡単に発見して再利用できるようにします。

Feature Store を使用すると、常に機能グループ レベルでメタデータを追加できます。 モデルの既存の機能を検索して発見する機能が必要なデータ サイエンティストは、カスタム メタデータを追加することで、機能レベルで情報を検索できるようになりました。 たとえば、情報には、機能の説明、最後に変更された日付、元のデータ ソース、特定のメトリック、機密レベルなどを含めることができます。

次の図は、機能グループ、機能、および関連するメタデータ間のアーキテクチャの関係を示しています。 データ サイエンティストが機能グループ レベルと個々の機能レベルの両方で説明とメタデータを指定できるようになったことに注意してください。

この投稿では、データ サイエンティストと ML エンジニアが機能レベルのメタデータを Feature Store の新しい検索および発見機能と共に使用して、組織全体で機能の再利用を促進する方法について説明します。 この機能は、特徴選択プロセスにおいてデータ サイエンティストを大幅に支援し、その結果、モデルの精度の向上につながる特徴を特定するのに役立ちます。

使用事例

この記事では、XNUMX つの機能グループを使用します。 customer & loan.

  customer 機能グループには次の機能があります。

  • 年齢 – 顧客の年齢 (数値)
  • ジョブ – ジョブの種類 (ワンホット エンコード、 admin or services)
  • 夫婦の – 婚姻状況 (ワンホット エンコード、 married or single)
  • 教育 – 教育レベル (ワンホット エンコード、 basic 4y or high school)

  loan 機能グループには次の機能があります。

  • デフォルト – デフォルトでクレジットはありますか? (ワンホット エンコード: no or yes)
  • 住宅 – 住宅ローンはありますか? (ワンホット エンコード: no or yes)
  • ローン – 個人ローンはありますか? (ワンホット エンコード: no or yes)
  • 合計金額 – 融資総額(数値)

次の図は、機能グループと機能メタデータの例を示しています。

Amazon SageMaker Feature Store とその機能レベルのメタデータ機能である PlatoBlockchain Data Intelligence を使用して、組織全体で機能の発見と再利用を促進します。 垂直検索。 あい。

説明を追加し、各機能にメタデータを割り当てる目的は、データ サイエンティストまたは ML エンジニアが機能を探索できる新しい検索パラメーターを有効にすることで、発見の速度を上げることです。 これらは、その計算、6 か月または 1 年の平均かどうか、起源、作成者または所有者、機能の意味など、機能に関する詳細を反映できます。

以下のセクションでは、機能を検索して発見し、機能レベルのメタデータを構成するための XNUMX つの方法を提供します。 Amazon SageMakerスタジオ 直接、およびプログラムでXNUMX番目。

Studio での機能発見

Studio を使用して、フィーチャを簡単に検索およびクエリできます。 新しく強化された検索および検出機能により、数文字の前に単純なタイプ入力を使用して、結果をすぐに取得できます。

次のスクリーンショットは、次の機能を示しています。

  • ジョブがまだ送信されていなければ、ジョブセットアップのどこからでも 機能カタログ タブを開き、機能グループ全体の機能を観察します。 機能は、機能名、タイプ、説明、パラメーター、作成日、および関連する機能グループの名前を含む表に表示されます。
  • 先行入力機能を直接使用して、検索結果をすぐに返すことができます。
  • さまざまな種類のフィルター オプションを柔軟に使用できます。 All, Feature name, Descriptionまたは Parameters。 ご了承ください All いずれかのすべての機能を返します Feature name, Descriptionまたは Parameters 検索条件に一致します。
  • を使用して日付範囲を指定すると、検索をさらに絞り込むことができます。 Created from & Created to を使用してパラメータを指定します。 Search parameter key & Search parameter value フィールド。

Amazon SageMaker Feature Store とその機能レベルのメタデータ機能である PlatoBlockchain Data Intelligence を使用して、組織全体で機能の発見と再利用を促進します。 垂直検索。 あい。

機能を選択したら、機能の名前を選択して詳細を表示できます。 選択するとき メタデータを編集では、次のスクリーンショットに示すように、説明と最大 25 個のキー値パラメーターを追加できます。 このビュー内で、最終的にフィーチャのメタデータを作成、表示、更新、および削除できます。 次のスクリーンショットは、機能メタデータを編集する方法を示しています total_amount.

Amazon SageMaker Feature Store とその機能レベルのメタデータ機能である PlatoBlockchain Data Intelligence を使用して、組織全体で機能の発見と再利用を促進します。 垂直検索。 あい。

前述のように、キーと値のペアを機能に追加すると、特定の機能を検索するためのディメンションが増えます。 この例では、フィーチャのオリジンがすべてのフィーチャのメタデータに追加されています。 検索アイコンを選択し、キーと値のペアに沿ってフィルター処理する場合 origin: job、この基本属性からワンホット エンコードされたすべての機能を確認できます。

コードを使用した機能発見

から機能情報にアクセスして更新することもできます。 AWSコマンドラインインターフェイス (AWS CLI) と SDK (Boto3) を介して直接ではなく、 AWSマネジメントコンソール. これにより、Feature Store の機能レベルの検索機能を独自のカスタム データ サイエンス プラットフォームと統合できます。 このセクションでは、Boto3 API エンドポイントを操作して、機能のメタデータを更新および検索します。

フィーチャの検索と検出の改善を開始するには、 update_feature_metadata API。 に加えて description & created_date フィールドでは、特定の機能に最大 25 個のパラメーター (キーと値のペア) を追加できます。

次のコードは、 job_admin 特徴。 この機能は、 job_services & job_none、ワンホットエンコーディングによる job.

sagemaker_client.update_feature_metadata(
    FeatureGroupName="customer",
    FeatureName="job_admin",
    ParameterAdditions=[
        {"Key": "author", "Value": "arnaud"}, # Feature's author
        {"Key": "team", "Value": "mlops"}, # Team owning the feature
        {"Key": "origin", "Value": "job"}, # Raw input parameter
        {"Key": "sensitivity", "Value": "5"}, # 1-5 scale for data sensitivity
        {"Key": "env", "Value": "testing"} # Environment the feature is used in
    ]
)

author, team, origin, sensitivity, env に追加されました job_admin 機能、データ サイエンティストまたは ML エンジニアは、 describe_feature_metadata API。 に移動できます。 Parameters オブジェクトは、以前に機能に追加したメタデータの応答に含まれています。 の describe_feature_metadata API エンドポイントを使用すると、関連付けられたメタデータを取得することで、特定の機能についてより深い洞察を得ることができます。

response = sagemaker_client.describe_feature_metadata(
    FeatureGroupName="customer",
    FeatureName="job_admin",
)

# Navigate to 'Parameters' in response to get metadata
metadata = response['Parameters']

SageMaker を使用して機能を検索できます search メタデータを検索パラメーターとして使用する API。 次のコードは、 search_string パラメーターを入力として使用し、機能の名前、説明、またはパラメーターが条件に一致するすべての機能を返します。

def search_features_using_string(search_string):
    response = sagemaker_client.search(
        Resource= "FeatureMetadata",
        SearchExpression={
            'Filters': [
               {
                   'Name': 'FeatureName',
                   'Operator': 'Contains',
                   'Value': search_string
               },
               {
                   'Name': 'Description',
                   'Operator': 'Contains',
                   'Value': search_string
               },
               {
                   'Name': 'AllParameters',
                   'Operator': 'Contains',
                   'Value': search_string
               }
           ],
           "Operator": "Or"
        },
    )

    # Displaying results in a pandas DataFrame
    df=pd.json_normalize(response['Results'], max_level=1)
    df.columns = df.columns.map(lambda col: col.split(".")[1])
    df=df.drop('FeatureGroupArn', axis=1)

    return df

次のコード スニペットでは、 search_features 機能名、説明、またはパラメーターのいずれかに単語が含まれるすべての機能を取得する関数 job:

search_results = search_features_using_string('mlops')
search_results

次のスクリーンショットには、一致する機能名のリストと、各機能の作成と最終変更のタイムスタンプを含む、対応するメタデータが含まれています。 この情報を使用して、組織の機能の検出と可視性を向上させることができます。

Amazon SageMaker Feature Store とその機能レベルのメタデータ機能である PlatoBlockchain Data Intelligence を使用して、組織全体で機能の発見と再利用を促進します。 垂直検索。 あい。

まとめ

SageMaker Feature Store は、組織がビジネス ユニットやデータ サイエンス チーム全体で ML 開発をスケーリングするのに役立つ、専用の機能管理ソリューションを提供します。 機能の再利用と機能の一貫性の向上は、機能ストアの主な利点です。 この投稿では、機能レベルのメタデータを使用して機能の検索と発見を改善する方法について説明しました。 これには、さまざまなユースケースに関するメタデータの作成と、それを追加の検索パラメーターとして使用することが含まれていました。

試してみて、コメントでご意見をお聞かせください。 Feature Store 内での共同作業と機能の共有について詳しく知りたい場合は、次を参照してください。 Amazon SageMaker Feature Storeを使用して、アカウントおよびチーム間で機能の再利用を可能にします.


著者について

Amazon SageMaker Feature Store とその機能レベルのメタデータ機能である PlatoBlockchain Data Intelligence を使用して、組織全体で機能の発見と再利用を促進します。 垂直検索。 あい。 アルノーラウアー AWSの公共部門チームのシニアパートナーソリューションアーキテクトです。 彼は、パートナーと顧客がAWSテクノロジーを使用してビジネスニーズをソリューションに変換する最善の方法を理解できるようにします。 彼は、公共部門、エネルギー、消費財など、さまざまな業界でデジタルトランスフォーメーションプロジェクトの提供と設計に16年以上の経験を持っています。 人工知能と機械学習は彼の情熱の一部です。 Arnaudは、ML専門認定を含む12のAWS認定を保持しています。

Amazon SageMaker Feature Store とその機能レベルのメタデータ機能である PlatoBlockchain Data Intelligence を使用して、組織全体で機能の発見と再利用を促進します。 垂直検索。 あい。ニコラ・ベルニエ AWS のカナダ公共部門チームの一員であるアソシエイト ソリューション アーキテクトです。 彼は現在、深層学習の研究分野で修士号を取得しており、ML Specialty Certification を含む XNUMX つの AWS 認定を保持しています。 Nicolas は、お客様と協力してビジネス上の課題を技術的なソリューションに変換することで、お客様が AWS の知識を深めるのを支援することに情熱を注いでいます。

Amazon SageMaker Feature Store とその機能レベルのメタデータ機能である PlatoBlockchain Data Intelligence を使用して、組織全体で機能の発見と再利用を促進します。 垂直検索。 あい。マークロイ はAWSの主要な機械学習アーキテクトであり、お客様がAI / MLソリューションを設計および構築するのを支援しています。 Markの仕事は、コンピュータービジョン、ディープラーニング、企業全体でのMLのスケーリングに主な関心を持って、幅広いMLユースケースをカバーしています。 彼は、保険、金融サービス、メディアとエンターテインメント、ヘルスケア、公益事業、製造業など、多くの業界の企業を支援してきました。 Markは、ML専門認定を含む25つのAWS認定を保持しています。 AWSに参加する前は、金融サービスでの19年間を含め、XNUMX年以上にわたってアーキテクト、開発者、テクノロジーのリーダーを務めていました。

Amazon SageMaker Feature Store とその機能レベルのメタデータ機能である PlatoBlockchain Data Intelligence を使用して、組織全体で機能の発見と再利用を促進します。 垂直検索。 あい。クシュブー・スリバスタヴァ Amazon SageMaker のシニアプロダクトマネージャーです。 彼女は、顧客の機械学習ワークフローを簡素化する製品の構築を楽しんでいます。 余暇には、バイオリンの演奏、ヨガの練習、旅行を楽しんでいます。

タイムスタンプ:

より多くの AWS機械学習