Amazon SageMaker Feature Store와 기능 수준 메타데이터 기능 PlatoBlockchain Data Intelligence를 사용하여 조직 전체에서 기능 검색 및 재사용을 촉진합니다. 수직 검색. 일체 포함.

Amazon SageMaker Feature Store 및 기능 수준 메타데이터 기능을 사용하여 조직 전체에서 기능 검색 및 재사용 촉진

Amazon SageMaker 기능 스토어 데이터 과학자와 머신 러닝(ML) 엔지니어가 교육 및 예측 워크플로에 사용되는 선별된 데이터를 안전하게 저장, 검색 및 공유할 수 있도록 지원합니다. Feature Store는 기능 및 관련 메타데이터를 위한 중앙 집중식 저장소로, 다양한 프로젝트 또는 ML 모델에서 작업하는 데이터 과학자 팀에서 기능을 쉽게 검색하고 재사용할 수 있습니다.

기능 저장소를 사용하면 기능 그룹 수준에서 항상 메타데이터를 추가할 수 있습니다. 모델에 대한 기존 기능을 검색하고 발견하는 기능을 원하는 데이터 과학자는 이제 사용자 지정 메타데이터를 추가하여 기능 수준에서 정보를 검색할 수 있습니다. 예를 들어, 정보에는 기능에 대한 설명, 마지막으로 수정한 날짜, 원래 데이터 소스, 특정 메트릭 또는 민감도 수준이 포함될 수 있습니다.

다음 다이어그램은 기능 그룹, 기능 및 관련 메타데이터 간의 아키텍처 관계를 보여줍니다. 이제 데이터 과학자가 기능 그룹 수준과 개별 기능 수준 모두에서 설명과 메타데이터를 지정할 수 있는 방법에 유의하십시오.

이 게시물에서는 데이터 과학자와 ML 엔지니어가 Feature Store의 새로운 검색 및 검색 기능과 함께 기능 수준 메타데이터를 사용하여 조직 전체에서 더 나은 기능 재사용을 촉진하는 방법을 설명합니다. 이 기능은 기능 선택 프로세스에서 데이터 과학자를 크게 도울 수 있으며 결과적으로 모델 정확도를 높이는 기능을 식별하는 데 도움이 됩니다.

유스 케이스

이 게시물의 목적을 위해 두 가지 기능 그룹을 사용합니다. customerloan.

XNUMXD덴탈의 customer 기능 그룹에는 다음과 같은 기능이 있습니다.

  • 나이 – 고객의 나이(숫자)
  • – 작업 유형(예: admin or services)
  • 결혼의 – 결혼 상태(예: married or single)
  • 교육 – 교육 수준(예: basic 4y or high school)

XNUMXD덴탈의 loan 기능 그룹에는 다음과 같은 기능이 있습니다.

  • 디폴트 값 – 채무 불이행이 있습니까? (원-핫 인코딩: no or yes)
  • 주택 – 주택 융자가 있습니까? (원-핫 인코딩: no or yes)
  • 차관 – 개인 대출이 있습니까? (원-핫 인코딩: no or yes)
  • 총액 – 대출 총액(숫자)

다음 그림은 기능 그룹 및 기능 메타데이터의 예를 보여줍니다.

Amazon SageMaker Feature Store와 기능 수준 메타데이터 기능 PlatoBlockchain Data Intelligence를 사용하여 조직 전체에서 기능 검색 및 재사용을 촉진합니다. 수직 검색. 일체 포함.

설명을 추가하고 각 기능에 메타데이터를 할당하는 목적은 데이터 과학자 또는 ML 엔지니어가 기능을 탐색할 수 있는 새로운 검색 매개변수를 활성화하여 검색 속도를 높이는 것입니다. 여기에는 계산, 평균 6개월 또는 1년 여부, 출처, 작성자 또는 소유자, 기능의 의미 등과 같은 기능에 대한 세부 정보가 반영될 수 있습니다.

다음 섹션에서는 기능을 검색 및 발견하고 기능 수준 메타데이터를 구성하는 두 가지 접근 방식을 제공합니다. 아마존 세이지 메이커 스튜디오 직접, 두 번째는 프로그래밍 방식으로.

Studio의 기능 검색

Studio를 사용하여 기능을 쉽게 검색하고 쿼리할 수 있습니다. 새로 향상된 검색 및 검색 기능을 사용하면 몇 문자 앞에 간단한 입력을 사용하여 결과를 즉시 검색할 수 있습니다.

다음 스크린샷은 다음 기능을 보여줍니다.

  • 당신은 기능 카탈로그 탭을 클릭하고 기능 그룹 전체에서 기능을 관찰합니다. 기능은 기능 이름, 유형, 설명, 매개변수, 생성 날짜 및 관련 기능 그룹 이름이 포함된 표에 표시됩니다.
  • 자동 완성 기능을 직접 사용하여 검색 결과를 즉시 반환할 수 있습니다.
  • 다양한 유형의 필터 옵션을 유연하게 사용할 수 있습니다. All, Feature name, DescriptionParameters. 그 주 All 다음 중 하나가 있는 경우 모든 기능을 반환합니다. Feature name, DescriptionParameters 검색 기준과 일치합니다.
  • 다음을 사용하여 날짜 범위를 지정하여 검색 범위를 더 좁힐 수 있습니다. Created fromCreated to 필드 및 다음을 사용하여 매개변수 지정 Search parameter keySearch parameter value 입력란에 입력 할 수 있습니다.

Amazon SageMaker Feature Store와 기능 수준 메타데이터 기능 PlatoBlockchain Data Intelligence를 사용하여 조직 전체에서 기능 검색 및 재사용을 촉진합니다. 수직 검색. 일체 포함.

기능을 선택한 후 기능의 이름을 선택하여 세부 정보를 표시할 수 있습니다. 선택할 때 메타 데이터 편집, 다음 스크린샷과 같이 설명과 최대 25개의 키-값 매개변수를 추가할 수 있습니다. 이 보기 내에서 궁극적으로 기능의 메타데이터를 생성, 보기, 업데이트 및 삭제할 수 있습니다. 다음 스크린샷은 기능 메타데이터를 편집하는 방법을 보여줍니다. total_amount.

Amazon SageMaker Feature Store와 기능 수준 메타데이터 기능 PlatoBlockchain Data Intelligence를 사용하여 조직 전체에서 기능 검색 및 재사용을 촉진합니다. 수직 검색. 일체 포함.

이전에 언급했듯이 기능에 키-값 쌍을 추가하면 주어진 기능을 검색할 수 있는 더 많은 차원이 제공됩니다. 이 예에서는 기능의 출처가 모든 기능의 메타데이터에 추가되었습니다. 검색 아이콘을 선택하고 키-값 쌍을 따라 필터링하면 origin: job, 이 기본 속성에서 원-핫 인코딩된 모든 기능을 볼 수 있습니다.

코드를 사용한 기능 검색

다음을 통해 기능 정보에 액세스하고 업데이트할 수도 있습니다. AWS 명령 줄 인터페이스 (AWS CLI) 및 SDK(Boto3)를 통해 직접 AWS 관리 콘솔. 이를 통해 Feature Store의 기능 수준 검색 기능을 고유한 사용자 지정 데이터 과학 플랫폼과 통합할 수 있습니다. 이 섹션에서는 Boto3 API 엔드포인트와 상호 작용하여 기능 메타데이터를 업데이트하고 검색합니다.

기능 검색 및 발견 개선을 시작하려면 다음을 사용하여 메타데이터를 추가할 수 있습니다. update_feature_metadata API. 여기에 덧붙여 descriptioncreated_date 필드에서 지정된 기능에 최대 25개의 매개변수(키-값 쌍)를 추가할 수 있습니다.

다음 코드는 추가된 다섯 가지 가능한 키-값 매개변수의 예입니다. job_admin 특징. 이 기능은 다음과 함께 생성되었습니다. job_servicesjob_none, 원-핫 인코딩으로 job.

sagemaker_client.update_feature_metadata(
    FeatureGroupName="customer",
    FeatureName="job_admin",
    ParameterAdditions=[
        {"Key": "author", "Value": "arnaud"}, # Feature's author
        {"Key": "team", "Value": "mlops"}, # Team owning the feature
        {"Key": "origin", "Value": "job"}, # Raw input parameter
        {"Key": "sensitivity", "Value": "5"}, # 1-5 scale for data sensitivity
        {"Key": "env", "Value": "testing"} # Environment the feature is used in
    ]
)

author, team, origin, sensitivityenv 에 추가되었습니다 job_admin 기능, 데이터 과학자 또는 ML 엔지니어는 describe_feature_metadata API. 다음으로 이동할 수 있습니다. Parameters 이전에 기능에 추가한 메타데이터에 대한 응답의 개체입니다. 그만큼 describe_feature_metadata API 엔드포인트를 사용하면 연결된 메타데이터를 가져와서 주어진 기능에 대한 더 큰 통찰력을 얻을 수 있습니다.

response = sagemaker_client.describe_feature_metadata(
    FeatureGroupName="customer",
    FeatureName="job_admin",
)

# Navigate to 'Parameters' in response to get metadata
metadata = response['Parameters']

SageMaker를 사용하여 기능을 검색할 수 있습니다. search 메타데이터를 검색 매개변수로 사용하는 API. 다음 코드는 search_string 매개변수를 입력으로 사용하고 기능의 이름, 설명 또는 매개변수가 조건과 일치하는 모든 기능을 반환합니다.

def search_features_using_string(search_string):
    response = sagemaker_client.search(
        Resource= "FeatureMetadata",
        SearchExpression={
            'Filters': [
               {
                   'Name': 'FeatureName',
                   'Operator': 'Contains',
                   'Value': search_string
               },
               {
                   'Name': 'Description',
                   'Operator': 'Contains',
                   'Value': search_string
               },
               {
                   'Name': 'AllParameters',
                   'Operator': 'Contains',
                   'Value': search_string
               }
           ],
           "Operator": "Or"
        },
    )

    # Displaying results in a pandas DataFrame
    df=pd.json_normalize(response['Results'], max_level=1)
    df.columns = df.columns.map(lambda col: col.split(".")[1])
    df=df.drop('FeatureGroupArn', axis=1)

    return df

다음 코드 스니펫은 search_features 기능 이름, 설명 또는 매개변수에 단어가 포함된 모든 기능을 검색하는 기능 job:

search_results = search_features_using_string('mlops')
search_results

다음 스크린샷에는 각 기능의 생성 및 마지막 수정에 대한 타임스탬프를 포함하여 일치하는 기능 이름과 해당 메타데이터 목록이 포함되어 있습니다. 이 정보를 사용하여 조직의 기능에 대한 검색 및 가시성을 개선할 수 있습니다.

Amazon SageMaker Feature Store와 기능 수준 메타데이터 기능 PlatoBlockchain Data Intelligence를 사용하여 조직 전체에서 기능 검색 및 재사용을 촉진합니다. 수직 검색. 일체 포함.

결론

SageMaker Feature Store는 조직이 사업부 및 데이터 과학 팀 전체에서 ML 개발을 확장할 수 있도록 특별히 제작된 기능 관리 솔루션을 제공합니다. 기능 재사용 및 기능 일관성 향상은 기능 저장소의 주요 이점입니다. 이 게시물에서는 기능 수준 메타데이터를 사용하여 기능 검색 및 검색을 개선하는 방법을 설명했습니다. 여기에는 다양한 사용 사례에 대한 메타데이터 생성 및 추가 검색 매개변수로 사용이 포함됩니다.

그것을 시도하고 의견에 당신의 생각을 알려주십시오. Feature Store 내에서 공동 작업 및 기능 공유에 대해 자세히 알아보려면 다음을 참조하십시오. Amazon SageMaker Feature Store를 사용하여 계정 및 팀간에 기능 재사용 활성화.


저자 소개

Amazon SageMaker Feature Store와 기능 수준 메타데이터 기능 PlatoBlockchain Data Intelligence를 사용하여 조직 전체에서 기능 검색 및 재사용을 촉진합니다. 수직 검색. 일체 포함. 아르노 라우어 AWS 공공 부문 팀의 수석 파트너 솔루션 아키텍트입니다. 그는 파트너와 고객이 AWS 기술을 사용하여 비즈니스 요구 사항을 솔루션으로 변환하는 가장 좋은 방법을 이해할 수 있도록 합니다. 그는 공공 부문, 에너지 및 소비재를 포함한 다양한 산업 분야에서 디지털 혁신 프로젝트를 제공하고 설계하는 데 16년 이상의 경험을 가지고 있습니다. 인공 지능과 기계 학습은 그의 열정 중 일부입니다. Arnaud는 ML 전문 자격증을 포함하여 12개의 AWS 자격증을 보유하고 있습니다.

Amazon SageMaker Feature Store와 기능 수준 메타데이터 기능 PlatoBlockchain Data Intelligence를 사용하여 조직 전체에서 기능 검색 및 재사용을 촉진합니다. 수직 검색. 일체 포함.니콜라스 베르니에 AWS의 캐나다 공공 부문 팀의 일원인 Associate Solutions Architect입니다. 그는 현재 딥 러닝 연구 분야에서 석사 학위를 진행하고 있으며 ML 전문 자격증을 포함하여 XNUMX개의 AWS 자격증을 보유하고 있습니다. Nicolas는 고객과 협력하여 비즈니스 과제를 기술 솔루션으로 전환함으로써 고객이 AWS에 대한 지식을 심화하도록 돕는 데 열정을 쏟고 있습니다.

Amazon SageMaker Feature Store와 기능 수준 메타데이터 기능 PlatoBlockchain Data Intelligence를 사용하여 조직 전체에서 기능 검색 및 재사용을 촉진합니다. 수직 검색. 일체 포함.마크 로이 AWS의 선임 기계 학습 설계자로서 고객이 AI / ML 솔루션을 설계하고 구축 할 수 있도록 지원합니다. Mark의 작업은 컴퓨터 비전, 딥 러닝 및 기업 전체의 ML 확장에 대한 주요 관심과 함께 광범위한 ML 사용 사례를 다룹니다. 그는 보험, 금융 서비스, 미디어 및 엔터테인먼트, 의료, 유틸리티 및 제조를 포함한 여러 산업 분야의 기업을 도왔습니다. Mark는 ML Specialty Certification을 포함하여 25 개의 AWS 인증을 보유하고 있습니다. AWS에 합류하기 전에 Mark는 금융 서비스 분야에서 19 년을 포함하여 XNUMX 년 이상 아키텍트, 개발자 및 기술 리더였습니다.

Amazon SageMaker Feature Store와 기능 수준 메타데이터 기능 PlatoBlockchain Data Intelligence를 사용하여 조직 전체에서 기능 검색 및 재사용을 촉진합니다. 수직 검색. 일체 포함.쿠슈부 스리바스타바 Amazon SageMaker의 수석 제품 관리자입니다. 그녀는 고객을 위한 기계 학습 워크플로를 단순화하는 제품을 만드는 것을 즐깁니다. 여가 시간에는 바이올린 연주, 요가 연습, 여행을 즐깁니다.

타임 스탬프 :

더보기 AWS 기계 학습