ส่งเสริมการค้นพบคุณสมบัติและนำกลับมาใช้ใหม่ทั่วทั้งองค์กรของคุณโดยใช้ Amazon SageMaker Feature Store และความสามารถข้อมูลเมตาระดับฟีเจอร์ของ PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ส่งเสริมการค้นพบคุณสมบัติและนำกลับมาใช้ใหม่ทั่วทั้งองค์กรของคุณโดยใช้ Amazon SageMaker Feature Store และความสามารถข้อมูลเมตาระดับฟีเจอร์

Amazon SageMaker ฟีเจอร์สโตร์ ช่วยให้นักวิทยาศาสตร์ข้อมูลและวิศวกรแมชชีนเลิร์นนิง (ML) จัดเก็บ ค้นพบ และแชร์ข้อมูลที่คัดสรรแล้วอย่างปลอดภัย ซึ่งใช้ในเวิร์กโฟลว์การฝึกอบรมและการทำนาย Feature Store คือที่จัดเก็บฟีเจอร์และข้อมูลเมตาที่เกี่ยวข้องแบบรวมศูนย์ ทำให้ทีมนักวิทยาศาสตร์ข้อมูลสามารถค้นพบและใช้ซ้ำฟีเจอร์ต่างๆ ที่ทำงานในโครงการต่างๆ หรือโมเดล ML ได้อย่างง่ายดาย

ด้วย Feature Store คุณสามารถเพิ่มข้อมูลเมตาที่ระดับกลุ่มฟีเจอร์ได้เสมอ นักวิทยาศาสตร์ข้อมูลที่ต้องการความสามารถในการค้นหาและค้นพบคุณลักษณะที่มีอยู่สำหรับโมเดลของตน ขณะนี้สามารถค้นหาข้อมูลในระดับคุณลักษณะได้โดยการเพิ่มข้อมูลเมตาที่กำหนดเอง ตัวอย่างเช่น ข้อมูลอาจรวมถึงคำอธิบายของคุณลักษณะ วันที่ที่มีการแก้ไขครั้งล่าสุด แหล่งข้อมูลดั้งเดิม เมตริกบางอย่าง หรือระดับความละเอียดอ่อน

ไดอะแกรมต่อไปนี้แสดงความสัมพันธ์ของสถาปัตยกรรมระหว่างกลุ่มคุณลักษณะ คุณลักษณะ และข้อมูลเมตาที่เกี่ยวข้อง โปรดทราบว่านักวิทยาศาสตร์ข้อมูลสามารถระบุคำอธิบายและข้อมูลเมตาทั้งในระดับกลุ่มคุณลักษณะและระดับคุณลักษณะแต่ละรายการได้อย่างไร

ในโพสต์นี้ เราจะอธิบายวิธีที่นักวิทยาศาสตร์ข้อมูลและวิศวกร ML สามารถใช้ข้อมูลเมตาระดับคุณลักษณะด้วยความสามารถในการค้นหาและการค้นพบใหม่ของ Feature Store เพื่อส่งเสริมการใช้คุณลักษณะซ้ำที่ดีขึ้นทั่วทั้งองค์กร ความสามารถนี้สามารถช่วยนักวิทยาศาสตร์ข้อมูลในกระบวนการเลือกคุณลักษณะได้อย่างมีนัยสำคัญ และเป็นผลให้ช่วยคุณระบุคุณลักษณะที่นำไปสู่ความแม่นยำของแบบจำลองที่เพิ่มขึ้น

ใช้กรณี

สำหรับจุดประสงค์ของโพสต์นี้ เราใช้กลุ่มคุณลักษณะสองกลุ่ม customer และ loan.

พื้นที่ customer กลุ่มคุณสมบัติมีคุณสมบัติดังต่อไปนี้:

  • อายุ – อายุของลูกค้า (ตัวเลข)
  • งาน – ประเภทของงาน (one-hot encoded เช่น admin or services)
  • สมรส – สถานภาพการสมรส (การเข้ารหัสแบบ one-hot เช่น married or single)
  • การศึกษา – ระดับการศึกษา (one-hot encoded เช่น basic 4y or high school)

พื้นที่ loan กลุ่มคุณสมบัติมีคุณสมบัติดังต่อไปนี้:

  • ผิดนัด – มีเครดิตผิดนัดหรือไม่? (เข้ารหัสแบบร้อนครั้งเดียว: no or yes)
  • การเคหะ – มีสินเชื่อที่อยู่อาศัยหรือไม่? (เข้ารหัสแบบร้อนครั้งเดียว: no or yes)
  • เงินกู้ – มีสินเชื่อส่วนบุคคลหรือไม่? (เข้ารหัสแบบร้อนครั้งเดียว: no or yes)
  • Total_amount – จำนวนเงินกู้ทั้งหมด (ตัวเลข)

รูปภาพต่อไปนี้แสดงกลุ่มฟีเจอร์ตัวอย่างและข้อมูลเมตาของฟีเจอร์

ส่งเสริมการค้นพบคุณสมบัติและนำกลับมาใช้ใหม่ทั่วทั้งองค์กรของคุณโดยใช้ Amazon SageMaker Feature Store และความสามารถข้อมูลเมตาระดับฟีเจอร์ของ PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

จุดประสงค์ของการเพิ่มคำอธิบายและกำหนดข้อมูลเมตาให้กับฟีเจอร์แต่ละรายการคือเพื่อเพิ่มความเร็วในการค้นพบโดยการเปิดใช้งานพารามิเตอร์การค้นหาใหม่ ซึ่งนักวิทยาศาสตร์ข้อมูลหรือวิศวกร ML สามารถสำรวจฟีเจอร์ได้ สิ่งเหล่านี้สามารถสะท้อนรายละเอียดเกี่ยวกับคุณลักษณะ เช่น การคำนวณ ไม่ว่าจะเป็นค่าเฉลี่ยมากกว่า 6 เดือนหรือ 1 ปี ที่มา ผู้สร้างหรือเจ้าของ ความหมายของคุณลักษณะ และอื่นๆ

ในส่วนต่อไปนี้ เรามีวิธีการสองวิธีในการค้นหาและค้นพบคุณลักษณะต่างๆ และกำหนดค่าข้อมูลเมตาระดับคุณลักษณะ: วิธีแรกโดยใช้ สตูดิโอ Amazon SageMaker โดยตรงและอย่างที่สองโดยทางโปรแกรม

การค้นพบคุณสมบัติใน Studio

คุณสามารถค้นหาและค้นหาฟีเจอร์ต่างๆ ได้ง่ายๆ โดยใช้ Studio ด้วยความสามารถในการค้นหาและการค้นพบที่ได้รับการปรับปรุงใหม่ คุณสามารถดึงผลลัพธ์ได้ทันทีโดยใช้ตัวอักษรไม่กี่ตัว

ภาพหน้าจอต่อไปนี้แสดงให้เห็นถึงความสามารถต่อไปนี้:

  • คุณสามารถเข้าถึง แคตตาล็อกคุณสมบัติ แท็บและสังเกตคุณลักษณะต่างๆ ในกลุ่มคุณลักษณะต่างๆ คุณลักษณะจะแสดงในตารางที่มีชื่อคุณลักษณะ ประเภท คำอธิบาย พารามิเตอร์ วันที่สร้าง และชื่อกลุ่มคุณลักษณะที่เกี่ยวข้อง
  • คุณสามารถใช้ฟังก์ชันพิมพ์ล่วงหน้าได้โดยตรงเพื่อส่งคืนผลการค้นหาทันที
  • คุณมีความยืดหยุ่นในการใช้ตัวเลือกตัวกรองประเภทต่างๆ: All, Feature name, Description,หรือ Parameters. สังเกตได้ว่า All จะส่งคืนคุณสมบัติทั้งหมดโดยที่ Feature name, Description,หรือ Parameters ตรงกับเกณฑ์การค้นหา
  • คุณสามารถจำกัดการค้นหาให้แคบลงได้โดยการระบุช่วงวันที่โดยใช้ปุ่ม Created from และ Created to ฟิลด์และการระบุพารามิเตอร์โดยใช้ Search parameter key และ Search parameter value เขตข้อมูล

ส่งเสริมการค้นพบคุณสมบัติและนำกลับมาใช้ใหม่ทั่วทั้งองค์กรของคุณโดยใช้ Amazon SageMaker Feature Store และความสามารถข้อมูลเมตาระดับฟีเจอร์ของ PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

หลังจากเลือกสถานที่แล้ว คุณสามารถเลือกชื่อสถานที่เพื่อแสดงรายละเอียดได้ เมื่อคุณเลือก แก้ไขข้อมูลเมตาคุณสามารถเพิ่มคำอธิบายและพารามิเตอร์คีย์-ค่าได้สูงสุด 25 รายการ ดังที่แสดงในภาพหน้าจอต่อไปนี้ ภายในมุมมองนี้ คุณจะสามารถสร้าง ดู อัปเดต และลบข้อมูลเมตาของคุณลักษณะได้ในที่สุด ภาพหน้าจอต่อไปนี้แสดงวิธีการแก้ไขข้อมูลเมตาของคุณลักษณะสำหรับ total_amount.

ส่งเสริมการค้นพบคุณสมบัติและนำกลับมาใช้ใหม่ทั่วทั้งองค์กรของคุณโดยใช้ Amazon SageMaker Feature Store และความสามารถข้อมูลเมตาระดับฟีเจอร์ของ PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ตามที่ระบุไว้ก่อนหน้านี้ การเพิ่มคู่คีย์-ค่าให้กับคุณลักษณะทำให้คุณมีมิติมากขึ้นในการค้นหาคุณลักษณะที่กำหนด สำหรับตัวอย่างของเรา ที่มาของฟีเจอร์ได้ถูกเพิ่มลงในข้อมูลเมตาของทุกฟีเจอร์ เมื่อคุณเลือกไอคอนค้นหาและกรองตามคู่คีย์-ค่า origin: jobคุณสามารถดูคุณสมบัติทั้งหมดที่เข้ารหัสแบบ one-hot จากแอตทริบิวต์ฐานนี้

การค้นพบคุณลักษณะโดยใช้รหัส

คุณยังสามารถเข้าถึงและอัปเดตข้อมูลคุณลักษณะผ่านทาง อินเทอร์เฟซบรรทัดคำสั่ง AWS AWS (AWS CLI) และ SDK (Boto3) แทนที่จะผ่านโดยตรง คอนโซลการจัดการ AWS. ซึ่งช่วยให้คุณสามารถรวมฟังก์ชันการค้นหาระดับฟีเจอร์ของ Feature Store เข้ากับแพลตฟอร์มวิทยาศาสตร์ข้อมูลที่คุณกำหนดเองได้ ในส่วนนี้ เราโต้ตอบกับปลายทาง Boto3 API เพื่ออัปเดตและค้นหาข้อมูลเมตาของฟีเจอร์

หากต้องการเริ่มปรับปรุงการค้นหาและการค้นพบฟีเจอร์ คุณสามารถเพิ่มข้อมูลเมตาโดยใช้ปุ่ม update_feature_metadata เอพีไอ นอกเหนือจาก description และ created_date คุณสามารถเพิ่มพารามิเตอร์ (คู่คีย์-ค่า) ได้สูงสุด 25 รายการให้กับคุณลักษณะที่กำหนด

โค้ดต่อไปนี้เป็นตัวอย่างของพารามิเตอร์คีย์-ค่าที่เป็นไปได้ XNUMX รายการที่ถูกเพิ่มไปยัง job_admin คุณสมบัติ. คุณสมบัตินี้ถูกสร้างขึ้นพร้อมกับ job_services และ job_noneโดยการเข้ารหัสแบบร้อนเดียว job.

sagemaker_client.update_feature_metadata(
    FeatureGroupName="customer",
    FeatureName="job_admin",
    ParameterAdditions=[
        {"Key": "author", "Value": "arnaud"}, # Feature's author
        {"Key": "team", "Value": "mlops"}, # Team owning the feature
        {"Key": "origin", "Value": "job"}, # Raw input parameter
        {"Key": "sensitivity", "Value": "5"}, # 1-5 scale for data sensitivity
        {"Key": "env", "Value": "testing"} # Environment the feature is used in
    ]
)

หลังจาก author, team, origin, sensitivityและ env ถูกเพิ่มเข้าใน job_admin คุณลักษณะ นักวิทยาศาสตร์ข้อมูลหรือวิศวกร ML สามารถดึงข้อมูลเหล่านี้ได้โดยเรียก describe_feature_metadata เอพีไอ คุณสามารถนำทางไปยัง Parameters คัดค้านในการตอบกลับสำหรับข้อมูลเมตาที่เราเพิ่มไปยังคุณสมบัติของเราก่อนหน้านี้ เดอะ describe_feature_metadata ตำแหน่งข้อมูล API ช่วยให้คุณได้รับข้อมูลเชิงลึกมากขึ้นเกี่ยวกับคุณลักษณะที่กำหนดโดยการรับข้อมูลเมตาที่เกี่ยวข้อง

response = sagemaker_client.describe_feature_metadata(
    FeatureGroupName="customer",
    FeatureName="job_admin",
)

# Navigate to 'Parameters' in response to get metadata
metadata = response['Parameters']

คุณสามารถค้นหาคุณลักษณะได้โดยใช้ SageMaker search API โดยใช้ข้อมูลเมตาเป็นพารามิเตอร์การค้นหา โค้ดต่อไปนี้เป็นฟังก์ชันตัวอย่างที่ใช้ a search_string พารามิเตอร์เป็นอินพุตและส่งกลับคุณสมบัติทั้งหมดที่ชื่อ คำอธิบาย หรือพารามิเตอร์ของคุณสมบัติตรงกับเงื่อนไข:

def search_features_using_string(search_string):
    response = sagemaker_client.search(
        Resource= "FeatureMetadata",
        SearchExpression={
            'Filters': [
               {
                   'Name': 'FeatureName',
                   'Operator': 'Contains',
                   'Value': search_string
               },
               {
                   'Name': 'Description',
                   'Operator': 'Contains',
                   'Value': search_string
               },
               {
                   'Name': 'AllParameters',
                   'Operator': 'Contains',
                   'Value': search_string
               }
           ],
           "Operator": "Or"
        },
    )

    # Displaying results in a pandas DataFrame
    df=pd.json_normalize(response['Results'], max_level=1)
    df.columns = df.columns.map(lambda col: col.split(".")[1])
    df=df.drop('FeatureGroupArn', axis=1)

    return df

ข้อมูลโค้ดต่อไปนี้ใช้ของเรา search_features ฟังก์ชันเพื่อดึงคุณลักษณะทั้งหมดที่ชื่อคุณลักษณะ คำอธิบาย หรือพารามิเตอร์มีคำนั้นอยู่ job:

search_results = search_features_using_string('mlops')
search_results

ภาพหน้าจอต่อไปนี้ประกอบด้วยรายการชื่อคุณลักษณะที่ตรงกันและข้อมูลเมตาที่สอดคล้องกัน รวมถึงการประทับเวลาสำหรับการสร้างคุณลักษณะแต่ละรายการและการแก้ไขครั้งล่าสุด คุณสามารถใช้ข้อมูลนี้เพื่อปรับปรุงการค้นพบและการมองเห็นคุณลักษณะขององค์กรของคุณ

ส่งเสริมการค้นพบคุณสมบัติและนำกลับมาใช้ใหม่ทั่วทั้งองค์กรของคุณโดยใช้ Amazon SageMaker Feature Store และความสามารถข้อมูลเมตาระดับฟีเจอร์ของ PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

สรุป

SageMaker Feature Store มอบโซลูชันการจัดการฟีเจอร์ที่สร้างขึ้นตามวัตถุประสงค์ เพื่อช่วยให้องค์กรปรับขนาดการพัฒนา ML ทั่วทั้งหน่วยธุรกิจและทีมวิทยาศาสตร์ข้อมูล การปรับปรุงการนำฟีเจอร์กลับมาใช้ใหม่และความสอดคล้องของฟีเจอร์เป็นประโยชน์หลักของที่จัดเก็บฟีเจอร์ ในโพสต์นี้ เราได้อธิบายวิธีที่คุณสามารถใช้ข้อมูลเมตาระดับฟีเจอร์เพื่อปรับปรุงการค้นหาและการค้นพบฟีเจอร์ ซึ่งรวมถึงการสร้างข้อมูลเมตาเกี่ยวกับกรณีการใช้งานต่างๆ และใช้เป็นพารามิเตอร์การค้นหาเพิ่มเติม

ลองดูและแจ้งให้เราทราบว่าคุณคิดอย่างไรในความคิดเห็น หากคุณต้องการเรียนรู้เพิ่มเติมเกี่ยวกับการทำงานร่วมกันและการแชร์ฟีเจอร์ภายใน Feature Store โปรดดูที่ เปิดใช้ฟีเจอร์ซ้ำในบัญชีและทีมต่างๆ โดยใช้ Amazon SageMaker Feature Store.


เกี่ยวกับผู้แต่ง

ส่งเสริมการค้นพบคุณสมบัติและนำกลับมาใช้ใหม่ทั่วทั้งองค์กรของคุณโดยใช้ Amazon SageMaker Feature Store และความสามารถข้อมูลเมตาระดับฟีเจอร์ของ PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. อาร์นาฟ ลอเออร์ เป็น Senior Partner Solutions Architect ในทีมภาครัฐที่ AWS เขาช่วยให้คู่ค้าและลูกค้าเข้าใจวิธีที่ดีที่สุดในการใช้เทคโนโลยีของ AWS เพื่อแปลความต้องการทางธุรกิจเป็นโซลูชัน เขานำประสบการณ์มากกว่า 16 ปีในการส่งมอบและออกแบบโครงการการเปลี่ยนแปลงทางดิจิทัลในอุตสาหกรรมต่างๆ รวมถึงภาครัฐ พลังงาน และสินค้าอุปโภคบริโภค ปัญญาประดิษฐ์และแมชชีนเลิร์นนิงเป็นสิ่งที่เขาสนใจ Arnaud มีใบรับรอง AWS 12 ฉบับ รวมถึง ML Specialty Certification

ส่งเสริมการค้นพบคุณสมบัติและนำกลับมาใช้ใหม่ทั่วทั้งองค์กรของคุณโดยใช้ Amazon SageMaker Feature Store และความสามารถข้อมูลเมตาระดับฟีเจอร์ของ PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.นิโคลัส แบร์เนียร์ เป็น Associate Solutions Architect ซึ่งเป็นส่วนหนึ่งของทีมภาครัฐของแคนาดาที่ AWS ปัจจุบันเขากำลังศึกษาระดับปริญญาโทด้านการวิจัยใน Deep Learning และถือใบรับรอง AWS ห้าใบ รวมถึงใบรับรอง ML Specialty Nicolas มีความกระตือรือร้นในการช่วยลูกค้าเพิ่มพูนความรู้เกี่ยวกับ AWS โดยทำงานร่วมกับพวกเขาเพื่อแปลงความท้าทายทางธุรกิจให้เป็นโซลูชันทางเทคนิค

ส่งเสริมการค้นพบคุณสมบัติและนำกลับมาใช้ใหม่ทั่วทั้งองค์กรของคุณโดยใช้ Amazon SageMaker Feature Store และความสามารถข้อมูลเมตาระดับฟีเจอร์ของ PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.มาร์ครอย Ro คือ Principal Machine Learning Architect สำหรับ AWS ซึ่งช่วยลูกค้าในการออกแบบและสร้างโซลูชัน AI/ML งานของ Mark ครอบคลุมกรณีการใช้งาน ML ที่หลากหลาย โดยมีความสนใจหลักในด้านคอมพิวเตอร์วิทัศน์ การเรียนรู้เชิงลึก และการปรับขนาด ML ทั่วทั้งองค์กร เขาได้ช่วยบริษัทต่างๆ ในหลายอุตสาหกรรม รวมถึงการประกันภัย บริการทางการเงิน สื่อและความบันเทิง การดูแลสุขภาพ สาธารณูปโภค และการผลิต Mark มีใบรับรอง AWS หกใบ รวมถึง ML Specialty Certification ก่อนร่วมงานกับ AWS Mark เคยเป็นสถาปนิก นักพัฒนา และผู้นำด้านเทคโนโลยีมานานกว่า 25 ปี รวมถึง 19 ปีในด้านบริการทางการเงิน

ส่งเสริมการค้นพบคุณสมบัติและนำกลับมาใช้ใหม่ทั่วทั้งองค์กรของคุณโดยใช้ Amazon SageMaker Feature Store และความสามารถข้อมูลเมตาระดับฟีเจอร์ของ PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.คุชบู ศรีสวัสดิ์ เป็นผู้จัดการผลิตภัณฑ์อาวุโสของ Amazon SageMaker เธอสนุกกับการสร้างผลิตภัณฑ์ที่ทำให้เวิร์กโฟลว์แมชชีนเลิร์นนิงสำหรับลูกค้าง่ายขึ้น ในเวลาว่างเธอชอบเล่นไวโอลิน ฝึกโยคะ และท่องเที่ยว

ประทับเวลา:

เพิ่มเติมจาก AWS Machine Learning AWS