ในโพสต์นี้ เราจะแสดงวิธีกำหนดค่าคุณลักษณะการรับรองความถูกต้องตาม OAuth ใหม่สำหรับการใช้งาน เกล็ดหิมะ in Amazon SageMaker ข้อมูล Wrangler. Snowflake เป็นแพลตฟอร์มข้อมูลบนคลาวด์ที่ให้บริการโซลูชันข้อมูลสำหรับคลังข้อมูลไปจนถึงวิทยาศาสตร์ข้อมูล เกล็ดหิมะเป็น คู่ค้า AWS ด้วยการรับรอง AWS หลายรายการ รวมถึงความสามารถของ AWS ในแมชชีนเลิร์นนิง (ML) การขายปลีก และข้อมูลและการวิเคราะห์
Data Wrangler ช่วยลดความยุ่งยากในการเตรียมข้อมูลและกระบวนการทางวิศวกรรมคุณลักษณะ ลดเวลาที่ใช้จากหลายสัปดาห์เหลือเป็นนาทีโดยการให้อินเทอร์เฟซแบบภาพเดียวสำหรับนักวิทยาศาสตร์ข้อมูลในการเลือกและล้างข้อมูล สร้างคุณลักษณะ และทำให้การเตรียมข้อมูลเป็นอัตโนมัติในเวิร์กโฟลว์ ML โดยไม่ต้องเขียนโค้ดใดๆ คุณสามารถนำเข้าข้อมูลจากแหล่งข้อมูลหลายแหล่ง เช่น บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน เอส3) อเมซอน อาเธน่า, อเมซอน Redshift, อเมซอน EMRและเกล็ดหิมะ ด้วยคุณสมบัติใหม่นี้ คุณสามารถใช้ผู้ให้บริการข้อมูลประจำตัว (IdP) ของคุณเอง เช่น Okta, Azure AD,หรือ สหพันธ์ปิง เพื่อเชื่อมต่อกับ Snowflake ผ่าน Data Wrangler
ภาพรวมโซลูชัน
ในส่วนต่อไปนี้ เรามีขั้นตอนสำหรับผู้ดูแลระบบในการตั้งค่า IdP, Snowflake และ Studio นอกจากนี้ เรายังให้รายละเอียดขั้นตอนที่นักวิทยาศาสตร์ข้อมูลสามารถดำเนินการเพื่อกำหนดค่าโฟลว์ข้อมูล วิเคราะห์คุณภาพข้อมูล และเพิ่มการแปลงข้อมูล สุดท้าย เราจะแสดงวิธีส่งออกโฟลว์ข้อมูลและฝึกโมเดลโดยใช้ ระบบขับเคลื่อนอัตโนมัติ SageMaker.
เบื้องต้น
สำหรับคำแนะนำนี้ คุณควรมีข้อกำหนดเบื้องต้นต่อไปนี้:
- สำหรับผู้ดูแลระบบ:
- ผู้ใช้ Snowflake ที่มีสิทธิ์ในการสร้างการผสานรวมพื้นที่เก็บข้อมูล และการผสานรวมความปลอดภัยใน Snowflake
- บัญชี AWS ที่มีสิทธิ์ในการสร้าง AWS Identity และการจัดการการเข้าถึง (IAM) นโยบายและบทบาท.
- การเข้าถึงและสิทธิ์ในการกำหนดค่า IDP เพื่อลงทะเบียนแอปพลิเคชัน Data Wrangler และตั้งค่าเซิร์ฟเวอร์การให้สิทธิ์หรือ API
- สำหรับนักวิทยาศาสตร์ข้อมูล:
การตั้งค่าผู้ดูแลระบบ
แทนที่จะให้ผู้ใช้ป้อนข้อมูลประจำตัว Snowflake ลงใน Data Wrangler โดยตรง คุณสามารถให้ผู้ใช้ใช้ IdP เพื่อเข้าถึง Snowflake ได้
ขั้นตอนต่อไปนี้เกี่ยวข้องกับการเปิดใช้งานการเข้าถึง Data Wrangler OAuth ไปยัง Snowflake:
- กำหนดค่า IdP
- กำหนดค่าเกล็ดหิมะ
- กำหนดค่า SageMaker Studio
กำหนดค่า IdP
ในการตั้งค่า IdP ของคุณ คุณต้องลงทะเบียนแอปพลิเคชัน Data Wrangler และตั้งค่าเซิร์ฟเวอร์การอนุญาตหรือ API ของคุณ
ลงทะเบียนแอปพลิเคชัน Data Wrangler ภายใน IdP
โปรดดูเอกสารประกอบต่อไปนี้สำหรับ IdP ที่ Data Wrangler รองรับ:
ใช้เอกสารที่จัดทำโดย IdP ของคุณเพื่อลงทะเบียนแอปพลิเคชัน Data Wrangler ของคุณ ข้อมูลและขั้นตอนในส่วนนี้ช่วยให้คุณเข้าใจวิธีการใช้เอกสารที่ IdP ของคุณให้มาอย่างเหมาะสม
การปรับแต่งเฉพาะนอกเหนือไปจากขั้นตอนในคำแนะนำที่เกี่ยวข้องจะระบุไว้ในส่วนย่อย
- เลือกการกำหนดค่าที่เริ่มกระบวนการลงทะเบียน Data Wrangler เป็นแอปพลิเคชัน
- ให้ผู้ใช้ภายใน IdP เข้าถึง Data Wrangler
- เปิดใช้งานการตรวจสอบสิทธิ์ไคลเอ็นต์ OAuth โดยจัดเก็บข้อมูลประจำตัวไคลเอ็นต์เป็นความลับ Secrets Manager
- ระบุ URL เปลี่ยนเส้นทางโดยใช้รูปแบบต่อไปนี้:
https://domain-ID.studio.AWS Region.sagemaker.aws/jupyter/default/lab
.
คุณกำลังระบุรหัสโดเมน SageMaker และภูมิภาค AWS ที่คุณใช้เพื่อเรียกใช้ Data Wrangler คุณต้องลงทะเบียน URL สำหรับแต่ละโดเมนและภูมิภาคที่คุณใช้งาน Data Wrangler ผู้ใช้จากโดเมนและภูมิภาคที่ไม่ได้ตั้งค่า URL การเปลี่ยนเส้นทางจะไม่สามารถตรวจสอบสิทธิ์กับ IdP เพื่อเข้าถึงการเชื่อมต่อ Snowflake
- ตรวจสอบให้แน่ใจว่าอนุญาตให้ใช้รหัสการให้สิทธิ์และรีเฟรชโทเค็นสำหรับแอปพลิเคชัน Data Wrangler ของคุณ
ตั้งค่าเซิร์ฟเวอร์การให้สิทธิ์หรือ API ภายใน IdP
ภายใน IdP ของคุณ คุณต้องตั้งค่าเซิร์ฟเวอร์การให้สิทธิ์หรือ Application Programming Interface (API) สำหรับผู้ใช้แต่ละราย เซิร์ฟเวอร์การอนุญาตหรือ API จะส่งโทเค็นไปยัง Data Wrangler โดยมี Snowflake เป็นผู้ชม
Snowflake ใช้แนวคิดของ บทบาท ที่แตกต่างจากบทบาท IAM ที่ใช้ใน AWS คุณต้องกำหนดค่า IdP เพื่อใช้บทบาทใดๆ เพื่อใช้บทบาทเริ่มต้นที่เชื่อมโยงกับบัญชี Snowflake ตัวอย่างเช่น หากผู้ใช้มี systems administrator
เป็นบทบาทเริ่มต้นในโปรไฟล์ Snowflake การเชื่อมต่อจาก Data Wrangler ไปยัง Snowflake จะใช้ systems administrator
เป็นบทบาท
ใช้ขั้นตอนต่อไปนี้เพื่อตั้งค่าเซิร์ฟเวอร์การอนุญาตหรือ API ภายใน IdP ของคุณ:
- จาก IdP ของคุณ ให้เริ่มกระบวนการตั้งค่าเซิร์ฟเวอร์หรือ API
- กำหนดค่าเซิร์ฟเวอร์การให้สิทธิ์เพื่อใช้รหัสการให้สิทธิ์และรีเฟรชประเภทการให้สิทธิ์โทเค็น
- ระบุอายุการใช้งานของโทเค็นการเข้าถึง
- ตั้งค่าการหมดเวลาใช้งานโทเค็นการรีเฟรช
การหมดเวลาที่ไม่ได้ใช้งานคือเวลาที่โทเค็นการรีเฟรชจะหมดอายุหากไม่มีการใช้งาน หากคุณกำลังจัดกำหนดการงานใน Data Wrangler เราขอแนะนำให้ทำให้เวลาหมดเวลาว่างมากกว่าความถี่ของงานประมวลผล มิฉะนั้น งานการประมวลผลบางอย่างอาจล้มเหลวเนื่องจากโทเค็นการรีเฟรชหมดอายุก่อนที่จะสามารถเรียกใช้ได้ เมื่อโทเค็นการรีเฟรชหมดอายุ ผู้ใช้ต้องตรวจสอบสิทธิ์อีกครั้งโดยการเข้าถึงการเชื่อมต่อที่ทำไว้กับ Snowflake ผ่าน Data Wrangler
โปรดทราบว่า Data Wrangler ไม่รองรับโทเค็นการรีเฟรชแบบหมุนเวียน การใช้โทเค็นการรีเฟรชแบบหมุนอาจทำให้การเข้าถึงล้มเหลวหรือผู้ใช้จำเป็นต้องเข้าสู่ระบบบ่อยๆ
หากโทเค็นการรีเฟรชหมดอายุ ผู้ใช้ของคุณต้องตรวจสอบสิทธิ์อีกครั้งโดยการเข้าถึงการเชื่อมต่อที่พวกเขาทำไว้กับ Snowflake ผ่าน Data Wrangler
- ระบุ
session:role-any
เป็นขอบเขตใหม่
สำหรับ Azure AD คุณต้องระบุตัวระบุเฉพาะสำหรับขอบเขตด้วย
หลังจากที่คุณตั้งค่าผู้ให้บริการ OAuth แล้ว คุณให้ข้อมูลที่จำเป็นแก่ Data Wrangler เพื่อเชื่อมต่อกับผู้ให้บริการ คุณสามารถใช้เอกสารประกอบจาก IdP ของคุณเพื่อรับค่าสำหรับฟิลด์ต่อไปนี้:
- URL โทเค็น – URL ของโทเค็นที่ IdP ส่งไปยัง Data Wrangler
- URL การอนุญาต – URL ของเซิร์ฟเวอร์การให้สิทธิ์ของ IdP
- รหัสลูกค้า – ID ของ IdP
- ความลับของลูกค้า – ความลับที่มีเพียงเซิร์ฟเวอร์การอนุญาตหรือ API เท่านั้นที่รับรู้
- ขอบเขต OAuth – ใช้สำหรับ Azure AD เท่านั้น
กำหนดค่าเกล็ดหิมะ
หากต้องการกำหนดค่า Snowflake ให้ทำตามคำแนะนำใน นำเข้าข้อมูลจาก Snowflake.
ใช้เอกสาร Snowflake สำหรับ IdP ของคุณเพื่อตั้งค่าการรวม OAuth ภายนอกใน Snowflake ดูส่วนก่อนหน้า ลงทะเบียนแอปพลิเคชัน Data Wrangler ภายใน IdP สำหรับข้อมูลเพิ่มเติมเกี่ยวกับวิธีตั้งค่าการรวม OAuth ภายนอก
เมื่อคุณตั้งค่าการรวมความปลอดภัยใน Snowflake ตรวจสอบให้แน่ใจว่าคุณได้เปิดใช้งาน external_oauth_any_role_mode
.
กำหนดค่า SageMaker Studio
คุณจัดเก็บฟิลด์และค่าต่างๆ ไว้ใน Secrets Manager secrets และเพิ่มไปยัง Studio Lifecycle Configuration ที่คุณใช้สำหรับ Data Wrangler Lifecycle Configuration เป็นเชลล์สคริปต์ที่โหลดข้อมูลประจำตัวที่เก็บไว้ในความลับโดยอัตโนมัติเมื่อผู้ใช้ลงชื่อเข้าใช้ Studio ดูข้อมูลเกี่ยวกับการสร้างความลับได้ที่ ย้ายข้อมูลลับแบบฮาร์ดโค้ดไปที่ AWS Secrets Manager. สำหรับข้อมูลเกี่ยวกับการใช้ Lifecycle Configurations ใน Studio โปรดดู ใช้การกำหนดค่าวงจรชีวิตกับ Amazon SageMaker Studio.
สร้างความลับสำหรับข้อมูลประจำตัวของ Snowflake
หากต้องการสร้างข้อมูลลับของคุณสำหรับข้อมูลรับรอง Snowflake ให้ทำตามขั้นตอนต่อไปนี้:
- บนคอนโซล Secrets Manager ให้เลือก เก็บความลับใหม่.
- สำหรับ ประเภทลับให้เลือก ความลับอีกประเภทหนึ่ง.
- ระบุรายละเอียดของข้อมูลลับของคุณเป็นคู่คีย์-ค่า
ชื่อคีย์ต้องใช้ตัวพิมพ์เล็กเนื่องจากความละเอียดอ่อนของตัวพิมพ์ Data Wrangler แจ้งเตือนหากคุณป้อนข้อมูลเหล่านี้ไม่ถูกต้อง ป้อนค่าลับเป็นคู่คีย์-ค่า คีย์/ค่า หากคุณต้องการ หรือใช้ ข้อความธรรมดา ตัวเลือก
ต่อไปนี้เป็นรูปแบบของความลับที่ใช้สำหรับ Okta หากคุณใช้ Azure AD คุณต้องเพิ่ม datasource_oauth_scope
สนาม
- อัปเดตค่าก่อนหน้าด้วย IdP ที่คุณเลือกและข้อมูลที่รวบรวมหลังจากการลงทะเบียนแอปพลิเคชัน
- Choose ถัดไป.
- สำหรับ ชื่อลับ, เพิ่มคำนำหน้า
AmazonSageMaker
(เช่น ความลับของเราคือAmazonSageMaker-DataWranglerSnowflakeCreds
). - ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร แท็ก ส่วนเพิ่มแท็กด้วยคีย์
SageMaker
และคุณค่าtrue
. - Choose ถัดไป.
- ฟิลด์ที่เหลือเป็นทางเลือก เลือก ถัดไป จนกว่าจะมีตัวเลือกให้ ร้านค้า เพื่อเก็บความลับ
หลังจากที่คุณเก็บข้อมูลลับ คุณจะกลับไปที่คอนโซลตัวจัดการความลับ
- เลือกความลับที่คุณเพิ่งสร้างขึ้น จากนั้นดึงข้อมูล ARN ลับ
- เก็บไว้ในโปรแกรมแก้ไขข้อความที่คุณต้องการเพื่อใช้ในภายหลังเมื่อคุณสร้างแหล่งข้อมูล Data Wrangler
สร้างการกำหนดค่าวงจรชีวิตของ Studio
หากต้องการสร้าง Lifecycle Configuration ใน Studio ให้ทำตามขั้นตอนต่อไปนี้:
- บนคอนโซล SageMaker ให้เลือก การกำหนดค่าวงจรชีวิต ในบานหน้าต่างนำทาง
- Choose สร้างการกำหนดค่า.
- Choose แอพเซิร์ฟเวอร์ Jupyter.
- สร้างการกำหนดค่าวงจรชีวิตใหม่หรือผนวกสิ่งที่มีอยู่ด้วยเนื้อหาต่อไปนี้:
การกำหนดค่าจะสร้างไฟล์ที่มีชื่อ ".snowflake_identity_provider_oauth_config"
ซึ่งมีความลับอยู่ในโฮมโฟลเดอร์ของผู้ใช้
- Choose สร้างการกำหนดค่า.
ตั้งค่าการกำหนดค่าวงจรชีวิตเริ่มต้น
ทำตามขั้นตอนต่อไปนี้เพื่อตั้งค่า Lifecycle Configuration ที่คุณเพิ่งสร้างขึ้นเป็นค่าเริ่มต้น:
- บนคอนโซล SageMaker ให้เลือก โดเมน ในบานหน้าต่างนำทาง
- เลือกโดเมน Studio ที่คุณจะใช้สำหรับตัวอย่างนี้
- เกี่ยวกับ สิ่งแวดล้อม ในแท็บ การกำหนดค่าวงจรการใช้งานสำหรับแอป Studio ส่วนตัว ส่วนเลือก แนบ.
- สำหรับ แหล่งให้เลือก การกำหนดค่าที่มีอยู่.
- เลือกการกำหนดค่าที่คุณเพิ่งทำ จากนั้นเลือก แนบกับโดเมน.
- เลือกการกำหนดค่าใหม่แล้วเลือก ตั้งเป็นค่าเริ่มต้นแล้วเลือก ตั้งเป็นค่าเริ่มต้น อีกครั้งในข้อความป๊อปอัป
การตั้งค่าใหม่ของคุณควรปรากฏให้เห็นภายใต้ การกำหนดค่าวงจรการใช้งานสำหรับแอป Studio ส่วนตัว เป็นค่าเริ่มต้น
- ปิดแอป Studio แล้วเปิดใหม่เพื่อให้การเปลี่ยนแปลงมีผล
ประสบการณ์นักวิทยาศาสตร์ข้อมูล
ในส่วนนี้ เราจะกล่าวถึงวิธีที่นักวิทยาศาสตร์ข้อมูลสามารถเชื่อมต่อกับ Snowflake เป็นแหล่งข้อมูลใน Data Wrangler และเตรียมข้อมูลสำหรับ ML
สร้างกระแสข้อมูลใหม่
ในการสร้างโฟลว์ข้อมูลของคุณ ให้ทำตามขั้นตอนต่อไปนี้:
- บนคอนโซล SageMaker ให้เลือก สตูดิโอ Amazon SageMaker ในบานหน้าต่างนำทาง
- Choose เปิด Studio.
- บนสตูดิโอ หน้าแรก หน้าให้เลือก นำเข้าและเตรียมข้อมูลด้วยภาพ. หรืออีกทางหนึ่งบน เนื้อไม่มีมัน เลื่อนลง เลือก ใหม่แล้วเลือก SageMaker Data Wrangler โฟลว์.
การสร้างโฟลว์ใหม่อาจใช้เวลาสักครู่
- เกี่ยวกับ นำเข้าข้อมูล หน้าให้เลือก สร้างการเชื่อมต่อ.
- Choose เกล็ดหิมะ จากรายการแหล่งข้อมูล
- สำหรับ วิธีการรับรองความถูกต้องเลือก OAuth.
หากคุณไม่เห็น OAuth ให้ตรวจสอบขั้นตอนการกำหนดค่าวงจรชีวิตก่อนหน้านี้
- ใส่รายละเอียดสำหรับ ชื่อบัญชีเกล็ดหิมะ และ การรวมพื้นที่เก็บข้อมูล.
- ป้อนชื่อการเชื่อมต่อแล้วเลือก เชื่อมต่อ.
ระบบเปลี่ยนเส้นทางคุณไปยังหน้าการตรวจสอบสิทธิ์ IdP สำหรับตัวอย่างนี้ เรากำลังใช้ Okta
- ป้อนชื่อผู้ใช้และรหัสผ่านของคุณ จากนั้นเลือก เข้าสู่ระบบ.
หลังจากตรวจสอบสิทธิ์สำเร็จ ระบบจะเปลี่ยนเส้นทางคุณไปยังหน้าโฟลว์ข้อมูลของ Studio
- เกี่ยวกับ นำเข้าข้อมูลจาก Snowflake หน้า เรียกดูวัตถุฐานข้อมูล หรือเรียกใช้แบบสอบถามสำหรับข้อมูลเป้าหมาย
- ในตัวแก้ไขแบบสอบถาม ให้ป้อนแบบสอบถามและดูตัวอย่างผลลัพธ์
ในตัวอย่างต่อไปนี้ เราโหลด ข้อมูลเงินกู้ และดึงข้อมูลคอลัมน์ทั้งหมดจาก 5,000 แถว
- Choose นำเข้า.
- ป้อนชื่อชุดข้อมูล (สำหรับโพสต์นี้ เราใช้
snowflake_loan_dataset
) และเลือก เพิ่ม.
คุณถูกเปลี่ยนเส้นทางไปที่ เตรียมการ หน้าซึ่งคุณสามารถเพิ่มการแปลงและวิเคราะห์ข้อมูลได้
Data Wrangler ทำให้ง่ายต่อการนำเข้าข้อมูลและดำเนินการจัดเตรียมข้อมูล เช่น การวิเคราะห์ข้อมูลเชิงสำรวจ การเลือกคุณลักษณะ และวิศวกรรมคุณลักษณะ เราได้กล่าวถึงความสามารถบางอย่างของ Data Wrangler ในโพสต์นี้เกี่ยวกับการเตรียมข้อมูล คุณสามารถใช้ Data Wrangler สำหรับการวิเคราะห์ข้อมูลขั้นสูง เช่น ความสำคัญของฟีเจอร์ การรั่วไหลของเป้าหมาย และความสามารถในการอธิบายโมเดลโดยใช้อินเทอร์เฟซผู้ใช้ที่ใช้งานง่าย
วิเคราะห์คุณภาพข้อมูล
ใช้ รายงานคุณภาพข้อมูลและข้อมูลเชิงลึก เพื่อทำการวิเคราะห์ข้อมูลที่คุณนำเข้ามายัง Data Wrangler Data Wrangler สร้างรายงานจากข้อมูลตัวอย่าง
- ในหน้าโฟลว์ Data Wrangler ให้เลือกเครื่องหมายบวกถัดจาก ประเภทข้อมูลแล้วเลือก รับข้อมูลเชิงลึก.
- Choose รายงานคุณภาพข้อมูลและข้อมูลเชิงลึก for ประเภทการวิเคราะห์.
- สำหรับ คอลัมน์เป้าหมายเลือกคอลัมน์เป้าหมายของคุณ
- สำหรับ ประเภทปัญหาให้เลือก การจัดหมวดหมู่.
- Choose สร้างบัญชีตัวแทน.
รายงานข้อมูลเชิงลึกมีการสรุปสั้นๆ ของข้อมูล ซึ่งรวมถึงข้อมูลทั่วไป เช่น ค่าที่ขาดหายไป ค่าที่ไม่ถูกต้อง ประเภทคุณลักษณะ จำนวนที่ผิดปกติ และอื่นๆ คุณสามารถดาวน์โหลดรายงานหรือดูออนไลน์ก็ได้
เพิ่มการแปลงข้อมูล
Data Wrangler มีการแปลงในตัวมากกว่า 300 รายการ ในส่วนนี้ เราใช้การแปลงบางส่วนเหล่านี้เพื่อเตรียมชุดข้อมูลสำหรับแบบจำลอง ML
- ในหน้า Data Wrangler Flow ให้เลือกเครื่องหมายบวก จากนั้นเลือก เพิ่มการแปลง.
หากคุณทำตามขั้นตอนในโพสต์ คุณจะถูกนำไปที่นี่โดยอัตโนมัติหลังจากเพิ่มชุดข้อมูลของคุณ
- ตรวจสอบและแก้ไขชนิดข้อมูลของคอลัมน์
เมื่อมองผ่านคอลัมน์ เราพบว่า MNTHS_SINCE_LAST_DELINQ
และ MNTHS_SINCE_LAST_RECORD
มักจะแสดงเป็นประเภทตัวเลขมากกว่าสตริง
- หลังจากใช้การเปลี่ยนแปลงและเพิ่มขั้นตอนแล้ว คุณสามารถตรวจสอบได้ว่าประเภทข้อมูลคอลัมน์เปลี่ยนเป็นแบบลอย
เมื่อมองผ่านข้อมูลจะเห็นว่าช่องต่างๆ EMP_TITLE
, URL
, DESCRIPTION
และ TITLE
จะไม่ให้คุณค่าแก่โมเดลของเราในกรณีการใช้งานของเรา ดังนั้น เราจึงสามารถทิ้งมันได้
- Choose เพิ่มขั้นตอนแล้วเลือก จัดการคอลัมน์.
- สำหรับ แปลงเลือก วางคอลัมน์.
- สำหรับ คอลัมน์ที่จะปล่อย, ระบุ
EMP_TITLE
,URL
,DESCRIPTION
และTITLE
. - Choose ดูตัวอย่าง และ เพิ่ม.
ต่อไป เราต้องการค้นหาข้อมูลที่เป็นหมวดหมู่ในชุดข้อมูลของเรา Data Wrangler มีฟังก์ชันในตัวเพื่อเข้ารหัสข้อมูลตามหมวดหมู่โดยใช้การเข้ารหัสทั้งแบบลำดับและแบบครั้งเดียว เมื่อดูชุดข้อมูลของเรา เราจะเห็นได้ว่า TERM
, HOME_OWNERSHIP
และ PURPOSE
คอลัมน์ทั้งหมดดูเหมือนจะจัดหมวดหมู่โดยธรรมชาติ
- เพิ่มขั้นตอนอื่นแล้วเลือก เข้ารหัสหมวดหมู่.
- สำหรับ แปลงเลือก การเข้ารหัสแบบร้อนครั้งเดียว.
- สำหรับ คอลัมน์อินพุตเลือก
TERM
. - สำหรับ สไตล์เอาต์พุตเลือก คอลัมน์.
- ปล่อยให้การตั้งค่าอื่นๆ ทั้งหมดเป็นค่าเริ่มต้น จากนั้นเลือก ดูตัวอย่าง และ เพิ่ม.
พื้นที่ HOME_OWNERSHIP
คอลัมน์มีค่าที่เป็นไปได้สี่ค่า: RENT
, MORTGAGE
, OWN
, และอื่น ๆ.
- ทำซ้ำขั้นตอนก่อนหน้าเพื่อใช้วิธีการเข้ารหัสแบบใช้ครั้งเดียวกับค่าเหล่านี้
สุดท้าย PURPOSE
คอลัมน์มีค่าที่เป็นไปได้หลายค่า สำหรับข้อมูลนี้ เราใช้วิธีการเข้ารหัสแบบ one-hot เช่นกัน แต่เราตั้งค่าเอาต์พุตเป็นเวกเตอร์แทนที่จะเป็นคอลัมน์
- สำหรับ แปลงเลือก การเข้ารหัสแบบร้อนครั้งเดียว.
- สำหรับ คอลัมน์อินพุตเลือก
PURPOSE
. - สำหรับ สไตล์เอาต์พุตเลือก เวกเตอร์.
- สำหรับ คอลัมน์เอาต์พุตเราเรียกคอลัมน์นี้ว่า
PURPOSE_VCTR
.
นี้ยังคงเดิม PURPOSE
คอลัมน์ หากเราตัดสินใจใช้ในภายหลัง
- ปล่อยให้การตั้งค่าอื่นๆ ทั้งหมดเป็นค่าเริ่มต้น จากนั้นเลือก ดูตัวอย่าง และ เพิ่ม.
ส่งออกกระแสข้อมูล
สุดท้าย เราส่งออกโฟลว์ข้อมูลทั้งหมดนี้ไปยังที่เก็บคุณลักษณะที่มีงาน SageMaker Processing ซึ่งสร้างสมุดบันทึก Jupyter พร้อมรหัสที่เติมข้อมูลไว้ล่วงหน้า
- ในหน้าโฟลว์ข้อมูล เลือกเครื่องหมายบวกและ ส่งออกไปที่.
- เลือกตำแหน่งที่จะส่งออก สำหรับกรณีการใช้งานของเรา เราเลือก ที่เก็บฟีเจอร์ SageMaker.
สมุดบันทึกที่ส่งออกพร้อมที่จะเรียกใช้แล้ว
ส่งออกข้อมูลและฝึกโมเดลด้วย Autopilot
ตอนนี้เราสามารถฝึกโมเดลโดยใช้ ระบบนำร่องอัตโนมัติของ Amazon SageMaker.
- ในหน้าโฟลว์ข้อมูล เลือก การฝึกอบรม แถบ
- สำหรับ ที่ตั้งของ Amazon S3ป้อนตำแหน่งสำหรับข้อมูลที่จะบันทึก
- Choose ส่งออกและฝึกอบรม.
- ระบุการตั้งค่าในส่วน เป้าหมายและคุณสมบัติ, วิธีการฝึกอบรม, การปรับใช้และการตั้งค่าล่วงหน้าและ ตรวจสอบและสร้าง ส่วน
- Choose สร้างการทดลอง เพื่อค้นหาโมเดลที่ดีที่สุดสำหรับปัญหาของคุณ
ทำความสะอาด
หากงานของคุณกับ Data Wrangler เสร็จสมบูรณ์ ปิดอินสแตนซ์ Data Wrangler ของคุณ เพื่อหลีกเลี่ยงค่าธรรมเนียมเพิ่มเติม
สรุป
ในโพสต์นี้ เราได้แสดงการเชื่อมต่อ Data Wrangler เป็น Snowflake โดยใช้ OAuthแปลงและวิเคราะห์ชุดข้อมูล และสุดท้ายส่งออกไปยังโฟลว์ข้อมูลเพื่อให้สามารถใช้ในโน้ตบุ๊ก Jupyter ที่สำคัญที่สุด เราได้สร้างไปป์ไลน์สำหรับการเตรียมข้อมูลโดยไม่ต้องเขียนโค้ดใดๆ เลย
ในการเริ่มต้นใช้งาน Data Wrangler โปรดดูที่ เตรียมข้อมูล ML ด้วย Amazon SageMaker Data Wrangler.
เกี่ยวกับผู้แต่ง
อาจารย์โกวินทราม เป็นสถาปนิกโซลูชันอาวุโสที่ AWS เขาทำงานร่วมกับลูกค้าเชิงกลยุทธ์ที่ใช้ AI/ML เพื่อแก้ปัญหาทางธุรกิจที่ซับซ้อน ประสบการณ์ของเขาอยู่ที่การให้คำแนะนำด้านเทคนิคตลอดจนความช่วยเหลือด้านการออกแบบสำหรับการปรับใช้แอปพลิเคชัน AI/ML ระดับปานกลางถึงขนาดใหญ่ ความรู้ของเขามีตั้งแต่สถาปัตยกรรมแอปพลิเคชันไปจนถึงข้อมูลขนาดใหญ่ การวิเคราะห์ และการเรียนรู้ของเครื่อง เขาชอบฟังเพลงขณะพักผ่อน สัมผัสประสบการณ์กลางแจ้ง และใช้เวลากับคนที่เขารัก
บอสโก อัลบูเคอร์กี เป็น Sr. Partner Solutions Architect ที่ AWS และมีประสบการณ์มากกว่า 20 ปีในการทำงานกับฐานข้อมูลและผลิตภัณฑ์การวิเคราะห์จากผู้จำหน่ายฐานข้อมูลระดับองค์กรและผู้ให้บริการระบบคลาวด์ เขาช่วยบริษัทเทคโนโลยีขนาดใหญ่ในการออกแบบโซลูชันการวิเคราะห์ข้อมูล และได้นำทีมวิศวกรรมในการออกแบบและใช้งานแพลตฟอร์มการวิเคราะห์ข้อมูลและผลิตภัณฑ์ข้อมูล
แมตต์ มาร์ซิลโล เป็นวิศวกรฝ่ายขายหุ้นส่วนอาวุโสที่ Snowflake เขามีประสบการณ์ 10 ปีในด้านวิทยาศาสตร์ข้อมูลและบทบาทของแมชชีนเลิร์นนิงทั้งในการให้คำปรึกษาและกับองค์กรอุตสาหกรรม Matt มีประสบการณ์ในการพัฒนาและใช้งานโมเดล AI และ ML ในองค์กรต่างๆ มากมายในด้านต่างๆ เช่น การตลาด การขาย การปฏิบัติการ คลินิก และการเงิน ตลอดจนการให้คำปรึกษาในบทบาทที่ปรึกษา
Huong Nguyen เป็นผู้นำผลิตภัณฑ์สำหรับ Amazon SageMaker Data Wrangler ที่ AWS เธอมีประสบการณ์ 15 ปีในการสร้างผลิตภัณฑ์ที่เน้นลูกค้าเป็นสำคัญและขับเคลื่อนด้วยข้อมูลสำหรับทั้งองค์กรและผู้บริโภค ในเวลาว่าง เธอชอบอ่านหนังสือเสียง ทำสวน เดินป่า และใช้เวลากับครอบครัวและเพื่อนๆ
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- เพลโตบล็อคเชน Web3 Metaverse ข่าวกรอง ขยายความรู้. เข้าถึงได้ที่นี่.
- ที่มา: https://aws.amazon.com/blogs/machine-learning/access-snowflake-data-using-oauth-based-authentication-in-amazon-sagemaker-data-wrangler/
- :เป็น
- $ ขึ้น
- 000
- 10
- 100
- 7
- 8
- 9
- a
- สามารถ
- เกี่ยวกับเรา
- เข้า
- การเข้าถึงข้อมูล
- การเข้าถึง
- ลงชื่อเข้าใช้
- ข้าม
- Ad
- นอกจากนี้
- เพิ่มเติม
- ผู้ดูแลระบบ
- ความก้าวหน้า
- สูง
- การให้คำแนะนำ
- หลังจาก
- AI
- AI / ML
- ทั้งหมด
- อเมซอน
- อเมซอน SageMaker
- Amazon SageMaker ข้อมูล Wrangler
- การวิเคราะห์
- การวิเคราะห์
- การวิเคราะห์
- วิเคราะห์
- วิเคราะห์
- และ
- อื่น
- API
- app
- ปรากฏ
- การใช้งาน
- ใช้
- การประยุกต์ใช้
- เข้าใกล้
- ปพลิเคชัน
- สถาปัตยกรรม
- เป็น
- พื้นที่
- AS
- ความช่วยเหลือ
- ที่เกี่ยวข้อง
- At
- แนบ
- ผู้ฟัง
- เสียง
- รับรองความถูกต้อง
- การยืนยันตัวตน
- การอนุญาต
- โดยอัตโนมัติ
- อัตโนมัติ
- AWS
- สีฟ้า
- BE
- เพราะ
- ก่อน
- เริ่ม
- ที่ดีที่สุด
- ใหญ่
- ข้อมูลขนาดใหญ่
- ร่างกาย
- ร้านหนังสือเกาหลี
- built-in
- ธุรกิจ
- by
- โทรศัพท์
- ที่เรียกว่า
- CAN
- ความสามารถในการ
- กรณี
- แมว
- การเปลี่ยนแปลง
- ทางเลือก
- Choose
- ไคลเอนต์
- คลินิก
- เมฆ
- รหัส
- คอลัมน์
- คอลัมน์
- บริษัท
- สมบูรณ์
- ซับซ้อน
- แนวคิด
- องค์ประกอบ
- เชื่อมต่อ
- การเชื่อมต่อ
- การเชื่อมต่อ
- ปลอบใจ
- การให้คำปรึกษา
- ผู้บริโภค
- เนื้อหา
- ได้
- หน้าปก
- ปกคลุม
- สร้าง
- ที่สร้างขึ้น
- สร้าง
- การสร้าง
- หนังสือรับรอง
- ลูกค้า
- ข้อมูล
- การวิเคราะห์ข้อมูล
- วิเคราะห์ข้อมูล
- แพลตฟอร์มข้อมูล
- การเตรียมข้อมูล
- วิทยาศาสตร์ข้อมูล
- นักวิทยาศาสตร์ข้อมูล
- ที่ขับเคลื่อนด้วยข้อมูล
- ฐานข้อมูล
- ตัดสินใจ
- ค่าเริ่มต้น
- แสดงให้เห็นถึง
- ปรับใช้
- การใช้งาน
- ออกแบบ
- การออกแบบ
- รายละเอียด
- รายละเอียด
- ที่กำลังพัฒนา
- ต่าง
- ทิศทาง
- โดยตรง
- แตกต่าง
- เอกสาร
- ไม่
- โดเมน
- Dont
- ลง
- ดาวน์โหลด
- หล่น
- แต่ละ
- บรรณาธิการ
- ผล
- ทั้ง
- ทำให้สามารถ
- วิศวกร
- ชั้นเยี่ยม
- เข้าสู่
- Enterprise
- สิ่งแวดล้อม
- ตัวอย่าง
- ที่มีอยู่
- ประสบการณ์
- ประสบ
- การวิเคราะห์ข้อมูลเชิงสำรวจ
- ส่งออก
- ภายนอก
- ล้มเหลว
- ครอบครัว
- ลักษณะ
- คุณสมบัติ
- ค่าธรรมเนียม
- สองสาม
- สนาม
- สาขา
- เนื้อไม่มีมัน
- ในที่สุด
- เงินทุน
- หา
- ลอย
- ไหล
- ดังต่อไปนี้
- สำหรับ
- รูป
- เวลา
- มัก
- เพื่อน
- ราคาเริ่มต้นที่
- ฟังก์ชั่น
- General
- ได้รับ
- จะช่วยให้
- ให้
- มากขึ้น
- คู่มือ
- มี
- มี
- ช่วย
- ช่วย
- โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม
- หน้าแรก
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- HTML
- ที่ http
- HTTPS
- ID
- ระบุ
- แยกแยะ
- เอกลักษณ์
- Idle
- การดำเนินการ
- นำเข้า
- ความสำคัญ
- in
- รวมถึง
- รวมทั้ง
- อย่างไม่ถูกต้อง
- อุตสาหกรรม
- ข้อมูล
- อินพุต
- ความเข้าใจ
- ข้อมูลเชิงลึก
- คำแนะนำการใช้
- บูรณาการ
- การผสานรวม
- อินเตอร์เฟซ
- ใช้งานง่าย
- ร่วมมือ
- IT
- การสัมภาษณ์
- งาน
- jpg
- คีย์
- ความรู้
- ใหญ่
- ขนาดใหญ่
- ผู้นำ
- การเรียนรู้
- นำ
- ตั้งอยู่
- วงจรชีวิต
- ตลอดชีวิต
- กดไลก์
- น่าจะ
- รายการ
- การฟัง
- โหลด
- โหลด
- ที่ตั้ง
- ดู
- ที่ต้องการหา
- รัก
- เครื่อง
- เรียนรู้เครื่อง
- ทำ
- ทำ
- ทำให้
- การทำ
- ผู้จัดการ
- หลาย
- การตลาด
- ข่าวสาร
- อาจ
- นาที
- หายไป
- ML
- แบบ
- โมเดล
- แก้ไข
- ข้อมูลเพิ่มเติม
- มากที่สุด
- หลาย
- ดนตรี
- ชื่อ
- ชื่อ
- ธรรมชาติ
- การเดินเรือ
- จำเป็นต้อง
- ต้อง
- ความต้องการ
- ใหม่
- ถัดไป
- ยวด
- สมุดบันทึก
- จำนวน
- รับรอง
- วัตถุ
- of
- ตกลง
- on
- ONE
- ออนไลน์
- การดำเนินการ
- ตัวเลือกเสริม (Option)
- องค์กร
- เป็นต้นฉบับ
- อื่นๆ
- มิฉะนั้น
- กลางแจ้ง
- เอาท์พุต
- ของตนเอง
- หน้า
- คู่
- บานหน้าต่าง
- หุ้นส่วน
- รหัสผ่าน
- ดำเนินการ
- สิทธิ์
- ส่วนบุคคล
- ท่อ
- เวที
- แพลตฟอร์ม
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- บวก
- นโยบาย
- ป๊อปอัพ
- เป็นไปได้
- โพสต์
- ที่ต้องการ
- เตรียมการ
- ข้อกำหนดเบื้องต้น
- ดูตัวอย่าง
- ก่อน
- ปัญหา
- ปัญหาที่เกิดขึ้น
- ขั้นตอน
- กระบวนการ
- การประมวลผล
- ผลิตภัณฑ์
- ผลิตภัณฑ์
- โปรไฟล์
- การเขียนโปรแกรม
- อย่างถูกต้อง
- ให้
- ให้
- ผู้จัดหา
- ผู้ให้บริการ
- ให้
- การให้
- คุณภาพ
- ค่อนข้าง
- พร้อม
- แนะนำ
- เปลี่ยนเส้นทาง
- ลด
- ภูมิภาค
- ทะเบียน
- การบันทึก
- ลงทะเบียน
- สังข์
- รายงาน
- เป็นตัวแทนของ
- ต้องการ
- ว่า
- REST
- ผล
- ผลสอบ
- ค้าปลีก
- บทบาท
- บทบาท
- วิ่ง
- วิ่ง
- sagemaker
- ขาย
- การกำหนด
- วิทยาศาสตร์
- นักวิทยาศาสตร์
- นักวิทยาศาสตร์
- ขอบเขต
- ลับ
- Section
- ส่วน
- ความปลอดภัย
- การเลือก
- ระดับอาวุโส
- ความไว
- ชุด
- การตั้งค่า
- การตั้งค่า
- หลาย
- เปลือก
- น่า
- โชว์
- ลงชื่อ
- ง่าย
- เดียว
- So
- โซลูชัน
- แก้
- บาง
- แหล่ง
- แหล่งที่มา
- ช่องว่าง
- การใช้จ่าย
- ข้อความที่เริ่ม
- เริ่มต้น
- ขั้นตอน
- ขั้นตอน
- การเก็บรักษา
- จัดเก็บ
- เก็บไว้
- การเก็บรักษา
- ยุทธศาสตร์
- เชือก
- สตูดิโอ
- ที่ประสบความสำเร็จ
- อย่างเช่น
- สรุป
- สนับสนุน
- รองรับ
- TAG
- เอา
- ใช้เวลา
- เป้า
- เป้าหมาย
- งาน
- ทีม
- วิชาการ
- เทคโนโลยี
- บริษัท เทคโนโลยี
- ที่
- พื้นที่
- ข้อมูล
- ของพวกเขา
- พวกเขา
- ล้อยางขัดเหล่านี้ติดตั้งบนแกน XNUMX (มม.) ผลิตภัณฑ์นี้ถูกผลิตในหลายรูปทรง และหลากหลายเบอร์ความแน่นหนาของปริมาณอนุภาคขัดของมัน จะทำให้ท่านได้รับประสิทธิภาพสูงในการขัดและการใช้งานที่ยาวนาน
- ตลอด
- เวลา
- ไปยัง
- โทเค็น
- ราชสกุล
- รถไฟ
- แปลง
- การแปลง
- การเปลี่ยนแปลง
- ชนิด
- ภายใต้
- เข้าใจ
- เป็นเอกลักษณ์
- บันทึก
- URL
- ใช้
- ใช้กรณี
- ผู้ใช้งาน
- ส่วนติดต่อผู้ใช้
- ผู้ใช้
- ความคุ้มค่า
- ความคุ้มค่า
- ผู้ขาย
- ตรวจสอบ
- ผ่านทาง
- รายละเอียด
- มองเห็นได้
- คำแนะนำ
- คำเตือน
- สัปดาห์ที่ผ่านมา
- ดี
- ที่
- ในขณะที่
- WHO
- ทั้งหมด
- จะ
- กับ
- ภายใน
- ไม่มี
- งาน
- ขั้นตอนการทำงาน
- การทำงาน
- โรงงาน
- เขียน
- การเขียน
- ปี
- คุณ
- ของคุณ
- ลมทะเล