ใช้ตัวอย่าง Github กับ Amazon SageMaker Data Wrangler

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

อเมซอน SageMake r ข้อมูล Wrangler เป็นเครื่องมือการเตรียมข้อมูลบน UI ที่ช่วยทำการวิเคราะห์ข้อมูล การประมวลผลล่วงหน้า และการแสดงภาพด้วยคุณสมบัติในการล้าง แปลง และเตรียมข้อมูลได้เร็วขึ้น เทมเพลตโฟลว์ที่สร้างไว้ล่วงหน้าของ Data Wrangler ช่วยให้การเตรียมข้อมูลเร็วขึ้นสำหรับนักวิทยาศาสตร์ข้อมูลและผู้ปฏิบัติงานด้านการเรียนรู้ของเครื่อง (ML) โดยช่วยให้คุณเร่งความเร็วและทำความเข้าใจรูปแบบแนวทางปฏิบัติที่ดีที่สุดสำหรับโฟลว์ข้อมูลโดยใช้ชุดข้อมูลทั่วไป

คุณสามารถใช้โฟลว์ Data Wrangler เพื่อทำงานต่อไปนี้:

การแสดงข้อมูล – การตรวจสอบคุณสมบัติทางสถิติสำหรับแต่ละคอลัมน์ในชุดข้อมูล การสร้างฮิสโตแกรม การศึกษาค่าผิดปกติ out
การทำความสะอาดข้อมูล – ลบซ้ำ วาง หรือกรอกรายการที่มีค่าที่หายไป ลบค่าผิดปกติ
การเพิ่มประสิทธิภาพของข้อมูลและวิศวกรรมคุณลักษณะ – กำลังประมวลผลคอลัมน์เพื่อสร้างคุณลักษณะที่แสดงออกมากขึ้น โดยเลือกชุดย่อยของคุณลักษณะสำหรับการฝึกอบรม

โพสต์นี้จะช่วยให้คุณเข้าใจ Data Wrangler โดยใช้ตัวอย่างโฟลว์ที่สร้างไว้ล่วงหน้าต่อไปนี้ใน GitHub. พื้นที่เก็บข้อมูลแสดงการแปลงข้อมูลแบบตาราง การแปลงข้อมูลอนุกรมเวลา และการแปลงชุดข้อมูลที่เข้าร่วม แต่ละคนต้องการการเปลี่ยนแปลงประเภทต่าง ๆ เนื่องจากลักษณะพื้นฐาน ข้อมูลแบบตารางหรือแบบภาคตัดขวางมาตรฐานจะถูกเก็บรวบรวม ณ เวลาที่กำหนด ในทางตรงกันข้าม ข้อมูลอนุกรมเวลาจะถูกบันทึกซ้ำๆ เมื่อเวลาผ่านไป โดยแต่ละจุดข้อมูลที่ต่อเนื่องกันจะขึ้นอยู่กับค่าในอดีต

ลองดูตัวอย่างว่าเราจะใช้โฟลว์ข้อมูลตัวอย่างสำหรับข้อมูลแบบตารางได้อย่างไร

เบื้องต้น

Data Wrangler เป็น อเมซอน SageMaker คุณสมบัติที่มีอยู่ภายใน สตูดิโอ Amazon SageMakerดังนั้นเราจึงต้องปฏิบัติตามกระบวนการเริ่มต้นของ Studio เพื่อสร้างสภาพแวดล้อมและโน้ตบุ๊กของ Studio แม้ว่าคุณสามารถเลือกวิธีการตรวจสอบสิทธิ์ได้ไม่กี่วิธี แต่วิธีที่ง่ายที่สุดในการสร้างโดเมน Studio คือการปฏิบัติตาม เริ่มต้นอย่างรวดเร็ว คำแนะนำ. การเริ่มต้นอย่างรวดเร็วใช้การตั้งค่าเริ่มต้นเดียวกันกับ มาตรฐานการติดตั้งสตูดิโอ. คุณยังสามารถเลือกที่จะขึ้นเครื่องได้โดยใช้ ศูนย์ข้อมูลประจำตัว AWS IAM (ต่อจาก AWS Single Sign-On) สำหรับการรับรองความถูกต้อง (ดู ออนบอร์ดไปยังโดเมน Amazon SageMaker โดยใช้ IAM Identity Center).