อเมซอน SageMaker ข้อมูล Wrangler เป็นเครื่องมือการเตรียมข้อมูลบน UI ที่ช่วยทำการวิเคราะห์ข้อมูล การประมวลผลล่วงหน้า และการแสดงภาพด้วยคุณสมบัติในการล้าง แปลง และเตรียมข้อมูลได้เร็วขึ้น เทมเพลตโฟลว์ที่สร้างไว้ล่วงหน้าของ Data Wrangler ช่วยให้การเตรียมข้อมูลเร็วขึ้นสำหรับนักวิทยาศาสตร์ข้อมูลและผู้ปฏิบัติงานด้านการเรียนรู้ของเครื่อง (ML) โดยช่วยให้คุณเร่งความเร็วและทำความเข้าใจรูปแบบแนวทางปฏิบัติที่ดีที่สุดสำหรับโฟลว์ข้อมูลโดยใช้ชุดข้อมูลทั่วไป
คุณสามารถใช้โฟลว์ Data Wrangler เพื่อทำงานต่อไปนี้:
- การแสดงข้อมูล – การตรวจสอบคุณสมบัติทางสถิติสำหรับแต่ละคอลัมน์ในชุดข้อมูล การสร้างฮิสโตแกรม การศึกษาค่าผิดปกติ out
- การทำความสะอาดข้อมูล – ลบซ้ำ วาง หรือกรอกรายการที่มีค่าที่หายไป ลบค่าผิดปกติ
- การเพิ่มประสิทธิภาพของข้อมูลและวิศวกรรมคุณลักษณะ – กำลังประมวลผลคอลัมน์เพื่อสร้างคุณลักษณะที่แสดงออกมากขึ้น โดยเลือกชุดย่อยของคุณลักษณะสำหรับการฝึกอบรม
โพสต์นี้จะช่วยให้คุณเข้าใจ Data Wrangler โดยใช้ตัวอย่างโฟลว์ที่สร้างไว้ล่วงหน้าต่อไปนี้ใน GitHub. พื้นที่เก็บข้อมูลแสดงการแปลงข้อมูลแบบตาราง การแปลงข้อมูลอนุกรมเวลา และการแปลงชุดข้อมูลที่เข้าร่วม แต่ละคนต้องการการเปลี่ยนแปลงประเภทต่าง ๆ เนื่องจากลักษณะพื้นฐาน ข้อมูลแบบตารางหรือแบบภาคตัดขวางมาตรฐานจะถูกเก็บรวบรวม ณ เวลาที่กำหนด ในทางตรงกันข้าม ข้อมูลอนุกรมเวลาจะถูกบันทึกซ้ำๆ เมื่อเวลาผ่านไป โดยแต่ละจุดข้อมูลที่ต่อเนื่องกันจะขึ้นอยู่กับค่าในอดีต
ลองดูตัวอย่างว่าเราจะใช้โฟลว์ข้อมูลตัวอย่างสำหรับข้อมูลแบบตารางได้อย่างไร
เบื้องต้น
Data Wrangler เป็น อเมซอน SageMaker คุณสมบัติที่มีอยู่ภายใน สตูดิโอ Amazon SageMakerดังนั้นเราจึงต้องปฏิบัติตามกระบวนการเริ่มต้นของ Studio เพื่อสร้างสภาพแวดล้อมและโน้ตบุ๊กของ Studio แม้ว่าคุณสามารถเลือกวิธีการตรวจสอบสิทธิ์ได้ไม่กี่วิธี แต่วิธีที่ง่ายที่สุดในการสร้างโดเมน Studio คือการปฏิบัติตาม เริ่มต้นอย่างรวดเร็ว คำแนะนำ. การเริ่มต้นอย่างรวดเร็วใช้การตั้งค่าเริ่มต้นเดียวกันกับ มาตรฐานการติดตั้งสตูดิโอ. คุณยังสามารถเลือกที่จะขึ้นเครื่องได้โดยใช้ ศูนย์ข้อมูลประจำตัว AWS IAM (ต่อจาก AWS Single Sign-On) สำหรับการรับรองความถูกต้อง (ดู ออนบอร์ดไปยังโดเมน Amazon SageMaker โดยใช้ IAM Identity Center).
นำเข้าชุดข้อมูลและไฟล์โฟลว์ไปยัง Data Wrangler โดยใช้ Studio
ขั้นตอนต่อไปนี้จะสรุปวิธีการนำเข้าข้อมูลไปยัง SageMaker เพื่อให้ Data Wrangler ใช้:
เริ่มต้น Data Wrangler ผ่าน Studio UI โดยเลือก การไหลของข้อมูลใหม่.
โคลน repo GitHub เพื่อดาวน์โหลดไฟล์โฟลว์ลงในสภาพแวดล้อม Studio ของคุณ
เมื่อการโคลนเสร็จสมบูรณ์ คุณควรจะสามารถเห็นเนื้อหาที่เก็บในบานหน้าต่างด้านซ้าย
เลือกไฟล์ จองโรงแรม-Classification.flow เพื่อนำเข้าไฟล์โฟลว์ไปยัง Data Wrangler
หากคุณใช้อนุกรมเวลาหรือโฟลว์ข้อมูลที่เข้าร่วม โฟลว์จะปรากฏเป็นชื่ออื่น หลังจากนำเข้าโฟลว์แล้ว คุณควรเห็นภาพหน้าจอต่อไปนี้ นี่แสดงให้เราเห็นข้อผิดพลาดเพราะเราต้องแน่ใจว่าไฟล์โฟลว์ชี้ไปที่แหล่งข้อมูลที่ถูกต้องใน บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน เอส3).
Choose แก้ไขชุดข้อมูล เพื่อนำถัง S3 ทั้งหมดของคุณขึ้นมา จากนั้นเลือกชุดข้อมูล hotel_bookings.csv
จากถัง S3 ของคุณเพื่อวิ่งผ่าน ตารางการไหลของข้อมูล.
โปรดทราบว่าหากคุณใช้ เข้าร่วมการไหลของข้อมูลคุณอาจต้องนำเข้าชุดข้อมูลหลายชุดไปยัง Data Wrangler
ในบานหน้าต่างด้านขวา ตรวจสอบให้แน่ใจว่า จุลภาค ถูกเลือกเป็นตัวคั่นและ การสุ่มตัวอย่าง ถูกตั้งค่าเป็น เฟิร์ส K. ชุดข้อมูลของเรามีขนาดเล็กพอที่จะเรียกใช้การแปลง Data Wrangler ในชุดข้อมูลทั้งหมด แต่เราต้องการเน้นว่าคุณสามารถนำเข้าชุดข้อมูลได้อย่างไร หากคุณมีชุดข้อมูลขนาดใหญ่ ให้ลองใช้การสุ่มตัวอย่าง เลือก นำเข้า เพื่อนำเข้าชุดข้อมูลนี้ไปยัง Data Wrangler
หลังจากนำเข้าชุดข้อมูล Data Wrangler จะตรวจสอบชุดข้อมูลโดยอัตโนมัติและตรวจหาประเภทข้อมูล คุณจะเห็นว่าข้อผิดพลาดหายไปแล้ว เนื่องจากเรากำลังชี้ไปที่ชุดข้อมูลที่ถูกต้อง ตอนนี้ตัวแก้ไขโฟลว์แสดงสองช่วงตึกที่แสดงว่าข้อมูลถูกนำเข้าจากแหล่งข้อมูลและประเภทข้อมูลที่รู้จัก คุณยังสามารถแก้ไขประเภทข้อมูลได้หากต้องการ
ภาพหน้าจอต่อไปนี้แสดงประเภทข้อมูลของเรา
ลองดูการแปลงบางส่วนที่ทำขึ้นซึ่งเป็นส่วนหนึ่งของโฟลว์แบบตารางนี้ หากคุณกำลังใช้ อนุกรมเวลา or เข้าร่วม กระแสข้อมูล ตรวจสอบการแปลงทั่วไปบางส่วนบน repo GitHub. เราทำการวิเคราะห์ข้อมูลเชิงสำรวจขั้นพื้นฐานโดยใช้รายงานข้อมูลเชิงลึกที่ศึกษาการรั่วไหลของเป้าหมายและการทำงานร่วมกันของคุณลักษณะในชุดข้อมูล การวิเคราะห์สรุปตาราง และความสามารถในการสร้างแบบจำลองอย่างรวดเร็ว สำรวจขั้นตอนบน repo GitHub.
ตอนนี้เราวางคอลัมน์ตามคำแนะนำจาก Data Insights และรายงานคุณภาพ
- สำหรับเป้าหมายรั่ว ให้ดรอป booking_status.
- สำหรับคอลัมน์ที่ซ้ำซ้อน ให้วาง days_in_waiting_list, โรงแรม, reserved_room_type, arrival_date_month, reservation_status_date, ทารก, และ arrival_date_day_of_month.
- ตามผลสหสัมพันธ์เชิงเส้น วางคอลัมน์ arrival_date_week_number และ arrival_date_year เนื่องจากค่าสหสัมพันธ์สำหรับคู่คุณลักษณะ (คอลัมน์) เหล่านี้มากกว่าเกณฑ์ที่แนะนำที่ 0.90
- ตามผลสหสัมพันธ์ไม่เชิงเส้น ดรอป booking_status. คอลัมน์นี้ถูกทำเครื่องหมายว่าจะถูกลบโดยอิงตามการวิเคราะห์การรั่วไหลของเป้าหมาย
- ประมวลผลค่าตัวเลข (สเกลต่ำสุด-สูงสุด) สำหรับ lead_time, stays_in_weekend_nights, stays_in_weekday_nights, is_repeated_guest, prev_cancellations, prev_bookings_not_canceled, booking_changes, adr, Total_of_specical_requests, และ required_car_parking_spaces.
- One-hot เข้ารหัสตัวแปรเด็ดขาดเช่น อาหาร is_repeated_guest, market_segment,assign_room_type, deposit_type, และ ลูกค้า_type.
- ปรับสมดุลตัวแปรเป้าหมาย สุ่มตัวอย่างเกินสำหรับคลาสที่ไม่สมดุล ใช้ความสามารถในการสร้างแบบจำลองอย่างรวดเร็วเพื่อจัดการกับค่าผิดปกติและค่าที่ขาดหายไป
ส่งออกไปยัง Amazon S3
ตอนนี้ เราได้ผ่านการแปลงรูปแบบต่างๆ และพร้อมที่จะส่งออกข้อมูลไปยัง Amazon S3 แล้ว ตัวเลือกนี้จะสร้างงานการประมวลผล SageMaker ซึ่งเรียกใช้ขั้นตอนการประมวลผล Data Wrangler และบันทึกชุดข้อมูลที่เป็นผลลัพธ์ไปยังบัคเก็ต S3 ที่ระบุ ทำตามขั้นตอนถัดไปเพื่อตั้งค่าการส่งออกไปยัง Amazon S3:
เลือกเครื่องหมายบวกถัดจากคอลเล็กชันองค์ประกอบการแปลงและเลือก เพิ่มปลายทางแล้ว Amazon S3.
- สำหรับ ชื่อชุดข้อมูลป้อนชื่อสำหรับชุดข้อมูลใหม่ เช่น
NYC_export
. - สำหรับ ประเภทไฟล์เลือก CSV.
- สำหรับ คั่นเลือก จุลภาค.
- สำหรับ การอัดเลือก ไม่มี.
- สำหรับ ที่ตั้งของ Amazon S3ให้ใช้ชื่อที่ฝากข้อมูลเดียวกันกับที่เราสร้างไว้ก่อนหน้านี้
- Choose เพิ่มปลายทาง.
Choose สร้างงาน.
สำหรับ ชื่องานป้อนชื่อหรือเก็บตัวเลือกที่สร้างอัตโนมัติไว้และเลือก ปลายทาง. เรามีปลายทางเพียงแห่งเดียว S3:testingtabulardata
แต่คุณอาจมีหลายปลายทางจากขั้นตอนต่างๆ ในเวิร์กโฟลว์ของคุณ ออกจาก คีย์ KMS ARN ฟิลด์ว่างแล้วเลือก ถัดไป.
ตอนนี้ คุณต้องกำหนดค่าความสามารถในการประมวลผลสำหรับงาน คุณสามารถเก็บค่าเริ่มต้นทั้งหมดไว้สำหรับตัวอย่างนี้ได้
- สำหรับ ประเภทอินสแตนซ์, ใช้ ml.m5.4xlarge.
- สำหรับ จำนวนอินสแตนซ์, ใช้ 2
- คุณสามารถสำรวจ การกำหนดค่าเพิ่มเติมแต่คงการตั้งค่าเริ่มต้นไว้
- Choose วิ่ง.
ตอนนี้งานของคุณเริ่มต้นขึ้นแล้ว และต้องใช้เวลาในการประมวลผลข้อมูลขนาด 6 GB ตามขั้นตอนการประมวลผล Data Wrangler ของเรา ค่าใช้จ่ายสำหรับงานนี้จะอยู่ที่ประมาณ $2 USD เนื่องจาก ml.m5.4xlarge มีราคา $0.922 USD ต่อชั่วโมง และเราใช้อยู่สองรายการ
หากคุณเลือกชื่องาน คุณจะถูกเปลี่ยนเส้นทางไปยังหน้าต่างใหม่พร้อมรายละเอียดงาน
ในหน้ารายละเอียดงาน คุณสามารถดูพารามิเตอร์ทั้งหมดจากขั้นตอนก่อนหน้าได้
เมื่อสถานะงานเปลี่ยนเป็น เสร็จสิ้น คุณยังสามารถตรวจสอบ เวลาในการประมวลผล (วินาที) ค่า. งานประมวลผลนี้ใช้เวลาประมาณ 5-10 นาที
เมื่องานเสร็จสมบูรณ์ ไฟล์เอาต์พุตการฝึกและการทดสอบจะพร้อมใช้งานในโฟลเดอร์เอาต์พุต S3 ที่เกี่ยวข้อง คุณสามารถค้นหาตำแหน่งเอาต์พุตได้จากการกำหนดค่างานการประมวลผล
หลังจากที่งานประมวลผล Data Wrangler เสร็จสมบูรณ์ เราสามารถตรวจดูผลลัพธ์ที่บันทึกไว้ในบัคเก็ต S3 ของเราได้ อย่าลืมอัปเดต job_name
ตัวแปรที่มีชื่องานของคุณ
ตอนนี้คุณสามารถใช้ข้อมูลที่ส่งออกนี้สำหรับการเรียกใช้โมเดล ML
ทำความสะอาด
ลบบัคเก็ต S3 ของคุณ และคุณ การไหลของข้อมูล Wrangler เพื่อลบทรัพยากรพื้นฐานและป้องกันค่าใช้จ่ายที่ไม่ต้องการหลังจากคุณเสร็จสิ้นการทดสอบ
สรุป
ในโพสต์นี้ เราแสดงวิธีที่คุณสามารถนำเข้าโฟลว์ข้อมูลที่สร้างไว้ล่วงหน้าแบบตารางไปยัง Data Wrangler เสียบเข้ากับชุดข้อมูลของเรา และส่งออกผลลัพธ์ไปยัง Amazon S3 หากกรณีการใช้งานของคุณต้องการให้คุณจัดการข้อมูลอนุกรมเวลาหรือรวมชุดข้อมูลหลายชุด คุณสามารถผ่านโฟลว์ตัวอย่างที่สร้างไว้ล่วงหน้าอื่นๆ ใน repo GitHub.
หลังจากที่คุณนำเข้าเวิร์กโฟลว์การเตรียมข้อมูลที่สร้างไว้ล่วงหน้าแล้ว คุณสามารถรวมเข้ากับการประมวลผลของ Amazon SageMaker ท่อส่ง Amazon SageMakerและ Amazon SageMaker ฟีเจอร์สโตร์ เพื่อลดความซับซ้อนของการประมวลผล การแบ่งปัน และการจัดเก็บข้อมูลการฝึกอบรม ML คุณยังสามารถส่งออกโฟลว์ข้อมูลตัวอย่างนี้ไปยังสคริปต์ Python และสร้างไปป์ไลน์การเตรียมข้อมูล ML ที่กำหนดเอง ซึ่งจะช่วยเร่งความเร็วในการเผยแพร่ของคุณ
เราขอแนะนำให้คุณตรวจสอบของเรา พื้นที่เก็บข้อมูล GitHub เพื่อรับการปฏิบัติจริงและค้นหาวิธีใหม่ในการปรับปรุงความแม่นยำของแบบจำลอง! หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับ SageMaker โปรดไปที่ คู่มือนักพัฒนา Amazon SageMaker.
เกี่ยวกับผู้เขียน
อิชา ดุอา เป็น Senior Solutions Architect ที่ตั้งอยู่ในซานฟรานซิสโกเบย์แอเรีย เธอช่วยให้ลูกค้า AWS Enterprise เติบโตโดยการทำความเข้าใจเป้าหมายและความท้าทาย และแนะนำพวกเขาเกี่ยวกับวิธีที่พวกเขาสามารถออกแบบแอปพลิเคชันของตนในลักษณะที่อยู่บนคลาวด์ได้ ในขณะที่ทำให้แน่ใจว่าพวกเขาจะมีความยืดหยุ่นและปรับขนาดได้ เธอหลงใหลเกี่ยวกับเทคโนโลยีแมชชีนเลิร์นนิงและความยั่งยืนด้านสิ่งแวดล้อม
- AI
- ไอ อาร์ต
- เครื่องกำเนิดไออาร์ท
- หุ่นยนต์ไอ
- อเมซอน SageMaker
- Amazon SageMaker ข้อมูล Wrangler
- ปัญญาประดิษฐ์
- ใบรับรองปัญญาประดิษฐ์
- ปัญญาประดิษฐ์ในการธนาคาร
- หุ่นยนต์ปัญญาประดิษฐ์
- หุ่นยนต์ปัญญาประดิษฐ์
- ซอฟต์แวร์ปัญญาประดิษฐ์
- AWS Machine Learning AWS
- blockchain
- การประชุม blockchain ai
- เหรียญอัจฉริยะ
- ปัญญาประดิษฐ์สนทนา
- การประชุม crypto ai
- ดัล-อี
- การเรียนรู้ลึก ๆ
- google ai
- เรียนรู้เครื่อง
- เพลโต
- เพลโตไอ
- เพลโตดาต้าอินเทลลิเจนซ์
- เกมเพลโต
- เพลโตดาต้า
- เพลโตเกม
- ขนาดไอ
- วากยสัมพันธ์
- ลมทะเล