ใช้ตัวอย่าง Github กับ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ใช้ตัวอย่าง Github กับ Amazon SageMaker Data Wrangler

อเมซอน SageMaker ข้อมูล Wrangler เป็นเครื่องมือการเตรียมข้อมูลบน UI ที่ช่วยทำการวิเคราะห์ข้อมูล การประมวลผลล่วงหน้า และการแสดงภาพด้วยคุณสมบัติในการล้าง แปลง และเตรียมข้อมูลได้เร็วขึ้น เทมเพลตโฟลว์ที่สร้างไว้ล่วงหน้าของ Data Wrangler ช่วยให้การเตรียมข้อมูลเร็วขึ้นสำหรับนักวิทยาศาสตร์ข้อมูลและผู้ปฏิบัติงานด้านการเรียนรู้ของเครื่อง (ML) โดยช่วยให้คุณเร่งความเร็วและทำความเข้าใจรูปแบบแนวทางปฏิบัติที่ดีที่สุดสำหรับโฟลว์ข้อมูลโดยใช้ชุดข้อมูลทั่วไป

คุณสามารถใช้โฟลว์ Data Wrangler เพื่อทำงานต่อไปนี้:

  • การแสดงข้อมูล – การตรวจสอบคุณสมบัติทางสถิติสำหรับแต่ละคอลัมน์ในชุดข้อมูล การสร้างฮิสโตแกรม การศึกษาค่าผิดปกติ out
  • การทำความสะอาดข้อมูล – ลบซ้ำ วาง หรือกรอกรายการที่มีค่าที่หายไป ลบค่าผิดปกติ
  • การเพิ่มประสิทธิภาพของข้อมูลและวิศวกรรมคุณลักษณะ – กำลังประมวลผลคอลัมน์เพื่อสร้างคุณลักษณะที่แสดงออกมากขึ้น โดยเลือกชุดย่อยของคุณลักษณะสำหรับการฝึกอบรม

โพสต์นี้จะช่วยให้คุณเข้าใจ Data Wrangler โดยใช้ตัวอย่างโฟลว์ที่สร้างไว้ล่วงหน้าต่อไปนี้ใน GitHub. พื้นที่เก็บข้อมูลแสดงการแปลงข้อมูลแบบตาราง การแปลงข้อมูลอนุกรมเวลา และการแปลงชุดข้อมูลที่เข้าร่วม แต่ละคนต้องการการเปลี่ยนแปลงประเภทต่าง ๆ เนื่องจากลักษณะพื้นฐาน ข้อมูลแบบตารางหรือแบบภาคตัดขวางมาตรฐานจะถูกเก็บรวบรวม ณ เวลาที่กำหนด ในทางตรงกันข้าม ข้อมูลอนุกรมเวลาจะถูกบันทึกซ้ำๆ เมื่อเวลาผ่านไป โดยแต่ละจุดข้อมูลที่ต่อเนื่องกันจะขึ้นอยู่กับค่าในอดีต

ลองดูตัวอย่างว่าเราจะใช้โฟลว์ข้อมูลตัวอย่างสำหรับข้อมูลแบบตารางได้อย่างไร

เบื้องต้น

Data Wrangler เป็น อเมซอน SageMaker คุณสมบัติที่มีอยู่ภายใน สตูดิโอ Amazon SageMakerดังนั้นเราจึงต้องปฏิบัติตามกระบวนการเริ่มต้นของ Studio เพื่อสร้างสภาพแวดล้อมและโน้ตบุ๊กของ Studio แม้ว่าคุณสามารถเลือกวิธีการตรวจสอบสิทธิ์ได้ไม่กี่วิธี แต่วิธีที่ง่ายที่สุดในการสร้างโดเมน Studio คือการปฏิบัติตาม เริ่มต้นอย่างรวดเร็ว คำแนะนำ. การเริ่มต้นอย่างรวดเร็วใช้การตั้งค่าเริ่มต้นเดียวกันกับ มาตรฐานการติดตั้งสตูดิโอ. คุณยังสามารถเลือกที่จะขึ้นเครื่องได้โดยใช้ ศูนย์ข้อมูลประจำตัว AWS IAM (ต่อจาก AWS Single Sign-On) สำหรับการรับรองความถูกต้อง (ดู ออนบอร์ดไปยังโดเมน Amazon SageMaker โดยใช้ IAM Identity Center).

นำเข้าชุดข้อมูลและไฟล์โฟลว์ไปยัง Data Wrangler โดยใช้ Studio

ขั้นตอนต่อไปนี้จะสรุปวิธีการนำเข้าข้อมูลไปยัง SageMaker เพื่อให้ Data Wrangler ใช้:

เริ่มต้น Data Wrangler ผ่าน Studio UI โดยเลือก การไหลของข้อมูลใหม่.

โคลน repo GitHub เพื่อดาวน์โหลดไฟล์โฟลว์ลงในสภาพแวดล้อม Studio ของคุณ

ใช้ตัวอย่าง Github กับ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

เมื่อการโคลนเสร็จสมบูรณ์ คุณควรจะสามารถเห็นเนื้อหาที่เก็บในบานหน้าต่างด้านซ้าย

ใช้ตัวอย่าง Github กับ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

เลือกไฟล์ จองโรงแรม-Classification.flow เพื่อนำเข้าไฟล์โฟลว์ไปยัง Data Wrangler

หากคุณใช้อนุกรมเวลาหรือโฟลว์ข้อมูลที่เข้าร่วม โฟลว์จะปรากฏเป็นชื่ออื่น หลังจากนำเข้าโฟลว์แล้ว คุณควรเห็นภาพหน้าจอต่อไปนี้ นี่แสดงให้เราเห็นข้อผิดพลาดเพราะเราต้องแน่ใจว่าไฟล์โฟลว์ชี้ไปที่แหล่งข้อมูลที่ถูกต้องใน บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน เอส3).

ใช้ตัวอย่าง Github กับ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

Choose แก้ไขชุดข้อมูล เพื่อนำถัง S3 ทั้งหมดของคุณขึ้นมา จากนั้นเลือกชุดข้อมูล hotel_bookings.csv จากถัง S3 ของคุณเพื่อวิ่งผ่าน ตารางการไหลของข้อมูล.

โปรดทราบว่าหากคุณใช้ เข้าร่วมการไหลของข้อมูลคุณอาจต้องนำเข้าชุดข้อมูลหลายชุดไปยัง Data Wranglerใช้ตัวอย่าง Github กับ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ในบานหน้าต่างด้านขวา ตรวจสอบให้แน่ใจว่า จุลภาค ถูกเลือกเป็นตัวคั่นและ การสุ่มตัวอย่าง ถูกตั้งค่าเป็น เฟิร์ส K. ชุดข้อมูลของเรามีขนาดเล็กพอที่จะเรียกใช้การแปลง Data Wrangler ในชุดข้อมูลทั้งหมด แต่เราต้องการเน้นว่าคุณสามารถนำเข้าชุดข้อมูลได้อย่างไร หากคุณมีชุดข้อมูลขนาดใหญ่ ให้ลองใช้การสุ่มตัวอย่าง เลือก นำเข้า เพื่อนำเข้าชุดข้อมูลนี้ไปยัง Data Wrangler

ใช้ตัวอย่าง Github กับ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

หลังจากนำเข้าชุดข้อมูล Data Wrangler จะตรวจสอบชุดข้อมูลโดยอัตโนมัติและตรวจหาประเภทข้อมูล คุณจะเห็นว่าข้อผิดพลาดหายไปแล้ว เนื่องจากเรากำลังชี้ไปที่ชุดข้อมูลที่ถูกต้อง ตอนนี้ตัวแก้ไขโฟลว์แสดงสองช่วงตึกที่แสดงว่าข้อมูลถูกนำเข้าจากแหล่งข้อมูลและประเภทข้อมูลที่รู้จัก คุณยังสามารถแก้ไขประเภทข้อมูลได้หากต้องการ

ใช้ตัวอย่าง Github กับ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ภาพหน้าจอต่อไปนี้แสดงประเภทข้อมูลของเรา

ใช้ตัวอย่าง Github กับ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ลองดูการแปลงบางส่วนที่ทำขึ้นซึ่งเป็นส่วนหนึ่งของโฟลว์แบบตารางนี้ หากคุณกำลังใช้ อนุกรมเวลา or เข้าร่วม กระแสข้อมูล ตรวจสอบการแปลงทั่วไปบางส่วนบน repo GitHub. เราทำการวิเคราะห์ข้อมูลเชิงสำรวจขั้นพื้นฐานโดยใช้รายงานข้อมูลเชิงลึกที่ศึกษาการรั่วไหลของเป้าหมายและการทำงานร่วมกันของคุณลักษณะในชุดข้อมูล การวิเคราะห์สรุปตาราง และความสามารถในการสร้างแบบจำลองอย่างรวดเร็ว สำรวจขั้นตอนบน repo GitHub.

ตอนนี้เราวางคอลัมน์ตามคำแนะนำจาก Data Insights และรายงานคุณภาพ

  • สำหรับเป้าหมายรั่ว ให้ดรอป booking_status.
  • สำหรับคอลัมน์ที่ซ้ำซ้อน ให้วาง days_in_waiting_list, โรงแรม, reserved_room_type, arrival_date_month, reservation_status_date, ทารก, และ arrival_date_day_of_month.
  • ตามผลสหสัมพันธ์เชิงเส้น วางคอลัมน์ arrival_date_week_number และ arrival_date_year เนื่องจากค่าสหสัมพันธ์สำหรับคู่คุณลักษณะ (คอลัมน์) เหล่านี้มากกว่าเกณฑ์ที่แนะนำที่ 0.90
  • ตามผลสหสัมพันธ์ไม่เชิงเส้น ดรอป booking_status. คอลัมน์นี้ถูกทำเครื่องหมายว่าจะถูกลบโดยอิงตามการวิเคราะห์การรั่วไหลของเป้าหมาย
  • ประมวลผลค่าตัวเลข (สเกลต่ำสุด-สูงสุด) สำหรับ lead_time, stays_in_weekend_nights, stays_in_weekday_nights, is_repeated_guest, prev_cancellations, prev_bookings_not_canceled, booking_changes, adr, Total_of_specical_requests, และ required_car_parking_spaces.
  • One-hot เข้ารหัสตัวแปรเด็ดขาดเช่น อาหาร is_repeated_guest, market_segment,assign_room_type, deposit_type, และ ลูกค้า_type.
  • ปรับสมดุลตัวแปรเป้าหมาย สุ่มตัวอย่างเกินสำหรับคลาสที่ไม่สมดุล ใช้ความสามารถในการสร้างแบบจำลองอย่างรวดเร็วเพื่อจัดการกับค่าผิดปกติและค่าที่ขาดหายไป

ใช้ตัวอย่าง Github กับ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ส่งออกไปยัง Amazon S3

ตอนนี้ เราได้ผ่านการแปลงรูปแบบต่างๆ และพร้อมที่จะส่งออกข้อมูลไปยัง Amazon S3 แล้ว ตัวเลือกนี้จะสร้างงานการประมวลผล SageMaker ซึ่งเรียกใช้ขั้นตอนการประมวลผล Data Wrangler และบันทึกชุดข้อมูลที่เป็นผลลัพธ์ไปยังบัคเก็ต S3 ที่ระบุ ทำตามขั้นตอนถัดไปเพื่อตั้งค่าการส่งออกไปยัง Amazon S3:

เลือกเครื่องหมายบวกถัดจากคอลเล็กชันองค์ประกอบการแปลงและเลือก เพิ่มปลายทางแล้ว Amazon S3.

ใช้ตัวอย่าง Github กับ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

  • สำหรับ ชื่อชุดข้อมูลป้อนชื่อสำหรับชุดข้อมูลใหม่ เช่น NYC_export.
  • สำหรับ ประเภทไฟล์เลือก CSV.
  • สำหรับ คั่นเลือก จุลภาค.
  • สำหรับ การอัดเลือก ไม่มี.
  • สำหรับ ที่ตั้งของ Amazon S3ให้ใช้ชื่อที่ฝากข้อมูลเดียวกันกับที่เราสร้างไว้ก่อนหน้านี้
  • Choose เพิ่มปลายทาง.

ใช้ตัวอย่าง Github กับ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

Choose สร้างงาน.

ใช้ตัวอย่าง Github กับ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

สำหรับ ชื่องานป้อนชื่อหรือเก็บตัวเลือกที่สร้างอัตโนมัติไว้และเลือก ปลายทาง. เรามีปลายทางเพียงแห่งเดียว S3:testingtabulardataแต่คุณอาจมีหลายปลายทางจากขั้นตอนต่างๆ ในเวิร์กโฟลว์ของคุณ ออกจาก คีย์ KMS ARN ฟิลด์ว่างแล้วเลือก ถัดไป.

ตอนนี้ คุณต้องกำหนดค่าความสามารถในการประมวลผลสำหรับงาน คุณสามารถเก็บค่าเริ่มต้นทั้งหมดไว้สำหรับตัวอย่างนี้ได้

  • สำหรับ ประเภทอินสแตนซ์, ใช้ ml.m5.4xlarge.
  • สำหรับ จำนวนอินสแตนซ์, ใช้ 2
  • คุณสามารถสำรวจ การกำหนดค่าเพิ่มเติมแต่คงการตั้งค่าเริ่มต้นไว้
  • Choose วิ่ง.

ใช้ตัวอย่าง Github กับ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ตอนนี้งานของคุณเริ่มต้นขึ้นแล้ว และต้องใช้เวลาในการประมวลผลข้อมูลขนาด 6 GB ตามขั้นตอนการประมวลผล Data Wrangler ของเรา ค่าใช้จ่ายสำหรับงานนี้จะอยู่ที่ประมาณ $2 USD เนื่องจาก ml.m5.4xlarge มีราคา $0.922 USD ต่อชั่วโมง และเราใช้อยู่สองรายการ

หากคุณเลือกชื่องาน คุณจะถูกเปลี่ยนเส้นทางไปยังหน้าต่างใหม่พร้อมรายละเอียดงาน

ใช้ตัวอย่าง Github กับ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ในหน้ารายละเอียดงาน คุณสามารถดูพารามิเตอร์ทั้งหมดจากขั้นตอนก่อนหน้าได้

เมื่อสถานะงานเปลี่ยนเป็น เสร็จสิ้น คุณยังสามารถตรวจสอบ เวลาในการประมวลผล (วินาที) ค่า. งานประมวลผลนี้ใช้เวลาประมาณ 5-10 นาที

ใช้ตัวอย่าง Github กับ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

เมื่องานเสร็จสมบูรณ์ ไฟล์เอาต์พุตการฝึกและการทดสอบจะพร้อมใช้งานในโฟลเดอร์เอาต์พุต S3 ที่เกี่ยวข้อง คุณสามารถค้นหาตำแหน่งเอาต์พุตได้จากการกำหนดค่างานการประมวลผล

ใช้ตัวอย่าง Github กับ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

หลังจากที่งานประมวลผล Data Wrangler เสร็จสมบูรณ์ เราสามารถตรวจดูผลลัพธ์ที่บันทึกไว้ในบัคเก็ต S3 ของเราได้ อย่าลืมอัปเดต job_name ตัวแปรที่มีชื่องานของคุณ

ตอนนี้คุณสามารถใช้ข้อมูลที่ส่งออกนี้สำหรับการเรียกใช้โมเดล ML

ทำความสะอาด

ลบบัคเก็ต S3 ของคุณ และคุณ การไหลของข้อมูล Wrangler เพื่อลบทรัพยากรพื้นฐานและป้องกันค่าใช้จ่ายที่ไม่ต้องการหลังจากคุณเสร็จสิ้นการทดสอบ

สรุป

ในโพสต์นี้ เราแสดงวิธีที่คุณสามารถนำเข้าโฟลว์ข้อมูลที่สร้างไว้ล่วงหน้าแบบตารางไปยัง Data Wrangler เสียบเข้ากับชุดข้อมูลของเรา และส่งออกผลลัพธ์ไปยัง Amazon S3 หากกรณีการใช้งานของคุณต้องการให้คุณจัดการข้อมูลอนุกรมเวลาหรือรวมชุดข้อมูลหลายชุด คุณสามารถผ่านโฟลว์ตัวอย่างที่สร้างไว้ล่วงหน้าอื่นๆ ใน repo GitHub.

หลังจากที่คุณนำเข้าเวิร์กโฟลว์การเตรียมข้อมูลที่สร้างไว้ล่วงหน้าแล้ว คุณสามารถรวมเข้ากับการประมวลผลของ Amazon SageMaker ท่อส่ง Amazon SageMakerและ Amazon SageMaker ฟีเจอร์สโตร์ เพื่อลดความซับซ้อนของการประมวลผล การแบ่งปัน และการจัดเก็บข้อมูลการฝึกอบรม ML คุณยังสามารถส่งออกโฟลว์ข้อมูลตัวอย่างนี้ไปยังสคริปต์ Python และสร้างไปป์ไลน์การเตรียมข้อมูล ML ที่กำหนดเอง ซึ่งจะช่วยเร่งความเร็วในการเผยแพร่ของคุณ

เราขอแนะนำให้คุณตรวจสอบของเรา พื้นที่เก็บข้อมูล GitHub เพื่อรับการปฏิบัติจริงและค้นหาวิธีใหม่ในการปรับปรุงความแม่นยำของแบบจำลอง! หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับ SageMaker โปรดไปที่ คู่มือนักพัฒนา Amazon SageMaker.


เกี่ยวกับผู้เขียน

ใช้ตัวอย่าง Github กับ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.อิชา ดุอา เป็น Senior Solutions Architect ที่ตั้งอยู่ในซานฟรานซิสโกเบย์แอเรีย เธอช่วยให้ลูกค้า AWS Enterprise เติบโตโดยการทำความเข้าใจเป้าหมายและความท้าทาย และแนะนำพวกเขาเกี่ยวกับวิธีที่พวกเขาสามารถออกแบบแอปพลิเคชันของตนในลักษณะที่อยู่บนคลาวด์ได้ ในขณะที่ทำให้แน่ใจว่าพวกเขาจะมีความยืดหยุ่นและปรับขนาดได้ เธอหลงใหลเกี่ยวกับเทคโนโลยีแมชชีนเลิร์นนิงและความยั่งยืนด้านสิ่งแวดล้อม

ประทับเวลา:

เพิ่มเติมจาก AWS Machine Learning AWS