Amazon SageMaker ข้อมูล Wrangler เป็นเครื่องมือรวบรวมและเตรียมข้อมูลที่สร้างขึ้นตามวัตถุประสงค์สำหรับการเรียนรู้ของเครื่อง (ML) ช่วยให้คุณใช้อินเทอร์เฟซแบบภาพเพื่อเข้าถึงข้อมูลและดำเนินการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) และวิศวกรรมคุณลักษณะ คุณลักษณะ EDA มาพร้อมกับความสามารถในการวิเคราะห์ข้อมูลในตัวสำหรับแผนภูมิ (เช่น พล็อตกระจายหรือฮิสโตแกรม) และความสามารถในการวิเคราะห์แบบจำลองที่ช่วยประหยัดเวลา เช่น ความสำคัญของคุณลักษณะ การรั่วไหลของเป้าหมาย และความสามารถในการอธิบายแบบจำลอง ความสามารถด้านวิศวกรรมคุณลักษณะมีการแปลงในตัวมากกว่า 300 แบบและสามารถทำการแปลงแบบกำหนดเองได้โดยใช้รันไทม์ Python, PySpark หรือ Spark SQL
สำหรับการแสดงภาพและการแปลงแบบกำหนดเอง ตอนนี้ Data Wrangler ได้จัดเตรียมข้อมูลโค้ดตัวอย่างสำหรับการแสดงภาพและการแปลงประเภททั่วไป ในโพสต์นี้ เราสาธิตวิธีใช้ข้อมูลโค้ดเหล่านี้เพื่อเริ่มต้น EDA ของคุณใน Data Wrangler อย่างรวดเร็ว
ภาพรวมโซลูชัน
ในขณะที่เขียนนี้ คุณสามารถนำเข้าชุดข้อมูลไปยัง Data Wrangler จาก บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน เอส3) อเมซอน อาเธน่า, อเมซอน Redshift, Databricks และ Snowflake สำหรับโพสต์นี้ เราใช้ Amazon S3 เพื่อจัดเก็บ 2014 Amazon ชุดข้อมูลรีวิว. ต่อไปนี้เป็นตัวอย่างของชุดข้อมูล:
ในโพสต์นี้ เราดำเนินการ EDA โดยใช้สามคอลัมน์—asin
, reviewTime
และ overall
—ซึ่งจับคู่กับรหัสผลิตภัณฑ์ วันที่เวลาตรวจสอบ และคะแนนรีวิวโดยรวม ตามลำดับ เราใช้ข้อมูลนี้เพื่อแสดงภาพไดนามิกสำหรับจำนวนรีวิวในแต่ละเดือนและหลายปี
การใช้ตัวอย่างโค้ดสำหรับ EDA ใน Data Wrangler
ในการเริ่มดำเนินการ EDA ใน Data Wrangler ให้ทำตามขั้นตอนต่อไปนี้:
- ดาวน์โหลด ชุดข้อมูลรีวิวเพลงดิจิตอล JSON และอัปโหลดไปยัง Amazon S3
เราใช้สิ่งนี้เป็นชุดข้อมูลดิบสำหรับ EDA - จุดเปิด สตูดิโอ Amazon SageMaker และสร้างโฟลว์ Data Wrangler ใหม่และนำเข้าชุดข้อมูลจาก Amazon S3
ชุดข้อมูลนี้มีเก้าคอลัมน์ แต่เราใช้เพียงสามคอลัมน์เท่านั้น:
asin
,reviewTime
และoverall
. เราจำเป็นต้องวางอีกหกคอลัมน์ที่เหลือ - สร้างการแปลงแบบกำหนดเองแล้วเลือก หลาม (PySpark).
- แสดง ค้นหาตัวอย่างข้อมูลโค้ด และเลือก วางคอลัมน์ทั้งหมดยกเว้นหลายคอลัมน์.
- ป้อนข้อมูลโค้ดที่ให้ไว้ในการแปลงแบบกำหนดเองของคุณ และทำตามคำแนะนำเพื่อแก้ไขโค้ด
ตอนนี้เรามีคอลัมน์ทั้งหมดที่เราต้องการแล้ว มากรองข้อมูลเพื่อเก็บรีวิวไว้ระหว่างปี 2000–2020 กันเท่านั้น
- ใช้ กรองการประทับเวลานอกช่วง snippet ที่จะทิ้งข้อมูลก่อนปี 2000 และหลังปี 2020:
ต่อไป เราจะแยกปีและเดือนออกจากคอลัมน์ reviewTime
- ใช้ ระบุวันที่/เวลา แปลง.
- สำหรับ แยกคอลัมน์เลือก ปี และ เดือน.
ต่อไป เราต้องการรวมจำนวนบทวิจารณ์ตามปีและเดือนที่เราสร้างขึ้นในขั้นตอนก่อนหน้า
- ใช้ สถิติการคำนวณในกลุ่ม ตัวอย่าง:
- เปลี่ยนชื่อการรวมของขั้นตอนก่อนหน้าจาก
count(overall)
ไปยังreviews_num
โดยการเลือก จัดการคอลัมน์ และ เปลี่ยนชื่อคอลัมน์ แปลง.
สุดท้าย เราต้องการสร้างแผนที่ความหนาแน่นเพื่อให้เห็นภาพการกระจายของบทวิจารณ์ตามปีและตามเดือน - บนแท็บการวิเคราะห์ เลือก การสร้างภาพแบบกำหนดเอง.
- แสดง ค้นหาตัวอย่าง และเลือก Heatmap บนเมนูแบบเลื่อนลง
- ป้อนข้อมูลโค้ดที่ให้ไว้ในการแสดงภาพแบบกำหนดเองของคุณ:
เราได้รับการสร้างภาพข้อมูลต่อไปนี้
หากคุณต้องการปรับปรุงแผนที่ความหนาแน่นให้ดียิ่งขึ้น คุณสามารถแบ่งข้อมูลเพื่อแสดงความเห็นก่อนปี 2011 เท่านั้น ซึ่งระบุได้ยากในแผนที่ความหนาแน่นที่เราเพิ่งสร้างขึ้นเนื่องจากมีรีวิวจำนวนมากตั้งแต่ปี 2012 - เพิ่มโค้ดหนึ่งบรรทัดในการแสดงภาพแบบกำหนดเองของคุณ:
เราได้รับแผนที่ความร้อนต่อไปนี้
ขณะนี้ แผนที่ความหนาแน่นสะท้อนความเห็นก่อนปี 2011 ได้ชัดเจนขึ้น: เราสามารถสังเกตผลกระทบตามฤดูกาล (ช่วงสิ้นปีมีการซื้อมากขึ้น ดังนั้นจึงมีการตรวจทานมากขึ้น) และสามารถระบุเดือนที่ผิดปกติ เช่น ตุลาคม 2003 และ มีนาคม 2005 ได้ ควรตรวจสอบเพิ่มเติม เพื่อหาสาเหตุของความผิดปกติเหล่านั้น
สรุป
Data Wrangler คือเครื่องมือรวบรวมและเตรียมข้อมูลที่สร้างขึ้นตามวัตถุประสงค์สำหรับ ML ในโพสต์นี้ เราสาธิตวิธีดำเนินการ EDA และแปลงข้อมูลของคุณอย่างรวดเร็วโดยใช้ข้อมูลโค้ดที่ Data Wrangler จัดหาให้ คุณเพียงแค่ต้องค้นหาข้อมูลโค้ด ป้อนโค้ด และปรับพารามิเตอร์ให้ตรงกับชุดข้อมูลของคุณ คุณสามารถทำซ้ำสคริปต์ของคุณต่อไปเพื่อสร้างการแสดงภาพและการแปลงที่ซับซ้อนมากขึ้น
หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับ Data Wrangler โปรดดูที่ สร้างและใช้ Data Wrangler Flow.
เกี่ยวกับผู้เขียน
นิกิต้า อิฟคิน เป็นนักวิทยาศาสตร์ประยุกต์ Amazon SageMaker Data Wrangler
ไฮเดอร์ นาควี เป็นสถาปนิกโซลูชันที่ AWS เขามีประสบการณ์ด้านการพัฒนาซอฟต์แวร์และสถาปัตยกรรมองค์กรอย่างกว้างขวาง เขามุ่งเน้นที่การทำให้ลูกค้าบรรลุผลทางธุรกิจด้วย AWS เขามาจากนิวยอร์ก
หริศ ราชโกปาลัน เป็นสถาปนิกโซลูชันอาวุโสที่ Amazon Web Services Harish ทำงานร่วมกับลูกค้าองค์กรและช่วยเหลือพวกเขาในการเดินทางบนคลาวด์
เจมส์ หวู่ เป็นผู้เชี่ยวชาญด้าน AI/ML อาวุโส SA ที่ AWS เขาทำงานร่วมกับลูกค้าเพื่อเร่งความเร็วการเดินทางบนคลาวด์และติดตามการสร้างมูลค่าทางธุรกิจอย่างรวดเร็ว นอกจากนั้น James ยังหลงใหลในการพัฒนาและปรับขนาดโซลูชัน AI/ ML ขนาดใหญ่ในโดเมนต่างๆ ก่อนร่วมงานกับ AWS เขาเป็นผู้นำทีมเทคโนโลยีนวัตกรรมแบบสหสาขาวิชาชีพกับวิศวกร ML และนักพัฒนาซอฟต์แวร์สำหรับบริษัทชั้นนำระดับโลกในตลาดและอุตสาหกรรมโฆษณา
- คอยน์สมาร์ท การแลกเปลี่ยน Bitcoin และ Crypto ที่ดีที่สุดในยุโรป
- เพลโตบล็อคเชน Web3 Metaverse ข่าวกรอง ขยายความรู้. เข้าฟรี
- คริปโตฮอว์ก เรดาร์ Altcoin ทดลองฟรี.
- ที่มา: https://aws.amazon.com/blogs/machine-learning/prepare-data-faster-with-pyspark-and-altair-code-snippets-in-amazon-sagemaker-data-wrangler/
- "
- 100
- 2020
- a
- เกี่ยวกับเรา
- เร่งความเร็ว
- เข้า
- บรรลุ
- ข้าม
- นอกจากนี้
- การโฆษณา
- ทั้งหมด
- ช่วยให้
- อเมซอน
- Amazon Web Services
- การวิเคราะห์
- ประยุกต์
- สถาปัตยกรรม
- ใช้ได้
- AWS
- แกน
- เพราะ
- ก่อน
- ระหว่าง
- built-in
- ธุรกิจ
- ความสามารถในการ
- ก่อให้เกิด
- ชาร์ต
- Choose
- เมฆ
- รหัส
- คอลัมน์
- ร่วมกัน
- สมบูรณ์
- ซับซ้อน
- ต่อ
- การควบคุม
- สร้าง
- ที่สร้างขึ้น
- ประเพณี
- ลูกค้า
- ข้อมูล
- การวิเคราะห์ข้อมูล
- สาธิต
- แสดงให้เห็นถึง
- กำหนด
- นักพัฒนา
- ที่กำลังพัฒนา
- พัฒนาการ
- การกระจาย
- โดเมน
- ลง
- หล่น
- พลศาสตร์
- ผลกระทบ
- การเปิดใช้งาน
- ชั้นเยี่ยม
- วิศวกร
- เข้าสู่
- Enterprise
- ตัวอย่าง
- ยกเว้น
- ประสบการณ์
- กว้างขวาง
- เร็วขึ้น
- ลักษณะ
- ในที่สุด
- บริษัท
- ชื่อจริง
- ไหล
- มุ่งเน้นไปที่
- ปฏิบัติตาม
- ดังต่อไปนี้
- ราคาเริ่มต้นที่
- ฟังก์ชัน
- ฟังก์ชั่น
- ต่อไป
- เหตุการณ์ที่
- ยิ่งใหญ่
- กลุ่ม
- มี
- เป็นประโยชน์
- จะช่วยให้
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- HTTPS
- แยกแยะ
- ความสำคัญ
- อุตสาหกรรม
- นักวิเคราะห์ส่วนบุคคลที่หาโอกาสให้เป็นไปได้มากที่สุด
- อินเตอร์เฟซ
- IT
- การเดินทาง
- เก็บ
- ใหญ่
- เรียนรู้
- การเรียนรู้
- นำ
- Line
- รายการ
- เครื่อง
- เรียนรู้เครื่อง
- แผนที่
- มีนาคม
- ตลาด
- การจับคู่
- ML
- แบบ
- เดือน
- เดือน
- ข้อมูลเพิ่มเติม
- ดนตรี
- ชื่อ
- นิวยอร์ก
- จำนวน
- อื่นๆ
- ทั้งหมด
- หลงใหล
- ที่มีประสิทธิภาพ
- เล่น
- เตรียมการ
- ก่อน
- ผลิตภัณฑ์
- ให้
- ให้
- ให้
- ซื้อ
- การซื้อสินค้า
- เชิงปริมาณ
- อย่างรวดเร็ว
- ดิบ
- บันทึก
- สะท้อนให้เห็นถึง
- ทบทวน
- รีวิว
- ปรับ
- นักวิทยาศาสตร์
- บริการ
- ง่าย
- ตั้งแต่
- หก
- ซอฟต์แวร์
- การพัฒนาซอฟต์แวร์
- โซลูชัน
- ผู้เชี่ยวชาญ
- เริ่มต้น
- สถิติ
- การเก็บรักษา
- จัดเก็บ
- เป้า
- ทีม
- เทคโนโลยี
- พื้นที่
- ดังนั้น
- สาม
- เวลา
- เครื่องมือ
- ด้านบน
- แปลง
- การแปลง
- ชนิด
- ใช้
- ความคุ้มค่า
- ต่างๆ
- การสร้างภาพ
- ไดรฟ์
- เว็บ
- บริการเว็บ
- WHO
- ยอดเยี่ยม
- โรงงาน
- คุ้มค่า
- การเขียน
- X
- ปี
- ปี
- ของคุณ