ขอแนะนำ PlatoBlockchain Data Intelligence การแสดงภาพแบบฝังตัวใหม่ของ Amazon SageMaker Data Wrangler ค้นหาแนวตั้ง AI.

ขอแนะนำการแสดงภาพแบบฝังใหม่ของ Amazon SageMaker Data Wrangler

การตรวจสอบคุณภาพข้อมูลด้วยตนเองและการล้างข้อมูลเป็นกระบวนการที่เจ็บปวดและใช้เวลานาน ซึ่งอาจกินเวลาจำนวนมากของนักวิทยาศาสตร์ข้อมูลในโครงการ จากการสำรวจนักวิทยาศาสตร์ข้อมูลที่จัดทำโดย Anaconda ในปี 2020 นักวิทยาศาสตร์ข้อมูลใช้เวลาประมาณ 66% ของเวลาทั้งหมดไปกับการเตรียมข้อมูลและงานวิเคราะห์ รวมถึงการโหลด (19%) การทำความสะอาด (26%) และการแสดงภาพข้อมูล (21%) อเมซอน SageMaker เสนอเครื่องมือเตรียมข้อมูลที่หลากหลายเพื่อตอบสนองความต้องการและความพึงพอใจของลูกค้าที่แตกต่างกัน สำหรับผู้ใช้ที่ต้องการอินเตอร์เฟสแบบโต้ตอบที่ใช้ GUI ข้อมูล SageMaker Wrangler นำเสนอการแสดงภาพ การวิเคราะห์ และการแปลงในตัวมากกว่า 300 รายการเพื่อประมวลผลข้อมูลที่สนับสนุนโดย Spark อย่างมีประสิทธิภาพโดยไม่ต้องเขียนโค้ดแม้แต่บรรทัดเดียว

การแสดงภาพข้อมูลในแมชชีนเลิร์นนิง (ML) เป็นกระบวนการที่ทำซ้ำและต้องการการแสดงชุดข้อมูลอย่างต่อเนื่องเพื่อการค้นพบ การตรวจสอบ และการตรวจสอบความถูกต้อง การใส่ข้อมูลลงในเปอร์สเปคทีฟทำให้เห็นแต่ละคอลัมน์เพื่อทำความเข้าใจข้อผิดพลาดของข้อมูลที่เป็นไปได้ ค่าที่หายไป ประเภทข้อมูลที่ไม่ถูกต้อง ข้อมูลที่ทำให้เข้าใจผิด/ไม่ถูกต้อง ข้อมูลนอกกรอบ และอื่นๆ

ในโพสต์นี้ เราจะแสดงให้คุณเห็นว่า Amazon SageMaker ข้อมูล Wrangler สร้างการแสดงภาพที่สำคัญของการกระจายข้อมูลโดยอัตโนมัติ ตรวจจับปัญหาด้านคุณภาพของข้อมูล และแสดงข้อมูลเชิงลึก เช่น ค่าผิดปกติสำหรับแต่ละฟีเจอร์โดยไม่ต้องเขียนโค้ดแม้แต่บรรทัดเดียว ช่วยปรับปรุงประสบการณ์การใช้กริดข้อมูลด้วยการเตือนคุณภาพอัตโนมัติ (เช่น ค่าที่ขาดหายไปหรือค่าที่ไม่ถูกต้อง) การแสดงภาพที่สร้างขึ้นโดยอัตโนมัติยังเป็นแบบโต้ตอบอีกด้วย ตัวอย่างเช่น คุณสามารถแสดงตารางของรายการที่พบบ่อยที่สุด XNUMX อันดับแรกโดยเรียงลำดับตามเปอร์เซ็นต์ และวางเมาส์เหนือแถบเพื่อสลับระหว่างจำนวนและเปอร์เซ็นต์

เบื้องต้น

Amazon SageMaker Data Wrangler เป็นคุณลักษณะของ SageMaker ที่พร้อมใช้งานภายใน SageMaker Studio คุณสามารถติดตาม ขั้นตอนการเริ่มต้นใช้งาน Studio เพื่อหมุนสภาพแวดล้อมสตูดิโอและโน้ตบุ๊ก แม้ว่าคุณสามารถเลือกวิธีการรับรองความถูกต้องได้หลายวิธี แต่วิธีที่ง่ายที่สุดในการสร้างโดเมน Studio คือทำตาม คำแนะนำเริ่มต้นอย่างรวดเร็ว. การเริ่มต้นอย่างรวดเร็วใช้การตั้งค่าเริ่มต้นเดียวกันกับการตั้งค่า Studio มาตรฐาน คุณยังสามารถเลือกที่จะออนบอร์ดโดยใช้ ศูนย์ข้อมูลประจำตัว AWS Identity and Access Management (IAM) (ต่อจาก AWS Single Sign-On) สำหรับการรับรองความถูกต้อง (ดู ออนบอร์ดไปยังโดเมน Amazon SageMaker โดยใช้ IAM Identity Center).

แนวทางการแก้ปัญหา

เริ่มของคุณ SageMaker สตูดิโอ สิ่งแวดล้อมและสร้างใหม่ การไหลของข้อมูล Wrangler. คุณสามารถนำเข้าชุดข้อมูลของคุณเองหรือใช้ชุดข้อมูลตัวอย่าง (มหึมา) ดังที่เห็นในภาพต่อไปนี้ โหนดทั้งสองนี้ (the แหล่ง โหนดและ ข้อมูล ประเภทโหนด) สามารถคลิกได้ – เมื่อคุณคลิกสองครั้งที่โหนดทั้งสองนี้ Data Wrangler จะแสดงตาราง

ในกรณีของเรา ให้คลิกขวาที่ ประเภทข้อมูล ไอคอนและ เพิ่มการแปลง:

ตอนนี้คุณควรเห็นการแสดงภาพที่ด้านบนของแต่ละคอลัมน์ โปรดรอสักครู่เพื่อให้แผนภูมิโหลด เวลาแฝงขึ้นอยู่กับขนาดของชุดข้อมูล (สำหรับชุดข้อมูลไททานิค ควรใช้เวลา 1-2 วินาทีในอินสแตนซ์เริ่มต้น)

ขอแนะนำ PlatoBlockchain Data Intelligence การแสดงภาพแบบฝังตัวใหม่ของ Amazon SageMaker Data Wrangler ค้นหาแนวตั้ง AI.

เลื่อนไปที่แถบแนวนอนด้านบนโดยวางเมาส์เหนือคำแนะนำเครื่องมือ เมื่อโหลดแผนภูมิแล้ว คุณจะเห็นการกระจายข้อมูล ค่าที่ไม่ถูกต้อง และค่าที่ขาดหายไป ค่าผิดปกติและค่าที่ขาดหายไปเป็นลักษณะของข้อมูลที่ผิดพลาด และจำเป็นอย่างยิ่งที่จะต้องระบุค่าเหล่านี้ เนื่องจากอาจส่งผลต่อผลลัพธ์ของคุณ ซึ่งหมายความว่าเนื่องจากข้อมูลของคุณมาจากกลุ่มตัวอย่างที่ไม่เป็นตัวแทน สิ่งที่คุณค้นพบอาจไม่สามารถสรุปได้ในสถานการณ์ภายนอกการศึกษาของคุณ การจำแนกประเภทของค่าสามารถดูได้ที่แผนภูมิด้านล่างโดยที่ ถูกต้อง ค่าจะแสดงเป็นสีขาว โมฆะ ค่าเป็นสีน้ำเงินและ หายไป ค่าเป็นสีม่วง คุณยังสามารถดูที่ ค่าผิดปกติ แสดงโดยจุดสีน้ำเงินทางด้านซ้ายหรือขวาของแผนภูมิ

ขอแนะนำ PlatoBlockchain Data Intelligence การแสดงภาพแบบฝังตัวใหม่ของ Amazon SageMaker Data Wrangler ค้นหาแนวตั้ง AI.

การสร้างภาพข้อมูลทั้งหมดมาในรูปแบบของฮิสโตแกรม สำหรับข้อมูลที่ไม่จัดหมวดหมู่ จะมีการกำหนดชุดบัคเก็ตสำหรับแต่ละถังขยะ สำหรับข้อมูลที่จัดหมวดหมู่ ค่าที่ไม่ซ้ำกันแต่ละค่าจะถือเป็นถังขยะ ที่ด้านบนของฮิสโตแกรม มีแผนภูมิแท่งที่แสดงค่าที่ไม่ถูกต้องและค่าที่ขาดหายไป เราสามารถดูอัตราส่วนของค่าที่ถูกต้องสำหรับประเภทตัวเลข ประเภทหมวดหมู่ ไบนารี ข้อความ และวันที่เวลา ตลอดจนอัตราส่วนของค่าที่ขาดหายไปตามจำนวนเซลล์ว่างและเซลล์ว่างทั้งหมด และสุดท้ายคืออัตราส่วนของค่าที่ไม่ถูกต้อง ลองดูตัวอย่างเพื่อทำความเข้าใจว่าคุณสามารถดูสิ่งเหล่านี้ได้อย่างไร ชุดข้อมูล Titanic ตัวอย่างที่โหลดไว้ล่วงหน้าของ Data Wrangler.

1 ตัวอย่าง – เราสามารถดูค่าที่ขาดหายไป 20% สำหรับ อายุ คุณลักษณะ/คอลัมน์ การจัดการกับข้อมูลที่ขาดหายไปในด้านการวิจัย/ML ที่เกี่ยวข้องกับข้อมูลเป็นสิ่งสำคัญ ไม่ว่าจะโดยการลบออกหรือใส่ข้อมูลลงไป (จัดการค่าที่ขาดหายไปด้วยการประมาณค่าบางอย่าง)

ขอแนะนำ PlatoBlockchain Data Intelligence การแสดงภาพแบบฝังตัวใหม่ของ Amazon SageMaker Data Wrangler ค้นหาแนวตั้ง AI.
คุณสามารถประมวลผลค่าที่ขาดหายไปได้โดยใช้ จัดการค่าที่หายไป เปลี่ยนกลุ่ม ใช้ ขาดอินพุท แปลงเพื่อสร้างค่าที่ป้อนซึ่งพบค่าที่ขาดหายไปในคอลัมน์อินพุต การกำหนดค่าขึ้นอยู่กับประเภทข้อมูลของคุณ

ขอแนะนำ PlatoBlockchain Data Intelligence การแสดงภาพแบบฝังตัวใหม่ของ Amazon SageMaker Data Wrangler ค้นหาแนวตั้ง AI.

ในตัวอย่างนี้ อายุ คอลัมน์มีชนิดข้อมูลเป็นตัวเลข สำหรับกลยุทธ์การใส่ร้าย เราสามารถเลือกได้ว่าจะใส่ หมายความ หรือ ค่ามัธยฐานโดยประมาณ มากกว่าค่าที่มีอยู่ในชุดข้อมูลของคุณ

ขอแนะนำ PlatoBlockchain Data Intelligence การแสดงภาพแบบฝังตัวใหม่ของ Amazon SageMaker Data Wrangler ค้นหาแนวตั้ง AI.

ตอนนี้เราได้เพิ่มการแปลงแล้ว เราจะเห็นว่า อายุ คอลัมน์ไม่มีค่าที่ขาดหายไปอีกต่อไป

ขอแนะนำ PlatoBlockchain Data Intelligence การแสดงภาพแบบฝังตัวใหม่ของ Amazon SageMaker Data Wrangler ค้นหาแนวตั้ง AI.

2 ตัวอย่าง – เราสามารถดูค่าที่ไม่ถูกต้อง 27% สำหรับ ตั๋ว คุณลักษณะ/คอลัมน์ที่เป็นของ STRING พิมพ์. ข้อมูลที่ไม่ถูกต้องสามารถสร้างการประมาณการที่มีอคติ ซึ่งสามารถลดความแม่นยำของแบบจำลองและส่งผลให้เกิดข้อสรุปที่ผิดพลาดได้ ให้เราสำรวจการแปลงบางอย่างที่เราสามารถใช้เพื่อจัดการกับข้อมูลที่ไม่ถูกต้องใน ตั๋ว คอลัมน์.

เมื่อดูที่ภาพหน้าจอ เราจะเห็นว่าอินพุตบางส่วนเขียนในรูปแบบที่มีตัวอักษรนำหน้าตัวเลข “17318 พีซี” และอื่น ๆ เป็นเพียงตัวเลข เช่น “11769"

เราสามารถเลือกใช้การแปลงเพื่อค้นหาและแก้ไขรูปแบบเฉพาะภายในสตริง เช่น “พีซี” และแทนที่พวกเขา ต่อไปก็ร่ายของเราได้เลย เชือก คอลัมน์เป็นชนิดใหม่เช่น นาน เพื่อความสะดวกในการใช้งาน

ขอแนะนำ PlatoBlockchain Data Intelligence การแสดงภาพแบบฝังตัวใหม่ของ Amazon SageMaker Data Wrangler ค้นหาแนวตั้ง AI.

ขอแนะนำ PlatoBlockchain Data Intelligence การแสดงภาพแบบฝังตัวใหม่ของ Amazon SageMaker Data Wrangler ค้นหาแนวตั้ง AI.

สิ่งนี้ยังคงทำให้เรามีค่าที่ขาดหายไป 19% บน ตั๋ว ลักษณะเฉพาะ. คล้ายกับตัวอย่างที่ 1 ตอนนี้เราสามารถใส่ค่าที่ขาดหายไปโดยใช้ค่าเฉลี่ยหรือค่ามัธยฐานโดยประมาณ คุณสมบัติ ตั๋ว ไม่ควรมีค่าที่ไม่ถูกต้องหรือหายไปอีกต่อไปตามภาพด้านล่าง

ขอแนะนำ PlatoBlockchain Data Intelligence การแสดงภาพแบบฝังตัวใหม่ของ Amazon SageMaker Data Wrangler ค้นหาแนวตั้ง AI.

เพื่อให้แน่ใจว่าคุณจะไม่ต้องเสียค่าบริการหลังจากทำตามบทช่วยสอนนี้ ตรวจสอบให้แน่ใจว่าคุณ ปิดแอป Data Wrangler.

สรุป 

ในโพสต์นี้ เรานำเสนอสิ่งใหม่ Amazon Sagemaker ข้อมูล Wrangler วิดเจ็ตที่จะช่วยลบ การยกของหนักที่ไม่แตกต่าง สำหรับผู้ใช้ปลายทางในระหว่างการเตรียมข้อมูลด้วยการแสดงภาพอัตโนมัติและข้อมูลเชิงลึกเกี่ยวกับโปรไฟล์ข้อมูลสำหรับแต่ละคุณสมบัติ วิดเจ็ตนี้ทำให้ง่ายต่อการแสดงภาพข้อมูล (เช่น ฮิสโตแกรมที่เป็นหมวดหมู่/ไม่มีหมวดหมู่) ตรวจหาปัญหาด้านคุณภาพของข้อมูล (เช่น ค่าที่ขาดหายไปและค่าที่ไม่ถูกต้อง) และแสดงข้อมูลเชิงลึก (เช่น ค่าผิดปกติและรายการ N อันดับต้น ๆ)

คุณสามารถเริ่มใช้ความสามารถนี้ได้ในทุกภูมิภาคที่มี SageMaker Studio ให้บริการ ให้มันลองและแจ้งให้เราทราบว่าคุณคิดอย่างไร เรารอคอยคำติชมของคุณเสมอ ไม่ว่าจะผ่านทางผู้ติดต่อฝ่ายสนับสนุนของ AWS หรือทาง ฟอรัม AWS สำหรับ SageMaker


เกี่ยวกับผู้เขียน

ขอแนะนำ PlatoBlockchain Data Intelligence การแสดงภาพแบบฝังตัวใหม่ของ Amazon SageMaker Data Wrangler ค้นหาแนวตั้ง AI.อิชา ดุอา เป็น Senior Solutions Architect ที่ตั้งอยู่ในซานฟรานซิสโกเบย์แอเรีย เธอช่วยให้ลูกค้า AWS Enterprise เติบโตโดยการทำความเข้าใจเป้าหมายและความท้าทาย และแนะนำพวกเขาเกี่ยวกับวิธีที่พวกเขาสามารถออกแบบแอปพลิเคชันของตนในลักษณะที่อยู่บนคลาวด์ได้ ในขณะที่ทำให้แน่ใจว่าพวกเขาจะมีความยืดหยุ่นและปรับขนาดได้ เธอหลงใหลเกี่ยวกับเทคโนโลยีแมชชีนเลิร์นนิงและความยั่งยืนด้านสิ่งแวดล้อม

ขอแนะนำ PlatoBlockchain Data Intelligence การแสดงภาพแบบฝังตัวใหม่ของ Amazon SageMaker Data Wrangler ค้นหาแนวตั้ง AI.พาร์ธ พาเทล เป็นสถาปนิกโซลูชันที่ AWS ในบริเวณอ่าวซานฟรานซิสโก Parth แนะนำลูกค้าให้เร่งความเร็วการเดินทางสู่ระบบคลาวด์และช่วยให้พวกเขานำ AWS Cloud มาใช้ได้สำเร็จ เขามุ่งเน้นไปที่ ML และความทันสมัยของแอปพลิเคชัน

ประทับเวลา:

เพิ่มเติมจาก AWS Machine Learning AWS