การตรวจสอบคุณภาพข้อมูลด้วยตนเองและการล้างข้อมูลเป็นกระบวนการที่เจ็บปวดและใช้เวลานาน ซึ่งอาจกินเวลาจำนวนมากของนักวิทยาศาสตร์ข้อมูลในโครงการ จากการสำรวจนักวิทยาศาสตร์ข้อมูลที่จัดทำโดย Anaconda ในปี 2020 นักวิทยาศาสตร์ข้อมูลใช้เวลาประมาณ 66% ของเวลาทั้งหมดไปกับการเตรียมข้อมูลและงานวิเคราะห์ รวมถึงการโหลด (19%) การทำความสะอาด (26%) และการแสดงภาพข้อมูล (21%) อเมซอน SageMaker เสนอเครื่องมือเตรียมข้อมูลที่หลากหลายเพื่อตอบสนองความต้องการและความพึงพอใจของลูกค้าที่แตกต่างกัน สำหรับผู้ใช้ที่ต้องการอินเตอร์เฟสแบบโต้ตอบที่ใช้ GUI ข้อมูล SageMaker Wrangler นำเสนอการแสดงภาพ การวิเคราะห์ และการแปลงในตัวมากกว่า 300 รายการเพื่อประมวลผลข้อมูลที่สนับสนุนโดย Spark อย่างมีประสิทธิภาพโดยไม่ต้องเขียนโค้ดแม้แต่บรรทัดเดียว
การแสดงภาพข้อมูลในแมชชีนเลิร์นนิง (ML) เป็นกระบวนการที่ทำซ้ำและต้องการการแสดงชุดข้อมูลอย่างต่อเนื่องเพื่อการค้นพบ การตรวจสอบ และการตรวจสอบความถูกต้อง การใส่ข้อมูลลงในเปอร์สเปคทีฟทำให้เห็นแต่ละคอลัมน์เพื่อทำความเข้าใจข้อผิดพลาดของข้อมูลที่เป็นไปได้ ค่าที่หายไป ประเภทข้อมูลที่ไม่ถูกต้อง ข้อมูลที่ทำให้เข้าใจผิด/ไม่ถูกต้อง ข้อมูลนอกกรอบ และอื่นๆ
ในโพสต์นี้ เราจะแสดงให้คุณเห็นว่า Amazon SageMaker ข้อมูล Wrangler สร้างการแสดงภาพที่สำคัญของการกระจายข้อมูลโดยอัตโนมัติ ตรวจจับปัญหาด้านคุณภาพของข้อมูล และแสดงข้อมูลเชิงลึก เช่น ค่าผิดปกติสำหรับแต่ละฟีเจอร์โดยไม่ต้องเขียนโค้ดแม้แต่บรรทัดเดียว ช่วยปรับปรุงประสบการณ์การใช้กริดข้อมูลด้วยการเตือนคุณภาพอัตโนมัติ (เช่น ค่าที่ขาดหายไปหรือค่าที่ไม่ถูกต้อง) การแสดงภาพที่สร้างขึ้นโดยอัตโนมัติยังเป็นแบบโต้ตอบอีกด้วย ตัวอย่างเช่น คุณสามารถแสดงตารางของรายการที่พบบ่อยที่สุด XNUMX อันดับแรกโดยเรียงลำดับตามเปอร์เซ็นต์ และวางเมาส์เหนือแถบเพื่อสลับระหว่างจำนวนและเปอร์เซ็นต์
เบื้องต้น
Amazon SageMaker Data Wrangler เป็นคุณลักษณะของ SageMaker ที่พร้อมใช้งานภายใน SageMaker Studio คุณสามารถติดตาม ขั้นตอนการเริ่มต้นใช้งาน Studio เพื่อหมุนสภาพแวดล้อมสตูดิโอและโน้ตบุ๊ก แม้ว่าคุณสามารถเลือกวิธีการรับรองความถูกต้องได้หลายวิธี แต่วิธีที่ง่ายที่สุดในการสร้างโดเมน Studio คือทำตาม คำแนะนำเริ่มต้นอย่างรวดเร็ว. การเริ่มต้นอย่างรวดเร็วใช้การตั้งค่าเริ่มต้นเดียวกันกับการตั้งค่า Studio มาตรฐาน คุณยังสามารถเลือกที่จะออนบอร์ดโดยใช้ ศูนย์ข้อมูลประจำตัว AWS Identity and Access Management (IAM) (ต่อจาก AWS Single Sign-On) สำหรับการรับรองความถูกต้อง (ดู ออนบอร์ดไปยังโดเมน Amazon SageMaker โดยใช้ IAM Identity Center).
แนวทางการแก้ปัญหา
เริ่มของคุณ SageMaker สตูดิโอ สิ่งแวดล้อมและสร้างใหม่ การไหลของข้อมูล Wrangler. คุณสามารถนำเข้าชุดข้อมูลของคุณเองหรือใช้ชุดข้อมูลตัวอย่าง (มหึมา) ดังที่เห็นในภาพต่อไปนี้ โหนดทั้งสองนี้ (the แหล่ง โหนดและ ข้อมูล ประเภทโหนด) สามารถคลิกได้ – เมื่อคุณคลิกสองครั้งที่โหนดทั้งสองนี้ Data Wrangler จะแสดงตาราง
ในกรณีของเรา ให้คลิกขวาที่ ประเภทข้อมูล ไอคอนและ เพิ่มการแปลง:
ตอนนี้คุณควรเห็นการแสดงภาพที่ด้านบนของแต่ละคอลัมน์ โปรดรอสักครู่เพื่อให้แผนภูมิโหลด เวลาแฝงขึ้นอยู่กับขนาดของชุดข้อมูล (สำหรับชุดข้อมูลไททานิค ควรใช้เวลา 1-2 วินาทีในอินสแตนซ์เริ่มต้น)
เลื่อนไปที่แถบแนวนอนด้านบนโดยวางเมาส์เหนือคำแนะนำเครื่องมือ เมื่อโหลดแผนภูมิแล้ว คุณจะเห็นการกระจายข้อมูล ค่าที่ไม่ถูกต้อง และค่าที่ขาดหายไป ค่าผิดปกติและค่าที่ขาดหายไปเป็นลักษณะของข้อมูลที่ผิดพลาด และจำเป็นอย่างยิ่งที่จะต้องระบุค่าเหล่านี้ เนื่องจากอาจส่งผลต่อผลลัพธ์ของคุณ ซึ่งหมายความว่าเนื่องจากข้อมูลของคุณมาจากกลุ่มตัวอย่างที่ไม่เป็นตัวแทน สิ่งที่คุณค้นพบอาจไม่สามารถสรุปได้ในสถานการณ์ภายนอกการศึกษาของคุณ การจำแนกประเภทของค่าสามารถดูได้ที่แผนภูมิด้านล่างโดยที่ ถูกต้อง ค่าจะแสดงเป็นสีขาว โมฆะ ค่าเป็นสีน้ำเงินและ หายไป ค่าเป็นสีม่วง คุณยังสามารถดูที่ ค่าผิดปกติ แสดงโดยจุดสีน้ำเงินทางด้านซ้ายหรือขวาของแผนภูมิ
การสร้างภาพข้อมูลทั้งหมดมาในรูปแบบของฮิสโตแกรม สำหรับข้อมูลที่ไม่จัดหมวดหมู่ จะมีการกำหนดชุดบัคเก็ตสำหรับแต่ละถังขยะ สำหรับข้อมูลที่จัดหมวดหมู่ ค่าที่ไม่ซ้ำกันแต่ละค่าจะถือเป็นถังขยะ ที่ด้านบนของฮิสโตแกรม มีแผนภูมิแท่งที่แสดงค่าที่ไม่ถูกต้องและค่าที่ขาดหายไป เราสามารถดูอัตราส่วนของค่าที่ถูกต้องสำหรับประเภทตัวเลข ประเภทหมวดหมู่ ไบนารี ข้อความ และวันที่เวลา ตลอดจนอัตราส่วนของค่าที่ขาดหายไปตามจำนวนเซลล์ว่างและเซลล์ว่างทั้งหมด และสุดท้ายคืออัตราส่วนของค่าที่ไม่ถูกต้อง ลองดูตัวอย่างเพื่อทำความเข้าใจว่าคุณสามารถดูสิ่งเหล่านี้ได้อย่างไร ชุดข้อมูล Titanic ตัวอย่างที่โหลดไว้ล่วงหน้าของ Data Wrangler.
1 ตัวอย่าง – เราสามารถดูค่าที่ขาดหายไป 20% สำหรับ อายุ คุณลักษณะ/คอลัมน์ การจัดการกับข้อมูลที่ขาดหายไปในด้านการวิจัย/ML ที่เกี่ยวข้องกับข้อมูลเป็นสิ่งสำคัญ ไม่ว่าจะโดยการลบออกหรือใส่ข้อมูลลงไป (จัดการค่าที่ขาดหายไปด้วยการประมาณค่าบางอย่าง)
คุณสามารถประมวลผลค่าที่ขาดหายไปได้โดยใช้ จัดการค่าที่หายไป เปลี่ยนกลุ่ม ใช้ ขาดอินพุท แปลงเพื่อสร้างค่าที่ป้อนซึ่งพบค่าที่ขาดหายไปในคอลัมน์อินพุต การกำหนดค่าขึ้นอยู่กับประเภทข้อมูลของคุณ
ในตัวอย่างนี้ อายุ คอลัมน์มีชนิดข้อมูลเป็นตัวเลข สำหรับกลยุทธ์การใส่ร้าย เราสามารถเลือกได้ว่าจะใส่ หมายความ หรือ ค่ามัธยฐานโดยประมาณ มากกว่าค่าที่มีอยู่ในชุดข้อมูลของคุณ
ตอนนี้เราได้เพิ่มการแปลงแล้ว เราจะเห็นว่า อายุ คอลัมน์ไม่มีค่าที่ขาดหายไปอีกต่อไป
2 ตัวอย่าง – เราสามารถดูค่าที่ไม่ถูกต้อง 27% สำหรับ ตั๋ว คุณลักษณะ/คอลัมน์ที่เป็นของ STRING พิมพ์. ข้อมูลที่ไม่ถูกต้องสามารถสร้างการประมาณการที่มีอคติ ซึ่งสามารถลดความแม่นยำของแบบจำลองและส่งผลให้เกิดข้อสรุปที่ผิดพลาดได้ ให้เราสำรวจการแปลงบางอย่างที่เราสามารถใช้เพื่อจัดการกับข้อมูลที่ไม่ถูกต้องใน ตั๋ว คอลัมน์.
เมื่อดูที่ภาพหน้าจอ เราจะเห็นว่าอินพุตบางส่วนเขียนในรูปแบบที่มีตัวอักษรนำหน้าตัวเลข “17318 พีซี” และอื่น ๆ เป็นเพียงตัวเลข เช่น “11769"
เราสามารถเลือกใช้การแปลงเพื่อค้นหาและแก้ไขรูปแบบเฉพาะภายในสตริง เช่น “พีซี” และแทนที่พวกเขา ต่อไปก็ร่ายของเราได้เลย เชือก คอลัมน์เป็นชนิดใหม่เช่น นาน เพื่อความสะดวกในการใช้งาน
สิ่งนี้ยังคงทำให้เรามีค่าที่ขาดหายไป 19% บน ตั๋ว ลักษณะเฉพาะ. คล้ายกับตัวอย่างที่ 1 ตอนนี้เราสามารถใส่ค่าที่ขาดหายไปโดยใช้ค่าเฉลี่ยหรือค่ามัธยฐานโดยประมาณ คุณสมบัติ ตั๋ว ไม่ควรมีค่าที่ไม่ถูกต้องหรือหายไปอีกต่อไปตามภาพด้านล่าง
เพื่อให้แน่ใจว่าคุณจะไม่ต้องเสียค่าบริการหลังจากทำตามบทช่วยสอนนี้ ตรวจสอบให้แน่ใจว่าคุณ ปิดแอป Data Wrangler.
สรุป
ในโพสต์นี้ เรานำเสนอสิ่งใหม่ Amazon Sagemaker ข้อมูล Wrangler วิดเจ็ตที่จะช่วยลบ การยกของหนักที่ไม่แตกต่าง สำหรับผู้ใช้ปลายทางในระหว่างการเตรียมข้อมูลด้วยการแสดงภาพอัตโนมัติและข้อมูลเชิงลึกเกี่ยวกับโปรไฟล์ข้อมูลสำหรับแต่ละคุณสมบัติ วิดเจ็ตนี้ทำให้ง่ายต่อการแสดงภาพข้อมูล (เช่น ฮิสโตแกรมที่เป็นหมวดหมู่/ไม่มีหมวดหมู่) ตรวจหาปัญหาด้านคุณภาพของข้อมูล (เช่น ค่าที่ขาดหายไปและค่าที่ไม่ถูกต้อง) และแสดงข้อมูลเชิงลึก (เช่น ค่าผิดปกติและรายการ N อันดับต้น ๆ)
คุณสามารถเริ่มใช้ความสามารถนี้ได้ในทุกภูมิภาคที่มี SageMaker Studio ให้บริการ ให้มันลองและแจ้งให้เราทราบว่าคุณคิดอย่างไร เรารอคอยคำติชมของคุณเสมอ ไม่ว่าจะผ่านทางผู้ติดต่อฝ่ายสนับสนุนของ AWS หรือทาง ฟอรัม AWS สำหรับ SageMaker
เกี่ยวกับผู้เขียน
อิชา ดุอา เป็น Senior Solutions Architect ที่ตั้งอยู่ในซานฟรานซิสโกเบย์แอเรีย เธอช่วยให้ลูกค้า AWS Enterprise เติบโตโดยการทำความเข้าใจเป้าหมายและความท้าทาย และแนะนำพวกเขาเกี่ยวกับวิธีที่พวกเขาสามารถออกแบบแอปพลิเคชันของตนในลักษณะที่อยู่บนคลาวด์ได้ ในขณะที่ทำให้แน่ใจว่าพวกเขาจะมีความยืดหยุ่นและปรับขนาดได้ เธอหลงใหลเกี่ยวกับเทคโนโลยีแมชชีนเลิร์นนิงและความยั่งยืนด้านสิ่งแวดล้อม
พาร์ธ พาเทล เป็นสถาปนิกโซลูชันที่ AWS ในบริเวณอ่าวซานฟรานซิสโก Parth แนะนำลูกค้าให้เร่งความเร็วการเดินทางสู่ระบบคลาวด์และช่วยให้พวกเขานำ AWS Cloud มาใช้ได้สำเร็จ เขามุ่งเน้นไปที่ ML และความทันสมัยของแอปพลิเคชัน
- ขั้นสูง (300)
- AI
- ไอ อาร์ต
- เครื่องกำเนิดไออาร์ท
- หุ่นยนต์ไอ
- อเมซอน SageMaker
- Amazon SageMaker ข้อมูล Wrangler
- ปัญญาประดิษฐ์
- ใบรับรองปัญญาประดิษฐ์
- ปัญญาประดิษฐ์ในการธนาคาร
- หุ่นยนต์ปัญญาประดิษฐ์
- หุ่นยนต์ปัญญาประดิษฐ์
- ซอฟต์แวร์ปัญญาประดิษฐ์
- AWS Machine Learning AWS
- blockchain
- การประชุม blockchain ai
- เหรียญอัจฉริยะ
- ปัญญาประดิษฐ์สนทนา
- การประชุม crypto ai
- ดัล-อี
- การเรียนรู้ลึก ๆ
- google ai
- เรียนรู้เครื่อง
- เพลโต
- เพลโตไอ
- เพลโตดาต้าอินเทลลิเจนซ์
- เกมเพลโต
- เพลโตดาต้า
- เพลโตเกม
- ขนาดไอ
- วากยสัมพันธ์
- ลมทะเล