การวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) เป็นงานทั่วไปที่นักวิเคราะห์ธุรกิจดำเนินการเพื่อค้นหารูปแบบ ทำความเข้าใจความสัมพันธ์ ตรวจสอบสมมติฐาน และระบุความผิดปกติในข้อมูล ในแมชชีนเลิร์นนิง (ML) สิ่งสำคัญคือต้องเข้าใจข้อมูลและความสัมพันธ์ก่อนจึงจะเข้าสู่การสร้างแบบจำลอง วัฏจักรการพัฒนา ML แบบเดิมอาจใช้เวลาเป็นเดือนๆ และต้องใช้วิทยาศาสตร์ข้อมูลขั้นสูงและทักษะด้านวิศวกรรม ML ในขณะที่โซลูชัน ML แบบไม่มีโค้ดสามารถช่วยให้บริษัทต่างๆ เร่งการส่งมอบโซลูชัน ML ให้เป็นวันหรือหลายชั่วโมงได้
ผืนผ้าใบ Amazon SageMaker เป็นเครื่องมือ ML แบบไม่มีโค้ดที่ช่วยให้นักวิเคราะห์ธุรกิจสร้างการคาดการณ์ ML ที่แม่นยำโดยไม่ต้องเขียนโค้ดหรือไม่ต้องการประสบการณ์ ML ใดๆ Canvas มีอินเทอร์เฟซแบบภาพที่ใช้งานง่ายในการโหลด ล้างข้อมูล และแปลงชุดข้อมูล ตามด้วยการสร้างแบบจำลอง ML และสร้างการคาดการณ์ที่แม่นยำ
ในโพสต์นี้ เราจะอธิบายวิธีการใช้ EDA เพื่อทำความเข้าใจข้อมูลของคุณให้ดียิ่งขึ้นก่อนสร้างแบบจำลอง ML ของคุณ ด้วยการแสดงภาพขั้นสูงในตัวของ Canvas การแสดงภาพเหล่านี้ช่วยให้คุณวิเคราะห์ความสัมพันธ์ระหว่างคุณลักษณะในชุดข้อมูลของคุณและทำความเข้าใจข้อมูลของคุณได้ดียิ่งขึ้น สิ่งนี้ทำได้โดยสัญชาตญาณด้วยความสามารถในการโต้ตอบกับข้อมูลและค้นพบข้อมูลเชิงลึกที่อาจไม่มีใครสังเกตเห็นด้วยการสืบค้นเฉพาะกิจ สามารถสร้างได้อย่างรวดเร็วผ่าน 'ตัวสร้างภาพข้อมูล' ภายใน Canvas ก่อนสร้างและฝึกอบรมโมเดล ML
ภาพรวมโซลูชัน
การแสดงภาพเหล่านี้ช่วยเพิ่มช่วงความสามารถสำหรับการเตรียมข้อมูลและการสำรวจที่ Canvas นำเสนอแล้ว รวมถึงความสามารถในการแก้ไขค่าที่หายไปและแทนที่ค่าผิดปกติ กรอง เข้าร่วม และแก้ไขชุดข้อมูล และดึงค่าเวลาเฉพาะจากการประทับเวลา หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับวิธีที่ Canvas สามารถช่วยคุณล้าง แปลง และเตรียมชุดข้อมูลของคุณ โปรดดูที่ เตรียมข้อมูลด้วยการแปลงขั้นสูง.
สำหรับกรณีการใช้งานของเรา เราจะพิจารณาว่าทำไมลูกค้าถึงเลิกทำธุรกิจใดๆ และแสดงให้เห็นว่า EDA สามารถช่วยได้อย่างไรจากมุมมองของนักวิเคราะห์ ชุดข้อมูลที่เราใช้ในโพสต์นี้เป็นชุดข้อมูลสังเคราะห์จากผู้ให้บริการโทรศัพท์มือถือโทรคมนาคมสำหรับการทำนายการปั่นของลูกค้าที่คุณสามารถดาวน์โหลดได้ (churn.csv) หรือคุณนำชุดข้อมูลของคุณเองมาทดลองด้วย สำหรับคำแนะนำในการนำเข้าชุดข้อมูลของคุณเอง โปรดดูที่ การนำเข้าข้อมูลใน Amazon SageMaker Canvas.
เบื้องต้น
ทำตามคำแนะนำใน ข้อกำหนดเบื้องต้นสำหรับการตั้งค่า Amazon SageMaker Canvas ก่อนที่คุณจะดำเนินการต่อไป
นำเข้าชุดข้อมูลของคุณไปยัง Canvas
ในการนำเข้าชุดข้อมูลตัวอย่างไปยัง Canvas ให้ทำตามขั้นตอนต่อไปนี้:
- เข้าสู่ระบบ Canvas ในฐานะผู้ใช้ทางธุรกิจ.อันดับแรก เราอัปโหลดชุดข้อมูลที่กล่าวถึงก่อนหน้านี้จากคอมพิวเตอร์ในพื้นที่ของเราไปยัง Canvas หากคุณต้องการใช้แหล่งอื่น เช่น อเมซอน Redshift, เอ่ยถึง เชื่อมต่อกับแหล่งข้อมูลภายนอก.
- Choose นำเข้า.
- Choose อัพโหลดแล้วเลือก เลือกไฟล์จากคอมพิวเตอร์ของคุณ.
- เลือกชุดข้อมูลของคุณ (churn.csv) แล้วเลือก นำเข้าข้อมูล.
- เลือกชุดข้อมูลและเลือก สร้างแบบจำลอง.
- สำหรับ ชื่อรุ่นป้อนชื่อ
- Choose สร้างบัญชีตัวแทน.
ทันทีที่คุณเลือกชุดข้อมูล คุณจะเห็นภาพรวมที่สรุปประเภทข้อมูล ค่าที่หายไป ค่าที่ไม่ตรงกัน ค่าที่ไม่ซ้ำ และค่าเฉลี่ยหรือค่าโหมดของคอลัมน์ที่เกี่ยวข้อง
จากมุมมองของ EDA คุณสามารถสังเกตว่าไม่มีค่าที่ขาดหายไปหรือไม่ตรงกันในชุดข้อมูล ในฐานะนักวิเคราะห์ธุรกิจ คุณอาจต้องการรับข้อมูลเชิงลึกเบื้องต้นเกี่ยวกับการสร้างแบบจำลองก่อนที่จะเริ่มการสำรวจข้อมูลเพื่อระบุว่าแบบจำลองจะดำเนินการอย่างไรและปัจจัยใดบ้างที่ส่งผลต่อประสิทธิภาพของแบบจำลอง Canvas ช่วยให้คุณได้รับข้อมูลเชิงลึกจากข้อมูลของคุณก่อนที่คุณจะสร้างแบบจำลองโดยการแสดงตัวอย่างแบบจำลองก่อน - ก่อนที่คุณจะสำรวจข้อมูลใดๆ ให้เลือก ดูตัวอย่างรุ่น.
- เลือกคอลัมน์ที่จะทำนาย (ปั่น) ผ้าใบจะตรวจจับโดยอัตโนมัติว่านี่เป็นการคาดคะเนสองประเภท
- Choose ดูตัวอย่างรุ่น. SageMaker Canvas ใช้ชุดย่อยของข้อมูลของคุณเพื่อสร้างแบบจำลองอย่างรวดเร็วเพื่อตรวจสอบว่าข้อมูลของคุณพร้อมที่จะสร้างการคาดการณ์ที่แม่นยำหรือไม่ เมื่อใช้โมเดลตัวอย่างนี้ คุณจะเข้าใจความถูกต้องของโมเดลปัจจุบันและผลกระทบที่เกี่ยวข้องของแต่ละคอลัมน์ที่มีต่อการคาดการณ์ได้
ภาพหน้าจอต่อไปนี้แสดงตัวอย่างของเรา
การแสดงตัวอย่างแบบจำลองระบุว่าแบบจำลองคาดการณ์เป้าหมายที่ถูกต้อง (ปั่นป่วน?) 95.6% ของเวลาทั้งหมด คุณยังสามารถดูผลกระทบของคอลัมน์เริ่มต้น (อิทธิพลที่แต่ละคอลัมน์มีต่อคอลัมน์เป้าหมาย) มาทำการสำรวจข้อมูล การแสดงภาพ และการแปลงข้อมูล จากนั้นจึงดำเนินการสร้างแบบจำลอง
การสำรวจข้อมูล
Canvas มีการแสดงภาพข้อมูลพื้นฐานทั่วไปอยู่แล้ว เช่น การกระจายข้อมูลในมุมมองกริดบน สร้าง แท็บ สิ่งเหล่านี้เหมาะสำหรับการรับภาพรวมระดับสูงของข้อมูล ทำความเข้าใจวิธีการกระจายข้อมูล และรับภาพรวมสรุปของชุดข้อมูล
ในฐานะนักวิเคราะห์ธุรกิจ คุณอาจต้องได้รับข้อมูลเชิงลึกระดับสูงเกี่ยวกับวิธีการกระจายข้อมูล รวมถึงวิธีที่การกระจายสะท้อนกับคอลัมน์เป้าหมาย (ปั่นป่วน) เพื่อให้เข้าใจความสัมพันธ์ของข้อมูลได้ง่ายก่อนสร้างแบบจำลอง เลือกได้แล้ว มุมมองกริด เพื่อดูภาพรวมของการกระจายข้อมูล
ภาพหน้าจอต่อไปนี้แสดงภาพรวมของการแจกจ่ายชุดข้อมูล
เราสามารถสังเกตได้ดังต่อไปนี้:
- โทรศัพท์ใช้ค่าที่ไม่ซ้ำกันมากเกินไปที่จะนำไปใช้ได้จริง เรารู้ว่าโทรศัพท์เป็นรหัสลูกค้าและไม่ต้องการสร้างแบบจำลองที่อาจพิจารณาลูกค้าเฉพาะราย แต่ควรเรียนรู้ในความหมายทั่วไปว่าอาจนำไปสู่การเลิกรา คุณสามารถลบตัวแปรนี้ได้
- คุณสมบัติตัวเลขส่วนใหญ่มีการกระจายอย่างดีตาม a เสียน โค้งระฆัง ใน ML คุณต้องการให้ข้อมูลมีการกระจายตามปกติ เนื่องจากตัวแปรใดๆ ที่แสดงการแจกแจงแบบปกติสามารถคาดการณ์ได้อย่างแม่นยำมากขึ้น
มาดูรายละเอียดการแสดงภาพขั้นสูงใน Canvas กันดีกว่า
การแสดงข้อมูล
ในฐานะนักวิเคราะห์ธุรกิจ คุณต้องการดูว่ามีความสัมพันธ์ระหว่างองค์ประกอบข้อมูลหรือไม่ และสัมพันธ์กับการปั่นป่วนอย่างไร เมื่อใช้ Canvas คุณจะสำรวจและแสดงข้อมูลของคุณเป็นภาพได้ ซึ่งช่วยให้คุณได้รับข้อมูลเชิงลึกขั้นสูงเกี่ยวกับข้อมูลของคุณก่อนสร้างแบบจำลอง ML ของคุณ คุณสามารถแสดงภาพโดยใช้แผนภาพแบบกระจาย แผนภูมิแท่ง และแผนภาพแบบกล่อง ซึ่งสามารถช่วยให้คุณเข้าใจข้อมูลของคุณและค้นพบความสัมพันธ์ระหว่างคุณลักษณะต่างๆ ที่อาจส่งผลต่อความถูกต้องของแบบจำลอง
ในการเริ่มสร้างการแสดงภาพของคุณ ให้ทำตามขั้นตอนต่อไปนี้:
- เกี่ยวกับ สร้าง แท็บของแอพ Canvas เลือก โปรแกรมสร้างภาพข้อมูล.
ตัวเร่งหลักของการสร้างภาพข้อมูลใน Canvas คือ โปรแกรมสร้างภาพข้อมูล. มาเปลี่ยนขนาดกลุ่มตัวอย่างเพื่อให้ได้มุมมองที่ดีขึ้น
- เลือกจำนวนแถวถัดจาก ตัวอย่างการแสดงภาพ.
- ใช้แถบเลื่อนเพื่อเลือกขนาดตัวอย่างที่คุณต้องการ
- Choose บันทึก เพื่อยืนยันการเปลี่ยนแปลงขนาดตัวอย่างของคุณ
คุณอาจต้องการเปลี่ยนขนาดตัวอย่างตามชุดข้อมูลของคุณ ในบางกรณี คุณอาจมีแถวสองสามร้อยถึงสองสามพันแถวที่คุณสามารถเลือกชุดข้อมูลทั้งหมดได้ ในบางกรณี คุณอาจมีแถวหลายพันแถว ซึ่งในกรณีนี้ คุณอาจเลือกแถวสองสามร้อยหรือสองสามพันแถวตามกรณีการใช้งานของคุณ
พล็อตกระจายแสดงความสัมพันธ์ระหว่างตัวแปรเชิงปริมาณสองตัวที่วัดสำหรับบุคคลเดียวกัน ในกรณีของเรา สิ่งสำคัญคือต้องเข้าใจความสัมพันธ์ระหว่างค่าต่างๆ เพื่อตรวจสอบความสัมพันธ์
เนื่องจากเรามีค่าโทร ค่าต่ำสุด และค่าบริการ เราจะพลอตความสัมพันธ์ระหว่างค่าเหล่านั้นสำหรับกลางวัน เย็น และกลางคืน
ก่อนอื่นเรามาสร้าง พล็อตกระจาย ระหว่างการชาร์จระหว่างวันกับวันขั้นต่ำ
เราสามารถสังเกตได้ว่าเมื่อ Day Mins เพิ่มขึ้น Day Charge ก็เพิ่มขึ้นเช่นกัน
เช่นเดียวกับการโทรตอนเย็น
การโทรกลางคืนก็มีรูปแบบเดียวกัน
เนื่องจากนาทีและประจุดูเหมือนจะเพิ่มขึ้นเป็นเส้นตรง คุณจึงสังเกตได้ว่ามีความสัมพันธ์กันสูง การรวมคู่คุณลักษณะเหล่านี้ไว้ในอัลกอริธึม ML บางตัวสามารถใช้พื้นที่จัดเก็บเพิ่มเติมและลดความเร็วของการฝึกได้ และการที่มีข้อมูลที่คล้ายกันในคอลัมน์มากกว่าหนึ่งคอลัมน์อาจทำให้แบบจำลองเน้นย้ำถึงผลกระทบมากเกินไปและนำไปสู่อคติที่ไม่ต้องการในแบบจำลอง มาลบคุณลักษณะหนึ่งรายการออกจากแต่ละคู่ที่มีความสัมพันธ์สูงกัน: Day Charge จากคู่ที่มี Day Mins, Night Charge จากคู่ที่มี Night Mins และ Intl Charge จากคู่ที่มี Intl Mins
ความสมดุลของข้อมูลและความแปรผัน
แผนภูมิแท่งเป็นการพล็อตระหว่างตัวแปรตามหมวดหมู่บนแกน x และตัวแปรตัวเลขบนแกน y เพื่อสำรวจความสัมพันธ์ระหว่างตัวแปรทั้งสอง มาสร้างแผนภูมิแท่งเพื่อดูว่ามีการกระจายการโทรอย่างไรในคอลัมน์เป้าหมายของเรา Churn for True และ False เลือก แผนภูมิแท่ง และลากและวางการโทรในแต่ละวันและหมุนไปที่แกน y และแกน x ตามลำดับ
ตอนนี้ มาสร้างแผนภูมิแท่งเดียวกันสำหรับการโทรในตอนเย็นและระหว่างการโทร
ต่อไป มาสร้างแผนภูมิแท่งสำหรับการโทรตอนกลางคืนกับการโทรออก
ดูเหมือนว่ามีพฤติกรรมที่แตกต่างกันระหว่างลูกค้าที่เลิกใช้แล้วกับลูกค้าที่ไม่ได้เลิกใช้
แผนภาพกล่องมีประโยชน์เพราะแสดงให้เห็นความแตกต่างในพฤติกรรมของข้อมูลตามชั้นเรียน (เลิกหรือไม่เลิก) เนื่องจากเราจะคาดการณ์การปั่นป่วน (คอลัมน์เป้าหมาย) ให้สร้างพล็อตกล่องของคุณลักษณะบางอย่างเทียบกับคอลัมน์เป้าหมายของเราเพื่อสรุปสถิติเชิงพรรณนาในชุดข้อมูล เช่น ค่าเฉลี่ย สูงสุด ค่าต่ำสุด ค่ามัธยฐาน และค่าผิดปกติ
Choose พล็อตกล่อง แล้วลากและวาง Day min และ Churn ไปที่แกน y และ x-axis ตามลำดับ
คุณยังสามารถลองใช้แนวทางเดียวกันกับคอลัมน์อื่นๆ กับคอลัมน์เป้าหมายของเรา (ปั่นป่วน)
ตอนนี้ มาสร้างแผนภาพกล่องของนาทีต่อนาทีกับการโทรติดต่อฝ่ายบริการลูกค้าเพื่อทำความเข้าใจว่าการโทรฝ่ายบริการลูกค้าครอบคลุมมูลค่าขั้นต่ำของวันอย่างไร คุณจะเห็นได้ว่าการโทรติดต่อฝ่ายบริการลูกค้าไม่มีการขึ้นต่อกันหรือสัมพันธ์กับค่านาทีของวัน
จากการสังเกตของเรา เราสามารถระบุได้ว่าชุดข้อมูลนั้นค่อนข้างสมดุล เราต้องการให้ข้อมูลมีการกระจายอย่างเท่าเทียมกันระหว่างค่าจริงและค่าเท็จ เพื่อไม่ให้ตัวแบบมีอคติต่อค่าใดค่าหนึ่ง
การแปลง
จากการสังเกตของเรา เรายกเลิกคอลัมน์ Phone เนื่องจากเป็นเพียงหมายเลขบัญชีและคอลัมน์ Day Charge, Eve Charge, Night Charge เนื่องจากมีข้อมูลที่ทับซ้อนกัน เช่น คอลัมน์ mins แต่เราสามารถเรียกใช้การแสดงตัวอย่างอีกครั้งเพื่อยืนยันได้
หลังจากการวิเคราะห์ข้อมูลและการแปลงแล้ว เรามาดูตัวอย่างแบบจำลองอีกครั้ง
คุณสามารถสังเกตได้ว่าความแม่นยำโดยประมาณของแบบจำลองเปลี่ยนจาก 95.6% เป็น 93.6% (อาจแตกต่างกันไป) อย่างไรก็ตาม ผลกระทบของคอลัมน์ (ความสำคัญของคุณลักษณะ) สำหรับคอลัมน์เฉพาะมีการเปลี่ยนแปลงอย่างมาก ซึ่งช่วยเพิ่มความเร็วของการฝึกตลอดจนอิทธิพลของคอลัมน์ที่มีต่อ การคาดการณ์เมื่อเราก้าวไปสู่ขั้นต่อไปของการสร้างแบบจำลอง ชุดข้อมูลของเราไม่ต้องการการแปลงเพิ่มเติม แต่ถ้าคุณต้องการ คุณสามารถใช้ประโยชน์จาก การแปลงข้อมูล ML เพื่อทำความสะอาด แปลง และเตรียมข้อมูลของคุณสำหรับการสร้างแบบจำลอง
สร้างโมเดล
ตอนนี้คุณสามารถดำเนินการสร้างแบบจำลองและวิเคราะห์ผลลัพธ์ได้ สำหรับข้อมูลเพิ่มเติม โปรดดูที่ ทำนายการเลิกราของลูกค้าด้วยแมชชีนเลิร์นนิงแบบไม่มีโค้ดโดยใช้ Amazon SageMaker Canvas.
ทำความสะอาด
เพื่อไม่ให้เกิดอนาคต ค่าเซสชั่น, ออกจากระบบ ของแคนวาส
สรุป
ในโพสต์นี้ เราแสดงวิธีที่คุณสามารถใช้ความสามารถในการแสดงภาพ Canvas สำหรับ EDA เพื่อทำความเข้าใจข้อมูลของคุณให้ดียิ่งขึ้นก่อนการสร้างแบบจำลอง สร้างแบบจำลอง ML ที่แม่นยำ และสร้างการคาดคะเนโดยใช้อินเทอร์เฟซแบบไม่มีโค้ด ภาพ แบบชี้และคลิก
เกี่ยวกับผู้เขียน
ราชกุมาร สัมพัทกุมาร เป็นผู้จัดการบัญชีด้านเทคนิคหลักที่ AWS ซึ่งให้คำแนะนำแก่ลูกค้าเกี่ยวกับการวางแนวเทคโนโลยีทางธุรกิจและสนับสนุนการคิดค้นรูปแบบและกระบวนการดำเนินการบนระบบคลาวด์ขึ้นใหม่ เขาหลงใหลเกี่ยวกับการเรียนรู้ของระบบคลาวด์และแมชชีนเลิร์นนิง Raj ยังเป็นผู้เชี่ยวชาญด้านแมชชีนเลิร์นนิงและทำงานร่วมกับลูกค้า AWS เพื่อออกแบบ ปรับใช้ และจัดการปริมาณงานและสถาปัตยกรรม AWS
ราหุล นาเบรา เป็นที่ปรึกษาด้านการวิเคราะห์ข้อมูลใน AWS Professional Services งานปัจจุบันของเขามุ่งเน้นที่การทำให้ลูกค้าสร้างข้อมูลและปริมาณงานการเรียนรู้ของเครื่องบน AWS ในเวลาว่าง เขาชอบเล่นคริกเก็ตและวอลเลย์บอล
รวิเทจา เยลามันชีลี เป็น Enterprise Solutions Architect กับ Amazon Web Services ในนิวยอร์ก เขาทำงานร่วมกับลูกค้าองค์กรที่ให้บริการทางการเงินขนาดใหญ่เพื่อออกแบบและปรับใช้แอปพลิเคชันที่มีความปลอดภัยสูง ปรับขนาดได้ เชื่อถือได้ และคุ้มค่าบนคลาวด์ เขานำประสบการณ์ด้านการจัดการความเสี่ยง การให้คำปรึกษาด้านเทคโนโลยี การวิเคราะห์ข้อมูล และการเรียนรู้ของเครื่องมามากกว่า 11 ปี เมื่อเขาไม่ได้ช่วยเหลือลูกค้า เขาชอบการเดินทางและเล่น PS5
- ขั้นสูง (300)
- AI
- ไอ อาร์ต
- เครื่องกำเนิดไออาร์ท
- หุ่นยนต์ไอ
- อเมซอน SageMaker
- ผืนผ้าใบ Amazon SageMaker
- ปัญญาประดิษฐ์
- ใบรับรองปัญญาประดิษฐ์
- ปัญญาประดิษฐ์ในการธนาคาร
- หุ่นยนต์ปัญญาประดิษฐ์
- หุ่นยนต์ปัญญาประดิษฐ์
- ซอฟต์แวร์ปัญญาประดิษฐ์
- AWS Machine Learning AWS
- blockchain
- การประชุม blockchain ai
- เหรียญอัจฉริยะ
- ปัญญาประดิษฐ์สนทนา
- การประชุม crypto ai
- ดัล-อี
- การเรียนรู้ลึก ๆ
- google ai
- เรียนรู้เครื่อง
- เพลโต
- เพลโตไอ
- เพลโตดาต้าอินเทลลิเจนซ์
- เกมเพลโต
- เพลโตดาต้า
- เพลโตเกม
- ขนาดไอ
- วากยสัมพันธ์
- วิธีการทางเทคนิค
- ลมทะเล