ใช้ Amazon SageMaker Canvas สำหรับการวิเคราะห์ข้อมูลเชิงสำรวจ

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

การวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) เป็นงานทั่วไปที่นักวิเคราะห์ธุรกิจดำเนินการเพื่อค้นหารูปแบบ ทำความเข้าใจความสัมพันธ์ ตรวจสอบสมมติฐาน และระบุความผิดปกติในข้อมูล ในแมชชีนเลิร์นนิง (ML) สิ่งสำคัญคือต้องเข้าใจข้อมูลและความสัมพันธ์ก่อนจึงจะเข้าสู่การสร้างแบบจำลอง วัฏจักรการพัฒนา ML แบบเดิมอาจใช้เวลาเป็นเดือนๆ และต้องใช้วิทยาศาสตร์ข้อมูลขั้นสูงและทักษะด้านวิศวกรรม ML ในขณะที่โซลูชัน ML แบบไม่มีโค้ดสามารถช่วยให้บริษัทต่างๆ เร่งการส่งมอบโซลูชัน ML ให้เป็นวันหรือหลายชั่วโมงได้

ผืนผ้าใบ Amazon SageMaker เป็นเครื่องมือ ML แบบไม่มีโค้ดที่ช่วยให้นักวิเคราะห์ธุรกิจสร้างการคาดการณ์ ML ที่แม่นยำโดยไม่ต้องเขียนโค้ดหรือไม่ต้องการประสบการณ์ ML ใดๆ Canvas มีอินเทอร์เฟซแบบภาพที่ใช้งานง่ายในการโหลด ล้างข้อมูล และแปลงชุดข้อมูล ตามด้วยการสร้างแบบจำลอง ML และสร้างการคาดการณ์ที่แม่นยำ

ในโพสต์นี้ เราจะอธิบายวิธีการใช้ EDA เพื่อทำความเข้าใจข้อมูลของคุณให้ดียิ่งขึ้นก่อนสร้างแบบจำลอง ML ของคุณ ด้วยการแสดงภาพขั้นสูงในตัวของ Canvas การแสดงภาพเหล่านี้ช่วยให้คุณวิเคราะห์ความสัมพันธ์ระหว่างคุณลักษณะในชุดข้อมูลของคุณและทำความเข้าใจข้อมูลของคุณได้ดียิ่งขึ้น สิ่งนี้ทำได้โดยสัญชาตญาณด้วยความสามารถในการโต้ตอบกับข้อมูลและค้นพบข้อมูลเชิงลึกที่อาจไม่มีใครสังเกตเห็นด้วยการสืบค้นเฉพาะกิจ สามารถสร้างได้อย่างรวดเร็วผ่าน 'ตัวสร้างภาพข้อมูล' ภายใน Canvas ก่อนสร้างและฝึกอบรมโมเดล ML

ภาพรวมโซลูชัน

การแสดงภาพเหล่านี้ช่วยเพิ่มช่วงความสามารถสำหรับการเตรียมข้อมูลและการสำรวจที่ Canvas นำเสนอแล้ว รวมถึงความสามารถในการแก้ไขค่าที่หายไปและแทนที่ค่าผิดปกติ กรอง เข้าร่วม และแก้ไขชุดข้อมูล และดึงค่าเวลาเฉพาะจากการประทับเวลา หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับวิธีที่ Canvas สามารถช่วยคุณล้าง แปลง และเตรียมชุดข้อมูลของคุณ โปรดดูที่ เตรียมข้อมูลด้วยการแปลงขั้นสูง.

สำหรับกรณีการใช้งานของเรา เราจะพิจารณาว่าทำไมลูกค้าถึงเลิกทำธุรกิจใดๆ และแสดงให้เห็นว่า EDA สามารถช่วยได้อย่างไรจากมุมมองของนักวิเคราะห์ ชุดข้อมูลที่เราใช้ในโพสต์นี้เป็นชุดข้อมูลสังเคราะห์จากผู้ให้บริการโทรศัพท์มือถือโทรคมนาคมสำหรับการทำนายการปั่นของลูกค้าที่คุณสามารถดาวน์โหลดได้ (churn.csv) หรือคุณนำชุดข้อมูลของคุณเองมาทดลองด้วย สำหรับคำแนะนำในการนำเข้าชุดข้อมูลของคุณเอง โปรดดูที่ การนำเข้าข้อมูลใน Amazon SageMaker Canvas.

เบื้องต้น

ทำตามคำแนะนำใน ข้อกำหนดเบื้องต้นสำหรับการตั้งค่า Amazon SageMaker Canvas ก่อนที่คุณจะดำเนินการต่อไป

นำเข้าชุดข้อมูลของคุณไปยัง Canvas

ในการนำเข้าชุดข้อมูลตัวอย่างไปยัง Canvas ให้ทำตามขั้นตอนต่อไปนี้:

เข้าสู่ระบบ Canvas ในฐานะผู้ใช้ทางธุรกิจ.อันดับแรก เราอัปโหลดชุดข้อมูลที่กล่าวถึงก่อนหน้านี้จากคอมพิวเตอร์ในพื้นที่ของเราไปยัง Canvas หากคุณต้องการใช้แหล่งอื่น เช่น อเมซอน Redshift, เอ่ยถึง เชื่อมต่อกับแหล่งข้อมูลภายนอก.
Choose นำเข้า.
Choose อัพโหลดแล้วเลือก เลือกไฟล์จากคอมพิวเตอร์ของคุณ.
เลือกชุดข้อมูลของคุณ (churn.csv) แล้วเลือก นำเข้าข้อมูล.
เลือกชุดข้อมูลและเลือก สร้างแบบจำลอง.
สำหรับ ชื่อรุ่นป้อนชื่อ
Choose สร้างบัญชีตัวแทน.

ทันทีที่คุณเลือกชุดข้อมูล คุณจะเห็นภาพรวมที่สรุปประเภทข้อมูล ค่าที่หายไป ค่าที่ไม่ตรงกัน ค่าที่ไม่ซ้ำ และค่าเฉลี่ยหรือค่าโหมดของคอลัมน์ที่เกี่ยวข้อง
จากมุมมองของ EDA คุณสามารถสังเกตว่าไม่มีค่าที่ขาดหายไปหรือไม่ตรงกันในชุดข้อมูล ในฐานะนักวิเคราะห์ธุรกิจ คุณอาจต้องการรับข้อมูลเชิงลึกเบื้องต้นเกี่ยวกับการสร้างแบบจำลองก่อนที่จะเริ่มการสำรวจข้อมูลเพื่อระบุว่าแบบจำลองจะดำเนินการอย่างไรและปัจจัยใดบ้างที่ส่งผลต่อประสิทธิภาพของแบบจำลอง Canvas ช่วยให้คุณได้รับข้อมูลเชิงลึกจากข้อมูลของคุณก่อนที่คุณจะสร้างแบบจำลองโดยการแสดงตัวอย่างแบบจำลองก่อน
ก่อนที่คุณจะสำรวจข้อมูลใดๆ ให้เลือก ดูตัวอย่างรุ่น.
เลือกคอลัมน์ที่จะทำนาย (ปั่น) ผ้าใบจะตรวจจับโดยอัตโนมัติว่านี่เป็นการคาดคะเนสองประเภท
Choose ดูตัวอย่างรุ่น. SageMaker Canvas ใช้ชุดย่อยของข้อมูลของคุณเพื่อสร้างแบบจำลองอย่างรวดเร็วเพื่อตรวจสอบว่าข้อมูลของคุณพร้อมที่จะสร้างการคาดการณ์ที่แม่นยำหรือไม่ เมื่อใช้โมเดลตัวอย่างนี้ คุณจะเข้าใจความถูกต้องของโมเดลปัจจุบันและผลกระทบที่เกี่ยวข้องของแต่ละคอลัมน์ที่มีต่อการคาดการณ์ได้

ภาพหน้าจอต่อไปนี้แสดงตัวอย่างของเรา

การแสดงตัวอย่างแบบจำลองระบุว่าแบบจำลองคาดการณ์เป้าหมายที่ถูกต้อง (ปั่นป่วน?) 95.6% ของเวลาทั้งหมด คุณยังสามารถดูผลกระทบของคอลัมน์เริ่มต้น (อิทธิพลที่แต่ละคอลัมน์มีต่อคอลัมน์เป้าหมาย) มาทำการสำรวจข้อมูล การแสดงภาพ และการแปลงข้อมูล จากนั้นจึงดำเนินการสร้างแบบจำลอง

การสำรวจข้อมูล

Canvas มีการแสดงภาพข้อมูลพื้นฐานทั่วไปอยู่แล้ว เช่น การกระจายข้อมูลในมุมมองกริดบน สร้าง แท็บ สิ่งเหล่านี้เหมาะสำหรับการรับภาพรวมระดับสูงของข้อมูล ทำความเข้าใจวิธีการกระจายข้อมูล และรับภาพรวมสรุปของชุดข้อมูล

ในฐานะนักวิเคราะห์ธุรกิจ คุณอาจต้องได้รับข้อมูลเชิงลึกระดับสูงเกี่ยวกับวิธีการกระจายข้อมูล รวมถึงวิธีที่การกระจายสะท้อนกับคอลัมน์เป้าหมาย (ปั่นป่วน) เพื่อให้เข้าใจความสัมพันธ์ของข้อมูลได้ง่ายก่อนสร้างแบบจำลอง เลือกได้แล้ว มุมมองกริด เพื่อดูภาพรวมของการกระจายข้อมูล

ใช้ Amazon SageMaker Canvas สำหรับการวิเคราะห์ข้อมูลเชิงสำรวจ PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ภาพหน้าจอต่อไปนี้แสดงภาพรวมของการแจกจ่ายชุดข้อมูล

เราสามารถสังเกตได้ดังต่อไปนี้:

โทรศัพท์ใช้ค่าที่ไม่ซ้ำกันมากเกินไปที่จะนำไปใช้ได้จริง เรารู้ว่าโทรศัพท์เป็นรหัสลูกค้าและไม่ต้องการสร้างแบบจำลองที่อาจพิจารณาลูกค้าเฉพาะราย แต่ควรเรียนรู้ในความหมายทั่วไปว่าอาจนำไปสู่การเลิกรา คุณสามารถลบตัวแปรนี้ได้
คุณสมบัติตัวเลขส่วนใหญ่มีการกระจายอย่างดีตาม a เสียน โค้งระฆัง ใน ML คุณต้องการให้ข้อมูลมีการกระจายตามปกติ เนื่องจากตัวแปรใดๆ ที่แสดงการแจกแจงแบบปกติสามารถคาดการณ์ได้อย่างแม่นยำมากขึ้น

มาดูรายละเอียดการแสดงภาพขั้นสูงใน Canvas กันดีกว่า

การแสดงข้อมูล

ในฐานะนักวิเคราะห์ธุรกิจ คุณต้องการดูว่ามีความสัมพันธ์ระหว่างองค์ประกอบข้อมูลหรือไม่ และสัมพันธ์กับการปั่นป่วนอย่างไร เมื่อใช้ Canvas คุณจะสำรวจและแสดงข้อมูลของคุณเป็นภาพได้ ซึ่งช่วยให้คุณได้รับข้อมูลเชิงลึกขั้นสูงเกี่ยวกับข้อมูลของคุณก่อนสร้างแบบจำลอง ML ของคุณ คุณสามารถแสดงภาพโดยใช้แผนภาพแบบกระจาย แผนภูมิแท่ง และแผนภาพแบบกล่อง ซึ่งสามารถช่วยให้คุณเข้าใจข้อมูลของคุณและค้นพบความสัมพันธ์ระหว่างคุณลักษณะต่างๆ ที่อาจส่งผลต่อความถูกต้องของแบบจำลอง

ในการเริ่มสร้างการแสดงภาพของคุณ ให้ทำตามขั้นตอนต่อไปนี้:

เกี่ยวกับ สร้าง แท็บของแอพ Canvas เลือก โปรแกรมสร้างภาพข้อมูล.

ตัวเร่งหลักของการสร้างภาพข้อมูลใน Canvas คือ โปรแกรมสร้างภาพข้อมูล. มาเปลี่ยนขนาดกลุ่มตัวอย่างเพื่อให้ได้มุมมองที่ดีขึ้น

เลือกจำนวนแถวถัดจาก ตัวอย่างการแสดงภาพ.
ใช้แถบเลื่อนเพื่อเลือกขนาดตัวอย่างที่คุณต้องการ

Choose บันทึก เพื่อยืนยันการเปลี่ยนแปลงขนาดตัวอย่างของคุณ

คุณอาจต้องการเปลี่ยนขนาดตัวอย่างตามชุดข้อมูลของคุณ ในบางกรณี คุณอาจมีแถวสองสามร้อยถึงสองสามพันแถวที่คุณสามารถเลือกชุดข้อมูลทั้งหมดได้ ในบางกรณี คุณอาจมีแถวหลายพันแถว ซึ่งในกรณีนี้ คุณอาจเลือกแถวสองสามร้อยหรือสองสามพันแถวตามกรณีการใช้งานของคุณ

พล็อตกระจายแสดงความสัมพันธ์ระหว่างตัวแปรเชิงปริมาณสองตัวที่วัดสำหรับบุคคลเดียวกัน ในกรณีของเรา สิ่งสำคัญคือต้องเข้าใจความสัมพันธ์ระหว่างค่าต่างๆ เพื่อตรวจสอบความสัมพันธ์

เนื่องจากเรามีค่าโทร ค่าต่ำสุด และค่าบริการ เราจะพลอตความสัมพันธ์ระหว่างค่าเหล่านั้นสำหรับกลางวัน เย็น และกลางคืน

ก่อนอื่นเรามาสร้าง พล็อตกระจาย ระหว่างการชาร์จระหว่างวันกับวันขั้นต่ำ

เราสามารถสังเกตได้ว่าเมื่อ Day Mins เพิ่มขึ้น Day Charge ก็เพิ่มขึ้นเช่นกัน

เช่นเดียวกับการโทรตอนเย็น

การโทรกลางคืนก็มีรูปแบบเดียวกัน

เนื่องจากนาทีและประจุดูเหมือนจะเพิ่มขึ้นเป็นเส้นตรง คุณจึงสังเกตได้ว่ามีความสัมพันธ์กันสูง การรวมคู่คุณลักษณะเหล่านี้ไว้ในอัลกอริธึม ML บางตัวสามารถใช้พื้นที่จัดเก็บเพิ่มเติมและลดความเร็วของการฝึกได้ และการที่มีข้อมูลที่คล้ายกันในคอลัมน์มากกว่าหนึ่งคอลัมน์อาจทำให้แบบจำลองเน้นย้ำถึงผลกระทบมากเกินไปและนำไปสู่อคติที่ไม่ต้องการในแบบจำลอง มาลบคุณลักษณะหนึ่งรายการออกจากแต่ละคู่ที่มีความสัมพันธ์สูงกัน: Day Charge จากคู่ที่มี Day Mins, Night Charge จากคู่ที่มี Night Mins และ Intl Charge จากคู่ที่มี Intl Mins

ความสมดุลของข้อมูลและความแปรผัน

แผนภูมิแท่งเป็นการพล็อตระหว่างตัวแปรตามหมวดหมู่บนแกน x และตัวแปรตัวเลขบนแกน y เพื่อสำรวจความสัมพันธ์ระหว่างตัวแปรทั้งสอง มาสร้างแผนภูมิแท่งเพื่อดูว่ามีการกระจายการโทรอย่างไรในคอลัมน์เป้าหมายของเรา Churn for True และ False เลือก แผนภูมิแท่ง และลากและวางการโทรในแต่ละวันและหมุนไปที่แกน y และแกน x ตามลำดับ

ตอนนี้ มาสร้างแผนภูมิแท่งเดียวกันสำหรับการโทรในตอนเย็นและระหว่างการโทร

ต่อไป มาสร้างแผนภูมิแท่งสำหรับการโทรตอนกลางคืนกับการโทรออก

ดูเหมือนว่ามีพฤติกรรมที่แตกต่างกันระหว่างลูกค้าที่เลิกใช้แล้วกับลูกค้าที่ไม่ได้เลิกใช้

แผนภาพกล่องมีประโยชน์เพราะแสดงให้เห็นความแตกต่างในพฤติกรรมของข้อมูลตามชั้นเรียน (เลิกหรือไม่เลิก) เนื่องจากเราจะคาดการณ์การปั่นป่วน (คอลัมน์เป้าหมาย) ให้สร้างพล็อตกล่องของคุณลักษณะบางอย่างเทียบกับคอลัมน์เป้าหมายของเราเพื่อสรุปสถิติเชิงพรรณนาในชุดข้อมูล เช่น ค่าเฉลี่ย สูงสุด ค่าต่ำสุด ค่ามัธยฐาน และค่าผิดปกติ

Choose พล็อตกล่อง แล้วลากและวาง Day min และ Churn ไปที่แกน y และ x-axis ตามลำดับ

คุณยังสามารถลองใช้แนวทางเดียวกันกับคอลัมน์อื่นๆ กับคอลัมน์เป้าหมายของเรา (ปั่นป่วน)

ตอนนี้ มาสร้างแผนภาพกล่องของนาทีต่อนาทีกับการโทรติดต่อฝ่ายบริการลูกค้าเพื่อทำความเข้าใจว่าการโทรฝ่ายบริการลูกค้าครอบคลุมมูลค่าขั้นต่ำของวันอย่างไร คุณจะเห็นได้ว่าการโทรติดต่อฝ่ายบริการลูกค้าไม่มีการขึ้นต่อกันหรือสัมพันธ์กับค่านาทีของวัน

จากการสังเกตของเรา เราสามารถระบุได้ว่าชุดข้อมูลนั้นค่อนข้างสมดุล เราต้องการให้ข้อมูลมีการกระจายอย่างเท่าเทียมกันระหว่างค่าจริงและค่าเท็จ เพื่อไม่ให้ตัวแบบมีอคติต่อค่าใดค่าหนึ่ง

การแปลง

จากการสังเกตของเรา เรายกเลิกคอลัมน์ Phone เนื่องจากเป็นเพียงหมายเลขบัญชีและคอลัมน์ Day Charge, Eve Charge, Night Charge เนื่องจากมีข้อมูลที่ทับซ้อนกัน เช่น คอลัมน์ mins แต่เราสามารถเรียกใช้การแสดงตัวอย่างอีกครั้งเพื่อยืนยันได้

หลังจากการวิเคราะห์ข้อมูลและการแปลงแล้ว เรามาดูตัวอย่างแบบจำลองอีกครั้ง

คุณสามารถสังเกตได้ว่าความแม่นยำโดยประมาณของแบบจำลองเปลี่ยนจาก 95.6% เป็น 93.6% (อาจแตกต่างกันไป) อย่างไรก็ตาม ผลกระทบของคอลัมน์ (ความสำคัญของคุณลักษณะ) สำหรับคอลัมน์เฉพาะมีการเปลี่ยนแปลงอย่างมาก ซึ่งช่วยเพิ่มความเร็วของการฝึกตลอดจนอิทธิพลของคอลัมน์ที่มีต่อ การคาดการณ์เมื่อเราก้าวไปสู่ขั้นต่อไปของการสร้างแบบจำลอง ชุดข้อมูลของเราไม่ต้องการการแปลงเพิ่มเติม แต่ถ้าคุณต้องการ คุณสามารถใช้ประโยชน์จาก การแปลงข้อมูล ML เพื่อทำความสะอาด แปลง และเตรียมข้อมูลของคุณสำหรับการสร้างแบบจำลอง

สร้างโมเดล

ตอนนี้คุณสามารถดำเนินการสร้างแบบจำลองและวิเคราะห์ผลลัพธ์ได้ สำหรับข้อมูลเพิ่มเติม โปรดดูที่ ทำนายการเลิกราของลูกค้าด้วยแมชชีนเลิร์นนิงแบบไม่มีโค้ดโดยใช้ Amazon SageMaker Canvas.

ทำความสะอาด

เพื่อไม่ให้เกิดอนาคต ค่าเซสชั่น, ออกจากระบบ ของแคนวาส

สรุป

ในโพสต์นี้ เราแสดงวิธีที่คุณสามารถใช้ความสามารถในการแสดงภาพ Canvas สำหรับ EDA เพื่อทำความเข้าใจข้อมูลของคุณให้ดียิ่งขึ้นก่อนการสร้างแบบจำลอง สร้างแบบจำลอง ML ที่แม่นยำ และสร้างการคาดคะเนโดยใช้อินเทอร์เฟซแบบไม่มีโค้ด ภาพ แบบชี้และคลิก

เกี่ยวกับผู้เขียน

ราชกุมาร สัมพัทกุมาร เป็นผู้จัดการบัญชีด้านเทคนิคหลักที่ AWS ซึ่งให้คำแนะนำแก่ลูกค้าเกี่ยวกับการวางแนวเทคโนโลยีทางธุรกิจและสนับสนุนการคิดค้นรูปแบบและกระบวนการดำเนินการบนระบบคลาวด์ขึ้นใหม่ เขาหลงใหลเกี่ยวกับการเรียนรู้ของระบบคลาวด์และแมชชีนเลิร์นนิง Raj ยังเป็นผู้เชี่ยวชาญด้านแมชชีนเลิร์นนิงและทำงานร่วมกับลูกค้า AWS เพื่อออกแบบ ปรับใช้ และจัดการปริมาณงานและสถาปัตยกรรม AWS

ราหุล นาเบรา เป็นที่ปรึกษาด้านการวิเคราะห์ข้อมูลใน AWS Professional Services งานปัจจุบันของเขามุ่งเน้นที่การทำให้ลูกค้าสร้างข้อมูลและปริมาณงานการเรียนรู้ของเครื่องบน AWS ในเวลาว่าง เขาชอบเล่นคริกเก็ตและวอลเลย์บอล

รวิเทจา เยลามันชีลี เป็น Enterprise Solutions Architect กับ Amazon Web Services ในนิวยอร์ก เขาทำงานร่วมกับลูกค้าองค์กรที่ให้บริการทางการเงินขนาดใหญ่เพื่อออกแบบและปรับใช้แอปพลิเคชันที่มีความปลอดภัยสูง ปรับขนาดได้ เชื่อถือได้ และคุ้มค่าบนคลาวด์ เขานำประสบการณ์ด้านการจัดการความเสี่ยง การให้คำปรึกษาด้านเทคโนโลยี การวิเคราะห์ข้อมูล และการเรียนรู้ของเครื่องมามากกว่า 11 ปี เมื่อเขาไม่ได้ช่วยเหลือลูกค้า เขาชอบการเดินทางและเล่น PS5

ประทับเวลา: ตุลาคม 18, 2022ตุลาคม 19, 2022

ประทับเวลา: Mar 1, 2022

ใช้ Amazon SageMaker Canvas สำหรับการวิเคราะห์ข้อมูลเชิงสำรวจ

เผยแพร่ซ้ำโดยเพลโต

ภาพรวมโซลูชัน

เบื้องต้น

นำเข้าชุดข้อมูลของคุณไปยัง Canvas

การสำรวจข้อมูล

การแสดงข้อมูล

ความสมดุลของข้อมูลและความแปรผัน

การแปลง

สร้างโมเดล

ทำความสะอาด

สรุป

เกี่ยวกับผู้เขียน

เพิ่มเติมจาก AWS Machine Learning AWS

การระบุแผนการครอบคลุมการป้องกันใน Next Gen Stats ของ NFL

ปรับปรุงความสามารถในการปรับขนาดสำหรับ API ไร้สถานะของ Amazon Rekognition โดยใช้หลายภูมิภาค

ระบุป่าชายเลนโดยใช้คุณสมบัติภาพถ่ายดาวเทียมโดยใช้ Amazon SageMaker Studio และ Amazon SageMaker Autopilot – ตอนที่ 1

คำแนะนำง่ายๆ ในการฝึกอบรม Llama 2 ด้วย AWS Trainium บน Amazon SageMaker | อเมซอนเว็บเซอร์วิส

การออกแบบฟังก์ชันแบบแยกส่วนสำหรับระบบช่วยเหลือผู้ขับขี่ขั้นสูง (ADAS) บน AWS

การฝึกอบรมแบบกระจายและการปรับขนาดที่มีประสิทธิภาพด้วย Amazon SageMaker Model Parallel และ Data Parallel Libraries อเมซอนเว็บเซอร์วิส

การตรวจจับความผิดปกติด้วย Amazon SageMaker Edge Manager โดยใช้ AWS IoT Greengrass V2

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้