ในโพสต์นี้ เราจะแนะนำเทคนิคการสุ่มตัวอย่างสองแบบใน Amazon SageMaker ข้อมูล Wrangler เพื่อให้คุณสามารถสร้างเวิร์กโฟลว์การประมวลผลสำหรับข้อมูลของคุณได้อย่างรวดเร็ว เราครอบคลุมทั้งเทคนิคการสุ่มตัวอย่างและเทคนิคการสุ่มตัวอย่างแบบแบ่งชั้นเพื่อช่วยคุณสุ่มตัวอย่างข้อมูลตามความต้องการเฉพาะของคุณ
Data Wrangler ช่วยลดเวลาในการรวบรวมและเตรียมข้อมูลสำหรับการเรียนรู้ของเครื่อง (ML) จากสัปดาห์เหลือเป็นนาที คุณสามารถลดความซับซ้อนของกระบวนการเตรียมข้อมูลและวิศวกรรมคุณลักษณะ และดำเนินการแต่ละขั้นตอนของเวิร์กโฟลว์การเตรียมข้อมูล ซึ่งรวมถึงการเลือกข้อมูล การล้างข้อมูล การสำรวจ และการแสดงภาพ จากอินเทอร์เฟซภาพเดียว ด้วยเครื่องมือการเลือกข้อมูลของ Data Wrangler คุณสามารถเลือกข้อมูลที่คุณต้องการจากแหล่งข้อมูลต่างๆ และนำเข้าได้ด้วยคลิกเดียว Data Wrangler มีการแปลงข้อมูลในตัวมากกว่า 300 แบบ คุณจึงสามารถทำให้เป็นมาตรฐาน แปลง และรวมคุณลักษณะต่างๆ ได้อย่างรวดเร็วโดยไม่ต้องเขียนโค้ดใดๆ ด้วยเทมเพลตการแสดงภาพของ Data Wrangler คุณสามารถดูตัวอย่างและตรวจสอบได้อย่างรวดเร็วว่าการแปลงเหล่านี้เสร็จสมบูรณ์ตามที่คุณตั้งใจไว้โดยการดูใน สตูดิโอ Amazon SageMaker, สภาพแวดล้อมการพัฒนาแบบครบวงจร (IDE) ตัวแรกสำหรับ ML หลังจากที่เตรียมข้อมูลของคุณแล้ว คุณสามารถสร้างเวิร์กโฟลว์ ML แบบอัตโนมัติทั้งหมดด้วย ท่อส่ง Amazon SageMaker และเก็บไว้ใช้ซ้ำใน Amazon SageMaker ฟีเจอร์สโตร์.
การสุ่มตัวอย่างคืออะไรและจะช่วยได้อย่างไร
ในการวิเคราะห์ทางสถิติ ชุดการสังเกตทั้งหมดเรียกว่า ประชากร. เมื่อทำงานกับข้อมูล มักจะไม่มีความเป็นไปได้ในการคำนวณที่จะวัดทุกการสังเกตจากประชากร การสุ่มตัวอย่างทางสถิติ เป็นขั้นตอนที่ช่วยให้คุณเข้าใจข้อมูลของคุณโดยการเลือกชุดย่อยจากประชากร
การสุ่มตัวอย่างนำเสนอโซลูชันที่ใช้งานได้จริงซึ่งเสียสละความแม่นยำบางส่วนเพื่อประโยชน์ในการใช้งานจริงและความสะดวก เพื่อให้แน่ใจว่ากลุ่มตัวอย่างของคุณเป็นตัวแทนที่ดีของประชากรโดยรวม คุณสามารถใช้กลยุทธ์การสุ่มตัวอย่างได้ Data Wrangler รองรับสองกลยุทธ์ที่พบบ่อยที่สุด: การสุ่มตัวอย่าง และ การสุ่มตัวอย่างแบบแบ่งชั้น.
การสุ่มตัวอย่าง
หากคุณมีชุดข้อมูลขนาดใหญ่ การทดลองกับชุดข้อมูลนั้นอาจใช้เวลานาน Data Wrangler มีการสุ่มตัวอย่างเพื่อให้คุณสามารถประมวลผลและแสดงข้อมูลของคุณได้อย่างมีประสิทธิภาพ ตัวอย่างเช่น คุณอาจต้องการคำนวณจำนวนการซื้อโดยเฉลี่ยสำหรับลูกค้าภายในกรอบเวลาหนึ่ง หรือคุณอาจต้องการคำนวณอัตราการออกจากบัญชีของสมาชิก คุณสามารถใช้ตัวอย่างแบบสุ่มเพื่อแสดงภาพการประมาณค่าเมตริกเหล่านี้
ตัวอย่างสุ่มจากชุดข้อมูลของคุณจะถูกเลือกเพื่อให้แต่ละองค์ประกอบมีความน่าจะเป็นที่จะถูกเลือกเท่ากัน การดำเนินการนี้ดำเนินการในลักษณะที่มีประสิทธิภาพซึ่งเหมาะสมกับชุดข้อมูลขนาดใหญ่ ดังนั้นขนาดตัวอย่างที่ส่งคืนจะเท่ากับขนาดที่ร้องขอโดยประมาณ และไม่จำเป็นต้องเท่ากับขนาดที่ร้องขอ
คุณสามารถใช้การสุ่มตัวอย่างหากต้องการทำการคำนวณโดยประมาณอย่างรวดเร็วเพื่อทำความเข้าใจชุดข้อมูลของคุณ เมื่อขนาดกลุ่มตัวอย่างมีขนาดใหญ่ขึ้น กลุ่มตัวอย่างแบบสุ่มสามารถประมาณชุดข้อมูลทั้งหมดได้ดีกว่า แต่ถ้าคุณไม่รวมจุดข้อมูลทั้งหมด ตัวอย่างสุ่มของคุณอาจไม่รวมค่าผิดปกติและกรณีขอบทั้งหมด หากคุณต้องการเตรียมชุดข้อมูลทั้งหมดแบบโต้ตอบ คุณสามารถเปลี่ยนไปใช้ประเภทอินสแตนซ์ที่ใหญ่ขึ้นได้
ตามกฎทั่วไป ข้อผิดพลาดในการสุ่มตัวอย่างในการคำนวณค่าเฉลี่ยประชากรโดยใช้กลุ่มตัวอย่างแบบสุ่มมีแนวโน้มที่ 0 เมื่อกลุ่มตัวอย่างมีขนาดใหญ่ขึ้น เมื่อขนาดกลุ่มตัวอย่างเพิ่มขึ้น ข้อผิดพลาดจะลดลงเมื่อค่าผกผันของสแควร์รูทของขนาดกลุ่มตัวอย่าง การนำกลับบ้าน ยิ่งกลุ่มตัวอย่างมาก การประมาณการก็จะยิ่งดีขึ้น
การสุ่มตัวอย่างแบบแบ่งชั้น
ในบางกรณี ประชากรของคุณสามารถแบ่งออกเป็นชั้นหรือกลุ่มที่ไม่เกิดร่วมกัน เช่น ที่ตั้งทางภูมิศาสตร์สำหรับที่อยู่ ปีที่พิมพ์เพลง หรือวงเล็บภาษีสำหรับรายได้ การสุ่มตัวอย่างแบบสุ่มเป็นเทคนิคการสุ่มตัวอย่างที่ได้รับความนิยมมากที่สุด แต่ถ้าชั้นบางกลุ่มมีความผิดปกติในประชากรของคุณ คุณสามารถใช้การสุ่มตัวอย่างแบบแบ่งชั้นใน Data Wrangler เพื่อให้แน่ใจว่าแต่ละชั้นจะแสดงตามสัดส่วนในกลุ่มตัวอย่างของคุณ ซึ่งอาจเป็นประโยชน์ในการลดข้อผิดพลาดในการสุ่มตัวอย่าง และเพื่อให้แน่ใจว่าคุณกำลังจับภาพกรณีขอบระหว่างการทดสอบของคุณ
ในโลกแห่งความเป็นจริง ธุรกรรมบัตรเครดิตที่เป็นการฉ้อโกงเป็นเหตุการณ์ที่เกิดขึ้นได้ยาก และโดยทั่วไปแล้วจะประกอบด้วยข้อมูลของคุณน้อยกว่า 1% ถ้าเราสุ่มตัวอย่าง ไม่ใช่เรื่องแปลกที่กลุ่มตัวอย่างจะมีธุรกรรมฉ้อโกงน้อยมากหรือไม่มีเลย ด้วยเหตุนี้ เมื่อฝึกแบบจำลอง เราจะมีตัวอย่างที่เป็นการฉ้อโกงน้อยเกินไปที่จะเรียนรู้แบบจำลองที่แม่นยำ เราสามารถใช้การสุ่มตัวอย่างแบบแบ่งชั้นเพื่อให้แน่ใจว่าเรามีการแสดงธุรกรรมฉ้อโกงตามสัดส่วน
ในการสุ่มตัวอย่างแบบแบ่งชั้น ขนาดของแต่ละชั้นในกลุ่มตัวอย่างจะเป็นสัดส่วนกับขนาดของชั้นในประชากร วิธีนี้ใช้ได้ผลโดยการแบ่งข้อมูลของคุณออกเป็นชั้นตามคอลัมน์ที่ระบุ เลือกตัวอย่างสุ่มจากแต่ละชั้นที่มีสัดส่วนที่ถูกต้อง และรวมตัวอย่างเหล่านั้นเข้าเป็นกลุ่มตัวอย่างแบบแบ่งชั้นของประชากร
การสุ่มตัวอย่างแบบแบ่งชั้นเป็นเทคนิคที่มีประโยชน์เมื่อคุณต้องการทำความเข้าใจว่ากลุ่มต่างๆ ในข้อมูลของคุณเปรียบเทียบกันอย่างไร และคุณต้องการให้แน่ใจว่าคุณมีการนำเสนอที่เหมาะสมจากแต่ละกลุ่ม
การสุ่มตัวอย่างเมื่อนำเข้าจาก Amazon S3
ในส่วนนี้ เราใช้การสุ่มตัวอย่างกับชุดข้อมูลที่ประกอบด้วยเหตุการณ์ที่เป็นการฉ้อโกงและไม่ใช่การฉ้อโกงจากระบบตรวจจับการฉ้อโกงของเรา คุณสามารถ ดาวน์โหลด ชุดข้อมูลที่จะตามมาด้วยโพสต์นี้ (CC 4.0 ใบอนุญาตแสดงที่มาระหว่างประเทศ).
ในขณะที่เขียนนี้ คุณสามารถนำเข้าชุดข้อมูลจาก บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน เอส3) อเมซอน อาเธน่า, อเมซอน Redshiftและเกล็ดหิมะ ชุดข้อมูลของเรามีขนาดใหญ่มาก มี 1 ล้านแถว ในกรณีนี้ เราต้องการสุ่มตัวอย่าง 1,0000 แถวในการนำเข้าจาก Amazon S3 สำหรับการทดลองเชิงโต้ตอบภายใน Data Wrangler
- เปิด SageMaker Studio และสร้างโฟลว์ Data Wrangler ใหม่
- ภายใต้ นำเข้าข้อมูลเลือก Amazon S3.
- เลือกชุดข้อมูลที่จะนำเข้า
- ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร รายละเอียด ให้ระบุชื่อชุดข้อมูลและประเภทไฟล์ของคุณ
- สำหรับ การสุ่มตัวอย่างเลือก สุ่ม.
- สำหรับ ขนาดตัวอย่างป้อน
10000
. - Choose นำเข้า เพื่อโหลดชุดข้อมูลลงใน Data Wrangler
คุณสามารถเห็นภาพสองขั้นตอนที่แตกต่างกันบนหน้าโฟลว์ข้อมูลใน Data Wrangler ขั้นตอนแรกระบุการโหลดชุดข้อมูลตัวอย่างตามกลยุทธ์การสุ่มตัวอย่างที่คุณกำหนด หลังจากที่โหลดข้อมูลแล้ว Data Wrangler จะทำการตรวจจับประเภทข้อมูลสำหรับแต่ละคอลัมน์ในชุดข้อมูลโดยอัตโนมัติ ขั้นตอนนี้จะเพิ่มโดยค่าเริ่มต้นสำหรับชุดข้อมูลทั้งหมด
ตอนนี้คุณสามารถตรวจสอบข้อมูลสุ่มตัวอย่างใน Data Wrangler โดยเพิ่มการวิเคราะห์
- เลือกเครื่องหมายบวกถัดจาก ประเภทข้อมูล และเลือก การวิเคราะห์.
- สำหรับ ประเภทการวิเคราะห์¸ เลือก พล็อตกระจาย.
- Choose ความสำเร็จ_1 และ ความสำเร็จ_2 ส่วน แกน X และ แกน Yตามลำดับ
- สำหรับ สีโดยเลือก is_fraud.
เมื่อคุณพอใจกับชุดข้อมูลแล้ว ให้ดำเนินการแปลงข้อมูลเพิ่มเติมตามความต้องการทางธุรกิจของคุณเพื่อเตรียมข้อมูลของคุณสำหรับ ML
ในภาพหน้าจอต่อไปนี้ เราสามารถสังเกตธุรกรรมที่เป็นการฉ้อโกง (สีน้ำเงินเข้ม) และไม่เป็นการฉ้อโกง (สีน้ำเงินอ่อน) ในการวิเคราะห์ของเรา
ในหัวข้อถัดไป เราจะหารือเกี่ยวกับการใช้การสุ่มตัวอย่างแบบแบ่งชั้นเพื่อให้แน่ใจว่ากรณีการฉ้อโกงได้รับการคัดเลือกตามสัดส่วน
การสุ่มตัวอย่างแบบแบ่งชั้นด้วยการแปลง
Data Wrangler ให้คุณสุ่มตัวอย่างในการนำเข้า รวมถึงการสุ่มตัวอย่างผ่านการแปลง ในส่วนนี้ เราจะพูดถึงการใช้การสุ่มตัวอย่างแบบแบ่งชั้นผ่านการแปลงหลังจากที่คุณนำเข้าชุดข้อมูลของคุณไปยัง Data Wrangler แล้ว
- เพื่อเริ่มการสุ่มตัวอย่าง บน การไหลของข้อมูล แท็บ เลือกเครื่องหมายบวกถัดจากชุดข้อมูลที่นำเข้าแล้วเลือก เพิ่มการแปลง.
ในขณะที่เขียนนี้ Data Wrangler ให้มากกว่า 300 การแปลงในตัว. นอกเหนือจากการแปลงในตัวแล้ว คุณยังสามารถเขียนการแปลงแบบกำหนดเองของคุณใน Pandas หรือ PySpark
ตอนนี้คุณสามารถใช้กลยุทธ์สุ่มตัวอย่างที่แตกต่างกันสามแบบ: จำกัด สุ่ม และแบ่งชั้น
- สำหรับ วิธีการเก็บตัวอย่างเลือก แบ่งชั้น.
- ใช้
is_fraud
คอลัมน์เป็นคอลัมน์แบ่งชั้น - Choose ดูตัวอย่าง เพื่อดูตัวอย่างการแปลง จากนั้นเลือก เพิ่ม เพื่อเพิ่มการเปลี่ยนแปลงนี้เป็นขั้นตอนในสูตรการแปลงของคุณ
กระแสข้อมูลของคุณสะท้อนถึงขั้นตอนการสุ่มตัวอย่างที่เพิ่มเข้ามา
ตอนนี้ เราสามารถตรวจทานข้อมูลสุ่มตัวอย่างโดยเพิ่มการวิเคราะห์
- เลือกเครื่องหมายบวกแล้วเลือก การวิเคราะห์.
- สำหรับ ประเภทการวิเคราะห์¸ เลือก Histogram.
- Choose is_fraud สำหรับทั้ง แกน X และ สีโดย.
- Choose ดูตัวอย่าง.
ในภาพหน้าจอต่อไปนี้ เราสามารถสังเกตรายละเอียดของคดีฉ้อโกง (สีน้ำเงินเข้ม) และไม่ใช่การฉ้อโกง (สีน้ำเงินอ่อน) ที่เลือกผ่านการสุ่มตัวอย่างแบบแบ่งชั้นในสัดส่วนที่ถูกต้องของการฉ้อโกง 20% และไม่มีการฉ้อโกง 80%
สรุป
จำเป็นต้องสุ่มตัวอย่างข้อมูลอย่างถูกต้องเมื่อทำงานกับชุดข้อมูลขนาดใหญ่มาก และเลือกกลยุทธ์การสุ่มตัวอย่างที่เหมาะสมเพื่อตอบสนองความต้องการทางธุรกิจของคุณ ประสิทธิผลของการสุ่มตัวอย่างของคุณขึ้นอยู่กับปัจจัยต่างๆ รวมถึงผลลัพธ์ทางธุรกิจ ความพร้อมใช้งานของข้อมูล และการกระจาย ในโพสต์นี้ เราได้กล่าวถึงวิธีใช้ Data Wrangler และกลยุทธ์การสุ่มตัวอย่างในตัวเพื่อเตรียมข้อมูลของคุณ
คุณสามารถเริ่มใช้ความสามารถนี้ได้แล้ววันนี้ในทุกภูมิภาคที่ SageMaker Studio พร้อมให้บริการ ในการเริ่มต้น โปรดไปที่ เตรียมข้อมูล ML ด้วย Amazon SageMaker Data Wrangler.
กิตติกรรมประกาศ
ผู้เขียนขอขอบคุณ Jonathan Chung (นักวิทยาศาสตร์ประยุกต์) สำหรับการทบทวนและข้อเสนอแนะอันมีค่าเกี่ยวกับบทความนี้
เกี่ยวกับผู้เขียน
เบนแฮร์ริส เป็นวิศวกรซอฟต์แวร์ที่มีประสบการณ์ในการออกแบบ ปรับใช้ และบำรุงรักษาไปป์ไลน์ข้อมูลที่ปรับขนาดได้และโซลูชันการเรียนรู้ของเครื่องในโดเมนต่างๆ
วิชาล กาปูร์ เป็นนักวิทยาศาสตร์ประยุกต์อาวุโสที่มี AWS AI เขาหลงใหลในการช่วยให้ลูกค้าเข้าใจข้อมูลของพวกเขาใน Data Wrangler ในเวลาว่าง เขาปั่นจักรยานเสือภูเขา เล่นสโนว์บอร์ด และใช้เวลาอยู่กับครอบครัว
มีนคชีสันดาราม ทันดาวารายัน เป็นผู้เชี่ยวชาญด้าน AI/ML อาวุโสของ AWS เขาช่วยบัญชีเชิงกลยุทธ์ไฮเทคในการเดินทาง AI และ ML เขาหลงใหลเกี่ยวกับ AI ที่ขับเคลื่อนด้วยข้อมูลเป็นอย่างมาก
อาจาย ชาร์มา เป็น Principal Product Manager สำหรับ Amazon SageMaker ซึ่งเขาเน้นที่ Data Wrangler ซึ่งเป็นเครื่องมือการเตรียมข้อมูลด้วยภาพสำหรับนักวิทยาศาสตร์ด้านข้อมูล ก่อนหน้าร่วมงานกับ AWS Ajai เป็นผู้เชี่ยวชาญด้าน Data Science Expert ที่ McKinsey and Company ซึ่งเขาเป็นผู้นำการนัดหมายที่เน้น ML ให้กับบริษัทการเงินและประกันภัยชั้นนำทั่วโลก Ajai หลงใหลเกี่ยวกับวิทยาศาสตร์ข้อมูลและชอบที่จะสำรวจอัลกอริธึมล่าสุดและเทคนิคการเรียนรู้ของเครื่อง
- "
- 100
- เกี่ยวกับเรา
- ถูกต้อง
- ข้าม
- นอกจากนี้
- ที่อยู่
- AI
- อัลกอริทึม
- ทั้งหมด
- อเมซอน
- การวิเคราะห์
- เหมาะสม
- ประมาณ
- บทความ
- ผู้เขียน
- รถยนต์
- อัตโนมัติ
- ความพร้อมใช้งาน
- ใช้ได้
- เฉลี่ย
- AWS
- กำลัง
- สร้าง
- built-in
- ธุรกิจ
- กรณี
- Choose
- รหัส
- คอลัมน์
- ร่วมกัน
- บริษัท
- คำนวณ
- การคำนวณ
- มี
- สร้าง
- เครดิต
- บัตรเครดิต
- ประเพณี
- ลูกค้า
- ลูกค้า
- ข้อมูล
- วิทยาศาสตร์ข้อมูล
- ปรับใช้
- การออกแบบ
- การตรวจพบ
- พัฒนาการ
- ต่าง
- สนทนา
- การกระจาย
- โดเมน
- ขอบ
- ประสิทธิผล
- ที่มีประสิทธิภาพ
- อย่างมีประสิทธิภาพ
- วิศวกร
- ชั้นเยี่ยม
- เข้าสู่
- สิ่งแวดล้อม
- จำเป็น
- เหตุการณ์
- ตัวอย่าง
- พิเศษ
- ประสบการณ์
- การสำรวจ
- สำรวจ
- ปัจจัย
- ครอบครัว
- ลักษณะ
- คุณสมบัติ
- ข้อเสนอแนะ
- เงินทุน
- ชื่อจริง
- ไหล
- มุ่งเน้นไปที่
- ปฏิบัติตาม
- ดังต่อไปนี้
- FRAME
- การหลอกลวง
- ต่อไป
- General
- ดี
- บัญชีกลุ่ม
- มี
- ช่วย
- การช่วยเหลือ
- จะช่วยให้
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- HTTPS
- การนำเข้า
- ประกอบด้วย
- รวมทั้ง
- ประกัน
- แบบบูรณาการ
- การโต้ตอบ
- อินเตอร์เฟซ
- International
- IT
- ที่รู้จักกัน
- ใหญ่
- ที่มีขนาดใหญ่
- ล่าสุด
- ชั้นนำ
- เรียนรู้
- การเรียนรู้
- นำ
- เบา
- รายการ
- โหลด
- ที่ตั้ง
- เครื่อง
- เรียนรู้เครื่อง
- ผู้จัดการ
- ลักษณะ
- วัด
- ตัวชี้วัด
- ล้าน
- ML
- แบบ
- ข้อมูลเพิ่มเติม
- มากที่สุด
- เป็นที่นิยม
- จำเป็นต้อง
- จำนวน
- เสนอ
- การดำเนินการ
- อื่นๆ
- ทั้งหมด
- ของตนเอง
- หลงใหล
- จุด
- ยอดนิยม
- ประชากร
- เตรียมการ
- ดูตัวอย่าง
- หลัก
- กระบวนการ
- การประมวลผล
- ผลิตภัณฑ์
- ให้
- ให้
- การซื้อสินค้า
- รวดเร็ว
- อย่างรวดเร็ว
- โลกแห่งความจริง
- ลด
- การแสดง
- ความต้องการ
- ทบทวน
- ที่ปรับขนาดได้
- วิทยาศาสตร์
- นักวิทยาศาสตร์
- นักวิทยาศาสตร์
- เลือก
- ชุด
- ง่าย
- ขนาด
- So
- ซอฟต์แวร์
- วิศวกรซอฟต์แวร์
- ทางออก
- โซลูชัน
- บาง
- ผู้เชี่ยวชาญ
- สี่เหลี่ยม
- เริ่มต้น
- ข้อความที่เริ่ม
- ทางสถิติ
- การเก็บรักษา
- ยุทธศาสตร์
- กลยุทธ์
- กลยุทธ์
- สตูดิโอ
- รองรับ
- สวิตซ์
- ระบบ
- ภาษี
- เทคนิค
- แม่แบบ
- ตลอด
- เวลา
- ต้องใช้เวลามาก
- ในวันนี้
- เครื่องมือ
- การฝึกอบรม
- การทำธุรกรรม
- แปลง
- การแปลง
- เป็นปกติ
- เข้าใจ
- ใช้
- ความหลากหลาย
- ต่างๆ
- การสร้างภาพ
- ภายใน
- ไม่มี
- การทำงาน
- โรงงาน
- โลก
- ทั่วโลก
- จะ
- การเขียน
- ปี