อนุกรมเวลาคือลำดับของจุดข้อมูลที่เกิดขึ้นตามลำดับในช่วงเวลาหนึ่ง เรามักจะวิเคราะห์จุดข้อมูลเหล่านี้เพื่อทำการตัดสินใจทางธุรกิจที่ดีขึ้นหรือได้เปรียบในการแข่งขัน ตัวอย่างคือเพลง Shimamura ที่ใช้ พยากรณ์อเมซอน ไปยัง ปรับปรุงอัตราการขาดแคลนและเพิ่มประสิทธิภาพทางธุรกิจ. อีกตัวอย่างที่ดีคือ Arneg ซึ่งใช้การพยากรณ์เพื่อ คาดการณ์ความต้องการในการบำรุงรักษา.
AWS ให้บริการต่างๆ ที่รองรับข้อมูลอนุกรมเวลาที่มีโค้ดน้อย/ไม่มีโค้ด ซึ่งทั้งผู้ปฏิบัติงานการเรียนรู้ด้วยเครื่อง (ML) และไม่ใช่ ML สามารถใช้สำหรับการสร้างโซลูชัน ML ซึ่งรวมถึงห้องสมุดและบริการต่างๆ เช่น ออโต้กลูออน, ผืนผ้าใบ Amazon SageMaker, Amazon SageMaker ข้อมูล Wrangler, ระบบนำร่องอัตโนมัติของ Amazon SageMakerและ พยากรณ์อเมซอน.
ในโพสต์นี้ เราพยายามแยกชุดข้อมูลอนุกรมเวลาออกเป็นแต่ละกลุ่มที่แสดงระดับความคล้ายคลึงกันระหว่างจุดข้อมูลในระดับที่สูงขึ้นและลดสัญญาณรบกวน จุดประสงค์คือเพื่อปรับปรุงความแม่นยำโดยการฝึกโมเดลส่วนกลางที่มีการกำหนดค่าคลัสเตอร์หรือมีโมเดลโลคัลเฉพาะสำหรับแต่ละคลัสเตอร์
เราสำรวจวิธีการแยกลักษณะหรือที่เรียกว่า คุณสมบัติจากข้อมูลอนุกรมเวลาโดยใช้ ห้องสมุด TSFresh—แพ็คเกจ Python สำหรับการคำนวณลักษณะอนุกรมเวลาจำนวนมาก—และดำเนินการจัดกลุ่มโดยใช้ อัลกอริทึม K-Means ดำเนินการใน ห้องสมุด scikit-learn.
เราใช้ การทำคลัสเตอร์อนุกรมเวลาโดยใช้ TSFresh + KMeans โน๊ตบุ๊คซึ่งมีอยู่ในของเรา repo GitHub. เราขอแนะนำให้เปิดโน้ตบุ๊กนี้ สตูดิโอ Amazon SageMakerสภาพแวดล้อมการพัฒนาแบบบูรณาการบนเว็บ (IDE) สำหรับ ML
ภาพรวมโซลูชัน
การจัดกลุ่มเป็นเทคนิค ML ที่ไม่มีการควบคุมซึ่งจัดกลุ่มรายการเข้าด้วยกันตามเมตริกระยะทาง ระยะทางแบบยุคลิดมักใช้กับชุดข้อมูลที่ไม่เป็นลำดับ อย่างไรก็ตาม เนื่องจากอนุกรมเวลามีลำดับโดยเนื้อแท้ (การประทับเวลา) ระยะทางแบบยุคลิดจึงทำงานได้ไม่ดีเมื่อใช้โดยตรงกับอนุกรมเวลา เนื่องจากไม่แปรผันตามการเปลี่ยนแปลงของเวลา โดยไม่สนใจมิติเวลาของข้อมูล สำหรับคำอธิบายโดยละเอียด โปรดดูที่ การจำแนกอนุกรมเวลาและการจัดกลุ่มด้วย Python. เมตริกระยะทางที่ดีกว่าที่ทำงานโดยตรงกับอนุกรมเวลาคือ Dynamic Time Warping (DTW) สำหรับตัวอย่างการจัดกลุ่มตามเมตริกนี้ โปรดดูที่ ข้อมูลอนุกรมเวลาของคลัสเตอร์สำหรับใช้กับ Amazon Forecast.
ในโพสต์นี้ เราสร้างคุณลักษณะจากชุดข้อมูลอนุกรมเวลาโดยใช้ไลบรารี TSFresh Python สำหรับการดึงข้อมูล ทีเอสเฟรช เป็นไลบรารีที่คำนวณลักษณะอนุกรมเวลาจำนวนมาก ซึ่งรวมถึงส่วนเบี่ยงเบนมาตรฐาน ควอนไทล์ ฟูริเยร์ เอนโทรปี และอื่นๆ ซึ่งช่วยให้เราสามารถลบมิติเวลาของชุดข้อมูลและใช้เทคนิคทั่วไปที่ใช้กับข้อมูลที่มีรูปแบบที่แบนราบได้ นอกจาก TSFresh แล้ว เรายังใช้ เครื่องชั่งน้ำหนักมาตราฐานซึ่งทำให้คุณลักษณะเป็นมาตรฐานโดยการลบค่าเฉลี่ยและปรับขนาดเป็นค่าความแปรปรวนของหน่วย และ การวิเคราะห์องค์ประกอบหลัก (PCA) เพื่อทำการลดขนาด การปรับสเกลช่วยลดระยะห่างระหว่างจุดข้อมูล ซึ่งจะส่งเสริมความเสถียรในกระบวนการฝึกโมเดล และการลดขนาดทำให้โมเดลสามารถเรียนรู้จากคุณสมบัติที่น้อยลง ในขณะที่ยังคงรักษาแนวโน้มและรูปแบบหลักๆ ไว้ได้ จึงทำให้การฝึกมีประสิทธิภาพมากขึ้น
กำลังโหลดข้อมูล
สำหรับตัวอย่างนี้ เราใช้ ชุดข้อมูล UCI Online Retail II และดำเนินการล้างข้อมูลเบื้องต้นและขั้นตอนการเตรียมการตามรายละเอียดใน สมุดบันทึกการล้างข้อมูลและการเตรียมการ.
การแยกคุณสมบัติด้วย TSFresh
เริ่มต้นด้วยการใช้ TSFresh เพื่อแยกคุณสมบัติจากชุดข้อมูลอนุกรมเวลาของเรา:
โปรดทราบว่าข้อมูลของเราได้รับการแปลงจากอนุกรมเวลาเป็นตารางเปรียบเทียบ StockCode
ค่าเทียบกับ Feature values
.
ต่อไป เราทิ้งคุณสมบัติทั้งหมดด้วย n/a
ค่าโดยการใช้ dropna
วิธี:
จากนั้นเราจะปรับขนาดคุณสมบัติโดยใช้ StandardScaler
. ค่าในฟีเจอร์ที่แยกออกมามีทั้งค่าลบและค่าบวก ดังนั้นเราจึงใช้ StandardScaler
แทน MinMaxScaler:
เราใช้ PCA เพื่อลดขนาด:
และเรากำหนดจำนวนส่วนประกอบที่เหมาะสมที่สุดสำหรับ PCA:
อัตราส่วนความแปรปรวนที่อธิบายคือเปอร์เซ็นต์ของความแปรปรวนที่เกิดจากแต่ละองค์ประกอบที่เลือก โดยปกติแล้ว คุณจะกำหนดจำนวนของส่วนประกอบที่จะรวมไว้ในโมเดลของคุณโดยการเพิ่มอัตราส่วนความแปรปรวนที่อธิบายไว้ของแต่ละส่วนประกอบไปเรื่อยๆ จนกว่าจะถึง 0.8–0.9 เพื่อหลีกเลี่ยงไม่ให้เกินพอดี ค่าที่เหมาะสมมักเกิดขึ้นที่ข้อศอก
ดังที่แสดงในแผนภูมิต่อไปนี้ ค่าข้องอจะอยู่ที่ประมาณ 100 ดังนั้นเราจึงใช้ 100 เป็นจำนวนส่วนประกอบสำหรับ PCA
การรวมกลุ่มด้วย K-Means
ตอนนี้เราจะใช้ K-Means กับเมตริกระยะทางแบบยุคลิดสำหรับการจัดกลุ่ม ในข้อมูลโค้ดต่อไปนี้ เราจะกำหนดจำนวนคลัสเตอร์ที่เหมาะสมที่สุด การเพิ่มคลัสเตอร์มากขึ้นจะลดค่าความเฉื่อย แต่ยังลดข้อมูลที่มีอยู่ในแต่ละคลัสเตอร์ด้วย นอกจากนี้ คลัสเตอร์ที่มากขึ้นหมายถึงโมเดลท้องถิ่นที่ต้องบำรุงรักษามากขึ้น ดังนั้นเราจึงต้องการมีขนาดคลัสเตอร์ขนาดเล็กที่มีค่าความเฉื่อยค่อนข้างต่ำ ฮิวริสติกแบบข้อศอกทำงานได้ดีในการหาจำนวนคลัสเตอร์ที่เหมาะสมที่สุด
แผนภูมิต่อไปนี้แสดงภาพสิ่งที่เราค้นพบ
จากแผนภูมินี้ เราได้ตัดสินใจใช้สองกลุ่มสำหรับ K-Means เราทำการตัดสินใจนี้เนื่องจากผลรวมกำลังสองภายในคลัสเตอร์ (WCSS) ลดลงในอัตราสูงสุดระหว่างหนึ่งถึงสองคลัสเตอร์ สิ่งสำคัญคือต้องรักษาสมดุลระหว่างความง่ายในการบำรุงรักษากับประสิทธิภาพของโมเดลและความซับซ้อน เพราะแม้ว่า WCSS จะลดลงอย่างต่อเนื่องเมื่อมีคลัสเตอร์มากขึ้น แต่คลัสเตอร์เพิ่มเติมก็เพิ่มความเสี่ยงของการโอเวอร์ฟิตติ้ง นอกจากนี้ การเปลี่ยนแปลงเล็กน้อยในชุดข้อมูลสามารถลดความแม่นยำโดยไม่คาดคิด
สิ่งสำคัญคือต้องทราบว่าทั้งวิธีการจัดกลุ่ม, ค่าเฉลี่ย K กับระยะทางแบบยุคลิด (กล่าวถึงในโพสต์นี้) และ อัลกอริทึม K-mean กับ DTWมีจุดแข็งและจุดอ่อนของพวกเขา แนวทางที่ดีที่สุดขึ้นอยู่กับลักษณะของข้อมูลและวิธีการคาดการณ์ที่คุณใช้ ดังนั้น เราขอแนะนำให้ทดลองใช้ทั้งสองแนวทางและเปรียบเทียบประสิทธิภาพเพื่อให้เข้าใจข้อมูลของคุณแบบองค์รวมมากขึ้น
สรุป
ในโพสต์นี้ เราได้กล่าวถึงเทคนิคที่มีประสิทธิภาพในการแยกคุณลักษณะและการจัดกลุ่มสำหรับข้อมูลอนุกรมเวลา โดยเฉพาะอย่างยิ่ง เราได้แสดงวิธีใช้ TSFresh ซึ่งเป็นไลบรารี Python ยอดนิยมสำหรับการแยกฟีเจอร์ เพื่อประมวลผลข้อมูลอนุกรมเวลาของคุณล่วงหน้าและรับฟีเจอร์ที่มีความหมาย
เมื่อขั้นตอนการทำคลัสเตอร์เสร็จสิ้น คุณสามารถฝึกแบบจำลองการคาดการณ์หลายรายการสำหรับแต่ละคลัสเตอร์ หรือใช้การกำหนดค่าคลัสเตอร์เป็นคุณลักษณะ อ้างถึง คู่มือนักพัฒนา Amazon Forecast สำหรับข้อมูลเกี่ยวกับ การส่งผ่านข้อมูล, การฝึกอบรมการทำนายและ สร้างการคาดการณ์. หากคุณมีข้อมูลเมตาของรายการและข้อมูลอนุกรมเวลาที่เกี่ยวข้อง คุณยังสามารถรวมข้อมูลเหล่านี้เป็นชุดข้อมูลอินพุตสำหรับการฝึกอบรมในการพยากรณ์ สำหรับข้อมูลเพิ่มเติม โปรดดูที่ เริ่มต้นการเดินทางที่ประสบความสำเร็จของคุณด้วยการคาดการณ์อนุกรมเวลาด้วย Amazon Forecast.
อ้างอิง
เกี่ยวกับผู้เขียน
Alexander Patrushev เป็นสถาปนิก AI/ML Specialist Solutions Architect ที่ AWS ซึ่งตั้งอยู่ในลักเซมเบิร์ก เขาหลงใหลเกี่ยวกับระบบคลาวด์และแมชชีนเลิร์นนิง และวิธีที่พวกเขาสามารถเปลี่ยนแปลงโลกได้ นอกเวลางาน เขาชอบเดินป่า เล่นกีฬา และใช้เวลาอยู่กับครอบครัว
ชอง เอน ลิม เป็นสถาปนิกโซลูชันที่ AWS เขามักจะค้นหาวิธีที่จะช่วยให้ลูกค้าคิดค้นและปรับปรุงเวิร์กโฟลว์ของพวกเขา ในเวลาว่าง เขาชอบดูอนิเมะและฟังเพลง
เอกอร์ มิอาสนิคอฟ เป็น Solutions Architect ที่ AWS ในประเทศเยอรมนี เขาหลงใหลเกี่ยวกับการเปลี่ยนแปลงทางดิจิทัลของชีวิต ธุรกิจ และโลกของเรา เช่นเดียวกับบทบาทของปัญญาประดิษฐ์ในการเปลี่ยนแปลงนี้ นอกเวลางาน เขาชอบอ่านหนังสือแนวผจญภัย เดินป่า และใช้เวลากับครอบครัว
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- เพลโตบล็อคเชน Web3 Metaverse ข่าวกรอง ขยายความรู้. เข้าถึงได้ที่นี่.
- ที่มา: https://aws.amazon.com/blogs/machine-learning/boost-your-forecast-accuracy-with-time-series-clustering/
- :เป็น
- 1
- 10
- 100
- 7
- 8
- 9
- a
- เกี่ยวกับเรา
- ความถูกต้อง
- นอกจากนี้
- เพิ่มเติม
- นอกจากนี้
- ข้อได้เปรียบ
- การผจญภัย
- AI / ML
- ขั้นตอนวิธี
- ทั้งหมด
- ช่วยให้
- แม้ว่า
- เสมอ
- อเมซอน
- ในหมู่
- วิเคราะห์
- และ
- อะนิเมะ
- อื่น
- ใช้
- เข้าใกล้
- วิธีการ
- ประมาณ
- เป็น
- เทียม
- ปัญญาประดิษฐ์
- AS
- At
- ใช้ได้
- AWS
- ยอดคงเหลือ
- ตาม
- ขั้นพื้นฐาน
- เพราะ
- ที่ดีที่สุด
- ดีกว่า
- ระหว่าง
- ร้านหนังสือเกาหลี
- เพิ่ม
- การก่อสร้าง
- ธุรกิจ
- ธุรกิจ
- by
- คำนวณ
- ที่เรียกว่า
- CAN
- เปลี่ยนแปลง
- ลักษณะ
- แผนภูมิ
- การจัดหมวดหมู่
- การทำความสะอาด
- เมฆ
- Cluster
- การจัดกลุ่ม
- รหัส
- ร่วมกัน
- อย่างธรรมดา
- เปรียบเทียบ
- การแข่งขัน
- สมบูรณ์
- ความซับซ้อน
- ส่วนประกอบ
- ส่วนประกอบ
- การคำนวณ
- องค์ประกอบ
- มี
- อย่างต่อเนื่อง
- แปลง
- ได้
- ลูกค้า
- ข้อมูล
- จุดข้อมูล
- ชุดข้อมูล
- ตัดสินใจ
- การตัดสินใจ
- การตัดสินใจ
- ลดลง
- องศา
- ขึ้นอยู่กับ
- รายละเอียด
- กำหนด
- ผู้พัฒนา
- พัฒนาการ
- การเบี่ยงเบน
- ดิจิตอล
- แปลงดิจิตอล
- Dimension
- โดยตรง
- กล่าวถึง
- ระยะทาง
- ไม่
- หล่น
- พลวัต
- แต่ละ
- ที่มีประสิทธิภาพ
- ทั้ง
- การเปิดใช้งาน
- สิ่งแวดล้อม
- ตัวอย่าง
- แสดง
- อธิบาย
- คำอธิบาย
- สำรวจ
- สำรวจ
- สารสกัด
- ครอบครัว
- ลักษณะ
- คุณสมบัติ
- หา
- ดังต่อไปนี้
- สำหรับ
- พยากรณ์
- ฟรี
- ราคาเริ่มต้นที่
- นอกจากนี้
- ได้รับ
- สร้าง
- ประเทศเยอรมัน
- เหตุการณ์ที่
- gluon
- ยิ่งใหญ่
- กลุ่ม
- มี
- ช่วย
- สูงกว่า
- ที่สูงที่สุด
- อย่างสูง
- แบบองค์รวม
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- อย่างไรก็ตาม
- HTML
- ที่ http
- HTTPS
- i
- การดำเนินการ
- นำเข้า
- สำคัญ
- ปรับปรุง
- in
- ประกอบด้วย
- รวมถึง
- เพิ่ม
- เป็นรายบุคคล
- ความเฉื่อย
- ข้อมูล
- เราสร้างสรรค์สิ่งใหม่ ๆ
- อินพุต
- แทน
- แบบบูรณาการ
- Intelligence
- IT
- รายการ
- ITS
- ตัวเอง
- การเดินทาง
- ใหญ่
- เรียนรู้
- การเรียนรู้
- ห้องสมุด
- ห้องสมุด
- กดไลก์
- การฟัง
- ชีวิต
- ในประเทศ
- ต่ำ
- ลักเซมเบิร์ก
- เครื่อง
- เรียนรู้เครื่อง
- ทำ
- เก็บรักษา
- การบำรุงรักษา
- สำคัญ
- ทำ
- มีความหมาย
- วิธี
- เมตาดาต้า
- วิธี
- วิธีการ
- เมตริก
- ML
- แบบ
- โมเดล
- ข้อมูลเพิ่มเติม
- มีประสิทธิภาพมากขึ้น
- มากที่สุด
- หลาย
- ดนตรี
- ธรรมชาติ
- เชิงลบ
- สัญญาณรบกวน
- สมุดบันทึก
- จำนวน
- ได้รับ
- of
- on
- ONE
- ออนไลน์
- ดีที่สุด
- ใบสั่ง
- ผลิตภัณฑ์อื่นๆ
- ด้านนอก
- แพ็คเกจ
- หลงใหล
- รูปแบบ
- เปอร์เซ็นต์
- ดำเนินการ
- การปฏิบัติ
- ระยะเวลา
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- จุด
- ยอดนิยม
- บวก
- โพสต์
- ที่มีประสิทธิภาพ
- กระบวนการ
- ส่งเสริม
- ให้
- วัตถุประสงค์
- หลาม
- คะแนน
- ราคา
- อัตราส่วน
- มาถึง
- การอ่าน
- แนะนำ
- ลด
- ลด
- ที่เกี่ยวข้อง
- สัมพัทธ์
- เอาออก
- ลบ
- ค้าปลีก
- การรักษา
- ความเสี่ยง
- บทบาท
- วิ่ง
- sagemaker
- ขนาด
- ปรับ
- แสวงหา
- เลือก
- แยก
- ลำดับ
- ชุด
- บริการ
- กะ
- ความขาดแคลน
- แสดง
- ขนาด
- เล็ก
- โซลูชัน
- บาง
- ผู้เชี่ยวชาญ
- โดยเฉพาะ
- เฉพาะ
- การใช้จ่าย
- กีฬา
- สี่เหลี่ยม
- Stability
- มาตรฐาน
- เริ่มต้น
- ขั้นตอน
- ขั้นตอน
- จุดแข็ง
- ที่ประสบความสำเร็จ
- ตาราง
- เทคนิค
- ที่
- พื้นที่
- ข้อมูล
- โลก
- ของพวกเขา
- ดังนั้น
- ดังนั้น
- ล้อยางขัดเหล่านี้ติดตั้งบนแกน XNUMX (มม.) ผลิตภัณฑ์นี้ถูกผลิตในหลายรูปทรง และหลากหลายเบอร์ความแน่นหนาของปริมาณอนุภาคขัดของมัน จะทำให้ท่านได้รับประสิทธิภาพสูงในการขัดและการใช้งานที่ยาวนาน
- เวลา
- อนุกรมเวลา
- การประทับเวลา
- ไปยัง
- ร่วมกัน
- รถไฟ
- การฝึกอบรม
- การแปลง
- แนวโน้ม
- กลับ
- เป็นปกติ
- ความเข้าใจ
- หน่วย
- us
- ใช้
- มักจะ
- การใช้ประโยชน์
- ความคุ้มค่า
- ความคุ้มค่า
- ต่างๆ
- vs
- ชม
- ทาง..
- วิธี
- web-based
- ดี
- ที่
- ในขณะที่
- WHO
- กับ
- งาน
- ขั้นตอนการทำงาน
- โรงงาน
- โลก
- คุณ
- ของคุณ
- ลมทะเล