เพิ่มความแม่นยำในการพยากรณ์ของคุณด้วยการจัดกลุ่มอนุกรมเวลา

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

อนุกรมเวลาคือลำดับของจุดข้อมูลที่เกิดขึ้นตามลำดับในช่วงเวลาหนึ่ง เรามักจะวิเคราะห์จุดข้อมูลเหล่านี้เพื่อทำการตัดสินใจทางธุรกิจที่ดีขึ้นหรือได้เปรียบในการแข่งขัน ตัวอย่างคือเพลง Shimamura ที่ใช้ พยากรณ์อเมซอน ไปยัง ปรับปรุงอัตราการขาดแคลนและเพิ่มประสิทธิภาพทางธุรกิจ. อีกตัวอย่างที่ดีคือ Arneg ซึ่งใช้การพยากรณ์เพื่อ คาดการณ์ความต้องการในการบำรุงรักษา.

AWS ให้บริการต่างๆ ที่รองรับข้อมูลอนุกรมเวลาที่มีโค้ดน้อย/ไม่มีโค้ด ซึ่งทั้งผู้ปฏิบัติงานการเรียนรู้ด้วยเครื่อง (ML) และไม่ใช่ ML สามารถใช้สำหรับการสร้างโซลูชัน ML ซึ่งรวมถึงห้องสมุดและบริการต่างๆ เช่น ออโต้กลูออน, ผืนผ้าใบ Amazon SageMaker, Amazon SageMaker ข้อมูล Wrangler, ระบบนำร่องอัตโนมัติของ Amazon SageMakerและ พยากรณ์อเมซอน.

ในโพสต์นี้ เราพยายามแยกชุดข้อมูลอนุกรมเวลาออกเป็นแต่ละกลุ่มที่แสดงระดับความคล้ายคลึงกันระหว่างจุดข้อมูลในระดับที่สูงขึ้นและลดสัญญาณรบกวน จุดประสงค์คือเพื่อปรับปรุงความแม่นยำโดยการฝึกโมเดลส่วนกลางที่มีการกำหนดค่าคลัสเตอร์หรือมีโมเดลโลคัลเฉพาะสำหรับแต่ละคลัสเตอร์

เราสำรวจวิธีการแยกลักษณะหรือที่เรียกว่า คุณสมบัติจากข้อมูลอนุกรมเวลาโดยใช้ ห้องสมุด TSFresh—แพ็คเกจ Python สำหรับการคำนวณลักษณะอนุกรมเวลาจำนวนมาก—และดำเนินการจัดกลุ่มโดยใช้ อัลกอริทึม K-Means ดำเนินการใน ห้องสมุด scikit-learn.

เราใช้ การทำคลัสเตอร์อนุกรมเวลาโดยใช้ TSFresh + KMeans โน๊ตบุ๊คซึ่งมีอยู่ในของเรา repo GitHub. เราขอแนะนำให้เปิดโน้ตบุ๊กนี้ สตูดิโอ Amazon SageMakerสภาพแวดล้อมการพัฒนาแบบบูรณาการบนเว็บ (IDE) สำหรับ ML

ภาพรวมโซลูชัน

การจัดกลุ่มเป็นเทคนิค ML ที่ไม่มีการควบคุมซึ่งจัดกลุ่มรายการเข้าด้วยกันตามเมตริกระยะทาง ระยะทางแบบยุคลิดมักใช้กับชุดข้อมูลที่ไม่เป็นลำดับ อย่างไรก็ตาม เนื่องจากอนุกรมเวลามีลำดับโดยเนื้อแท้ (การประทับเวลา) ระยะทางแบบยุคลิดจึงทำงานได้ไม่ดีเมื่อใช้โดยตรงกับอนุกรมเวลา เนื่องจากไม่แปรผันตามการเปลี่ยนแปลงของเวลา โดยไม่สนใจมิติเวลาของข้อมูล สำหรับคำอธิบายโดยละเอียด โปรดดูที่ การจำแนกอนุกรมเวลาและการจัดกลุ่มด้วย Python. เมตริกระยะทางที่ดีกว่าที่ทำงานโดยตรงกับอนุกรมเวลาคือ Dynamic Time Warping (DTW) สำหรับตัวอย่างการจัดกลุ่มตามเมตริกนี้ โปรดดูที่ ข้อมูลอนุกรมเวลาของคลัสเตอร์สำหรับใช้กับ Amazon Forecast.

ในโพสต์นี้ เราสร้างคุณลักษณะจากชุดข้อมูลอนุกรมเวลาโดยใช้ไลบรารี TSFresh Python สำหรับการดึงข้อมูล ทีเอสเฟรช เป็นไลบรารีที่คำนวณลักษณะอนุกรมเวลาจำนวนมาก ซึ่งรวมถึงส่วนเบี่ยงเบนมาตรฐาน ควอนไทล์ ฟูริเยร์ เอนโทรปี และอื่นๆ ซึ่งช่วยให้เราสามารถลบมิติเวลาของชุดข้อมูลและใช้เทคนิคทั่วไปที่ใช้กับข้อมูลที่มีรูปแบบที่แบนราบได้ นอกจาก TSFresh แล้ว เรายังใช้ เครื่องชั่งน้ำหนักมาตราฐานซึ่งทำให้คุณลักษณะเป็นมาตรฐานโดยการลบค่าเฉลี่ยและปรับขนาดเป็นค่าความแปรปรวนของหน่วย และ การวิเคราะห์องค์ประกอบหลัก (PCA) เพื่อทำการลดขนาด การปรับสเกลช่วยลดระยะห่างระหว่างจุดข้อมูล ซึ่งจะส่งเสริมความเสถียรในกระบวนการฝึกโมเดล และการลดขนาดทำให้โมเดลสามารถเรียนรู้จากคุณสมบัติที่น้อยลง ในขณะที่ยังคงรักษาแนวโน้มและรูปแบบหลักๆ ไว้ได้ จึงทำให้การฝึกมีประสิทธิภาพมากขึ้น

กำลังโหลดข้อมูล

สำหรับตัวอย่างนี้ เราใช้ ชุดข้อมูล UCI Online Retail II และดำเนินการล้างข้อมูลเบื้องต้นและขั้นตอนการเตรียมการตามรายละเอียดใน สมุดบันทึกการล้างข้อมูลและการเตรียมการ.

การแยกคุณสมบัติด้วย TSFresh

เริ่มต้นด้วยการใช้ TSFresh เพื่อแยกคุณสมบัติจากชุดข้อมูลอนุกรมเวลาของเรา:

from tsfresh import extract_features
extracted_features = extract_features( df_final, column_id="StockCode", column_sort="timestamp")

โปรดทราบว่าข้อมูลของเราได้รับการแปลงจากอนุกรมเวลาเป็นตารางเปรียบเทียบ StockCode ค่าเทียบกับ Feature values.

ตารางคุณลักษณะ

ต่อไป เราทิ้งคุณสมบัติทั้งหมดด้วย n/a ค่าโดยการใช้ dropna วิธี:

extracted_features_cleaned=extracted_features
extracted_features_cleaned=extracted_features_cleaned.dropna(axis=1)

จากนั้นเราจะปรับขนาดคุณสมบัติโดยใช้ StandardScaler. ค่าในฟีเจอร์ที่แยกออกมามีทั้งค่าลบและค่าบวก ดังนั้นเราจึงใช้ StandardScaler แทน MinMaxScaler:

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
extracted_features_cleaned_std = scaler.fit_transform(extracted_features_cleaned)

เราใช้ PCA เพื่อลดขนาด:

from sklearn.decomposition import PCA
pca = PCA()
pca.fit(extracted_features_cleaned_std)

และเรากำหนดจำนวนส่วนประกอบที่เหมาะสมที่สุดสำหรับ PCA:

plt.figure(figsize=(20,10))
plt.grid()
plt.plot(np.cumsum(pca.explained_variance_ratio_))
plt.xlabel('number of components')
plt.ylabel('cumulative explained variance')

อัตราส่วนความแปรปรวนที่อธิบายคือเปอร์เซ็นต์ของความแปรปรวนที่เกิดจากแต่ละองค์ประกอบที่เลือก โดยปกติแล้ว คุณจะกำหนดจำนวนของส่วนประกอบที่จะรวมไว้ในโมเดลของคุณโดยการเพิ่มอัตราส่วนความแปรปรวนที่อธิบายไว้ของแต่ละส่วนประกอบไปเรื่อยๆ จนกว่าจะถึง 0.8–0.9 เพื่อหลีกเลี่ยงไม่ให้เกินพอดี ค่าที่เหมาะสมมักเกิดขึ้นที่ข้อศอก

ดังที่แสดงในแผนภูมิต่อไปนี้ ค่าข้องอจะอยู่ที่ประมาณ 100 ดังนั้นเราจึงใช้ 100 เป็นจำนวนส่วนประกอบสำหรับ PCA

PCA

การรวมกลุ่มด้วย K-Means

ตอนนี้เราจะใช้ K-Means กับเมตริกระยะทางแบบยุคลิดสำหรับการจัดกลุ่ม ในข้อมูลโค้ดต่อไปนี้ เราจะกำหนดจำนวนคลัสเตอร์ที่เหมาะสมที่สุด การเพิ่มคลัสเตอร์มากขึ้นจะลดค่าความเฉื่อย แต่ยังลดข้อมูลที่มีอยู่ในแต่ละคลัสเตอร์ด้วย นอกจากนี้ คลัสเตอร์ที่มากขึ้นหมายถึงโมเดลท้องถิ่นที่ต้องบำรุงรักษามากขึ้น ดังนั้นเราจึงต้องการมีขนาดคลัสเตอร์ขนาดเล็กที่มีค่าความเฉื่อยค่อนข้างต่ำ ฮิวริสติกแบบข้อศอกทำงานได้ดีในการหาจำนวนคลัสเตอร์ที่เหมาะสมที่สุด

from sklearn.cluster import KMeans
wcss = []
for i in range(1,10): km = KMeans(n_clusters=i) km.fit(scores_pca) wcss.append(km.inertia_)
plt.figure(figsize=(20,10))
plt.grid()
plt.plot(range(1,10),wcss,marker='o',linestyle='--')
plt.xlabel('number of clusters')
plt.ylabel('WCSSS')

แผนภูมิต่อไปนี้แสดงภาพสิ่งที่เราค้นพบ

ข้อศอก

จากแผนภูมินี้ เราได้ตัดสินใจใช้สองกลุ่มสำหรับ K-Means เราทำการตัดสินใจนี้เนื่องจากผลรวมกำลังสองภายในคลัสเตอร์ (WCSS) ลดลงในอัตราสูงสุดระหว่างหนึ่งถึงสองคลัสเตอร์ สิ่งสำคัญคือต้องรักษาสมดุลระหว่างความง่ายในการบำรุงรักษากับประสิทธิภาพของโมเดลและความซับซ้อน เพราะแม้ว่า WCSS จะลดลงอย่างต่อเนื่องเมื่อมีคลัสเตอร์มากขึ้น แต่คลัสเตอร์เพิ่มเติมก็เพิ่มความเสี่ยงของการโอเวอร์ฟิตติ้ง นอกจากนี้ การเปลี่ยนแปลงเล็กน้อยในชุดข้อมูลสามารถลดความแม่นยำโดยไม่คาดคิด

สิ่งสำคัญคือต้องทราบว่าทั้งวิธีการจัดกลุ่ม, ค่าเฉลี่ย K กับระยะทางแบบยุคลิด (กล่าวถึงในโพสต์นี้) และ อัลกอริทึม K-mean กับ DTWมีจุดแข็งและจุดอ่อนของพวกเขา แนวทางที่ดีที่สุดขึ้นอยู่กับลักษณะของข้อมูลและวิธีการคาดการณ์ที่คุณใช้ ดังนั้น เราขอแนะนำให้ทดลองใช้ทั้งสองแนวทางและเปรียบเทียบประสิทธิภาพเพื่อให้เข้าใจข้อมูลของคุณแบบองค์รวมมากขึ้น

สรุป

ในโพสต์นี้ เราได้กล่าวถึงเทคนิคที่มีประสิทธิภาพในการแยกคุณลักษณะและการจัดกลุ่มสำหรับข้อมูลอนุกรมเวลา โดยเฉพาะอย่างยิ่ง เราได้แสดงวิธีใช้ TSFresh ซึ่งเป็นไลบรารี Python ยอดนิยมสำหรับการแยกฟีเจอร์ เพื่อประมวลผลข้อมูลอนุกรมเวลาของคุณล่วงหน้าและรับฟีเจอร์ที่มีความหมาย

เมื่อขั้นตอนการทำคลัสเตอร์เสร็จสิ้น คุณสามารถฝึกแบบจำลองการคาดการณ์หลายรายการสำหรับแต่ละคลัสเตอร์ หรือใช้การกำหนดค่าคลัสเตอร์เป็นคุณลักษณะ อ้างถึง คู่มือนักพัฒนา Amazon Forecast สำหรับข้อมูลเกี่ยวกับ การส่งผ่านข้อมูล, การฝึกอบรมการทำนายและ สร้างการคาดการณ์. หากคุณมีข้อมูลเมตาของรายการและข้อมูลอนุกรมเวลาที่เกี่ยวข้อง คุณยังสามารถรวมข้อมูลเหล่านี้เป็นชุดข้อมูลอินพุตสำหรับการฝึกอบรมในการพยากรณ์ สำหรับข้อมูลเพิ่มเติม โปรดดูที่ เริ่มต้นการเดินทางที่ประสบความสำเร็จของคุณด้วยการคาดการณ์อนุกรมเวลาด้วย Amazon Forecast.

อ้างอิง

เกี่ยวกับผู้เขียน

Alexander Patrushev เป็นสถาปนิก AI/ML Specialist Solutions Architect ที่ AWS ซึ่งตั้งอยู่ในลักเซมเบิร์ก เขาหลงใหลเกี่ยวกับระบบคลาวด์และแมชชีนเลิร์นนิง และวิธีที่พวกเขาสามารถเปลี่ยนแปลงโลกได้ นอกเวลางาน เขาชอบเดินป่า เล่นกีฬา และใช้เวลาอยู่กับครอบครัว

ชอง เอน ลิม เป็นสถาปนิกโซลูชันที่ AWS เขามักจะค้นหาวิธีที่จะช่วยให้ลูกค้าคิดค้นและปรับปรุงเวิร์กโฟลว์ของพวกเขา ในเวลาว่าง เขาชอบดูอนิเมะและฟังเพลง

เอกอร์ มิอาสนิคอฟ เป็น Solutions Architect ที่ AWS ในประเทศเยอรมนี เขาหลงใหลเกี่ยวกับการเปลี่ยนแปลงทางดิจิทัลของชีวิต ธุรกิจ และโลกของเรา เช่นเดียวกับบทบาทของปัญญาประดิษฐ์ในการเปลี่ยนแปลงนี้ นอกเวลางาน เขาชอบอ่านหนังสือแนวผจญภัย เดินป่า และใช้เวลากับครอบครัว

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
เพลโตบล็อคเชน Web3 Metaverse ข่าวกรอง ขยายความรู้. เข้าถึงได้ที่นี่.
ที่มา: https://aws.amazon.com/blogs/machine-learning/boost-your-forecast-accuracy-with-time-series-clustering/

ประทับเวลา: April 4, 2023

ประทับเวลา: ม.ค. 31, 2024

เผยแพร่ซ้ำโดยเพลโต

สร้างเวิร์กโฟลว์แมชชีนเลิร์นนิงสำหรับการจัดการความเสี่ยงบน Amazon SageMaker โดยไม่ต้องใช้โค้ด

ลดต้นทุนและเวลาในการพัฒนาด้วยโหมดในพื้นที่ของ Amazon SageMaker Pipelines

ยกระดับผู้ช่วยบริการตนเองของคุณด้วยคุณสมบัติ AI เจนเนอเรชั่นใหม่ใน Amazon Lex | อเมซอนเว็บเซอร์วิส

จัดทำดัชนีเนื้อหา Dropbox ของคุณโดยใช้ตัวเชื่อมต่อ Dropbox สำหรับ Amazon Kendra

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้