دقت پیش‌بینی خود را با خوشه‌بندی سری‌های زمانی افزایش دهید

بازنشر افلاطون

دنبال: 0

سری‌های زمانی دنباله‌ای از نقاط داده هستند که به ترتیب متوالی در یک دوره زمانی رخ می‌دهند. ما اغلب این نقاط داده را برای اتخاذ تصمیمات تجاری بهتر یا به دست آوردن مزیت های رقابتی تجزیه و تحلیل می کنیم. یک مثال Shimamura Music است که استفاده کرد پیش بینی آمازون به بهبود نرخ کمبود و افزایش کارایی کسب و کار. مثال عالی دیگر Arneg است که از Forecast استفاده کرد پیش بینی نیازهای تعمیر و نگهداری.

AWS خدمات مختلفی را برای داده‌های سری زمانی ارائه می‌دهد که دارای کد کم/بدون کد هستند، که هم متخصصان یادگیری ماشین (ML) و هم متخصصان غیرML می‌توانند برای ساخت راه‌حل‌های ML از آن‌ها استفاده کنند. این شامل کتابخانه ها و خدماتی مانند AutoGluon, آمازون SageMaker Canvas, Amazon SageMaker Data Rangler, Amazon SageMaker Autopilotو پیش بینی آمازون.

در این پست، ما به دنبال جداسازی مجموعه‌ای از مجموعه‌های زمانی در خوشه‌های مجزا هستیم که شباهت بیشتری را بین نقاط داده آن نشان می‌دهند و نویز را کاهش می‌دهند. هدف این است که دقت را با آموزش یک مدل جهانی که شامل پیکربندی خوشه است یا مدل های محلی خاص برای هر خوشه، بهبود بخشد.

ما چگونگی استخراج ویژگی‌ها را بررسی می‌کنیم که به آن‌ها نیز گفته می‌شود امکانات، از داده های سری زمانی با استفاده از کتابخانه TSFresh- یک بسته پایتون برای محاسبه تعداد زیادی از ویژگی های سری زمانی - و انجام خوشه بندی با استفاده از الگوریتم K-Means اجرا شده در کتابخانه اسکیتی-یادگیری.

استفاده می کنیم خوشه بندی سری های زمانی با استفاده از TSFresh + KMeans نوت بوک، که در ما موجود است GitHub repo. توصیه می کنیم این نوت بوک را روی آن اجرا کنید Amazon SageMaker Studio، یک محیط توسعه یکپارچه مبتنی بر وب (IDE) برای ML.

بررسی اجمالی راه حل

خوشه بندی یک تکنیک ML بدون نظارت است که موارد را بر اساس متریک فاصله گروه بندی می کند. فاصله اقلیدسی بیشتر برای مجموعه داده های غیر ترتیبی استفاده می شود. با این حال، از آنجا که یک سری زمانی ذاتا دارای یک دنباله (مهر زمانی) است، فاصله اقلیدسی زمانی که مستقیماً در سری‌های زمانی استفاده می‌شود، به خوبی کار نمی‌کند، زیرا نسبت به شیفت‌های زمانی ثابت است و بعد زمانی داده‌ها را نادیده می‌گیرد. برای توضیح بیشتر به ادامه مطلب مراجعه کنید طبقه بندی و خوشه بندی سری های زمانی با پایتون. یک متریک فاصله بهتر که مستقیماً روی سری‌های زمانی کار می‌کند، تاب‌خوردگی زمانی پویا (DTW) است. برای نمونه ای از خوشه بندی بر اساس این متریک، به داده های سری زمانی خوشه ای برای استفاده با آمازون Forecast.

در این پست، ما ویژگی هایی را از مجموعه داده سری زمانی با استفاده از کتابخانه TSFresh Python برای استخراج داده ها ایجاد می کنیم. TSFresh کتابخانه ای است که تعداد زیادی از ویژگی های سری زمانی را محاسبه می کند که شامل انحراف معیار، چندک و آنتروپی فوریه و غیره می شود. این به ما امکان می‌دهد ابعاد زمانی مجموعه داده را حذف کنیم و تکنیک‌های رایجی را که برای داده‌ها با فرمت‌های مسطح کار می‌کنند، اعمال کنیم. علاوه بر TSFresh، ما نیز استفاده می کنیم StandardScaler، که ویژگی ها را با حذف میانگین و مقیاس بندی به واریانس واحد استاندارد می کند و تجزیه و تحلیل مؤلفه اصلی (PCA) برای انجام کاهش ابعاد. مقیاس بندی فاصله بین نقاط داده را کاهش می دهد، که به نوبه خود ثبات در فرآیند آموزش مدل را افزایش می دهد، و کاهش ابعاد به مدل اجازه می دهد تا از ویژگی های کمتری یاد بگیرد و در عین حال روندها و الگوهای اصلی را حفظ کند، در نتیجه آموزش کارآمدتر را ممکن می سازد.

بارگیری داده

برای این مثال از مجموعه داده UCI Online Retail II و مراحل اولیه پاکسازی و آماده سازی داده ها را همانطور که در قسمت توضیح داده شده است انجام دهید نوت بوک پاکسازی و آماده سازی داده ها.

استخراج ویژگی با TSFresh

بیایید با استفاده از TSFresh برای استخراج ویژگی ها از مجموعه داده سری زمانی خود شروع کنیم:

from tsfresh import extract_features
extracted_features = extract_features( df_final, column_id="StockCode", column_sort="timestamp")

توجه داشته باشید که داده های ما از یک سری زمانی به یک جدول مقایسه شده است StockCode ارزش ها در مقابل Feature values.

جدول ویژگی

در مرحله بعد، همه ویژگی ها را با حذف می کنیم n/a با استفاده از dropna روش:

extracted_features_cleaned=extracted_features
extracted_features_cleaned=extracted_features_cleaned.dropna(axis=1)

سپس با استفاده از ویژگی ها مقیاس می کنیم StandardScaler. مقادیر موجود در ویژگی های استخراج شده از دو مقدار منفی و مثبت تشکیل شده است. بنابراین، استفاده می کنیم StandardScaler بجای MinMaxScaler:

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
extracted_features_cleaned_std = scaler.fit_transform(extracted_features_cleaned)

ما از PCA برای کاهش ابعاد استفاده می کنیم:

from sklearn.decomposition import PCA
pca = PCA()
pca.fit(extracted_features_cleaned_std)

و تعداد بهینه اجزا را برای PCA تعیین می کنیم:

plt.figure(figsize=(20,10))
plt.grid()
plt.plot(np.cumsum(pca.explained_variance_ratio_))
plt.xlabel('number of components')
plt.ylabel('cumulative explained variance')

نسبت واریانس توضیح داده شده درصد واریانس نسبت داده شده به هر یک از مؤلفه های انتخاب شده است. معمولاً، تعداد مؤلفه‌هایی را که باید در مدل خود گنجانده شوند، با اضافه کردن تجمعی نسبت واریانس توضیح داده شده هر مؤلفه تا رسیدن به 0.8-0.9 تعیین می‌کنید تا از برازش بیش از حد جلوگیری شود. مقدار بهینه معمولاً در آرنج رخ می دهد.

همانطور که در نمودار زیر نشان داده شده است، مقدار elbow تقریباً 100 است. بنابراین، ما از 100 به عنوان تعداد اجزای PCA استفاده می کنیم.

PCA

خوشه بندی با K-Means

حال بیایید از K-Means با متریک فاصله اقلیدسی برای خوشه بندی استفاده کنیم. در قطعه کد زیر تعداد بهینه خوشه ها را تعیین می کنیم. افزودن خوشه های بیشتر مقدار اینرسی را کاهش می دهد، اما اطلاعات موجود در هر خوشه را نیز کاهش می دهد. علاوه بر این، خوشه‌های بیشتر به معنای نگهداری مدل‌های محلی بیشتر است. بنابراین، ما می خواهیم یک اندازه خوشه کوچک با مقدار اینرسی نسبتا کم داشته باشیم. اکتشافی آرنج برای یافتن تعداد بهینه خوشه ها به خوبی کار می کند.

from sklearn.cluster import KMeans
wcss = []
for i in range(1,10): km = KMeans(n_clusters=i) km.fit(scores_pca) wcss.append(km.inertia_)
plt.figure(figsize=(20,10))
plt.grid()
plt.plot(range(1,10),wcss,marker='o',linestyle='--')
plt.xlabel('number of clusters')
plt.ylabel('WCSSS')

نمودار زیر یافته های ما را به تصویر می کشد.

زانو

بر اساس این نمودار تصمیم گرفتیم از دو خوشه برای K-Means استفاده کنیم. ما این تصمیم را گرفتیم زیرا مجموع مربع های درون خوشه ای (WCSS) با بالاترین نرخ بین یک و دو خوشه کاهش می یابد. مهم است که سهولت نگهداری را با عملکرد و پیچیدگی مدل متعادل کنید، زیرا اگرچه WCSS با تعداد بیشتر خوشه ها به کاهش ادامه می دهد، خوشه های اضافی خطر بیش از حد برازش را افزایش می دهند. علاوه بر این، تغییرات جزئی در مجموعه داده می تواند به طور غیرمنتظره ای دقت را کاهش دهد.

توجه به این نکته مهم است که هر دو روش خوشه بندی، K-Means با فاصله اقلیدسی (در این پست بحث شده است) و الگوریتم K-means با DTW، نقاط قوت و ضعف خود را دارند. بهترین رویکرد به ماهیت داده های شما و روش های پیش بینی که استفاده می کنید بستگی دارد. بنابراین، ما به شدت توصیه می‌کنیم که هر دو روش را آزمایش کنید و عملکرد آنها را مقایسه کنید تا درک جامع‌تری از داده‌های خود به دست آورید.

نتیجه

در این پست، تکنیک‌های قدرتمند استخراج ویژگی و خوشه‌بندی برای داده‌های سری زمانی را مورد بحث قرار دادیم. به طور خاص، ما نشان دادیم که چگونه از TSFresh، یک کتابخانه محبوب پایتون برای استخراج ویژگی، برای پیش پردازش داده های سری زمانی خود و به دست آوردن ویژگی های معنی دار استفاده کنید.

هنگامی که مرحله خوشه بندی کامل شد، می توانید چندین مدل Forecast را برای هر خوشه آموزش دهید یا از پیکربندی خوشه به عنوان یک ویژگی استفاده کنید. رجوع به راهنمای توسعه دهنده پیش بینی آمازون برای اطلاعات در مورد بلع داده, آموزش پیش بینیو ایجاد پیش بینی. اگر متاداده مورد و داده‌های سری زمانی مرتبط دارید، می‌توانید آن‌ها را نیز به عنوان مجموعه داده‌های ورودی برای آموزش در Forecast قرار دهید. برای اطلاعات بیشتر مراجعه کنید سفر موفق خود را با پیش بینی سری های زمانی با آمازون پیش بینی آغاز کنید.

منابع

درباره نویسنده

الکساندر پاتروشف معمار راه حل های تخصصی AI/ML در AWS مستقر در لوکزامبورگ است. او علاقه زیادی به یادگیری ابری و ماشینی و روشی که آنها می توانند دنیا را تغییر دهند، است. او در خارج از محل کار از پیاده روی، ورزش و گذراندن وقت با خانواده لذت می برد.

چونگ ان لیم یک معمار راه حل در AWS است. او همیشه در حال بررسی راه‌هایی برای کمک به مشتریان برای نوآوری و بهبود جریان کاری خود است. در اوقات فراغتش عاشق تماشای انیمه و گوش دادن به موسیقی است.

ایگور میاسنیکوف یک معمار راه حل در AWS مستقر در آلمان است. او علاقه زیادی به تحول دیجیتال زندگی، کسب و کار و خود جهان و همچنین نقش هوش مصنوعی در این تحول دارد. خارج از محل کار، او از خواندن کتاب های ماجراجویی، پیاده روی و گذراندن وقت با خانواده لذت می برد.

محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
پلاتوبلاک چین. Web3 Metaverse Intelligence. دانش تقویت شده دسترسی به اینجا.
منبع: https://aws.amazon.com/blogs/machine-learning/boost-your-forecast-accuracy-with-time-series-clustering/

تمبر زمان: آوریل 4، 2023

بازنشر افلاطون

آمازون کانکت و لکس را با قابلیت‌های هوش مصنوعی مولد تقویت کنید | خدمات وب آمازون

تنظیم تخصیص هزینه در سطح سازمانی برای محیط‌های ML و بارهای کاری با استفاده از برچسب‌گذاری منابع در Amazon SageMaker

ویژگی های جدید برای Amazon SageMaker Pipelines و Amazon SageMaker SDK

Amazon SageMaker Automatic Model Tuning اکنون تا سه برابر سریع‌تر تنظیم Hyperparameter را با Hyperband ارائه می‌کند

با استفاده از محفظه‌های Hugging Face Amazon SageMaker که اسکریپت خودتان را می‌آورد، یک مدل خلاصه‌کننده را دقیق تنظیم و اجرا کنید.

معرفی فورتونا: کتابخانه ای برای تعیین کمیت عدم قطعیت

پیش‌بینی درآمد در مقیاس بزرگ در Bosch با مدل‌های سفارشی Amazon Forecast و Amazon SageMaker

برای پردازش بلیط، ServiceNow را با چت ربات آمازون Lex ادغام کنید

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب