سریهای زمانی دنبالهای از نقاط داده هستند که به ترتیب متوالی در یک دوره زمانی رخ میدهند. ما اغلب این نقاط داده را برای اتخاذ تصمیمات تجاری بهتر یا به دست آوردن مزیت های رقابتی تجزیه و تحلیل می کنیم. یک مثال Shimamura Music است که استفاده کرد پیش بینی آمازون به بهبود نرخ کمبود و افزایش کارایی کسب و کار. مثال عالی دیگر Arneg است که از Forecast استفاده کرد پیش بینی نیازهای تعمیر و نگهداری.
AWS خدمات مختلفی را برای دادههای سری زمانی ارائه میدهد که دارای کد کم/بدون کد هستند، که هم متخصصان یادگیری ماشین (ML) و هم متخصصان غیرML میتوانند برای ساخت راهحلهای ML از آنها استفاده کنند. این شامل کتابخانه ها و خدماتی مانند AutoGluon, آمازون SageMaker Canvas, Amazon SageMaker Data Rangler, Amazon SageMaker Autopilotو پیش بینی آمازون.
در این پست، ما به دنبال جداسازی مجموعهای از مجموعههای زمانی در خوشههای مجزا هستیم که شباهت بیشتری را بین نقاط داده آن نشان میدهند و نویز را کاهش میدهند. هدف این است که دقت را با آموزش یک مدل جهانی که شامل پیکربندی خوشه است یا مدل های محلی خاص برای هر خوشه، بهبود بخشد.
ما چگونگی استخراج ویژگیها را بررسی میکنیم که به آنها نیز گفته میشود امکانات، از داده های سری زمانی با استفاده از کتابخانه TSFresh- یک بسته پایتون برای محاسبه تعداد زیادی از ویژگی های سری زمانی - و انجام خوشه بندی با استفاده از الگوریتم K-Means اجرا شده در کتابخانه اسکیتی-یادگیری.
استفاده می کنیم خوشه بندی سری های زمانی با استفاده از TSFresh + KMeans نوت بوک، که در ما موجود است GitHub repo. توصیه می کنیم این نوت بوک را روی آن اجرا کنید Amazon SageMaker Studio، یک محیط توسعه یکپارچه مبتنی بر وب (IDE) برای ML.
بررسی اجمالی راه حل
خوشه بندی یک تکنیک ML بدون نظارت است که موارد را بر اساس متریک فاصله گروه بندی می کند. فاصله اقلیدسی بیشتر برای مجموعه داده های غیر ترتیبی استفاده می شود. با این حال، از آنجا که یک سری زمانی ذاتا دارای یک دنباله (مهر زمانی) است، فاصله اقلیدسی زمانی که مستقیماً در سریهای زمانی استفاده میشود، به خوبی کار نمیکند، زیرا نسبت به شیفتهای زمانی ثابت است و بعد زمانی دادهها را نادیده میگیرد. برای توضیح بیشتر به ادامه مطلب مراجعه کنید طبقه بندی و خوشه بندی سری های زمانی با پایتون. یک متریک فاصله بهتر که مستقیماً روی سریهای زمانی کار میکند، تابخوردگی زمانی پویا (DTW) است. برای نمونه ای از خوشه بندی بر اساس این متریک، به داده های سری زمانی خوشه ای برای استفاده با آمازون Forecast.
در این پست، ما ویژگی هایی را از مجموعه داده سری زمانی با استفاده از کتابخانه TSFresh Python برای استخراج داده ها ایجاد می کنیم. TSFresh کتابخانه ای است که تعداد زیادی از ویژگی های سری زمانی را محاسبه می کند که شامل انحراف معیار، چندک و آنتروپی فوریه و غیره می شود. این به ما امکان میدهد ابعاد زمانی مجموعه داده را حذف کنیم و تکنیکهای رایجی را که برای دادهها با فرمتهای مسطح کار میکنند، اعمال کنیم. علاوه بر TSFresh، ما نیز استفاده می کنیم StandardScaler، که ویژگی ها را با حذف میانگین و مقیاس بندی به واریانس واحد استاندارد می کند و تجزیه و تحلیل مؤلفه اصلی (PCA) برای انجام کاهش ابعاد. مقیاس بندی فاصله بین نقاط داده را کاهش می دهد، که به نوبه خود ثبات در فرآیند آموزش مدل را افزایش می دهد، و کاهش ابعاد به مدل اجازه می دهد تا از ویژگی های کمتری یاد بگیرد و در عین حال روندها و الگوهای اصلی را حفظ کند، در نتیجه آموزش کارآمدتر را ممکن می سازد.
بارگیری داده
برای این مثال از مجموعه داده UCI Online Retail II و مراحل اولیه پاکسازی و آماده سازی داده ها را همانطور که در قسمت توضیح داده شده است انجام دهید نوت بوک پاکسازی و آماده سازی داده ها.
استخراج ویژگی با TSFresh
بیایید با استفاده از TSFresh برای استخراج ویژگی ها از مجموعه داده سری زمانی خود شروع کنیم:
توجه داشته باشید که داده های ما از یک سری زمانی به یک جدول مقایسه شده است StockCode
ارزش ها در مقابل Feature values
.
در مرحله بعد، همه ویژگی ها را با حذف می کنیم n/a
با استفاده از dropna
روش:
سپس با استفاده از ویژگی ها مقیاس می کنیم StandardScaler
. مقادیر موجود در ویژگی های استخراج شده از دو مقدار منفی و مثبت تشکیل شده است. بنابراین، استفاده می کنیم StandardScaler
بجای MinMaxScaler:
ما از PCA برای کاهش ابعاد استفاده می کنیم:
و تعداد بهینه اجزا را برای PCA تعیین می کنیم:
نسبت واریانس توضیح داده شده درصد واریانس نسبت داده شده به هر یک از مؤلفه های انتخاب شده است. معمولاً، تعداد مؤلفههایی را که باید در مدل خود گنجانده شوند، با اضافه کردن تجمعی نسبت واریانس توضیح داده شده هر مؤلفه تا رسیدن به 0.8-0.9 تعیین میکنید تا از برازش بیش از حد جلوگیری شود. مقدار بهینه معمولاً در آرنج رخ می دهد.
همانطور که در نمودار زیر نشان داده شده است، مقدار elbow تقریباً 100 است. بنابراین، ما از 100 به عنوان تعداد اجزای PCA استفاده می کنیم.
خوشه بندی با K-Means
حال بیایید از K-Means با متریک فاصله اقلیدسی برای خوشه بندی استفاده کنیم. در قطعه کد زیر تعداد بهینه خوشه ها را تعیین می کنیم. افزودن خوشه های بیشتر مقدار اینرسی را کاهش می دهد، اما اطلاعات موجود در هر خوشه را نیز کاهش می دهد. علاوه بر این، خوشههای بیشتر به معنای نگهداری مدلهای محلی بیشتر است. بنابراین، ما می خواهیم یک اندازه خوشه کوچک با مقدار اینرسی نسبتا کم داشته باشیم. اکتشافی آرنج برای یافتن تعداد بهینه خوشه ها به خوبی کار می کند.
نمودار زیر یافته های ما را به تصویر می کشد.
بر اساس این نمودار تصمیم گرفتیم از دو خوشه برای K-Means استفاده کنیم. ما این تصمیم را گرفتیم زیرا مجموع مربع های درون خوشه ای (WCSS) با بالاترین نرخ بین یک و دو خوشه کاهش می یابد. مهم است که سهولت نگهداری را با عملکرد و پیچیدگی مدل متعادل کنید، زیرا اگرچه WCSS با تعداد بیشتر خوشه ها به کاهش ادامه می دهد، خوشه های اضافی خطر بیش از حد برازش را افزایش می دهند. علاوه بر این، تغییرات جزئی در مجموعه داده می تواند به طور غیرمنتظره ای دقت را کاهش دهد.
توجه به این نکته مهم است که هر دو روش خوشه بندی، K-Means با فاصله اقلیدسی (در این پست بحث شده است) و الگوریتم K-means با DTW، نقاط قوت و ضعف خود را دارند. بهترین رویکرد به ماهیت داده های شما و روش های پیش بینی که استفاده می کنید بستگی دارد. بنابراین، ما به شدت توصیه میکنیم که هر دو روش را آزمایش کنید و عملکرد آنها را مقایسه کنید تا درک جامعتری از دادههای خود به دست آورید.
نتیجه
در این پست، تکنیکهای قدرتمند استخراج ویژگی و خوشهبندی برای دادههای سری زمانی را مورد بحث قرار دادیم. به طور خاص، ما نشان دادیم که چگونه از TSFresh، یک کتابخانه محبوب پایتون برای استخراج ویژگی، برای پیش پردازش داده های سری زمانی خود و به دست آوردن ویژگی های معنی دار استفاده کنید.
هنگامی که مرحله خوشه بندی کامل شد، می توانید چندین مدل Forecast را برای هر خوشه آموزش دهید یا از پیکربندی خوشه به عنوان یک ویژگی استفاده کنید. رجوع به راهنمای توسعه دهنده پیش بینی آمازون برای اطلاعات در مورد بلع داده, آموزش پیش بینیو ایجاد پیش بینی. اگر متاداده مورد و دادههای سری زمانی مرتبط دارید، میتوانید آنها را نیز به عنوان مجموعه دادههای ورودی برای آموزش در Forecast قرار دهید. برای اطلاعات بیشتر مراجعه کنید سفر موفق خود را با پیش بینی سری های زمانی با آمازون پیش بینی آغاز کنید.
منابع
درباره نویسنده
الکساندر پاتروشف معمار راه حل های تخصصی AI/ML در AWS مستقر در لوکزامبورگ است. او علاقه زیادی به یادگیری ابری و ماشینی و روشی که آنها می توانند دنیا را تغییر دهند، است. او در خارج از محل کار از پیاده روی، ورزش و گذراندن وقت با خانواده لذت می برد.
چونگ ان لیم یک معمار راه حل در AWS است. او همیشه در حال بررسی راههایی برای کمک به مشتریان برای نوآوری و بهبود جریان کاری خود است. در اوقات فراغتش عاشق تماشای انیمه و گوش دادن به موسیقی است.
ایگور میاسنیکوف یک معمار راه حل در AWS مستقر در آلمان است. او علاقه زیادی به تحول دیجیتال زندگی، کسب و کار و خود جهان و همچنین نقش هوش مصنوعی در این تحول دارد. خارج از محل کار، او از خواندن کتاب های ماجراجویی، پیاده روی و گذراندن وقت با خانواده لذت می برد.
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- پلاتوبلاک چین. Web3 Metaverse Intelligence. دانش تقویت شده دسترسی به اینجا.
- منبع: https://aws.amazon.com/blogs/machine-learning/boost-your-forecast-accuracy-with-time-series-clustering/
- :است
- 1
- 10
- 100
- 7
- 8
- 9
- a
- درباره ما
- دقت
- اضافه
- اضافی
- علاوه بر این
- مزایای
- ماجرا
- AI / ML
- الگوریتم
- معرفی
- اجازه می دهد تا
- هر چند
- همیشه
- آمازون
- در میان
- تحلیل
- و
- انیمیشن
- دیگر
- درخواست
- روش
- رویکردها
- تقریبا
- هستند
- مصنوعی
- هوش مصنوعی
- AS
- At
- در دسترس
- AWS
- برج میزان
- مستقر
- اساسی
- زیرا
- بهترین
- بهتر
- میان
- کتاب
- بالا بردن
- بنا
- کسب و کار
- کسب و کار
- by
- محاسبه می کند
- نام
- CAN
- تغییر دادن
- مشخصات
- چارت سازمانی
- طبقه بندی
- تمیز کاری
- ابر
- خوشه
- خوشه بندی
- رمز
- مشترک
- عموما
- مقایسه
- رقابتی
- کامل
- پیچیدگی
- جزء
- اجزاء
- محاسبه
- پیکر بندی
- شامل
- ادامه
- مبدل
- میتوانست
- مشتریان
- داده ها
- نقاط داده
- مجموعه داده ها
- مصمم
- تصمیم
- تصمیم گیری
- کاهش
- درجه
- بستگی دارد
- دقیق
- مشخص کردن
- توسعه دهنده
- پروژه
- انحراف
- دیجیتال
- دگرگونی های دیجیتال
- بعد
- مستقیما
- بحث کردیم
- فاصله
- نمی کند
- قطره
- پویا
- هر
- موثر
- هر دو
- را قادر می سازد
- محیط
- مثال
- نمایش دادن
- توضیح داده شده
- توضیح
- اکتشاف
- بررسی
- عصاره
- خانواده
- ویژگی
- امکانات
- پیدا کردن
- پیروی
- برای
- پیش بینی
- رایگان
- از جانب
- بعلاوه
- افزایش
- تولید می کنند
- آلمان
- جهانی
- گلوئون
- بزرگ
- گروه ها
- آیا
- کمک
- بالاتر
- بالاترین
- خیلی
- جامع
- چگونه
- چگونه
- اما
- HTML
- HTTP
- HTTPS
- i
- اجرا
- واردات
- مهم
- بهبود
- in
- شامل
- شامل
- افزایش
- فرد
- اینرسی
- اطلاعات
- نوآوری
- ورودی
- در عوض
- یکپارچه
- اطلاعات
- IT
- اقلام
- ITS
- خود
- سفر
- بزرگ
- یاد گرفتن
- یادگیری
- کتابخانه ها
- کتابخانه
- پسندیدن
- استماع
- زندگی
- محلی
- کم
- لوکزامبورگ
- دستگاه
- فراگیری ماشین
- ساخته
- حفظ
- نگهداری
- عمده
- ساخت
- معنی دار
- به معنی
- متاداده
- روش
- روش
- متری
- ML
- مدل
- مدل
- بیش
- کارآمدتر
- اکثر
- چندگانه
- موسیقی
- طبیعت
- منفی
- سر و صدا
- دفتر یادداشت
- عدد
- گرفتن
- of
- on
- ONE
- آنلاین
- بهینه
- سفارش
- دیگران
- خارج از
- بسته
- احساساتی
- الگوهای
- درصد
- انجام
- کارایی
- دوره
- افلاطون
- هوش داده افلاطون
- PlatoData
- نقطه
- محبوب
- مثبت
- پست
- قوی
- روند
- ترویج می کند
- فراهم می کند
- هدف
- پــایتــون
- نرخ
- نرخ
- نسبت
- رسیدن به
- مطالعه
- توصیه
- كاهش دادن
- را کاهش می دهد
- مربوط
- نسبتا
- برداشتن
- از بین بردن
- خرده فروشی
- حفظ
- خطر
- نقش
- در حال اجرا
- حکیم ساز
- مقیاس
- مقیاس گذاری
- به دنبال
- انتخاب شد
- جداگانه
- دنباله
- سلسله
- خدمات
- شیفت
- کمبود
- نشان داده شده
- اندازه
- کوچک
- مزایا
- برخی از
- متخصص
- خاص
- به طور خاص
- هزینه
- ورزش ها
- مربع
- ثبات
- استاندارد
- شروع
- گام
- مراحل
- نقاط قوت
- موفق
- جدول
- تکنیک
- که
- La
- اطلاعات
- جهان
- شان
- در نتیجه
- از این رو
- اینها
- زمان
- سری زمانی
- برچسب زمان
- به
- با هم
- قطار
- آموزش
- دگرگونی
- روند
- دور زدن
- به طور معمول
- درک
- واحد
- us
- استفاده کنید
- معمولا
- با استفاده از
- ارزش
- ارزشها
- مختلف
- vs
- تماشای
- مسیر..
- راه
- مبتنی بر وب
- خوب
- که
- در حین
- WHO
- با
- مهاجرت کاری
- گردش کار
- با این نسخهها کار
- جهان
- شما
- شما
- زفیرنت