ٹائم سیریز ڈیٹا پوائنٹس کی ترتیب ہیں جو کچھ عرصے کے دوران لگاتار ترتیب میں ہوتی ہیں۔ ہم اکثر بہتر کاروباری فیصلے کرنے یا مسابقتی فوائد حاصل کرنے کے لیے ان ڈیٹا پوائنٹس کا تجزیہ کرتے ہیں۔ ایک مثال شیمامورا میوزک ہے، جس نے استعمال کیا۔ ایمیزون کی پیشن گوئی کرنے کے لئے کمی کی شرح کو بہتر بنانے اور کاروباری کارکردگی میں اضافہ. ایک اور عظیم مثال Arneg ہے، جس نے Forecast کو استعمال کیا۔ دیکھ بھال کی ضروریات کی پیشن گوئی.
AWS ٹائم سیریز کے ڈیٹا کو پورا کرنے والی مختلف خدمات فراہم کرتا ہے جو کم کوڈ/کوڈ نہیں ہیں، جنہیں مشین لرننگ (ML) اور غیر ML پریکٹیشنرز دونوں ML سلوشنز بنانے کے لیے استعمال کر سکتے ہیں۔ ان میں لائبریریاں اور خدمات شامل ہیں۔ آٹوگلون, ایمیزون سیج میکر کینوس, ایمیزون سیج میکر ڈیٹا رینگلر, ایمیزون سیج میکر آٹو پائلٹ، اور ایمیزون کی پیشن گوئی.
اس پوسٹ میں، ہم ٹائم سیریز ڈیٹاسیٹ کو انفرادی کلسٹرز میں الگ کرنے کی کوشش کرتے ہیں جو اس کے ڈیٹا پوائنٹس کے درمیان اعلیٰ درجے کی مماثلت کا مظاہرہ کرتے ہیں اور شور کو کم کرتے ہیں۔ مقصد یہ ہے کہ یا تو عالمی ماڈل کو تربیت دے کر درستگی کو بہتر بنایا جائے جس میں کلسٹر کنفیگریشن ہو یا ہر کلسٹر کے لیے مخصوص مقامی ماڈل ہوں۔
ہم خصوصیات کو نکالنے کا طریقہ دریافت کرتے ہیں، جسے بھی کہا جاتا ہے۔ خصوصیاتکا استعمال کرتے ہوئے ٹائم سیریز ڈیٹا سے TSFresh لائبریریٹائم سیریز کی خصوصیات کی ایک بڑی تعداد کو کمپیوٹنگ کرنے کے لیے ایک ازگر کا پیکج — اور اس کا استعمال کرتے ہوئے کلسٹرنگ انجام دیتا ہے۔ K- کا مطلب الگورتھم میں نافذ کیا گیا ہے۔ سکیٹ لرن لائبریری.
ہم استعمال کرتے ہیں TSFresh + KMeans کا استعمال کرتے ہوئے ٹائم سیریز کلسٹرنگ نوٹ بک، جو ہمارے پر دستیاب ہے۔ GitHub repo. ہم اس نوٹ بک کو چلانے کی تجویز کرتے ہیں۔ ایمیزون سیج میکر اسٹوڈیوML کے لیے ویب پر مبنی، مربوط ترقیاتی ماحول (IDE)۔
حل جائزہ
کلسٹرنگ ایک غیر زیر نگرانی ML تکنیک ہے جو فاصلاتی میٹرک کی بنیاد پر اشیاء کو ایک ساتھ گروپ کرتی ہے۔ یوکلیڈین فاصلہ عام طور پر غیر ترتیب وار ڈیٹاسیٹس کے لیے استعمال ہوتا ہے۔ تاہم، چونکہ ٹائم سیریز میں فطری طور پر ایک ترتیب (ٹائم اسٹیمپ) ہوتی ہے، یوکلیڈین فاصلہ درست طریقے سے کام نہیں کرتا جب براہ راست ٹائم سیریز پر استعمال کیا جاتا ہے کیونکہ یہ ڈیٹا کے وقت کی جہت کو نظر انداز کرتے ہوئے وقت کی تبدیلیوں کے لیے متغیر ہے۔ مزید تفصیلی وضاحت کے لیے رجوع کریں۔ ٹائم سیریز کی درجہ بندی اور ازگر کے ساتھ کلسٹرنگ. ایک بہتر فاصلہ میٹرک جو براہ راست ٹائم سیریز پر کام کرتا ہے وہ ہے Dynamic Time Warping (DTW)۔ اس میٹرک کی بنیاد پر کلسٹرنگ کی مثال کے لیے رجوع کریں۔ Amazon Forecast کے ساتھ استعمال کے لیے کلسٹر ٹائم سیریز کا ڈیٹا.
اس پوسٹ میں، ہم ڈیٹا نکالنے کے لیے TSFresh Python لائبریری کا استعمال کرتے ہوئے ٹائم سیریز ڈیٹاسیٹ سے خصوصیات تیار کرتے ہیں۔ ٹی ایس فریش ایک لائبریری ہے جو ٹائم سیریز کی خصوصیات کی ایک بڑی تعداد کا حساب لگاتی ہے، جس میں معیاری انحراف، کوانٹائل، اور فوئیر اینٹروپی، اور دیگر شامل ہیں۔ یہ ہمیں ڈیٹاسیٹ کی وقتی جہت کو ہٹانے اور عام تکنیکوں کو لاگو کرنے کی اجازت دیتا ہے جو فلیٹ شدہ فارمیٹس کے ساتھ ڈیٹا کے لیے کام کرتی ہیں۔ TSFresh کے علاوہ، ہم بھی استعمال کرتے ہیں۔ سٹینڈرڈ اسکیلر، جو وسط کو ہٹا کر اور یونٹ کے تغیر پر اسکیل کرکے خصوصیات کو معیاری بناتا ہے، اور پرنسپل اجزاء کا تجزیہ (PCA) جہتی کمی کو انجام دینے کے لئے۔ اسکیلنگ ڈیٹا پوائنٹس کے درمیان فاصلے کو کم کرتی ہے، جس کے نتیجے میں ماڈل ٹریننگ کے عمل میں استحکام کو فروغ ملتا ہے، اور جہت میں کمی ماڈل کو اہم رجحانات اور نمونوں کو برقرار رکھتے ہوئے کم خصوصیات سے سیکھنے کی اجازت دیتی ہے، اس طرح زیادہ موثر تربیت کو قابل بناتا ہے۔
ڈیٹا لوڈ ہو رہا ہے
اس مثال کے لئے، ہم استعمال کرتے ہیں UCI آن لائن ریٹیل II ڈیٹا سیٹ اور بنیادی ڈیٹا کی صفائی اور تیاری کے اقدامات انجام دیں جیسا کہ میں تفصیل سے بتایا گیا ہے۔ ڈیٹا کی صفائی اور تیاری کی نوٹ بک.
TSFresh کے ساتھ خصوصیت نکالنا
آئیے اپنے ٹائم سیریز ڈیٹاسیٹ سے خصوصیات نکالنے کے لیے TSFresh کا استعمال کرتے ہوئے شروع کریں:
نوٹ کریں کہ ہمارے ڈیٹا کو ٹائم سیریز سے موازنہ کرنے والے ٹیبل میں تبدیل کر دیا گیا ہے۔ StockCode
اقدار بمقابلہ Feature values
.
اگلا، ہم تمام خصوصیات کے ساتھ چھوڑ دیتے ہیں n/a
کا استعمال کرتے ہوئے اقدار dropna
طریقہ:
پھر ہم استعمال کرتے ہوئے خصوصیات کو پیمانہ کرتے ہیں۔ StandardScaler
. نکالی گئی خصوصیات میں اقدار منفی اور مثبت دونوں قدروں پر مشتمل ہیں۔ لہذا، ہم استعمال کرتے ہیں StandardScaler
بجائے MinMaxScaler:
ہم جہتی کمی کے لیے PCA کا استعمال کرتے ہیں:
اور ہم PCA کے اجزاء کی زیادہ سے زیادہ تعداد کا تعین کرتے ہیں:
وضاحت شدہ تغیر کا تناسب ہر منتخب اجزاء سے منسوب تغیر کا فیصد ہے۔ عام طور پر، آپ اپنے ماڈل میں شامل کیے جانے والے اجزاء کی تعداد کا تعین کرتے ہیں جب تک کہ آپ زیادہ فٹنگ سے بچنے کے لیے 0.8–0.9 تک پہنچ جاتے ہیں، ہر ایک جزو کی وضاحت شدہ تغیر تناسب کو مجموعی طور پر شامل کر کے۔ زیادہ سے زیادہ قدر عام طور پر کہنی پر ہوتی ہے۔
جیسا کہ مندرجہ ذیل چارٹ میں دکھایا گیا ہے، کہنی کی قدر تقریباً 100 ہے۔ لہذا، ہم PCA کے اجزاء کی تعداد کے طور پر 100 کا استعمال کرتے ہیں۔
K-Means کے ساتھ کلسٹرنگ
اب کلسٹرنگ کے لیے یوکلیڈین فاصلہ میٹرک کے ساتھ K-Means استعمال کریں۔ درج ذیل کوڈ کے ٹکڑوں میں، ہم کلسٹرز کی بہترین تعداد کا تعین کرتے ہیں۔ مزید کلسٹرز کو شامل کرنے سے جڑت کی قدر میں کمی آتی ہے، لیکن یہ ہر کلسٹر میں موجود معلومات کو بھی کم کرتا ہے۔ مزید برآں، زیادہ کلسٹرز کا مطلب ہے برقرار رکھنے کے لیے زیادہ مقامی ماڈلز۔ لہذا، ہم نسبتاً کم جڑتا قدر کے ساتھ ایک چھوٹا کلسٹر سائز رکھنا چاہتے ہیں۔ کلسٹرز کی زیادہ سے زیادہ تعداد کو تلاش کرنے کے لیے کہنی ہیورسٹک اچھی طرح سے کام کرتا ہے۔
مندرجہ ذیل چارٹ ہمارے نتائج کو تصور کرتا ہے۔
اس چارٹ کی بنیاد پر، ہم نے K-Means کے لیے دو کلسٹر استعمال کرنے کا فیصلہ کیا ہے۔ ہم نے یہ فیصلہ اس لیے کیا ہے کہ ایک اور دو کلسٹرز کے درمیان کلسٹر کے اندر کلسٹر کا مجموعہ (WCSS) سب سے زیادہ شرح سے کم ہوتا ہے۔ ماڈل کی کارکردگی اور پیچیدگی کے ساتھ دیکھ بھال کی آسانی کو متوازن کرنا ضروری ہے، کیونکہ اگرچہ WCSS مزید کلسٹرز کے ساتھ کم ہوتا رہتا ہے، اضافی کلسٹرز اوور فٹنگ کے خطرے کو بڑھاتے ہیں۔ مزید برآں، ڈیٹاسیٹ میں معمولی تغیرات غیر متوقع طور پر درستگی کو کم کر سکتے ہیں۔
یہ نوٹ کرنا ضروری ہے کہ کلسٹرنگ کے دونوں طریقے، K-Means with Euclidian فاصلے (اس پوسٹ میں زیر بحث ہے) اور K- کا مطلب ہے DTW کے ساتھ الگورتھمان کی طاقت اور کمزوریاں ہیں. بہترین نقطہ نظر آپ کے ڈیٹا کی نوعیت اور پیشین گوئی کے طریقوں پر منحصر ہے جو آپ استعمال کر رہے ہیں۔ لہذا، ہم آپ کے ڈیٹا کی مزید جامع تفہیم حاصل کرنے کے لیے دونوں طریقوں کے ساتھ تجربہ کرنے اور ان کی کارکردگی کا موازنہ کرنے کی انتہائی سفارش کرتے ہیں۔
نتیجہ
اس پوسٹ میں، ہم نے ٹائم سیریز ڈیٹا کے لیے فیچر نکالنے اور کلسٹرنگ کی طاقتور تکنیکوں پر تبادلہ خیال کیا۔ خاص طور پر، ہم نے دکھایا کہ TSFresh، فیچر نکالنے کے لیے ایک مشہور Python لائبریری کا استعمال کیسے کریں تاکہ آپ کے ٹائم سیریز کے ڈیٹا کو پہلے سے پروسیس کیا جائے اور معنی خیز خصوصیات حاصل کی جائیں۔
جب کلسٹرنگ کا مرحلہ مکمل ہو جاتا ہے، تو آپ ہر کلسٹر کے لیے متعدد پیشن گوئی ماڈلز کو تربیت دے سکتے ہیں، یا کلسٹر کنفیگریشن کو بطور خصوصیت استعمال کر سکتے ہیں۔ سے رجوع کریں۔ ایمیزون پیشن گوئی ڈویلپر گائیڈ کے بارے میں معلومات کے لئے ڈیٹا ادخال, پیشن گوئی کی تربیت، اور پیشن گوئی پیدا کرنا. اگر آپ کے پاس آئٹم میٹا ڈیٹا اور متعلقہ ٹائم سیریز ڈیٹا ہے، تو آپ پیشن گوئی میں تربیت کے لیے ان پٹ ڈیٹا سیٹس کے طور پر بھی شامل کر سکتے ہیں۔ مزید معلومات کے لیے رجوع کریں۔ Amazon Forecast کے ساتھ ٹائم سیریز کی پیشن گوئی کے ساتھ اپنا کامیاب سفر شروع کریں۔.
حوالہ جات
مصنفین کے بارے میں
الیگزینڈر پیٹروشیف لکسمبرگ میں مقیم AWS میں AI/ML ماہر حل آرکیٹیکٹ ہیں۔ وہ کلاؤڈ اور مشین لرننگ کے بارے میں پرجوش ہے، اور جس طرح سے وہ دنیا کو بدل سکتے ہیں۔ کام سے باہر، وہ پیدل سفر، کھیل، اور اپنے خاندان کے ساتھ وقت گزارنے سے لطف اندوز ہوتا ہے۔
چونگ این لم AWS میں ایک حل آرکیٹیکٹ ہے۔ وہ ہمیشہ گاہکوں کو اختراع کرنے اور ان کے ورک فلو کو بہتر بنانے میں مدد کرنے کے طریقے تلاش کرتا رہتا ہے۔ اپنے فارغ وقت میں، وہ موبائل فون دیکھنا اور موسیقی سننا پسند کرتا ہے۔
ایگور میاسنکوف جرمنی میں مقیم AWS میں ایک حل آرکیٹیکٹ ہے۔ وہ ہماری زندگیوں، کاروباروں اور خود دنیا کی ڈیجیٹل تبدیلی کے ساتھ ساتھ اس تبدیلی میں مصنوعی ذہانت کے کردار کے بارے میں پرجوش ہے۔ کام سے باہر، وہ ایڈونچر کی کتابیں پڑھنا، پیدل سفر کرنا، اور اپنے خاندان کے ساتھ وقت گزارنا پسند کرتا ہے۔
- SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
- پلیٹو بلاک چین۔ Web3 Metaverse Intelligence. علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
- ماخذ: https://aws.amazon.com/blogs/machine-learning/boost-your-forecast-accuracy-with-time-series-clustering/
- : ہے
- 1
- 10
- 100
- 7
- 8
- 9
- a
- ہمارے بارے میں
- درستگی
- اس کے علاوہ
- ایڈیشنل
- اس کے علاوہ
- فوائد
- مہم جوئی
- AI / ML
- یلگورتم
- تمام
- کی اجازت دیتا ہے
- اگرچہ
- ہمیشہ
- ایمیزون
- کے درمیان
- تجزیے
- اور
- ہالی ووڈ
- ایک اور
- کا اطلاق کریں
- نقطہ نظر
- نقطہ نظر
- تقریبا
- کیا
- مصنوعی
- مصنوعی ذہانت
- AS
- At
- دستیاب
- AWS
- متوازن
- کی بنیاد پر
- بنیادی
- کیونکہ
- BEST
- بہتر
- کے درمیان
- کتب
- بڑھانے کے
- عمارت
- کاروبار
- کاروبار
- by
- حساب کرتا ہے
- کہا جاتا ہے
- کر سکتے ہیں
- تبدیل
- خصوصیات
- چارٹ
- درجہ بندی
- صفائی
- بادل
- کلسٹر
- clustering کے
- کوڈ
- کامن
- عام طور پر
- موازنہ
- مقابلہ
- مکمل
- پیچیدگی
- جزو
- اجزاء
- کمپیوٹنگ
- ترتیب
- پر مشتمل ہے
- جاری ہے
- تبدیل
- سکتا ہے
- گاہکوں
- اعداد و شمار
- ڈیٹا پوائنٹس
- ڈیٹاسیٹس
- فیصلہ کیا
- فیصلہ
- فیصلے
- کمی
- ڈگری
- انحصار کرتا ہے
- تفصیلی
- اس بات کا تعین
- ڈیولپر
- ترقی
- انحراف
- ڈیجیٹل
- ڈیجیٹل تبدیلی
- طول و عرض
- براہ راست
- بات چیت
- فاصلے
- نہیں کرتا
- چھوڑ
- متحرک
- ہر ایک
- ہنر
- یا تو
- کو فعال کرنا
- ماحولیات
- مثال کے طور پر
- نمائش
- وضاحت کی
- وضاحت
- تلاش
- ایکسپلور
- نکالنے
- خاندان
- نمایاں کریں
- خصوصیات
- تلاش
- کے بعد
- کے لئے
- پیشن گوئی
- مفت
- سے
- مزید برآں
- حاصل کرنا
- پیدا
- جرمنی
- گلوبل
- گلوون
- عظیم
- گروپ کا
- ہے
- مدد
- اعلی
- سب سے زیادہ
- انتہائی
- کلی
- کس طرح
- کیسے
- تاہم
- HTML
- HTTP
- HTTPS
- i
- عملدرآمد
- درآمد
- اہم
- کو بہتر بنانے کے
- in
- شامل
- شامل ہیں
- اضافہ
- انفرادی
- جڑواں
- معلومات
- اختراعات
- ان پٹ
- کے بجائے
- ضم
- انٹیلی جنس
- IT
- اشیاء
- میں
- خود
- سفر
- بڑے
- جانیں
- سیکھنے
- لائبریریوں
- لائبریری
- کی طرح
- سن
- زندگی
- مقامی
- لو
- لیگزمبرگ
- مشین
- مشین لرننگ
- بنا
- برقرار رکھنے کے
- دیکھ بھال
- اہم
- بنا
- بامعنی
- کا مطلب ہے کہ
- میٹا ڈیٹا
- طریقہ
- طریقوں
- میٹرک۔
- ML
- ماڈل
- ماڈل
- زیادہ
- زیادہ موثر
- سب سے زیادہ
- ایک سے زیادہ
- موسیقی
- فطرت، قدرت
- منفی
- شور
- نوٹ بک
- تعداد
- حاصل
- of
- on
- ایک
- آن لائن
- زیادہ سے زیادہ
- حکم
- دیگر
- باہر
- پیکج
- جذباتی
- پیٹرن
- فیصد
- انجام دیں
- کارکردگی
- مدت
- پلاٹا
- افلاطون ڈیٹا انٹیلی جنس
- پلیٹو ڈیٹا
- پوائنٹس
- مقبول
- مثبت
- پوسٹ
- طاقتور
- عمل
- فروغ دیتا ہے
- فراہم کرتا ہے
- مقصد
- ازگر
- شرح
- قیمتیں
- تناسب
- تک پہنچنے
- پڑھنا
- سفارش
- کو کم
- کم
- متعلقہ
- نسبتا
- ہٹا
- کو ہٹانے کے
- خوردہ
- برقرار رکھنے
- رسک
- کردار
- چل رہا ہے
- sagemaker
- پیمانے
- سکیلنگ
- طلب کرو
- منتخب
- علیحدہ
- تسلسل
- سیریز
- سروسز
- شفٹوں
- قلت
- دکھایا گیا
- سائز
- چھوٹے
- حل
- کچھ
- ماہر
- مخصوص
- خاص طور پر
- خرچ کرنا۔
- اسپورٹس
- چوکوں
- استحکام
- معیار
- شروع کریں
- مرحلہ
- مراحل
- طاقت
- کامیاب
- ٹیبل
- تکنیک
- کہ
- ۔
- کے بارے میں معلومات
- دنیا
- ان
- اس طرح
- لہذا
- یہ
- وقت
- وقت کا سلسلہ
- ٹائمسٹیمپ
- کرنے کے لئے
- مل کر
- ٹرین
- ٹریننگ
- تبدیلی
- رجحانات
- ٹرن
- عام طور پر
- افہام و تفہیم
- یونٹ
- us
- استعمال کی شرائط
- عام طور پر
- استعمال کرنا۔
- قیمت
- اقدار
- مختلف
- vs
- دیکھ
- راستہ..
- طریقوں
- ویب پر مبنی ہے
- اچھا ہے
- جس
- جبکہ
- ڈبلیو
- ساتھ
- کام
- کام کے بہاؤ
- کام کرتا ہے
- دنیا
- تم
- اور
- زیفیرنیٹ