Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹائم سیریز کا ڈیٹا تیار کریں۔ عمودی تلاش۔ عی

Amazon SageMaker Data Wrangler کے ساتھ ٹائم سیریز کا ڈیٹا تیار کریں۔

ٹائم سیریز کا ڈیٹا ہماری زندگیوں میں وسیع پیمانے پر موجود ہے۔ اسٹاک کی قیمتیں، مکان کی قیمتیں، موسم کی معلومات، اور وقت کے ساتھ فروخت کا ڈیٹا صرف چند مثالیں ہیں۔ چونکہ کاروبار تیزی سے ٹائم سیریز ڈیٹا سے بامعنی بصیرت حاصل کرنے کے نئے طریقے تلاش کر رہے ہیں، ڈیٹا کو تصور کرنے اور مطلوبہ تبدیلیوں کو لاگو کرنے کی صلاحیت بنیادی اقدامات ہیں۔ تاہم، ٹائم سیریز ڈیٹا دیگر قسم کے ٹیبلولر ڈیٹا کے مقابلے میں منفرد خصوصیات اور باریکیوں کا حامل ہوتا ہے، اور اس کے لیے خصوصی غور و فکر کی ضرورت ہوتی ہے۔ مثال کے طور پر، معیاری ٹیبلر یا کراس سیکشنل ڈیٹا وقت کے ایک خاص مقام پر جمع کیا جاتا ہے۔ اس کے برعکس، ٹائم سیریز کا ڈیٹا وقت کے ساتھ ساتھ بار بار پکڑا جاتا ہے، ہر ایک لگاتار ڈیٹا پوائنٹ اس کی ماضی کی اقدار پر منحصر ہوتا ہے۔

چونکہ زیادہ تر ٹائم سیریز کے تجزیے مشاہدات کے ایک متضاد سیٹ میں جمع کی گئی معلومات پر انحصار کرتے ہیں، ڈیٹا کی کمی اور موروثی کم ہونے سے پیشن گوئی کی درستگی کم ہو سکتی ہے اور تعصب متعارف کرایا جا سکتا ہے۔ مزید برآں، زیادہ تر ٹائم سیریز تجزیہ نقطہ نظر ڈیٹا پوائنٹس کے درمیان مساوی وقفہ پر انحصار کرتے ہیں، دوسرے لفظوں میں، وقفہ۔ لہذا، ڈیٹا کے وقفہ کاری کی بے ضابطگیوں کو ٹھیک کرنے کی صلاحیت ایک اہم شرط ہے۔ آخر میں، ٹائم سیریز کے تجزیہ میں اکثر اضافی خصوصیات کی تخلیق کی ضرورت ہوتی ہے جو ان پٹ ڈیٹا اور مستقبل کی پیشین گوئیوں کے درمیان موروثی تعلق کی وضاحت کرنے میں مدد کر سکتی ہے۔ یہ تمام عوامل ٹائم سیریز کے منصوبوں کو روایتی مشین لرننگ (ML) منظرناموں سے ممتاز کرتے ہیں اور اس کے تجزیہ کے لیے ایک الگ نقطہ نظر کا مطالبہ کرتے ہیں۔

یہ پوسٹ استعمال کرنے کا طریقہ بتاتی ہے۔ ایمیزون سیج میکر ڈیٹا رینگلر ٹائم سیریز کی تبدیلیوں کو لاگو کرنے اور ٹائم سیریز کے استعمال کے معاملات کے لیے اپنا ڈیٹا سیٹ تیار کرنے کے لیے۔

ڈیٹا رینگلر کے لیے کیسز استعمال کریں۔

ڈیٹا رینگلر ڈیٹا کو تیزی سے صاف کرنے، تبدیل کرنے اور تیار کرنے کی خصوصیات کے ساتھ ٹائم سیریز کے تجزیہ کے لیے بغیر کوڈ/لو کوڈ کا حل فراہم کرتا ہے۔ یہ ڈیٹا سائنسدانوں کو اپنے پیشن گوئی کے ماڈل کے ان پٹ فارمیٹ کی ضروریات کے مطابق ٹائم سیریز کا ڈیٹا تیار کرنے کے قابل بھی بناتا ہے۔ درج ذیل چند طریقے ہیں جن سے آپ ان صلاحیتوں کو استعمال کر سکتے ہیں۔

  • وضاحتی تجزیہ- عام طور پر، کسی بھی ڈیٹا سائنس پروجیکٹ میں سے ایک مرحلہ ڈیٹا کو سمجھنا ہے۔ جب ہم ٹائم سیریز کا ڈیٹا پلاٹ کرتے ہیں تو ہمیں اس کے نمونوں کا ایک اعلیٰ سطحی جائزہ ملتا ہے، جیسے رجحان، موسمی، سائیکل اور بے ترتیب تغیرات۔ یہ ان نمونوں کی درست نمائندگی کرنے کے لیے پیشن گوئی کے درست طریقہ کار کا فیصلہ کرنے میں ہماری مدد کرتا ہے۔ پلاٹ بنانے سے غیر حقیقی اور غلط پیشین گوئیوں کو روکنے میں، بیرونی لوگوں کی شناخت میں بھی مدد مل سکتی ہے۔ ڈیٹا رینگلر ایک کے ساتھ آتا ہے۔ موسمی رجحان کے سڑن کا تصور ٹائم سیریز کے اجزاء کی نمائندگی کرنے کے لیے، اور ایک بیرونی پتہ لگانے کا تصور باہر جانے والوں کی شناخت کے لیے۔
  • وضاحتی تجزیہ- کثیر متغیر ٹائم سیریز کے لیے، بامعنی پیشین گوئیاں حاصل کرنے کے لیے دو یا دو سے زیادہ ٹائم سیریز کے درمیان تعلق کو دریافت کرنے، شناخت کرنے اور ماڈل بنانے کی صلاحیت ضروری ہے۔ دی گروپ بذریعہ ڈیٹا رینگلر میں ٹرانسفارم مخصوص سیلز کے ڈیٹا کو گروپ کر کے متعدد ٹائم سیریز بناتا ہے۔ مزید برآں، ڈیٹا رینگلر ٹائم سیریز کو تبدیل کرتا ہے، جہاں قابل اطلاق ہوتا ہے، اضافی ID کالموں کو گروپ آن کرنے کی اجازت دیتا ہے، پیچیدہ ٹائم سیریز تجزیہ کو قابل بناتا ہے۔
  • ڈیٹا کی تیاری اور فیچر انجینئرنگ- ٹائم سیریز کا ڈیٹا شاذ و نادر ہی اس فارمیٹ میں ہوتا ہے جس کی ٹائم سیریز کے ماڈلز کے ذریعہ توقع کی جاتی ہے۔ خام ڈیٹا کو ٹائم سیریز کی مخصوص خصوصیات میں تبدیل کرنے کے لیے اکثر ڈیٹا کی تیاری کی ضرورت ہوتی ہے۔ آپ اس بات کی توثیق کرنا چاہیں گے کہ ٹائم سیریز کا ڈیٹا تجزیہ سے پہلے باقاعدگی سے یا اتنا ہی فاصلہ رکھتا ہے۔ پیشن گوئی کے استعمال کے معاملات کے لیے، آپ اضافی ٹائم سیریز کی خصوصیات کو بھی شامل کرنا چاہیں گے، جیسے خودکار تعلق اور شماریاتی خصوصیات۔ ڈیٹا رینگلر کے ساتھ، آپ تیزی سے ٹائم سیریز کی خصوصیات بنا سکتے ہیں جیسے کہ ایک سے زیادہ وقفے کے وقفوں کے لیے وقفہ کالم، ڈیٹا کو ایک سے زیادہ وقت کی گرانولیریٹیز کے لیے دوبارہ نمونہ بنا سکتے ہیں، اور کچھ صلاحیتوں کو نام دینے کے لیے خود بخود ٹائم سیریز کی شماریاتی خصوصیات کو نکال سکتے ہیں۔

حل جائزہ

یہ پوسٹ اس بات کی وضاحت کرتی ہے کہ ڈیٹا سائنسدان اور تجزیہ کار ڈیٹا رینگلر کو ٹائم سیریز کے ڈیٹا کو دیکھنے اور تیار کرنے کے لیے کیسے استعمال کر سکتے ہیں۔ ہم بٹ کوائن کریپٹو کرنسی ڈیٹا سیٹ سے استعمال کرتے ہیں۔ کرپٹو ڈیٹا ڈاؤن لوڈ ان صلاحیتوں کو ظاہر کرنے کے لیے بٹ کوائن ٹریڈنگ کی تفصیلات کے ساتھ۔ ہم ٹائم سیریز کی خصوصیات کے ساتھ خام ڈیٹاسیٹ کو صاف، توثیق اور تبدیل کرتے ہیں اور ان پٹ کے طور پر تبدیل شدہ ڈیٹاسیٹ کا استعمال کرتے ہوئے بٹ کوائن والیوم کی قیمت کی پیشن گوئی بھی تیار کرتے ہیں۔

بٹ کوائن ٹریڈنگ ڈیٹا کا نمونہ 1 جنوری سے 19 نومبر 2021 تک کا ہے، جس میں 464,116 ڈیٹا پوائنٹس ہیں۔ ڈیٹاسیٹ کے اوصاف میں قیمت کے ریکارڈ کا ٹائم اسٹیمپ، ابتدائی یا پہلی قیمت جس پر کسی خاص دن کے لیے سکے کا تبادلہ کیا گیا، سب سے زیادہ قیمت جس پر سکے کا اس دن تبادلہ ہوا، آخری قیمت جس پر سکے کا تبادلہ کیا گیا جس دن، BTC میں اس دن cryptocurrency قدر میں حجم کا تبادلہ ہوا، اور اس سے متعلقہ USD کرنسی۔

شرائط

ڈاؤن لوڈ، اتارنا Bitstamp_BTCUSD_2021_minute.csv سے فائل کرپٹو ڈیٹا ڈاؤن لوڈ اور اسے اپ لوڈ کریں۔ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3).

ڈیٹا رینگلر میں بٹ کوائن ڈیٹاسیٹ درآمد کریں۔

ڈیٹا رینگلر میں ادخال کا عمل شروع کرنے کے لیے، درج ذیل مراحل کو مکمل کریں:

  1. پر سیج میکر اسٹوڈیو کنسول ، پر فائل مینو، منتخب کریں نئی، پھر منتخب کریں ڈیٹا رینگلر فلو.
  2. بہاؤ کا نام حسب خواہش رکھیں۔
  3. کے لئے ڈیٹا درآمد کریں۔منتخب کریں ایمیزون S3.
  4. اپ لوڈ کریں Bitstamp_BTCUSD_2021_minute.csv آپ کی S3 بالٹی سے فائل۔

اب آپ اپنے ڈیٹا سیٹ کا جائزہ لے سکتے ہیں۔

  1. میں تفصیلات دیکھیں پین، منتخب کریں اعلی درجے کی ترتیب اور غیر منتخب کریں نمونے لینے کو فعال کریں۔.

یہ نسبتاً چھوٹا ڈیٹا سیٹ ہے، اس لیے ہمیں نمونے لینے کی ضرورت نہیں ہے۔

  1. میں سے انتخاب کریں درآمد کریں.

آپ نے کامیابی کے ساتھ فلو ڈایاگرام بنا لیا ہے اور تبدیلی کے مراحل شامل کرنے کے لیے تیار ہیں۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹائم سیریز کا ڈیٹا تیار کریں۔ عمودی تلاش۔ عی

تبدیلیاں شامل کریں۔

ڈیٹا ٹرانسفارمیشنز کو شامل کرنے کے لیے، آگے جمع کا نشان منتخب کریں۔ ڈیٹا کی اقسام اور منتخب کریں ڈیٹا کی اقسام میں ترمیم کریں۔.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹائم سیریز کا ڈیٹا تیار کریں۔ عمودی تلاش۔ عی

اس بات کو یقینی بنائیں کہ ڈیٹا رینگلر نے خود بخود ڈیٹا کالمز کے لیے درست ڈیٹا کی اقسام کا اندازہ لگایا ہے۔

ہمارے معاملے میں، قیاس کردہ ڈیٹا کی قسمیں درست ہیں۔ تاہم، فرض کریں کہ ڈیٹا کی ایک قسم غلط تھی۔ آپ UI کے ذریعے آسانی سے ان میں ترمیم کر سکتے ہیں، جیسا کہ درج ذیل اسکرین شاٹ میں دکھایا گیا ہے۔

ڈیٹا کی اقسام میں ترمیم اور جائزہ لیں۔

آئیے تجزیہ شروع کریں اور تبدیلیاں شامل کرنا شروع کریں۔

ڈیٹا کی صفائی

ہم سب سے پہلے ڈیٹا کی صفائی کی متعدد تبدیلیاں انجام دیتے ہیں۔

ڈراپ کالم

آئیے کو چھوڑ کر شروع کریں۔ unix کالم، کیونکہ ہم استعمال کرتے ہیں date انڈیکس کے طور پر کالم.

  1. میں سے انتخاب کریں ڈیٹا فلو پر واپس جائیں۔.
  2. آگے جمع کا نشان منتخب کریں۔ ڈیٹا کی اقسام اور منتخب کریں تبدیلی شامل کریں۔.
  3. میں سے انتخاب کریں + قدم شامل کریں۔ میں تبدیلیاں فین.
  4. میں سے انتخاب کریں کالموں کا نظم کریں۔.
  5. کے لئے تبدیلمنتخب کریں ڈراپ کالم.
  6. کے لئے چھوڑنے کے لیے کالممنتخب کریں یونیکس.
  7. میں سے انتخاب کریں پیش نظارہ.
  8. میں سے انتخاب کریں شامل کریں قدم بچانے کے ل.

ہینڈل غائب ہے۔

ڈیٹا کی گمشدگی حقیقی دنیا کے ڈیٹاسیٹس میں ایک معروف مسئلہ ہے۔ اس لیے، کسی بھی غائب یا کالعدم اقدار کی موجودگی کی تصدیق کرنا اور انہیں مناسب طریقے سے ہینڈل کرنا ایک بہترین عمل ہے۔ ہمارے ڈیٹاسیٹ میں گم شدہ اقدار نہیں ہیں۔ لیکن اگر وہاں ہوتے تو ہم استعمال کریں گے۔ ہینڈل غائب ہے۔ ان کو ٹھیک کرنے کے لیے ٹائم سیریز کو تبدیل کریں۔ گمشدہ ڈیٹا کو سنبھالنے کے لیے عام طور پر استعمال کی جانے والی حکمت عملیوں میں گمشدہ اقدار کے ساتھ قطاریں چھوڑنا یا گمشدہ اقدار کو معقول تخمینوں سے بھرنا شامل ہے۔ چونکہ ٹائم سیریز کا ڈیٹا وقت بھر میں ڈیٹا پوائنٹس کی ترتیب پر انحصار کرتا ہے، اس لیے گمشدہ اقدار کو بھرنا ترجیحی طریقہ ہے۔ گمشدہ اقدار کو بھرنے کے عمل کو کہا جاتا ہے۔ مواخذہ. ہینڈل غائب ہے۔ ٹائم سیریز ٹرانسفارم آپ کو ایک سے زیادہ الزام لگانے کی حکمت عملیوں میں سے انتخاب کرنے کی اجازت دیتا ہے۔

  1. میں سے انتخاب کریں + قدم شامل کریں۔ میں تبدیلیاں فین.
  2. منتخب کیجئیے وقت کا سلسلہ تبدیل
  3. کے لئے تبدیل، منتخب کریں۔ ہینڈل غائب ہے۔.
  4. کے لئے ٹائم سیریز ان پٹ کی قسممنتخب کریں کالم کے ساتھ ساتھ.
  5. کے لئے قدروں کا تعین کرنے کا طریقہمنتخب کریں آگے بھرنا.

۔ آگے بھرنا طریقہ گمشدہ اقدار کو گم شدہ اقدار سے پہلے کی غیر غائب اقدار سے بدل دیتا ہے۔

لاپتہ ٹائم سیریز ٹرانسفارم کو ہینڈل کریں۔

پسماندہ بھرنا, مستقل قدر, سب سے عام قدر اور بازی لگانا Data Wrangler میں دیگر تقاریر کی حکمت عملییں دستیاب ہیں۔ انٹرپولیشن تکنیک گمشدہ اقدار کو بھرنے کے لیے پڑوسی اقدار پر انحصار کرتی ہیں۔ ٹائم سیریز کا ڈیٹا اکثر پڑوسی اقدار کے درمیان ارتباط کو ظاہر کرتا ہے، جس سے انٹرپولیشن کو بھرنے کی ایک مؤثر حکمت عملی بنتی ہے۔ فنکشنز پر اضافی تفصیلات کے لیے آپ انٹرپولیشن کو لاگو کرنے کے لیے استعمال کر سکتے ہیں، ملاحظہ کریں۔ pandas.DataFrame.interpolate.

ٹائم اسٹیمپ کی توثیق کریں۔

ٹائم سیریز کے تجزیہ میں، ٹائم اسٹیمپ کالم انڈیکس کالم کے طور پر کام کرتا ہے، جس کے گرد تجزیہ گھومتا ہے۔ اس لیے، یہ یقینی بنانا ضروری ہے کہ ٹائم اسٹیمپ کالم میں غلط یا غلط فارمیٹ شدہ ٹائم اسٹیمپ ویلیوز شامل نہیں ہیں۔ کیونکہ ہم استعمال کر رہے ہیں۔ date کالم کو ٹائم اسٹیمپ کالم اور انڈیکس کے طور پر، آئیے تصدیق کریں کہ اس کی اقدار درست طریقے سے فارمیٹ کی گئی ہیں۔

  1. میں سے انتخاب کریں + قدم شامل کریں۔ میں تبدیلیاں فین.
  2. منتخب کیجئیے وقت کا سلسلہ تبدیل
  3. کے لئے تبدیلی ، کا انتخاب ٹائم اسٹیمپ کی توثیق کریں۔.

۔ ٹائم اسٹیمپ کی توثیق کریں۔ ٹرانسفارم آپ کو یہ چیک کرنے کی اجازت دیتا ہے کہ آپ کے ڈیٹاسیٹ میں ٹائم اسٹیمپ کالم میں غلط ٹائم اسٹیمپ یا گمشدہ اقدار والی قدریں نہیں ہیں۔

  1. کے لئے ٹائم اسٹیمپ کالممنتخب کریں تاریخ.
  2. کے لئے پالیسی ڈراپ ڈاؤن، منتخب کریں اشارہ کرنا.

۔ اشارہ کرنا پالیسی کا اختیار ایک بولین کالم بناتا ہے جو اس بات کی نشاندہی کرتا ہے کہ آیا ٹائم اسٹیمپ کالم میں قیمت ایک درست تاریخ/وقت کی شکل ہے۔ کے لیے دیگر اختیارات پالیسی میں شامل ہیں:

  • خرابی - اگر ٹائم اسٹیمپ کالم غائب یا غلط ہے تو ایک غلطی پھینک دیتا ہے۔
  • چھوڑ - اگر ٹائم اسٹیمپ کالم غائب یا غلط ہے تو قطار کو گرا دیتا ہے۔
  1. میں سے انتخاب کریں پیش نظارہ.

ایک نیا بولین کالم جس کا نام ہے۔ date_is_valid کے ساتھ، پیدا کیا گیا تھا true درست فارمیٹ اور غیر صفر اندراجات کی نشاندہی کرنے والی اقدار۔ ہمارے ڈیٹاسیٹ میں ٹائم اسٹیمپ کی غلط اقدار شامل نہیں ہیں۔ date کالم لیکن اگر ایسا ہوا تو، آپ ان اقدار کی شناخت اور درست کرنے کے لیے نئے بولین کالم کا استعمال کر سکتے ہیں۔

ٹائم اسٹیمپ ٹائم سیریز کی تبدیلی کی توثیق کریں۔

  1. میں سے انتخاب کریں شامل کریں اس قدم کو بچانے کے لیے۔

ٹائم سیریز کا تصور

ڈیٹا سیٹ کو صاف اور درست کرنے کے بعد، ہم ڈیٹا کو اس کے مختلف جز کو سمجھنے کے لیے بہتر انداز میں دیکھ سکتے ہیں۔

دوبارہ نمونہ

چونکہ ہم روزانہ کی پیشین گوئیوں میں دلچسپی رکھتے ہیں، آئیے ڈیٹا کی فریکوئنسی کو روزانہ میں تبدیل کریں۔

۔ دوبارہ نمونہ تبدیلی ٹائم سیریز کے مشاہدات کی فریکوئنسی کو ایک مخصوص گرانولریٹی میں تبدیل کرتی ہے، اور نمونے لینے اور اتارنے کے دونوں اختیارات کے ساتھ آتی ہے۔ نمونے لینے سے مشاہدات کی فریکوئنسی بڑھ جاتی ہے (مثال کے طور پر روزانہ سے فی گھنٹہ تک)، جب کہ ڈاؤن سیمپلنگ مشاہدات کی فریکوئنسی کو کم کرتی ہے (مثال کے طور پر فی گھنٹہ سے روزانہ تک)۔

چونکہ ہمارا ڈیٹاسیٹ منٹ گرانولریٹی پر ہے، آئیے ڈاؤن سیمپلنگ کا آپشن استعمال کریں۔

  1. میں سے انتخاب کریں + قدم شامل کریں۔.
  2. منتخب کیجئیے وقت کا سلسلہ تبدیل
  3. کے لئے تبدیلمنتخب کریں دوبارہ نمونہ.
  4. کے لئے ٹائمسٹیمپمنتخب کریں تاریخ.
  5. کے لئے تعدد یونٹمنتخب کریں کیلنڈر کا دن.
  6. کے لئے تعدد کی مقدار، 1 درج کریں۔
  7. کے لئے عددی اقدار کو جمع کرنے کا طریقہمنتخب کریں مطلب.
  8. میں سے انتخاب کریں پیش نظارہ.

ہمارے ڈیٹاسیٹ کی فریکوئنسی فی منٹ سے روزانہ بدل گئی ہے۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹائم سیریز کا ڈیٹا تیار کریں۔ عمودی تلاش۔ عی

  1. میں سے انتخاب کریں شامل کریں اس قدم کو بچانے کے لیے۔

موسمی رجحان کی سڑن

دوبارہ نمونے لینے کے بعد، ہم تبدیل شدہ سیریز اور اس سے منسلک STL (LOESS کا استعمال کرتے ہوئے موسمی اور رجحان کی سڑن) کے اجزاء کا استعمال کر سکتے ہیں۔ موسمی-رجحان-سڑن تصور یہ اصل وقت کی سیریز کو الگ الگ رجحان، موسمی اور بقایا اجزاء میں تقسیم کرتا ہے، جس سے ہمیں اچھی طرح سے اندازہ ہوتا ہے کہ ہر پیٹرن کس طرح برتاؤ کرتا ہے۔ پیشن گوئی کے مسائل کی ماڈلنگ کرتے وقت بھی ہم معلومات کا استعمال کر سکتے ہیں۔

ڈیٹا رینگلر LOESS کا استعمال کرتا ہے، ماڈلنگ کے رجحان اور موسمی اجزاء کے لیے ایک مضبوط اور ورسٹائل شماریاتی طریقہ۔ اس کا بنیادی نفاذ ٹائم سیریز کے اجزاء (موسمی، رجحان، اور بقایا) میں موجود غیر خطوطی تعلقات کا اندازہ لگانے کے لیے کثیر الجہتی رجعت کا استعمال کرتا ہے۔

  1. میں سے انتخاب کریں ڈیٹا فلو پر واپس جائیں۔.
  2. کے آگے جمع کا نشان منتخب کریں۔ مراحل on ڈیٹا کے بہاؤ.
  3. میں سے انتخاب کریں تجزیہ شامل کریں۔.
  4. میں تجزیہ بنائیں پین، کے لئے تجزیہ کی قسم، کا انتخاب وقت کا سلسلہ.
  5. کے لئے تصورمنتخب کریں موسمی رجحان کی سڑن.
  6. کے لئے تجزیہ کا نام، ایک نام درج کریں۔
  7. کے لئے ٹائم اسٹیمپ کالممنتخب کریں تاریخ.
  8. کے لئے ویلیو کالممنتخب کریں حجم USD.
  9. میں سے انتخاب کریں پیش نظارہ.

تجزیہ ہمیں ان پٹ ٹائم سیریز اور گلے سڑے موسم، رجحان، اور بقایا کو دیکھنے کی اجازت دیتا ہے۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹائم سیریز کا ڈیٹا تیار کریں۔ عمودی تلاش۔ عی

  1. میں سے انتخاب کریں محفوظ کریں تجزیہ کو بچانے کے لیے۔

کے ساتہ موسمی رجحان کے سڑنے کا تصور، ہم چار پیٹرن بنا سکتے ہیں، جیسا کہ پچھلے اسکرین شاٹ میں دکھایا گیا ہے:

  • حقیقی - اصل ٹائم سیریز کو روزانہ کی گرانولیریٹی کے لیے دوبارہ نمونہ دیا گیا۔
  • رجحان - سال 2021 کے لیے مجموعی طور پر منفی رجحان کے پیٹرن کے ساتھ کثیر الجہتی رجحان، جس میں کمی کی نشاندہی ہوتی ہے Volume USD قدر.
  • موسم - ضرب موسمی جس کی نمائندگی مختلف دولن کے نمونوں سے ہوتی ہے۔ ہم موسمی تغیرات میں کمی دیکھتے ہیں، جس کی خصوصیت دوغلوں کے طول و عرض میں کمی سے ہوتی ہے۔
  • بقایا - بقیہ بقایا یا بے ترتیب شور۔ بقایا سیریز رجحان اور موسمی اجزاء کو ہٹائے جانے کے بعد نتیجہ خیز سلسلہ ہے۔ قریب سے دیکھتے ہوئے، ہم جنوری اور مارچ کے درمیان، اور اپریل اور جون کے درمیان اسپائکس کا مشاہدہ کرتے ہیں، جو تاریخی اعداد و شمار کا استعمال کرتے ہوئے ایسے مخصوص واقعات کی ماڈلنگ کے لیے گنجائش تجویز کرتے ہیں۔

یہ تصورات ڈیٹا سائنسدانوں اور تجزیہ کاروں کو موجودہ نمونوں میں قیمتی رہنمائی فراہم کرتے ہیں اور ماڈلنگ کی حکمت عملی کا انتخاب کرنے میں آپ کی مدد کر سکتے ہیں۔ تاہم، وضاحتی تجزیہ اور ڈومین کی مہارت کے ذریعے جمع کی گئی معلومات کے ساتھ STL کے سڑنے کے آؤٹ پٹ کی توثیق کرنا ہمیشہ ایک اچھا عمل ہے۔

خلاصہ کرنے کے لیے، ہم اصل سیریز ویژولائزیشن سے مطابقت رکھنے والے نیچے کی طرف رجحان کا مشاہدہ کرتے ہیں، جو ٹرینڈ ویژولائزیشن کے ذریعے دی گئی معلومات کو بہاو فیصلہ سازی میں شامل کرنے میں ہمارے اعتماد کو بڑھاتا ہے۔ اس کے برعکس، موسمی نظریہ مختلف تکنیکوں کا استعمال کرتے ہوئے موسم کی موجودگی اور اس کے خاتمے کی ضرورت کو مطلع کرنے میں مدد کرتا ہے، یہ موجودہ مختلف موسمی نمونوں کی تفصیلی بصیرت کی مطلوبہ سطح فراہم نہیں کرتا، اس طرح گہرے تجزیہ کی ضرورت ہوتی ہے۔

فیچر انجینئرنگ

اپنے ڈیٹاسیٹ میں موجود پیٹرن کو سمجھنے کے بعد، ہم پیشن گوئی کرنے والے ماڈلز کی درستگی کو بڑھانے کے لیے نئی خصوصیات کو انجینئر کرنا شروع کر سکتے ہیں۔

تاریخ کے وقت کو نمایاں کریں۔

آئیے زیادہ سیدھی تاریخ/وقت کی خصوصیات کے ساتھ فیچر انجینئرنگ کا عمل شروع کریں۔ تاریخ/وقت کی خصوصیات سے بنائی گئی ہیں۔ timestamp کالم اور ڈیٹا سائنسدانوں کو فیچر انجینئرنگ کے عمل کو شروع کرنے کے لیے ایک بہترین راستہ فراہم کرتا ہے۔ ہم کے ساتھ شروع کرتے ہیں تاریخ کے وقت کو نمایاں کریں۔ ہمارے ڈیٹاسیٹ میں مہینہ، مہینے کا دن، سال کا دن، سال کا ہفتہ، اور سہ ماہی کی خصوصیات شامل کرنے کے لیے ٹائم سیریز کی تبدیلی۔ چونکہ ہم تاریخ/وقت کے اجزاء کو الگ الگ خصوصیات کے طور پر فراہم کر رہے ہیں، اس لیے ہم پیشن گوئی کی درستگی کو بہتر بنانے کے لیے سگنلز اور نمونوں کا پتہ لگانے کے لیے ML الگورتھم کو فعال کرتے ہیں۔

  1. میں سے انتخاب کریں + قدم شامل کریں۔.
  2. منتخب کیجئیے وقت کا سلسلہ تبدیل
  3. کے لئے تبدیلی ، کا انتخاب تاریخ کے وقت کو نمایاں کریں۔.
  4. کے لئے ان پٹ کالممنتخب کریں تاریخ.
  5. کے لئے آؤٹ پٹ کالم، داخل کریں date (یہ مرحلہ اختیاری ہے)۔
  6. کے لئے آؤٹ پٹ موڈمنتخب کریں عام.
  7. کے لئے آؤٹ پٹ کی شکلمنتخب کریں کالم.
  8. نکالنے کے لیے تاریخ/وقت کی خصوصیات کے لیے، منتخب کریں۔ مہینہ, ڈے, سال کا ہفتہ, سال کا دن۔، اور سہ ماہی.
  9. میں سے انتخاب کریں پیش نظارہ.

ڈیٹاسیٹ میں اب نئے کالم شامل ہیں۔ date_month, date_day, date_week_of_year, date_day_of_year، اور date_quarter. ان نئی خصوصیات سے حاصل کردہ معلومات ڈیٹا سائنسدانوں کو ڈیٹا سے اضافی بصیرت حاصل کرنے اور ان پٹ فیچرز اور آؤٹ پٹ فیچرز کے درمیان تعلق میں مدد کر سکتی ہے۔

ڈیٹ ٹائم ٹائم سیریز کی تبدیلی کو نمایاں کریں۔

  1. میں سے انتخاب کریں شامل کریں اس قدم کو بچانے کے لیے۔

واضح انکوڈ کریں۔

تاریخ/وقت کی خصوصیات عددی اقدار تک محدود نہیں ہیں۔ آپ مخصوص اخذ کردہ تاریخ/وقت کی خصوصیات کو زمرہ وار متغیرات کے طور پر غور کرنے کا انتخاب بھی کر سکتے ہیں اور ہر کالم میں بائنری اقدار پر مشتمل ایک گرم انکوڈ شدہ خصوصیات کے طور پر ان کی نمائندگی کر سکتے ہیں۔ نئے بنائے گئے ۔ date_quarter کالم 0-3 کے درمیان اقدار پر مشتمل ہے، اور چار بائنری کالموں کا استعمال کرتے ہوئے ایک گرم انکوڈ کیا جا سکتا ہے۔ آئیے چار نئی بائنری خصوصیات بنائیں، ہر ایک سال کی اسی سہ ماہی کی نمائندگی کرتی ہے۔

  1. میں سے انتخاب کریں + قدم شامل کریں۔.
  2. منتخب کیجئیے واضح انکوڈ کریں۔ تبدیل
  3. کے لئے تبدیلمنتخب کریں ایک گرم انکوڈ.
  4. کے لئے ان پٹ کالممنتخب کریں تاریخ_کوارٹر.
  5. کے لئے آؤٹ پٹ اسٹائلمنتخب کریں کالم.
  6. میں سے انتخاب کریں پیش نظارہ.
  7. میں سے انتخاب کریں شامل کریں قدم شامل کرنے کے لیے۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹائم سیریز کا ڈیٹا تیار کریں۔ عمودی تلاش۔ عی

وقفہ کی خصوصیت

اگلا، آئیے ٹارگٹ کالم کے لیے وقفہ کی خصوصیات بنائیں Volume USD. ٹائم سیریز کے تجزیے میں وقفہ کی خصوصیات سابقہ ​​ٹائم اسٹیمپ کی قدریں ہیں جو مستقبل کی قدروں کا اندازہ لگانے میں مددگار سمجھی جاتی ہیں۔ وہ خود کار تعلق کی شناخت میں بھی مدد کرتے ہیں (جسے کہا جاتا ہے۔ سیریل ارتباط) بقیہ سیریز میں پیٹرن کو پچھلے وقت کے مراحل پر مشاہدات کے ساتھ مشاہدے کے تعلق کی مقدار بتاتے ہوئے۔ خود کار تعلق باقاعدہ ارتباط سے ملتا جلتا ہے لیکن سیریز میں موجود اقدار اور اس کی ماضی کی اقدار کے درمیان۔ یہ ARIMA سیریز میں خود بخود پیش گوئی کرنے والے ماڈلز کی بنیاد بناتا ہے۔

ڈیٹا رینگلر کے ساتھ وقفہ کی خصوصیت ٹرانسفارم، آپ آسانی سے وقفہ کی خصوصیات اور وقفوں کو الگ کر سکتے ہیں۔ مزید برآں، ہم اکثر مختلف وقفوں پر متعدد وقفے والی خصوصیات بنانا چاہتے ہیں اور ماڈل کو سب سے زیادہ معنی خیز خصوصیات کا فیصلہ کرنے دیں۔ اس طرح کے منظر نامے کے لیے، وقفہ کی خصوصیات ٹرانسفارم ایک مخصوص ونڈو سائز پر متعدد وقفہ کالم بنانے میں مدد کرتا ہے۔

  1. میں سے انتخاب کریں ڈیٹا فلو پر واپس جائیں۔.
  2. کے آگے جمع کا نشان منتخب کریں۔ مراحل on ڈیٹا کے بہاؤ.
  3. میں سے انتخاب کریں + قدم شامل کریں۔.
  4. میں سے انتخاب کریں وقت کا سلسلہ تبدیل
  5. کے لئے تبدیلمنتخب کریں وقفہ کی خصوصیات.
  6. کے لئے اس کالم کے لیے وقفہ کی خصوصیات بنائیںمنتخب کریں حجم USD.
  7. کے لئے ٹائم اسٹیمپ کالممنتخب کریں تاریخ.
  8. کے لئے لگ۔، داخل کریں 7.
  9. چونکہ ہم پچھلی سات وقفہ اقدار تک کا مشاہدہ کرنے میں دلچسپی رکھتے ہیں، آئیے منتخب کرتے ہیں۔ پوری وقفہ والی ونڈو کو شامل کریں۔.
  10. ہر وقفہ کی قدر کے لیے ایک نیا کالم بنانے کے لیے، منتخب کریں۔ آؤٹ پٹ کو فلیٹ کریں۔.
  11. میں سے انتخاب کریں پیش نظارہ.

سات نئے کالم شامل کیے گئے ہیں، جو کے ساتھ لاحقہ ہے۔ lag_number ہدف کالم کے لیے کلیدی لفظ Volume USD.

وقفہ فیچر ٹائم سیریز ٹرانسفارم

  1. میں سے انتخاب کریں شامل کریں قدم بچانے کے ل.

رولنگ ونڈو کی خصوصیات

ہم قدروں کی ایک رینج میں بامعنی شماریاتی خلاصوں کا بھی حساب لگا سکتے ہیں اور انہیں ان پٹ خصوصیات کے طور پر شامل کر سکتے ہیں۔ آئیے عام شماریاتی ٹائم سیریز کی خصوصیات کو نکالتے ہیں۔

ڈیٹا رینگلر اوپن سورس کا استعمال کرتے ہوئے خودکار ٹائم سیریز فیچر نکالنے کی صلاحیتوں کو لاگو کرتا ہے۔ tsfresh پیکج ٹائم سیریز فیچر نکالنے کی تبدیلی کے ساتھ، آپ فیچر نکالنے کے عمل کو خودکار کر سکتے ہیں۔ یہ وقت اور کوشش کو ختم کرتا ہے بصورت دیگر دستی طور پر سگنل پروسیسنگ لائبریریوں کو لاگو کرنے میں خرچ ہوتا ہے۔ اس پوسٹ کے لیے، ہم استعمال کرتے ہوئے خصوصیات نکالتے ہیں۔ رولنگ ونڈو کی خصوصیات تبدیل یہ طریقہ ونڈو کے سائز کے ذریعہ بیان کردہ مشاہدات کے ایک سیٹ میں شماریاتی خصوصیات کا حساب کرتا ہے۔

  1. میں سے انتخاب کریں + قدم شامل کریں۔.
  2. منتخب کیجئیے وقت کا سلسلہ تبدیل
  3. کے لئے تبدیلمنتخب کریں رولنگ ونڈو کی خصوصیات.
  4. کے لئے اس کالم کے لیے رولنگ ونڈو کی خصوصیات بنائیںمنتخب کریں حجم USD.
  5. کے لئے ٹائم اسٹیمپ کالممنتخب کریں تاریخ.
  6. کے لئے ونڈو کا سائز، داخل کریں 7.

کی کھڑکی کا سائز بتانا 7 موجودہ ٹائم اسٹیمپ کی قیمت اور پچھلے سات ٹائم اسٹیمپ کی قدروں کو ملا کر خصوصیات کی گنتی کرتا ہے۔

  1. منتخب کریں چپٹا ہر کمپیوٹیڈ فیچر کے لیے ایک نیا کالم بنانے کے لیے۔
  2. اپنی حکمت عملی کو بطور منتخب کریں۔ کم سے کم سب سیٹ.

یہ حکمت عملی آٹھ خصوصیات کو نکالتی ہے جو بہاو کے تجزیوں میں کارآمد ہیں۔ دیگر حکمت عملیوں میں شامل ہیں۔ موثر سب سیٹ, حسب ضرورت ذیلی سیٹ، اور تمام خصوصیات. نکالنے کے لیے دستیاب خصوصیات کی مکمل فہرست کے لیے، رجوع کریں۔ نکالی گئی خصوصیات کا جائزہ.

  1. میں سے انتخاب کریں پیش نظارہ.

ہم ونڈو کے مخصوص سائز کے ساتھ آٹھ نئے کالم دیکھ سکتے ہیں۔ 7 ان کے نام پر، ہمارے ڈیٹاسیٹ میں شامل کیا گیا۔

  1. میں سے انتخاب کریں شامل کریں قدم بچانے کے ل.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹائم سیریز کا ڈیٹا تیار کریں۔ عمودی تلاش۔ عی

ڈیٹاسیٹ برآمد کریں۔

ہم نے ٹائم سیریز ڈیٹا سیٹ کو تبدیل کر دیا ہے اور تبدیل شدہ ڈیٹا سیٹ کو پیشن گوئی الگورتھم کے لیے بطور ان پٹ استعمال کرنے کے لیے تیار ہیں۔ آخری مرحلہ تبدیل شدہ ڈیٹاسیٹ کو Amazon S3 میں برآمد کرنا ہے۔ ڈیٹا رینگلر میں، آپ انتخاب کر سکتے ہیں۔ ایکسپورٹ مرحلہ Amazon SageMaker پروسیسنگ کوڈ کے ساتھ خود بخود ایک Jupyter نوٹ بک تیار کرنے کے لیے S3 بالٹی میں تبدیل شدہ ڈیٹاسیٹ کو پروسیسنگ اور ایکسپورٹ کرنے کے لیے۔ تاہم، کیونکہ ہمارے ڈیٹاسیٹ میں صرف 300 سے زیادہ ریکارڈ موجود ہیں، آئیے اس سے فائدہ اٹھاتے ہیں۔ ڈیٹا برآمد کریں۔ میں اختیار ٹرانسفارم شامل کریں۔ ڈیٹا رینگلر سے براہ راست Amazon S3 میں تبدیل شدہ ڈیٹاسیٹ برآمد کرنے کے لیے دیکھیں۔

  1. میں سے انتخاب کریں ڈیٹا برآمد کریں۔.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹائم سیریز کا ڈیٹا تیار کریں۔ عمودی تلاش۔ عی

  1. کے لئے S3 مقاممنتخب کریں براؤزر اور اپنی S3 بالٹی کا انتخاب کریں۔
  2. میں سے انتخاب کریں ڈیٹا برآمد کریں۔.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹائم سیریز کا ڈیٹا تیار کریں۔ عمودی تلاش۔ عی

اب جبکہ ہم نے بٹ کوائن ڈیٹاسیٹ کو کامیابی سے تبدیل کر دیا ہے، ہم استعمال کر سکتے ہیں۔ ایمیزون کی پیشن گوئی بٹ کوائن کی پیشن گوئیاں پیدا کرنے کے لیے۔

صاف کرو

اگر آپ نے استعمال کا یہ معاملہ مکمل کر لیا ہے، تو اضافی چارجز سے بچنے کے لیے اپنے بنائے گئے وسائل کو صاف کریں۔ ڈیٹا رینگلر کے لیے آپ مکمل ہونے پر بنیادی مثال کو بند کر سکتے ہیں۔ کا حوالہ دیتے ہیں ڈیٹا رینگلر کو بند کریں۔ تفصیلات کے لئے دستاویزات. متبادل طور پر، آپ جاری رکھ سکتے ہیں۔ حصہ 2 پیشن گوئی کے لیے اس ڈیٹاسیٹ کو استعمال کرنے کے لیے اس سیریز کا۔

خلاصہ

اس پوسٹ نے دکھایا ہے کہ ڈیٹا رینگلر کو کس طرح استعمال کیا جائے تاکہ اس کی بلٹ ان ٹائم سیریز کی صلاحیتوں کا استعمال کرتے ہوئے ٹائم سیریز کے تجزیہ کو آسان اور تیز کیا جائے۔ ہم نے دریافت کیا کہ کس طرح ڈیٹا سائنس دان بامعنی تجزیہ کے لیے آسانی سے اور انٹرایکٹو طریقے سے ٹائم سیریز کے ڈیٹا کو صاف، فارمیٹ، توثیق اور مطلوبہ فارمیٹ میں تبدیل کر سکتے ہیں۔ ہم نے یہ بھی دریافت کیا کہ آپ ڈیٹا رینگلر کا استعمال کرتے ہوئے شماریاتی خصوصیات کے ایک جامع سیٹ کو شامل کرکے اپنے ٹائم سیریز کے تجزیے کو کیسے بہتر بنا سکتے ہیں۔ ڈیٹا رینگلر میں ٹائم سیریز کی تبدیلیوں کے بارے میں مزید جاننے کے لیے، دیکھیں ڈیٹا کو تبدیل کریں۔.


مصنف کے بارے میں

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹائم سیریز کا ڈیٹا تیار کریں۔ عمودی تلاش۔ عیروپ بینس AWS میں ایک حل آرکیٹیکٹ ہے جو AI/ML پر فوکس کرتا ہے۔ وہ مصنوعی ذہانت اور مشین لرننگ کا استعمال کرتے ہوئے صارفین کو اختراع کرنے اور ان کے کاروباری مقاصد کو حاصل کرنے میں مدد کرنے کا پرجوش ہے۔ اپنے فارغ وقت میں روپ کو پڑھنا اور پیدل سفر کرنا پسند ہے۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹائم سیریز کا ڈیٹا تیار کریں۔ عمودی تلاش۔ عینکیتا ایوکن ایک اپلائیڈ سائنٹسٹ، ایمیزون سیج میکر ڈیٹا رینگلر ہے۔

ٹائم اسٹیمپ:

سے زیادہ AWS مشین لرننگ