Amazon SageMaker डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ टाइम सीरीज़ डेटा तैयार करें। लंबवत खोज। ऐ.

अमेज़ॅन सेजमेकर डेटा रैंगलर के साथ समय श्रृंखला डेटा तैयार करें

समय श्रृंखला डेटा हमारे जीवन में व्यापक रूप से मौजूद है। स्टॉक की कीमतें, घर की कीमतें, मौसम की जानकारी और समय के साथ कैप्चर किए गए बिक्री के आंकड़े कुछ उदाहरण हैं। जैसा कि व्यवसाय तेजी से समय-श्रृंखला डेटा से सार्थक अंतर्दृष्टि प्राप्त करने के लिए नए तरीकों की तलाश करते हैं, डेटा की कल्पना करने और वांछित परिवर्तनों को लागू करने की क्षमता मौलिक कदम हैं। हालांकि, समय-श्रृंखला डेटा में अन्य प्रकार के सारणीबद्ध डेटा की तुलना में अद्वितीय विशेषताएं और बारीकियां होती हैं, और विशेष विचारों की आवश्यकता होती है। उदाहरण के लिए, मानक सारणीबद्ध या क्रॉस-अनुभागीय डेटा एक विशिष्ट समय पर एकत्र किया जाता है। इसके विपरीत, समय-श्रृंखला डेटा समय के साथ बार-बार कैप्चर किया जाता है, प्रत्येक क्रमिक डेटा बिंदु अपने पिछले मूल्यों पर निर्भर करता है।

क्योंकि अधिकांश समय श्रृंखला विश्लेषण अवलोकनों के एक सन्निहित सेट में एकत्रित जानकारी पर भरोसा करते हैं, लापता डेटा और अंतर्निहित विरलता पूर्वानुमान की सटीकता को कम कर सकती है और पूर्वाग्रह का परिचय दे सकती है। इसके अतिरिक्त, अधिकांश समय श्रृंखला विश्लेषण दृष्टिकोण डेटा बिंदुओं के बीच समान अंतर पर निर्भर करते हैं, दूसरे शब्दों में, आवधिकता। इसलिए, डेटा रिक्ति अनियमितताओं को ठीक करने की क्षमता एक महत्वपूर्ण शर्त है। अंत में, समय श्रृंखला विश्लेषण के लिए अक्सर अतिरिक्त सुविधाओं के निर्माण की आवश्यकता होती है जो इनपुट डेटा और भविष्य की भविष्यवाणियों के बीच अंतर्निहित संबंध को समझाने में मदद कर सकते हैं। ये सभी कारक पारंपरिक मशीन लर्निंग (एमएल) परिदृश्यों से समय श्रृंखला परियोजनाओं को अलग करते हैं और इसके विश्लेषण के लिए एक अलग दृष्टिकोण की मांग करते हैं।

यह पोस्ट उपयोग करने के तरीके के माध्यम से चलता है अमेज़न SageMaker डेटा रैंगलर समय श्रृंखला रूपांतरण लागू करने और समय श्रृंखला उपयोग मामलों के लिए अपना डेटासेट तैयार करने के लिए।

डेटा रैंगलर के लिए मामलों का उपयोग करें

डेटा रैंगलर समय-श्रृंखला विश्लेषण के लिए एक नो-कोड/लो-कोड समाधान प्रदान करता है जिसमें डेटा को तेजी से साफ करने, बदलने और तैयार करने की विशेषताएं हैं। यह डेटा वैज्ञानिकों को उनके पूर्वानुमान मॉडल के इनपुट प्रारूप आवश्यकताओं के पालन में समय श्रृंखला डेटा तैयार करने में भी सक्षम बनाता है। निम्नलिखित कुछ तरीके हैं जिनसे आप इन क्षमताओं का उपयोग कर सकते हैं:

  • विवरणात्मक विश्लेषण- आमतौर पर, किसी भी डेटा साइंस प्रोजेक्ट का पहला चरण डेटा को समझना होता है। जब हम समय श्रृंखला डेटा प्लॉट करते हैं, तो हमें इसके पैटर्न का एक उच्च-स्तरीय अवलोकन मिलता है, जैसे कि प्रवृत्ति, मौसमी, चक्र और यादृच्छिक विविधताएं। यह हमें इन पैटर्नों का सटीक रूप से प्रतिनिधित्व करने के लिए सही पूर्वानुमान पद्धति तय करने में मदद करता है। प्लॉटिंग अवास्तविक और गलत पूर्वानुमानों को रोकने के लिए बाहरी लोगों की पहचान करने में भी मदद कर सकता है। डेटा रैंगलर a . के साथ आता है मौसमी-प्रवृत्ति अपघटन विज़ुअलाइज़ेशन एक समय श्रृंखला के घटकों का प्रतिनिधित्व करने के लिए, और एक बाहरी पहचान विज़ुअलाइज़ेशन बाहरी लोगों की पहचान करना।
  • व्याख्यात्मक विश्लेषण- बहु-भिन्न समय श्रृंखला के लिए, सार्थक पूर्वानुमान प्राप्त करने के लिए दो या दो से अधिक समय श्रृंखला के बीच संबंधों का पता लगाने, पहचानने और मॉडल करने की क्षमता आवश्यक है। समूह द्वारा डेटा रैंगलर में परिवर्तन निर्दिष्ट सेल के लिए डेटा को समूहीकृत करके कई समय श्रृंखला बनाता है। इसके अतिरिक्त, डेटा रैंगलर टाइम सीरीज़ ट्रांसफ़ॉर्म, जहां लागू हो, जटिल समय श्रृंखला विश्लेषण को सक्षम करते हुए, अतिरिक्त आईडी कॉलम के विनिर्देशन को समूह में रखने की अनुमति देता है।
  • डेटा तैयार करना और फीचर इंजीनियरिंग- टाइम सीरीज़ डेटा शायद ही कभी टाइम सीरीज़ मॉडल द्वारा अपेक्षित प्रारूप में होता है। कच्चे डेटा को समय श्रृंखला-विशिष्ट सुविधाओं में बदलने के लिए अक्सर डेटा तैयार करने की आवश्यकता होती है। आप उस समय श्रृंखला डेटा को नियमित रूप से या समान रूप से विश्लेषण से पहले सत्यापित करना चाह सकते हैं। उपयोग के मामलों का पूर्वानुमान लगाने के लिए, आप अतिरिक्त समय श्रृंखला विशेषताओं को भी शामिल करना चाह सकते हैं, जैसे कि ऑटोसहसंबंध और सांख्यिकीय गुण। डेटा रैंगलर के साथ, आप जल्दी से समय श्रृंखला सुविधाएँ बना सकते हैं जैसे कि कई अंतराल अवधियों के लिए लैग कॉलम, कई समय ग्रैन्युलैरिटी के लिए डेटा का पुन: नमूना, और कुछ क्षमताओं को नाम देने के लिए स्वचालित रूप से एक समय श्रृंखला के सांख्यिकीय गुणों को निकाल सकते हैं।

समाधान अवलोकन

यह पोस्ट इस बात पर विस्तार से बताती है कि डेटा वैज्ञानिक और विश्लेषक समय श्रृंखला डेटा की कल्पना और तैयार करने के लिए डेटा रैंगलर का उपयोग कैसे कर सकते हैं। हम बिटकॉइन क्रिप्टोक्यूरेंसी डेटासेट का उपयोग करते हैं क्रिप्टोडेटाडाउनलोड इन क्षमताओं को प्रदर्शित करने के लिए बिटकॉइन ट्रेडिंग विवरण के साथ। हम समय श्रृंखला सुविधाओं के साथ कच्चे डेटासेट को साफ, मान्य और रूपांतरित करते हैं और इनपुट के रूप में परिवर्तित डेटासेट का उपयोग करके बिटकॉइन वॉल्यूम मूल्य पूर्वानुमान भी उत्पन्न करते हैं।

बिटकॉइन ट्रेडिंग डेटा का नमूना 1 जनवरी से 19 नवंबर, 2021 तक है, जिसमें 464,116 डेटा पॉइंट हैं। डेटासेट विशेषताओं में मूल्य रिकॉर्ड का टाइमस्टैम्प, उद्घाटन या पहली कीमत जिस पर किसी विशेष दिन के लिए सिक्के का आदान-प्रदान किया गया था, उच्चतम मूल्य जिस दिन सिक्का का आदान-प्रदान किया गया था, आखिरी कीमत जिस पर सिक्का का आदान-प्रदान किया गया था दिन, बीटीसी में दिन पर क्रिप्टोकुरेंसी मूल्य में वॉल्यूम का आदान-प्रदान, और संबंधित यूएसडी मुद्रा।

.. पूर्वापेक्षाएँ

डाउनलोड Bitstamp_BTCUSD_2021_minute.csv से फाइल करें क्रिप्टोडेटाडाउनलोड और इसे अपलोड करें अमेज़न सरल भंडारण सेवा (अमेज़न S3).

डेटा रैंगलर में बिटकॉइन डेटासेट आयात करें

डेटा रैंगलर में अंतर्ग्रहण प्रक्रिया प्रारंभ करने के लिए, निम्न चरणों को पूरा करें:

  1. पर सेजमेकर स्टूडियो कंसोल, पर पट्टिका मेनू, चुनें नया, उसके बाद चुनो डेटा रैंगलर फ्लो.
  2. इच्छानुसार प्रवाह का नाम बदलें।
  3. के लिए आयात आंकड़ा, चुनें अमेज़न S3.
  4. अपलोड करें Bitstamp_BTCUSD_2021_minute.csv अपने S3 बाल्टी से फ़ाइल।

अब आप अपने डेटा सेट का पूर्वावलोकन कर सकते हैं।

  1. में विवरण फलक, चुनें उन्नत विन्यास और रद्द करें नमूनाकरण सक्षम करें.

यह अपेक्षाकृत छोटा डेटा सेट है, इसलिए हमें नमूने की आवश्यकता नहीं है।

  1. चुनें आयात.

आपने सफलतापूर्वक प्रवाह आरेख बना लिया है और परिवर्तन चरण जोड़ने के लिए तैयार हैं।

Amazon SageMaker डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ टाइम सीरीज़ डेटा तैयार करें। लंबवत खोज। ऐ.

परिवर्तन जोड़ें

डेटा ट्रांसफ़ॉर्मेशन जोड़ने के लिए, के आगे धन चिह्न चुनें जानकारी का प्रकार और चुनें डेटा प्रकार संपादित करें.

Amazon SageMaker डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ टाइम सीरीज़ डेटा तैयार करें। लंबवत खोज। ऐ.

सुनिश्चित करें कि डेटा रैंगलर स्वचालित रूप से डेटा कॉलम के लिए सही डेटा प्रकारों का अनुमान लगाता है।

हमारे मामले में, अनुमानित डेटा प्रकार सही हैं। हालाँकि, मान लीजिए कि एक डेटा प्रकार गलत था। आप उन्हें UI के माध्यम से आसानी से संशोधित कर सकते हैं, जैसा कि निम्न स्क्रीनशॉट में दिखाया गया है।

डेटा प्रकारों को संपादित और समीक्षा करें

आइए विश्लेषण शुरू करें और परिवर्तन जोड़ना शुरू करें।

डेटा की सफाई

हम पहले कई डेटा सफाई परिवर्तन करते हैं।

स्तंभ छोड़ें

आइए को छोड़कर शुरू करते हैं unix कॉलम, क्योंकि हम उपयोग करते हैं date सूचकांक के रूप में स्तंभ।

  1. चुनें डेटा प्रवाह पर वापस जाएं.
  2. के आगे धन चिह्न चुनें जानकारी का प्रकार और चुनें परिवर्तन जोड़ें.
  3. चुनें + चरण जोड़ें में बदल देती है फलक।
  4. चुनें कॉलम प्रबंधित करें.
  5. के लिए बदालना, चुनें स्तंभ छोड़ें.
  6. के लिए ड्रॉप करने के लिए कॉलम, चुनें यूनिक्स.
  7. चुनें पूर्वावलोकन.
  8. चुनें कदम बचाने के लिए।

हैंडल गायब

वास्तविक दुनिया के डेटासेट में गुम डेटा एक प्रसिद्ध समस्या है। इसलिए, किसी भी लापता या शून्य मान की उपस्थिति को सत्यापित करना और उन्हें उचित रूप से संभालना सबसे अच्छा अभ्यास है। हमारे डेटासेट में लापता मान नहीं हैं। लेकिन अगर वहाँ थे, तो हम इसका इस्तेमाल करेंगे हैंडल गायब समय श्रृंखला उन्हें ठीक करने के लिए बदल देती है। लापता डेटा को संभालने के लिए आमतौर पर इस्तेमाल की जाने वाली रणनीतियों में लापता मूल्यों के साथ पंक्तियों को छोड़ना या लापता मूल्यों को उचित अनुमानों से भरना शामिल है। क्योंकि समय श्रृंखला डेटा समय के साथ डेटा बिंदुओं के अनुक्रम पर निर्भर करता है, लापता मानों को भरना पसंदीदा तरीका है। लापता मानों को भरने की प्रक्रिया को कहा जाता है इलज़ामहैंडल गायब समय श्रृंखला परिवर्तन आपको कई आरोपण रणनीतियों में से चुनने की अनुमति देता है।

  1. चुनें + चरण जोड़ें में बदल देती है फलक।
  2. चुनना समय श्रृंखला बदलना।
  3. के लिए बदालना, चुनें हैंडल गायब.
  4. के लिए समय श्रृंखला इनपुट प्रकार, चुनें स्तंभ के साथ.
  5. के लिए मान लगाने की विधि, चुनें फॉरवर्ड फिल.

RSI फॉरवर्ड फिल विधि लापता मानों को लापता मानों से पहले गैर-अनुपलब्ध मानों से बदल देती है।

लापता समय श्रृंखला परिवर्तन को संभालें

बैकवर्ड फिल, नियत मान, सबसे आम मूल्य और बैठाना डेटा रैंगलर में अन्य आरोपण रणनीतियाँ उपलब्ध हैं। प्रक्षेप तकनीक लापता मूल्यों को भरने के लिए पड़ोसी मूल्यों पर निर्भर करती है। समय श्रृंखला डेटा अक्सर पड़ोसी मूल्यों के बीच सहसंबंध प्रदर्शित करता है, जिससे प्रक्षेप एक प्रभावी भरने की रणनीति बन जाता है। इंटरपोलेशन लागू करने के लिए आप जिन कार्यों का उपयोग कर सकते हैं, उन पर अतिरिक्त विवरण के लिए देखें पांडा.डेटाफ्रेम.इंटरपोलेट.

टाइमस्टैम्प मान्य करें

समय श्रृंखला विश्लेषण में, टाइमस्टैम्प कॉलम इंडेक्स कॉलम के रूप में कार्य करता है, जिसके चारों ओर विश्लेषण घूमता है। इसलिए, यह सुनिश्चित करना आवश्यक है कि टाइमस्टैम्प कॉलम में अमान्य या गलत तरीके से स्वरूपित टाइम स्टैम्प मान नहीं हैं। क्योंकि हम का उपयोग कर रहे हैं date कॉलम टाइमस्टैम्प कॉलम और इंडेक्स के रूप में, आइए पुष्टि करें कि इसके मान सही ढंग से स्वरूपित हैं।

  1. चुनें + चरण जोड़ें में बदल देती है फलक।
  2. चुनना समय श्रृंखला बदलना।
  3. के लिए रूपांतरण, चुनें टाइमस्टैम्प मान्य करें.

RSI टाइमस्टैम्प मान्य करें ट्रांसफॉर्म आपको यह जांचने की अनुमति देता है कि आपके डेटासेट के टाइमस्टैम्प कॉलम में गलत टाइमस्टैम्प या अनुपलब्ध मान वाले मान नहीं हैं।

  1. के लिए टाइमस्टैम्प कॉलम, चुनें डेटा.
  2. के लिए नीति ड्रॉपडाउन, चुनें संकेत मिलता है.

RSI संकेत मिलता है नीति विकल्प एक बूलियन कॉलम बनाता है जो दर्शाता है कि टाइमस्टैम्प कॉलम में मान मान्य दिनांक/समय प्रारूप है या नहीं। के लिए अन्य विकल्प नीति शामिल हैं:

  • त्रुटि - टाइमस्टैम्प कॉलम गुम या अमान्य होने पर एक त्रुटि फेंकता है
  • बूंद - टाइमस्टैम्प कॉलम गुम या अमान्य होने पर पंक्ति को छोड़ देता है
  1. चुनें पूर्वावलोकन.

नाम का एक नया बूलियन कॉलम date_is_valid के साथ बनाया गया था true सही प्रारूप और गैर-शून्य प्रविष्टियों को इंगित करने वाले मान। हमारे डेटासेट में अमान्य टाइमस्टैम्प मान शामिल नहीं हैं date स्तंभ। लेकिन अगर ऐसा होता है, तो आप उन मानों को पहचानने और ठीक करने के लिए नए बूलियन कॉलम का उपयोग कर सकते हैं।

टाइमस्टैम्प समय श्रृंखला परिवर्तन मान्य करें

  1. चुनें इस कदम को बचाने के लिए।

समय श्रृंखला विज़ुअलाइज़ेशन

डेटासेट को साफ और मान्य करने के बाद, हम इसके विभिन्न घटकों को समझने के लिए डेटा की बेहतर कल्पना कर सकते हैं।

रीसेंपल

क्योंकि हम दैनिक पूर्वानुमानों में रुचि रखते हैं, आइए डेटा की आवृत्ति को दैनिक में बदलें।

RSI रीसेंपल परिवर्तन समय श्रृंखला अवलोकनों की आवृत्ति को एक निर्दिष्ट ग्रैन्युलैरिटी में बदल देता है, और अपसैंपलिंग और डाउनसैंपलिंग दोनों विकल्पों के साथ आता है। अपसैंपलिंग को लागू करने से प्रेक्षणों की आवृत्ति बढ़ जाती है (उदाहरण के लिए दैनिक से प्रति घंटा), जबकि डाउनसैंपलिंग टिप्पणियों की आवृत्ति कम कर देता है (उदाहरण के लिए प्रति घंटा से दैनिक)।

चूंकि हमारा डेटासेट मिनट ग्रैन्युलैरिटी पर है, आइए डाउनसैंपलिंग विकल्प का उपयोग करें।

  1. चुनें + चरण जोड़ें.
  2. चुनना समय श्रृंखला बदलना।
  3. के लिए बदालना, चुनें रीसेंपल.
  4. के लिए टाइमस्टैम्प, चुनें डेटा.
  5. के लिए आवृत्ति इकाई, चुनें कैलेंडर दिवस.
  6. के लिए आवृत्ति मात्रा, 1 दर्ज करें।
  7. के लिए संख्यात्मक मानों को एकत्रित करने की विधि, चुनें मतलब.
  8. चुनें पूर्वावलोकन.

हमारे डेटासेट की आवृत्ति प्रति मिनट से बदलकर दैनिक हो गई है।

Amazon SageMaker डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ टाइम सीरीज़ डेटा तैयार करें। लंबवत खोज। ऐ.

  1. चुनें इस कदम को बचाने के लिए।

मौसमी-प्रवृत्ति अपघटन

पुन: नमूनाकरण के बाद, हम रूपांतरित श्रृंखला और उससे जुड़े एसटीएल (LOESS का उपयोग करके मौसमी और प्रवृत्ति अपघटन) घटकों का उपयोग करके कल्पना कर सकते हैं मौसमी-प्रवृत्ति-अपघटन दृश्य. यह मूल समय श्रृंखला को अलग-अलग प्रवृत्ति, मौसमी और अवशिष्ट घटकों में तोड़ देता है, जिससे हमें एक अच्छी समझ मिलती है कि प्रत्येक पैटर्न कैसे व्यवहार करता है। हम इस जानकारी का उपयोग पूर्वानुमान समस्याओं की मॉडलिंग करते समय भी कर सकते हैं।

डेटा रैंगलर LOESS का उपयोग करता है, जो मॉडलिंग की प्रवृत्ति और मौसमी घटकों के लिए एक मजबूत और बहुमुखी सांख्यिकीय पद्धति है। यह अंतर्निहित कार्यान्वयन समय श्रृंखला घटकों (मौसमी, प्रवृत्ति और अवशिष्ट) में मौजूद गैर-रेखीय संबंधों के आकलन के लिए बहुपद प्रतिगमन का उपयोग करता है।

  1. चुनें डेटा प्रवाह पर वापस जाएं.
  2. के आगे धन चिह्न चुनें कदम on डाटा प्रवाह.
  3. चुनें विश्लेषण जोड़ें.
  4. में विश्लेषण बनाएं फलक, के लिए विश्लेषण प्रकार, चुनें समय श्रृंखला.
  5. के लिए विज़ुअलाइज़ेशन, चुनें मौसमी-प्रवृत्ति अपघटन.
  6. के लिए विश्लेषण नाम, नाम डालें।
  7. के लिए टाइमस्टैम्प कॉलम, चुनें डेटा.
  8. के लिए मान स्तंभ, चुनें वॉल्यूम यूएसडी.
  9. चुनें पूर्वावलोकन.

विश्लेषण हमें इनपुट समय श्रृंखला और विघटित मौसमी, प्रवृत्ति और अवशिष्ट की कल्पना करने की अनुमति देता है।

Amazon SageMaker डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ टाइम सीरीज़ डेटा तैयार करें। लंबवत खोज। ऐ.

  1. चुनें सहेजें विश्लेषण को बचाने के लिए।

उसके साथ मौसमी-प्रवृत्ति अपघटन विज़ुअलाइज़ेशन, हम चार पैटर्न उत्पन्न कर सकते हैं, जैसा कि पिछले स्क्रीनशॉट में दिखाया गया है:

  • मूल - मूल समय श्रृंखला को दैनिक ग्रैन्युलैरिटी के लिए फिर से नमूना किया गया।
  • प्रवृत्ति - वर्ष 2021 के लिए एक समग्र नकारात्मक प्रवृत्ति पैटर्न के साथ बहुपद प्रवृत्ति, में कमी का संकेत है Volume USD मूल्य.
  • ऋतु - अलग-अलग दोलन पैटर्न द्वारा दर्शाए गए गुणक मौसमी। हम मौसमी भिन्नता में कमी देखते हैं, जो दोलनों के घटते आयाम की विशेषता है।
  • अवशिष्ट - शेष अवशिष्ट या यादृच्छिक शोर। अवशिष्ट श्रृंखला प्रवृत्ति के बाद परिणामी श्रृंखला है और मौसमी घटकों को हटा दिया गया है। बारीकी से देखने पर, हम जनवरी और मार्च के बीच, और अप्रैल और जून के बीच, ऐतिहासिक डेटा का उपयोग करके ऐसी विशेष घटनाओं के मॉडलिंग के लिए जगह का सुझाव देते हुए देखते हैं।

ये विज़ुअलाइज़ेशन डेटा वैज्ञानिकों और विश्लेषकों को मौजूदा पैटर्न में मूल्यवान लीड प्रदान करते हैं और मॉडलिंग रणनीति चुनने में आपकी सहायता कर सकते हैं। हालांकि, वर्णनात्मक विश्लेषण और डोमेन विशेषज्ञता के माध्यम से एकत्रित जानकारी के साथ एसटीएल अपघटन के आउटपुट को मान्य करना हमेशा एक अच्छा अभ्यास है।

संक्षेप में, हम मूल श्रृंखला विज़ुअलाइज़ेशन के अनुरूप एक नीचे की ओर रुझान देखते हैं, जो ट्रेंड विज़ुअलाइज़ेशन द्वारा दी गई जानकारी को डाउनस्ट्रीम निर्णय लेने में शामिल करने में हमारे आत्मविश्वास को बढ़ाता है। इसके विपरीत, मौसमी विज़ुअलाइज़ेशन मौसमी की उपस्थिति को सूचित करने में मदद करता है और अंतर जैसी तकनीकों को लागू करके इसे हटाने की आवश्यकता है, यह मौजूद विभिन्न मौसमी पैटर्न में विस्तृत अंतर्दृष्टि का वांछित स्तर प्रदान नहीं करता है, जिससे गहन विश्लेषण की आवश्यकता होती है।

फ़ीचर इंजीनियरिंग

हमारे डेटासेट में मौजूद पैटर्न को समझने के बाद, हम पूर्वानुमान मॉडल की सटीकता बढ़ाने के उद्देश्य से नई सुविधाओं को इंजीनियर करना शुरू कर सकते हैं।

दिनांक समय प्रदर्शित करें

आइए अधिक सरल दिनांक/समय सुविधाओं के साथ फीचर इंजीनियरिंग प्रक्रिया शुरू करें। दिनांक/समय सुविधाएँ से बनाई गई हैं timestamp कॉलम और डेटा वैज्ञानिकों के लिए फीचर इंजीनियरिंग प्रक्रिया शुरू करने के लिए एक इष्टतम अवसर प्रदान करते हैं। हम से शुरू करते हैं दिनांक समय प्रदर्शित करें हमारे डेटासेट में महीने, महीने का दिन, वर्ष का दिन, वर्ष का सप्ताह और तिमाही सुविधाओं को जोड़ने के लिए समय श्रृंखला परिवर्तन। चूंकि हम अलग-अलग सुविधाओं के रूप में दिनांक/समय घटक प्रदान कर रहे हैं, इसलिए हम भविष्यवाणी सटीकता में सुधार के लिए एमएल एल्गोरिदम को संकेतों और पैटर्न का पता लगाने में सक्षम बनाते हैं।

  1. चुनें + चरण जोड़ें.
  2. चुनना समय श्रृंखला बदलना।
  3. के लिए रूपांतरण, चुनें दिनांक समय प्रदर्शित करें.
  4. के लिए इनपुट कॉलम, चुनें डेटा.
  5. के लिए आउटपुट कॉलम, दर्ज date (यह चरण वैकल्पिक है)।
  6. के लिए आउटपुट मोड, चुनें क्रमवाचक.
  7. के लिए आउटपुट स्वरूप, चुनें स्तंभ.
  8. निकालने के लिए दिनांक/समय सुविधाओं के लिए, चुनें महीना, दिन, वर्ष का सप्ताह, साल का दिन, तथा तिमाही.
  9. चुनें पूर्वावलोकन.

डेटासेट में अब नाम के नए कॉलम शामिल हैं date_month, date_day, date_week_of_year, date_day_of_year, तथा date_quarter. इन नई सुविधाओं से प्राप्त जानकारी डेटा वैज्ञानिकों को डेटा से और इनपुट सुविधाओं और आउटपुट सुविधाओं के बीच संबंधों में अतिरिक्त अंतर्दृष्टि प्राप्त करने में मदद कर सकती है।

डेटाटाइम टाइम सीरीज़ ट्रांसफ़ॉर्म करें

  1. चुनें इस कदम को बचाने के लिए।

सांकेतिक शब्दों में बदलना

दिनांक/समय सुविधाएँ पूर्णांक मानों तक सीमित नहीं हैं। आप कुछ निकाले गए दिनांक/समय सुविधाओं को श्रेणीबद्ध चर के रूप में मान सकते हैं और उन्हें एक-हॉट एन्कोडेड सुविधाओं के रूप में प्रस्तुत कर सकते हैं, प्रत्येक कॉलम में बाइनरी मान होते हैं। नव निर्मित date_quarter कॉलम में 0-3 के बीच के मान होते हैं, और चार बाइनरी कॉलम का उपयोग करके एक-हॉट एन्कोड किया जा सकता है। आइए चार नई बाइनरी विशेषताएं बनाएं, जिनमें से प्रत्येक वर्ष की इसी तिमाही का प्रतिनिधित्व करती है।

  1. चुनें + चरण जोड़ें.
  2. चुनना सांकेतिक शब्दों में बदलना बदलना।
  3. के लिए बदालना, चुनें एक गर्म सांकेतिक शब्दों में बदलना.
  4. के लिए इनपुट कॉलम, चुनें दिनांक_तिमाही.
  5. के लिए आउटपुट शैली, चुनें स्तंभ.
  6. चुनें पूर्वावलोकन.
  7. चुनें कदम जोड़ने के लिए।

Amazon SageMaker डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ टाइम सीरीज़ डेटा तैयार करें। लंबवत खोज। ऐ.

अंतराल सुविधा

इसके बाद, लक्ष्य कॉलम के लिए लैग फीचर बनाते हैं Volume USD. समय श्रृंखला विश्लेषण में अंतराल विशेषताएं पूर्व टाइमस्टैम्प पर मान हैं जिन्हें भविष्य के मूल्यों का अनुमान लगाने में सहायक माना जाता है। वे ऑटोसहसंबंध की पहचान करने में भी मदद करते हैं (जिन्हें के रूप में भी जाना जाता है) क्रमिक सहसंबंध) पिछले समय के चरणों में अवलोकन के साथ अवलोकन के संबंध को मापकर अवशिष्ट श्रृंखला में पैटर्न। ऑटोसहसंबंध नियमित सहसंबंध के समान है लेकिन एक श्रृंखला में मूल्यों और उसके पिछले मूल्यों के बीच है। यह एआरआईएमए श्रृंखला में ऑटोरेग्रेसिव फोरकास्टिंग मॉडल का आधार बनाता है।

डेटा रैंगलर के साथ अंतराल सुविधा परिवर्तन, आप आसानी से अंतराल सुविधाओं n अवधियों को अलग बना सकते हैं। इसके अतिरिक्त, हम अक्सर अलग-अलग अंतराल पर कई अंतराल सुविधाएँ बनाना चाहते हैं और मॉडल को सबसे सार्थक विशेषताओं का निर्णय लेने देते हैं। ऐसे परिदृश्य के लिए, अंतराल विशेषताएं ट्रांसफॉर्म एक निर्दिष्ट विंडो आकार में कई लैग कॉलम बनाने में मदद करता है।

  1. चुनें डेटा प्रवाह पर वापस जाएं.
  2. के आगे धन चिह्न चुनें कदम on डाटा प्रवाह.
  3. चुनें + चरण जोड़ें.
  4. चुनें समय श्रृंखला बदलना।
  5. के लिए बदालना, चुनें अंतराल विशेषताएं.
  6. के लिए इस कॉलम के लिए लैग फीचर जेनरेट करें, चुनें वॉल्यूम यूएसडी.
  7. के लिए टाइमस्टैम्प कॉलम, चुनें डेटा.
  8. के लिए टीम, दर्ज 7.
  9. चूँकि हम पिछले सात लैग मानों का अवलोकन करने में रुचि रखते हैं, आइए चुनें संपूर्ण अंतराल विंडो शामिल करें.
  10. प्रत्येक लैग मान के लिए एक नया कॉलम बनाने के लिए, चुनें आउटपुट समतल करें.
  11. चुनें पूर्वावलोकन.

सात नए कॉलम जोड़े गए हैं, जो के साथ प्रत्यय हैं lag_number लक्ष्य कॉलम के लिए कीवर्ड Volume USD.

अंतराल सुविधा समय श्रृंखला परिवर्तन

  1. चुनें कदम बचाने के लिए।

रोलिंग विंडो की विशेषताएं

हम मूल्यों की एक श्रृंखला में सार्थक सांख्यिकीय सारांशों की गणना भी कर सकते हैं और उन्हें इनपुट सुविधाओं के रूप में शामिल कर सकते हैं। आइए सामान्य सांख्यिकीय समय श्रृंखला विशेषताओं को निकालें।

डेटा रैंगलर ओपन सोर्स का उपयोग करके स्वचालित समय श्रृंखला सुविधा निष्कर्षण क्षमताओं को लागू करता है त्सफ्रेश पैकेज। टाइम सीरीज़ फ़ीचर एक्सट्रैक्शन ट्रांसफ़ॉर्म के साथ, आप फ़ीचर एक्सट्रैक्शन प्रक्रिया को स्वचालित कर सकते हैं। यह समय और प्रयास को समाप्त करता है अन्यथा सिग्नल प्रोसेसिंग पुस्तकालयों को मैन्युअल रूप से लागू करने में खर्च होता है। इस पोस्ट के लिए, हम सुविधाओं का उपयोग करके निकालते हैं रोलिंग विंडो की विशेषताएं रूपान्तरण। यह विधि खिड़की के आकार द्वारा परिभाषित टिप्पणियों के एक समूह में सांख्यिकीय गुणों की गणना करती है।

  1. चुनें + चरण जोड़ें.
  2. चुनना समय श्रृंखला बदलना।
  3. के लिए बदालना, चुनें रोलिंग विंडो की विशेषताएं.
  4. के लिए इस कॉलम के लिए रोलिंग विंडो सुविधाएँ उत्पन्न करें, चुनें वॉल्यूम यूएसडी.
  5. के लिए टाइमस्टैम्प कॉलम, चुनें डेटा.
  6. के लिए खिड़की का आकार, दर्ज 7.

विंडो का आकार निर्दिष्ट करना 7 मौजूदा टाइमस्टैम्प पर मान और पिछले सात टाइमस्टैम्प के मानों को मिलाकर सुविधाओं की गणना करता है।

  1. चुनते हैं समतल प्रत्येक गणना की गई सुविधा के लिए एक नया कॉलम बनाने के लिए।
  2. अपनी रणनीति चुनें न्यूनतम उपसमुच्चय.

यह रणनीति आठ विशेषताओं को निकालती है जो डाउनस्ट्रीम विश्लेषण में उपयोगी हैं। अन्य रणनीतियों में शामिल हैं कुशल सबसेट, कस्टम सबसेट, तथा सभी सुविधाएं. निष्कर्षण के लिए उपलब्ध सुविधाओं की पूरी सूची के लिए देखें निकाली गई सुविधाओं पर अवलोकन.

  1. चुनें पूर्वावलोकन.

हम निर्दिष्ट विंडो आकार के साथ आठ नए कॉलम देख सकते हैं 7 उनके नाम पर, हमारे डेटासेट में जोड़ा गया।

  1. चुनें कदम बचाने के लिए।

Amazon SageMaker डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ टाइम सीरीज़ डेटा तैयार करें। लंबवत खोज। ऐ.

डेटासेट निर्यात करें

हमने समय श्रृंखला डेटासेट को बदल दिया है और पूर्वानुमानित एल्गोरिथम के इनपुट के रूप में रूपांतरित डेटासेट का उपयोग करने के लिए तैयार हैं। अंतिम चरण रूपांतरित डेटासेट को Amazon S3 में निर्यात करना है। डेटा रैंगलर में, आप चुन सकते हैं निर्यात कदम परिवर्तित डेटासेट को S3 बकेट में संसाधित करने और निर्यात करने के लिए Amazon SageMaker प्रोसेसिंग कोड के साथ स्वचालित रूप से एक Jupyter नोटबुक उत्पन्न करने के लिए। हालाँकि, क्योंकि हमारे डेटासेट में केवल 300 से अधिक रिकॉर्ड हैं, आइए इसका लाभ उठाएं निर्यात जानकारी में विकल्प परिवर्तन जोड़ें डेटा रैंगलर से सीधे परिवर्तित डेटासेट को Amazon S3 में निर्यात करने के लिए देखें।

  1. चुनें निर्यात जानकारी.

Amazon SageMaker डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ टाइम सीरीज़ डेटा तैयार करें। लंबवत खोज। ऐ.

  1. के लिए S3 स्थान, चुनें ब्राउज़र और अपनी S3 बाल्टी चुनें।
  2. चुनें निर्यात जानकारी.

Amazon SageMaker डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ टाइम सीरीज़ डेटा तैयार करें। लंबवत खोज। ऐ.

अब जब हमने बिटकॉइन डेटासेट को सफलतापूर्वक बदल दिया है, तो हम इसका उपयोग कर सकते हैं अमेज़न का पूर्वानुमान बिटकॉइन भविष्यवाणियां उत्पन्न करने के लिए।

क्लीन अप

यदि आप इस उपयोग के मामले के साथ काम कर चुके हैं, तो अतिरिक्त शुल्क लेने से बचने के लिए आपके द्वारा बनाए गए संसाधनों को साफ करें। डेटा रैंगलर के लिए समाप्त होने पर आप अंतर्निहित उदाहरण को बंद कर सकते हैं। को देखें शट डाउन डेटा रैंगलर विवरण के लिए दस्तावेज। वैकल्पिक रूप से, आप जारी रख सकते हैं भाग 2 इस श्रृंखला के पूर्वानुमान के लिए इस डेटासेट का उपयोग करने के लिए।

सारांश

इस पोस्ट ने प्रदर्शित किया कि डेटा रैंगलर का उपयोग कैसे किया जाए ताकि इसकी अंतर्निहित समय श्रृंखला क्षमताओं का उपयोग करके समय श्रृंखला विश्लेषण को सरल और तेज किया जा सके। हमने पता लगाया कि कैसे डेटा वैज्ञानिक सार्थक विश्लेषण के लिए समय श्रृंखला डेटा को आसानी से और अंतःक्रियात्मक रूप से साफ, प्रारूपित, मान्य और वांछित प्रारूप में बदल सकते हैं। हमने यह भी पता लगाया कि आप डेटा रैंगलर का उपयोग करके सांख्यिकीय विशेषताओं का एक व्यापक सेट जोड़कर अपने समय श्रृंखला विश्लेषण को कैसे समृद्ध कर सकते हैं। डेटा रैंगलर में समय श्रृंखला परिवर्तन के बारे में अधिक जानने के लिए, देखें डेटा ट्रांसफ़ॉर्म करें.


लेखक के बारे में

Amazon SageMaker डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ टाइम सीरीज़ डेटा तैयार करें। लंबवत खोज। ऐ.रूप बैंस एआई/एमएल पर ध्यान केंद्रित करते हुए एडब्ल्यूएस में एक समाधान वास्तुकार है। वह आर्टिफिशियल इंटेलिजेंस और मशीन लर्निंग का उपयोग करके ग्राहकों को नवाचार करने और उनके व्यावसायिक उद्देश्यों को प्राप्त करने में मदद करने के लिए भावुक है। अपने खाली समय में रूप को पढ़ना और लंबी पैदल यात्रा करना पसंद है।

Amazon SageMaker डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ टाइम सीरीज़ डेटा तैयार करें। लंबवत खोज। ऐ.निकिता इवकिना एक अनुप्रयुक्त वैज्ञानिक, अमेज़ॅन सेजमेकर डेटा रैंगलर है।

समय टिकट:

से अधिक AWS मशीन लर्निंग

क्विकसाइट में अमेज़ॅन क्यू बिजनेस और अमेज़ॅन क्यू कर्मचारियों को अधिक डेटा-संचालित होने और कंपनी के ज्ञान का उपयोग करके बेहतर, तेज़ निर्णय लेने का अधिकार देता है | अमेज़न वेब सेवाएँ

स्रोत नोड: 1969885
समय टिकट: अप्रैल 30, 2024