قم بإعداد بيانات السلاسل الزمنية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

قم بإعداد بيانات السلاسل الزمنية باستخدام Amazon SageMaker Data Wrangler

بيانات السلاسل الزمنية موجودة على نطاق واسع في حياتنا. أسعار الأسهم ، وأسعار المنازل ، ومعلومات الطقس ، وبيانات المبيعات التي تم الحصول عليها بمرور الوقت هي مجرد أمثلة قليلة. نظرًا لأن الشركات تبحث بشكل متزايد عن طرق جديدة لاكتساب رؤى ذات مغزى من بيانات السلاسل الزمنية ، فإن القدرة على تصور البيانات وتطبيق التحولات المرغوبة هي خطوات أساسية. ومع ذلك ، تمتلك بيانات السلاسل الزمنية خصائص فريدة وفروق دقيقة مقارنةً بأنواع البيانات المجدولة الأخرى ، وتتطلب اعتبارات خاصة. على سبيل المثال ، يتم جمع البيانات الجدولية أو المقطعية القياسية في نقطة زمنية محددة. في المقابل ، يتم التقاط بيانات السلاسل الزمنية بشكل متكرر بمرور الوقت ، حيث تعتمد كل نقطة بيانات متتالية على قيمها السابقة.

نظرًا لأن معظم تحليلات السلاسل الزمنية تعتمد على المعلومات التي تم جمعها عبر مجموعة متجاورة من الملاحظات ، فإن البيانات المفقودة والتناثر المتأصل يمكن أن يقلل من دقة التنبؤات ويؤدي إلى التحيز. بالإضافة إلى ذلك ، تعتمد معظم مناهج تحليل السلاسل الزمنية على مسافات متساوية بين نقاط البيانات ، وبعبارة أخرى ، دورية. لذلك ، فإن القدرة على إصلاح المخالفات في تباعد البيانات شرط مسبق بالغ الأهمية. أخيرًا ، يتطلب تحليل السلاسل الزمنية غالبًا إنشاء ميزات إضافية يمكن أن تساعد في شرح العلاقة المتأصلة بين بيانات الإدخال والتنبؤات المستقبلية. كل هذه العوامل تميز مشاريع السلاسل الزمنية عن سيناريوهات التعلم الآلي التقليدية (ML) وتتطلب نهجًا متميزًا لتحليلها.

هذا المنشور يشرح كيفية الاستخدام أمازون سيج ميكر داتا رانجلر لتطبيق تحويلات السلاسل الزمنية وإعداد مجموعة البيانات الخاصة بك لحالات استخدام السلاسل الزمنية.

حالات الاستخدام لبيانات رانجلر

يوفر Data Wrangler حلاً بدون رمز / رمز منخفض لتحليل السلاسل الزمنية مع ميزات لتنظيف البيانات وتحويلها وإعدادها بشكل أسرع. كما أنه يمكّن علماء البيانات من إعداد بيانات السلاسل الزمنية وفقًا لمتطلبات تنسيق الإدخال لنموذج التنبؤ الخاص بهم. فيما يلي بعض الطرق التي يمكنك من خلالها استخدام هذه الإمكانات:

  • التحليل الوصفي- عادةً ما تكون الخطوة الأولى في أي مشروع لعلوم البيانات هي فهم البيانات. عندما نرسم بيانات السلاسل الزمنية ، نحصل على نظرة عامة عالية المستوى لأنماطها ، مثل الاتجاه والموسمية والدورات والتغيرات العشوائية. يساعدنا في تحديد منهجية التنبؤ الصحيحة لتمثيل هذه الأنماط بدقة. يمكن أن يساعد التخطيط أيضًا في تحديد القيم المتطرفة ، ومنع التنبؤات غير الواقعية وغير الدقيقة. تأتي داتا رانجلر مع تصور تحلل الاتجاه الموسمي لتمثيل مكونات سلسلة زمنية ، و تصور الكشف الخارجى لتحديد القيم المتطرفة.
  • تحليل توضيحي- بالنسبة للسلاسل الزمنية متعددة المتغيرات ، فإن القدرة على استكشاف العلاقة بين سلسلتين زمنيتين أو أكثر وتحديدها ونمذجتها ضرورية للحصول على تنبؤات ذات مغزى. ال مجموعة من يؤدي التحويل في Data Wrangler إلى إنشاء سلاسل زمنية متعددة عن طريق تجميع البيانات لخلايا محددة. بالإضافة إلى ذلك ، تقوم السلاسل الزمنية لـ Data Wrangler ، عند الاقتضاء ، بتحديد أعمدة معرف إضافية لتجميعها ، مما يتيح تحليل السلاسل الزمنية المعقدة.
  • إعداد البيانات وهندسة الميزات- نادراً ما تكون بيانات السلاسل الزمنية بالصيغة التي تتوقعها نماذج السلاسل الزمنية. غالبًا ما يتطلب إعداد البيانات لتحويل البيانات الأولية إلى ميزات خاصة بالسلاسل الزمنية. قد ترغب في التحقق من صحة أن بيانات السلاسل الزمنية متباعدة بانتظام أو متساوية قبل التحليل. للتنبؤ بحالات الاستخدام ، قد ترغب أيضًا في دمج خصائص سلاسل زمنية إضافية ، مثل الارتباط التلقائي والخصائص الإحصائية. باستخدام Data Wrangler ، يمكنك إنشاء ميزات السلاسل الزمنية بسرعة مثل أعمدة التأخر لفترات تأخر متعددة ، وإعادة عينة البيانات إلى تفاصيل زمنية متعددة ، واستخراج الخصائص الإحصائية تلقائيًا لسلسلة زمنية ، على سبيل المثال لا الحصر.

حل نظرة عامة

يوضح هذا المنشور كيف يمكن لعلماء ومحللي البيانات استخدام Data Wrangler لتصور بيانات السلاسل الزمنية وإعدادها. نستخدم مجموعة بيانات عملة البيتكوين المشفرة من cryptodatadownload مع تفاصيل تداول البيتكوين لعرض هذه الإمكانات. نقوم بتنظيف مجموعة البيانات الأولية والتحقق منها وتحويلها باستخدام ميزات السلاسل الزمنية وأيضًا إنشاء توقعات لأسعار حجم البيتكوين باستخدام مجموعة البيانات المحولة كمدخلات.

عينة بيانات تداول البيتكوين من 1 يناير - 19 نوفمبر 2021 ، مع 464,116 نقطة بيانات. تتضمن سمات مجموعة البيانات طابعًا زمنيًا لسجل السعر ، والسعر الافتتاحي أو الأول الذي تم به تبادل العملة ليوم معين ، وأعلى سعر تم تبادل العملة به في اليوم ، وآخر سعر تم تداول العملة به اليوم ، الحجم المتبادل بقيمة العملة المشفرة في اليوم بالبيتكوين ، وعملة الدولار المقابلة.

المتطلبات الأساسية المسبقة

تحميل Bitstamp_BTCUSD_2021_minute.csv ملف من cryptodatadownload وتحميله على خدمة Amazon Simple Storage (Amazon S3).

استيراد مجموعة بيانات البيتكوين في Data Wrangler

لبدء عملية الاستيعاب لـ Data Wrangler ، أكمل الخطوات التالية:

  1. على استوديو SageMaker تعزية ، على قم بتقديم القائمة، اختر جديد، ثم اختر تدفق رانجلر البيانات.
  2. أعد تسمية التدفق حسب الرغبة.
  3. في حالة تواريخ الاستيراد، اختر الأمازون S3.
  4. تحميل Bitstamp_BTCUSD_2021_minute.csv ملف من دلو S3 الخاص بك.

يمكنك الآن معاينة مجموعة البيانات الخاصة بك.

  1. في مجلة التفاصيل جزء ، اختر التكوين المتقدم وإلغاء الاختيار تمكين أخذ العينات.

هذه مجموعة بيانات صغيرة نسبيًا ، لذلك لا نحتاج إلى أخذ عينات.

  1. اختار استيراد.

لقد نجحت في إنشاء مخطط التدفق وأنت جاهز لإضافة خطوات التحويل.

قم بإعداد بيانات السلاسل الزمنية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

أضف التحولات

لإضافة تحويلات البيانات ، اختر علامة الجمع الموجودة بجانب أنواع البيانات واختر تحرير أنواع البيانات.

قم بإعداد بيانات السلاسل الزمنية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

تأكد من أن Data Wrangler استنتج تلقائيًا أنواع البيانات الصحيحة لأعمدة البيانات.

في حالتنا ، أنواع البيانات المستنبطة صحيحة. ومع ذلك ، افترض أن أحد أنواع البيانات غير صحيح. يمكنك تعديلها بسهولة من خلال واجهة المستخدم ، كما هو موضح في لقطة الشاشة التالية.

تحرير ومراجعة أنواع البيانات

لنبدأ التحليل ونبدأ في إضافة التحولات.

تنظيف البيانات

نقوم أولاً بإجراء العديد من عمليات تحويل تنظيف البيانات.

عمود الإسقاط

لنبدأ بإسقاط ملف unix العمود ، لأننا نستخدم date العمود كفهرس.

  1. اختار العودة إلى تدفق البيانات.
  2. اختر علامة الجمع الموجودة بجانب أنواع البيانات واختر أضف التحويل.
  3. اختار + أضف خطوة في ال عمليات النقل الجزء.
  4. اختار إدارة الأعمدة.
  5. في حالة تحول، اختر عمود الإسقاط.
  6. في حالة العمود المراد إسقاطه، اختر يونيكس.
  7. اختار أرسال.
  8. اختار أضف لحفظ الخطوة.

التعامل مع المفقودين

البيانات المفقودة هي مشكلة معروفة في مجموعات البيانات الواقعية. لذلك ، من أفضل الممارسات التحقق من وجود أي قيم مفقودة أو فارغة والتعامل معها بشكل مناسب. لا تحتوي مجموعة البيانات الخاصة بنا على قيم مفقودة. ولكن إذا كان هناك ، فسنستخدم ملف التعامل مع المفقودين سلسلة زمنية تتحول لإصلاحها. تتضمن الاستراتيجيات شائعة الاستخدام لمعالجة البيانات المفقودة إسقاط صفوف ذات قيم مفقودة أو ملء القيم المفقودة بتقديرات معقولة. نظرًا لأن بيانات السلاسل الزمنية تعتمد على سلسلة من نقاط البيانات عبر الوقت ، فإن ملء القيم المفقودة هو الأسلوب المفضل. يشار إلى عملية ملء القيم المفقودة باسم عزو. التعامل مع المفقودين يسمح لك تحويل السلاسل الزمنية بالاختيار من بين استراتيجيات احتساب متعددة.

  1. اختار + أضف خطوة في ال عمليات النقل الجزء.
  2. اختيار السلاسل الزمنية تحول.
  3. في حالة تحولاختر التعامل مع المفقودين.
  4. في حالة نوع إدخال السلاسل الزمنية، اختر على طول العمود.
  5. في حالة طريقة احتساب القيم، اختر تعبئة أمامية.

تعبئة أمامية الأسلوب يستبدل القيم المفقودة بقيم غير مفقودة تسبق القيم المفقودة.

التعامل مع تحويل السلاسل الزمنية المفقودة

تعبئة للخلف, قيمة ثابتة, القيمة الأكثر شيوعًا و تحقق هي استراتيجيات احتساب أخرى متاحة في Data Wrangler. تعتمد تقنيات الاستيفاء على القيم المجاورة لملء القيم المفقودة. غالبًا ما تُظهر بيانات السلاسل الزمنية ارتباطًا بين القيم المجاورة ، مما يجعل الاستيفاء استراتيجية تعبئة فعالة. للحصول على تفاصيل إضافية حول الوظائف التي يمكنك استخدامها لتطبيق الاستيفاء ، يرجى الرجوع إلى pandas.DataFrame.interpolate.

تحقق من الطابع الزمني

في تحليل السلاسل الزمنية ، يعمل عمود الطابع الزمني كعمود الفهرس ، والذي يدور حوله التحليل. لذلك ، من الضروري التأكد من أن عمود الطابع الزمني لا يحتوي على قيم طابع زمني غير صالحة أو منسقة بشكل غير صحيح. لأننا نستخدم ملف date كعمود وفهرس الطابع الزمني ، فلنتأكد من تنسيق قيمه بشكل صحيح.

  1. اختار + أضف خطوة في ال عمليات النقل الجزء.
  2. اختيار السلاسل الزمنية تحول.
  3. في حالة تحول، اختر تحقق من الطوابع الزمنية.

تحقق من الطوابع الزمنية يتيح لك التحويل التحقق من عدم احتواء عمود الطابع الزمني في مجموعة البيانات على قيم ذات طابع زمني غير صحيح أو قيم مفقودة.

  1. في حالة عمود الطابع الزمني، اختر تاريخ.
  2. في حالة الخصوصية القائمة المنسدلة ، اختر تشير.

تشير ينشئ خيار السياسة عمودًا منطقيًا يشير إلى ما إذا كانت القيمة في عمود الطابع الزمني هي تنسيق تاريخ / وقت صالح. خيارات أخرى لـ الخصوصية تتضمن:

  • خطأ - يقوم بإعطاء خطأ إذا كان عمود الطابع الزمني مفقودًا أو غير صالح
  • قطرة - يسقط الصف إذا كان عمود الطابع الزمني مفقودًا أو غير صالح
  1. اختار أرسال.

عمود منطقي جديد مسمى date_is_valid تم إنشاؤه ، مع true القيم التي تشير إلى التنسيق الصحيح وإدخالات غير فارغة. لا تحتوي مجموعة البيانات الخاصة بنا على قيم طابع زمني غير صالحة في ملف date عمودي. ولكن إذا حدث ذلك ، يمكنك استخدام العمود المنطقي الجديد لتحديد هذه القيم وإصلاحها.

تحقق من صحة تحويل السلسلة الزمنية للطابع الزمني

  1. اختار أضف لحفظ هذه الخطوة.

تصور السلاسل الزمنية

بعد أن نقوم بتنظيف مجموعة البيانات والتحقق منها ، يمكننا تصور البيانات بشكل أفضل لفهم مكوناتها المختلفة.

إعادة أخذ العينات

نظرًا لأننا مهتمون بالتنبؤات اليومية ، فلنحول تكرار البيانات إلى يومي.

إعادة أخذ العينات يغير التحويل تواتر ملاحظات السلاسل الزمنية إلى مستوى محدد ، ويأتي مع كل من خيارات الاختزال والاختزال. يؤدي تطبيق الاختزال إلى زيادة تكرار الملاحظات (على سبيل المثال من يوميًا إلى كل ساعة) ، في حين أن الاختزال يقلل من تكرار الملاحظات (على سبيل المثال من كل ساعة إلى يومية).

نظرًا لأن مجموعة البيانات لدينا ذات دقة دقيقة ، فلنستخدم خيار الاختزال.

  1. اختار + أضف خطوة.
  2. اختيار السلاسل الزمنية تحول.
  3. في حالة تحول، اختر إعادة أخذ العينات.
  4. في حالة الطابع الزمني، اختر تاريخ.
  5. في حالة وحدة التردد، اختر التقويم اليومي.
  6. في حالة كمية التردد، أدخل 1.
  7. في حالة طريقة لتجميع القيم الرقمية، اختر تعني.
  8. اختار أرسال.

تم تغيير معدل تكرار مجموعة البيانات لدينا من الدقيقة إلى اليومية.

قم بإعداد بيانات السلاسل الزمنية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

  1. اختار أضف لحفظ هذه الخطوة.

تحلل الاتجاه الموسمي

بعد إعادة التشكيل ، يمكننا تصور السلسلة المحولة والمكونات المرتبطة بها STL (التحلل الموسمي والاتجاه باستخدام LOESS) باستخدام التحلل الموسمي الاتجاه التصور. يؤدي هذا إلى تقسيم السلاسل الزمنية الأصلية إلى اتجاه مميز ومكونات موسمية ومكونات متبقية ، مما يمنحنا فهمًا جيدًا لكيفية تصرف كل نمط. يمكننا أيضًا استخدام المعلومات عند نمذجة مشاكل التنبؤ.

يستخدم Data Wrangler طريقة LOESS ، وهي طريقة إحصائية قوية ومتعددة الاستخدامات لنمذجة الاتجاه والمكونات الموسمية. يستخدم التنفيذ الأساسي انحدار متعدد الحدود لتقدير العلاقات غير الخطية الموجودة في مكونات السلاسل الزمنية (الموسمية ، والاتجاه ، والمتبقي).

  1. اختار العودة إلى تدفق البيانات.
  2. اختر علامة الجمع الموجودة بجانب خطوات on تدفق البيانات.
  3. اختار أضف التحليل.
  4. في مجلة إنشاء التحليل جزء من أجل نوع التحليل ، اختر السلاسل الزمنية.
  5. في حالة تصور، اختر تحلل الاتجاه الموسمي.
  6. في حالة اسم التحليل، إدخال اسم.
  7. في حالة عمود الطابع الزمني، اختر تاريخ.
  8. في حالة عمود القيمة، اختر الحجم بالدولار الأمريكي.
  9. اختار أرسال.

يسمح لنا التحليل بتصور السلاسل الزمنية للإدخال والموسمية المتحللة والاتجاه والمتبقي.

قم بإعداد بيانات السلاسل الزمنية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

  1. اختار حفظ لحفظ التحليل.

مع تصور انحلال الاتجاه الموسمي، يمكننا إنشاء أربعة أنماط ، كما هو موضح في لقطة الشاشة السابقة:

  • أصلي - السلسلة الزمنية الأصلية التي أعيد أخذ عيناتها إلى الدقة اليومية.
  • اكثر شيوعا - الاتجاه متعدد الحدود بنمط الاتجاه السلبي العام لعام 2021 مما يشير إلى انخفاض في Volume USD .
  • الموسم - الموسمية المضاعفة المتمثلة في أنماط التذبذب المتغيرة. نشهد انخفاضًا في التباين الموسمي الذي يتميز بتناقص سعة التذبذبات.
  • المتبقي - الضوضاء المتبقية أو العشوائية المتبقية. السلسلة المتبقية هي السلسلة الناتجة بعد إزالة الاتجاه والمكونات الموسمية. بالنظر عن كثب ، نلاحظ ارتفاعات كبيرة بين يناير ومارس ، وبين أبريل ويونيو ، مما يشير إلى مساحة لنمذجة مثل هذه الأحداث المعينة باستخدام البيانات التاريخية.

توفر هذه التصورات مؤشرات قيمة لعلماء البيانات والمحللين في الأنماط الحالية ويمكن أن تساعدك في اختيار استراتيجية النمذجة. ومع ذلك ، فمن الممارسات الجيدة دائمًا التحقق من صحة ناتج تحلل STL من خلال المعلومات التي تم جمعها من خلال التحليل الوصفي والخبرة في المجال.

للتلخيص ، نلاحظ وجود اتجاه تنازلي يتوافق مع تصور السلسلة الأصلي ، مما يزيد من ثقتنا في دمج المعلومات التي يتم نقلها من خلال تصور الاتجاه في عملية صنع القرار النهائية. على النقيض من ذلك ، فإن التصور الموسمي يساعد في الإبلاغ عن وجود الموسمية والحاجة إلى إزالتها من خلال تطبيق تقنيات مثل الاختلاف ، فهو لا يوفر المستوى المطلوب من الرؤية التفصيلية للأنماط الموسمية المختلفة الموجودة ، مما يتطلب تحليلًا أعمق.

هندسة الميزات

بعد أن نفهم الأنماط الموجودة في مجموعة البيانات الخاصة بنا ، يمكننا البدء في تصميم ميزات جديدة تهدف إلى زيادة دقة نماذج التنبؤ.

خصص التاريخ والوقت

لنبدأ عملية هندسة الميزات بمزيد من ميزات التاريخ / الوقت المباشرة. يتم إنشاء ميزات التاريخ / الوقت من timestamp العمود وتوفير وسيلة مثلى لعلماء البيانات لبدء عملية هندسة الميزات. نبدأ بـ خصص التاريخ والوقت تحويل السلاسل الزمنية لإضافة ميزات الشهر واليوم من الشهر واليوم من السنة والأسبوع من السنة والربع إلى مجموعة البيانات الخاصة بنا. نظرًا لأننا نقدم مكونات التاريخ / الوقت كميزات منفصلة ، فإننا نقوم بتمكين خوارزميات ML لاكتشاف الإشارات والأنماط لتحسين دقة التنبؤ.

  1. اختار + أضف خطوة.
  2. اختيار السلاسل الزمنية تحول.
  3. في حالة تحول، اختر خصص التاريخ والوقت.
  4. في حالة عمود الإدخال، اختر تاريخ.
  5. في حالة عمود الإخراج، أدخل date (هذه الخطوة اختيارية).
  6. في حالة طريقة الإخراج، اختر ترتيبي.
  7. في حالة تنسيق الإخراج، اختر الأعمدة.
  8. للحصول على ميزات التاريخ / الوقت لاستخراجها ، حدد شهر, يوم, أسبوع من العام, يوم من السنةو ربع.
  9. اختار أرسال.

تحتوي مجموعة البيانات الآن على أعمدة جديدة مسماة date_month, date_day, date_week_of_year, date_day_of_yearو date_quarter. يمكن للمعلومات المسترجعة من هذه الميزات الجديدة أن تساعد علماء البيانات في استخلاص رؤى إضافية من البيانات وفي العلاقة بين ميزات الإدخال وميزات الإخراج.

تمييز تحويل السلاسل الزمنية للتاريخ والوقت

  1. اختار أضف لحفظ هذه الخطوة.

تشفير قاطع

لا تقتصر ميزات التاريخ / الوقت على قيم الأعداد الصحيحة. يمكنك أيضًا اختيار اعتبار بعض ميزات التاريخ / الوقت المستخرجة كمتغيرات فئوية وتمثيلها كميزات مشفرة واحدة ساخنة ، مع احتواء كل عمود على قيم ثنائية. تم إنشاؤه حديثًا date_quarter يحتوي العمود على قيم بين 0-3 ، ويمكن ترميزه باستخدام أربعة أعمدة ثنائية. لنقم بإنشاء أربع ميزات ثنائية جديدة ، كل منها يمثل ربع السنة المقابل.

  1. اختار + أضف خطوة.
  2. اختيار تشفير قاطع تحول.
  3. في حالة تحول، اختر تشفير واحد ساخن.
  4. في حالة عمود الإدخال، اختر تاريخ_ربع.
  5. في حالة أسلوب الإخراج، اختر الأعمدة.
  6. اختار أرسال.
  7. اختار أضف لإضافة الخطوة.

قم بإعداد بيانات السلاسل الزمنية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

ميزة التأخر

بعد ذلك ، لنقم بإنشاء ميزات تأخير للعمود الهدف Volume USD. معالم الفجوة في تحليل السلاسل الزمنية هي قيم موجودة في الطوابع الزمنية السابقة والتي تعتبر مفيدة في استنتاج القيم المستقبلية. كما أنها تساعد في تحديد الارتباط التلقائي (المعروف أيضًا باسم ارتباط تسلسلي) في المتسلسلة المتبقية عن طريق تحديد علاقة الملاحظة بالملاحظات في الخطوات الزمنية السابقة. الارتباط التلقائي مشابه للارتباط المنتظم ولكن بين القيم في سلسلة وقيمها السابقة. إنه يشكل الأساس لنماذج التنبؤ الانحدار الذاتي في سلسلة ARIMA.

مع داتا رانجلر ميزة التأخر تحويل ، يمكنك بسهولة إنشاء ميزات التأخر ن فترات متباعدة. بالإضافة إلى ذلك ، غالبًا ما نرغب في إنشاء ميزات تأخر متعددة في فترات تأخر مختلفة والسماح للنموذج بتحديد الميزات الأكثر أهمية. لمثل هذا السيناريو ، فإن ميزات التأخر التحويل يساعد في إنشاء أعمدة تأخر متعددة على حجم نافذة محدد.

  1. اختار العودة إلى تدفق البيانات.
  2. اختر علامة الجمع الموجودة بجانب خطوات on تدفق البيانات.
  3. اختار + أضف خطوة.
  4. اختار السلاسل الزمنية تحول.
  5. في حالة تحول، اختر ميزات التأخر.
  6. في حالة إنشاء ميزات تأخير لهذا العمود، اختر الحجم بالدولار الأمريكي.
  7. في حالة عمود الطابع الزمني، اختر تاريخ.
  8. في حالة فريق، أدخل 7.
  9. نظرًا لأننا مهتمون بمراقبة قيم التأخر السبع السابقة ، فلنختار تضمين نافذة التأخر بأكملها.
  10. لإنشاء عمود جديد لكل قيمة تأخير ، حدد تسطيح الإخراج.
  11. اختار أرسال.

تمت إضافة سبعة أعمدة جديدة ، مُلحقة بملحق lag_number الكلمة الأساسية للعمود الهدف Volume USD.

ميزة التأخر في تحويل السلاسل الزمنية

  1. اختار أضف لحفظ الخطوة.

المتداول ميزات النافذة

يمكننا أيضًا حساب الملخصات الإحصائية ذات المعنى عبر مجموعة من القيم وتضمينها كميزات إدخال. دعنا نستخرج ميزات السلاسل الزمنية الإحصائية المشتركة.

تنفذ Data Wrangler إمكانات استخراج ميزة السلاسل الزمنية التلقائية باستخدام المصدر المفتوح تسفريش صفقة. باستخدام تحويلات استخلاص السلاسل الزمنية ، يمكنك أتمتة عملية استخراج الميزات. يؤدي ذلك إلى التخلص من الوقت والجهد اللذين يتم إنفاقهما يدويًا في تنفيذ مكتبات معالجة الإشارات. بالنسبة لهذا المنشور ، نقوم باستخراج الميزات باستخدام امتداد المتداول ميزات النافذة تحول. تحسب هذه الطريقة الخصائص الإحصائية عبر مجموعة من الملاحظات التي يحددها حجم النافذة.

  1. اختار + أضف خطوة.
  2. اختيار السلاسل الزمنية تحول.
  3. في حالة تحول، اختر المتداول ميزات النافذة.
  4. في حالة توليد ميزات نافذة المتداول لهذا العمود، اختر الحجم بالدولار الأمريكي.
  5. في حالة عمود الطابع الزمني، اختر تاريخ.
  6. في حالة بحجم النافذه، أدخل 7.

تحديد حجم النافذة من 7 يحسب المعالم من خلال دمج القيمة في الطابع الزمني الحالي والقيم للطوابع الزمنية السبعة السابقة.

  1. أختار تسطيح لإنشاء عمود جديد لكل معلم محسوب.
  2. اختر استراتيجيتك كـ الحد الأدنى من مجموعة فرعية.

تستخلص هذه الإستراتيجية ثماني ميزات مفيدة في التحليلات النهائية. تشمل الاستراتيجيات الأخرى مجموعة فرعية فعالة, مجموعة فرعية مخصصةو جميع الميزات. للحصول على قائمة كاملة بالميزات المتاحة للاستخراج ، يرجى الرجوع إلى نظرة عامة على الميزات المستخرجة.

  1. اختار أرسال.

يمكننا أن نرى ثمانية أعمدة جديدة بحجم النافذة المحدد 7 في أسمائهم ، ملحقًا بمجموعة البيانات الخاصة بنا.

  1. اختار أضف لحفظ الخطوة.

قم بإعداد بيانات السلاسل الزمنية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

تصدير مجموعة البيانات

لقد قمنا بتحويل مجموعة بيانات السلاسل الزمنية ونحن جاهزون لاستخدام مجموعة البيانات المحولة كمدخلات لخوارزمية التنبؤ. تتمثل الخطوة الأخيرة في تصدير مجموعة البيانات المحولة إلى Amazon S3. في Data Wrangler ، يمكنك الاختيار خطوة التصدير لإنشاء دفتر Jupyter تلقائيًا باستخدام رمز Amazon SageMaker لمعالجة مجموعة البيانات المحولة وتصديرها إلى حاوية S3. ومع ذلك ، نظرًا لأن مجموعة البيانات الخاصة بنا تحتوي على ما يزيد قليلاً عن 300 سجل ، فلنستفيد من ملف تصدير البيانات الخيار في أضف التحويل عرض لتصدير مجموعة البيانات المحولة مباشرة إلى Amazon S3 من Data Wrangler.

  1. اختار تصدير البيانات.

قم بإعداد بيانات السلاسل الزمنية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

  1. في حالة موقع S3، اختر المتصفح واختر دلو S3 الخاص بك.
  2. اختار تصدير البيانات.

قم بإعداد بيانات السلاسل الزمنية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

الآن بعد أن نجحنا في تحويل مجموعة بيانات البيتكوين ، يمكننا استخدام توقعات الأمازون لتوليد توقعات البيتكوين.

تنظيف

إذا انتهيت من حالة الاستخدام هذه ، فقم بتنظيف الموارد التي قمت بإنشائها لتجنب تكبد رسوم إضافية. بالنسبة إلى Data Wrangler ، يمكنك إغلاق المثيل الأساسي عند الانتهاء. تشير إلى اغلاق داتا رانجلر وثائق للحصول على التفاصيل. بدلا من ذلك ، يمكنك الاستمرار في جزء 2 من هذه السلسلة لاستخدام مجموعة البيانات هذه للتنبؤ.

نبذة عامة

أوضح هذا المنشور كيفية استخدام Data Wrangler لتبسيط وتسريع تحليل السلاسل الزمنية باستخدام إمكانيات السلاسل الزمنية المضمنة. استكشفنا كيف يمكن لعلماء البيانات تنظيف بيانات السلاسل الزمنية وتنسيقها والتحقق من صحتها وتحويلها بسهولة وتفاعلية إلى التنسيق المطلوب ، من أجل تحليل هادف. اكتشفنا أيضًا كيف يمكنك إثراء تحليل السلاسل الزمنية الخاصة بك عن طريق إضافة مجموعة شاملة من الميزات الإحصائية باستخدام Data Wrangler. لمعرفة المزيد حول تحويلات السلاسل الزمنية في Data Wrangler ، راجع تحويل البيانات.


عن المؤلف

قم بإعداد بيانات السلاسل الزمنية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.روب باينز هو مهندس حلول في AWS يركز على AI / ML. إنه متحمس لمساعدة العملاء على الابتكار وتحقيق أهداف أعمالهم باستخدام الذكاء الاصطناعي والتعلم الآلي. في أوقات فراغه ، يستمتع Roop بالقراءة والمشي لمسافات طويلة.

قم بإعداد بيانات السلاسل الزمنية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.نيكيتا ايفكين هو عالم تطبيقي ، Amazon SageMaker Data Wrangler.

الطابع الزمني:

اكثر من التعلم الآلي من AWS