เตรียมข้อมูลอนุกรมเวลาด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

เตรียมข้อมูลอนุกรมเวลาด้วย Amazon SageMaker Data Wrangler

ข้อมูลอนุกรมเวลามีอยู่ทั่วไปในชีวิตของเรา ราคาหุ้น ราคาบ้าน ข้อมูลสภาพอากาศ และข้อมูลการขายที่บันทึกในช่วงเวลาหนึ่งเป็นเพียงตัวอย่างบางส่วนเท่านั้น ในขณะที่ธุรกิจต่างๆ มองหาวิธีใหม่ๆ ในการรับข้อมูลเชิงลึกที่มีความหมายจากข้อมูลอนุกรมเวลามากขึ้น ความสามารถในการแสดงภาพข้อมูลและนำการเปลี่ยนแปลงที่ต้องการไปใช้จึงเป็นขั้นตอนพื้นฐาน อย่างไรก็ตาม ข้อมูลอนุกรมเวลามีลักษณะเฉพาะและแตกต่างเมื่อเทียบกับข้อมูลแบบตารางประเภทอื่นๆ และจำเป็นต้องได้รับการพิจารณาเป็นพิเศษ ตัวอย่างเช่น ข้อมูลตารางมาตรฐานหรือข้อมูลภาคตัดขวางจะถูกรวบรวม ณ เวลาที่กำหนด ในทางตรงกันข้าม ข้อมูลอนุกรมเวลาจะถูกบันทึกซ้ำๆ เมื่อเวลาผ่านไป โดยแต่ละจุดข้อมูลที่ต่อเนื่องกันจะขึ้นอยู่กับค่าในอดีต

เนื่องจากการวิเคราะห์อนุกรมเวลาส่วนใหญ่อาศัยข้อมูลที่รวบรวมจากชุดการสังเกตที่ต่อเนื่องกัน ข้อมูลที่ขาดหายไปและความกระจัดกระจายโดยธรรมชาติสามารถลดความแม่นยำของการคาดการณ์และทำให้เกิดอคติได้ นอกจากนี้ วิธีการวิเคราะห์อนุกรมเวลาส่วนใหญ่อาศัยการเว้นวรรคที่เท่ากันระหว่างจุดข้อมูล กล่าวคือ ช่วงเวลา ดังนั้น ความสามารถในการแก้ไขความผิดปกติของการเว้นวรรคข้อมูลจึงเป็นข้อกำหนดเบื้องต้นที่สำคัญ สุดท้าย การวิเคราะห์อนุกรมเวลามักต้องการการสร้างคุณลักษณะเพิ่มเติมที่สามารถช่วยอธิบายความสัมพันธ์โดยธรรมชาติระหว่างข้อมูลที่ป้อนเข้าและการคาดคะเนในอนาคต ปัจจัยทั้งหมดเหล่านี้ทำให้โครงการอนุกรมเวลาแตกต่างจากสถานการณ์การเรียนรู้ของเครื่อง (ML) แบบดั้งเดิม และต้องการแนวทางที่แตกต่างในการวิเคราะห์

โพสต์นี้แนะนำวิธีการใช้ Amazon SageMaker ข้อมูล Wrangler เพื่อใช้การแปลงอนุกรมเวลาและเตรียมชุดข้อมูลของคุณสำหรับกรณีการใช้งานอนุกรมเวลา

กรณีการใช้งานสำหรับ Data Wrangler

Data Wrangler นำเสนอโซลูชันแบบไม่ต้องใช้โค้ด/โค้ดน้อยสำหรับการวิเคราะห์อนุกรมเวลา พร้อมด้วยคุณสมบัติในการล้าง แปลง และเตรียมข้อมูลได้รวดเร็วยิ่งขึ้น นอกจากนี้ยังช่วยให้นักวิทยาศาสตร์ข้อมูลสามารถจัดเตรียมข้อมูลอนุกรมเวลาโดยสอดคล้องกับข้อกำหนดรูปแบบอินพุตของแบบจำลองการคาดการณ์ของพวกเขา คุณสามารถใช้ความสามารถเหล่านี้ได้สองสามวิธีดังต่อไปนี้:

  • การวิเคราะห์เชิงพรรณนา– โดยปกติ ขั้นตอนหนึ่งของโครงงานวิทยาศาสตร์ข้อมูลคือการทำความเข้าใจข้อมูล เมื่อเราลงจุดข้อมูลอนุกรมเวลา เราจะได้ภาพรวมระดับสูงของรูปแบบของข้อมูล เช่น แนวโน้ม ฤดูกาล วัฏจักร และการแปรผันแบบสุ่ม ช่วยให้เราตัดสินใจเลือกวิธีการพยากรณ์ที่ถูกต้องสำหรับการแสดงรูปแบบเหล่านี้ได้อย่างถูกต้อง การพล็อตยังช่วยระบุค่าผิดปกติ ป้องกันการพยากรณ์ที่ไม่สมจริงและไม่ถูกต้อง Data Wrangler มาพร้อมกับ การแสดงภาพการสลายตัวของแนวโน้มตามฤดูกาล สำหรับการแสดงส่วนประกอบของอนุกรมเวลาและ an การแสดงภาพการตรวจจับค่าผิดปกติ เพื่อระบุค่าผิดปกติ
  • การวิเคราะห์เชิงอธิบาย– สำหรับอนุกรมเวลาแบบหลายตัวแปร ความสามารถในการสำรวจ ระบุ และจำลองความสัมพันธ์ระหว่างอนุกรมเวลาตั้งแต่สองชุดขึ้นไปเป็นสิ่งจำเป็นสำหรับการได้รับการคาดการณ์ที่มีความหมาย ดิ จัดกลุ่มตาม การแปลงใน Data Wrangler สร้างอนุกรมเวลาหลายชุดโดยจัดกลุ่มข้อมูลสำหรับเซลล์ที่ระบุ นอกจากนี้ อนุกรมเวลาของ Data Wrangler จะแปลง (ถ้ามี) ซึ่งช่วยให้สามารถระบุคอลัมน์ ID เพิ่มเติมเพื่อจัดกลุ่มได้ ทำให้สามารถวิเคราะห์อนุกรมเวลาที่ซับซ้อนได้
  • การเตรียมข้อมูลและวิศวกรรมคุณลักษณะ– ข้อมูลอนุกรมเวลาไม่ค่อยอยู่ในรูปแบบที่โมเดลอนุกรมเวลาคาดหวัง มักต้องมีการเตรียมข้อมูลเพื่อแปลงข้อมูลดิบเป็นคุณลักษณะเฉพาะของอนุกรมเวลา คุณอาจต้องการตรวจสอบว่าข้อมูลอนุกรมเวลามีระยะห่างสม่ำเสมอหรือเท่ากันก่อนการวิเคราะห์ สำหรับกรณีการใช้งานการคาดการณ์ คุณอาจต้องการรวมคุณลักษณะของอนุกรมเวลาเพิ่มเติม เช่น ความสัมพันธ์อัตโนมัติและคุณสมบัติทางสถิติ ด้วย Data Wrangler คุณสามารถสร้างคุณสมบัติของอนุกรมเวลาได้อย่างรวดเร็ว เช่น คอลัมน์ความล่าช้าสำหรับช่วงเวลาแล็กหลายช่วงเวลา สุ่มตัวอย่างข้อมูลเป็นรายละเอียดย่อยของเวลาหลาย ๆ และแยกคุณสมบัติทางสถิติของอนุกรมเวลาโดยอัตโนมัติ เพื่อระบุความสามารถบางประการ

ภาพรวมโซลูชัน

โพสต์นี้อธิบายอย่างละเอียดว่านักวิทยาศาสตร์ด้านข้อมูลและนักวิเคราะห์สามารถใช้ Data Wrangler เพื่อแสดงภาพและเตรียมข้อมูลอนุกรมเวลาได้อย่างไร เราใช้ชุดข้อมูล bitcoin cryptocurrency จาก ดาวน์โหลดข้อมูลการเข้ารหัส พร้อมรายละเอียดการซื้อขาย bitcoin เพื่อแสดงความสามารถเหล่านี้ เราทำความสะอาด ตรวจสอบ และแปลงชุดข้อมูลดิบด้วยคุณสมบัติของอนุกรมเวลา และสร้างการคาดการณ์ราคาปริมาณ bitcoin โดยใช้ชุดข้อมูลที่แปลงเป็นอินพุต

ตัวอย่างข้อมูลการซื้อขาย bitcoin ตั้งแต่วันที่ 1 มกราคม – 19 พฤศจิกายน 2021 โดยมีจุดข้อมูล 464,116 จุด แอตทริบิวต์ชุดข้อมูลประกอบด้วยการประทับเวลาของบันทึกราคา ราคาเปิดหรือราคาแรกที่แลกเปลี่ยนเหรียญในวันใดวันหนึ่ง ราคาสูงสุดที่แลกเปลี่ยนเหรียญในวันนั้น ราคาสุดท้ายที่แลกเปลี่ยนเหรียญ วันนั้น ปริมาณการแลกเปลี่ยนในมูลค่าสกุลเงินดิจิทัลในวันนั้นเป็น BTC และสกุลเงิน USD ที่เกี่ยวข้อง

เบื้องต้น

ดาวน์โหลด Bitstamp_BTCUSD_2021_minute.csv ไฟล์จาก ดาวน์โหลดข้อมูลการเข้ารหัส แล้วอัพโหลดไปที่ บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (Amazon S3).

นำเข้าชุดข้อมูล bitcoin ใน Data Wrangler

ในการเริ่มกระบวนการนำเข้าข้อมูลไปยัง Data Wrangler ให้ทำตามขั้นตอนต่อไปนี้:

  1. เกี่ยวกับ SageMaker สตูดิโอ คอนโซลบน เนื้อไม่มีมัน เมนูให้เลือก ใหม่แล้วเลือก ข้อมูล Wrangler Flow.
  2. เปลี่ยนชื่อโฟลว์ตามต้องการ
  3. สำหรับ นำเข้าข้อมูลเลือก Amazon S3.
  4. อัปโหลดไฟล์ Bitstamp_BTCUSD_2021_minute.csv ไฟล์จากบัคเก็ต S3 ของคุณ

ตอนนี้คุณดูตัวอย่างชุดข้อมูลได้แล้ว

  1. ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร รายละเอียด บานหน้าต่างเลือก การกำหนดค่าขั้นสูง และยกเลิกการเลือก เปิดใช้งานการสุ่มตัวอย่าง.

นี่เป็นชุดข้อมูลที่ค่อนข้างเล็ก เราจึงไม่ต้องการการสุ่มตัวอย่าง

  1. Choose นำเข้า.

คุณสร้างโฟลว์ไดอะแกรมสำเร็จแล้วและพร้อมที่จะเพิ่มขั้นตอนการแปลง

เตรียมข้อมูลอนุกรมเวลาด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

เพิ่มการแปลงร่าง

หากต้องการเพิ่มการแปลงข้อมูล ให้เลือกเครื่องหมายบวกถัดจาก ประเภทข้อมูล และเลือก แก้ไขประเภทข้อมูล.

เตรียมข้อมูลอนุกรมเวลาด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ตรวจสอบให้แน่ใจว่า Data Wrangler อนุมานประเภทข้อมูลที่ถูกต้องสำหรับคอลัมน์ข้อมูลโดยอัตโนมัติ

ในกรณีของเรา ชนิดข้อมูลที่อนุมานได้ถูกต้อง อย่างไรก็ตาม สมมติว่าข้อมูลประเภทหนึ่งไม่ถูกต้อง คุณสามารถแก้ไขได้อย่างง่ายดายผ่าน UI ดังที่แสดงในภาพหน้าจอต่อไปนี้

แก้ไขและตรวจสอบประเภทข้อมูล

มาเริ่มการวิเคราะห์และเริ่มเพิ่มการแปลงกัน

การทำความสะอาดข้อมูล

ขั้นแรก เราทำการแปลงข้อมูลการล้างข้อมูลหลายอย่าง

วางคอลัมน์

เริ่มต้นด้วยการวาง unix คอลัมน์เพราะเราใช้ date คอลัมน์เป็นดัชนี

  1. Choose กลับสู่กระแสข้อมูล.
  2. เลือกเครื่องหมายบวกถัดจาก ประเภทข้อมูล และเลือก เพิ่มการแปลง.
  3. Choose + เพิ่มขั้นตอน ใน ทรานส์ฟอร์ม บานหน้าต่าง
  4. Choose จัดการคอลัมน์.
  5. สำหรับ แปลงเลือก วางคอลัมน์.
  6. สำหรับ คอลัมน์ที่จะปล่อยเลือก ยูนิกซ์.
  7. Choose ดูตัวอย่าง.
  8. Choose เพิ่ม เพื่อบันทึกขั้นตอน

จัดการหาย

ข้อมูลที่ขาดหายไปเป็นปัญหาที่รู้จักกันดีในชุดข้อมูลในโลกแห่งความเป็นจริง ดังนั้นจึงเป็นแนวทางปฏิบัติที่ดีที่สุดในการตรวจสอบการมีอยู่ของค่าว่างหรือค่าว่างและจัดการอย่างเหมาะสม ชุดข้อมูลของเราไม่มีค่าที่ขาดหายไป แต่ถ้ามี เราจะใช้ จัดการหาย อนุกรมเวลาแปลงเพื่อแก้ไข กลยุทธ์ที่ใช้กันทั่วไปในการจัดการข้อมูลที่ขาดหายไป ได้แก่ การวางแถวที่มีค่าที่ขาดหายไป หรือการเติมค่าที่ขาดหายไปด้วยค่าประมาณที่สมเหตุสมผล เนื่องจากข้อมูลอนุกรมเวลาขึ้นอยู่กับลำดับของจุดข้อมูลข้ามช่วงเวลา การเติมค่าที่หายไปจึงเป็นแนวทางที่ต้องการ กระบวนการเติมค่าที่หายไปเรียกว่า การใส่ความ. จัดการหาย การแปลงอนุกรมเวลาทำให้คุณสามารถเลือกกลยุทธ์การใส่เสียงได้หลายแบบ

  1. Choose + เพิ่มขั้นตอน ใน ทรานส์ฟอร์ม บานหน้าต่าง
  2. เลือก อนุกรมเวลา แปลง.
  3. สำหรับ แปลงเลือก จัดการหาย.
  4. สำหรับ ประเภทอินพุตอนุกรมเวลาเลือก ตามคอลัมน์.
  5. สำหรับ วิธีการใส่ค่าเลือก เติมไปข้างหน้า.

พื้นที่ เติมไปข้างหน้า วิธีการแทนที่ค่าที่หายไปด้วยค่าที่ขาดหายไปก่อนค่าที่ขาดหายไป

จัดการกับการแปลงอนุกรมเวลาที่หายไป

กรอกย้อนหลัง, ค่าคงที่, ค่านิยมทั่วไป และ สอดแทรก เป็นกลยุทธ์การใส่ข้อมูลอื่นๆ ที่มีอยู่ใน Data Wrangler เทคนิคการสอดแทรกค่าอาศัยค่าใกล้เคียงสำหรับการเติมค่าที่ขาดหายไป ข้อมูลอนุกรมเวลามักแสดงความสัมพันธ์ระหว่างค่าที่อยู่ใกล้เคียง ทำให้การประมาณค่าเป็นกลยุทธ์การเติมที่มีประสิทธิภาพ สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับฟังก์ชันที่คุณสามารถใช้ในการแก้ไข โปรดดูที่ pandas.DataFrame.interpolate.

ตรวจสอบการประทับเวลา

ในการวิเคราะห์อนุกรมเวลา คอลัมน์ประทับเวลาทำหน้าที่เป็นคอลัมน์ดัชนี ซึ่งการวิเคราะห์จะหมุนเวียนไปรอบๆ ดังนั้น จำเป็นต้องตรวจสอบให้แน่ใจว่าคอลัมน์การประทับเวลาไม่มีค่าการประทับเวลาที่ไม่ถูกต้องหรือจัดรูปแบบไม่ถูกต้อง เพราะเราใช้ date คอลัมน์เป็นคอลัมน์ประทับเวลาและดัชนี มายืนยันว่าค่าของมันอยู่ในรูปแบบที่ถูกต้อง

  1. Choose + เพิ่มขั้นตอน ใน ทรานส์ฟอร์ม บานหน้าต่าง
  2. เลือก อนุกรมเวลา แปลง.
  3. สำหรับ แปลง, เลือก ตรวจสอบการประทับเวลา.

พื้นที่ ตรวจสอบการประทับเวลา การแปลงช่วยให้คุณตรวจสอบว่าคอลัมน์ประทับเวลาในชุดข้อมูลของคุณไม่มีค่าที่มีการประทับเวลาที่ไม่ถูกต้องหรือค่าที่ขาดหายไป

  1. สำหรับ คอลัมน์ประทับเวลาเลือก ข้อมูล.
  2. สำหรับ นโยบาย ดรอปดาวน์ เลือก ระบุ.

พื้นที่ ระบุ ตัวเลือกนโยบายจะสร้างคอลัมน์บูลีนเพื่อระบุว่าค่าในคอลัมน์ประทับเวลาเป็นรูปแบบวันที่/เวลาที่ถูกต้องหรือไม่ ตัวเลือกอื่นๆ สำหรับ นโยบาย รวมถึง:

  • ความผิดพลาด – เกิดข้อผิดพลาดหากคอลัมน์การประทับเวลาหายไปหรือไม่ถูกต้อง
  • หล่น – วางแถวถ้าคอลัมน์การประทับเวลาหายไปหรือไม่ถูกต้อง
  1. Choose ดูตัวอย่าง.

คอลัมน์บูลีนใหม่ชื่อ date_is_valid ถูกสร้างขึ้นด้วย true ค่าที่ระบุรูปแบบที่ถูกต้องและรายการที่ไม่ใช่ค่าว่าง ชุดข้อมูลของเราไม่มีค่าการประทับเวลาที่ไม่ถูกต้องใน date คอลัมน์. แต่ถ้าเป็นเช่นนั้น คุณสามารถใช้คอลัมน์บูลีนใหม่เพื่อระบุและแก้ไขค่าเหล่านั้นได้

ตรวจสอบการแปลงอนุกรมเวลาประทับเวลา

  1. Choose เพิ่ม เพื่อบันทึกขั้นตอนนี้

การสร้างภาพอนุกรมเวลา

หลังจากที่เราทำความสะอาดและตรวจสอบชุดข้อมูลแล้ว เราจะเห็นภาพข้อมูลได้ดีขึ้นเพื่อทำความเข้าใจองค์ประกอบต่างๆ ของชุดข้อมูล

ตัวอย่างใหม่

เนื่องจากเราสนใจการคาดการณ์รายวัน มาแปลงความถี่ของข้อมูลเป็นรายวันกันเถอะ

พื้นที่ ตัวอย่างใหม่ การแปลงจะเปลี่ยนความถี่ของการสังเกตอนุกรมเวลาเป็นความละเอียดที่ระบุ และมาพร้อมกับตัวเลือกทั้งการสุ่มตัวอย่างและการสุ่มตัวอย่าง การใช้การสุ่มตัวอย่างจะเพิ่มความถี่ของการสังเกต (เช่น จากรายวันเป็นรายชั่วโมง) ในขณะที่การสุ่มตัวอย่างลงจะลดความถี่ของการสังเกต (เช่น จากรายชั่วโมงเป็นรายวัน)

เนื่องจากชุดข้อมูลของเรามีความละเอียดถี่ถ้วน ลองใช้ตัวเลือกการสุ่มตัวอย่าง

  1. Choose + เพิ่มขั้นตอน.
  2. เลือก อนุกรมเวลา แปลง.
  3. สำหรับ แปลงเลือก ตัวอย่างใหม่.
  4. สำหรับ timestampเลือก ข้อมูล.
  5. สำหรับ หน่วยความถี่เลือก วันปฏิทิน.
  6. สำหรับ ปริมาณความถี่, ป้อน 1
  7. สำหรับ วิธีการรวมค่าตัวเลขเลือก หมายความ.
  8. Choose ดูตัวอย่าง.

ความถี่ของชุดข้อมูลของเราเปลี่ยนจากต่อนาทีเป็นรายวัน

เตรียมข้อมูลอนุกรมเวลาด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

  1. Choose เพิ่ม เพื่อบันทึกขั้นตอนนี้

การสลายตัวตามฤดูกาล-แนวโน้ม

หลังจากการสุ่มตัวอย่างใหม่ เราสามารถมองเห็นชุดข้อมูลที่แปลงแล้วและส่วนประกอบ STL ที่เกี่ยวข้อง (การสลายตัวตามฤดูกาลและแนวโน้มโดยใช้ LOESS) โดยใช้ ฤดูกาล-แนวโน้ม-การสลายตัว การสร้างภาพ ซึ่งแบ่งอนุกรมเวลาดั้งเดิมออกเป็นเทรนด์ ฤดูกาล และส่วนประกอบที่เหลือ ทำให้เราเข้าใจดีว่ารูปแบบแต่ละแบบมีพฤติกรรมอย่างไร เรายังสามารถใช้ข้อมูลนี้ในการสร้างแบบจำลองปัญหาการคาดการณ์

Data Wrangler ใช้ LOESS ซึ่งเป็นวิธีการทางสถิติที่มีประสิทธิภาพและหลากหลายสำหรับการสร้างแบบจำลองแนวโน้มและองค์ประกอบตามฤดูกาล การใช้งานพื้นฐานนั้นใช้การถดถอยพหุนามสำหรับการประเมินความสัมพันธ์ที่ไม่เชิงเส้นที่มีอยู่ในองค์ประกอบของอนุกรมเวลา (ฤดูกาล แนวโน้ม และส่วนที่เหลือ)

  1. Choose กลับสู่กระแสข้อมูล.
  2. เลือกเครื่องหมายบวกถัดจาก ขั้นตอน on การไหลของข้อมูล.
  3. Choose เพิ่มบทวิเคราะห์.
  4. ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร สร้างการวิเคราะห์ บานหน้าต่างสำหรับ ประเภทการวิเคราะห์ เลือก อนุกรมเวลา.
  5. สำหรับ การแสดงเลือก การสลายตัวตามฤดูกาล-แนวโน้ม.
  6. สำหรับ ชื่อการวิเคราะห์, ป้อนชื่อ
  7. สำหรับ คอลัมน์ประทับเวลาเลือก ข้อมูล.
  8. สำหรับ คอลัมน์ค่าเลือก ปริมาณ USD.
  9. Choose ดูตัวอย่าง.

การวิเคราะห์ช่วยให้เราเห็นภาพอนุกรมเวลาของอินพุตและแยกฤดูกาล แนวโน้ม และส่วนที่เหลือ

เตรียมข้อมูลอนุกรมเวลาด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

  1. Choose ลด เพื่อบันทึกการวิเคราะห์

กับ การแสดงภาพการสลายตัวของแนวโน้มตามฤดูกาลเราสามารถสร้างสี่รูปแบบดังที่แสดงในภาพหน้าจอก่อนหน้านี้:

  • Original – อนุกรมเวลาเดิมสุ่มตัวอย่างใหม่เป็นรายละเอียดรายวัน
  • เทรนด์ – แนวโน้มพหุนามที่มีรูปแบบแนวโน้มเชิงลบโดยรวมสำหรับปี 2021 บ่งชี้การลดลงใน Volume USD มูลค่า
  • ฤดู – ฤดูกาลแบบทวีคูณแสดงโดยรูปแบบการแกว่งที่แตกต่างกัน เราเห็นความผันแปรตามฤดูกาลที่ลดลง โดยมีแอมพลิจูดของการแกว่งตัวลดลง
  • เหลือ – เสียงที่เหลือหรือเสียงสุ่ม ชุดที่เหลือคือชุดผลลัพธ์หลังจากนำเทรนด์และส่วนประกอบตามฤดูกาลออกแล้ว เมื่อมองอย่างใกล้ชิด เราสังเกตการเพิ่มขึ้นอย่างรวดเร็วระหว่างเดือนมกราคมถึงมีนาคม และระหว่างเดือนเมษายนถึงมิถุนายน ซึ่งบ่งชี้ว่ามีพื้นที่สำหรับสร้างแบบจำลองเหตุการณ์เฉพาะดังกล่าวโดยใช้ข้อมูลในอดีต

การแสดงภาพข้อมูลเหล่านี้ให้โอกาสในการขายที่มีคุณค่าแก่นักวิทยาศาสตร์ข้อมูลและนักวิเคราะห์ในรูปแบบที่มีอยู่ และสามารถช่วยคุณเลือกกลยุทธ์การสร้างแบบจำลองได้ อย่างไรก็ตาม ถือเป็นแนวทางปฏิบัติที่ดีเสมอที่จะตรวจสอบผลลัพธ์ของการสลายตัวของ STL ด้วยข้อมูลที่รวบรวมผ่านการวิเคราะห์เชิงพรรณนาและความเชี่ยวชาญด้านโดเมน

โดยสรุป เราสังเกตแนวโน้มขาลงที่สอดคล้องกับการสร้างภาพข้อมูลซีรีส์ต้นฉบับ ซึ่งเพิ่มความมั่นใจของเราในการรวมข้อมูลที่ถ่ายทอดโดยการแสดงภาพแนวโน้มเข้ากับการตัดสินใจขั้นปลายน้ำ ในทางตรงกันข้าม การสร้างภาพข้อมูลตามฤดูกาลจะช่วยแจ้งถึงฤดูกาลและความจำเป็นในการนำออกโดยใช้เทคนิคต่างๆ เช่น การแยกความแตกต่าง โดยไม่ได้ให้ข้อมูลเชิงลึกโดยละเอียดในระดับที่ต้องการเกี่ยวกับรูปแบบตามฤดูกาลต่างๆ ที่มีอยู่ ดังนั้นจึงต้องมีการวิเคราะห์ที่ลึกซึ้งยิ่งขึ้น

วิศวกรรมคุณลักษณะ

หลังจากที่เราเข้าใจรูปแบบที่มีอยู่ในชุดข้อมูลของเราแล้ว เราสามารถเริ่มสร้างคุณลักษณะใหม่ที่มีเป้าหมายเพื่อเพิ่มความแม่นยำของแบบจำลองการคาดการณ์

แสดงวันที่เวลา

มาเริ่มกระบวนการวิศวกรรมคุณลักษณะด้วยคุณลักษณะวันที่/เวลาที่ตรงไปตรงมามากขึ้น คุณสมบัติวันที่/เวลาถูกสร้างขึ้นจาก timestamp และจัดเตรียมช่องทางที่เหมาะสมที่สุดสำหรับนักวิทยาศาสตร์ข้อมูลในการเริ่มต้นกระบวนการทางวิศวกรรมคุณลักษณะ เราเริ่มต้นด้วย แสดงวันที่เวลา การแปลงอนุกรมเวลาเพื่อเพิ่มคุณสมบัติเดือน วันของเดือน วันของปี สัปดาห์ของปี และไตรมาสในชุดข้อมูลของเรา เนื่องจากเราให้องค์ประกอบวันที่/เวลาเป็นคุณลักษณะที่แยกจากกัน เราจึงเปิดใช้งานอัลกอริทึม ML เพื่อตรวจจับสัญญาณและรูปแบบเพื่อปรับปรุงความแม่นยำในการคาดคะเน

  1. Choose + เพิ่มขั้นตอน.
  2. เลือก อนุกรมเวลา แปลง.
  3. สำหรับ แปลง, เลือก แสดงวันที่เวลา.
  4. สำหรับ คอลัมน์อินพุตเลือก ข้อมูล.
  5. สำหรับ คอลัมน์เอาต์พุตป้อน date (ขั้นตอนนี้เป็นทางเลือก)
  6. สำหรับ โหมดเอาเลือก เกี่ยวกับลำดับ.
  7. สำหรับ รูปแบบเอาต์พุตเลือก คอลัมน์.
  8. สำหรับคุณสมบัติวันที่/เวลาที่จะแยก ให้เลือก เดือน, วัน, สัปดาห์ของปี, วันของปีและ หนึ่งในสี่.
  9. Choose ดูตัวอย่าง.

ตอนนี้ชุดข้อมูลมีคอลัมน์ใหม่ชื่อ date_month, date_day, date_week_of_year, date_day_of_yearและ date_quarter. ข้อมูลที่ดึงมาจากคุณลักษณะใหม่เหล่านี้สามารถช่วยให้นักวิทยาศาสตร์ด้านข้อมูลได้รับข้อมูลเชิงลึกเพิ่มเติมจากข้อมูลและความสัมพันธ์ระหว่างคุณลักษณะอินพุตและคุณลักษณะเอาต์พุต

นำเสนอการแปลงอนุกรมเวลาวันที่และเวลา

  1. Choose เพิ่ม เพื่อบันทึกขั้นตอนนี้

เข้ารหัสหมวดหมู่

คุณสมบัติวันที่/เวลาไม่จำกัดเฉพาะค่าจำนวนเต็ม คุณยังอาจเลือกพิจารณาคุณลักษณะวันที่/เวลาที่แยกออกมาเป็นตัวแปรตามหมวดหมู่ และแสดงเป็นคุณลักษณะที่เข้ารหัสแบบลัดครั้งเดียว โดยแต่ละคอลัมน์มีค่าไบนารี ที่สร้างขึ้นใหม่ date_quarter คอลัมน์มีค่าระหว่าง 0-3 และสามารถเข้ารหัสแบบ one-hot โดยใช้คอลัมน์ไบนารีสี่คอลัมน์ มาสร้างคุณลักษณะไบนารีใหม่สี่รายการ โดยแต่ละรายการจะแสดงถึงไตรมาสที่เกี่ยวข้องกันของปี

  1. Choose + เพิ่มขั้นตอน.
  2. เลือก เข้ารหัสหมวดหมู่ แปลง.
  3. สำหรับ แปลงเลือก การเข้ารหัสแบบร้อนครั้งเดียว.
  4. สำหรับ คอลัมน์อินพุตเลือก วันที่_ไตรมาส.
  5. สำหรับ สไตล์เอาต์พุตเลือก คอลัมน์.
  6. Choose ดูตัวอย่าง.
  7. Choose เพิ่ม เพื่อเพิ่มขั้นตอน

เตรียมข้อมูลอนุกรมเวลาด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

คุณสมบัติล่าช้า

ต่อไป มาสร้างคุณสมบัติการหน่วงสำหรับคอลัมน์เป้าหมายกันเถอะ Volume USD. คุณลักษณะความล่าช้าในการวิเคราะห์อนุกรมเวลาคือค่าที่ประทับเวลาก่อนหน้าซึ่งถือว่ามีประโยชน์ในการอนุมานค่าในอนาคต นอกจากนี้ยังช่วยระบุความสัมพันธ์อัตโนมัติ (หรือที่เรียกว่า ความสัมพันธ์แบบอนุกรม) รูปแบบในชุดที่เหลือโดยการหาปริมาณความสัมพันธ์ของการสังเกตกับการสังเกตในขั้นตอนก่อนหน้า ความสัมพันธ์อัตโนมัติคล้ายกับความสัมพันธ์ปกติแต่ระหว่างค่าในชุดข้อมูลและค่าในอดีต เป็นพื้นฐานสำหรับแบบจำลองการคาดการณ์แบบถดถอยอัตโนมัติในชุด ARIMA

ด้วย Data Wrangler คุณสมบัติล่าช้า แปลง คุณสามารถสร้างคุณสมบัติความล่าช้าได้อย่างง่ายดายในแต่ละช่วงเวลา นอกจากนี้ เรามักต้องการสร้างคุณสมบัติการหน่วงหลายรายการในความล่าช้าที่แตกต่างกัน และให้แบบจำลองตัดสินใจคุณสมบัติที่มีความหมายมากที่สุด สำหรับสถานการณ์ดังกล่าว คุณสมบัติล่าช้า การแปลงช่วยสร้างคอลัมน์ที่ล่าช้าหลายคอลัมน์ตามขนาดหน้าต่างที่ระบุ

  1. Choose กลับสู่กระแสข้อมูล.
  2. เลือกเครื่องหมายบวกถัดจาก ขั้นตอน on การไหลของข้อมูล.
  3. Choose + เพิ่มขั้นตอน.
  4. Choose อนุกรมเวลา แปลง.
  5. สำหรับ แปลงเลือก คุณสมบัติล่าช้า.
  6. สำหรับ สร้างคุณสมบัติล่าช้าสำหรับคอลัมน์นี้เลือก ปริมาณ USD.
  7. สำหรับ คอลัมน์ประทับเวลาเลือก ข้อมูล.
  8. สำหรับ ทีมป้อน 7.
  9. เนื่องจากเราสนใจที่จะสังเกตค่าความล่าช้าเจ็ดค่าก่อนหน้านี้ ให้เลือก รวมหน้าต่างล่าช้าทั้งหมด.
  10. ในการสร้างคอลัมน์ใหม่สำหรับค่าความล่าช้าแต่ละค่า ให้เลือก แผ่ออก.
  11. Choose ดูตัวอย่าง.

มีการเพิ่มคอลัมน์ใหม่เจ็ดคอลัมน์ ต่อท้ายด้วย lag_number คีย์เวิร์ดสำหรับคอลัมน์เป้าหมาย Volume USD.

การแปลงอนุกรมเวลาของคุณสมบัติล่าช้า

  1. Choose เพิ่ม เพื่อบันทึกขั้นตอน

คุณสมบัติหน้าต่างกลิ้ง

นอกจากนี้เรายังสามารถคำนวณผลสรุปทางสถิติที่มีความหมายในช่วงของค่าต่างๆ และรวมไว้เป็นคุณสมบัติการป้อนข้อมูล มาแยกคุณลักษณะอนุกรมเวลาทางสถิติทั่วไปกัน

Data Wrangler ใช้ความสามารถในการดึงข้อมูลอนุกรมเวลาอัตโนมัติโดยใช้โอเพ่นซอร์ส สดชื่น บรรจุุภัณฑ์. ด้วยการแปลงแยกคุณลักษณะอนุกรมเวลา คุณสามารถทำให้กระบวนการแยกคุณลักษณะเป็นอัตโนมัติได้ วิธีนี้ช่วยลดเวลาและความพยายามในการใช้ไลบรารีประมวลผลสัญญาณด้วยตนเอง สำหรับโพสต์นี้ เราแยกคุณสมบัติโดยใช้ คุณสมบัติหน้าต่างกลิ้ง แปลง. เมธอดนี้คำนวณคุณสมบัติทางสถิติในชุดการสังเกตที่กำหนดโดยขนาดหน้าต่าง

  1. Choose + เพิ่มขั้นตอน.
  2. เลือก อนุกรมเวลา แปลง.
  3. สำหรับ แปลงเลือก คุณสมบัติหน้าต่างกลิ้ง.
  4. สำหรับ สร้างคุณสมบัติหน้าต่างกลิ้งสำหรับคอลัมน์นี้เลือก ปริมาณ USD.
  5. สำหรับ คอลัมน์ประทับเวลาเลือก ข้อมูล.
  6. สำหรับ ขนาดหน้าต่างป้อน 7.

การกำหนดขนาดหน้าต่างของ 7 คำนวณคุณสมบัติโดยการรวมค่าที่ประทับเวลาปัจจุบันและค่าสำหรับการประทับเวลาเจ็ดครั้งก่อนหน้า

  1. เลือก เรียบ เพื่อสร้างคอลัมน์ใหม่สำหรับแต่ละคุณลักษณะที่คำนวณ
  2. เลือกกลยุทธ์ของคุณเป็น เซตย่อยขั้นต่ำ.

กลยุทธ์นี้แยกคุณลักษณะแปดประการที่เป็นประโยชน์ในการวิเคราะห์ดาวน์สตรีม กลยุทธ์อื่นๆ ได้แก่ เซตย่อยที่มีประสิทธิภาพ, เซตย่อยที่กำหนดเองและ คุณสมบัติทั้งหมด. สำหรับรายการคุณสมบัติทั้งหมดที่สามารถดึงออกมาได้ โปรดดูที่ ภาพรวมเกี่ยวกับคุณสมบัติที่แยกออกมา.

  1. Choose ดูตัวอย่าง.

เราสามารถเห็นแปดคอลัมน์ใหม่ที่มีขนาดหน้าต่างที่ระบุของ 7 ในชื่อของพวกเขา ต่อท้ายชุดข้อมูลของเรา

  1. Choose เพิ่ม เพื่อบันทึกขั้นตอน

เตรียมข้อมูลอนุกรมเวลาด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ส่งออกชุดข้อมูล

เราได้แปลงชุดข้อมูลอนุกรมเวลาและพร้อมที่จะใช้ชุดข้อมูลที่แปลงเป็นอินพุตสำหรับอัลกอริธึมการคาดการณ์ ขั้นตอนสุดท้ายคือการส่งออกชุดข้อมูลที่แปลงแล้วไปยัง Amazon S3 ใน Data Wrangler คุณสามารถเลือก ขั้นตอนการส่งออก เพื่อสร้างโน้ตบุ๊ก Jupyter โดยอัตโนมัติด้วยโค้ด Amazon SageMaker Processing สำหรับการประมวลผลและส่งออกชุดข้อมูลที่แปลงแล้วไปยังบัคเก็ต S3 อย่างไรก็ตาม เนื่องจากชุดข้อมูลของเรามีระเบียนมากกว่า 300 รายการ เรามาใช้ประโยชน์จาก ส่งออกข้อมูล ตัวเลือกใน เพิ่มการแปลง ดูเพื่อส่งออกชุดข้อมูลที่แปลงแล้วโดยตรงไปยัง Amazon S3 จาก Data Wrangler

  1. Choose ส่งออกข้อมูล.

เตรียมข้อมูลอนุกรมเวลาด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

  1. สำหรับ ที่ตั้ง S3เลือก เบราว์เซอร์ แล้วเลือกบัคเก็ต S3 ของคุณ
  2. Choose ส่งออกข้อมูล.

เตรียมข้อมูลอนุกรมเวลาด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ตอนนี้เราแปลงชุดข้อมูล bitcoin สำเร็จแล้ว เราก็สามารถใช้ พยากรณ์อเมซอน เพื่อสร้างการคาดการณ์ bitcoin

ทำความสะอาด

หากคุณใช้กรณีนี้เสร็จแล้ว ให้ล้างข้อมูลทรัพยากรที่คุณสร้างขึ้นเพื่อหลีกเลี่ยงค่าใช้จ่ายเพิ่มเติม สำหรับ Data Wrangler คุณสามารถปิดอินสแตนซ์พื้นฐานเมื่อเสร็จสิ้นได้ อ้างถึง ปิด Data Wrangler เอกสารสำหรับรายละเอียด หรือคุณสามารถไปต่อที่ 2 หมายเลข ของชุดนี้เพื่อใช้ชุดข้อมูลนี้สำหรับการคาดการณ์

สรุป

โพสต์นี้สาธิตวิธีใช้ Data Wrangler เพื่อลดความซับซ้อนและเร่งการวิเคราะห์อนุกรมเวลาโดยใช้ความสามารถของอนุกรมเวลาในตัว เราสำรวจวิธีที่นักวิทยาศาสตร์ข้อมูลสามารถล้าง จัดรูปแบบ ตรวจสอบ และแปลงข้อมูลอนุกรมเวลาให้อยู่ในรูปแบบที่ต้องการได้อย่างง่ายดายและโต้ตอบได้ เพื่อการวิเคราะห์ที่มีความหมาย นอกจากนี้เรายังสำรวจวิธีที่คุณสามารถเพิ่มคุณค่าให้กับการวิเคราะห์อนุกรมเวลาของคุณโดยการเพิ่มชุดคุณสมบัติทางสถิติที่ครอบคลุมโดยใช้ Data Wrangler หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับการแปลงอนุกรมเวลาใน Data Wrangler โปรดดูที่ แปลงข้อมูล.


เกี่ยวกับผู้เขียน

เตรียมข้อมูลอนุกรมเวลาด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.รูป เบนส์ เป็นสถาปนิกโซลูชันที่ AWS โดยมุ่งเน้นที่ AI/ML เขาหลงใหลในการช่วยลูกค้าสร้างสรรค์นวัตกรรมและบรรลุวัตถุประสงค์ทางธุรกิจโดยใช้ปัญญาประดิษฐ์และการเรียนรู้ของเครื่อง ในเวลาว่าง Roop ชอบอ่านหนังสือและเดินป่า

เตรียมข้อมูลอนุกรมเวลาด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.นิกิต้า อิฟคิน เป็นนักวิทยาศาสตร์ประยุกต์ Amazon SageMaker Data Wrangler

ประทับเวลา:

เพิ่มเติมจาก AWS Machine Learning AWS

Amazon Q Business และ Amazon Q ใน QuickSight ช่วยให้พนักงานขับเคลื่อนข้อมูลได้มากขึ้น และตัดสินใจได้ดีขึ้นและเร็วขึ้นโดยใช้ความรู้ของบริษัท | อเมซอนเว็บเซอร์วิส

โหนดต้นทาง: 1969885
ประทับเวลา: เมษายน 30, 2024