ข้อมูลอนุกรมเวลามีอยู่ทั่วไปในชีวิตของเรา ราคาหุ้น ราคาบ้าน ข้อมูลสภาพอากาศ และข้อมูลการขายที่บันทึกในช่วงเวลาหนึ่งเป็นเพียงตัวอย่างบางส่วนเท่านั้น ในขณะที่ธุรกิจต่างๆ มองหาวิธีใหม่ๆ ในการรับข้อมูลเชิงลึกที่มีความหมายจากข้อมูลอนุกรมเวลามากขึ้น ความสามารถในการแสดงภาพข้อมูลและนำการเปลี่ยนแปลงที่ต้องการไปใช้จึงเป็นขั้นตอนพื้นฐาน อย่างไรก็ตาม ข้อมูลอนุกรมเวลามีลักษณะเฉพาะและแตกต่างเมื่อเทียบกับข้อมูลแบบตารางประเภทอื่นๆ และจำเป็นต้องได้รับการพิจารณาเป็นพิเศษ ตัวอย่างเช่น ข้อมูลตารางมาตรฐานหรือข้อมูลภาคตัดขวางจะถูกรวบรวม ณ เวลาที่กำหนด ในทางตรงกันข้าม ข้อมูลอนุกรมเวลาจะถูกบันทึกซ้ำๆ เมื่อเวลาผ่านไป โดยแต่ละจุดข้อมูลที่ต่อเนื่องกันจะขึ้นอยู่กับค่าในอดีต
เนื่องจากการวิเคราะห์อนุกรมเวลาส่วนใหญ่อาศัยข้อมูลที่รวบรวมจากชุดการสังเกตที่ต่อเนื่องกัน ข้อมูลที่ขาดหายไปและความกระจัดกระจายโดยธรรมชาติสามารถลดความแม่นยำของการคาดการณ์และทำให้เกิดอคติได้ นอกจากนี้ วิธีการวิเคราะห์อนุกรมเวลาส่วนใหญ่อาศัยการเว้นวรรคที่เท่ากันระหว่างจุดข้อมูล กล่าวคือ ช่วงเวลา ดังนั้น ความสามารถในการแก้ไขความผิดปกติของการเว้นวรรคข้อมูลจึงเป็นข้อกำหนดเบื้องต้นที่สำคัญ สุดท้าย การวิเคราะห์อนุกรมเวลามักต้องการการสร้างคุณลักษณะเพิ่มเติมที่สามารถช่วยอธิบายความสัมพันธ์โดยธรรมชาติระหว่างข้อมูลที่ป้อนเข้าและการคาดคะเนในอนาคต ปัจจัยทั้งหมดเหล่านี้ทำให้โครงการอนุกรมเวลาแตกต่างจากสถานการณ์การเรียนรู้ของเครื่อง (ML) แบบดั้งเดิม และต้องการแนวทางที่แตกต่างในการวิเคราะห์
โพสต์นี้แนะนำวิธีการใช้ Amazon SageMaker ข้อมูล Wrangler เพื่อใช้การแปลงอนุกรมเวลาและเตรียมชุดข้อมูลของคุณสำหรับกรณีการใช้งานอนุกรมเวลา
กรณีการใช้งานสำหรับ Data Wrangler
Data Wrangler นำเสนอโซลูชันแบบไม่ต้องใช้โค้ด/โค้ดน้อยสำหรับการวิเคราะห์อนุกรมเวลา พร้อมด้วยคุณสมบัติในการล้าง แปลง และเตรียมข้อมูลได้รวดเร็วยิ่งขึ้น นอกจากนี้ยังช่วยให้นักวิทยาศาสตร์ข้อมูลสามารถจัดเตรียมข้อมูลอนุกรมเวลาโดยสอดคล้องกับข้อกำหนดรูปแบบอินพุตของแบบจำลองการคาดการณ์ของพวกเขา คุณสามารถใช้ความสามารถเหล่านี้ได้สองสามวิธีดังต่อไปนี้:
- การวิเคราะห์เชิงพรรณนา– โดยปกติ ขั้นตอนหนึ่งของโครงงานวิทยาศาสตร์ข้อมูลคือการทำความเข้าใจข้อมูล เมื่อเราลงจุดข้อมูลอนุกรมเวลา เราจะได้ภาพรวมระดับสูงของรูปแบบของข้อมูล เช่น แนวโน้ม ฤดูกาล วัฏจักร และการแปรผันแบบสุ่ม ช่วยให้เราตัดสินใจเลือกวิธีการพยากรณ์ที่ถูกต้องสำหรับการแสดงรูปแบบเหล่านี้ได้อย่างถูกต้อง การพล็อตยังช่วยระบุค่าผิดปกติ ป้องกันการพยากรณ์ที่ไม่สมจริงและไม่ถูกต้อง Data Wrangler มาพร้อมกับ การแสดงภาพการสลายตัวของแนวโน้มตามฤดูกาล สำหรับการแสดงส่วนประกอบของอนุกรมเวลาและ an การแสดงภาพการตรวจจับค่าผิดปกติ เพื่อระบุค่าผิดปกติ
- การวิเคราะห์เชิงอธิบาย– สำหรับอนุกรมเวลาแบบหลายตัวแปร ความสามารถในการสำรวจ ระบุ และจำลองความสัมพันธ์ระหว่างอนุกรมเวลาตั้งแต่สองชุดขึ้นไปเป็นสิ่งจำเป็นสำหรับการได้รับการคาดการณ์ที่มีความหมาย ดิ จัดกลุ่มตาม การแปลงใน Data Wrangler สร้างอนุกรมเวลาหลายชุดโดยจัดกลุ่มข้อมูลสำหรับเซลล์ที่ระบุ นอกจากนี้ อนุกรมเวลาของ Data Wrangler จะแปลง (ถ้ามี) ซึ่งช่วยให้สามารถระบุคอลัมน์ ID เพิ่มเติมเพื่อจัดกลุ่มได้ ทำให้สามารถวิเคราะห์อนุกรมเวลาที่ซับซ้อนได้
- การเตรียมข้อมูลและวิศวกรรมคุณลักษณะ– ข้อมูลอนุกรมเวลาไม่ค่อยอยู่ในรูปแบบที่โมเดลอนุกรมเวลาคาดหวัง มักต้องมีการเตรียมข้อมูลเพื่อแปลงข้อมูลดิบเป็นคุณลักษณะเฉพาะของอนุกรมเวลา คุณอาจต้องการตรวจสอบว่าข้อมูลอนุกรมเวลามีระยะห่างสม่ำเสมอหรือเท่ากันก่อนการวิเคราะห์ สำหรับกรณีการใช้งานการคาดการณ์ คุณอาจต้องการรวมคุณลักษณะของอนุกรมเวลาเพิ่มเติม เช่น ความสัมพันธ์อัตโนมัติและคุณสมบัติทางสถิติ ด้วย Data Wrangler คุณสามารถสร้างคุณสมบัติของอนุกรมเวลาได้อย่างรวดเร็ว เช่น คอลัมน์ความล่าช้าสำหรับช่วงเวลาแล็กหลายช่วงเวลา สุ่มตัวอย่างข้อมูลเป็นรายละเอียดย่อยของเวลาหลาย ๆ และแยกคุณสมบัติทางสถิติของอนุกรมเวลาโดยอัตโนมัติ เพื่อระบุความสามารถบางประการ
ภาพรวมโซลูชัน
โพสต์นี้อธิบายอย่างละเอียดว่านักวิทยาศาสตร์ด้านข้อมูลและนักวิเคราะห์สามารถใช้ Data Wrangler เพื่อแสดงภาพและเตรียมข้อมูลอนุกรมเวลาได้อย่างไร เราใช้ชุดข้อมูล bitcoin cryptocurrency จาก ดาวน์โหลดข้อมูลการเข้ารหัส พร้อมรายละเอียดการซื้อขาย bitcoin เพื่อแสดงความสามารถเหล่านี้ เราทำความสะอาด ตรวจสอบ และแปลงชุดข้อมูลดิบด้วยคุณสมบัติของอนุกรมเวลา และสร้างการคาดการณ์ราคาปริมาณ bitcoin โดยใช้ชุดข้อมูลที่แปลงเป็นอินพุต
ตัวอย่างข้อมูลการซื้อขาย bitcoin ตั้งแต่วันที่ 1 มกราคม – 19 พฤศจิกายน 2021 โดยมีจุดข้อมูล 464,116 จุด แอตทริบิวต์ชุดข้อมูลประกอบด้วยการประทับเวลาของบันทึกราคา ราคาเปิดหรือราคาแรกที่แลกเปลี่ยนเหรียญในวันใดวันหนึ่ง ราคาสูงสุดที่แลกเปลี่ยนเหรียญในวันนั้น ราคาสุดท้ายที่แลกเปลี่ยนเหรียญ วันนั้น ปริมาณการแลกเปลี่ยนในมูลค่าสกุลเงินดิจิทัลในวันนั้นเป็น BTC และสกุลเงิน USD ที่เกี่ยวข้อง
เบื้องต้น
ดาวน์โหลด Bitstamp_BTCUSD_2021_minute.csv
ไฟล์จาก ดาวน์โหลดข้อมูลการเข้ารหัส แล้วอัพโหลดไปที่ บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (Amazon S3).
นำเข้าชุดข้อมูล bitcoin ใน Data Wrangler
ในการเริ่มกระบวนการนำเข้าข้อมูลไปยัง Data Wrangler ให้ทำตามขั้นตอนต่อไปนี้:
- เกี่ยวกับ SageMaker สตูดิโอ คอนโซลบน เนื้อไม่มีมัน เมนูให้เลือก ใหม่แล้วเลือก ข้อมูล Wrangler Flow.
- เปลี่ยนชื่อโฟลว์ตามต้องการ
- สำหรับ นำเข้าข้อมูลเลือก Amazon S3.
- อัปโหลดไฟล์
Bitstamp_BTCUSD_2021_minute.csv
ไฟล์จากบัคเก็ต S3 ของคุณ
ตอนนี้คุณดูตัวอย่างชุดข้อมูลได้แล้ว
- ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร รายละเอียด บานหน้าต่างเลือก การกำหนดค่าขั้นสูง และยกเลิกการเลือก เปิดใช้งานการสุ่มตัวอย่าง.
นี่เป็นชุดข้อมูลที่ค่อนข้างเล็ก เราจึงไม่ต้องการการสุ่มตัวอย่าง
- Choose นำเข้า.
คุณสร้างโฟลว์ไดอะแกรมสำเร็จแล้วและพร้อมที่จะเพิ่มขั้นตอนการแปลง
เพิ่มการแปลงร่าง
หากต้องการเพิ่มการแปลงข้อมูล ให้เลือกเครื่องหมายบวกถัดจาก ประเภทข้อมูล และเลือก แก้ไขประเภทข้อมูล.
ตรวจสอบให้แน่ใจว่า Data Wrangler อนุมานประเภทข้อมูลที่ถูกต้องสำหรับคอลัมน์ข้อมูลโดยอัตโนมัติ
ในกรณีของเรา ชนิดข้อมูลที่อนุมานได้ถูกต้อง อย่างไรก็ตาม สมมติว่าข้อมูลประเภทหนึ่งไม่ถูกต้อง คุณสามารถแก้ไขได้อย่างง่ายดายผ่าน UI ดังที่แสดงในภาพหน้าจอต่อไปนี้
มาเริ่มการวิเคราะห์และเริ่มเพิ่มการแปลงกัน
การทำความสะอาดข้อมูล
ขั้นแรก เราทำการแปลงข้อมูลการล้างข้อมูลหลายอย่าง
วางคอลัมน์
เริ่มต้นด้วยการวาง unix
คอลัมน์เพราะเราใช้ date
คอลัมน์เป็นดัชนี
- Choose กลับสู่กระแสข้อมูล.
- เลือกเครื่องหมายบวกถัดจาก ประเภทข้อมูล และเลือก เพิ่มการแปลง.
- Choose + เพิ่มขั้นตอน ใน ทรานส์ฟอร์ม บานหน้าต่าง
- Choose จัดการคอลัมน์.
- สำหรับ แปลงเลือก วางคอลัมน์.
- สำหรับ คอลัมน์ที่จะปล่อยเลือก ยูนิกซ์.
- Choose ดูตัวอย่าง.
- Choose เพิ่ม เพื่อบันทึกขั้นตอน
จัดการหาย
ข้อมูลที่ขาดหายไปเป็นปัญหาที่รู้จักกันดีในชุดข้อมูลในโลกแห่งความเป็นจริง ดังนั้นจึงเป็นแนวทางปฏิบัติที่ดีที่สุดในการตรวจสอบการมีอยู่ของค่าว่างหรือค่าว่างและจัดการอย่างเหมาะสม ชุดข้อมูลของเราไม่มีค่าที่ขาดหายไป แต่ถ้ามี เราจะใช้ จัดการหาย อนุกรมเวลาแปลงเพื่อแก้ไข กลยุทธ์ที่ใช้กันทั่วไปในการจัดการข้อมูลที่ขาดหายไป ได้แก่ การวางแถวที่มีค่าที่ขาดหายไป หรือการเติมค่าที่ขาดหายไปด้วยค่าประมาณที่สมเหตุสมผล เนื่องจากข้อมูลอนุกรมเวลาขึ้นอยู่กับลำดับของจุดข้อมูลข้ามช่วงเวลา การเติมค่าที่หายไปจึงเป็นแนวทางที่ต้องการ กระบวนการเติมค่าที่หายไปเรียกว่า การใส่ความ. จัดการหาย การแปลงอนุกรมเวลาทำให้คุณสามารถเลือกกลยุทธ์การใส่เสียงได้หลายแบบ
- Choose + เพิ่มขั้นตอน ใน ทรานส์ฟอร์ม บานหน้าต่าง
- เลือก อนุกรมเวลา แปลง.
- สำหรับ แปลงเลือก จัดการหาย.
- สำหรับ ประเภทอินพุตอนุกรมเวลาเลือก ตามคอลัมน์.
- สำหรับ วิธีการใส่ค่าเลือก เติมไปข้างหน้า.
พื้นที่ เติมไปข้างหน้า วิธีการแทนที่ค่าที่หายไปด้วยค่าที่ขาดหายไปก่อนค่าที่ขาดหายไป
กรอกย้อนหลัง, ค่าคงที่, ค่านิยมทั่วไป และ สอดแทรก เป็นกลยุทธ์การใส่ข้อมูลอื่นๆ ที่มีอยู่ใน Data Wrangler เทคนิคการสอดแทรกค่าอาศัยค่าใกล้เคียงสำหรับการเติมค่าที่ขาดหายไป ข้อมูลอนุกรมเวลามักแสดงความสัมพันธ์ระหว่างค่าที่อยู่ใกล้เคียง ทำให้การประมาณค่าเป็นกลยุทธ์การเติมที่มีประสิทธิภาพ สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับฟังก์ชันที่คุณสามารถใช้ในการแก้ไข โปรดดูที่ pandas.DataFrame.interpolate.
ตรวจสอบการประทับเวลา
ในการวิเคราะห์อนุกรมเวลา คอลัมน์ประทับเวลาทำหน้าที่เป็นคอลัมน์ดัชนี ซึ่งการวิเคราะห์จะหมุนเวียนไปรอบๆ ดังนั้น จำเป็นต้องตรวจสอบให้แน่ใจว่าคอลัมน์การประทับเวลาไม่มีค่าการประทับเวลาที่ไม่ถูกต้องหรือจัดรูปแบบไม่ถูกต้อง เพราะเราใช้ date
คอลัมน์เป็นคอลัมน์ประทับเวลาและดัชนี มายืนยันว่าค่าของมันอยู่ในรูปแบบที่ถูกต้อง
- Choose + เพิ่มขั้นตอน ใน ทรานส์ฟอร์ม บานหน้าต่าง
- เลือก อนุกรมเวลา แปลง.
- สำหรับ แปลง, เลือก ตรวจสอบการประทับเวลา.
พื้นที่ ตรวจสอบการประทับเวลา การแปลงช่วยให้คุณตรวจสอบว่าคอลัมน์ประทับเวลาในชุดข้อมูลของคุณไม่มีค่าที่มีการประทับเวลาที่ไม่ถูกต้องหรือค่าที่ขาดหายไป
- สำหรับ คอลัมน์ประทับเวลาเลือก ข้อมูล.
- สำหรับ นโยบาย ดรอปดาวน์ เลือก ระบุ.
พื้นที่ ระบุ ตัวเลือกนโยบายจะสร้างคอลัมน์บูลีนเพื่อระบุว่าค่าในคอลัมน์ประทับเวลาเป็นรูปแบบวันที่/เวลาที่ถูกต้องหรือไม่ ตัวเลือกอื่นๆ สำหรับ นโยบาย รวมถึง:
- ความผิดพลาด – เกิดข้อผิดพลาดหากคอลัมน์การประทับเวลาหายไปหรือไม่ถูกต้อง
- หล่น – วางแถวถ้าคอลัมน์การประทับเวลาหายไปหรือไม่ถูกต้อง
- Choose ดูตัวอย่าง.
คอลัมน์บูลีนใหม่ชื่อ date_is_valid
ถูกสร้างขึ้นด้วย true
ค่าที่ระบุรูปแบบที่ถูกต้องและรายการที่ไม่ใช่ค่าว่าง ชุดข้อมูลของเราไม่มีค่าการประทับเวลาที่ไม่ถูกต้องใน date
คอลัมน์. แต่ถ้าเป็นเช่นนั้น คุณสามารถใช้คอลัมน์บูลีนใหม่เพื่อระบุและแก้ไขค่าเหล่านั้นได้
- Choose เพิ่ม เพื่อบันทึกขั้นตอนนี้
การสร้างภาพอนุกรมเวลา
หลังจากที่เราทำความสะอาดและตรวจสอบชุดข้อมูลแล้ว เราจะเห็นภาพข้อมูลได้ดีขึ้นเพื่อทำความเข้าใจองค์ประกอบต่างๆ ของชุดข้อมูล
ตัวอย่างใหม่
เนื่องจากเราสนใจการคาดการณ์รายวัน มาแปลงความถี่ของข้อมูลเป็นรายวันกันเถอะ
พื้นที่ ตัวอย่างใหม่ การแปลงจะเปลี่ยนความถี่ของการสังเกตอนุกรมเวลาเป็นความละเอียดที่ระบุ และมาพร้อมกับตัวเลือกทั้งการสุ่มตัวอย่างและการสุ่มตัวอย่าง การใช้การสุ่มตัวอย่างจะเพิ่มความถี่ของการสังเกต (เช่น จากรายวันเป็นรายชั่วโมง) ในขณะที่การสุ่มตัวอย่างลงจะลดความถี่ของการสังเกต (เช่น จากรายชั่วโมงเป็นรายวัน)
เนื่องจากชุดข้อมูลของเรามีความละเอียดถี่ถ้วน ลองใช้ตัวเลือกการสุ่มตัวอย่าง
- Choose + เพิ่มขั้นตอน.
- เลือก อนุกรมเวลา แปลง.
- สำหรับ แปลงเลือก ตัวอย่างใหม่.
- สำหรับ timestampเลือก ข้อมูล.
- สำหรับ หน่วยความถี่เลือก วันปฏิทิน.
- สำหรับ ปริมาณความถี่, ป้อน 1
- สำหรับ วิธีการรวมค่าตัวเลขเลือก หมายความ.
- Choose ดูตัวอย่าง.
ความถี่ของชุดข้อมูลของเราเปลี่ยนจากต่อนาทีเป็นรายวัน
- Choose เพิ่ม เพื่อบันทึกขั้นตอนนี้
การสลายตัวตามฤดูกาล-แนวโน้ม
หลังจากการสุ่มตัวอย่างใหม่ เราสามารถมองเห็นชุดข้อมูลที่แปลงแล้วและส่วนประกอบ STL ที่เกี่ยวข้อง (การสลายตัวตามฤดูกาลและแนวโน้มโดยใช้ LOESS) โดยใช้ ฤดูกาล-แนวโน้ม-การสลายตัว การสร้างภาพ ซึ่งแบ่งอนุกรมเวลาดั้งเดิมออกเป็นเทรนด์ ฤดูกาล และส่วนประกอบที่เหลือ ทำให้เราเข้าใจดีว่ารูปแบบแต่ละแบบมีพฤติกรรมอย่างไร เรายังสามารถใช้ข้อมูลนี้ในการสร้างแบบจำลองปัญหาการคาดการณ์
Data Wrangler ใช้ LOESS ซึ่งเป็นวิธีการทางสถิติที่มีประสิทธิภาพและหลากหลายสำหรับการสร้างแบบจำลองแนวโน้มและองค์ประกอบตามฤดูกาล การใช้งานพื้นฐานนั้นใช้การถดถอยพหุนามสำหรับการประเมินความสัมพันธ์ที่ไม่เชิงเส้นที่มีอยู่ในองค์ประกอบของอนุกรมเวลา (ฤดูกาล แนวโน้ม และส่วนที่เหลือ)
- Choose กลับสู่กระแสข้อมูล.
- เลือกเครื่องหมายบวกถัดจาก ขั้นตอน on การไหลของข้อมูล.
- Choose เพิ่มบทวิเคราะห์.
- ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร สร้างการวิเคราะห์ บานหน้าต่างสำหรับ ประเภทการวิเคราะห์ เลือก อนุกรมเวลา.
- สำหรับ การแสดงเลือก การสลายตัวตามฤดูกาล-แนวโน้ม.
- สำหรับ ชื่อการวิเคราะห์, ป้อนชื่อ
- สำหรับ คอลัมน์ประทับเวลาเลือก ข้อมูล.
- สำหรับ คอลัมน์ค่าเลือก ปริมาณ USD.
- Choose ดูตัวอย่าง.
การวิเคราะห์ช่วยให้เราเห็นภาพอนุกรมเวลาของอินพุตและแยกฤดูกาล แนวโน้ม และส่วนที่เหลือ
- Choose ลด เพื่อบันทึกการวิเคราะห์
กับ การแสดงภาพการสลายตัวของแนวโน้มตามฤดูกาลเราสามารถสร้างสี่รูปแบบดังที่แสดงในภาพหน้าจอก่อนหน้านี้:
- Original – อนุกรมเวลาเดิมสุ่มตัวอย่างใหม่เป็นรายละเอียดรายวัน
- เทรนด์ – แนวโน้มพหุนามที่มีรูปแบบแนวโน้มเชิงลบโดยรวมสำหรับปี 2021 บ่งชี้การลดลงใน
Volume USD
มูลค่า - ฤดู – ฤดูกาลแบบทวีคูณแสดงโดยรูปแบบการแกว่งที่แตกต่างกัน เราเห็นความผันแปรตามฤดูกาลที่ลดลง โดยมีแอมพลิจูดของการแกว่งตัวลดลง
- เหลือ – เสียงที่เหลือหรือเสียงสุ่ม ชุดที่เหลือคือชุดผลลัพธ์หลังจากนำเทรนด์และส่วนประกอบตามฤดูกาลออกแล้ว เมื่อมองอย่างใกล้ชิด เราสังเกตการเพิ่มขึ้นอย่างรวดเร็วระหว่างเดือนมกราคมถึงมีนาคม และระหว่างเดือนเมษายนถึงมิถุนายน ซึ่งบ่งชี้ว่ามีพื้นที่สำหรับสร้างแบบจำลองเหตุการณ์เฉพาะดังกล่าวโดยใช้ข้อมูลในอดีต
การแสดงภาพข้อมูลเหล่านี้ให้โอกาสในการขายที่มีคุณค่าแก่นักวิทยาศาสตร์ข้อมูลและนักวิเคราะห์ในรูปแบบที่มีอยู่ และสามารถช่วยคุณเลือกกลยุทธ์การสร้างแบบจำลองได้ อย่างไรก็ตาม ถือเป็นแนวทางปฏิบัติที่ดีเสมอที่จะตรวจสอบผลลัพธ์ของการสลายตัวของ STL ด้วยข้อมูลที่รวบรวมผ่านการวิเคราะห์เชิงพรรณนาและความเชี่ยวชาญด้านโดเมน
โดยสรุป เราสังเกตแนวโน้มขาลงที่สอดคล้องกับการสร้างภาพข้อมูลซีรีส์ต้นฉบับ ซึ่งเพิ่มความมั่นใจของเราในการรวมข้อมูลที่ถ่ายทอดโดยการแสดงภาพแนวโน้มเข้ากับการตัดสินใจขั้นปลายน้ำ ในทางตรงกันข้าม การสร้างภาพข้อมูลตามฤดูกาลจะช่วยแจ้งถึงฤดูกาลและความจำเป็นในการนำออกโดยใช้เทคนิคต่างๆ เช่น การแยกความแตกต่าง โดยไม่ได้ให้ข้อมูลเชิงลึกโดยละเอียดในระดับที่ต้องการเกี่ยวกับรูปแบบตามฤดูกาลต่างๆ ที่มีอยู่ ดังนั้นจึงต้องมีการวิเคราะห์ที่ลึกซึ้งยิ่งขึ้น
วิศวกรรมคุณลักษณะ
หลังจากที่เราเข้าใจรูปแบบที่มีอยู่ในชุดข้อมูลของเราแล้ว เราสามารถเริ่มสร้างคุณลักษณะใหม่ที่มีเป้าหมายเพื่อเพิ่มความแม่นยำของแบบจำลองการคาดการณ์
แสดงวันที่เวลา
มาเริ่มกระบวนการวิศวกรรมคุณลักษณะด้วยคุณลักษณะวันที่/เวลาที่ตรงไปตรงมามากขึ้น คุณสมบัติวันที่/เวลาถูกสร้างขึ้นจาก timestamp
และจัดเตรียมช่องทางที่เหมาะสมที่สุดสำหรับนักวิทยาศาสตร์ข้อมูลในการเริ่มต้นกระบวนการทางวิศวกรรมคุณลักษณะ เราเริ่มต้นด้วย แสดงวันที่เวลา การแปลงอนุกรมเวลาเพื่อเพิ่มคุณสมบัติเดือน วันของเดือน วันของปี สัปดาห์ของปี และไตรมาสในชุดข้อมูลของเรา เนื่องจากเราให้องค์ประกอบวันที่/เวลาเป็นคุณลักษณะที่แยกจากกัน เราจึงเปิดใช้งานอัลกอริทึม ML เพื่อตรวจจับสัญญาณและรูปแบบเพื่อปรับปรุงความแม่นยำในการคาดคะเน
- Choose + เพิ่มขั้นตอน.
- เลือก อนุกรมเวลา แปลง.
- สำหรับ แปลง, เลือก แสดงวันที่เวลา.
- สำหรับ คอลัมน์อินพุตเลือก ข้อมูล.
- สำหรับ คอลัมน์เอาต์พุตป้อน
date
(ขั้นตอนนี้เป็นทางเลือก) - สำหรับ โหมดเอาเลือก เกี่ยวกับลำดับ.
- สำหรับ รูปแบบเอาต์พุตเลือก คอลัมน์.
- สำหรับคุณสมบัติวันที่/เวลาที่จะแยก ให้เลือก เดือน, วัน, สัปดาห์ของปี, วันของปีและ หนึ่งในสี่.
- Choose ดูตัวอย่าง.
ตอนนี้ชุดข้อมูลมีคอลัมน์ใหม่ชื่อ date_month
, date_day
, date_week_of_year
, date_day_of_year
และ date_quarter
. ข้อมูลที่ดึงมาจากคุณลักษณะใหม่เหล่านี้สามารถช่วยให้นักวิทยาศาสตร์ด้านข้อมูลได้รับข้อมูลเชิงลึกเพิ่มเติมจากข้อมูลและความสัมพันธ์ระหว่างคุณลักษณะอินพุตและคุณลักษณะเอาต์พุต
- Choose เพิ่ม เพื่อบันทึกขั้นตอนนี้
เข้ารหัสหมวดหมู่
คุณสมบัติวันที่/เวลาไม่จำกัดเฉพาะค่าจำนวนเต็ม คุณยังอาจเลือกพิจารณาคุณลักษณะวันที่/เวลาที่แยกออกมาเป็นตัวแปรตามหมวดหมู่ และแสดงเป็นคุณลักษณะที่เข้ารหัสแบบลัดครั้งเดียว โดยแต่ละคอลัมน์มีค่าไบนารี ที่สร้างขึ้นใหม่ date_quarter
คอลัมน์มีค่าระหว่าง 0-3 และสามารถเข้ารหัสแบบ one-hot โดยใช้คอลัมน์ไบนารีสี่คอลัมน์ มาสร้างคุณลักษณะไบนารีใหม่สี่รายการ โดยแต่ละรายการจะแสดงถึงไตรมาสที่เกี่ยวข้องกันของปี
- Choose + เพิ่มขั้นตอน.
- เลือก เข้ารหัสหมวดหมู่ แปลง.
- สำหรับ แปลงเลือก การเข้ารหัสแบบร้อนครั้งเดียว.
- สำหรับ คอลัมน์อินพุตเลือก วันที่_ไตรมาส.
- สำหรับ สไตล์เอาต์พุตเลือก คอลัมน์.
- Choose ดูตัวอย่าง.
- Choose เพิ่ม เพื่อเพิ่มขั้นตอน
คุณสมบัติล่าช้า
ต่อไป มาสร้างคุณสมบัติการหน่วงสำหรับคอลัมน์เป้าหมายกันเถอะ Volume USD
. คุณลักษณะความล่าช้าในการวิเคราะห์อนุกรมเวลาคือค่าที่ประทับเวลาก่อนหน้าซึ่งถือว่ามีประโยชน์ในการอนุมานค่าในอนาคต นอกจากนี้ยังช่วยระบุความสัมพันธ์อัตโนมัติ (หรือที่เรียกว่า ความสัมพันธ์แบบอนุกรม) รูปแบบในชุดที่เหลือโดยการหาปริมาณความสัมพันธ์ของการสังเกตกับการสังเกตในขั้นตอนก่อนหน้า ความสัมพันธ์อัตโนมัติคล้ายกับความสัมพันธ์ปกติแต่ระหว่างค่าในชุดข้อมูลและค่าในอดีต เป็นพื้นฐานสำหรับแบบจำลองการคาดการณ์แบบถดถอยอัตโนมัติในชุด ARIMA
ด้วย Data Wrangler คุณสมบัติล่าช้า แปลง คุณสามารถสร้างคุณสมบัติความล่าช้าได้อย่างง่ายดายในแต่ละช่วงเวลา นอกจากนี้ เรามักต้องการสร้างคุณสมบัติการหน่วงหลายรายการในความล่าช้าที่แตกต่างกัน และให้แบบจำลองตัดสินใจคุณสมบัติที่มีความหมายมากที่สุด สำหรับสถานการณ์ดังกล่าว คุณสมบัติล่าช้า การแปลงช่วยสร้างคอลัมน์ที่ล่าช้าหลายคอลัมน์ตามขนาดหน้าต่างที่ระบุ
- Choose กลับสู่กระแสข้อมูล.
- เลือกเครื่องหมายบวกถัดจาก ขั้นตอน on การไหลของข้อมูล.
- Choose + เพิ่มขั้นตอน.
- Choose อนุกรมเวลา แปลง.
- สำหรับ แปลงเลือก คุณสมบัติล่าช้า.
- สำหรับ สร้างคุณสมบัติล่าช้าสำหรับคอลัมน์นี้เลือก ปริมาณ USD.
- สำหรับ คอลัมน์ประทับเวลาเลือก ข้อมูล.
- สำหรับ ทีมป้อน
7
. - เนื่องจากเราสนใจที่จะสังเกตค่าความล่าช้าเจ็ดค่าก่อนหน้านี้ ให้เลือก รวมหน้าต่างล่าช้าทั้งหมด.
- ในการสร้างคอลัมน์ใหม่สำหรับค่าความล่าช้าแต่ละค่า ให้เลือก แผ่ออก.
- Choose ดูตัวอย่าง.
มีการเพิ่มคอลัมน์ใหม่เจ็ดคอลัมน์ ต่อท้ายด้วย lag_number
คีย์เวิร์ดสำหรับคอลัมน์เป้าหมาย Volume USD
.
- Choose เพิ่ม เพื่อบันทึกขั้นตอน
คุณสมบัติหน้าต่างกลิ้ง
นอกจากนี้เรายังสามารถคำนวณผลสรุปทางสถิติที่มีความหมายในช่วงของค่าต่างๆ และรวมไว้เป็นคุณสมบัติการป้อนข้อมูล มาแยกคุณลักษณะอนุกรมเวลาทางสถิติทั่วไปกัน
Data Wrangler ใช้ความสามารถในการดึงข้อมูลอนุกรมเวลาอัตโนมัติโดยใช้โอเพ่นซอร์ส สดชื่น บรรจุุภัณฑ์. ด้วยการแปลงแยกคุณลักษณะอนุกรมเวลา คุณสามารถทำให้กระบวนการแยกคุณลักษณะเป็นอัตโนมัติได้ วิธีนี้ช่วยลดเวลาและความพยายามในการใช้ไลบรารีประมวลผลสัญญาณด้วยตนเอง สำหรับโพสต์นี้ เราแยกคุณสมบัติโดยใช้ คุณสมบัติหน้าต่างกลิ้ง แปลง. เมธอดนี้คำนวณคุณสมบัติทางสถิติในชุดการสังเกตที่กำหนดโดยขนาดหน้าต่าง
- Choose + เพิ่มขั้นตอน.
- เลือก อนุกรมเวลา แปลง.
- สำหรับ แปลงเลือก คุณสมบัติหน้าต่างกลิ้ง.
- สำหรับ สร้างคุณสมบัติหน้าต่างกลิ้งสำหรับคอลัมน์นี้เลือก ปริมาณ USD.
- สำหรับ คอลัมน์ประทับเวลาเลือก ข้อมูล.
- สำหรับ ขนาดหน้าต่างป้อน
7
.
การกำหนดขนาดหน้าต่างของ 7
คำนวณคุณสมบัติโดยการรวมค่าที่ประทับเวลาปัจจุบันและค่าสำหรับการประทับเวลาเจ็ดครั้งก่อนหน้า
- เลือก เรียบ เพื่อสร้างคอลัมน์ใหม่สำหรับแต่ละคุณลักษณะที่คำนวณ
- เลือกกลยุทธ์ของคุณเป็น เซตย่อยขั้นต่ำ.
กลยุทธ์นี้แยกคุณลักษณะแปดประการที่เป็นประโยชน์ในการวิเคราะห์ดาวน์สตรีม กลยุทธ์อื่นๆ ได้แก่ เซตย่อยที่มีประสิทธิภาพ, เซตย่อยที่กำหนดเองและ คุณสมบัติทั้งหมด. สำหรับรายการคุณสมบัติทั้งหมดที่สามารถดึงออกมาได้ โปรดดูที่ ภาพรวมเกี่ยวกับคุณสมบัติที่แยกออกมา.
- Choose ดูตัวอย่าง.
เราสามารถเห็นแปดคอลัมน์ใหม่ที่มีขนาดหน้าต่างที่ระบุของ 7
ในชื่อของพวกเขา ต่อท้ายชุดข้อมูลของเรา
- Choose เพิ่ม เพื่อบันทึกขั้นตอน
ส่งออกชุดข้อมูล
เราได้แปลงชุดข้อมูลอนุกรมเวลาและพร้อมที่จะใช้ชุดข้อมูลที่แปลงเป็นอินพุตสำหรับอัลกอริธึมการคาดการณ์ ขั้นตอนสุดท้ายคือการส่งออกชุดข้อมูลที่แปลงแล้วไปยัง Amazon S3 ใน Data Wrangler คุณสามารถเลือก ขั้นตอนการส่งออก เพื่อสร้างโน้ตบุ๊ก Jupyter โดยอัตโนมัติด้วยโค้ด Amazon SageMaker Processing สำหรับการประมวลผลและส่งออกชุดข้อมูลที่แปลงแล้วไปยังบัคเก็ต S3 อย่างไรก็ตาม เนื่องจากชุดข้อมูลของเรามีระเบียนมากกว่า 300 รายการ เรามาใช้ประโยชน์จาก ส่งออกข้อมูล ตัวเลือกใน เพิ่มการแปลง ดูเพื่อส่งออกชุดข้อมูลที่แปลงแล้วโดยตรงไปยัง Amazon S3 จาก Data Wrangler
- Choose ส่งออกข้อมูล.
- สำหรับ ที่ตั้ง S3เลือก เบราว์เซอร์ แล้วเลือกบัคเก็ต S3 ของคุณ
- Choose ส่งออกข้อมูล.
ตอนนี้เราแปลงชุดข้อมูล bitcoin สำเร็จแล้ว เราก็สามารถใช้ พยากรณ์อเมซอน เพื่อสร้างการคาดการณ์ bitcoin
ทำความสะอาด
หากคุณใช้กรณีนี้เสร็จแล้ว ให้ล้างข้อมูลทรัพยากรที่คุณสร้างขึ้นเพื่อหลีกเลี่ยงค่าใช้จ่ายเพิ่มเติม สำหรับ Data Wrangler คุณสามารถปิดอินสแตนซ์พื้นฐานเมื่อเสร็จสิ้นได้ อ้างถึง ปิด Data Wrangler เอกสารสำหรับรายละเอียด หรือคุณสามารถไปต่อที่ 2 หมายเลข ของชุดนี้เพื่อใช้ชุดข้อมูลนี้สำหรับการคาดการณ์
สรุป
โพสต์นี้สาธิตวิธีใช้ Data Wrangler เพื่อลดความซับซ้อนและเร่งการวิเคราะห์อนุกรมเวลาโดยใช้ความสามารถของอนุกรมเวลาในตัว เราสำรวจวิธีที่นักวิทยาศาสตร์ข้อมูลสามารถล้าง จัดรูปแบบ ตรวจสอบ และแปลงข้อมูลอนุกรมเวลาให้อยู่ในรูปแบบที่ต้องการได้อย่างง่ายดายและโต้ตอบได้ เพื่อการวิเคราะห์ที่มีความหมาย นอกจากนี้เรายังสำรวจวิธีที่คุณสามารถเพิ่มคุณค่าให้กับการวิเคราะห์อนุกรมเวลาของคุณโดยการเพิ่มชุดคุณสมบัติทางสถิติที่ครอบคลุมโดยใช้ Data Wrangler หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับการแปลงอนุกรมเวลาใน Data Wrangler โปรดดูที่ แปลงข้อมูล.
เกี่ยวกับผู้เขียน
รูป เบนส์ เป็นสถาปนิกโซลูชันที่ AWS โดยมุ่งเน้นที่ AI/ML เขาหลงใหลในการช่วยลูกค้าสร้างสรรค์นวัตกรรมและบรรลุวัตถุประสงค์ทางธุรกิจโดยใช้ปัญญาประดิษฐ์และการเรียนรู้ของเครื่อง ในเวลาว่าง Roop ชอบอ่านหนังสือและเดินป่า
นิกิต้า อิฟคิน เป็นนักวิทยาศาสตร์ประยุกต์ Amazon SageMaker Data Wrangler
- "
- 100
- 116
- 2021
- 7
- 9
- เกี่ยวกับเรา
- เร่งความเร็ว
- ข้าม
- เพิ่มเติม
- ความได้เปรียบ
- ขั้นตอนวิธี
- อัลกอริทึม
- ทั้งหมด
- อเมซอน
- การวิเคราะห์
- เหมาะสม
- การประยุกต์ใช้
- เข้าใกล้
- เมษายน
- รอบ
- เทียม
- ปัญญาประดิษฐ์
- ปัญญาประดิษฐ์และการเรียนรู้ด้วยเครื่อง
- ใช้ได้
- AWS
- รากฐาน
- ที่ดีที่สุด
- Bitcoin
- ซื้อขาย bitcoin
- ชายแดน
- BTC
- built-in
- ธุรกิจ
- ธุรกิจ
- ความสามารถในการ
- กรณี
- โหลด
- การทำความสะอาด
- รหัส
- เหรียญ
- คอลัมน์
- ร่วมกัน
- เมื่อเทียบกับ
- ซับซ้อน
- ส่วนประกอบ
- ความมั่นใจ
- ปลอบใจ
- มี
- ต่อ
- ได้
- cryptocurrency
- เงินตรา
- ปัจจุบัน
- ลูกค้า
- ข้อมูล
- วิทยาศาสตร์ข้อมูล
- ชุดข้อมูล
- วัน
- ลึก
- ความต้องการ
- การตรวจพบ
- DID
- ต่าง
- ไม่
- โดเมน
- ลง
- อย่างง่ายดาย
- มีประสิทธิภาพ
- การเปิดใช้งาน
- วิศวกร
- ชั้นเยี่ยม
- จำเป็น
- ประมาณการ
- เหตุการณ์
- ตัวอย่าง
- ที่คาดหวัง
- ความชำนาญ
- สารสกัดจาก
- ปัจจัย
- เร็วขึ้น
- ลักษณะ
- คุณสมบัติ
- ในที่สุด
- ชื่อจริง
- แก้ไขปัญหา
- ไหล
- ดังต่อไปนี้
- รูป
- รูปแบบ
- เต็ม
- อนาคต
- สร้าง
- ให้
- ดี
- บัญชีกลุ่ม
- การจัดการ
- ช่วย
- เป็นประโยชน์
- จะช่วยให้
- บ้าน
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- HTTPS
- แยกแยะ
- ในอื่น ๆ
- ประกอบด้วย
- เพิ่ม
- ดัชนี
- ข้อมูล
- ข้อมูลเชิงลึก
- Intelligence
- IT
- มกราคม
- ที่รู้จักกัน
- เรียนรู้
- การเรียนรู้
- ชั้น
- ถูก จำกัด
- รายการ
- ที่ต้องการหา
- เครื่อง
- เรียนรู้เครื่อง
- การทำ
- มีนาคม
- ML
- แบบ
- โมเดล
- มากที่สุด
- คุณสมบัติใหม่
- สัญญาณรบกวน
- สมุดบันทึก
- เปิด
- โอเพนซอร์ส
- การเปิด
- ตัวเลือกเสริม (Option)
- Options
- อื่นๆ
- มิฉะนั้น
- แบบแผน
- งวด
- นโยบาย
- คำทำนาย
- การคาดการณ์
- นำเสนอ
- การป้องกัน
- ดูตัวอย่าง
- ราคา
- ปัญหา
- กระบวนการ
- โครงการ
- โครงการ
- ให้
- ให้
- หนึ่งในสี่
- อย่างรวดเร็ว
- พิสัย
- ดิบ
- การอ่าน
- เหมาะสม
- ระเบียน
- บันทึก
- ลด
- ปกติ
- ความสัมพันธ์
- ความสัมพันธ์
- ต้องการ
- ความต้องการ
- แหล่งข้อมูล
- ทบทวน
- ขาย
- วิทยาศาสตร์
- นักวิทยาศาสตร์
- นักวิทยาศาสตร์
- ชุด
- บริการ
- ชุด
- การปิด
- คล้ายคลึงกัน
- ง่าย
- ขนาด
- เล็ก
- So
- โซลูชัน
- สเปค
- เริ่มต้น
- ทางสถิติ
- สต็อก
- การเก็บรักษา
- กลยุทธ์
- กลยุทธ์
- ประสบความสำเร็จ
- เป้า
- เทคนิค
- ตลอด
- เวลา
- เทรด
- แบบดั้งเดิม
- แปลง
- การแปลง
- ui
- เข้าใจ
- เป็นเอกลักษณ์
- us
- USD
- ใช้
- มักจะ
- นำไปใช้
- ความคุ้มค่า
- รายละเอียด
- การสร้างภาพ
- ปริมาณ
- สัปดาห์
- คำ
- ปี