Chuẩn bị dữ liệu chuỗi thời gian với Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Chuẩn bị dữ liệu chuỗi thời gian với Amazon SageMaker Data Wrangler

Dữ liệu chuỗi thời gian hiện diện rộng rãi trong cuộc sống của chúng ta. Giá cổ phiếu, giá nhà, thông tin thời tiết và dữ liệu bán hàng được thu thập theo thời gian chỉ là một vài ví dụ. Khi các doanh nghiệp ngày càng tìm kiếm những cách thức mới để có được những hiểu biết sâu sắc có ý nghĩa từ dữ liệu chuỗi thời gian, thì khả năng trực quan hóa dữ liệu và áp dụng các chuyển đổi mong muốn là những bước cơ bản. Tuy nhiên, dữ liệu chuỗi thời gian có các đặc điểm và sắc thái độc đáo so với các loại dữ liệu dạng bảng khác và cần phải xem xét đặc biệt. Ví dụ: dữ liệu dạng bảng hoặc mặt cắt tiêu chuẩn được thu thập tại một thời điểm cụ thể. Ngược lại, dữ liệu chuỗi thời gian được ghi lại nhiều lần theo thời gian, với mỗi điểm dữ liệu liên tiếp phụ thuộc vào các giá trị trong quá khứ của nó.

Bởi vì hầu hết các phân tích chuỗi thời gian dựa trên thông tin thu thập được trên một nhóm quan sát liền kề, dữ liệu bị thiếu và sự thưa thớt cố hữu có thể làm giảm độ chính xác của các dự báo và đưa ra độ chệch. Ngoài ra, hầu hết các phương pháp phân tích chuỗi thời gian đều dựa vào khoảng cách bằng nhau giữa các điểm dữ liệu, hay nói cách khác là tính tuần hoàn. Do đó, khả năng khắc phục các bất thường về khoảng cách dữ liệu là một điều kiện tiên quyết quan trọng. Cuối cùng, phân tích chuỗi thời gian thường yêu cầu tạo ra các tính năng bổ sung có thể giúp giải thích mối quan hệ vốn có giữa dữ liệu đầu vào và các dự đoán trong tương lai. Tất cả những yếu tố này phân biệt các dự án chuỗi thời gian với các kịch bản máy học (ML) truyền thống và yêu cầu một cách tiếp cận khác biệt đối với phân tích của nó.

Bài đăng này hướng dẫn cách sử dụng Trình sắp xếp dữ liệu Amazon SageMaker để áp dụng các phép biến đổi chuỗi thời gian và chuẩn bị tập dữ liệu của bạn cho các trường hợp sử dụng chuỗi thời gian.

Các trường hợp sử dụng cho Data Wrangler

Data Wrangler cung cấp giải pháp không mã / mã thấp để phân tích chuỗi thời gian với các tính năng làm sạch, biến đổi và chuẩn bị dữ liệu nhanh hơn. Nó cũng cho phép các nhà khoa học dữ liệu chuẩn bị dữ liệu chuỗi thời gian tuân theo các yêu cầu định dạng đầu vào của mô hình dự báo của họ. Sau đây là một số cách bạn có thể sử dụng các khả năng này:

  • Phân tích mô tả- Thông thường, bước một của bất kỳ dự án khoa học dữ liệu nào là hiểu dữ liệu. Khi chúng tôi vẽ dữ liệu chuỗi thời gian, chúng tôi sẽ có được cái nhìn tổng quan cấp cao về các mẫu của nó, chẳng hạn như xu hướng, tính thời vụ, chu kỳ và các biến thể ngẫu nhiên. Nó giúp chúng tôi quyết định phương pháp dự báo chính xác để thể hiện chính xác các mẫu này. Lập kế hoạch cũng có thể giúp xác định các ngoại lệ, ngăn ngừa các dự báo không thực tế và không chính xác. Data Wrangler đi kèm với một hình ảnh hóa phân hủy xu hướng theo mùa để đại diện cho các thành phần của chuỗi thời gian và trực quan hóa phát hiện ngoại lệ để xác định các ngoại lệ.
  • Phân tích giải thích- Đối với chuỗi thời gian nhiều biến thể, khả năng khám phá, xác định và lập mô hình mối quan hệ giữa hai hoặc nhiều chuỗi thời gian là điều cần thiết để thu được các dự báo có ý nghĩa. Các Nhóm theo biến đổi trong Data Wrangler tạo ra nhiều chuỗi thời gian bằng cách nhóm dữ liệu cho các ô được chỉ định. Ngoài ra, biến đổi chuỗi thời gian Data Wrangler, nếu có, cho phép đặc tả các cột ID bổ sung để nhóm lại, cho phép phân tích chuỗi thời gian phức tạp.
  • Chuẩn bị dữ liệu và kỹ thuật tính năng- Dữ liệu chuỗi thời gian hiếm khi ở định dạng mà các mô hình chuỗi thời gian mong đợi. Nó thường yêu cầu chuẩn bị dữ liệu để chuyển đổi dữ liệu thô thành các tính năng dành riêng cho chuỗi thời gian. Bạn có thể muốn xác nhận rằng dữ liệu chuỗi thời gian có khoảng cách đều nhau hoặc bằng nhau trước khi phân tích. Đối với các trường hợp sử dụng dự báo, bạn cũng có thể muốn kết hợp các đặc điểm chuỗi thời gian bổ sung, chẳng hạn như tính chất tự tương quan và thống kê. Với Data Wrangler, bạn có thể nhanh chóng tạo các tính năng của chuỗi thời gian như cột độ trễ cho nhiều khoảng thời gian trễ, lấy lại mẫu dữ liệu thành nhiều mức chi tiết thời gian và tự động trích xuất các thuộc tính thống kê của chuỗi thời gian, để đặt tên cho một số khả năng.

Tổng quan về giải pháp

Bài đăng này trình bày chi tiết về cách các nhà khoa học và phân tích dữ liệu có thể sử dụng Data Wrangler để trực quan hóa và chuẩn bị dữ liệu chuỗi thời gian. Chúng tôi sử dụng tập dữ liệu tiền điện tử bitcoin từ dữ liệu tiền điện tửtải xuống với chi tiết giao dịch bitcoin để giới thiệu những khả năng này. Chúng tôi làm sạch, xác thực và chuyển đổi tập dữ liệu thô với các tính năng chuỗi thời gian và cũng tạo dự báo giá khối lượng bitcoin bằng cách sử dụng tập dữ liệu đã chuyển đổi làm đầu vào.

Mẫu dữ liệu giao dịch bitcoin từ ngày 1 tháng 19 - ngày 2021 tháng 464,116 năm XNUMX, với XNUMX điểm dữ liệu. Các thuộc tính tập dữ liệu bao gồm dấu thời gian của bản ghi giá, giá mở cửa hoặc giá đầu tiên mà đồng xu được đổi trong một ngày cụ thể, giá cao nhất mà đồng xu được trao đổi trong ngày, giá cuối cùng mà đồng xu được đổi vào trong ngày, khối lượng được trao đổi theo giá trị tiền điện tử trong ngày bằng BTC và tiền tệ USD tương ứng.

Điều kiện tiên quyết

Tải về Bitstamp_BTCUSD_2021_minute.csv tập tin từ dữ liệu tiền điện tửtải xuống và tải nó lên Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3).

Nhập tập dữ liệu bitcoin trong Data Wrangler

Để bắt đầu quá trình nhập vào Data Wrangler, hãy hoàn thành các bước sau:

  1. trên Studio SageMaker bảng điều khiển, trên Tập tin menu, chọn Mới, sau đó chọn Luồng trình xử lý dữ liệu.
  2. Đổi tên luồng như mong muốn.
  3. Trong Nhập dữ liệu, chọn Amazon S3.
  4. Tải lên Bitstamp_BTCUSD_2021_minute.csv tệp từ nhóm S3 của bạn.

Bây giờ bạn có thể xem trước tập dữ liệu của mình.

  1. Trong tạp chí Chi tiết ngăn, chọn Cấu hình nâng cao và bỏ chọn Cho phép lấy mẫu.

Đây là một tập dữ liệu tương đối nhỏ, vì vậy chúng tôi không cần lấy mẫu.

  1. Chọn Nhập khẩu.

Bạn đã tạo thành công sơ đồ luồng và sẵn sàng thêm các bước chuyển đổi.

Chuẩn bị dữ liệu chuỗi thời gian với Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Thêm các phép biến đổi

Để thêm các phép biến đổi dữ liệu, hãy chọn dấu cộng bên cạnh Loại dữ liệu Và chọn Chỉnh sửa các loại dữ liệu.

Chuẩn bị dữ liệu chuỗi thời gian với Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Đảm bảo rằng Data Wrangler tự động suy ra các kiểu dữ liệu chính xác cho các cột dữ liệu.

Trong trường hợp của chúng tôi, các kiểu dữ liệu được suy ra là đúng. Tuy nhiên, giả sử một kiểu dữ liệu không chính xác. Bạn có thể dễ dàng sửa đổi chúng thông qua giao diện người dùng, như được hiển thị trong ảnh chụp màn hình sau.

chỉnh sửa và xem xét các loại dữ liệu

Hãy bắt đầu phân tích và bắt đầu thêm các phép biến đổi.

Làm sạch dữ liệu

Trước tiên, chúng tôi thực hiện một số chuyển đổi làm sạch dữ liệu.

Thả cột

Hãy bắt đầu bằng cách bỏ unix vì chúng tôi sử dụng date cột làm chỉ mục.

  1. Chọn Quay lại luồng dữ liệu.
  2. Chọn dấu cộng bên cạnh Loại dữ liệu Và chọn Thêm biến đổi.
  3. Chọn + Thêm bước trong CHUYỂN ĐỔI cửa sổ.
  4. Chọn Quản lý các cột.
  5. Trong Chuyển đổi, chọn Thả cột.
  6. Trong Cột để thả, chọn unix.
  7. Chọn Xem trước.
  8. Chọn Thêm để lưu bước.

Xử lý thiếu

Thiếu dữ liệu là một vấn đề nổi tiếng trong bộ dữ liệu trong thế giới thực. Do đó, cách tốt nhất là xác minh sự hiện diện của bất kỳ giá trị nào bị thiếu hoặc rỗng và xử lý chúng một cách thích hợp. Tập dữ liệu của chúng tôi không chứa các giá trị bị thiếu. Nhưng nếu có, chúng tôi sẽ sử dụng Xử lý thiếu biến đổi chuỗi thời gian để sửa chữa chúng. Các chiến lược thường được sử dụng để xử lý dữ liệu bị thiếu bao gồm giảm các hàng có giá trị bị thiếu hoặc lấp đầy các giá trị bị thiếu bằng các ước tính hợp lý. Bởi vì dữ liệu chuỗi thời gian dựa trên một chuỗi các điểm dữ liệu theo thời gian, nên việc điền các giá trị còn thiếu là cách tiếp cận được ưu tiên. Quá trình điền các giá trị bị thiếu được gọi là sự áp đặt. Các Xử lý thiếu biến đổi chuỗi thời gian cho phép bạn chọn từ nhiều chiến lược áp đặt.

  1. Chọn + Thêm bước trong CHUYỂN ĐỔI cửa sổ.
  2. Chọn Chuỗi thời gian biến đổi.
  3. Trong Chuyển đổi, Chọn Xử lý thiếu.
  4. Trong Loại đầu vào chuỗi thời gian, chọn Dọc cột.
  5. Trong Phương pháp nhập giá trị, chọn Chuyển tiếp điền.

Sản phẩm Chuyển tiếp điền phương thức thay thế các giá trị bị thiếu bằng các giá trị không bị thiếu trước các giá trị bị thiếu.

xử lý biến đổi chuỗi thời gian bị thiếu

Điền lùi, Giá trị hiện có, Giá trị chung nhất Nội suy là các chiến lược áp đặt khác có sẵn trong Data Wrangler. Kỹ thuật nội suy dựa vào các giá trị lân cận để lấp đầy các giá trị còn thiếu. Dữ liệu chuỗi thời gian thường thể hiện mối tương quan giữa các giá trị lân cận, làm cho nội suy trở thành một chiến lược lấp đầy hiệu quả. Để biết thêm chi tiết về các chức năng bạn có thể sử dụng để áp dụng phép nội suy, hãy tham khảo pandas.DataFrame.interpolate.

Xác thực dấu thời gian

Trong phân tích chuỗi thời gian, cột dấu thời gian đóng vai trò là cột chỉ mục, nơi phân tích xoay vòng. Do đó, điều cần thiết là đảm bảo cột dấu thời gian không chứa các giá trị dấu thời gian không hợp lệ hoặc được định dạng không chính xác. Bởi vì chúng tôi đang sử dụng date làm cột dấu thời gian và chỉ mục, hãy xác nhận các giá trị của nó được định dạng chính xác.

  1. Chọn + Thêm bước trong CHUYỂN ĐỔI cửa sổ.
  2. Chọn Chuỗi thời gian biến đổi.
  3. Trong Biến đổi, chọn Xác thực dấu thời gian.

Sản phẩm Xác thực dấu thời gian biến đổi cho phép bạn kiểm tra xem cột dấu thời gian trong tập dữ liệu của bạn không có các giá trị có dấu thời gian không chính xác hoặc các giá trị bị thiếu.

  1. Trong Cột dấu thời gian, chọn ngày.
  2. Trong Chính sách thả xuống, chọn Biểu thị.

Sản phẩm Biểu thị tùy chọn chính sách tạo cột Boolean cho biết giá trị trong cột dấu thời gian có phải là định dạng ngày / giờ hợp lệ hay không. Các tùy chọn khác cho Chính sách bao gồm:

  • lỗi - Ném lỗi nếu cột dấu thời gian bị thiếu hoặc không hợp lệ
  • Rơi - Bỏ hàng nếu cột dấu thời gian bị thiếu hoặc không hợp lệ
  1. Chọn Xem trước.

Một cột Boolean mới có tên date_is_valid đã được tạo ra, với true các giá trị cho biết định dạng chính xác và các mục nhập không rỗng. Tập dữ liệu của chúng tôi không chứa các giá trị dấu thời gian không hợp lệ trong date cột. Nhưng nếu đúng như vậy, bạn có thể sử dụng cột Boolean mới để xác định và sửa các giá trị đó.

Xác thực chuyển đổi chuỗi thời gian Dấu thời gian

  1. Chọn Thêm để lưu bước này.

Hình ảnh hóa chuỗi thời gian

Sau khi chúng tôi làm sạch và xác thực tập dữ liệu, chúng tôi có thể hình dung dữ liệu tốt hơn để hiểu thành phần khác nhau của nó.

Lấy lại mẫu

Bởi vì chúng tôi quan tâm đến các dự đoán hàng ngày, hãy chuyển đổi tần suất dữ liệu thành hàng ngày.

Sản phẩm Lấy lại mẫu biến đổi thay đổi tần suất của các quan sát chuỗi thời gian thành một mức độ chi tiết cụ thể và đi kèm với cả hai tùy chọn lấy mẫu lên và lấy mẫu xuống. Việc áp dụng lấy mẫu ngược làm tăng tần suất quan sát (ví dụ từ hàng ngày sang hàng giờ), trong khi lấy mẫu xuống làm giảm tần suất quan sát (ví dụ từ hàng giờ xuống hàng ngày).

Bởi vì tập dữ liệu của chúng tôi ở mức độ chi tiết nhỏ, hãy sử dụng tùy chọn lấy mẫu xuống.

  1. Chọn + Thêm bước.
  2. Chọn Chuỗi thời gian biến đổi.
  3. Trong Chuyển đổi, chọn Lấy lại mẫu.
  4. Trong Dấu thời gian, chọn ngày.
  5. Trong Đơn vị tần số, chọn Ngày dương lịch.
  6. Trong Số lượng tần số, nhập 1.
  7. Trong Phương pháp tổng hợp các giá trị số, chọn nghĩa là.
  8. Chọn Xem trước.

Tần suất tập dữ liệu của chúng tôi đã thay đổi từ mỗi phút thành hàng ngày.

Chuẩn bị dữ liệu chuỗi thời gian với Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

  1. Chọn Thêm để lưu bước này.

Phân rã theo mùa-Xu hướng

Sau khi lấy mẫu lại, chúng ta có thể hình dung chuỗi đã biến đổi và các thành phần STL (phân tích theo mùa và xu hướng sử dụng LOESS) liên quan bằng cách sử dụng Theo mùa-Xu hướng-phân hủy hình dung. Điều này chia nhỏ chuỗi thời gian ban đầu thành các thành phần xu hướng, thời vụ và dư thừa riêng biệt, giúp chúng ta hiểu rõ về cách hoạt động của từng mẫu. Chúng tôi cũng có thể sử dụng thông tin khi mô hình hóa các vấn đề dự báo.

Data Wrangler sử dụng LOESS, một phương pháp thống kê mạnh mẽ và linh hoạt để lập mô hình xu hướng và các thành phần theo mùa. Việc triển khai cơ bản của nó sử dụng hồi quy đa thức để ước tính các mối quan hệ phi tuyến có trong các thành phần của chuỗi thời gian (tính thời vụ, xu hướng và phần dư).

  1. Chọn Quay lại luồng dữ liệu.
  2. Chọn dấu cộng bên cạnh Các bước on Dòng dữ liệu.
  3. Chọn Thêm phân tích.
  4. Trong tạp chí Tạo phân tích ngăn, cho Loại phân tích, chọn Chuỗi thời gian.
  5. Trong Hình ảnh, chọn Phân rã theo mùa-Xu hướng.
  6. Trong Tên phân tích, nhập tên.
  7. Trong Cột dấu thời gian, chọn ngày.
  8. Trong Cột giá trị, chọn Khối lượng USD.
  9. Chọn Xem trước.

Phân tích cho phép chúng tôi hình dung chuỗi thời gian đầu vào và tính thời vụ, xu hướng và phần dư được phân tách.

Chuẩn bị dữ liệu chuỗi thời gian với Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

  1. Chọn Lưu để lưu bản phân tích.

Với hình ảnh hóa phân hủy theo xu hướng theo mùa, chúng tôi có thể tạo bốn mẫu, như được hiển thị trong ảnh chụp màn hình trước:

  • Nguyên - Chuỗi thời gian gốc được lấy mẫu lại thành chi tiết hàng ngày.
  • khuynh hướng - Xu hướng đa thức với mô hình xu hướng âm tổng thể cho năm 2021, cho thấy sự giảm Volume USD giá trị.
  • Mùa - Tính thời vụ nhân lên được biểu thị bằng các dạng dao động khác nhau. Chúng ta thấy sự giảm biến thiên theo mùa, đặc trưng bởi biên độ dao động giảm dần.
  • - Phần dư còn lại hoặc nhiễu ngẫu nhiên. Chuỗi còn lại là chuỗi kết quả sau khi các thành phần xu hướng và theo mùa đã bị loại bỏ. Quan sát kỹ hơn, chúng tôi quan sát thấy mức tăng đột biến trong khoảng thời gian từ tháng XNUMX đến tháng XNUMX và giữa tháng XNUMX và tháng XNUMX, cho thấy có chỗ cho việc lập mô hình các sự kiện cụ thể như vậy bằng cách sử dụng dữ liệu lịch sử.

Những hình ảnh trực quan này cung cấp những dẫn dắt có giá trị cho các nhà khoa học và phân tích dữ liệu vào các mẫu hiện có và có thể giúp bạn chọn chiến lược lập mô hình. Tuy nhiên, luôn luôn là một thực tiễn tốt để xác nhận đầu ra của phân rã STL với thông tin thu thập được thông qua phân tích mô tả và chuyên môn về miền.

Tóm lại, chúng tôi quan sát xu hướng giảm phù hợp với hình ảnh hóa chuỗi ban đầu, điều này làm tăng sự tự tin của chúng tôi trong việc kết hợp thông tin được truyền tải bởi hình ảnh hóa xu hướng vào quá trình ra quyết định. Ngược lại, hình dung theo mùa giúp thông báo sự hiện diện của tính thời vụ và nhu cầu loại bỏ nó bằng cách áp dụng các kỹ thuật như phân biệt, nó không cung cấp mức độ hiểu biết chi tiết mong muốn về các kiểu thời vụ khác nhau hiện có, do đó đòi hỏi phân tích sâu hơn.

Kỹ thuật tính năng

Sau khi chúng tôi hiểu các mẫu có trong tập dữ liệu của mình, chúng tôi có thể bắt đầu thiết kế các tính năng mới nhằm tăng độ chính xác của các mô hình dự báo.

Tạo lông ngày giờ

Hãy bắt đầu quy trình kỹ thuật tính năng với các tính năng ngày / giờ đơn giản hơn. Các tính năng ngày / giờ được tạo từ timestamp và cung cấp một lối đi tối ưu cho các nhà khoa học dữ liệu để bắt đầu quá trình kỹ thuật tính năng. Chúng tôi bắt đầu với Tạo lông ngày giờ chuyển đổi chuỗi thời gian để thêm các tính năng của tháng, ngày trong tháng, ngày trong năm, tuần trong năm và quý vào tập dữ liệu của chúng tôi. Vì chúng tôi đang cung cấp các thành phần ngày / giờ dưới dạng các tính năng riêng biệt, chúng tôi cho phép các thuật toán ML phát hiện các tín hiệu và mẫu để cải thiện độ chính xác của dự đoán.

  1. Chọn + Thêm bước.
  2. Chọn Chuỗi thời gian biến đổi.
  3. Trong Biến đổi, chọn Tạo lông ngày giờ.
  4. Trong Cột đầu vào, chọn ngày.
  5. Trong Cột đầu ra, đi vào date (bước này là tùy chọn).
  6. Trong Chế độ đầu ra, chọn Bình thường.
  7. Trong Định dạng đầu ra, chọn Cột.
  8. Để trích xuất các tính năng ngày / giờ, hãy chọn tháng, ngày, Tuần trong năm, Ngày trong nămQuý.
  9. Chọn Xem trước.

Tập dữ liệu hiện chứa các cột mới có tên date_month, date_day, date_week_of_year, date_day_of_yeardate_quarter. Thông tin được truy xuất từ ​​các tính năng mới này có thể giúp các nhà khoa học dữ liệu có được những hiểu biết bổ sung từ dữ liệu và về mối quan hệ giữa các tính năng đầu vào và các tính năng đầu ra.

biến đổi chuỗi thời gian datetime bằng lông vũ

  1. Chọn Thêm để lưu bước này.

Mã hóa phân loại

Các tính năng ngày / giờ không giới hạn ở các giá trị số nguyên. Bạn cũng có thể chọn coi các tính năng ngày / giờ được trích xuất nhất định là các biến phân loại và biểu thị chúng dưới dạng các tính năng được mã hóa một lần, với mỗi cột chứa các giá trị nhị phân. Mới được tạo date_quarter cột chứa các giá trị từ 0-3 và có thể được mã hóa một lần bằng cách sử dụng bốn cột nhị phân. Hãy tạo bốn tính năng nhị phân mới, mỗi tính năng đại diện cho quý tương ứng trong năm.

  1. Chọn + Thêm bước.
  2. Chọn Mã hóa phân loại biến đổi.
  3. Trong Chuyển đổi, chọn Mã hóa một nóng.
  4. Trong Cột đầu vào, chọn ngày_quý.
  5. Trong Kiểu đầu ra, chọn Cột.
  6. Chọn Xem trước.
  7. Chọn Thêm để thêm bước.

Chuẩn bị dữ liệu chuỗi thời gian với Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Tính năng trễ

Tiếp theo, hãy tạo các tính năng trễ cho cột mục tiêu Volume USD. Các tính năng trễ trong phân tích chuỗi thời gian là các giá trị ở dấu thời gian trước được coi là hữu ích trong việc suy ra các giá trị trong tương lai. Chúng cũng giúp xác định tự tương quan (còn được gọi là tương quan nối tiếp) các mẫu trong chuỗi phần dư bằng cách định lượng mối quan hệ của quan sát với các quan sát ở các bước thời gian trước đó. Tự tương quan tương tự như tương quan thông thường nhưng giữa các giá trị trong một chuỗi và các giá trị trong quá khứ của nó. Nó tạo cơ sở cho các mô hình dự báo tự động hồi quy trong chuỗi ARIMA.

Với Data Wrangler Tính năng trễ biến đổi, bạn có thể dễ dàng tạo ra các tính năng lag cách nhau n khoảng thời gian. Ngoài ra, chúng tôi thường muốn tạo nhiều tính năng trễ ở các độ trễ khác nhau và để mô hình quyết định các tính năng có ý nghĩa nhất. Đối với một kịch bản như vậy, Tính năng trễ biến đổi giúp tạo nhiều cột độ trễ trên một kích thước cửa sổ được chỉ định.

  1. Chọn Quay lại luồng dữ liệu.
  2. Chọn dấu cộng bên cạnh Các bước on Dòng dữ liệu.
  3. Chọn + Thêm bước.
  4. Chọn Chuỗi thời gian biến đổi.
  5. Trong Chuyển đổi, chọn Tính năng trễ.
  6. Trong Tạo các tính năng trễ cho cột này, chọn Khối lượng USD.
  7. Trong Cột dấu thời gian, chọn ngày.
  8. Trong đội, đi vào 7.
  9. Bởi vì chúng tôi muốn quan sát đến bảy giá trị độ trễ trước đó, hãy chọn Bao gồm toàn bộ cửa sổ độ trễ.
  10. Để tạo một cột mới cho mỗi giá trị độ trễ, hãy chọn Làm phẳng đầu ra.
  11. Chọn Xem trước.

Bảy cột mới được thêm vào, gắn với lag_number từ khóa cho cột mục tiêu Volume USD.

Biến đổi chuỗi thời gian của tính năng trễ

  1. Chọn Thêm để lưu bước.

Các tính năng của cửa sổ cuộn

Chúng tôi cũng có thể tính toán các tóm tắt thống kê có ý nghĩa trên một loạt các giá trị và bao gồm chúng dưới dạng các tính năng đầu vào. Hãy trích xuất các tính năng phổ biến của chuỗi thời gian thống kê.

Data Wrangler triển khai khả năng trích xuất tính năng chuỗi thời gian tự động bằng cách sử dụng mã nguồn mở tsfresh Bưu kiện. Với các chuyển đổi trích xuất đối tượng theo chuỗi thời gian, bạn có thể tự động hóa quá trình trích xuất đối tượng. Điều này giúp loại bỏ thời gian và công sức thực hiện thủ công các thư viện xử lý tín hiệu. Đối với bài đăng này, chúng tôi trích xuất các tính năng bằng cách sử dụng Các tính năng của cửa sổ cuộn biến đổi. Phương pháp này tính toán các thuộc tính thống kê trên một tập hợp các quan sát được xác định bởi kích thước cửa sổ.

  1. Chọn + Thêm bước.
  2. Chọn Chuỗi thời gian biến đổi.
  3. Trong Chuyển đổi, chọn Các tính năng của cửa sổ cuộn.
  4. Trong Tạo các tính năng cửa sổ cuốn cho cột này, chọn Khối lượng USD.
  5. Trong Cột dấu thời gian, chọn ngày.
  6. Trong Kích thước cửa sổ, đi vào 7.

Chỉ định kích thước cửa sổ là 7 tính toán các tính năng bằng cách kết hợp giá trị ở dấu thời gian hiện tại và giá trị cho bảy dấu thời gian trước đó.

  1. Chọn Làm phẳng để tạo một cột mới cho từng tính năng được tính toán.
  2. Chọn chiến lược của bạn là Tập hợp con tối thiểu.

Chiến lược này trích ra tám tính năng hữu ích trong các phân tích hạ nguồn. Các chiến lược khác bao gồm Tập hợp con hiệu quả, Tập hợp con tùy chỉnhTất cả các tính năng. Để biết danh sách đầy đủ các tính năng có sẵn để trích xuất, hãy tham khảo Tổng quan về các tính năng được trích xuất.

  1. Chọn Xem trước.

Chúng ta có thể thấy tám cột mới với kích thước cửa sổ được chỉ định là 7 trong tên của họ, được thêm vào tập dữ liệu của chúng tôi.

  1. Chọn Thêm để lưu bước.

Chuẩn bị dữ liệu chuỗi thời gian với Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Xuất tập dữ liệu

Chúng tôi đã chuyển đổi tập dữ liệu chuỗi thời gian và sẵn sàng sử dụng tập dữ liệu đã biến đổi làm đầu vào cho thuật toán dự báo. Bước cuối cùng là xuất tập dữ liệu đã chuyển đổi sang Amazon S3. Trong Data Wrangler, bạn có thể chọn Bước xuất để tự động tạo sổ ghi chép Jupyter với mã Xử lý Amazon SageMaker để xử lý và xuất tập dữ liệu đã chuyển đổi sang nhóm S3. Tuy nhiên, vì tập dữ liệu của chúng tôi chỉ chứa hơn 300 bản ghi, hãy tận dụng lợi thế của Xuất dữ liệu tùy chọn trong Thêm chuyển đổi để xuất trực tiếp tập dữ liệu đã chuyển đổi sang Amazon S3 từ Data Wrangler.

  1. Chọn Xuất dữ liệu.

Chuẩn bị dữ liệu chuỗi thời gian với Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

  1. Trong Vị trí S3, chọn trình duyệt và chọn nhóm S3 của bạn.
  2. Chọn Xuất dữ liệu.

Chuẩn bị dữ liệu chuỗi thời gian với Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Bây giờ chúng tôi đã chuyển đổi thành công tập dữ liệu bitcoin, chúng tôi có thể sử dụng Dự báo Amazon để tạo dự đoán bitcoin.

Làm sạch

Nếu bạn thực hiện xong ca sử dụng này, hãy dọn dẹp tài nguyên bạn đã tạo để tránh phát sinh thêm phí. Đối với Data Wrangler, bạn có thể tắt phiên bản bên dưới khi hoàn tất. Tham khảo Tắt Data Wrangler tài liệu để biết chi tiết. Ngoài ra, bạn có thể tiếp tục Phần 2 của loạt bài này để sử dụng tập dữ liệu này để dự báo.

Tổng kết

Bài đăng này đã trình bày cách sử dụng Data Wrangler để đơn giản hóa và tăng tốc phân tích chuỗi thời gian bằng cách sử dụng các khả năng chuỗi thời gian tích hợp của nó. Chúng tôi đã khám phá cách các nhà khoa học dữ liệu có thể dễ dàng và tương tác làm sạch, định dạng, xác thực và chuyển đổi dữ liệu chuỗi thời gian thành định dạng mong muốn để phân tích có ý nghĩa. Chúng tôi cũng đã khám phá cách bạn có thể làm phong phú thêm phân tích chuỗi thời gian của mình bằng cách thêm một bộ tính năng thống kê toàn diện bằng cách sử dụng Data Wrangler. Để tìm hiểu thêm về các phép biến đổi chuỗi thời gian trong Data Wrangler, hãy xem Chuyển đổi dữ liệu.


Lưu ý

Chuẩn bị dữ liệu chuỗi thời gian với Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Bains Roop là Kiến trúc sư giải pháp tại AWS tập trung vào AI / ML. Anh ấy đam mê giúp khách hàng đổi mới và đạt được các mục tiêu kinh doanh của họ bằng cách sử dụng Trí tuệ nhân tạo và Máy học. Khi rảnh rỗi, Roop thích đọc sách và đi bộ đường dài.

Chuẩn bị dữ liệu chuỗi thời gian với Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Nikita Ivkin là một Nhà Khoa học Ứng dụng, Amazon SageMaker Data Wrangler.

Dấu thời gian:

Thêm từ Học máy AWS