Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile zaman serisi verilerini hazırlayın. Dikey Arama. Ai.

Amazon SageMaker Data Wrangler ile zaman serisi verilerini hazırlayın

Zaman serisi verileri hayatımızda yaygın olarak bulunur. Hisse senedi fiyatları, ev fiyatları, hava durumu bilgileri ve zaman içinde yakalanan satış verileri sadece birkaç örnektir. İşletmeler, zaman serisi verilerinden anlamlı içgörüler elde etmenin yeni yollarını giderek daha fazla aradıkça, verileri görselleştirme ve istenen dönüşümleri uygulama becerisi temel adımlardır. Bununla birlikte, zaman serisi verileri, diğer türdeki tablo verileriyle karşılaştırıldığında benzersiz özelliklere ve nüanslara sahiptir ve özel değerlendirmeler gerektirir. Örneğin, standart tablo veya kesit verileri belirli bir zamanda toplanır. Buna karşılık, zaman serisi verileri, her bir ardışık veri noktasının geçmiş değerlerine bağlı olarak, zaman içinde tekrar tekrar yakalanır.

Çoğu zaman serisi analizi, bitişik bir gözlem kümesinde toplanan bilgilere dayandığından, eksik veriler ve doğal seyreklik, tahminlerin doğruluğunu azaltabilir ve yanlılığa neden olabilir. Ek olarak, çoğu zaman serisi analiz yaklaşımı, veri noktaları arasındaki eşit aralıklara, başka bir deyişle periyodikliğe dayanır. Bu nedenle, veri aralığı düzensizliklerini düzeltme yeteneği kritik bir ön koşuldur. Son olarak, zaman serisi analizi genellikle, girdi verileri ile gelecek tahminleri arasındaki doğal ilişkiyi açıklamaya yardımcı olabilecek ek özelliklerin oluşturulmasını gerektirir. Tüm bu faktörler, zaman serisi projelerini geleneksel makine öğrenimi (ML) senaryolarından ayırır ve analizine farklı bir yaklaşım gerektirir.

Bu gönderi nasıl kullanılacağını açıklar Amazon SageMaker Veri Düzenleyicisi zaman serisi dönüşümlerini uygulamak ve veri kümenizi zaman serisi kullanım senaryolarına hazırlamak için.

Veri Wrangler için kullanım senaryoları

Data Wrangler, verileri daha hızlı temizleme, dönüştürme ve hazırlama özellikleriyle zaman serisi analizine kodsuz/düşük kodlu bir çözüm sunar. Ayrıca, veri bilimcilerinin tahmin modellerinin girdi formatı gereksinimlerine uygun olarak zaman serisi verileri hazırlamasını sağlar. Aşağıda, bu yetenekleri kullanmanın birkaç yolu bulunmaktadır:

  • Açıklayıcı analiz– Genellikle, herhangi bir veri bilimi projesinin birinci adımı verileri anlamaktır. Zaman serisi verilerini çizdiğimizde, trend, mevsimsellik, döngüler ve rastgele varyasyonlar gibi kalıplarına ilişkin üst düzey bir genel bakış elde ederiz. Bu kalıpları doğru bir şekilde temsil etmek için doğru tahmin metodolojisine karar vermemize yardımcı olur. Ploting, gerçekçi olmayan ve hatalı tahminleri önleyerek aykırı değerlerin belirlenmesine de yardımcı olabilir. Data Wrangler, bir mevsimsellik-trend ayrıştırma görselleştirmesi bir zaman serisinin bileşenlerini temsil etmek için ve aykırı değer algılama görselleştirmesi aykırı değerleri belirlemek için.
  • açıklayıcı analiz– Çok değişkenli zaman serileri için, anlamlı tahminler elde etmek için iki veya daha fazla zaman serisi arasındaki ilişkiyi keşfetme, tanımlama ve modelleme yeteneği esastır. bu Tarafından gruba göre Data Wrangler'daki transform, belirtilen hücreler için verileri gruplayarak birden çok zaman serisi oluşturur. Ek olarak, Data Wrangler zaman serisi dönüşümleri, uygun olduğunda, gruplanacak ek ID sütunlarının belirtilmesine izin vererek karmaşık zaman serisi analizine olanak tanır.
  • Veri hazırlama ve özellik mühendisliği– Zaman serisi verileri nadiren zaman serisi modellerinin beklediği biçimdedir. Ham verileri zaman serisine özgü özelliklere dönüştürmek için genellikle veri hazırlığı gerekir. Analizden önce zaman serisi verilerinin düzenli veya eşit aralıklı olduğunu doğrulamak isteyebilirsiniz. Kullanım senaryolarını tahmin etmek için, otokorelasyon ve istatistiksel özellikler gibi ek zaman serisi özelliklerini de dahil etmek isteyebilirsiniz. Data Wrangler ile, birden çok gecikme süresi için gecikme sütunları gibi zaman serisi özelliklerini hızlı bir şekilde oluşturabilir, verileri birden çok zaman ayrıntı düzeyine yeniden örnekleyebilir ve birkaç yetenek saymak gerekirse bir zaman serisinin istatistiksel özelliklerini otomatik olarak ayıklayabilirsiniz.

Çözüme genel bakış

Bu gönderi, veri bilimcilerin ve analistlerin zaman serisi verilerini görselleştirmek ve hazırlamak için Data Wrangler'ı nasıl kullanabileceğini açıklar. Bitcoin kripto para birimi veri setini kullanıyoruz kripto veri indirme Bu yetenekleri sergilemek için bitcoin ticaret ayrıntılarıyla. Ham veri kümesini zaman serisi özellikleriyle temizler, doğrular ve dönüştürürüz ve ayrıca dönüştürülmüş veri kümesini girdi olarak kullanarak bitcoin hacmi fiyat tahminleri oluştururuz.

Bitcoin alım satım verilerinin örneği, 1 veri noktasıyla 19 Ocak - 2021 Kasım 464,116 arasındadır. Veri kümesi özellikleri, fiyat kaydının bir zaman damgasını, belirli bir gün için madeni paranın değiştirildiği açılış veya ilk fiyatı, madeni paranın o gün değiştirildiği en yüksek fiyatı, madeni paranın değiştirildiği son fiyatı içerir. gün, BTC cinsinden günün kripto para birimi değerinde takas edilen hacim ve buna karşılık gelen USD para birimi.

Önkoşullar

Atomic Cüzdanı indirin : Bitstamp_BTCUSD_2021_minute.csv dosyasını kripto veri indirme ve onu yükle Amazon Basit Depolama Hizmeti (Amazon S3).

Data Wrangler'da bitcoin veri kümesini içe aktarın

Data Wrangler'a alma işlemini başlatmak için aşağıdaki adımları tamamlayın:

  1. Üzerinde Adaçayı Yapıcı Stüdyo konsolda fileto menü seç yeni, Daha sonra seçmek Veri Düzenleyici Akışı.
  2. Akışı istediğiniz gibi yeniden adlandırın.
  3. İçin Tarihleri ​​içe aktar, seçmek Amazon S3.
  4. Yükle Bitstamp_BTCUSD_2021_minute.csv S3 kovanızdan dosya.

Artık veri kümenizi önizleyebilirsiniz.

  1. içinde - Detaylar bölme, seç Gelişmiş yapılandırma ve seçimi kaldırın Örneklemeyi etkinleştir.

Bu nispeten küçük bir veri seti olduğundan örneklemeye ihtiyacımız yok.

  1. Klinik ithalat.

Akış diyagramını başarıyla oluşturdunuz ve dönüşüm adımlarını eklemeye hazırsınız.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile zaman serisi verilerini hazırlayın. Dikey Arama. Ai.

Dönüşümler ekle

Veri dönüştürmeleri eklemek için yanındaki artı işaretini seçin. Veri tipleri Ve seç Veri türlerini düzenleyin.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile zaman serisi verilerini hazırlayın. Dikey Arama. Ai.

Data Wrangler'ın veri sütunları için doğru veri türlerini otomatik olarak çıkardığından emin olun.

Bizim durumumuzda, çıkarılan veri türleri doğrudur. Ancak, bir veri türünün yanlış olduğunu varsayalım. Aşağıdaki ekran görüntüsünde gösterildiği gibi, bunları UI aracılığıyla kolayca değiştirebilirsiniz.

veri türlerini düzenleme ve gözden geçirme

Analizi başlatalım ve dönüşümleri eklemeye başlayalım.

Veri temizleme

Önce birkaç veri temizleme dönüşümü gerçekleştiriyoruz.

Sütunu bırak

atarak başlayalım unix sütunu kullandığımız için date dizin olarak sütun.

  1. Klinik Veri akışına geri dön.
  2. yanındaki artı işaretini seçin Veri tipleri Ve seç Dönüşüm ekle.
  3. Klinik + Adım ekle içinde DÖNÜŞÜMLER bölmesi.
  4. Klinik Sütunları yönet.
  5. İçin Dönüştürmek, seçmek Sütunu bırak.
  6. İçin Bırakılacak sütun, seçmek unix.
  7. Klinik Önizleme.
  8. Klinik Ekle Adımı kaydetmek için

Kolu eksik

Eksik veriler, gerçek dünya veri kümelerinde iyi bilinen bir sorundur. Bu nedenle, eksik veya boş değerlerin varlığını doğrulamak ve bunları uygun şekilde işlemek en iyi uygulamadır. Veri setimiz eksik değerler içermiyor. Ama olsaydı, kullanırdık Kolu eksik zaman serileri onları düzeltmek için dönüştürülür. Eksik verileri işlemek için yaygın olarak kullanılan stratejiler, eksik değerlerle satırları düşürmeyi veya eksik değerleri makul tahminlerle doldurmayı içerir. Zaman serisi verileri, zaman içindeki bir dizi veri noktasına dayandığından, eksik değerlerin doldurulması tercih edilen yaklaşımdır. Eksik değerleri doldurma işlemine denir. atama. Kolu eksik zaman serisi dönüşümü, birden çok değerlendirme stratejisi arasından seçim yapmanızı sağlar.

  1. Klinik + Adım ekle içinde DÖNÜŞÜMLER bölmesi.
  2. Seçin Zaman serisi dönüşümü.
  3. İçin Dönüştürmek, Seçmek Kolu eksik.
  4. İçin Zaman serisi giriş tipi, seçmek sütun boyunca.
  5. İçin Değerleri empoze etme yöntemi, seçmek ileri doldurma.

The ileri doldurma yöntemi, eksik değerleri, eksik değerlerden önceki eksik olmayan değerlerle değiştirir.

eksik zaman serisi dönüşümünü ele al

geriye doğru doldurma, Sabit değer, En yaygın değer ve enterpolasyon Data Wrangler'da bulunan diğer atama stratejileridir. İnterpolasyon teknikleri, eksik değerleri doldurmak için komşu değerlere dayanır. Zaman serisi verileri genellikle komşu değerler arasında korelasyon göstererek enterpolasyonu etkili bir doldurma stratejisi haline getirir. Enterpolasyon uygulamak için kullanabileceğiniz işlevler hakkında ek ayrıntılar için, bkz. pandas.DataFrame.interpulate.

Zaman damgasını doğrula

Zaman serisi analizinde, zaman damgası sütunu, analizin etrafında döndüğü dizin sütunu gibi davranır. Bu nedenle, zaman damgası sütununun geçersiz veya yanlış biçimlendirilmiş zaman damgası değerleri içermediğinden emin olmak önemlidir. Çünkü biz kullanıyoruz date sütunu zaman damgası sütunu ve dizin olarak, değerlerinin doğru biçimlendirildiğini onaylayalım.

  1. Klinik + Adım ekle içinde DÖNÜŞÜMLER bölmesi.
  2. Seçin Zaman serisi dönüşümü.
  3. İçin Dönüşüm, seçmek Zaman damgalarını doğrula.

The Zaman damgalarını doğrula transform, veri kümenizdeki zaman damgası sütununda yanlış zaman damgası veya eksik değerler olup olmadığını kontrol etmenize olanak tanır.

  1. İçin Zaman Damgası Sütunu, seçmek tarih.
  2. İçin Politika açılır menü, seç belirtmek.

The belirtmek ilke seçeneği, zaman damgası sütunundaki değerin geçerli bir tarih/saat biçimi olup olmadığını gösteren bir Boole sütunu oluşturur. Diğer seçenekler Politika şunları içerir:

  • Hata – Zaman damgası sütunu eksik veya geçersizse bir hata verir
  • Damla – Zaman damgası sütunu eksik veya geçersizse satırı bırakır
  1. Klinik Önizleme.

adlı yeni bir Boole sütunu date_is_valid ile oluşturuldu true doğru formatı ve boş olmayan girişleri gösteren değerler. Veri kümemiz, şu alanlarda geçersiz zaman damgası değerleri içermiyor: date kolon. Ancak eğer öyleyse, bu değerleri belirlemek ve düzeltmek için yeni Boole sütununu kullanabilirsiniz.

Zaman Damgası zaman serisi dönüşümünü doğrulayın

  1. Klinik Ekle Bu adımı kaydetmek için

Zaman serisi görselleştirme

Veri kümesini temizleyip doğruladıktan sonra, farklı bileşenlerini anlamak için verileri daha iyi görselleştirebiliriz.

Yeniden Örnekle

Günlük tahminlerle ilgilendiğimiz için, verilerin sıklığını günlük hale getirelim.

The Yeniden Örnekle dönüşüm, zaman serisi gözlemlerinin sıklığını belirli bir ayrıntı düzeyine değiştirir ve hem üst örnekleme hem de alt örnekleme seçenekleriyle birlikte gelir. Üst örneklemenin uygulanması gözlemlerin sıklığını artırır (örneğin günlükten saate), altörnekleme ise gözlemlerin sıklığını azaltır (örneğin saatlikten güne).

Veri kümemiz küçük ayrıntı düzeyinde olduğundan, altörnekleme seçeneğini kullanalım.

  1. Klinik + Adım ekle.
  2. Seçin Zaman serisi dönüşümü.
  3. İçin Dönüştürmek, seçmek Yeniden Örnekle.
  4. İçin Zaman Damgası, seçmek tarih.
  5. İçin Frekans birimi, seçmek Takvim günü.
  6. İçin Frekans miktarı, 1 girin.
  7. İçin Sayısal değerleri toplama yöntemi, seçmek ortalama.
  8. Klinik Önizleme.

Veri setimizin sıklığı dakikadan günlük olarak değişti.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile zaman serisi verilerini hazırlayın. Dikey Arama. Ai.

  1. Klinik Ekle Bu adımı kaydetmek için

Mevsimsel-Trend ayrıştırması

Yeniden örneklemeden sonra, dönüştürülmüş seriyi ve bununla ilişkili STL (LOESS kullanılarak Mevsimsel ve Trend ayrıştırması) bileşenlerini şu şekilde görselleştirebiliriz: Mevsimsel-Trend-ayrışması görselleştirme. Bu, orijinal zaman serilerini farklı trend, mevsimsellik ve artık bileşenlere ayırarak bize her bir kalıbın nasıl davrandığını iyi bir şekilde anlamamızı sağlar. Bilgileri, tahmin problemlerini modellerken de kullanabiliriz.

Data Wrangler, trend ve mevsimsel bileşenleri modellemek için sağlam ve çok yönlü bir istatistiksel yöntem olan LOESS'i kullanır. Bunun altında yatan uygulama, zaman serisi bileşenlerinde (mevsimsellik, trend ve kalıntı) bulunan doğrusal olmayan ilişkileri tahmin etmek için polinom regresyonunu kullanır.

  1. Klinik Veri akışına geri dön.
  2. yanındaki artı işaretini seçin Basamaklar on Veri akışı.
  3. Klinik Analiz ekle.
  4. içinde Analiz oluştur bölme, için Analiz türü, seçmek Zaman serisi.
  5. İçin Görüntüleme, seçmek Mevsimsel-Trend ayrıştırması.
  6. İçin Analiz Adı, isim girin.
  7. İçin zaman damgası sütunu, seçmek tarih.
  8. İçin Değer sütunu, seçmek hacim USD.
  9. Klinik Önizleme.

Analiz, girdi zaman serilerini ve ayrıştırılmış mevsimselliği, trendi ve artıkları görselleştirmemizi sağlar.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile zaman serisi verilerini hazırlayın. Dikey Arama. Ai.

  1. Klinik İndirim Analizi kaydetmek için

İle mevsimsel trend ayrıştırma görselleştirmesi, önceki ekran görüntüsünde gösterildiği gibi dört desen oluşturabiliriz:

  • orijinal – Orijinal zaman serisi, günlük ayrıntı düzeyine göre yeniden örneklendi.
  • eğilim – 2021 yılı için genel bir negatif trend modeline sahip polinom trendi, düşüşe işaret ediyor. Volume USD değeri.
  • sezon – Değişen salınım modelleriyle temsil edilen çarpımsal mevsimsellik. Salınım genliğinin azalmasıyla karakterize edilen mevsimsel varyasyonda bir düşüş görüyoruz.
  • kalıntı – Kalan artık veya rastgele gürültü. Artık seri, trend ve mevsimsel bileşenler çıkarıldıktan sonra elde edilen seridir. Yakından baktığımızda, Ocak ile Mart arasında ve Nisan ile Haziran arasında ani artışlar gözlemliyoruz, bu da tarihsel verileri kullanarak bu tür belirli olayları modellemek için alan öneriyor.

Bu görselleştirmeler, veri bilimcilere ve analistlere mevcut modellere ilişkin değerli ipuçları sağlar ve bir modelleme stratejisi seçmenize yardımcı olabilir. Ancak, tanımlayıcı analiz ve alan uzmanlığı yoluyla toplanan bilgilerle STL ayrıştırmasının çıktısını doğrulamak her zaman iyi bir uygulamadır.

Özetlemek gerekirse, orijinal seri görselleştirmesi ile tutarlı bir düşüş eğilimi gözlemliyoruz, bu da trend görselleştirmesi tarafından aktarılan bilgileri sonraki karar verme sürecine dahil etme konusundaki güvenimizi arttırıyor. Buna karşılık, mevsimsellik görselleştirmesi, fark alma gibi teknikler uygulayarak mevsimselliğin varlığını ve ortadan kaldırılması ihtiyacını bildirmeye yardımcı olur, mevcut çeşitli mevsimsel kalıplara ilişkin istenen düzeyde ayrıntılı bilgi sağlamaz, bu nedenle daha derin analiz gerektirir.

Özellik mühendisliği

Veri kümemizde bulunan kalıpları anladıktan sonra, tahmin modellerinin doğruluğunu artırmayı amaçlayan yeni özellikler tasarlamaya başlayabiliriz.

Tarih saatini öne çıkar

Özellik mühendisliği sürecine daha basit tarih/saat özellikleriyle başlayalım. Tarih/saat özellikleri, timestamp sütun ve veri bilimcilerin özellik mühendisliği sürecini başlatmaları için en uygun yolu sağlar. ile başlıyoruz Tarih saatini öne çıkar veri setimize ay, ayın günü, yılın günü, yılın haftası ve çeyrek özelliklerini eklemek için zaman serisi dönüşümü. Tarih/saat bileşenlerini ayrı özellikler olarak sağladığımızdan, tahmin doğruluğunu iyileştirmek için ML algoritmalarının sinyalleri ve kalıpları algılamasını sağlıyoruz.

  1. Klinik + Adım ekle.
  2. Seçin Zaman serisi dönüşümü.
  3. İçin Dönüşüm, seçmek Tarih saatini öne çıkar.
  4. İçin Giriş Sütunu, seçmek tarih.
  5. İçin Çıktı Sütunu, girmek date (bu adım isteğe bağlıdır).
  6. İçin Çıkış modu, seçmek sıra.
  7. İçin Çıkış biçimi, seçmek Sütunlar.
  8. Çıkarılacak tarih/saat özellikleri için Ay, Gün, yılın haftası, yılın günü, ve Çeyrek.
  9. Klinik Önizleme.

Veri kümesi artık şu adla yeni sütunlar içeriyor: date_month, date_day, date_week_of_year, date_day_of_year, ve date_quarter. Bu yeni özelliklerden elde edilen bilgiler, veri bilimcilerinin verilerden ve girdi özellikleri ile çıktı özellikleri arasındaki ilişki hakkında ek içgörüler elde etmesine yardımcı olabilir.

tarih saat zaman serisi dönüşümü özelliği

  1. Klinik Ekle Bu adımı kaydetmek için

kategorik kodlama

Tarih/saat özellikleri tamsayı değerleriyle sınırlı değildir. Ayrıca, belirli ayıklanan tarih/saat özelliklerini kategorik değişkenler olarak değerlendirmeyi ve bunları, her bir sütunda ikili değerler içeren tek etkin kodlanmış özellikler olarak göstermeyi seçebilirsiniz. Yeni oluşturulan date_quarter sütun 0-3 arasında değerler içerir ve dört ikili sütun kullanılarak tek-sıcak kodlanmış olabilir. Her biri yılın ilgili çeyreğini temsil eden dört yeni ikili özellik oluşturalım.

  1. Klinik + Adım ekle.
  2. Seçin kategorik kodlama dönüşümü.
  3. İçin Dönüştürmek, seçmek Tek sıcak kodlama.
  4. İçin Giriş sütunu, seçmek tarih_çeyrek.
  5. İçin Çıktı stili, seçmek Sütunlar.
  6. Klinik Önizleme.
  7. Klinik Ekle adımı eklemek için

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile zaman serisi verilerini hazırlayın. Dikey Arama. Ai.

gecikme özelliği

Ardından, hedef sütun için gecikme özellikleri oluşturalım Volume USD. Zaman serisi analizindeki gecikme özellikleri, gelecekteki değerlerin çıkarılmasında yardımcı olduğu düşünülen önceki zaman damgalarındaki değerlerdir. Ayrıca otokorelasyonu tanımlamaya da yardımcı olurlar (aynı zamanda Seri korelasyon) gözlemin önceki zaman adımlarındaki gözlemlerle ilişkisini nicelleştirerek artık serideki kalıpları. Otokorelasyon, normal korelasyona benzer, ancak bir dizideki değerler ile geçmiş değerleri arasındadır. ARIMA serisindeki otoregresif tahmin modellerinin temelini oluşturur.

Veri Wrangler ile gecikme özelliği dönüştürmek, kolayca gecikme özellikleri n dönemler oluşturabilirsiniz. Ek olarak, genellikle farklı gecikmelerde çoklu gecikme özellikleri oluşturmak ve modelin en anlamlı özelliklere karar vermesine izin vermek isteriz. Böyle bir senaryo için, gecikme özellikleri transform, belirli bir pencere boyutu üzerinde birden çok gecikme sütunu oluşturmaya yardımcı olur.

  1. Klinik Veri akışına geri dön.
  2. yanındaki artı işaretini seçin Basamaklar on Veri akışı.
  3. Klinik + Adım ekle.
  4. Klinik Zaman serisi dönüşümü.
  5. İçin Dönüştürmek, seçmek gecikme özellikleri.
  6. İçin Bu sütun için gecikme özellikleri oluştur, seçmek hacim USD.
  7. İçin Zaman Damgası Sütunu, seçmek tarih.
  8. İçin Takım, girmek 7.
  9. Önceki yedi gecikme değerini gözlemlemekle ilgilendiğimiz için, hadi seçelim Tüm gecikme penceresini dahil et.
  10. Her gecikme değeri için yeni bir sütun oluşturmak için Çıktıyı düzleştir.
  11. Klinik Önizleme.

ile biten yedi yeni sütun eklendi. lag_number hedef sütun için anahtar kelime Volume USD.

Gecikme özelliği zaman serisi dönüşümü

  1. Klinik Ekle Adımı kaydetmek için

Döner pencere özellikleri

Ayrıca, bir dizi değer üzerinden anlamlı istatistiksel özetler hesaplayabilir ve bunları girdi özellikleri olarak dahil edebiliriz. Ortak istatistiksel zaman serisi özelliklerini çıkaralım.

Data Wrangler, açık kaynak kullanarak otomatik zaman serisi özellik çıkarma yeteneklerini uygular taze paket. Zaman serisi özellik çıkarma dönüşümleri ile özellik çıkarma işlemini otomatikleştirebilirsiniz. Bu, sinyal işleme kitaplıklarını manuel olarak uygulamak için harcanan zaman ve çabayı ortadan kaldırır. Bu gönderi için, aşağıdakileri kullanarak özellikleri çıkarıyoruz: Döner pencere özellikleri dönüştürmek. Bu yöntem, pencere boyutu tarafından tanımlanan bir dizi gözlem boyunca istatistiksel özellikleri hesaplar.

  1. Klinik + Adım ekle.
  2. Seçin Zaman serisi dönüşümü.
  3. İçin Dönüştürmek, seçmek Döner pencere özellikleri.
  4. İçin Bu sütun için yuvarlanan pencere özellikleri oluşturun, seçmek hacim USD.
  5. İçin Zaman Damgası Sütunu, seçmek tarih.
  6. İçin Pencere boyutu, girmek 7.

Bir pencere boyutu belirtme 7 geçerli zaman damgasındaki değeri ve önceki yedi zaman damgasının değerlerini birleştirerek özellikleri hesaplar.

  1. seç Düzleştirmek hesaplanan her özellik için yeni bir sütun oluşturmak için.
  2. Stratejinizi şu şekilde seçin: Minimum alt küme.

Bu strateji, aşağı akış analizlerinde faydalı olan sekiz özelliği çıkarır. Diğer stratejiler şunları içerir: Verimli Alt Küme, Özel alt küme, ve Tüm özellikler. Çıkarma için kullanılabilen özelliklerin tam listesi için bkz. Çıkarılan özelliklere genel bakış.

  1. Klinik Önizleme.

Belirtilen pencere boyutuna sahip sekiz yeni sütun görebiliriz. 7 onların adına, veri setimize eklendi.

  1. Klinik Ekle Adımı kaydetmek için

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile zaman serisi verilerini hazırlayın. Dikey Arama. Ai.

Veri kümesini dışa aktar

Zaman serisi veri setini dönüştürdük ve dönüştürülmüş veri setini bir tahmin algoritması için girdi olarak kullanmaya hazırız. Son adım, dönüştürülmüş veri kümesini Amazon S3'e dışa aktarmaktır. Data Wrangler'da şunları seçebilirsiniz: Dışa aktarma adımı Dönüştürülen veri kümesini işlemek ve bir S3 klasörüne dışa aktarmak için Amazon SageMaker İşleme koduyla otomatik olarak bir Jupyter not defteri oluşturmak için. Ancak, veri kümemiz 300'den fazla kayıt içerdiğinden, şu avantajları kullanalım: ihracat verileri seçeneği Dönüşüm Ekle dönüştürülen veri kümesini Data Wrangler'dan doğrudan Amazon S3'e dışa aktarmak için görüntüleyin.

  1. Klinik ihracat verileri.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile zaman serisi verilerini hazırlayın. Dikey Arama. Ai.

  1. İçin S3 konumu, seçmek Browser ve S3 kovanızı seçin.
  2. Klinik ihracat verileri.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile zaman serisi verilerini hazırlayın. Dikey Arama. Ai.

Artık bitcoin veri setini başarıyla dönüştürdüğümüze göre, kullanabiliriz Amazon Tahmini Bitcoin tahminleri oluşturmak için.

Temizlemek

Bu kullanım senaryosunu bitirdiyseniz, ek ücret ödememek için oluşturduğunuz kaynakları temizleyin. Data Wrangler için, bittiğinde temeldeki örneği kapatabilirsiniz. bkz. Veri Wrangler'ı Kapatın ayrıntılar için belgeler. Alternatif olarak, devam edebilirsiniz Bölüm 2 tahmin için bu veri kümesini kullanmak için bu serinin

Özet

Bu gönderi, yerleşik zaman serisi yeteneklerini kullanarak zaman serisi analizini basitleştirmek ve hızlandırmak için Data Wrangler'ın nasıl kullanılacağını gösterdi. Veri bilimcilerin, anlamlı analizler için zaman serisi verilerini nasıl kolayca ve etkileşimli olarak temizleyebileceğini, biçimlendirebileceğini, doğrulayabileceğini ve istenen biçime dönüştürebileceğini araştırdık. Ayrıca Data Wrangler'ı kullanarak kapsamlı bir istatistiksel özellikler seti ekleyerek zaman serisi analizinizi nasıl zenginleştirebileceğinizi de araştırdık. Data Wrangler'da zaman serisi dönüşümleri hakkında daha fazla bilgi edinmek için bkz. Verileri Dönüştür.


Yazar Hakkında

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile zaman serisi verilerini hazırlayın. Dikey Arama. Ai.Roop Bainleri AWS'de AI/ML'ye odaklanan bir Çözüm Mimarıdır. Müşterilerin Yapay Zeka ve Makine Öğrenimi kullanarak yenilik yapmalarına ve iş hedeflerine ulaşmalarına yardımcı olma konusunda tutkulu. Roop boş zamanlarında kitap okumaktan ve yürüyüş yapmaktan hoşlanır.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile zaman serisi verilerini hazırlayın. Dikey Arama. Ai.Nikita Ivkin Uygulamalı Bilim Adamı, Amazon SageMaker Data Wrangler.

Zaman Damgası:

Den fazla AWS Makine Öğrenimi