Bereid tijdreeksgegevens voor met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Tijdreeksgegevens voorbereiden met Amazon SageMaker Data Wrangler

Tijdreeksgegevens zijn wijdverbreid aanwezig in ons leven. Aandelenkoersen, huizenprijzen, weersinformatie en verkoopgegevens die in de loop van de tijd zijn vastgelegd, zijn slechts enkele voorbeelden. Nu bedrijven steeds meer op zoek zijn naar nieuwe manieren om zinvolle inzichten te verkrijgen uit tijdreeksgegevens, zijn de mogelijkheid om gegevens te visualiseren en gewenste transformaties toe te passen fundamentele stappen. Tijdreeksgegevens hebben echter unieke kenmerken en nuances in vergelijking met andere soorten gegevens in tabelvorm en vereisen speciale overwegingen. Standaardgegevens in tabelvorm of dwarsdoorsnede worden bijvoorbeeld op een specifiek tijdstip verzameld. Tijdreeksgegevens worden daarentegen herhaaldelijk in de loop van de tijd vastgelegd, waarbij elk opeenvolgend gegevenspunt afhankelijk is van de waarden uit het verleden.

Omdat de meeste tijdreeksanalyses afhankelijk zijn van de informatie die is verzameld over een aaneengesloten reeks waarnemingen, kunnen ontbrekende gegevens en inherente schaarste de nauwkeurigheid van voorspellingen verminderen en vooringenomenheid introduceren. Bovendien zijn de meeste tijdreeksanalysebenaderingen gebaseerd op gelijke afstand tussen gegevenspunten, met andere woorden, periodiciteit. Daarom is de mogelijkheid om onregelmatigheden in de gegevensafstand op te lossen een essentiële voorwaarde. Ten slotte vereist tijdreeksanalyse vaak het creëren van extra functies die kunnen helpen de inherente relatie tussen invoergegevens en toekomstige voorspellingen te verklaren. Al deze factoren onderscheiden tijdreeksprojecten van traditionele machine learning (ML)-scenario's en vereisen een aparte benadering van de analyse.

Dit bericht laat zien hoe te gebruiken Amazon SageMaker-gegevens Wrangler om tijdreekstransformaties toe te passen en uw dataset voor te bereiden op gebruiksscenario's voor tijdreeksen.

Gebruiksscenario's voor Data Wrangler

Data Wrangler biedt een no-code/low-code-oplossing voor tijdreeksanalyse met functies om gegevens sneller op te schonen, te transformeren en voor te bereiden. Het stelt datawetenschappers ook in staat om tijdreeksgegevens voor te bereiden in overeenstemming met de vereisten voor het invoerformaat van hun voorspellingsmodel. Hier volgen enkele manieren waarop u deze mogelijkheden kunt gebruiken:

  • Beschrijvende analyse– Gewoonlijk is de eerste stap van elk datawetenschapsproject het begrijpen van de gegevens. Wanneer we tijdreeksgegevens plotten, krijgen we een overzicht op hoog niveau van de patronen, zoals trend, seizoensinvloeden, cycli en willekeurige variaties. Het helpt ons bij het bepalen van de juiste prognosemethodologie om deze patronen nauwkeurig weer te geven. Plotten kan ook helpen bij het identificeren van uitschieters, waardoor onrealistische en onnauwkeurige voorspellingen worden voorkomen. Data Wrangler wordt geleverd met een visualisatie van seizoens-trend decompositie voor het weergeven van componenten van een tijdreeks, en an visualisatie van uitbijterdetectie uitschieters te identificeren.
  • verklarende analyse– Voor multivariate tijdreeksen is het vermogen om de relatie tussen twee of meer tijdreeksen te onderzoeken, identificeren en modelleren essentieel voor het verkrijgen van zinvolle voorspellingen. De Groeperen op transformeren in Data Wrangler maakt meerdere tijdreeksen door gegevens voor gespecificeerde cellen te groeperen. Bovendien maakt Data Wrangler-tijdreekstransformaties, waar van toepassing, de specificatie van extra ID-kolommen mogelijk om op te groeperen, wat complexe analyse van tijdreeksen mogelijk maakt.
  • Gegevensvoorbereiding en feature-engineering– Tijdreeksgegevens hebben zelden het formaat dat door tijdreeksmodellen wordt verwacht. Het vereist vaak gegevensvoorbereiding om onbewerkte gegevens om te zetten in tijdreeksspecifieke functies. Mogelijk wilt u vóór de analyse valideren dat tijdreeksgegevens regelmatig of op gelijke afstanden zijn geplaatst. Voor gebruiksscenario's voor prognoses wilt u wellicht ook aanvullende tijdreekskenmerken opnemen, zoals autocorrelatie en statistische eigenschappen. Met Data Wrangler kunt u snel tijdreeksfuncties maken, zoals vertragingskolommen voor meerdere vertragingsperioden, gegevens herbemonsteren naar meerdere tijdgranulariteiten en automatisch statistische eigenschappen van een tijdreeks extraheren, om maar een paar mogelijkheden te noemen.

Overzicht oplossingen

Dit bericht gaat dieper in op hoe datawetenschappers en analisten Data Wrangler kunnen gebruiken om tijdreeksgegevens te visualiseren en voor te bereiden. We gebruiken de bitcoin cryptocurrency-dataset van: cryptodata downloaden met bitcoin-handelsdetails om deze mogelijkheden te demonstreren. We reinigen, valideren en transformeren de onbewerkte dataset met tijdreeksfuncties en genereren ook bitcoin-volumeprijsvoorspellingen met behulp van de getransformeerde dataset als invoer.

Het voorbeeld van bitcoin-handelsgegevens is van 1 januari - 19 november 2021, met 464,116 datapunten. De dataset-attributen omvatten een tijdstempel van het prijsrecord, de openingsprijs of eerste prijs waartegen de munt voor een bepaalde dag werd ingewisseld, de hoogste prijs waartegen de munt op de dag werd ingewisseld, de laatste prijs waartegen de munt werd ingewisseld op de dag, het volume dat wordt uitgewisseld in de cryptocurrency-waarde op de dag in BTC en de bijbehorende USD-valuta.

Voorwaarden

Download de Bitstamp_BTCUSD_2021_minute.csv bestand van cryptodata downloaden en upload het naar Eenvoudige opslagservice van Amazon (Amazon S3).

Importeer bitcoin-gegevensset in Data Wrangler

Voer de volgende stappen uit om het opnameproces naar Data Wrangler te starten:

  1. Op de SageMaker Studio console, op de Dien in menu, kies New, kies dan Data Wrangler-stroom.
  2. Hernoem de stroom naar wens.
  3. Voor Datums importeren, kiezen Amazon S3.
  4. Upload de Bitstamp_BTCUSD_2021_minute.csv bestand uit uw S3-bucket.

U kunt nu een voorbeeld van uw dataset bekijken.

  1. In het Details kies het venster Geavanceerde configuratie en deselecteer Steekproeven inschakelen.

Dit is een relatief kleine dataset, dus we hebben geen steekproeven nodig.

  1. Kies import.

U hebt het stroomdiagram met succes gemaakt en bent klaar om transformatiestappen toe te voegen.

Bereid tijdreeksgegevens voor met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Transformaties toevoegen

Om gegevenstransformaties toe te voegen, kiest u het plusteken naast Datatypen En kies Bewerk gegevenstypen.

Bereid tijdreeksgegevens voor met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Zorg ervoor dat Data Wrangler automatisch de juiste gegevenstypen voor de gegevenskolommen heeft afgeleid.

In ons geval zijn de afgeleide gegevenstypen correct. Stel echter dat één gegevenstype onjuist is. U kunt ze eenvoudig wijzigen via de gebruikersinterface, zoals weergegeven in de volgende schermafbeelding.

gegevenstypen bewerken en bekijken

Laten we beginnen met de analyse en beginnen met het toevoegen van transformaties.

Gegevens opschonen

We voeren eerst verschillende transformaties voor het opschonen van gegevens uit.

Kolom laten vallen

Laten we beginnen met het laten vallen van de unix kolom, omdat we de . gebruiken date kolom als index.

  1. Kies Terug naar gegevensstroom.
  2. Kies het plusteken naast Datatypen En kies Voeg transformatie toe.
  3. Kies + Stap toevoegen in de TRANSFORMEREN brood.
  4. Kies Beheer kolommen.
  5. Voor Transformeren, kiezen Kolom laten vallen.
  6. Voor Kolom om neer te zetten, kiezen unix.
  7. Kies Voorbeschouwing.
  8. Kies Toevoegen om de stap op te slaan.

Handvat ontbreekt

Ontbrekende gegevens zijn een bekend probleem in real-world datasets. Daarom is het een best practice om de aanwezigheid van ontbrekende of null-waarden te controleren en deze op de juiste manier af te handelen. Onze dataset bevat geen ontbrekende waarden. Maar als dat zo was, zouden we de gebruiken Handvat ontbreekt tijdreeksen transformeren om ze te repareren. Veelgebruikte strategieën voor het omgaan met ontbrekende gegevens zijn onder meer het weglaten van rijen met ontbrekende waarden of het vullen van de ontbrekende waarden met redelijke schattingen. Omdat tijdreeksgegevens afhankelijk zijn van een reeks gegevenspunten in de tijd, heeft het invullen van ontbrekende waarden de voorkeur. Het proces van het invullen van ontbrekende waarden wordt aangeduid als: toerekening. De Handvat ontbreekt tijdreekstransformatie kunt u kiezen uit meerdere imputatiestrategieën.

  1. Kies + Stap toevoegen in de TRANSFORMEREN brood.
  2. Kies de Tijdreeksen transformeren.
  3. Voor Transformeren, Kies Handvat ontbreekt.
  4. Voor Invoertype tijdreeks, kiezen Langs kolom.
  5. Voor Methode voor het toekennen van waarden, kiezen Voorwaarts vullen.

De Voorwaarts vullen methode vervangt de ontbrekende waarden door de niet-ontbrekende waarden voorafgaand aan de ontbrekende waarden.

omgaan met ontbrekende tijdreekstransformatie

Achterwaarts vullen, Constante waarde, Meest voorkomende waarde en Interpoleren zijn andere toerekeningsstrategieën beschikbaar in Data Wrangler. Interpolatietechnieken zijn afhankelijk van aangrenzende waarden voor het invullen van ontbrekende waarden. Tijdreeksgegevens vertonen vaak een correlatie tussen aangrenzende waarden, waardoor interpolatie een effectieve vulstrategie is. Voor meer details over de functies die u kunt gebruiken voor het toepassen van interpolatie, zie: panda's.DataFrame.interpoleren.

Tijdstempel valideren

Bij tijdreeksanalyse fungeert de tijdstempelkolom als de indexkolom, waar de analyse om draait. Daarom is het essentieel om ervoor te zorgen dat de tijdstempelkolom geen ongeldige of onjuist opgemaakte tijdstempelwaarden bevat. Omdat we de . gebruiken date column als de tijdstempelkolom en index, laten we controleren of de waarden correct zijn opgemaakt.

  1. Kies + Stap toevoegen in de TRANSFORMEREN brood.
  2. Kies de Tijdreeksen transformeren.
  3. Voor Transformeren, kiezen Tijdstempels valideren.

De Tijdstempels valideren transform kunt u controleren of de tijdstempelkolom in uw gegevensset geen waarden heeft met een onjuiste tijdstempel of ontbrekende waarden.

  1. Voor Tijdstempelkolom, kiezen gegevens.
  2. Voor Beleid vervolgkeuzelijst, kies Aangeven.

De Aangeven beleidsoptie maakt een Booleaanse kolom aan die aangeeft of de waarde in de tijdstempelkolom een ​​geldige datum-/tijdnotatie is. Andere opties voor Beleid omvatten:

  • Fout – Geeft een foutmelding als de tijdstempelkolom ontbreekt of ongeldig is
  • Val - Laat de rij vallen als de tijdstempelkolom ontbreekt of ongeldig is
  1. Kies Voorbeschouwing.

Een nieuwe Booleaanse kolom met de naam date_is_valid is gemaakt, met true waarden die het juiste formaat en niet-null-items aangeven. Onze dataset bevat geen ongeldige tijdstempelwaarden in de date kolom. Maar als dat zo was, zou je de nieuwe Booleaanse kolom kunnen gebruiken om die waarden te identificeren en op te lossen.

Valideren Tijdstempel tijdreekstransformatie

  1. Kies Toevoegen om deze stap op te slaan.

Visualisatie van tijdreeksen

Nadat we de gegevensset hebben opgeschoond en gevalideerd, kunnen we de gegevens beter visualiseren om de verschillende componenten ervan te begrijpen.

resample

Omdat we geïnteresseerd zijn in dagelijkse voorspellingen, gaan we de frequentie van gegevens omzetten in dagelijks.

De resample transformatie verandert de frequentie van de tijdreekswaarnemingen in een gespecificeerde granulariteit en wordt geleverd met zowel upsampling- als downsampling-opties. Door upsampling toe te passen neemt de frequentie van de waarnemingen toe (bijvoorbeeld van dagelijks naar uurlijks), terwijl downsampling de frequentie van de waarnemingen verlaagt (bijvoorbeeld van uurlijks naar dagelijks).

Omdat onze dataset zeer gedetailleerd is, gebruiken we de downsampling-optie.

  1. Kies + Stap toevoegen.
  2. Kies de Tijdreeksen transformeren.
  3. Voor Transformeren, kiezen resample.
  4. Voor Tijdstempel, kiezen gegevens.
  5. Voor Frequentie-eenheid:, kiezen Kalenderdag.
  6. Voor frequentie hoeveelheid:, voer 1 in.
  7. Voor Methode om numerieke waarden te aggregeren, kiezen gemiddelde.
  8. Kies Voorbeschouwing.

De frequentie van onze dataset is gewijzigd van per minuut naar dagelijks.

Bereid tijdreeksgegevens voor met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

  1. Kies Toevoegen om deze stap op te slaan.

Seizoensgebonden ontleding

Na resampling kunnen we de getransformeerde reeks en de bijbehorende STL-componenten (Seasonal and Trend decomposition using LOESS) visualiseren met behulp van de Seizoensgebonden-trend-decompositie visualisatie. Dit splitst originele tijdreeksen op in verschillende trend-, seizoens- en restcomponenten, waardoor we een goed begrip krijgen van hoe elk patroon zich gedraagt. We kunnen de informatie ook gebruiken bij het modelleren van prognoseproblemen.

Data Wrangler gebruikt LOESS, een robuuste en veelzijdige statistische methode voor het modelleren van trend- en seizoenscomponenten. De onderliggende implementatie maakt gebruik van polynomiale regressie voor het schatten van niet-lineaire relaties die aanwezig zijn in de tijdreekscomponenten (seizoensgebondenheid, trend en residu).

  1. Kies Terug naar gegevensstroom.
  2. Kies het plusteken naast de Stappen on Informatiestroom.
  3. Kies Analyse toevoegen.
  4. In het Analyse maken deelvenster, voor Analysetype, kiezen Tijdreeksen.
  5. Voor Visualisatie, kiezen Seizoensgebonden ontleding.
  6. Voor Analyse naam, voer een naam in.
  7. Voor Tijdstempelkolom, kiezen gegevens.
  8. Voor Waarde kolom, kiezen Hoeveelheid USD.
  9. Kies Voorbeschouwing.

De analyse stelt ons in staat om de invoertijdreeksen en de ontlede seizoensinvloeden, trend en residu te visualiseren.

Bereid tijdreeksgegevens voor met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

  1. Kies Bespaar om de analyse op te slaan.

Met de visualisatie van seizoenstrends ontleding, kunnen we vier patronen genereren, zoals weergegeven in de voorgaande schermafbeelding:

  • ORIGINELE – De oorspronkelijke tijdreeks opnieuw gesampled tot dagelijkse granulariteit.
  • trend – De polynomiale trend met een algemeen negatief trendpatroon voor het jaar 2021, wat wijst op een afname van Volume USD waarde.
  • Seizoen – De multiplicatieve seizoensgebondenheid weergegeven door de variërende oscillatiepatronen. We zien een afname in seizoensvariatie, gekenmerkt door afnemende amplitude van oscillaties.
  • overgebleven – De resterende resterende of willekeurige ruis. De restreeks is de resulterende reeks nadat trend- en seizoenscomponenten zijn verwijderd. Als we goed kijken, zien we pieken tussen januari en maart en tussen april en juni, wat suggereert dat er ruimte is voor het modelleren van dergelijke specifieke gebeurtenissen met behulp van historische gegevens.

Deze visualisaties bieden datawetenschappers en analisten waardevolle aanknopingspunten voor bestaande patronen en kunnen u helpen bij het kiezen van een modelleringsstrategie. Het is echter altijd een goede gewoonte om de output van STL-decompositie te valideren met de informatie die is verzameld door middel van beschrijvende analyse en domeinexpertise.

Samenvattend zien we een neerwaartse trend die consistent is met de originele serievisualisatie, wat ons vertrouwen vergroot in het opnemen van de informatie die door trendvisualisatie wordt overgebracht in de downstream-besluitvorming. De visualisatie van seizoensinvloeden daarentegen helpt bij het informeren van de aanwezigheid van seizoensinvloeden en de noodzaak om deze te verwijderen door technieken zoals differentiëren toe te passen. Het biedt niet het gewenste niveau van gedetailleerd inzicht in verschillende aanwezige seizoenspatronen, waardoor een diepere analyse nodig is.

Functie-engineering

Nadat we de patronen in onze dataset hebben begrepen, kunnen we beginnen met het ontwikkelen van nieuwe functies om de nauwkeurigheid van de prognosemodellen te vergroten.

Datum/tijd uitlichten

Laten we beginnen met het functie-engineeringproces met meer rechttoe rechtaan datum/tijd-functies. Datum/tijd-functies worden gemaakt op basis van de timestamp column en bieden datawetenschappers een optimale manier om het feature-engineeringproces te starten. We beginnen met de Datum/tijd uitlichten tijdreekstransformatie om de maand, dag van de maand, dag van het jaar, week van het jaar en kwartaal toe te voegen aan onze dataset. Omdat we de datum/tijd-componenten als afzonderlijke functies leveren, stellen we ML-algoritmen in staat signalen en patronen te detecteren om de nauwkeurigheid van voorspellingen te verbeteren.

  1. Kies + Stap toevoegen.
  2. Kies de Tijdreeksen transformeren.
  3. Voor Transformeren, kiezen Datum/tijd uitlichten.
  4. Voor Invoerkolom, kiezen gegevens.
  5. Voor Uitvoerkolom, ga naar binnen date (deze stap is optioneel).
  6. Voor Output mode, kiezen rangtelwoord.
  7. Voor Uitvoer formaat, kiezen columns.
  8. Voor datum/tijd-functies om uit te pakken, selecteer Maand, Dag, Week van het jaar, dag van het jaar en Quarter.
  9. Kies Voorbeschouwing.

De dataset bevat nu nieuwe kolommen met de naam date_month, date_day, date_week_of_year, date_day_of_year en date_quarter. De informatie die uit deze nieuwe functies wordt gehaald, kan datawetenschappers helpen aanvullende inzichten uit de gegevens te halen en in de relatie tussen invoerfuncties en uitvoerfuncties.

functie datetime tijdreeks transformeren

  1. Kies Toevoegen om deze stap op te slaan.

Codeer categorisch

Datum/tijd-functies zijn niet beperkt tot gehele waarden. U kunt er ook voor kiezen om bepaalde geëxtraheerde datum-/tijdkenmerken als categorische variabelen te beschouwen en ze weer te geven als one-hot gecodeerde kenmerken, waarbij elke kolom binaire waarden bevat. De nieuw gecreëerde date_quarter kolom bevat waarden tussen 0-3 en kan one-hot worden gecodeerd met behulp van vier binaire kolommen. Laten we vier nieuwe binaire functies maken, die elk het overeenkomstige kwartaal van het jaar vertegenwoordigen.

  1. Kies + Stap toevoegen.
  2. Kies de Codeer categorisch transformeren.
  3. Voor Transformeren, kiezen One-hot coderen.
  4. Voor Invoerkolom, kiezen datum_kwartaal.
  5. Voor Uitvoerstijl, kiezen columns.
  6. Kies Voorbeschouwing.
  7. Kies Toevoegen om de stap toe te voegen.

Bereid tijdreeksgegevens voor met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Lag-functie

Laten we vervolgens vertragingsfuncties maken voor de doelkolom Volume USD. Lag-functies in tijdreeksanalyse zijn waarden op eerdere tijdstempels die nuttig worden geacht bij het afleiden van toekomstige waarden. Ze helpen ook bij het identificeren van autocorrelatie (ook bekend als: seriële correlatie) patronen in de restreeks door de relatie van de waarneming met waarnemingen in eerdere tijdstappen te kwantificeren. Autocorrelatie is vergelijkbaar met reguliere correlatie, maar tussen de waarden in een reeks en de waarden uit het verleden. Het vormt de basis voor de autoregressieve voorspellingsmodellen in de ARIMA-serie.

Met de Data Wrangler Lag-functie transformeren, kunt u gemakkelijk lag-functies n perioden uit elkaar maken. Bovendien willen we vaak meerdere lag-functies met verschillende vertragingen creëren en het model de meest betekenisvolle functies laten bepalen. Voor een dergelijk scenario is de Lag-functies transform helpt bij het maken van meerdere lag-kolommen over een opgegeven venstergrootte.

  1. Kies Terug naar gegevensstroom.
  2. Kies het plusteken naast de Stappen on Informatiestroom.
  3. Kies + Stap toevoegen.
  4. Kies Tijdreeksen transformeren.
  5. Voor Transformeren, kiezen Lag-functies.
  6. Voor Genereer vertragingsfuncties voor deze kolom, kiezen Hoeveelheid USD.
  7. Voor Tijdstempelkolom, kiezen gegevens.
  8. Voor Vertraging, ga naar binnen 7.
  9. Omdat we geïnteresseerd zijn in het observeren van de vorige zeven lag-waarden, laten we selecteren Het volledige vertragingsvenster opnemen.
  10. Om een ​​nieuwe kolom te maken voor elke vertragingswaarde, selecteer Maak de uitvoer plat.
  11. Kies Voorbeschouwing.

Er worden zeven nieuwe kolommen toegevoegd, met als achtervoegsel de lag_number trefwoord voor de doelkolom Volume USD.

Lag-functie tijdreeksen transformeren

  1. Kies Toevoegen om de stap op te slaan.

Rollende vensterfuncties

We kunnen ook zinvolle statistische samenvattingen voor een reeks waarden berekenen en deze als invoerfuncties opnemen. Laten we algemene statistische tijdreeksfuncties extraheren.

Data Wrangler implementeert automatische extractiemogelijkheden voor tijdreeksen met behulp van de open source vers pakket. Met de functie-extractietransformaties in de tijdreeks kunt u het proces voor het extraheren van kenmerken automatiseren. Dit elimineert de tijd en moeite die anders zou worden besteed aan het handmatig implementeren van signaalverwerkingsbibliotheken. Voor dit bericht extraheren we functies met behulp van de Rollende vensterfuncties transformeren. Deze methode berekent statistische eigenschappen over een reeks waarnemingen gedefinieerd door de venstergrootte.

  1. Kies + Stap toevoegen.
  2. Kies de Tijdreeksen transformeren.
  3. Voor Transformeren, kiezen Rollende vensterfuncties.
  4. Voor Genereer functies voor rollend venster voor deze kolom, kiezen Hoeveelheid USD.
  5. Voor Tijdstempelkolom, kiezen gegevens.
  6. Voor Venstergrootte, ga naar binnen 7.

Een venstergrootte opgeven van 7 berekent functies door de waarde van de huidige tijdstempel te combineren met waarden voor de vorige zeven tijdstempels.

  1. kies Maak plat om een ​​nieuwe kolom te maken voor elke berekende functie.
  2. Kies uw strategie als Minimale subset.

Deze strategie extraheert acht functies die nuttig zijn in downstream-analyses. Andere strategieën omvatten: Efficiënte subset, Aangepaste subset en Alle functies. Voor een volledige lijst van functies die beschikbaar zijn voor extractie, zie: Overzicht van geëxtraheerde functies.

  1. Kies Voorbeschouwing.

We kunnen acht nieuwe kolommen zien met de opgegeven venstergrootte van 7 in hun naam, toegevoegd aan onze dataset.

  1. Kies Toevoegen om de stap op te slaan.

Bereid tijdreeksgegevens voor met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Exporteer de dataset

We hebben de tijdreeksdataset getransformeerd en zijn klaar om de getransformeerde dataset te gebruiken als input voor een voorspellingsalgoritme. De laatste stap is het exporteren van de getransformeerde dataset naar Amazon S3. In Data Wrangler kunt u kiezen: Exporteer stap om automatisch een Jupyter-notebook te genereren met Amazon SageMaker Processing-code voor het verwerken en exporteren van de getransformeerde dataset naar een S3-bucket. Maar omdat onze dataset iets meer dan 300 records bevat, kunnen we profiteren van de: Exportgegevens optie in het Voeg Transform toe bekijken om de getransformeerde dataset rechtstreeks vanuit Data Wrangler naar Amazon S3 te exporteren.

  1. Kies Exportgegevens.

Bereid tijdreeksgegevens voor met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

  1. Voor S3 locatie, kiezen browser en kies je S3-emmer.
  2. Kies Exportgegevens.

Bereid tijdreeksgegevens voor met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Nu we de bitcoin-dataset met succes hebben getransformeerd, kunnen we gebruiken Amazon voorspelling om bitcoin-voorspellingen te genereren.

Opruimen

Als u klaar bent met deze use-case, ruim dan de resources op die u hebt gemaakt om te voorkomen dat er extra kosten in rekening worden gebracht. Voor Data Wrangler kunt u de onderliggende instantie afsluiten wanneer u klaar bent. Verwijzen naar Sluit Data Wrangler af documentatie voor details. U kunt ook doorgaan naar: Deel 2 van deze serie om deze dataset te gebruiken voor prognoses.

Samengevat

Dit bericht demonstreerde hoe u Data Wrangler kunt gebruiken om tijdreeksanalyse te vereenvoudigen en te versnellen met behulp van de ingebouwde tijdreeksmogelijkheden. We hebben onderzocht hoe datawetenschappers gemakkelijk en interactief tijdreeksgegevens kunnen opschonen, formatteren, valideren en transformeren in het gewenste formaat, voor zinvolle analyse. We hebben ook onderzocht hoe u uw tijdreeksanalyse kunt verrijken door een uitgebreide set statistische functies toe te voegen met behulp van Data Wrangler. Zie voor meer informatie over tijdreekstransformaties in Data Wrangler: Transformeer gegevens.


Over de auteur

Bereid tijdreeksgegevens voor met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Roep Bains is Solutions Architect bij AWS met een focus op AI/ML. Hij heeft een passie om klanten te helpen innoveren en hun bedrijfsdoelstellingen te bereiken met behulp van kunstmatige intelligentie en machine learning. In zijn vrije tijd houdt Roop van lezen en wandelen.

Bereid tijdreeksgegevens voor met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Nikita Ivkin is een toegepast wetenschapper, Amazon SageMaker Data Wrangler.

Tijdstempel:

Meer van AWS-machine learning