Amazon SageMaker-stuurautomaat bouwt, traint en stemt automatisch de beste machine learning (ML)-modellen op basis van uw gegevens, terwijl u volledige controle en zichtbaarheid behoudt. We hebben onlangs aangekondigd ondersteuning voor tijdreeksgegevens in Autopilot. U kunt Autopilot gebruiken om regressie- en classificatietaken op tijdreeksgegevens of reeksgegevens in het algemeen aan te pakken. Tijdreeksgegevens zijn een speciaal type sequentiegegevens waarbij gegevenspunten met even tijdsintervallen worden verzameld.
Het handmatig voorbereiden van de gegevens, het selecteren van het juiste ML-model en het optimaliseren van de parameters is een complexe taak, zelfs voor een deskundige beoefenaar. Hoewel er geautomatiseerde benaderingen bestaan โโdie de beste modellen en hun parameters kunnen vinden, kunnen deze doorgaans niet omgaan met gegevens die als reeksen worden geleverd, zoals netwerkverkeer, elektriciteitsverbruik of huishoudelijke uitgaven die in de loop van de tijd worden geregistreerd. Omdat deze gegevens de vorm aannemen van waarnemingen die op verschillende tijdstippen zijn verkregen, kunnen opeenvolgende waarnemingen niet als onafhankelijk van elkaar worden behandeld en moeten ze als geheel worden verwerkt. U kunt Autopilot gebruiken voor een breed scala aan problemen met sequentiรซle gegevens. U kunt bijvoorbeeld netwerkverkeer classificeren dat in de loop van de tijd is geregistreerd om kwaadaardige activiteiten te identificeren, of bepalen of individuen in aanmerking komen voor een hypotheek op basis van hun kredietgeschiedenis. U levert een dataset met tijdreeksgegevens en Autopilot doet de rest, verwerkt de sequentiรซle gegevens door middel van gespecialiseerde functietransformaties en zoekt namens u het beste model.
Autopilot elimineert het zware werk van het bouwen van ML-modellen en helpt u automatisch het beste ML-model te bouwen, trainen en afstemmen op basis van uw gegevens. Autopilot voert verschillende algoritmen uit op uw gegevens en stemt hun hyperparameters af op een volledig beheerde rekeninfrastructuur. In dit bericht laten we zien hoe u kunt gebruiken Autopilot om classificatie- en regressieproblemen op tijdreeksgegevens op te lossen. Voor instructies over het maken en trainen van een Autopilot-model, zie Voorspelling van klantverloop met Amazon SageMaker Autopilot.
Classificatie van tijdreeksgegevens met Autopilot
Als een doorlopend voorbeeld beschouwen we een probleem met meerdere klassen op de tijdreeks dataset UWaveGebaarBibliotheekX, met equidistante metingen van versnellingsmetersensoren tijdens het uitvoeren van een van de acht vooraf gedefinieerde handgebaren. Voor de eenvoud beschouwen we alleen de X-dimensie van de versnellingsmeter. De taak is om een โโclassificatiemodel te bouwen om de tijdreeksgegevens van de sensormetingen in kaart te brengen voor de vooraf gedefinieerde gebaren. De volgende afbeelding toont de eerste rijen van de dataset in CSV-indeling. De hele tabel bestaat uit 896 rijen en twee kolommen: de eerste kolom is een gebarenlabel en de tweede kolom is een tijdreeks van sensormetingen.
Converteer gegevens naar het juiste formaat met Amazon SageMaker Data Wrangler
Naast het accepteren van numerieke, categorische en standaard tekstkolommen, accepteert Autopilot nu ook een sequentie-invoerkolom. Als uw tijdreeksgegevens deze indeling niet volgen, kunt u deze eenvoudig converteren via Amazon SageMaker-gegevens Wrangler. Data Wrangler reduceert de tijd die nodig is om gegevens te verzamelen en voor te bereiden voor ML van weken tot minuten. Met Data Wrangler kunt u het proces van gegevensvoorbereiding en feature-engineering vereenvoudigen en elke stap van de gegevensvoorbereidingsworkflow voltooien, inclusief gegevensselectie, opschoning, verkenning en visualisatie vanuit รฉรฉn enkele visuele interface. Beschouw bijvoorbeeld dezelfde dataset maar in een ander invoerformaat: elk gebaar (gespecificeerd door ID) is een reeks equidistante metingen van de versnellingsmeter. Wanneer verticaal opgeslagen, bevat elke rij een tijdstempel en รฉรฉn waarde. De volgende afbeelding vergelijkt deze gegevens in het oorspronkelijke formaat en een sequentieformaat.
Om deze dataset te converteren naar het eerder beschreven formaat met Data Wrangler, laadt u de dataset van: Amazon eenvoudige opslagservice (Amazon S3). Gebruik dan de tijdreeks Groeperen op transformatie, zoals weergegeven in de volgende schermafbeelding, en exporteer de gegevens terug naar Amazon S3 in CSV-indeling.
Wanneer de dataset in het daarvoor bestemde formaat is, kunt u doorgaan met Autopilot. Om andere tijdreekstransformatoren van Data Wrangler te bekijken, raadpleeg: Tijdreeksgegevens voorbereiden met Amazon SageMaker Data Wrangler.
Een AutoML-taak starten
Net als bij andere invoertypen die door Autopilot worden ondersteund, is elke rij van de dataset een andere observatie en is elke kolom een โโfunctie. In dit voorbeeld hebben we een enkele kolom met tijdreeksgegevens, maar u kunt meerdere tijdreekskolommen hebben. U kunt ook meerdere kolommen hebben met verschillende invoertypen, zoals tijdreeksen, tekst en numeriek.
Naar een Autopilot-experiment maken, plaats de dataset in een S3-bucket en maak een nieuw experiment binnen Amazon SageMaker Studio. Zoals te zien is in de volgende schermafbeelding, moet u de naam van het experiment, de S3-locatie van de gegevensset, de S3-locatie voor de uitvoerartefacten en de te voorspellen kolomnaam opgeven.
Autopilot analyseert de gegevens, genereert ML-pijplijnen en voert standaard 250 iteraties van hyperparameteroptimalisatie uit op deze classificatietaak. Zoals te zien is in het volgende modelklassement, bereikt Autopilot een nauwkeurigheid van 0.821 en kunt u het beste model met slechts รฉรฉn klik implementeren.
Daarnaast genereert Autopilot a gegevensverkenningsrapport, waar u uw gegevens kunt visualiseren en verkennen.
Transparantie is fundamenteel voor Autopilot. U kunt gegenereerde ML-pipelines inspecteren en wijzigen in het kandidaatdefinitienotitieblok. De volgende schermafbeelding laat zien hoe Autopilot een reeks pijpleidingen aanbeveelt, waarbij de tijdreekstransformator wordt gecombineerd TSFeatureExtractor
met verschillende ML-algoritmen, zoals gradiรซntversterkte beslissingsbomen en lineaire modellen. De TSFeatureExtractor
extraheert honderden tijdreeksfuncties voor u, die vervolgens naar de stroomafwaartse algoritmen worden gevoerd om voorspellingen te doen. Raadpleeg voor de volledige lijst met tijdreeksfuncties: Overzicht van geรซxtraheerde functies.
Conclusie
In dit bericht hebben we laten zien hoe u SageMaker Autopilot kunt gebruiken om classificatie- en regressieproblemen van tijdreeksen met slechts een paar klikken op te lossen.
Voor meer informatie over Autopilot, zie Amazon SageMaker-stuurautomaat. Om gerelateerde functies van SageMaker te ontdekken, zie: Amazon SageMaker-gegevens Wrangler.
Over de auteurs
Nikita Ivkin is een toegepast wetenschapper, Amazon SageMaker Data Wrangler.
Anne Milbert is een Software Development engineer die werkt aan Amazon SageMaker Automatic Model Tuning.
Valerio Perrone is een Applied Science Manager die werkt aan Amazon SageMaker Automatic Model Tuning en Autopilot.
Meghana Satish is een Software Development engineer die werkt aan Amazon SageMaker Automatic Model Tuning.
Ali Takbiri is een AI/ML-specialist Solutions Architect en helpt klanten door Machine Learning te gebruiken om hun zakelijke uitdagingen op de AWS Cloud op te lossen.
- "
- 100
- Over
- verworven
- activiteiten
- algoritmen
- Het toestaan
- Hoewel
- Amazone
- aangekondigd
- geautomatiseerde
- AWS
- BEST
- Boosted
- bouw
- Gebouw
- bouwt
- bedrijfsdeskundigen
- uitdagingen
- classificatie
- Cloud
- Kolom
- complex
- Berekenen
- opeenvolgend
- consumptie
- bevat
- onder controle te houden
- Wij creรซren
- Credits
- Klanten
- gegevens
- omgang
- implementeren
- Ontwikkeling
- anders
- Afmeting
- Nee
- gemakkelijk
- elektriciteit
- ingenieur
- Engineering
- voorbeeld
- kosten
- experiment
- exploratie
- extracten
- Kenmerk
- Voordelen
- Fed
- Figuur
- Voornaam*
- volgen
- volgend
- formulier
- formaat
- vol
- Algemeen
- Groep
- helpt
- geschiedenis
- huishouden
- Hoe
- How To
- HTTPS
- Honderden
- identificeren
- Inclusief
- informatie
- Infrastructuur
- Interface
- IT
- leren
- Lijst
- laden
- plaats
- machine
- machine learning
- manager
- kaart
- ML
- model
- modellen
- netwerk
- netwerk verkeer
- notitieboekje
- optimalisatie
- Overige
- voorspelling
- Voorspellingen
- probleem
- problemen
- zorgen voor
- reeks
- beveelt
- REST
- lopend
- Wetenschap
- Wetenschapper
- -Series
- Eenvoudig
- Software
- software development
- Oplossingen
- OPLOSSEN
- gespecialiseerde
- mediaopslag
- ondersteunde
- steunen
- taken
- Door
- niet de tijd of
- top
- verkeer
- Trainingen
- treinen
- .
- waarde
- zichtbaarheid
- visualisatie
- binnen
- werkzaam
- X