Amazon SageMaker Autopilot bygger, træner og tuner automatisk de bedste maskinlæringsmodeller (ML) baseret på dine data, samtidig med at du kan bevare fuld kontrol og synlighed. Vi har for nylig annonceret understøttelse af tidsseriedata i Autopilot. Du kan bruge autopilot til at tackle regressions- og klassifikationsopgaver på tidsseriedata eller sekvensdata generelt. Tidsseriedata er en speciel type sekvensdata, hvor datapunkter indsamles med jævne tidsintervaller.
Manuel forberedelse af data, valg af den rigtige ML-model og optimering af dens parametre er en kompleks opgave, selv for en ekspert. Selvom der findes automatiserede tilgange, der kan finde de bedste modeller og deres parametre, kan disse typisk ikke håndtere data, der kommer som sekvenser, såsom netværkstrafik, elforbrug eller husstandsudgifter registreret over tid. Fordi disse data tager form af observationer erhvervet på forskellige tidspunkter, kan på hinanden følgende observationer ikke behandles som uafhængige af hinanden og skal behandles som en helhed. Du kan bruge Autopilot til en bred vifte af problemer med sekventielle data. For eksempel kan du klassificere netværkstrafik, der er registreret over tid, for at identificere ondsindede aktiviteter eller afgøre, om enkeltpersoner kvalificerer sig til et realkreditlån baseret på deres kredithistorik. Du leverer et datasæt, der indeholder tidsseriedata, og Autopilot håndterer resten, behandler de sekventielle data gennem specialiserede funktionstransformationer og finder den bedste model på dine vegne.
Autopilot eliminerer de tunge løft ved at bygge ML-modeller og hjælper dig med automatisk at bygge, træne og tune den bedste ML-model baseret på dine data. Autopilot kører flere algoritmer på dine data og justerer deres hyperparametre på en fuldt administreret computerinfrastruktur. I dette indlæg viser vi, hvordan du kan bruge Autopilot at løse klassifikations- og regressionsproblemer på tidsseriedata. For instruktioner om oprettelse og træning af en autopilotmodel, se Forudsigelse af kundeafgang med Amazon SageMaker Autopilot.
Klassificering af tidsseriedata ved hjælp af autopilot
Som et løbende eksempel betragter vi et multi-klasse problem på tidsserien datasæt UWaveGestureLibraryX, der indeholder ækvidistante aflæsninger af accelerometersensorer, mens du udfører en af otte foruddefinerede håndbevægelser. For nemheds skyld betragter vi kun X-dimensionen af accelerometeret. Opgaven er at bygge en klassifikationsmodel til at kortlægge tidsseriedata fra sensoraflæsningerne til de foruddefinerede bevægelser. Følgende figur viser de første rækker af datasættet i CSV-format. Hele tabellen består af 896 rækker og to kolonner: den første kolonne er en gestus-etiket, og den anden kolonne er en tidsserie af sensoraflæsninger.
Konverter data til det rigtige format med Amazon SageMaker Data Wrangler
Ud over at acceptere numeriske, kategoriske og standardtekstkolonner, accepterer Autopilot nu også en sekvensinputkolonne. Hvis dine tidsseriedata ikke følger dette format, kan du nemt konvertere dem igennem Amazon SageMaker Data Wrangler. Data Wrangler reducerer den tid, det tager at samle og forberede data til ML fra uger til minutter. Med Data Wrangler kan du forenkle processen med dataforberedelse og funktionsudvikling og fuldføre hvert trin i dataforberedelsesworkflowet, inklusive datavalg, rensning, udforskning og visualisering fra en enkelt visuel grænseflade. Overvej for eksempel det samme datasæt, men i et andet inputformat: hver gestus (specificeret ved ID) er en sekvens af ækvidistante målinger af accelerometeret. Når den lagres lodret, indeholder hver række et tidsstempel og en værdi. Følgende figur sammenligner disse data i dets oprindelige format og et sekvensformat.
For at konvertere dette datasæt til det tidligere beskrevne format ved hjælp af Data Wrangler skal du indlæse datasættet fra Amazon Simple Storage Service (Amazon S3). Brug derefter tidsserie Grupper efter transformation, som vist på det følgende skærmbillede, og eksporter dataene tilbage til Amazon S3 i CSV-format.
Når datasættet er i dets angivne format, kan du fortsætte med Autopilot. For at se andre tidsserietransformere af Data Wrangler henvises til Forbered tidsseriedata med Amazon SageMaker Data Wrangler.
Start et AutoML-job
Som med andre inputtyper, der understøttes af Autopilot, er hver række i datasættet en anden observation, og hver kolonne er en funktion. I dette eksempel har vi en enkelt kolonne, der indeholder tidsseriedata, men du kan have flere tidsseriekolonner. Du kan også have flere kolonner med forskellige inputtyper, såsom tidsserier, tekst og numeriske.
Til oprette et autopiloteksperiment, placer datasættet i en S3-bøtte og opret et nyt eksperiment indeni Amazon SageMaker Studio. Som vist i det følgende skærmbillede skal du angive navnet på eksperimentet, S3-placeringen af datasættet, S3-placeringen for output-artefakter og kolonnenavnet for at forudsige.
Autopilot analyserer dataene, genererer ML-pipelines og kører som standard 250 iterationer af hyperparameteroptimering på denne klassifikationsopgave. Som vist på den følgende modelliste, når Autopilot en nøjagtighed på 0.821, og du kan implementere den bedste model med blot et enkelt klik.
Derudover genererer Autopilot en dataudforskningsrapport, hvor du kan visualisere og udforske dine data.
Gennemsigtighed er grundlæggende for autopilot. Du kan inspicere og ændre genererede ML-pipelines i kandidatdefinitionsnotesbogen. Følgende skærmbillede viser, hvordan Autopilot anbefaler en række rørledninger, der kombinerer tidsserietransformatoren TSFeatureExtractor
med forskellige ML-algoritmer, såsom gradientboostede beslutningstræer og lineære modeller. Det TSFeatureExtractor
udtrækker hundredvis af tidsseriefunktioner til dig, som derefter føres til downstream-algoritmerne for at lave forudsigelser. Se den fulde liste over tidsseriefunktioner Oversigt over udtrukne funktioner.
Konklusion
I dette indlæg demonstrerede vi, hvordan man bruger SageMaker Autopilot til at løse tidsserieklassificering og regressionsproblemer med blot et par klik.
For mere information om autopilot, se Amazon SageMaker Autopilot. For at udforske relaterede funktioner i SageMaker, se Amazon SageMaker Data Wrangler.
Om forfatterne
Nikita Ivkin er en anvendt videnskabsmand, Amazon SageMaker Data Wrangler.
Anne Milbert er en softwareudviklingsingeniør, der arbejder på Amazon SageMaker Automatic Model Tuning.
Valerio Perrone er en Applied Science Manager, der arbejder på Amazon SageMaker Automatic Model Tuning og Autopilot.
Meghana Satish er en softwareudviklingsingeniør, der arbejder på Amazon SageMaker Automatic Model Tuning.
Ali Takbiri er en AI/ML specialist Solutions Architect, og hjælper kunder ved at bruge Machine Learning til at løse deres forretningsudfordringer på AWS Cloud.
- "
- 100
- Om
- erhvervede
- aktiviteter
- algoritmer
- tillade
- Skønt
- Amazon
- annoncerede
- Automatiseret
- AWS
- BEDSTE
- Hjulpet
- bygge
- Bygning
- bygger
- virksomhed
- udfordringer
- klassificering
- Cloud
- Kolonne
- komplekse
- Compute
- træk
- forbrug
- indeholder
- kontrol
- Oprettelse af
- kredit
- Kunder
- data
- beskæftiger
- indsætte
- Udvikling
- forskellige
- Dimension
- Er ikke
- nemt
- elektricitet
- ingeniør
- Engineering
- eksempel
- udgifter
- eksperiment
- udforskning
- Uddrag
- Feature
- Funktionalitet
- Fed
- Figur
- Fornavn
- følger
- efter
- formular
- format
- fuld
- Generelt
- gruppe
- hjælper
- historie
- husstand
- Hvordan
- How To
- HTTPS
- Hundreder
- identificere
- Herunder
- oplysninger
- Infrastruktur
- grænseflade
- IT
- læring
- Liste
- belastning
- placering
- maskine
- machine learning
- leder
- kort
- ML
- model
- modeller
- netværk
- netværkstrafik
- notesbog
- optimering
- Andet
- forudsigelse
- Forudsigelser
- Problem
- problemer
- behandle
- give
- rækkevidde
- anbefaler
- REST
- kører
- Videnskab
- Videnskabsmand
- Series
- Simpelt
- Software
- softwareudvikling
- Løsninger
- SOLVE
- specialiserede
- opbevaring
- Understøttet
- Understøtter
- opgaver
- Gennem
- tid
- top
- Trafik
- Kurser
- tog
- brug
- værdi
- synlighed
- visualisering
- inden for
- arbejder
- X