Amazon SageMaker -autopilotti mahdollistaa sen, että organisaatiot voivat nopeasti rakentaa ja ottaa käyttöön päästä päähän -koneoppimismallin (ML) ja päättelyputken vain muutamalla koodirivillä tai jopa ilman mitään koodia ollenkaan kanssa Amazon SageMaker Studio. Autopilotti kuormittaa infrastruktuurin määrittämistä ja koko putkilinjan rakentamiseen kuluvaa aikaa, mukaan lukien ominaisuuksien suunnittelu, mallin valinta ja hyperparametrien viritys.
Tässä viestissä näytämme, kuinka voit siirtyä raakatiedoista vahvaan ja täysin käyttöön otettuun päättelyputkeen Autopilotin avulla.
Ratkaisun yleiskatsaus
Käytämme Lyftin julkinen tietojoukko pyörien jakamisesta Tämä simulaatio ennustaa, osallistuuko käyttäjä vai ei Bike Share for All -ohjelma. Tämä on yksinkertainen binääriluokitusongelma.
Haluamme esitellä, kuinka helppoa on rakentaa automatisoitu ja reaaliaikainen johtopäätös käyttäjien luokittelemiseksi heidän osallistumisensa perusteella Bike Share for All -ohjelmaan. Tätä tarkoitusta varten simuloimme San Franciscon lahden alueella toimivan kuvitteellisen bikeshare-yrityksen päästä-päähän tiedonkeruun ja päättelyn putkilinjaa.
Arkkitehtuuri on jaettu kahteen osaan: tuloputkeen ja päättelyputkeen.
Keskitymme ensisijaisesti ML-putkistoon tämän viestin ensimmäisessä osassa ja tarkastelemme tietojen käsittelyä toisessa osassa.
Edellytykset
Noudata tätä esimerkkiä täyttämällä seuraavat edellytykset:
- Luo uusi SageMaker-muistikirjan esiintymä.
- Luo Amazon Kinesis Data Firehose toimitusvirta an AWS Lambda muunnostoiminto. Katso ohjeet Amazon Kinesis Firehose Data Transformation AWS Lambdalla. Tämä vaihe on valinnainen ja tarvitaan vain datan suoratoiston simulointiin.
Tietojen etsintä
Ladataan ja visualisoidaan tietojoukko, joka sijaitsee julkisesti Amazonin yksinkertainen tallennuspalvelu (Amazon S3) ämpäri ja staattinen verkkosivusto:
Seuraava kuvakaappaus näyttää osajoukon tiedoista ennen muuntamista.
Tietojen viimeinen sarake sisältää tavoitteen, jonka haluamme ennustaa, joka on binäärimuuttuja, joka saa joko Kyllä- tai Ei-arvon, mikä osoittaa, osallistuuko käyttäjä Bike Share for All -ohjelmaan.
Katsotaanpa tavoitemuuttujamme jakautumista datan epätasapainoon.
Kuten yllä olevasta kaaviosta näkyy, tiedot ovat epätasapainossa, ja ohjelmaan osallistuu vähemmän ihmisiä.
Meidän on tasapainotettava tiedot, jotta vältetään liiallinen esittely. Tämä vaihe on valinnainen, koska Autopilot tarjoaa myös sisäisen lähestymistavan luokan epätasapainon automaattiseen käsittelyyn, jonka oletuksena on F1-pisteiden validointimetriikka. Lisäksi, jos päätät tasapainottaa tiedot itse, voit käyttää kehittyneempiä tekniikoita luokkaepätasapainon käsittelyyn, kuten löivät or GAN.
Tätä viestiä varten otannamme enemmistöluokkaa (No) tiedon tasapainotustekniikkana:
Seuraava koodi rikastaa dataa ja aliotostaa yliedustetun luokan:
Jätimme tarkoituksella kategorisia ominaisuuksiamme koodaamatta, mukaan lukien binääritavoitearvomme. Tämä johtuu siitä, että Autopilot huolehtii tietojen koodaamisesta ja purkamisesta puolestamme osana automaattista ominaisuussuunnittelua ja putkien käyttöönottoa, kuten seuraavassa osiossa näemme.
Seuraavassa kuvakaappauksessa on esimerkki tiedoistamme.
Seuraavien kaavioiden tiedot näyttävät muuten normaaleilta, ja bimodaalinen jakauma edustaa kahta huippua aamutunneille ja iltapäivän ruuhka-aikoina, kuten voit odottaa. Tarkkailemme myös vähäistä toimintaa viikonloppuisin ja öisin.
Seuraavassa osiossa syötämme tiedot Autopilotille, jotta se voi suorittaa kokeen puolestamme.
Rakenna binäärinen luokitusmalli
Autopilotti edellyttää, että määritämme tulo- ja lähtökohderyhmät. Se käyttää syöttösäilöä tietojen lataamiseen ja tulostussäilöä artefaktien, kuten ominaisuussuunnittelun ja luotujen Jupyter-muistikirjojen, tallentamiseen. Säilytämme 5 % tietojoukosta mallin suorituskyvyn arvioimiseksi ja validoimiseksi koulutuksen jälkeen ja lataamme 95 % tietojoukosta S3-syöttöämpäriin. Katso seuraava koodi:
Kun tiedot on ladattu syöttökohteeseen, on aika käynnistää Autopilot:
Meidän tarvitsee vain aloittaa kokeilu, on kutsua fit()-metodi. Autopilotti tarvitsee syötteen ja lähdön S3 sijainnin sekä kohdeattribuuttisarakkeen pakollisina parametreina. Ominaisuuden käsittelyn jälkeen Autopilot soittaa Automaattinen SageMaker-viritys löytääksesi parhaan version mallista suorittamalla monia koulutustöitä tietojoukossasi. Lisäsimme valinnaisen max_candidates-parametrin rajoittaaksemme ehdokkaiden määrän 30:een, mikä on koulutustöiden lukumäärä, jonka Autopilot käynnistää erilaisilla algoritmien ja hyperparametrien yhdistelmillä parhaan mallin löytämiseksi. Jos et määritä tätä parametria, sen oletusarvo on 250.
Voimme tarkkailla Autopilotin edistymistä seuraavalla koodilla:
Koulutuksen suorittaminen vie jonkin aikaa. Kun se on käynnissä, katsotaanpa Autopilotin työnkulkua.
Käytä seuraavaa koodia löytääksesi parhaan ehdokkaan:
Seuraava kuvakaappaus näyttää tuotoksemme.
Mallimme saavutti 96 prosentin validointitarkkuuden, joten aiomme ottaa sen käyttöön. Voisimme lisätä sellaisen ehdon, että käytämme mallia vain, jos tarkkuus ylittää tietyn tason.
Päätelmäputki
Ennen kuin otamme mallin käyttöön, tutkitaan parasta ehdokastamme ja sitä, mitä valmisteillamme tapahtuu. Katso seuraava koodi:
Seuraava kaavio näyttää tuotosiamme.
Autopilot on rakentanut mallin ja pakannut sen kolmeen eri säiliöön, joista jokainen suorittaa peräkkäin tiettyä tehtävää: muunnos, ennustaminen ja käänteinen muunnos. Tämä monivaiheinen päättely on mahdollista a SageMaker-päätelmäputki.
Monivaiheinen päättely voi myös ketjuttaa useita päättelymalleja. Esimerkiksi yksi kontti voi toimia pääkomponenttien analyysi ennen kuin siirrät tiedot XGBoost-säilöön.
Ota päättelyputki käyttöön päätepisteeseen
Käyttöönottoprosessi sisältää vain muutaman rivin koodia:
Määritetään päätepisteemme ennustajaa varten:
Nyt kun päätepisteemme ja ennustajamme ovat valmiina, on aika käyttää sivuun jättämiämme testaustietoja ja testata mallimme tarkkuutta. Aloitamme määrittelemällä apufunktion, joka lähettää tiedot rivi kerrallaan päätelmäpäätepisteeseemme ja saa vastineeksi ennusteen. Koska meillä on XGBoost mallissa pudotamme kohdemuuttujan ennen CSV-rivin lähettämistä päätepisteeseen. Lisäksi poistimme otsikon testaus-CSV:stä ennen tiedoston läpikäyntiä, mikä on myös toinen vaatimus XGBoostille SageMakerissa. Katso seuraava koodi:
Seuraava kuvakaappaus näyttää tuotoksemme.
Lasketaan nyt mallimme tarkkuus.
Katso seuraava koodi:
Saamme 92% tarkkuuden. Tämä on hieman pienempi kuin validointivaiheessa saatu 96 %, mutta se on silti tarpeeksi korkea. Emme odota tarkkuuden olevan täsmälleen sama, koska testi suoritetaan uudella tietojoukolla.
Tietojen nauttiminen
Latasimme tiedot suoraan ja määritimme ne harjoittelua varten. Tosielämässä saatat joutua lähettämään tiedot suoraan reunalaitteesta datajärveen ja ladamaan SageMakerin suoraan datajärvestä muistikirjaan.
Kinesis Data Firehose on hyvä vaihtoehto ja yksinkertaisin tapa ladata suoratoistodataa luotettavasti datajärviin, tietovarastoihin ja analytiikkatyökaluihin. Se voi kaapata, muuntaa ja ladata suoratoistodataa Amazon S3:een ja muihin AWS-tietovarastoihin.
Käyttötapaukseemme luomme Kinesis Data Firehose -toimitusvirran, jossa on Lambda-muunnostoiminto, joka tekee kevyen datan puhdistuksen, kun se kulkee virran läpi. Katso seuraava koodi:
Tämä Lambda-toiminto suorittaa valomuunnoksen laitteista suoratoistetusta datasta datajärvelle. Se odottaa CSV-muotoista datatiedostoa.
Käsittelyvaihetta varten lataamme tiedot ja simuloimme tietovirran Kinesis Data Firehoseen Lambda-muunnostoiminnolla ja S3-datajärveemme.
Simuloillaan muutaman rivin suoratoistoa:
Puhdistaa
On tärkeää poistaa kaikki tässä harjoituksessa käytetyt resurssit kustannusten minimoimiseksi. Seuraava koodi poistaa luomamme SageMaker-päätelmäpäätepisteen sekä lataamamme koulutus- ja testaustiedot:
Yhteenveto
ML-insinöörit, datatieteilijät ja ohjelmistokehittäjät voivat käyttää Autopilotia johtopäätösputkiston rakentamiseen ja käyttöön ilman vähän tai ei ollenkaan ML-ohjelmointikokemusta. Autopilotti säästää aikaa ja resursseja käyttämällä datatieteen ja ML:n parhaita käytäntöjä. Suuret organisaatiot voivat nyt siirtää suunnitteluresursseja pois infrastruktuurin määrittämisestä mallien parantamiseen ja yrityskäyttötapausten ratkaisemiseen. Startup-yritykset ja pienemmät organisaatiot voivat aloittaa koneoppimisen ilman ML-asiantuntemusta.
Aloita SageMaker Autopilotin käyttö katsomalla Tuotesivu tai käytä SageMaker Autopilotia SageMaker Studiossa.
Suosittelemme myös oppimaan lisää muista SageMakerin tarjoamista tärkeistä ominaisuuksista, kuten Amazon SageMaker -ominaisuuskauppa, joka integroituu Amazon SageMaker -putkistot luoda, lisätä ominaisuushakua ja -hakua sekä käyttää uudelleen automatisoituja ML-työnkulkuja. Voit ajaa useita Autopilot-simulaatioita erilaisilla ominaisuuksilla tai kohdemuunnelmilla tietojoukossasi. Voit lähestyä tätä myös dynaamisena ajoneuvon allokointiongelmana, jossa mallisi yrittää ennustaa ajoneuvojen kysyntää ajan (kuten vuorokaudenajan tai viikonpäivän) tai sijainnin tai molempien yhdistelmän perusteella.
Tietoja Tekijät
Doug Mbaya on Senior Solution -arkkitehti, joka keskittyy dataan ja analytiikkaan. Doug tekee tiivistä yhteistyötä AWS-kumppaneiden kanssa auttaen heitä integroimaan data- ja analytiikkaratkaisuja pilveen. Dougin aiempi kokemus sisältää AWS-asiakkaiden tukemisen kyydissä ja ruuan toimituksissa.
Valerio Perrone on Applied Science Manager, joka työskentelee Amazon SageMakerin automaattisen mallin virityksen ja autopilotin parissa.
- Coinsmart. Euroopan paras Bitcoin- ja kryptopörssi.
- Platoblockchain. Web3 Metaverse Intelligence. Tietoa laajennettu. VAPAA PÄÄSY.
- CryptoHawk. Altcoinin tutka. Ilmainen kokeilu.
- Lähde: https://aws.amazon.com/blogs/machine-learning/automate-a-shared-bikes-and-scooters-classification-model-with-amazon-sagemaker-autopilot/
- '
- "
- &
- 100
- Meistä
- pääsy
- saavutettu
- toiminta
- kehittynyt
- algoritmit
- Kaikki
- jako
- Amazon
- Analytics
- Toinen
- api
- lähestymistapa
- arkkitehtuuri
- ALUE
- perustelut
- Automatisoitu
- AWS
- Lahti
- PARAS
- parhaat käytännöt
- rakentaa
- liiketoiminta
- soittaa
- Voi saada
- joka
- tapauksissa
- muuttaa
- valintoja
- luokittelu
- Siivous
- pilvi
- koodi
- Sarake
- yhdistelmä
- yhdistelmät
- yritys
- komponentti
- ehto
- Konfigurointi
- Kontti
- Kontit
- sisältää
- voisi
- Asiakkaat
- tiedot
- tietojenkäsittely
- tietojenkäsittely
- päivä
- toimitus
- Kysyntä
- sijoittaa
- käyttöönotto
- kehittäjille
- laite
- Laitteet
- eri
- löytö
- näyttö
- jakelu
- alas
- Pudota
- dynaaminen
- reuna
- salaus
- päätepiste
- Tekniikka
- Engineers
- tapahtuma
- esimerkki
- Paitsi
- Käyttää
- odottaa
- experience
- kokeilu
- asiantuntemus
- Ominaisuus
- Ominaisuudet
- Etunimi
- Keskittää
- seurata
- jälkeen
- ruoka
- Francisco
- toiminto
- saada
- menee
- hyvä
- Käsittely
- tätä
- Korkea
- Miten
- Miten
- HTTPS
- tärkeä
- Mukaan lukien
- Infrastruktuuri
- yhdistää
- IT
- Job
- Työpaikat
- suuri
- käynnistää
- oppiminen
- Taso
- Kirjasto
- valo
- kevyt
- linja
- vähän
- kuormitus
- paikallisesti
- sijainti
- kone
- koneoppiminen
- Enemmistö
- Tekeminen
- johtaja
- ML
- malli
- mallit
- eniten
- muistikirja
- kampanja
- Tarjoukset
- toiminta
- Vaihtoehto
- tilata
- organisaatioiden
- Muut
- muuten
- osallistuminen
- kumppani
- Ihmiset
- suorituskyky
- mahdollinen
- ennustus
- Ongelma
- prosessi
- Ohjelma
- Ohjelmointi
- toimittaa
- julkinen
- nopeasti
- raaka
- reaaliaikainen
- suositella
- ennätys
- asiakirjat
- tarvitaan
- Esittelymateriaalit
- Tuotto
- arviot
- säännöt
- ajaa
- juoksu
- kiirehtiä
- San
- San Francisco
- tallentaa
- tiede
- tutkijat
- Haku
- valittu
- Sarjat
- setti
- Jaa:
- yhteinen
- siirtää
- Yksinkertainen
- simulointi
- Koko
- nukkua
- So
- Tuotteemme
- jakaa
- Alkaa
- alkoi
- Startups
- Levytila
- varastot
- virta
- virtasi
- streaming
- studio
- Kohde
- tekniikat
- testi
- Testaus
- Kautta
- aika
- tänään
- työkalut
- koulutus
- Muuttaa
- Muutos
- us
- käyttää
- Käyttäjät
- hyödyllisyys
- arvo
- ajoneuvo
- Verkkosivu
- viikko
- onko
- wikipedia
- sisällä
- työskentely
- toimii