Amazon SageMaker Data Wrangler vähentää koneoppimisen (ML) kokoamiseen ja valmisteluun kuluvaa aikaa viikoista minuutteihin Amazon SageMaker Studio. Data Wrangler voi yksinkertaistaa tietojen valmistelua ja ominaisuuksien suunnitteluprosesseja ja auttaa sinua tietojen valinnassa, puhdistamisessa, tutkimisessa ja visualisoinnissa. Data Wranglerissa on yli 300 sisäänrakennettua PySparkiin kirjoitettua muunnosa, joten voit käsitellä jopa satojen gigatavujen tietojoukkoja tehokkaasti oletusinstanssilla ml.m5.4xlarge.
Kuitenkin, kun työskentelet tietojoukkojen kanssa jopa teratavua dataa käyttämällä sisäänrakennettuja muunnoksia, saatat kokea pidemmän käsittelyajan tai mahdollisia muistin loppumisvirheitä. Tietovaatimustesi perusteella voit nyt käyttää muita Amazonin elastinen laskentapilvi (Amazon EC2) M5-esiintymiä ja R5-tapaukset. Voit esimerkiksi aloittaa oletusinstanssilla (ml.m5.4xlarge) ja vaihtaa sitten muotoon ml.m5.24xlarge tai ml.r5.24xlarge. Sinulla on mahdollisuus valita eri instanssityyppejä ja löytää paras kompromissi käyttökustannuksille ja käsittelyajoille. Kun seuraavan kerran työskentelet aikasarjamuunnoksen parissa ja käytät raskaita muuntajia tietojen tasapainottamiseksi, voit mitoittaa Data Wrangler -instanssisi oikean kokoisena, jotta nämä prosessit suoritetaan nopeammin.
Kun käsittelet kymmeniä gigatavuja tai jopa enemmän mukautetulla Pandas-muunnolla, saatat kohdata muistin loppumisvirheitä. Voit vaihtaa oletusesiintymästä (ml.m5.4xlarge) ml.m5.24xlargeen, jolloin muunnos päättyy ilman virheitä. Vertailimme perusteellisesti ja tarkkailimme lineaarista nopeutumista, kun lisäsimme esiintymän kokoa tietojoukkoportfoliossa.
Tässä viestissä jaamme havainnot kahdesta vertailutestistä osoittaaksemme, kuinka voit käsitellä suurempia ja laajempia tietojoukkoja Data Wranglerin avulla.
Data Wranglerin vertailutestit
Tarkastellaan kahta suorittamaamme testiä, aggregointikyselyt ja yhden kuuman koodaus, eri ilmentymätyypeillä käyttäen PySparkin sisäänrakennettuja muuntajia ja mukautettuja Pandas-muunnoksia. Muunnokset, jotka eivät vaadi yhdistämistä, valmistuvat nopeasti ja toimivat hyvin oletusinstanssityypin kanssa, joten keskityimme koontikyselyihin ja muunnoksiin yhdistämällä. Tallensimme testitietojoukon Amazonin yksinkertainen tallennuspalvelu (Amazon S3). Tämän tietojoukon laajennettu koko on noin 100 Gt ja siinä on 80 miljoonaa riviä ja 300 saraketta. Käytimme käyttöliittymämittareita vertailutestien ajoittamiseen ja asiakkaiden välisen viiveen mittaamiseen päästä päähän. Kun tuomme testitietojoukkoamme, otimme näytteenoton pois päältä. Otanta on oletusarvoisesti käytössä, ja Data Wrangler käsittelee vain ensimmäiset 100 riviä, kun se on käytössä.x
Kun lisäsimme Data Wrangler -instanssin kokoa, havaitsimme Data Wranglerin sisäänrakennettujen muunnosten ja mukautetun Spark SQL:n karkeasti lineaarisen nopeutumisen. Pandasin koontikyselytestit päättyivät vain, kun käytimme instansseja, jotka olivat suurempia kuin ml.m5.16xl, ja Pandas tarvitsi 180 Gt muistia tämän tietojoukon aggregointikyselyjen käsittelemiseen.
Seuraavassa taulukossa on yhteenveto koontikyselyn testituloksista.
Ilmentymä | vCPU | Muisti (GiB) | Data Wrangler sisäänrakennettu Spark-muunnosaika | Pandan aika (Muokattu muunnos) |
ml.m5.4xl | 16 | 64 | 229 sekuntia | Muisti loppu |
ml.m5.8xl | 32 | 128 | 130 sekuntia | Muisti loppu |
ml.m5.16xl | 64 | 256 | 52 sekuntia | 30 minuuttia |
Seuraavassa taulukossa on yhteenveto one-hot-koodaustestin tuloksista.
Ilmentymä | vCPU | Muisti (GiB) | Data Wrangler sisäänrakennettu Spark-muunnosaika | Pandan aika (Muokattu muunnos) |
ml.m5.4xl | 16 | 64 | 228 sekuntia | Muisti loppu |
ml.m5.8xl | 32 | 128 | 130 sekuntia | Muisti loppu |
ml.m5.16xl | 64 | 256 | 52 sekuntia | Muisti loppu |
Vaihda tietovirran ilmentymän tyyppiä
Voit vaihtaa kulun ilmentymän tyyppiä suorittamalla seuraavat vaiheet:
- Siirry Amazon SageMaker Data Wrangler -konsolissa käyttämääsi tietovirtaan.
- Valitse esiintymän tyyppi navigointipalkista.
- Valitse esiintymän tyyppi, jota haluat käyttää.
- Valita Säästä.
Näkyviin tulee edistymisviesti.
Kun vaihto on valmis, näyttöön tulee onnistumisviesti.
Data Wrangler käyttää valittua ilmentymän tyyppiä tietojen analysointiin ja muunnoksiin. Oletusilmentymä ja ilmentymä, johon vaihdoit (ml.m5.16xlarge) ovat molemmat käynnissä. Voit muuttaa ilmentymän tyyppiä tai vaihtaa takaisin oletusilmentymään ennen tietyn muunnoksen suorittamista.
Sulje käyttämättömät tapaukset
Sinua veloitetaan kaikista käynnissä olevista esiintymistä. Välttääksesi lisäkuluja, sammuta esiintymät, joita et käytä manuaalisesti. Jos haluat sulkea käynnissä olevan ilmentymän, suorita seuraavat vaiheet:
- Valitse tietokulkusivullasi ilmentymäkuvake käyttöliittymän vasemmasta ruudusta Käynnissä olevat esiintymät.
- Valita sulkea.
Jos suljet kulun suorittamiseen käytetyn ilmentymän, et voi käyttää kulkua tilapäisesti. Jos saat virheilmoituksen avattaessasi aiemmin sulkemaasi ilmentymää suorittavaa kulkua, odota noin 5 minuuttia ja yritä avata se uudelleen.
Yhteenveto
Tässä viestissä osoitimme kuinka käsitellä suurempia ja laajempia tietojoukkoja Data Wranglerilla vaihtamalla ilmentymät suurempiin M5- tai R5-instanssityyppeihin. M5-esiintymiä tarjoavat tasapainon laskenta-, muisti- ja verkkoresursseja. R5-tapaukset ovat muistiin optimoituja tapauksia. Sekä M5 että R5 tarjoavat ilmentymätyyppejä kustannusten ja suorituskyvyn optimoimiseksi työkuormituksillesi.
Lisätietoja tietovirtojen käyttämisestä Data Wranglerin kanssa on kohdassa Luo ja käytä Data Wrangler -kulkua ja Amazon SageMaker -hinnoittelu. Aloita Data Wranglerin käyttö katsomalla Valmista ML-tiedot Amazon SageMaker Data Wrangler -sovelluksella.
Tietoja Tekijät
Haider Naqvi on ratkaisuarkkitehti AWS:ssä. Hänellä on laaja kokemus ohjelmistokehityksestä ja yritysarkkitehtuurista. Hän keskittyy siihen, että asiakkaat voivat saavuttaa liiketoimintatuloksia AWS:n avulla. Hänen kotipaikkansa on New Yorkista.
Huong Nguyen on vanhempi tuotepäällikkö AWS:ssä. Hän johtaa SageMakerin dataekosysteemiintegraatiota 14 vuoden kokemuksella asiakaslähtöisten ja tietopohjaisten tuotteiden rakentamisesta sekä yritys- että kuluttajatiloihin.
Meenakshisundaram Thandavarayan on vanhempi AI/ML-asiantuntija, jolla on AWS. Hän auttaa huipputeknologian strategisia tilejä heidän tekoäly- ja ML-matkallaan. Hän on erittäin intohimoinen tietopohjaiseen tekoälyyn.
Sriharsha M Sr on AI/ML Specialist Solutions -arkkitehti Amazon Web Servicesin Strategic Specialist -tiimissä. Hän työskentelee strategisten AWS-asiakkaiden kanssa, jotka hyödyntävät tekoälyä/ML:ää ratkaistakseen monimutkaisia liiketoimintaongelmia. Hän tarjoaa teknistä ohjausta ja suunnitteluneuvoja AI/ML-sovellusten toteuttamiseksi mittakaavassa. Hänen asiantuntemuksensa kattaa sovellusarkkitehtuurin, big datan, analytiikan ja koneoppimisen.
Nikita Ivkin on soveltuva tutkija, Amazon SageMaker Data Wrangler.
- Coinsmart. Euroopan paras Bitcoin- ja kryptopörssi.
- Platoblockchain. Web3 Metaverse Intelligence. Tietoa laajennettu. VAPAA PÄÄSY.
- CryptoHawk. Altcoinin tutka. Ilmainen kokeilu.
- Lähde: https://aws.amazon.com/blogs/machine-learning/process-larger-and-wider-datasets-with-amazon-sagemaker-data-wrangler/
- "
- 100
- Meistä
- pääsy
- poikki
- lisä-
- Etu
- neuvot
- AI
- Kaikki
- Amazon
- Amazon Web Services
- analyysi
- Analytics
- Hakemus
- sovellukset
- suunnilleen
- arkkitehtuuri
- noin
- AWS
- benchmark
- PARAS
- Big Data
- Rakentaminen
- sisäänrakennettu
- liiketoiminta
- muuttaa
- peritään
- maksut
- Valita
- Siivous
- monimutkainen
- Laskea
- Console
- kuluttaja
- Tällä hetkellä
- asiakassuhde
- Asiakkaat
- tiedot
- tietojen analysointi
- osoittaa
- osoittivat
- Malli
- Kehitys
- eri
- alas
- ekosysteemi
- tehokkaasti
- mahdollistaa
- Tekniikka
- yritys
- esimerkki
- experience
- asiantuntemus
- tutkimus
- laaja
- nopeampi
- Ominaisuus
- löytäminen
- Etunimi
- virtaus
- keskityttiin
- keskittyy
- jälkeen
- korkeus
- auttaa
- auttaa
- Miten
- Miten
- HTTPS
- Sadat
- ICON
- toteuttaa
- tuovan
- kasvoi
- integraatio
- IT
- suurempi
- johtava
- OPPIA
- oppiminen
- kone
- koneoppiminen
- johtaja
- käsin
- mitata
- Muisti
- Metrics
- miljoona
- ML
- lisää
- suunnistus
- verkostoituminen
- New York
- kampanja
- avaaminen
- Optimoida
- Vaihtoehto
- intohimoinen
- suorituskyky
- salkku
- mahdollinen
- Valmistella
- ongelmia
- prosessi
- Prosessit
- käsittely
- Tuotteet
- Tuotteemme
- toimittaa
- tarjoaa
- nopeasti
- edellyttää
- vaatimukset
- Esittelymateriaalit
- tulokset
- arviot
- ajaa
- juoksu
- Asteikko
- Tiedemies
- valittu
- Sarjat
- Palvelut
- Jaa:
- Yksinkertainen
- Koko
- So
- Tuotteemme
- ohjelmistokehitys
- Ratkaisumme
- SOLVE
- tilat
- asiantuntija
- Alkaa
- alkoi
- Levytila
- Strateginen
- menestys
- Vaihtaa
- ottaen
- joukkue-
- Tekninen
- testi
- testit
- perin pohjin
- aika
- Muuttaa
- Muutos
- ui
- käyttää
- visualisointi
- odottaa
- verkko
- verkkopalvelut
- KUKA
- ilman
- Referenssit
- työskentely
- toimii
- vuotta