Käsittele suurempia ja laajempia tietojoukkoja Amazon SageMaker Data Wranglerilla

Julkaissut Platon

seuraajia: 0

Amazon SageMaker Data Wrangler vähentää koneoppimisen (ML) kokoamiseen ja valmisteluun kuluvaa aikaa viikoista minuutteihin Amazon SageMaker Studio. Data Wrangler voi yksinkertaistaa tietojen valmistelua ja ominaisuuksien suunnitteluprosesseja ja auttaa sinua tietojen valinnassa, puhdistamisessa, tutkimisessa ja visualisoinnissa. Data Wranglerissa on yli 300 sisäänrakennettua PySparkiin kirjoitettua muunnosa, joten voit käsitellä jopa satojen gigatavujen tietojoukkoja tehokkaasti oletusinstanssilla ml.m5.4xlarge.

Kuitenkin, kun työskentelet tietojoukkojen kanssa jopa teratavua dataa käyttämällä sisäänrakennettuja muunnoksia, saatat kokea pidemmän käsittelyajan tai mahdollisia muistin loppumisvirheitä. Tietovaatimustesi perusteella voit nyt käyttää muita Amazonin elastinen laskentapilvi (Amazon EC2) M5-esiintymiä ja R5-tapaukset. Voit esimerkiksi aloittaa oletusinstanssilla (ml.m5.4xlarge) ja vaihtaa sitten muotoon ml.m5.24xlarge tai ml.r5.24xlarge. Sinulla on mahdollisuus valita eri instanssityyppejä ja löytää paras kompromissi käyttökustannuksille ja käsittelyajoille. Kun seuraavan kerran työskentelet aikasarjamuunnoksen parissa ja käytät raskaita muuntajia tietojen tasapainottamiseksi, voit mitoittaa Data Wrangler -instanssisi oikean kokoisena, jotta nämä prosessit suoritetaan nopeammin.

Kun käsittelet kymmeniä gigatavuja tai jopa enemmän mukautetulla Pandas-muunnolla, saatat kohdata muistin loppumisvirheitä. Voit vaihtaa oletusesiintymästä (ml.m5.4xlarge) ml.m5.24xlargeen, jolloin muunnos päättyy ilman virheitä. Vertailimme perusteellisesti ja tarkkailimme lineaarista nopeutumista, kun lisäsimme esiintymän kokoa tietojoukkoportfoliossa.

Tässä viestissä jaamme havainnot kahdesta vertailutestistä osoittaaksemme, kuinka voit käsitellä suurempia ja laajempia tietojoukkoja Data Wranglerin avulla.

Data Wranglerin vertailutestit

Tarkastellaan kahta suorittamaamme testiä, aggregointikyselyt ja yhden kuuman koodaus, eri ilmentymätyypeillä käyttäen PySparkin sisäänrakennettuja muuntajia ja mukautettuja Pandas-muunnoksia. Muunnokset, jotka eivät vaadi yhdistämistä, valmistuvat nopeasti ja toimivat hyvin oletusinstanssityypin kanssa, joten keskityimme koontikyselyihin ja muunnoksiin yhdistämällä. Tallensimme testitietojoukon Amazonin yksinkertainen tallennuspalvelu (Amazon S3). Tämän tietojoukon laajennettu koko on noin 100 Gt ja siinä on 80 miljoonaa riviä ja 300 saraketta. Käytimme käyttöliittymämittareita vertailutestien ajoittamiseen ja asiakkaiden välisen viiveen mittaamiseen päästä päähän. Kun tuomme testitietojoukkoamme, otimme näytteenoton pois päältä. Otanta on oletusarvoisesti käytössä, ja Data Wrangler käsittelee vain ensimmäiset 100 riviä, kun se on käytössä.x

Kun lisäsimme Data Wrangler -instanssin kokoa, havaitsimme Data Wranglerin sisäänrakennettujen muunnosten ja mukautetun Spark SQL:n karkeasti lineaarisen nopeutumisen. Pandasin koontikyselytestit päättyivät vain, kun käytimme instansseja, jotka olivat suurempia kuin ml.m5.16xl, ja Pandas tarvitsi 180 Gt muistia tämän tietojoukon aggregointikyselyjen käsittelemiseen.

Seuraavassa taulukossa on yhteenveto koontikyselyn testituloksista.

Ilmentymä	vCPU	Muisti (GiB)	Data Wrangler sisäänrakennettu Spark-muunnosaika	Pandan aika (Muokattu muunnos)
ml.m5.4xl	16	64	229 sekuntia	Muisti loppu
ml.m5.8xl	32	128	130 sekuntia	Muisti loppu
ml.m5.16xl	64	256	52 sekuntia	30 minuuttia

Seuraavassa taulukossa on yhteenveto one-hot-koodaustestin tuloksista.

Ilmentymä	vCPU	Muisti (GiB)	Data Wrangler sisäänrakennettu Spark-muunnosaika	Pandan aika (Muokattu muunnos)
ml.m5.4xl	16	64	228 sekuntia	Muisti loppu
ml.m5.8xl	32	128	130 sekuntia	Muisti loppu
ml.m5.16xl	64	256	52 sekuntia	Muisti loppu

Vaihda tietovirran ilmentymän tyyppiä

Voit vaihtaa kulun ilmentymän tyyppiä suorittamalla seuraavat vaiheet:

Siirry Amazon SageMaker Data Wrangler -konsolissa käyttämääsi tietovirtaan.
Valitse esiintymän tyyppi navigointipalkista.
Valitse esiintymän tyyppi, jota haluat käyttää.
Valita Säästä.

Näkyviin tulee edistymisviesti.

Kun vaihto on valmis, näyttöön tulee onnistumisviesti.

Data Wrangler käyttää valittua ilmentymän tyyppiä tietojen analysointiin ja muunnoksiin. Oletusilmentymä ja ilmentymä, johon vaihdoit (ml.m5.16xlarge) ovat molemmat käynnissä. Voit muuttaa ilmentymän tyyppiä tai vaihtaa takaisin oletusilmentymään ennen tietyn muunnoksen suorittamista.

Sulje käyttämättömät tapaukset

Sinua veloitetaan kaikista käynnissä olevista esiintymistä. Välttääksesi lisäkuluja, sammuta esiintymät, joita et käytä manuaalisesti. Jos haluat sulkea käynnissä olevan ilmentymän, suorita seuraavat vaiheet:

Valitse tietokulkusivullasi ilmentymäkuvake käyttöliittymän vasemmasta ruudusta Käynnissä olevat esiintymät.
Valita sulkea.

Jos suljet kulun suorittamiseen käytetyn ilmentymän, et voi käyttää kulkua tilapäisesti. Jos saat virheilmoituksen avattaessasi aiemmin sulkemaasi ilmentymää suorittavaa kulkua, odota noin 5 minuuttia ja yritä avata se uudelleen.

Yhteenveto

Tässä viestissä osoitimme kuinka käsitellä suurempia ja laajempia tietojoukkoja Data Wranglerilla vaihtamalla ilmentymät suurempiin M5- tai R5-instanssityyppeihin. M5-esiintymiä tarjoavat tasapainon laskenta-, muisti- ja verkkoresursseja. R5-tapaukset ovat muistiin optimoituja tapauksia. Sekä M5 että R5 tarjoavat ilmentymätyyppejä kustannusten ja suorituskyvyn optimoimiseksi työkuormituksillesi.

Lisätietoja tietovirtojen käyttämisestä Data Wranglerin kanssa on kohdassa Luo ja käytä Data Wrangler -kulkua ja Amazon SageMaker -hinnoittelu. Aloita Data Wranglerin käyttö katsomalla Valmista ML-tiedot Amazon SageMaker Data Wrangler -sovelluksella.

Tietoja Tekijät

Haider Naqvi on ratkaisuarkkitehti AWS:ssä. Hänellä on laaja kokemus ohjelmistokehityksestä ja yritysarkkitehtuurista. Hän keskittyy siihen, että asiakkaat voivat saavuttaa liiketoimintatuloksia AWS:n avulla. Hänen kotipaikkansa on New Yorkista.

Huong Nguyen on vanhempi tuotepäällikkö AWS:ssä. Hän johtaa SageMakerin dataekosysteemiintegraatiota 14 vuoden kokemuksella asiakaslähtöisten ja tietopohjaisten tuotteiden rakentamisesta sekä yritys- että kuluttajatiloihin.

Meenakshisundaram Thandavarayan on vanhempi AI/ML-asiantuntija, jolla on AWS. Hän auttaa huipputeknologian strategisia tilejä heidän tekoäly- ja ML-matkallaan. Hän on erittäin intohimoinen tietopohjaiseen tekoälyyn.

Sriharsha M Sr on AI/ML Specialist Solutions -arkkitehti Amazon Web Servicesin Strategic Specialist -tiimissä. Hän työskentelee strategisten AWS-asiakkaiden kanssa, jotka hyödyntävät tekoälyä/ML:ää ratkaistakseen monimutkaisia liiketoimintaongelmia. Hän tarjoaa teknistä ohjausta ja suunnitteluneuvoja AI/ML-sovellusten toteuttamiseksi mittakaavassa. Hänen asiantuntemuksensa kattaa sovellusarkkitehtuurin, big datan, analytiikan ja koneoppimisen.

Nikita Ivkin on soveltuva tutkija, Amazon SageMaker Data Wrangler.

Aikaleima: Voi 6, 2022

Aikaleima: Heinäkuu 7, 2022

Julkaissut Platon

Automatisoi ja ota käyttöön Amazon Kendran UKK:n versionhallinta

Kuinka LotteON rakensi dynaamisen A/B-testauksen henkilökohtaiselle suositusjärjestelmälleen | Amazon Web Services

Tunnista poikkeamien sijainti käyttämällä Amazon Lookout for Visionia reunassa ilman GPU:ta

Vähennä ruokahävikkiä parantaaksesi kestävyyttä ja taloudellisia tuloksia vähittäiskaupassa Amazon Forecastin avulla

Ilmoitamme Visual Conversation Builderin Amazon Lexille

Suorita muistikirjoja erätöinä Amazon SageMaker Studio Labissa

Havainnollistavat muistikirjat Amazon SageMaker JumpStartissa

Kuinka AWS Prototyping mahdollisti ICL-ryhmän rakentamaan tietokonenäkömalleja Amazon SageMakerissa | Amazon Web Services

Amazon SageMaker Data Wrangler tarjoaa laajan mittakaavan suunnittelua terveydenhuoltoon ja biotieteisiin

Tietoa meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili