Käsittele suurempia ja laajempia tietojoukkoja Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.

Käsittele suurempia ja laajempia tietojoukkoja Amazon SageMaker Data Wranglerin avulla

Amazon SageMaker Data Wrangler vähentää koneoppimisen (ML) kokoamiseen ja valmisteluun kuluvaa aikaa viikoista minuutteihin Amazon SageMaker Studio. Data Wrangler voi yksinkertaistaa tietojen valmistelua ja ominaisuuksien suunnitteluprosesseja ja auttaa sinua tietojen valinnassa, puhdistamisessa, tutkimisessa ja visualisoinnissa. Data Wranglerissa on yli 300 sisäänrakennettua PySparkiin kirjoitettua muunnosa, joten voit käsitellä jopa satojen gigatavujen tietojoukkoja tehokkaasti oletusinstanssilla ml.m5.4xlarge.

Kuitenkin, kun työskentelet tietojoukkojen kanssa jopa teratavua dataa käyttämällä sisäänrakennettuja muunnoksia, saatat kokea pidemmän käsittelyajan tai mahdollisia muistin loppumisvirheitä. Tietovaatimustesi perusteella voit nyt käyttää muita Amazonin elastinen laskentapilvi (Amazon EC2) M5-esiintymiä ja R5-tapaukset. Voit esimerkiksi aloittaa oletusinstanssilla (ml.m5.4xlarge) ja vaihtaa sitten muotoon ml.m5.24xlarge tai ml.r5.24xlarge. Sinulla on mahdollisuus valita eri instanssityyppejä ja löytää paras kompromissi käyttökustannuksille ja käsittelyajoille. Kun seuraavan kerran työskentelet aikasarjamuunnoksen parissa ja käytät raskaita muuntajia tietojen tasapainottamiseksi, voit mitoittaa Data Wrangler -instanssisi oikean kokoisena, jotta nämä prosessit suoritetaan nopeammin.

Kun käsittelet kymmeniä gigatavuja tai jopa enemmän mukautetulla Pandas-muunnolla, saatat kohdata muistin loppumisvirheitä. Voit vaihtaa oletusesiintymästä (ml.m5.4xlarge) ml.m5.24xlargeen, jolloin muunnos päättyy ilman virheitä. Vertailimme perusteellisesti ja tarkkailimme lineaarista nopeutumista, kun lisäsimme esiintymän kokoa tietojoukkoportfoliossa.

Tässä viestissä jaamme havainnot kahdesta vertailutestistä osoittaaksemme, kuinka voit käsitellä suurempia ja laajempia tietojoukkoja Data Wranglerin avulla.

Data Wranglerin vertailutestit

Tarkastellaan kahta suorittamaamme testiä, aggregointikyselyt ja yhden kuuman koodaus, eri ilmentymätyypeillä käyttäen PySparkin sisäänrakennettuja muuntajia ja mukautettuja Pandas-muunnoksia. Muunnokset, jotka eivät vaadi yhdistämistä, valmistuvat nopeasti ja toimivat hyvin oletusinstanssityypin kanssa, joten keskityimme koontikyselyihin ja muunnoksiin yhdistämällä. Tallensimme testitietojoukon Amazonin yksinkertainen tallennuspalvelu (Amazon S3). Tämän tietojoukon laajennettu koko on noin 100 Gt ja siinä on 80 miljoonaa riviä ja 300 saraketta. Käytimme käyttöliittymämittareita vertailutestien ajoittamiseen ja asiakkaiden välisen viiveen mittaamiseen päästä päähän. Kun tuomme testitietojoukkoamme, otimme näytteenoton pois päältä. Otanta on oletusarvoisesti käytössä, ja Data Wrangler käsittelee vain ensimmäiset 100 riviä, kun se on käytössä.x

Käsittele suurempia ja laajempia tietojoukkoja Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.

Kun lisäsimme Data Wrangler -instanssin kokoa, havaitsimme Data Wranglerin sisäänrakennettujen muunnosten ja mukautetun Spark SQL:n karkeasti lineaarisen nopeutumisen. Pandasin koontikyselytestit päättyivät vain, kun käytimme instansseja, jotka olivat suurempia kuin ml.m5.16xl, ja Pandas tarvitsi 180 Gt muistia tämän tietojoukon aggregointikyselyjen käsittelemiseen.

Seuraavassa taulukossa on yhteenveto koontikyselyn testituloksista.

Ilmentymä vCPU Muisti (GiB) Data Wrangler sisäänrakennettu Spark-muunnosaika Pandan aika
(Muokattu muunnos)
ml.m5.4xl 16 64 229 sekuntia Muisti loppu
ml.m5.8xl 32 128 130 sekuntia Muisti loppu
ml.m5.16xl 64 256 52 sekuntia 30 minuuttia

Seuraavassa taulukossa on yhteenveto one-hot-koodaustestin tuloksista.

Ilmentymä vCPU Muisti (GiB) Data Wrangler sisäänrakennettu Spark-muunnosaika Pandan aika
(Muokattu muunnos)
ml.m5.4xl 16 64 228 sekuntia Muisti loppu
ml.m5.8xl 32 128 130 sekuntia Muisti loppu
ml.m5.16xl 64 256 52 sekuntia Muisti loppu

Vaihda tietovirran ilmentymän tyyppiä

Voit vaihtaa kulun ilmentymän tyyppiä suorittamalla seuraavat vaiheet:

  1. Siirry Amazon SageMaker Data Wrangler -konsolissa käyttämääsi tietovirtaan.
  2. Valitse esiintymän tyyppi navigointipalkista.
    Käsittele suurempia ja laajempia tietojoukkoja Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.
  3. Valitse esiintymän tyyppi, jota haluat käyttää.
  4. Valita Säästä.
    Käsittele suurempia ja laajempia tietojoukkoja Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.

Näkyviin tulee edistymisviesti.

Käsittele suurempia ja laajempia tietojoukkoja Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.

Kun vaihto on valmis, näyttöön tulee onnistumisviesti.

Käsittele suurempia ja laajempia tietojoukkoja Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.

Data Wrangler käyttää valittua ilmentymän tyyppiä tietojen analysointiin ja muunnoksiin. Oletusilmentymä ja ilmentymä, johon vaihdoit (ml.m5.16xlarge) ovat molemmat käynnissä. Voit muuttaa ilmentymän tyyppiä tai vaihtaa takaisin oletusilmentymään ennen tietyn muunnoksen suorittamista.

Sulje käyttämättömät tapaukset

Sinua veloitetaan kaikista käynnissä olevista esiintymistä. Välttääksesi lisäkuluja, sammuta esiintymät, joita et käytä manuaalisesti. Jos haluat sulkea käynnissä olevan ilmentymän, suorita seuraavat vaiheet:

  1. Valitse tietokulkusivullasi ilmentymäkuvake käyttöliittymän vasemmasta ruudusta Käynnissä olevat esiintymät.
    Käsittele suurempia ja laajempia tietojoukkoja Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.
  2. Valita sulkea.

Jos suljet kulun suorittamiseen käytetyn ilmentymän, et voi käyttää kulkua tilapäisesti. Jos saat virheilmoituksen avattaessasi aiemmin sulkemaasi ilmentymää suorittavaa kulkua, odota noin 5 minuuttia ja yritä avata se uudelleen.

Yhteenveto

Tässä viestissä osoitimme kuinka käsitellä suurempia ja laajempia tietojoukkoja Data Wranglerilla vaihtamalla ilmentymät suurempiin M5- tai R5-instanssityyppeihin. M5-esiintymiä tarjoavat tasapainon laskenta-, muisti- ja verkkoresursseja. R5-tapaukset ovat muistiin optimoituja tapauksia. Sekä M5 että R5 tarjoavat ilmentymätyyppejä kustannusten ja suorituskyvyn optimoimiseksi työkuormituksillesi.

Lisätietoja tietovirtojen käyttämisestä Data Wranglerin kanssa on kohdassa Luo ja käytä Data Wrangler -kulkua ja Amazon SageMaker -hinnoittelu. Aloita Data Wranglerin käyttö katsomalla Valmista ML-tiedot Amazon SageMaker Data Wrangler -sovelluksella.


Tietoja Tekijät

Käsittele suurempia ja laajempia tietojoukkoja Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.Haider Naqvi on ratkaisuarkkitehti AWS:ssä. Hänellä on laaja kokemus ohjelmistokehityksestä ja yritysarkkitehtuurista. Hän keskittyy siihen, että asiakkaat voivat saavuttaa liiketoimintatuloksia AWS:n avulla. Hänen kotipaikkansa on New Yorkista.

Käsittele suurempia ja laajempia tietojoukkoja Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.Huong Nguyen on vanhempi tuotepäällikkö AWS:ssä. Hän johtaa SageMakerin dataekosysteemiintegraatiota 14 vuoden kokemuksella asiakaslähtöisten ja tietopohjaisten tuotteiden rakentamisesta sekä yritys- että kuluttajatiloihin.

Käsittele suurempia ja laajempia tietojoukkoja Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.Meenakshisundaram Thandavarayan on vanhempi AI/ML-asiantuntija, jolla on AWS. Hän auttaa huipputeknologian strategisia tilejä heidän tekoäly- ja ML-matkallaan. Hän on erittäin intohimoinen tietopohjaiseen tekoälyyn.

Käsittele suurempia ja laajempia tietojoukkoja Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.Sriharsha M Sr on AI/ML Specialist Solutions -arkkitehti Amazon Web Servicesin Strategic Specialist -tiimissä. Hän työskentelee strategisten AWS-asiakkaiden kanssa, jotka hyödyntävät tekoälyä/ML:ää ratkaistakseen monimutkaisia ​​liiketoimintaongelmia. Hän tarjoaa teknistä ohjausta ja suunnitteluneuvoja AI/ML-sovellusten toteuttamiseksi mittakaavassa. Hänen asiantuntemuksensa kattaa sovellusarkkitehtuurin, big datan, analytiikan ja koneoppimisen.

Käsittele suurempia ja laajempia tietojoukkoja Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.Nikita Ivkin on soveltuva tutkija, Amazon SageMaker Data Wrangler.

Aikaleima:

Lisää aiheesta AWS-koneoppiminen