Yhdistä Amazon EMR ja RStudio Amazon SageMakerissa

Yhdistä Amazon EMR ja RStudio Amazon SageMakerissa

RStudio Amazon SageMakerissa on alan ensimmäinen täysin hallittu RStudio Workbench integroitu kehitysympäristö (IDE) pilvessä. Voit nopeasti käynnistää tutun RStudio IDE:n ja soittaa ylös ja alas taustalla oleviin laskentaresursseihin keskeyttämättä työtäsi, mikä tekee koneoppimis- (ML) ja analytiikkaratkaisujen rakentamisesta helppoa mittakaavassa R:ssä.

Yhdessä SageMakerin RStudion kaltaisten työkalujen kanssa käyttäjät analysoivat, muuntavat ja valmistelevat suuria tietomääriä osana datatieteen ja ML-työnkulkua. Tietotieteilijät ja tietoinsinöörit käyttävät Apache Sparkia, Hivea ja Prestoa käynnissä Amazonin EMR laajamittaiseen tietojenkäsittelyyn. Käyttämällä RStudioa SageMakerissa ja Amazon EMR:ssä yhdessä voit jatkaa RStudio IDE:n käyttöä analysointiin ja kehittämiseen samalla kun käytät Amazon EMR:n hallittuja klustereita laajempaan tietojenkäsittelyyn.

Tässä viestissä näytämme, kuinka voit yhdistää SageMaker-verkkotunnuksen RStudiosi EMR-klusteriin.

Ratkaisun yleiskatsaus

Käytämme Apache Livy yhteys lähettää a kimalteleva työ RStudiosta SageMakerissa EMR-klusteriin. Tämä näkyy seuraavassa kaaviossa.

Ratkaisun laajuus
Kaikki viestissä näkyvä koodi on saatavilla meidän GitHub-arkisto. Toteutamme seuraavan ratkaisuarkkitehtuurin.

Yhdistä Amazon EMR ja RStudio Amazon SageMaker PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.

Edellytykset

Ennen kuin otat käyttöön resursseja, varmista, että sinulla on kaikki vaatimukset RStudion määrittämiseksi ja käyttämiseksi SageMakerissa ja Amazon EMR:ssä:

Rakennamme myös mukautetun RStudion SageMaker-kuvaan, joten varmista, että Docker on käynnissä ja kaikki tarvittavat käyttöoikeudet. Lisätietoja on kohdassa Käytä mukautettua kuvaa tuodaksesi oman kehitysympäristösi RStudioon Amazon SageMakerissa.

Luo resursseja AWS CloudFormationilla

Käytämme AWS-pilven muodostuminen pinoa tarvittavan infrastruktuurin luomiseksi.

Jos sinulla on jo RStudio-toimialue ja olemassa oleva EMR-klusteri, voit ohittaa tämän vaiheen ja aloittaa mukautetun RStudion rakentamisen SageMaker-kuvassa. Korvaa EMR-klusterin ja RStudio-toimialueen tiedot tässä osiossa luodun EMR-klusterin ja RStudio-toimialueen tilalle.

Tämän pinon käynnistäminen luo seuraavat resurssit:

  • Kaksi yksityistä aliverkkoa
  • EMR Spark -klusteri
  • AWS-liima tietokanta ja taulukot
  • SageMaker-verkkotunnus RStudion kanssa
  • SageMaker RStudio -käyttäjäprofiili
  • IAM-palvelurooli SageMaker RStudio -verkkotunnukselle
  • IAM-palvelurooli SageMaker RStudio -käyttäjäprofiilille

Luo resurssit suorittamalla seuraavat vaiheet:

Valita Käynnistä pino pinon luomiseen.

Yhdistä Amazon EMR ja RStudio Amazon SageMaker PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.

  1. On Luo pino sivu, valitse seuraava.
  2. On Määritä pinon yksityiskohdat -sivulle, anna pinolle nimi ja jätä loput vaihtoehdot oletusasetuksiksi ja valitse sitten seuraava.
  3. On Määritä pinoasetukset sivu, jätä asetukset oletusarvoiksi ja valitse seuraava.
  4. On Tarkista sivuvalitse
  5. Myönnän, että AWS CloudFormation saattaa luoda IAM-resursseja mukautetuilla nimillä ja
  6. Myönnän, että AWS CloudFormation saattaa edellyttää seuraavia ominaisuuksia: CAPABILITY_AUTO_EXPAND.
  7. Valita Luo pino.

Yhdistä Amazon EMR ja RStudio Amazon SageMaker PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.

Malli luo viisi pinoa.

Yhdistä Amazon EMR ja RStudio Amazon SageMaker PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.

Näet luodun EMR Spark -klusterin siirtymällä Amazon EMR -konsoliin. Näet sinulle luodun klusterin nimeltä sagemaker. Tämä on klusteri, johon yhdistämme SageMakerin RStudion kautta.

Yhdistä Amazon EMR ja RStudio Amazon SageMaker PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.

Rakenna mukautettu RStudio SageMaker-kuvaan

Olemme luoneet mukautetun kuvan, joka asentaa kaikki sparklyrin riippuvuudet ja muodostaa yhteyden luomaan EMR-klusteriin.

Jos käytät omaa EMR-klusteriasi ja RStudio-toimialuettasi, muokkaa skriptejä vastaavasti.

Varmista, että Docker on käynnissä. Aloita siirtymällä projektivarastoon:

cd sagemaker-rstudio-emr/sparklyr-image
./build-r-image.sh

Rakennamme nyt Docker-kuvan ja rekisteröimme sen RStudioon SageMaker-verkkotunnuksessa.

  1. Valitse SageMaker-konsolissa Verkkotunnukset navigointipaneelissa.
  2. Valitse verkkotunnus select rstudio-domain.
  3. On ympäristö välilehti, valitse Liitä kuva.
    Yhdistä Amazon EMR ja RStudio Amazon SageMaker PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.
    Liitä nyt verkkotunnukseen aiemmin luomamme sparklyr-kuva.
  4. varten Valitse kuvan lähdevalitse Olemassa oleva kuva.
  5. Valitse rakentamamme kimalteleva kuva.
    Yhdistä Amazon EMR ja RStudio Amazon SageMaker PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.
  6. varten Kuvan ominaisuudet, jätä asetukset oletusarvoiksi.
  7. varten Kuvan tyyppivalitse RStudio kuva.
  8. Valita Lähetä.
    Yhdistä Amazon EMR ja RStudio Amazon SageMaker PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.
    Tarkista, että kuva on lisätty verkkotunnukseen. Kuvan kiinnittyminen kokonaan voi kestää muutaman minuutin.
    Yhdistä Amazon EMR ja RStudio Amazon SageMaker PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.
  9. Kun se on saatavilla, kirjaudu sisään RStudioon SageMaker-konsoliin käyttämällä rstudio-user luotu profiili.
  10. Luo tästä istunto aiemmin luomallamme sparkly-kuvalla.
    Yhdistä Amazon EMR ja RStudio Amazon SageMaker PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.
    Ensin meidän on muodostettava yhteys EMR-klusteriimme.
  11. Valitse yhteysruudusta Uusi yhteys.
  12. Valitse EMR-klusterin yhdistämiskoodinpätkä ja valitse Yhdistä Amazon EMR Clusteriin.
    Yhdistä Amazon EMR ja RStudio Amazon SageMaker PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.
    Kun yhteyskoodi on suoritettu, näet Spark-yhteyden Livyn kautta, mutta ei taulukoita.
    Yhdistä Amazon EMR ja RStudio Amazon SageMaker PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.
  13. Muuta tietokanta muotoon credit_card:
    tbl_change_db(sc, “credit_card”)
  14. Valita Päivitä yhteystiedot.
    Nyt näet taulukot.
    Yhdistä Amazon EMR ja RStudio Amazon SageMaker PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.
  15. Siirry nyt kohtaan rstudio-sparklyr-code-walkthrough.md tiedosto.

Tässä on joukko Spark-muunnoksia, joita voimme käyttää luottokorttitietojoukossamme valmistelemaan sitä mallintamista varten. Seuraava koodi on ote:

Katsotaanpa count() kuinka monta tapahtumaa tapahtumataulukossa on. Mutta ensin meidän on tallennettava välimuistiin Käytä tbl() toiminto.

users_tbl <- tbl(sc, "users")
cards_tbl <- tbl(sc, "cards")
transactions_tbl <- tbl(sc, "transactions")

Lasketaan jokaisen taulukon rivien määrä.

count(users_tbl)
count(cards_tbl)
count(transactions_tbl)

Rekisteröidään nyt taulukomme Spark Data Frame -kehyksiksi ja vedetään ne klusterinlaajuiseen muistivälimuistiin suorituskyvyn parantamiseksi. Suodatamme myös kunkin taulukon ensimmäiselle riville sijoitetun otsikon.

users_tbl <- tbl(sc, 'users') %>% filter(gender != 'Gender')
sdf_register(users_tbl, "users_spark")
tbl_cache(sc, 'users_spark')
users_sdf <- tbl(sc, 'users_spark') cards_tbl <- tbl(sc, 'cards') %>% filter(expire_date != 'Expires')
sdf_register(cards_tbl, "cards_spark")
tbl_cache(sc, 'cards_spark')
cards_sdf <- tbl(sc, 'cards_spark') transactions_tbl <- tbl(sc, 'transactions') %>% filter(amount != 'Amount')
sdf_register(transactions_tbl, "transactions_spark")
tbl_cache(sc, 'transactions_spark')
transactions_sdf <- tbl(sc, 'transactions_spark')

Katso täydellinen luettelo komennoista kohdasta rstudio-sparklyr-code-walkthrough.md tiedosto.

Puhdistaa

Poista CloudFormation-juurimalli, jotta voit puhdistaa resurssit välttääksesi toistuvia kustannuksia. Poista myös kaikki Amazon elastinen tiedostopalvelu (Amazon EFS) -kiinnikkeet luotu ja mikä tahansa Amazonin yksinkertainen tallennuspalvelu (Amazon S3) luotuja kauhoja ja esineitä.

Yhteenveto

SageMakerin RStudion integrointi Amazon EMR:n kanssa tarjoaa tehokkaan ratkaisun data-analyysi- ja mallinnustehtäviin pilvessä. Yhdistämällä RStudion SageMakerissa ja muodostamalla Livy-yhteyden Spark on EMR:ssä voit hyödyntää molempien alustojen laskentaresursseja suurten tietojoukkojen tehokkaaseen käsittelyyn. RStudio, yksi laajimmin käytetyistä IDE:istä tietojen analysointiin, mahdollistaa SageMakerin täysin hallitun infrastruktuurin, kulunvalvonta-, verkko- ja suojausominaisuuksien hyödyntämisen. Samaan aikaan Livy-yhteys Sparkiin Amazon EMR:ssä tarjoaa tavan suorittaa hajautettua käsittelyä ja tietojenkäsittelytehtävien skaalausta.

Jos olet kiinnostunut oppimaan lisää näiden työkalujen käyttämisestä yhdessä, tämä viesti toimii lähtökohtana. Lisätietoja on kohdassa RStudio Amazon SageMakerissa. Jos sinulla on ehdotuksia tai parannuksia ominaisuuksiin, luo vetopyyntö GitHub-reposiimme tai jätä kommentti tähän viestiin!


Tietoja Tekijät

Yhdistä Amazon EMR ja RStudio Amazon SageMaker PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.

Ryan Garner on tietotutkija, jolla on AWS Professional Services. Hän on intohimoinen auttaakseen AWS-asiakkaita käyttämään R:tä datatieteen ja koneoppimisen ongelmien ratkaisemisessa.


Yhdistä Amazon EMR ja RStudio Amazon SageMaker PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.
Raj Pathak
 on Senior Solutions -arkkitehti ja -teknologi, joka on erikoistunut rahoituspalveluihin (vakuutus, pankkitoiminta, pääomamarkkinat) ja koneoppimiseen. Hän on erikoistunut luonnollisen kielen käsittelyyn (NLP), suuriin kielimalleihin (LLM) ja koneoppimisen infrastruktuuri- ja toimintaprojekteihin (MLOps).


Yhdistä Amazon EMR ja RStudio Amazon SageMaker PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.Saiteja Pudi
 on ratkaisuarkkitehti AWS:ssä, jonka kotipaikka on Dallas, Tx. Hän on työskennellyt AWS:ssä yli 3 vuotta ja auttanut asiakkaita hyödyntämään AWS:n todellista potentiaalia olemalla heidän luotettu neuvonantajansa. Hän on kotoisin sovelluskehitystaustasta, ja hän on kiinnostunut tietotieteestä ja koneoppimisesta.

Aikaleima:

Lisää aiheesta AWS-koneoppiminen