Csatlakoztassa az Amazon EMR-t és az RStudio-t az Amazon SageMakeren

Csatlakoztassa az Amazon EMR-t és az RStudio-t az Amazon SageMakeren

RStudio az Amazon SageMakeren az iparág első teljesen felügyelt RStudio Workbench integrált fejlesztői környezete (IDE) a felhőben. Gyorsan elindíthatja a jól ismert RStudio IDE-t, és fel-le tárcsázhatja a mögöttes számítási erőforrásokat anélkül, hogy megszakítaná a munkáját, így egyszerűvé téve a gépi tanulási (ML) és elemzési megoldások R-ben való méretarányos felépítését.

Az olyan eszközökkel együtt, mint az RStudio a SageMakeren, a felhasználók nagy mennyiségű adatot elemeznek, alakítanak át és készítenek elő az adattudományi és ML munkafolyamat részeként. Az adattudósok és adatmérnökök az Apache Sparkot, a Hive-ot és a Presto-t használják Amazon EMR nagyszabású adatfeldolgozáshoz. A SageMaker RStudio és az Amazon EMR együttes használatával továbbra is használhatja az RStudio IDE-t elemzésre és fejlesztésre, míg az Amazon EMR felügyelt fürtöket nagyobb adatfeldolgozáshoz.

Ebben a bejegyzésben bemutatjuk, hogyan kapcsolhatja össze a SageMaker tartomány RStudióját egy EMR-fürttel.

Megoldás áttekintése

Használunk egy Apache Livy kapcsolat benyújtása a csillogó munkát a SageMaker RStudiójából egy EMR-fürtbe. Ezt a következő diagram szemlélteti.

A megoldás hatálya
A bejegyzésben bemutatott összes kód elérhető nálunk GitHub tárház. Az alábbi megoldás architektúrát valósítjuk meg.

Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Előfeltételek

Mielőtt bármilyen erőforrást telepítene, győződjön meg arról, hogy az RStudio beállításához és használatához a SageMaker és az Amazon EMR rendszeren minden követelménynek megfelel:

Egyéni RStudio-t is készítünk a SageMaker lemezképre, így győződjön meg arról, hogy fut a Docker és minden szükséges engedély. További információkért lásd: Egyéni képfájl használatával hozhatja be saját fejlesztői környezetét az Amazon SageMaker RStudiójába.

Hozzon létre erőforrásokat az AWS CloudFormation segítségével

Használunk egy AWS felhőképződés verem a szükséges infrastruktúra létrehozásához.

Ha már rendelkezik RStudio-domainnel és meglévő EMR-fürttel, akkor kihagyhatja ezt a lépést, és elkezdheti az egyéni RStudio felépítését a SageMaker-képen. Helyettesítse az EMR-fürt és az RStudio-tartomány információit az ebben a szakaszban létrehozott EMR-fürt és RStudio-tartomány helyére.

A verem elindítása a következő erőforrásokat hozza létre:

  • Két privát alhálózat
  • EMR Spark klaszter
  • AWS ragasztó adatbázis és táblázatok
  • SageMaker domain az RStudióval
  • SageMaker RStudio felhasználói profil
  • IAM szolgáltatási szerepkör a SageMaker RStudio tartományhoz
  • IAM szolgáltatási szerepkör a SageMaker RStudio felhasználói profilhoz

Az erőforrások létrehozásához hajtsa végre a következő lépéseket:

A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Indítsa el a Stack alkalmazást a verem létrehozásához.

Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

  1. A Verem létrehozása oldalon válassza a lehetőséget Következő.
  2. A Adja meg a verem részleteit oldalon, adjon nevet a veremnek, és hagyja a többi beállítást alapértelmezettként, majd válassza ki Következő.
  3. A Állítsa be a verembeállításokat oldalon hagyja a beállításokat alapértelmezettként, és válassza ki Következő.
  4. A Ellenőrző oldalválassza
  5. Tudomásul veszem, hogy az AWS CloudFormation létrehozhat IAM-erőforrásokat egyéni névvel és a
  6. Tudomásul veszem, hogy az AWS CloudFormation a következő képességeket igényelheti: CAPABILITY_AUTO_EXPAND.
  7. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Verem létrehozása.

Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A sablon öt köteget generál.

Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A létrehozott EMR Spark-fürt megtekintéséhez lépjen az Amazon EMR konzolra. Látni fog egy, az Ön számára létrehozott klasztert sagemaker. Ez az a fürt, amelyhez a SageMaker RStudióján keresztül csatlakozunk.

Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Építsd meg az egyéni RStudiót a SageMaker képen

Létrehoztunk egy egyéni képet, amely telepíti a sparklyr összes függőségét, és kapcsolatot létesít az általunk létrehozott EMR-fürttel.

Ha saját EMR-fürtöt és RStudio-tartományt használ, ennek megfelelően módosítsa a szkripteket.

Győződjön meg arról, hogy a Docker fut. Kezdje azzal, hogy belép a projekttárunkba:

cd sagemaker-rstudio-emr/sparklyr-image
./build-r-image.sh

Most elkészítjük a Docker-képet, és regisztráljuk a SageMaker tartomány RStudiójába.

  1. A SageMaker konzolon válassza a lehetőséget Domains a navigációs ablaktáblában.
  2. Válassza ki a domaint select rstudio-domain.
  3. A Környezet lapot választani Kép csatolása.
    Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.
    Most csatoljuk a korábban létrehozott sparklyr képet a tartományhoz.
  4. A Válassza ki a kép forrásátválassza Meglévő kép.
  5. Válassza ki az általunk készített csillogó képet.
    Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.
  6. A Kép tulajdonságai, hagyja a beállításokat alapértelmezettként.
  7. A Kép típusaválassza RStudio kép.
  8. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Küld.
    Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.
    Ellenőrizze, hogy a kép hozzá lett adva a domainhez. Eltarthat néhány percig, amíg a kép teljesen felcsatolódik.
    Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.
  9. Ha elérhető, jelentkezzen be az RStudioba a SageMaker konzolon a rstudio-user létrehozott profilt.
  10. Innentől kezdve hozzon létre egy munkamenetet a korábban létrehozott csillogó képpel.
    Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.
    Először is csatlakoznunk kell az EMR-fürthöz.
  11. A kapcsolatok ablaktáblában válassza a lehetőséget Új kapcsolat.
  12. Válassza ki az EMR-fürt csatlakozási kódrészletet, és válassza ki Csatlakozzon az Amazon EMR Clusterhez.
    Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.
    A csatlakozási kód lefutása után Spark-kapcsolatot fog látni a Livy-n keresztül, de táblázatokat nem.
    Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.
  13. Módosítsa az adatbázist erre credit_card:
    tbl_change_db(sc, “credit_card”)
  14. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Kapcsolati adatok frissítése.
    Most már láthatja a táblázatokat.
    Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.
  15. Most navigáljon a rstudio-sparklyr-code-walkthrough.md fájlt.

Ez tartalmaz egy sor Spark-transzformációt, amelyet felhasználhatunk hitelkártya-adatkészletünkön, hogy előkészítsük a modellezéshez. A következő kód egy kivonat:

Nézzük count() hány tranzakció van a tranzakciós táblában. De először gyorsítótárba kell helyeznünk a Use the tbl() funkciót.

users_tbl <- tbl(sc, "users")
cards_tbl <- tbl(sc, "cards")
transactions_tbl <- tbl(sc, "transactions")

Számoljuk meg az egyes táblák sorainak számát.

count(users_tbl)
count(cards_tbl)
count(transactions_tbl)

Most regisztráljuk a tábláinkat Spark Data Frame-ként, és húzzuk be őket a fürtszintű memória-gyorsítótárba a jobb teljesítmény érdekében. Szűrjük az egyes táblázatok első sorába kerülő fejlécet is.

users_tbl <- tbl(sc, 'users') %>% filter(gender != 'Gender')
sdf_register(users_tbl, "users_spark")
tbl_cache(sc, 'users_spark')
users_sdf <- tbl(sc, 'users_spark') cards_tbl <- tbl(sc, 'cards') %>% filter(expire_date != 'Expires')
sdf_register(cards_tbl, "cards_spark")
tbl_cache(sc, 'cards_spark')
cards_sdf <- tbl(sc, 'cards_spark') transactions_tbl <- tbl(sc, 'transactions') %>% filter(amount != 'Amount')
sdf_register(transactions_tbl, "transactions_spark")
tbl_cache(sc, 'transactions_spark')
transactions_sdf <- tbl(sc, 'transactions_spark')

A parancsok teljes listájának megtekintéséhez tekintse meg a rstudio-sparklyr-code-walkthrough.md fájlt.

Tisztítsuk meg

Az erőforrások megtisztításához, hogy elkerülje az ismétlődő költségeket, törölje a root CloudFormation sablont. Az összes törlése is Amazon Elastic File Service (Amazon EFS) mounts létrehozott és bármilyen Amazon egyszerű tárolási szolgáltatás (Amazon S3) vödrök és objektumok létrehozva.

Következtetés

A SageMaker RStudio és az Amazon EMR integrálása hatékony megoldást kínál a felhőben végzett adatelemzési és modellezési feladatokhoz. Ha csatlakoztatja az RStudiót a SageMakeren, és létrehozza a Livy-kapcsolatot a Spark on EMR-rel, mindkét platform számítási erőforrásait kihasználhatja a nagy adatkészletek hatékony feldolgozásához. Az RStudio, az egyik legszélesebb körben használt IDE az adatelemzéshez, lehetővé teszi a SageMaker teljes körűen felügyelt infrastruktúrájának, hozzáférés-vezérlési, hálózati és biztonsági képességeinek kihasználását. Eközben az Amazon EMR Spark-hoz való Livy-kapcsolat lehetőséget biztosít az adatfeldolgozási feladatok elosztott feldolgozására és méretezésére.

Ha többet szeretne megtudni ezen eszközök együttes használatáról, ez a bejegyzés kiindulópontként szolgál. További információkért lásd: RStudio az Amazon SageMakeren. Ha bármilyen javaslata vagy fejlesztése van a funkciókkal kapcsolatban, kérjük, hozzon létre lehívási kérelmet a GitHub-tárhelyünkön, vagy írjon megjegyzést ehhez a bejegyzéshez!


A szerzőkről

Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Ryan Garner az AWS Professional Services adattudós. Szenvedélyesen segíti az AWS ügyfeleit az R használatában adattudományi és gépi tanulási problémáik megoldásában.


Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.
Raj Pathak
 vezető megoldástervező és technológus, aki a pénzügyi szolgáltatásokra (biztosítás, banki szolgáltatások, tőkepiacok) és a gépi tanulásra szakosodott. Szakterülete a Natural Language Processing (NLP), a Large Language Models (LLM) és a Machine Learning infrastruktúra és műveleti projektek (MLOps).


Connect Amazon EMR and RStudio on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.Saiteja Pudi
 az AWS megoldások építésze, székhelye Dallas, Tx. Már több mint 3 éve dolgozik az AWS-nél, és segít az ügyfeleknek az AWS-ben rejlő valódi lehetőségek kiaknázásában azáltal, hogy megbízható tanácsadójuk. Alkalmazásfejlesztői háttérből származik, érdeklődik az adattudomány és a gépi tanulás iránt.

Időbélyeg:

Még több AWS gépi tanulás