Csatlakoztassa az Amazon EMR-t és az RStudio-t az Amazon SageMakeren

Csatlakoztassa az Amazon EMR-t és az RStudio-t az Amazon SageMakeren

RStudio az Amazon SageMakeren az iparág első teljesen felügyelt RStudio Workbench integrált fejlesztői környezete (IDE) a felhőben. Gyorsan elindíthatja a jól ismert RStudio IDE-t, és fel-le tárcsázhatja a mögöttes számítási erőforrásokat anélkül, hogy megszakítaná a munkáját, így egyszerűvé téve a gépi tanulási (ML) és elemzési megoldások R-ben való méretarányos felépítését.

Az olyan eszközökkel együtt, mint az RStudio a SageMakeren, a felhasználók nagy mennyiségű adatot elemeznek, alakítanak át és készítenek elő az adattudományi és ML munkafolyamat részeként. Az adattudósok és adatmérnökök az Apache Sparkot, a Hive-ot és a Presto-t használják Amazon EMR nagyszabású adatfeldolgozáshoz. A SageMaker RStudio és az Amazon EMR együttes használatával továbbra is használhatja az RStudio IDE-t elemzésre és fejlesztésre, míg az Amazon EMR felügyelt fürtöket nagyobb adatfeldolgozáshoz.

Ebben a bejegyzésben bemutatjuk, hogyan kapcsolhatja össze a SageMaker tartomány RStudióját egy EMR-fürttel.

Megoldás áttekintése

Használunk egy Apache Livy kapcsolat benyújtása a csillogó munkát a SageMaker RStudiójából egy EMR-fürtbe. Ezt a következő diagram szemlélteti.

A megoldás hatálya
A bejegyzésben bemutatott összes kód elérhető nálunk GitHub tárház. Az alábbi megoldás architektúrát valósítjuk meg.

Csatlakoztassa az Amazon EMR-t és az RStudio-t az Amazon SageMaker PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Előfeltételek

Mielőtt bármilyen erőforrást telepítene, győződjön meg arról, hogy az RStudio beállításához és használatához a SageMaker és az Amazon EMR rendszeren minden követelménynek megfelel:

Egyéni RStudio-t is készítünk a SageMaker lemezképre, így győződjön meg arról, hogy fut a Docker és minden szükséges engedély. További információkért lásd: Egyéni képfájl használatával hozhatja be saját fejlesztői környezetét az Amazon SageMaker RStudiójába.

Hozzon létre erőforrásokat az AWS CloudFormation segítségével

Használunk egy AWS felhőképződés verem a szükséges infrastruktúra létrehozásához.

Ha már rendelkezik RStudio-domainnel és meglévő EMR-fürttel, akkor kihagyhatja ezt a lépést, és elkezdheti az egyéni RStudio felépítését a SageMaker-képen. Helyettesítse az EMR-fürt és az RStudio-tartomány információit az ebben a szakaszban létrehozott EMR-fürt és RStudio-tartomány helyére.

A verem elindítása a következő erőforrásokat hozza létre:

  • Két privát alhálózat
  • EMR Spark klaszter
  • AWS ragasztó adatbázis és táblázatok
  • SageMaker domain az RStudióval
  • SageMaker RStudio felhasználói profil
  • IAM szolgáltatási szerepkör a SageMaker RStudio tartományhoz
  • IAM szolgáltatási szerepkör a SageMaker RStudio felhasználói profilhoz

Az erőforrások létrehozásához hajtsa végre a következő lépéseket:

A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Indítsa el a Stack alkalmazást a verem létrehozásához.

Csatlakoztassa az Amazon EMR-t és az RStudio-t az Amazon SageMaker PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

  1. A Verem létrehozása oldalon válassza a lehetőséget Következő.
  2. A Adja meg a verem részleteit oldalon, adjon nevet a veremnek, és hagyja a többi beállítást alapértelmezettként, majd válassza ki Következő.
  3. A Állítsa be a verembeállításokat oldalon hagyja a beállításokat alapértelmezettként, és válassza ki Következő.
  4. A Ellenőrző oldalválassza
  5. Tudomásul veszem, hogy az AWS CloudFormation létrehozhat IAM-erőforrásokat egyéni névvel és a
  6. Tudomásul veszem, hogy az AWS CloudFormation a következő képességeket igényelheti: CAPABILITY_AUTO_EXPAND.
  7. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Verem létrehozása.

Csatlakoztassa az Amazon EMR-t és az RStudio-t az Amazon SageMaker PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

A sablon öt köteget generál.

Csatlakoztassa az Amazon EMR-t és az RStudio-t az Amazon SageMaker PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

A létrehozott EMR Spark-fürt megtekintéséhez lépjen az Amazon EMR konzolra. Látni fog egy, az Ön számára létrehozott klasztert sagemaker. Ez az a fürt, amelyhez a SageMaker RStudióján keresztül csatlakozunk.

Csatlakoztassa az Amazon EMR-t és az RStudio-t az Amazon SageMaker PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Építsd meg az egyéni RStudiót a SageMaker képen

Létrehoztunk egy egyéni képet, amely telepíti a sparklyr összes függőségét, és kapcsolatot létesít az általunk létrehozott EMR-fürttel.

Ha saját EMR-fürtöt és RStudio-tartományt használ, ennek megfelelően módosítsa a szkripteket.

Győződjön meg arról, hogy a Docker fut. Kezdje azzal, hogy belép a projekttárunkba:

cd sagemaker-rstudio-emr/sparklyr-image
./build-r-image.sh

Most elkészítjük a Docker-képet, és regisztráljuk a SageMaker tartomány RStudiójába.

  1. A SageMaker konzolon válassza a lehetőséget Domains a navigációs ablaktáblában.
  2. Válassza ki a domaint select rstudio-domain.
  3. A Környezet lapot választani Kép csatolása.
    Csatlakoztassa az Amazon EMR-t és az RStudio-t az Amazon SageMaker PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
    Most csatoljuk a korábban létrehozott sparklyr képet a tartományhoz.
  4. A Válassza ki a kép forrásátválassza Meglévő kép.
  5. Válassza ki az általunk készített csillogó képet.
    Csatlakoztassa az Amazon EMR-t és az RStudio-t az Amazon SageMaker PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
  6. A Kép tulajdonságai, hagyja a beállításokat alapértelmezettként.
  7. A Kép típusaválassza RStudio kép.
  8. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Küld.
    Csatlakoztassa az Amazon EMR-t és az RStudio-t az Amazon SageMaker PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
    Ellenőrizze, hogy a kép hozzá lett adva a domainhez. Eltarthat néhány percig, amíg a kép teljesen felcsatolódik.
    Csatlakoztassa az Amazon EMR-t és az RStudio-t az Amazon SageMaker PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
  9. Ha elérhető, jelentkezzen be az RStudioba a SageMaker konzolon a rstudio-user létrehozott profilt.
  10. Innentől kezdve hozzon létre egy munkamenetet a korábban létrehozott csillogó képpel.
    Csatlakoztassa az Amazon EMR-t és az RStudio-t az Amazon SageMaker PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
    Először is csatlakoznunk kell az EMR-fürthöz.
  11. A kapcsolatok ablaktáblában válassza a lehetőséget Új kapcsolat.
  12. Válassza ki az EMR-fürt csatlakozási kódrészletet, és válassza ki Csatlakozzon az Amazon EMR Clusterhez.
    Csatlakoztassa az Amazon EMR-t és az RStudio-t az Amazon SageMaker PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
    A csatlakozási kód lefutása után Spark-kapcsolatot fog látni a Livy-n keresztül, de táblázatokat nem.
    Csatlakoztassa az Amazon EMR-t és az RStudio-t az Amazon SageMaker PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
  13. Módosítsa az adatbázist erre credit_card:
    tbl_change_db(sc, “credit_card”)
  14. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Kapcsolati adatok frissítése.
    Most már láthatja a táblázatokat.
    Csatlakoztassa az Amazon EMR-t és az RStudio-t az Amazon SageMaker PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
  15. Most navigáljon a rstudio-sparklyr-code-walkthrough.md fájlt.

Ez tartalmaz egy sor Spark-transzformációt, amelyet felhasználhatunk hitelkártya-adatkészletünkön, hogy előkészítsük a modellezéshez. A következő kód egy kivonat:

Nézzük count() hány tranzakció van a tranzakciós táblában. De először gyorsítótárba kell helyeznünk a Use the tbl() funkciót.

users_tbl <- tbl(sc, "users")
cards_tbl <- tbl(sc, "cards")
transactions_tbl <- tbl(sc, "transactions")

Számoljuk meg az egyes táblák sorainak számát.

count(users_tbl)
count(cards_tbl)
count(transactions_tbl)

Most regisztráljuk a tábláinkat Spark Data Frame-ként, és húzzuk be őket a fürtszintű memória-gyorsítótárba a jobb teljesítmény érdekében. Szűrjük az egyes táblázatok első sorába kerülő fejlécet is.

users_tbl <- tbl(sc, 'users') %>% filter(gender != 'Gender')
sdf_register(users_tbl, "users_spark")
tbl_cache(sc, 'users_spark')
users_sdf <- tbl(sc, 'users_spark') cards_tbl <- tbl(sc, 'cards') %>% filter(expire_date != 'Expires')
sdf_register(cards_tbl, "cards_spark")
tbl_cache(sc, 'cards_spark')
cards_sdf <- tbl(sc, 'cards_spark') transactions_tbl <- tbl(sc, 'transactions') %>% filter(amount != 'Amount')
sdf_register(transactions_tbl, "transactions_spark")
tbl_cache(sc, 'transactions_spark')
transactions_sdf <- tbl(sc, 'transactions_spark')

A parancsok teljes listájának megtekintéséhez tekintse meg a rstudio-sparklyr-code-walkthrough.md fájlt.

Tisztítsuk meg

Az erőforrások megtisztításához, hogy elkerülje az ismétlődő költségeket, törölje a root CloudFormation sablont. Az összes törlése is Amazon Elastic File Service (Amazon EFS) mounts létrehozott és bármilyen Amazon egyszerű tárolási szolgáltatás (Amazon S3) vödrök és objektumok létrehozva.

Következtetés

A SageMaker RStudio és az Amazon EMR integrálása hatékony megoldást kínál a felhőben végzett adatelemzési és modellezési feladatokhoz. Ha csatlakoztatja az RStudiót a SageMakeren, és létrehozza a Livy-kapcsolatot a Spark on EMR-rel, mindkét platform számítási erőforrásait kihasználhatja a nagy adatkészletek hatékony feldolgozásához. Az RStudio, az egyik legszélesebb körben használt IDE az adatelemzéshez, lehetővé teszi a SageMaker teljes körűen felügyelt infrastruktúrájának, hozzáférés-vezérlési, hálózati és biztonsági képességeinek kihasználását. Eközben az Amazon EMR Spark-hoz való Livy-kapcsolat lehetőséget biztosít az adatfeldolgozási feladatok elosztott feldolgozására és méretezésére.

Ha többet szeretne megtudni ezen eszközök együttes használatáról, ez a bejegyzés kiindulópontként szolgál. További információkért lásd: RStudio az Amazon SageMakeren. Ha bármilyen javaslata vagy fejlesztése van a funkciókkal kapcsolatban, kérjük, hozzon létre lehívási kérelmet a GitHub-tárhelyünkön, vagy írjon megjegyzést ehhez a bejegyzéshez!


A szerzőkről

Csatlakoztassa az Amazon EMR-t és az RStudio-t az Amazon SageMaker PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Ryan Garner az AWS Professional Services adattudós. Szenvedélyesen segíti az AWS ügyfeleit az R használatában adattudományi és gépi tanulási problémáik megoldásában.


Csatlakoztassa az Amazon EMR-t és az RStudio-t az Amazon SageMaker PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
Raj Pathak
 vezető megoldástervező és technológus, aki a pénzügyi szolgáltatásokra (biztosítás, banki szolgáltatások, tőkepiacok) és a gépi tanulásra szakosodott. Szakterülete a Natural Language Processing (NLP), a Large Language Models (LLM) és a Machine Learning infrastruktúra és műveleti projektek (MLOps).


Csatlakoztassa az Amazon EMR-t és az RStudio-t az Amazon SageMaker PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.Saiteja Pudi
 az AWS megoldások építésze, székhelye Dallas, Tx. Már több mint 3 éve dolgozik az AWS-nél, és segít az ügyfeleknek az AWS-ben rejlő valódi lehetőségek kiaknázásában azáltal, hogy megbízható tanácsadójuk. Alkalmazásfejlesztői háttérből származik, érdeklődik az adattudomány és a gépi tanulás iránt.

Időbélyeg:

Még több AWS gépi tanulás