RStudio az Amazon SageMakeren az iparág első teljesen felügyelt RStudio Workbench integrált fejlesztői környezete (IDE) a felhőben. Gyorsan elindíthatja a jól ismert RStudio IDE-t, és fel-le tárcsázhatja a mögöttes számítási erőforrásokat anélkül, hogy megszakítaná a munkáját, így egyszerűvé téve a gépi tanulási (ML) és elemzési megoldások R-ben való méretarányos felépítését.
Az olyan eszközökkel együtt, mint az RStudio a SageMakeren, a felhasználók nagy mennyiségű adatot elemeznek, alakítanak át és készítenek elő az adattudományi és ML munkafolyamat részeként. Az adattudósok és adatmérnökök az Apache Sparkot, a Hive-ot és a Presto-t használják Amazon EMR nagyszabású adatfeldolgozáshoz. A SageMaker RStudio és az Amazon EMR együttes használatával továbbra is használhatja az RStudio IDE-t elemzésre és fejlesztésre, míg az Amazon EMR felügyelt fürtöket nagyobb adatfeldolgozáshoz.
Ebben a bejegyzésben bemutatjuk, hogyan kapcsolhatja össze a SageMaker tartomány RStudióját egy EMR-fürttel.
Megoldás áttekintése
Használunk egy Apache Livy kapcsolat benyújtása a csillogó munkát a SageMaker RStudiójából egy EMR-fürtbe. Ezt a következő diagram szemlélteti.
A bejegyzésben bemutatott összes kód elérhető nálunk GitHub tárház. Az alábbi megoldás architektúrát valósítjuk meg.
Előfeltételek
Mielőtt bármilyen erőforrást telepítene, győződjön meg arról, hogy az RStudio beállításához és használatához a SageMaker és az Amazon EMR rendszeren minden követelménynek megfelel:
Egyéni RStudio-t is készítünk a SageMaker lemezképre, így győződjön meg arról, hogy fut a Docker és minden szükséges engedély. További információkért lásd: Egyéni képfájl használatával hozhatja be saját fejlesztői környezetét az Amazon SageMaker RStudiójába.
Hozzon létre erőforrásokat az AWS CloudFormation segítségével
Használunk egy AWS felhőképződés verem a szükséges infrastruktúra létrehozásához.
Ha már rendelkezik RStudio-domainnel és meglévő EMR-fürttel, akkor kihagyhatja ezt a lépést, és elkezdheti az egyéni RStudio felépítését a SageMaker-képen. Helyettesítse az EMR-fürt és az RStudio-tartomány információit az ebben a szakaszban létrehozott EMR-fürt és RStudio-tartomány helyére.
A verem elindítása a következő erőforrásokat hozza létre:
- Két privát alhálózat
- EMR Spark klaszter
- AWS ragasztó adatbázis és táblázatok
- SageMaker domain az RStudióval
- SageMaker RStudio felhasználói profil
- IAM szolgáltatási szerepkör a SageMaker RStudio tartományhoz
- IAM szolgáltatási szerepkör a SageMaker RStudio felhasználói profilhoz
Az erőforrások létrehozásához hajtsa végre a következő lépéseket:
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Indítsa el a Stack alkalmazást a verem létrehozásához.
- A Verem létrehozása oldalon válassza a lehetőséget Következő.
- A Adja meg a verem részleteit oldalon, adjon nevet a veremnek, és hagyja a többi beállítást alapértelmezettként, majd válassza ki Következő.
- A Állítsa be a verembeállításokat oldalon hagyja a beállításokat alapértelmezettként, és válassza ki Következő.
- A Ellenőrző oldalválassza
- Tudomásul veszem, hogy az AWS CloudFormation létrehozhat IAM-erőforrásokat egyéni névvel és a
- Tudomásul veszem, hogy az AWS CloudFormation a következő képességeket igényelheti: CAPABILITY_AUTO_EXPAND.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Verem létrehozása.
A sablon öt köteget generál.
A létrehozott EMR Spark-fürt megtekintéséhez lépjen az Amazon EMR konzolra. Látni fog egy, az Ön számára létrehozott klasztert sagemaker
. Ez az a fürt, amelyhez a SageMaker RStudióján keresztül csatlakozunk.
Építsd meg az egyéni RStudiót a SageMaker képen
Létrehoztunk egy egyéni képet, amely telepíti a sparklyr összes függőségét, és kapcsolatot létesít az általunk létrehozott EMR-fürttel.
Ha saját EMR-fürtöt és RStudio-tartományt használ, ennek megfelelően módosítsa a szkripteket.
Győződjön meg arról, hogy a Docker fut. Kezdje azzal, hogy belép a projekttárunkba:
Most elkészítjük a Docker-képet, és regisztráljuk a SageMaker tartomány RStudiójába.
- A SageMaker konzolon válassza a lehetőséget Domains a navigációs ablaktáblában.
- Válassza ki a domaint
select rstudio-domain
. - A Környezet lapot választani Kép csatolása.
Most csatoljuk a korábban létrehozott sparklyr képet a tartományhoz. - A Válassza ki a kép forrásátválassza Meglévő kép.
- Válassza ki az általunk készített csillogó képet.
- A Kép tulajdonságai, hagyja a beállításokat alapértelmezettként.
- A Kép típusaválassza RStudio kép.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Küld.
Ellenőrizze, hogy a kép hozzá lett adva a domainhez. Eltarthat néhány percig, amíg a kép teljesen felcsatolódik. - Ha elérhető, jelentkezzen be az RStudioba a SageMaker konzolon a
rstudio-user
létrehozott profilt. - Innentől kezdve hozzon létre egy munkamenetet a korábban létrehozott csillogó képpel.
Először is csatlakoznunk kell az EMR-fürthöz. - A kapcsolatok ablaktáblában válassza a lehetőséget Új kapcsolat.
- Válassza ki az EMR-fürt csatlakozási kódrészletet, és válassza ki Csatlakozzon az Amazon EMR Clusterhez.
A csatlakozási kód lefutása után Spark-kapcsolatot fog látni a Livy-n keresztül, de táblázatokat nem. - Módosítsa az adatbázist erre
credit_card
:tbl_change_db(sc, “credit_card”)
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Kapcsolati adatok frissítése.
Most már láthatja a táblázatokat. - Most navigáljon a
rstudio-sparklyr-code-walkthrough.md
fájlt.
Ez tartalmaz egy sor Spark-transzformációt, amelyet felhasználhatunk hitelkártya-adatkészletünkön, hogy előkészítsük a modellezéshez. A következő kód egy kivonat:
Nézzük count()
hány tranzakció van a tranzakciós táblában. De először gyorsítótárba kell helyeznünk a Use the tbl()
funkciót.
Számoljuk meg az egyes táblák sorainak számát.
Most regisztráljuk a tábláinkat Spark Data Frame-ként, és húzzuk be őket a fürtszintű memória-gyorsítótárba a jobb teljesítmény érdekében. Szűrjük az egyes táblázatok első sorába kerülő fejlécet is.
A parancsok teljes listájának megtekintéséhez tekintse meg a rstudio-sparklyr-code-walkthrough.md
fájlt.
Tisztítsuk meg
Az erőforrások megtisztításához, hogy elkerülje az ismétlődő költségeket, törölje a root CloudFormation sablont. Az összes törlése is Amazon Elastic File Service (Amazon EFS) mounts létrehozott és bármilyen Amazon egyszerű tárolási szolgáltatás (Amazon S3) vödrök és objektumok létrehozva.
Következtetés
A SageMaker RStudio és az Amazon EMR integrálása hatékony megoldást kínál a felhőben végzett adatelemzési és modellezési feladatokhoz. Ha csatlakoztatja az RStudiót a SageMakeren, és létrehozza a Livy-kapcsolatot a Spark on EMR-rel, mindkét platform számítási erőforrásait kihasználhatja a nagy adatkészletek hatékony feldolgozásához. Az RStudio, az egyik legszélesebb körben használt IDE az adatelemzéshez, lehetővé teszi a SageMaker teljes körűen felügyelt infrastruktúrájának, hozzáférés-vezérlési, hálózati és biztonsági képességeinek kihasználását. Eközben az Amazon EMR Spark-hoz való Livy-kapcsolat lehetőséget biztosít az adatfeldolgozási feladatok elosztott feldolgozására és méretezésére.
Ha többet szeretne megtudni ezen eszközök együttes használatáról, ez a bejegyzés kiindulópontként szolgál. További információkért lásd: RStudio az Amazon SageMakeren. Ha bármilyen javaslata vagy fejlesztése van a funkciókkal kapcsolatban, kérjük, hozzon létre lehívási kérelmet a GitHub-tárhelyünkön, vagy írjon megjegyzést ehhez a bejegyzéshez!
A szerzőkről
Ryan Garner az AWS Professional Services adattudós. Szenvedélyesen segíti az AWS ügyfeleit az R használatában adattudományi és gépi tanulási problémáik megoldásában.
Raj Pathak vezető megoldástervező és technológus, aki a pénzügyi szolgáltatásokra (biztosítás, banki szolgáltatások, tőkepiacok) és a gépi tanulásra szakosodott. Szakterülete a Natural Language Processing (NLP), a Large Language Models (LLM) és a Machine Learning infrastruktúra és műveleti projektek (MLOps).
Saiteja Pudi az AWS megoldások építésze, székhelye Dallas, Tx. Már több mint 3 éve dolgozik az AWS-nél, és segít az ügyfeleknek az AWS-ben rejlő valódi lehetőségek kiaknázásában azáltal, hogy megbízható tanácsadójuk. Alkalmazásfejlesztői háttérből származik, érdeklődik az adattudomány és a gépi tanulás iránt.
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- Platoblockchain. Web3 metaverzum intelligencia. Felerősített tudás. Hozzáférés itt.
- A jövő pénzverése – Adryenn Ashley. Hozzáférés itt.
- Forrás: https://aws.amazon.com/blogs/machine-learning/connect-amazon-emr-and-rstudio-on-amazon-sagemaker/
- :van
- :is
- $ UP
- 100
- 11
- 20
- 22
- 7
- a
- Rólunk
- hozzáférés
- Eszerint
- elismerni
- hozzáadott
- Előny
- tanácsadó
- Minden termék
- lehetővé teszi, hogy
- már
- Is
- amazon
- Amazon EMR
- Amazon SageMaker
- összeg
- Összegek
- amp
- an
- elemzés
- analitika
- elemzése
- és a
- bármilyen
- Apache
- építészet
- VANNAK
- AS
- At
- csatolja
- elérhető
- AWS
- AWS felhőképződés
- AWS professzionális szolgáltatások
- háttér
- Banking
- alapján
- óta
- hogy
- Jobb
- mindkét
- hoz
- épít
- Épület
- épült
- de
- by
- Gyorsítótár
- hívott
- TUD
- képességek
- tőke
- Tőkepiacok
- kártya
- Kártyák
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
- felhő
- Fürt
- kód
- megjegyzés
- Kiszámít
- számítástechnika
- Csatlakozás
- Csatlakozó
- kapcsolat
- kapcsolatok
- Konzol
- folytatódik
- ellenőrzés
- kiadások
- teremt
- készítette
- teremt
- hitel
- hitelkártya
- szokás
- Ügyfelek
- Dallas
- dátum
- adatelemzés
- adatfeldolgozás
- adat-tudomány
- adattudós
- adatbázis
- adatkészletek
- alapértelmezett
- bizonyítani
- igazolták
- bevezetéséhez
- Fejlesztés
- megosztott
- Dokkmunkás
- domain
- le-
- minden
- Korábban
- hatékony
- Mérnökök
- biztosítására
- Környezet
- létrehozni
- létrehozó
- létező
- ismerős
- Funkció
- kevés
- filé
- szűrő
- pénzügyi
- pénzügyi szolgáltatások
- vezetéknév
- következő
- A
- ból ből
- Tele
- teljesen
- funkció
- nem
- generál
- generál
- szerzés
- GitHub
- Legyen
- he
- segít
- itt
- Kaptár
- Hogyan
- HTML
- http
- HTTPS
- kép
- végre
- fejlesztések
- in
- az iparé
- információ
- Infrastruktúra
- telepíteni
- biztosítás
- integrált
- integráció
- érdekelt
- bele
- IT
- Munka
- jpg
- nyelv
- nagy
- nagyarányú
- nagyobb
- indít
- tanulás
- Szabadság
- mint
- Lista
- LLM
- gép
- gépi tanulás
- csinál
- Gyártás
- sikerült
- sok
- piacok
- Lehet..
- Közben
- Memory design
- esetleg
- Perc
- ML
- MLOps
- modellek
- módosítása
- több
- a legtöbb
- név
- nevek
- Természetes
- Természetes nyelvi feldolgozás
- Keresse
- Navigáció
- Szükség
- hálózatba
- NLP
- Most
- szám
- objektumok
- of
- on
- ONE
- Művelet
- Opciók
- or
- mi
- saját
- oldal
- üvegtábla
- rész
- szenvedélyes
- Teljesít
- teljesítmény
- engedélyek
- Hely
- Platformok
- Plató
- Platón adatintelligencia
- PlatoData
- kérem
- pont
- állás
- potenciális
- erős
- Készít
- előkészítése
- magán
- problémák
- feldolgozás
- szakmai
- profil
- program
- projektek
- ad
- biztosít
- gyorsan
- ismétlődő
- Regisztráció
- megmaradó
- raktár
- kérni
- szükség
- kötelező
- követelmények
- Tudástár
- Szerep
- gyökér
- SOR
- futás
- futás
- sagemaker
- SC
- Skála
- skálázás
- Tudomány
- Tudós
- tudósok
- hatálya
- szkriptek
- Rész
- biztonság
- idősebb
- szolgálja
- szolgáltatás
- Szolgáltatások
- ülés
- készlet
- beállítás
- Egyszerű
- So
- megoldások
- Megoldások
- SOLVE
- Szikra
- specializálódott
- szakosodott
- verem
- Stacks
- kezdet
- Kezdve
- Lépés
- Lépései
- tárolás
- beküldése
- táblázat
- Vesz
- feladatok
- technológus
- sablon
- mint
- hogy
- A
- az információ
- azok
- Őket
- Ezek
- ezt
- Keresztül
- nak nek
- együtt
- szerszámok
- Tranzakciók
- transzformációk
- transzformáló
- igaz
- Megbízható
- TX
- mögöttes
- használ
- használt
- használó
- Felhasználók
- segítségével
- volt
- Út..
- we
- míg
- széles körben
- lesz
- val vel
- nélkül
- Munka
- yaml
- év
- te
- A te
- zephyrnet