RStudio op Amazon SageMaker is de eerste volledig beheerde RStudio Workbench geïntegreerde ontwikkelomgeving (IDE) in de cloud. U kunt snel de bekende RStudio IDE starten en de onderliggende rekenresources op- en afbellen zonder uw werk te onderbreken, waardoor het eenvoudig wordt om machine learning (ML) en analyseoplossingen in R op schaal te bouwen.
In combinatie met tools zoals RStudio op SageMaker analyseren, transformeren en bereiden gebruikers grote hoeveelheden gegevens voor als onderdeel van de datawetenschap en ML-workflow. Datawetenschappers en data-engineers gebruiken Apache Spark, Hive en Presto Amazon EMR voor grootschalige gegevensverwerking. Door RStudio op SageMaker en Amazon EMR samen te gebruiken, kunt u de RStudio IDE blijven gebruiken voor analyse en ontwikkeling, terwijl u door Amazon EMR beheerde clusters gebruikt voor grotere gegevensverwerking.
In dit bericht laten we zien hoe u uw RStudio op SageMaker-domein kunt verbinden met een EMR-cluster.
Overzicht oplossingen
We gebruiken een Apache Livius verbinding om een in te dienen sprankelend taak van RStudio op SageMaker naar een EMR-cluster. Dit wordt gedemonstreerd in het volgende schema.
Alle code die in de post wordt gedemonstreerd, is beschikbaar in onze GitHub-repository. We implementeren de volgende oplossingsarchitectuur.
Voorwaarden
Voordat u bronnen inzet, moet u ervoor zorgen dat u over alle vereisten beschikt voor het instellen en gebruiken van RStudio op SageMaker en Amazon EMR:
We bouwen ook een aangepaste RStudio op SageMaker-image, dus zorg ervoor dat Docker actief is en alle vereiste machtigingen heeft. Voor meer informatie, zie Gebruik een aangepaste afbeelding om uw eigen ontwikkelomgeving naar RStudio op Amazon SageMaker te brengen.
Creëer resources met AWS CloudFormation
We gebruiken een AWS CloudFormatie stack om de vereiste infrastructuur te genereren.
Als u al een RStudio-domein en een bestaand EMR-cluster heeft, kunt u deze stap overslaan en beginnen met het bouwen van uw aangepaste RStudio op SageMaker-image. Vervang de informatie van uw EMR-cluster en RStudio-domein in plaats van de EMR-cluster en RStudio-domein die in deze sectie zijn gemaakt.
Door deze stapel te starten, worden de volgende bronnen gemaakt:
- Twee privé-subnetten
- EMR Spark-cluster
- AWS lijm database en tabellen
- SageMaker-domein met RStudio
- SageMaker RStudio-gebruikersprofiel
- IAM-servicerol voor het SageMaker RStudio-domein
- IAM-servicerol voor het gebruikersprofiel van SageMaker RStudio
Voer de volgende stappen uit om uw bronnen te maken:
Kies Start Stack om de stapel te maken.
- Op de Maak een stapel pagina, kies Volgende.
- Op de Geef stapeldetails op pagina, geef een naam op voor uw stapel en laat de resterende opties als standaard staan, en kies vervolgens Volgende.
- Op de Configureer stapelopties pagina, laat de opties op standaard staan en kies Volgende.
- Op de Beoordelingspaginaselecteer
- Ik erken dat AWS CloudFormation IAM-bronnen met aangepaste namen kan maken en
- Ik erken dat AWS CloudFormation mogelijk de volgende mogelijkheid vereist: CAPABILITY_AUTO_EXPAND.
- Kies Maak een stapel.
De sjabloon genereert vijf stapels.
Navigeer naar de Amazon EMR-console om het EMR Spark-cluster te zien dat is gemaakt. U ziet een cluster die voor u is gemaakt sagemaker
. Dit is het cluster waarmee we verbinding maken via RStudio op SageMaker.
Bouw de aangepaste RStudio op SageMaker-image
We hebben een aangepaste afbeelding gemaakt die alle afhankelijkheden van sparklyr installeert en een verbinding tot stand brengt met het EMR-cluster dat we hebben gemaakt.
Als u uw eigen EMR-cluster en RStudio-domein gebruikt, past u de scripts dienovereenkomstig aan.
Zorg ervoor dat Docker actief is. Begin door in onze projectrepository te gaan:
We gaan nu de Docker-image bouwen en registreren bij ons RStudio op SageMaker-domein.
- Kies op de SageMaker-console domeinen in het navigatievenster.
- Kies het domein
select rstudio-domain
. - Op de Milieu tabblad, kies Voeg afbeelding toe.
Nu koppelen we de sparklyr-afbeelding die we eerder hebben gemaakt aan het domein. - Voor Kies afbeeldingsbronselecteer Bestaande afbeelding.
- Selecteer de sparklyr-afbeelding die we hebben gemaakt.
- Voor Afbeeldingseigenschappen, laat de opties standaard staan.
- Voor Beeldtypeselecteer RStudio-afbeelding.
- Kies Verzenden.
Bevestig dat de afbeelding is toegevoegd aan het domein. Het kan enkele minuten duren voordat de afbeelding volledig is gehecht. - Wanneer het beschikbaar is, meldt u zich aan bij de RStudio op SageMaker-console met behulp van de
rstudio-user
profiel dat is gemaakt. - Maak vanaf hier een sessie met de sparklyr-afbeelding die we eerder hebben gemaakt.
Eerst moeten we verbinding maken met ons EMR-cluster. - Kies in het verbindingenvenster Nieuwe verbinding.
- Selecteer het EMR-clusterverbindingscodefragment en kies Maak verbinding met Amazon EMR Cluster.
Nadat de verbindingscode is uitgevoerd, ziet u een Spark-verbinding via Livy, maar geen tabellen. - Wijzig de database in
credit_card
:tbl_change_db(sc, “credit_card”)
- Kies Verbindingsgegevens vernieuwen.
Je kunt nu de tabellen zien. - Navigeer nu naar de
rstudio-sparklyr-code-walkthrough.md
bestand.
Dit heeft een reeks Spark-transformaties die we kunnen gebruiken in onze creditcardgegevensset om deze voor te bereiden op modellering. De volgende code is een uittreksel:
laten count()
hoeveel transacties er in de transactietabel staan. Maar eerst moeten we cache Gebruik de tbl()
functie.
Laten we het aantal rijen voor elke tabel tellen.
Laten we nu onze tabellen registreren als Spark Data Frames en ze naar de clusterbrede geheugencache trekken voor betere prestaties. We filteren ook de koptekst die voor elke tabel in de eerste rij wordt geplaatst.
Om de volledige lijst met commando's te zien, raadpleeg de rstudio-sparklyr-code-walkthrough.md
bestand.
Opruimen
Verwijder de root CloudFormation-sjabloon om resources op te schonen om terugkerende kosten te voorkomen. Verwijder ook alles Amazon Elastic-bestandsservice (Amazon EFS) mounts gemaakt en eventuele Amazon eenvoudige opslagservice (Amazon S3) emmers en objecten gemaakt.
Conclusie
De integratie van RStudio op SageMaker met Amazon EMR biedt een krachtige oplossing voor data-analyse en modelleringstaken in de cloud. Door RStudio op SageMaker aan te sluiten en een Livy-verbinding tot stand te brengen met Spark op EMR, kunt u profiteren van de computerresources van beide platforms voor efficiënte verwerking van grote datasets. Met RStudio, een van de meest gebruikte IDE's voor gegevensanalyse, kunt u profiteren van de volledig beheerde infrastructuur, toegangscontrole, netwerk- en beveiligingsmogelijkheden van SageMaker. Ondertussen biedt de Livy-verbinding met Spark op Amazon EMR een manier om gedistribueerde verwerking en schaalvergroting van gegevensverwerkingstaken uit te voeren.
Als je meer wilt weten over het samen gebruiken van deze tools, dient dit bericht als startpunt. Voor meer informatie, zie RStudio op Amazon SageMaker. Als je suggesties of functieverbeteringen hebt, maak dan een pull-verzoek aan op onze GitHub-repo of laat een reactie achter op dit bericht!
Over de auteurs
Ryan Garner is een datawetenschapper bij AWS Professional Services. Hij is gepassioneerd om AWS-klanten te helpen R te gebruiken om hun Data Science- en Machine Learning-problemen op te lossen.
Raj Pathak is een Senior Solutions Architect en technoloog, gespecialiseerd in financiële diensten (verzekeringen, banken, kapitaalmarkten) en machine learning. Hij is gespecialiseerd in Natural Language Processing (NLP), Large Language Models (LLM) en Machine Learning Infrastructure and Operations Projects (MLOps).
Saiteja Pudi is een Solutions Architect bij AWS, gevestigd in Dallas, Tx. Hij werkt nu al meer dan 3 jaar bij AWS en helpt klanten het ware potentieel van AWS te benutten door hun vertrouwde adviseur te zijn. Hij heeft een achtergrond in applicatieontwikkeling en is geïnteresseerd in datawetenschap en machine learning.
- Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
- Platoblockchain. Web3 Metaverse Intelligentie. Kennis versterkt. Toegang hier.
- De toekomst slaan met Adryenn Ashley. Toegang hier.
- Bron: https://aws.amazon.com/blogs/machine-learning/connect-amazon-emr-and-rstudio-on-amazon-sagemaker/
- : heeft
- :is
- $UP
- 100
- 11
- 20
- 22
- 7
- a
- Over
- toegang
- dienovereenkomstig
- erkennen
- toegevoegd
- Voordeel
- adviseur
- Alles
- toestaat
- al
- ook
- Amazone
- Amazon EMR
- Amazon Sage Maker
- bedragen
- hoeveelheden
- amp
- an
- analyse
- analytics
- het analyseren van
- en
- elke
- apache
- architectuur
- ZIJN
- AS
- At
- hechten
- Beschikbaar
- AWS
- AWS CloudFormatie
- AWS professionele services
- achtergrond
- Bankieren
- gebaseerde
- geweest
- wezen
- Betere
- zowel
- brengen
- bouw
- Gebouw
- bebouwd
- maar
- by
- cache
- Dit betekent dat we onszelf en onze geliefden praktisch vergiftigen.
- CAN
- mogelijkheden
- hoofdstad
- Kapitaalmarkten
- kaart
- Kaarten
- Kies
- Cloud
- TROS
- code
- commentaar
- Berekenen
- computergebruik
- Verbinden
- Wij verbinden
- versterken
- aansluitingen
- troosten
- voortzetten
- onder controle te houden
- Kosten
- en je merk te creëren
- aangemaakt
- creëert
- Credits
- creditkaart
- gewoonte
- Klanten
- Dallas
- gegevens
- gegevensanalyse
- gegevensverwerking
- data science
- data scientist
- Database
- datasets
- Standaard
- tonen
- gedemonstreerd
- het inzetten
- Ontwikkeling
- verdeeld
- havenarbeider
- domein
- beneden
- elk
- Vroeger
- doeltreffend
- Ingenieurs
- verzekeren
- Milieu
- oprichten
- oprichting
- bestaand
- vertrouwd
- Kenmerk
- weinig
- Dien in
- filter
- financieel
- financiële diensten
- Voornaam*
- volgend
- Voor
- oppompen van
- vol
- geheel
- functie
- Geslacht
- voortbrengen
- genereert
- het krijgen van
- GitHub
- Hebben
- he
- het helpen van
- hier
- Bijenkorf
- Hoe
- HTML
- http
- HTTPS
- beeld
- uitvoeren
- verbeteringen
- in
- industrie
- informatie
- Infrastructuur
- installeren
- verzekering
- geïntegreerde
- integratie
- geïnteresseerd
- in
- IT
- Jobomschrijving:
- jpg
- taal
- Groot
- grootschalig
- groter
- lancering
- leren
- Verlof
- als
- Lijst
- LLM
- machine
- machine learning
- maken
- maken
- beheerd
- veel
- Markten
- Mei..
- Ondertussen
- Geheugen
- macht
- minuten
- ML
- MLops
- modellen
- wijzigen
- meer
- meest
- naam
- namen
- Naturel
- Natural Language Processing
- OP DEZE WEBSITE VIND JE
- Navigatie
- Noodzaak
- netwerken
- nlp
- nu
- aantal
- objecten
- of
- on
- EEN
- Operations
- Opties
- or
- onze
- het te bezitten.
- pagina
- brood
- deel
- hartstochtelijk
- Uitvoeren
- prestatie
- permissies
- plaats
- platforms
- Plato
- Plato gegevensintelligentie
- PlatoData
- dan
- punt
- Post
- potentieel
- krachtige
- Voorbereiden
- voorbereiding
- privaat
- problemen
- verwerking
- professioneel
- Profiel
- project
- projecten
- zorgen voor
- biedt
- snel
- terugkerend
- registreren
- resterende
- bewaarplaats
- te vragen
- vereisen
- nodig
- Voorwaarden
- Resources
- Rol
- wortel
- RIJ
- lopen
- lopend
- sagemaker
- SC
- Scale
- scaling
- Wetenschap
- Wetenschapper
- wetenschappers
- omvang
- scripts
- sectie
- veiligheid
- senior
- bedient
- service
- Diensten
- Sessie
- reeks
- het instellen van
- Eenvoudig
- So
- oplossing
- Oplossingen
- OPLOSSEN
- Vonk
- specialiseert
- gespecialiseerd
- stack
- Stacks
- begin
- Start
- Stap voor
- Stappen
- mediaopslag
- voorleggen
- tafel
- Nemen
- taken
- technoloog
- sjabloon
- neem contact
- dat
- De
- de informatie
- hun
- Ze
- Deze
- dit
- Door
- naar
- samen
- tools
- Transacties
- transformaties
- transformeren
- waar
- vertrouwde
- TX
- die ten grondslag liggen
- .
- gebruikt
- Gebruiker
- gebruikers
- gebruik
- was
- Manier..
- we
- en
- wijd
- wil
- Met
- zonder
- Mijn werk
- YAML
- jaar
- You
- Your
- zephyrnet