RStudio auf Amazon SageMaker ist die branchenweit erste vollständig verwaltete integrierte Entwicklungsumgebung (IDE) RStudio Workbench in der Cloud. Sie können die vertraute RStudio-IDE schnell starten und die zugrunde liegenden Rechenressourcen hoch- und herunterwählen, ohne Ihre Arbeit zu unterbrechen, wodurch es einfach wird, Lösungen für maschinelles Lernen (ML) und Analysen in R in großem Maßstab zu erstellen.
In Verbindung mit Tools wie RStudio auf SageMaker analysieren, transformieren und bereiten Benutzer große Datenmengen als Teil des Data Science- und ML-Workflows vor. Data Scientists und Data Engineers verwenden Apache Spark, Hive und Presto, die ausgeführt werden Amazon EMR für umfangreiche Datenverarbeitung. Durch die gemeinsame Verwendung von RStudio auf SageMaker und Amazon EMR können Sie weiterhin die RStudio-IDE für Analysen und Entwicklungen verwenden, während Sie von Amazon EMR verwaltete Cluster für umfangreichere Datenverarbeitung verwenden.
In diesem Beitrag zeigen wir, wie Sie Ihre RStudio-on-SageMaker-Domäne mit einem EMR-Cluster verbinden können.
Lösungsüberblick
Wir verwenden eine Apache Livy Verbindung zu übermitteln a funkelnd Job von RStudio auf SageMaker zu einem EMR-Cluster. Dies wird im folgenden Diagramm demonstriert.
Der gesamte in der Post gezeigte Code ist in unserem verfügbar GitHub-Repository. Wir implementieren die folgende Lösungsarchitektur.
Voraussetzungen:
Stellen Sie vor dem Bereitstellen von Ressourcen sicher, dass Sie alle Anforderungen zum Einrichten und Verwenden von RStudio auf SageMaker und Amazon EMR erfüllen:
Wir erstellen auch ein benutzerdefiniertes RStudio-on-SageMaker-Image, stellen Sie also sicher, dass Docker ausgeführt wird und alle erforderlichen Berechtigungen vorhanden sind. Weitere Informationen finden Sie unter Verwenden Sie ein benutzerdefiniertes Image, um Ihre eigene Entwicklungsumgebung zu RStudio auf Amazon SageMaker zu bringen.
Erstellen Sie Ressourcen mit AWS CloudFormation
Wir verwenden eine AWS CloudFormation Stack, um die erforderliche Infrastruktur zu generieren.
Wenn Sie bereits über eine RStudio-Domäne und einen vorhandenen EMR-Cluster verfügen, können Sie diesen Schritt überspringen und mit der Erstellung Ihres benutzerdefinierten RStudio-Image auf SageMaker beginnen. Ersetzen Sie die Informationen Ihres EMR-Clusters und Ihrer RStudio-Domäne anstelle des EMR-Clusters und der RStudio-Domäne, die in diesem Abschnitt erstellt wurden.
Durch das Starten dieses Stapels werden die folgenden Ressourcen erstellt:
- Zwei private Subnetze
- EMR-Spark-Cluster
- AWS-Kleber Datenbank und Tabellen
- SageMaker-Domäne mit RStudio
- SageMaker RStudio-Benutzerprofil
- IAM-Dienstrolle für die SageMaker RStudio-Domäne
- IAM-Dienstrolle für das Benutzerprofil SageMaker RStudio
Führen Sie die folgenden Schritte aus, um Ihre Ressourcen zu erstellen:
Auswählen Stack starten um den Stapel zu erstellen.
- Auf dem Stapel erstellen Seite wählen Weiter.
- Auf dem Geben Sie die Stapeldetails an Seite, geben Sie einen Namen für Ihren Stack ein und belassen Sie die verbleibenden Optionen als Standard. Wählen Sie dann aus Weiter.
- Auf dem Konfigurieren Sie die Stapeloptionen Seite, belassen Sie die Optionen als Standard und wählen Sie Weiter.
- Auf dem BewertungsseiteWählen
- Ich erkenne an, dass AWS CloudFormation möglicherweise IAM-Ressourcen mit benutzerdefinierten Namen erstellt und
- Ich erkenne an, dass AWS CloudFormation möglicherweise die folgenden Funktionen erfordert: CAPABILITY_AUTO_EXPAND.
- Auswählen Stapel erstellen.
Die Vorlage generiert fünf Stapel.
Um den erstellten EMR Spark-Cluster anzuzeigen, navigieren Sie zur Amazon EMR-Konsole. Sie sehen einen für Sie erstellten Cluster mit dem Namen sagemaker
. Dies ist der Cluster, mit dem wir uns über RStudio auf SageMaker verbinden.
Erstellen Sie das benutzerdefinierte RStudio on SageMaker-Image
Wir haben ein benutzerdefiniertes Image erstellt, das alle Abhängigkeiten von Sparklyr installiert und eine Verbindung zu dem von uns erstellten EMR-Cluster herstellt.
Wenn Sie Ihren eigenen EMR-Cluster und Ihre eigene RStudio-Domäne verwenden, ändern Sie die Skripts entsprechend.
Stellen Sie sicher, dass Docker ausgeführt wird. Beginnen Sie damit, in unser Projekt-Repository zu gelangen:
Wir werden jetzt das Docker-Image erstellen und es in unserer RStudio-on-SageMaker-Domäne registrieren.
- Wählen Sie in der SageMaker-Konsole Domains im Navigationsbereich.
- Wählen Sie die Domäne
select rstudio-domain
. - Auf dem Arbeitsumfeld Tab, wählen Sie Bild anhängen.
Jetzt fügen wir das Sparklyr-Image, das wir zuvor erstellt haben, an die Domain an. - Aussichten für Bildquelle auswählenWählen Vorhandenes Bild.
- Wählen Sie das von uns erstellte Sparklyr-Bild aus.
- Aussichten für Bildeigenschaften, belassen Sie die Optionen als Standard.
- Aussichten für BildtypWählen RStudio-Image.
- Auswählen
Absenden.
Bestätigen Sie, dass das Bild zur Domäne hinzugefügt wurde. Es kann einige Minuten dauern, bis das Bild vollständig angehängt ist. - Wenn es verfügbar ist, melden Sie sich mit der RStudio-Konsole auf der SageMaker-Konsole an
rstudio-user
erstelltes Profil. - Erstellen Sie von hier aus eine Sitzung mit dem Sparklyr-Bild, das wir zuvor erstellt haben.
Zuerst müssen wir uns mit unserem EMR-Cluster verbinden. - Wählen Sie im Verbindungsbereich aus Neue Verbindung.
- Wählen Sie das Verbindungscode-Snippet für den EMR-Cluster aus und wählen Sie aus Stellen Sie eine Verbindung zum Amazon EMR-Cluster her.
Nachdem der Verbindungscode ausgeführt wurde, sehen Sie eine Spark-Verbindung über Livy, aber keine Tabellen. - Ändern Sie die Datenbank in
credit_card
:tbl_change_db(sc, “credit_card”)
- Auswählen
Verbindungsdaten aktualisieren.
Sie können jetzt die Tabellen sehen. - Navigieren Sie nun zum
rstudio-sparklyr-code-walkthrough.md
Datei.
Dies hat eine Reihe von Spark-Transformationen, die wir für unser Kreditkarten-Dataset verwenden können, um es für die Modellierung vorzubereiten. Der folgende Code ist ein Auszug:
Lasst uns count()
wie viele Transaktionen sind in der Transaktionstabelle. Aber zuerst müssen wir Use the zwischenspeichern tbl()
Funktion.
Lassen Sie uns die Anzahl der Zeilen für jede Tabelle zählen.
Lassen Sie uns nun unsere Tabellen als Spark Data Frames registrieren und sie für eine bessere Leistung in den clusterweiten Speichercache ziehen. Wir werden auch die Überschrift filtern, die in der ersten Zeile für jede Tabelle platziert wird.
Die vollständige Liste der Befehle finden Sie unter rstudio-sparklyr-code-walkthrough.md
Datei.
Aufräumen
Löschen Sie die CloudFormation-Stammvorlage, um Ressourcen zu bereinigen und wiederkehrende Kosten zu vermeiden. Auch alle löschen Amazon Elastic File Service (Amazon EFS) erstellte Mounts und alle Amazon Simple Storage-Service (Amazon S3) erstellte Buckets und Objekte.
Zusammenfassung
Die Integration von RStudio auf SageMaker mit Amazon EMR bietet eine leistungsstarke Lösung für Datenanalyse- und Modellierungsaufgaben in der Cloud. Indem Sie RStudio auf SageMaker verbinden und eine Livy-Verbindung zu Spark auf EMR herstellen, können Sie die Rechenressourcen beider Plattformen für die effiziente Verarbeitung großer Datenmengen nutzen. RStudio, eine der am häufigsten verwendeten IDEs für die Datenanalyse, ermöglicht es Ihnen, die Vorteile der vollständig verwalteten Infrastruktur, Zugriffskontrolle, Netzwerk- und Sicherheitsfunktionen von SageMaker zu nutzen. In der Zwischenzeit bietet die Livy-Verbindung zu Spark auf Amazon EMR eine Möglichkeit, eine verteilte Verarbeitung und Skalierung von Datenverarbeitungsaufgaben durchzuführen.
Wenn Sie mehr über die gemeinsame Verwendung dieser Tools erfahren möchten, dient dieser Beitrag als Ausgangspunkt. Weitere Informationen finden Sie unter RStudio auf Amazon SageMaker. Wenn Sie Vorschläge oder Funktionsverbesserungen haben, erstellen Sie bitte eine Pull-Anforderung in unserem GitHub-Repo oder hinterlassen Sie einen Kommentar zu diesem Beitrag!
Über die Autoren
Ryan Garner ist Data Scientist bei AWS Professional Services. Er hilft AWS-Kunden leidenschaftlich gerne dabei, ihre Probleme mit Data Science und maschinellem Lernen mit R zu lösen.
Raj Pathak ist ein Senior Solutions Architect und Technologe, der sich auf Finanzdienstleistungen (Versicherungen, Banken, Kapitalmärkte) und maschinelles Lernen spezialisiert hat. Er ist spezialisiert auf Natural Language Processing (NLP), Large Language Models (LLM) und Machine Learning Infrastructure and Operations Projects (MLOps).
Saiteja Pudi ist Lösungsarchitekt bei AWS mit Sitz in Dallas, Tx. Er ist jetzt seit mehr als 3 Jahren bei AWS und hilft Kunden dabei, das wahre Potenzial von AWS auszuschöpfen, indem er ihr vertrauenswürdiger Berater ist. Er kommt aus der Anwendungsentwicklung und interessiert sich für Data Science und maschinelles Lernen.
- SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
- Platoblockkette. Web3-Metaverse-Intelligenz. Wissen verstärkt. Hier zugreifen.
- Die Zukunft prägen mit Adryenn Ashley. Hier zugreifen.
- Quelle: https://aws.amazon.com/blogs/machine-learning/connect-amazon-emr-and-rstudio-on-amazon-sagemaker/
- :hast
- :Ist
- $UP
- 100
- 11
- 20
- 22
- 7
- a
- Über Uns
- Zugang
- entsprechend
- anerkennen
- hinzugefügt
- Vorteil
- Berater
- Alle
- erlaubt
- bereits
- ebenfalls
- Amazon
- Amazon EMR
- Amazon Sage Maker
- Betrag
- Beträge
- amp
- an
- Analyse
- Analytik
- Analyse
- und
- jedem
- Apache
- Architektur
- SIND
- AS
- At
- anhängen
- verfügbar
- AWS
- AWS CloudFormation
- Professionelle AWS-Services
- Hintergrund
- Bankinggg
- basierend
- war
- Sein
- Besser
- beide
- bringen
- bauen
- Building
- erbaut
- aber
- by
- Cache-Speicher
- namens
- CAN
- Fähigkeiten
- Hauptstadt
- Kapitalmärkte
- Karte
- Karten
- Auswählen
- Cloud
- Cluster
- Code
- Kommentar
- Berechnen
- Computing
- Vernetz Dich
- Sich zusammenschliessen
- Verbindung
- Verbindungen
- Konsul (Console)
- fortsetzen
- Smartgeräte App
- Kosten
- erstellen
- erstellt
- schafft
- Kredit
- Kreditkarte
- Original
- Kunden
- Dallas
- technische Daten
- Datenanalyse
- Datenverarbeitung
- Datenwissenschaft
- Datenwissenschaftler
- Datenbase
- Datensätze
- Standard
- zeigen
- Synergie
- Bereitstellen
- Entwicklung
- verteilt
- Docker
- Domain
- nach unten
- jeder
- Früher
- effizient
- Ingenieure
- gewährleisten
- Arbeitsumfeld
- etablieren
- Festlegung
- vorhandenen
- vertraut
- Merkmal
- wenige
- Reichen Sie das
- Filter
- Revolution
- Finanzdienstleistungen
- Vorname
- Folgende
- Aussichten für
- für
- voller
- voll
- Funktion
- Geschlecht
- erzeugen
- erzeugt
- bekommen
- GitHub
- Haben
- he
- Unternehmen
- hier
- Bienenstock
- Ultraschall
- HTML
- http
- HTTPS
- Image
- implementieren
- Verbesserungen
- in
- Industrie
- Information
- Infrastruktur
- installieren
- Versicherung
- integriert
- Integration
- interessiert
- in
- IT
- Job
- jpg
- Sprache
- grosse
- großflächig
- größer
- starten
- lernen
- Verlassen
- Gefällt mir
- Liste
- LLM
- Maschine
- Maschinelles Lernen
- um
- Making
- verwaltet
- viele
- Märkte
- Kann..
- Mittlerweile
- Memory
- könnte
- Minuten
- ML
- MLOps
- für
- ändern
- mehr
- vor allem warme
- Name
- Namen
- Natürliche
- Verarbeitung natürlicher Sprache
- Navigieren
- Menü
- Need
- Vernetzung
- Nlp
- jetzt an
- Anzahl
- Objekte
- of
- on
- EINEM
- Einkauf & Prozesse
- Optionen
- or
- UNSERE
- besitzen
- Seite
- Brot
- Teil
- leidenschaftlich
- Ausführen
- Leistung
- Berechtigungen
- Ort
- Plattformen
- Plato
- Datenintelligenz von Plato
- PlatoData
- Bitte
- Points
- Post
- Potenzial
- größte treibende
- Danach
- Vorbereitung
- privat
- Probleme
- Verarbeitung
- Professionell
- Profil
- Projekt
- Projekte
- die
- bietet
- schnell
- wiederkehrend
- Registrieren
- verbleibenden
- Quelle
- Anforderung
- erfordern
- falls angefordert
- Voraussetzungen:
- Downloads
- Rollen
- Wurzel
- REIHE
- Führen Sie
- Laufen
- sagemaker
- SC
- Skalieren
- Skalierung
- Wissenschaft
- Wissenschaftler
- Wissenschaftler
- Umfang
- Skripte
- Abschnitt
- Sicherheitdienst
- Senior
- dient
- Lösungen
- Sitzung
- kompensieren
- Einstellung
- Einfacher
- So
- Lösung
- Lösungen
- LÖSEN
- Spark
- spezialisiert
- spezialisieren
- Stapel
- Stacks
- Anfang
- Beginnen Sie
- Schritt
- Shritte
- Lagerung
- abschicken
- Tabelle
- Nehmen
- und Aufgaben
- Technologe
- Vorlage
- als
- zur Verbesserung der Gesundheitsgerechtigkeit
- Das
- die Informationen
- ihr
- Sie
- Diese
- fehlen uns die Worte.
- Durch
- zu
- gemeinsam
- Werkzeuge
- Transaktionen
- Transformationen
- Transformieren
- was immer dies auch sein sollte.
- vertraut
- TX
- zugrunde liegen,
- -
- benutzt
- Mitglied
- Nutzer
- Verwendung von
- wurde
- Weg..
- we
- während
- weit
- werden wir
- mit
- ohne
- Arbeiten
- YAML
- Jahr
- Du
- Ihr
- Zephyrnet