RStudio στο Amazon SageMaker είναι το πρώτο πλήρως διαχειριζόμενο περιβάλλον ανάπτυξης RStudio Workbench (IDE) του κλάδου στο cloud. Μπορείτε να εκκινήσετε γρήγορα το γνωστό RStudio IDE και να καλέσετε πάνω-κάτω τους υποκείμενους υπολογιστικούς πόρους χωρίς να διακόψετε την εργασία σας, καθιστώντας εύκολη τη δημιουργία λύσεων μηχανικής εκμάθησης (ML) και αναλυτικών στοιχείων σε R σε κλίμακα.
Σε συνδυασμό με εργαλεία όπως το RStudio στο SageMaker, οι χρήστες αναλύουν, μετασχηματίζουν και προετοιμάζουν μεγάλες ποσότητες δεδομένων ως μέρος της ροής εργασιών της επιστήμης δεδομένων και της ML. Οι επιστήμονες δεδομένων και οι μηχανικοί δεδομένων χρησιμοποιούν τα Apache Spark, Hive και Presto σε λειτουργία EMR Αμαζονίου για επεξεργασία δεδομένων μεγάλης κλίμακας. Χρησιμοποιώντας το RStudio στο SageMaker και στο Amazon EMR μαζί, μπορείτε να συνεχίσετε να χρησιμοποιείτε το RStudio IDE για ανάλυση και ανάπτυξη, ενώ χρησιμοποιείτε διαχειριζόμενα συμπλέγματα Amazon EMR για μεγαλύτερη επεξεργασία δεδομένων.
Σε αυτήν την ανάρτηση, δείχνουμε πώς μπορείτε να συνδέσετε το RStudio στον τομέα SageMaker με ένα σύμπλεγμα EMR.
Επισκόπηση λύσεων
Χρησιμοποιούμε ένα Απάτσι Λίβι σύνδεση για υποβολή α σπινθηροβόλος εργασία από το RStudio στο SageMaker σε ένα σύμπλεγμα EMR. Αυτό φαίνεται στο παρακάτω διάγραμμα.
Όλος ο κώδικας που παρουσιάζεται στην ανάρτηση είναι διαθέσιμος στο δικό μας Αποθετήριο GitHub. Υλοποιούμε την ακόλουθη αρχιτεκτονική λύσης.
Προϋποθέσεις
Πριν από την ανάπτυξη οποιωνδήποτε πόρων, βεβαιωθείτε ότι έχετε όλες τις απαιτήσεις για τη ρύθμιση και τη χρήση του RStudio στο SageMaker και στο Amazon EMR:
Θα δημιουργήσουμε επίσης ένα προσαρμοσμένο RStudio στην εικόνα του SageMaker, επομένως βεβαιωθείτε ότι έχετε το Docker σε λειτουργία και όλα τα απαιτούμενα δικαιώματα. Για περισσότερες πληροφορίες, ανατρέξτε στο Χρησιμοποιήστε μια προσαρμοσμένη εικόνα για να φέρετε το δικό σας περιβάλλον ανάπτυξης στο RStudio στο Amazon SageMaker.
Δημιουργήστε πόρους με το AWS CloudFormation
Χρησιμοποιούμε ένα AWS CloudFormation στοίβα για τη δημιουργία της απαιτούμενης υποδομής.
Εάν έχετε ήδη έναν τομέα RStudio και ένα υπάρχον σύμπλεγμα EMR, μπορείτε να παραλείψετε αυτό το βήμα και να αρχίσετε να δημιουργείτε το προσαρμοσμένο RStudio σας στην εικόνα SageMaker. Αντικαταστήστε τις πληροφορίες του συμπλέγματος EMR και του τομέα RStudio στη θέση του συμπλέγματος EMR και του τομέα RStudio που δημιουργήθηκαν σε αυτήν την ενότητα.
Η εκκίνηση αυτής της στοίβας δημιουργεί τους ακόλουθους πόρους:
- Δύο ιδιωτικά υποδίκτυα
- EMR Spark cluster
- Κόλλα AWS βάση δεδομένων και πίνακες
- Τομέας SageMaker με RStudio
- Προφίλ χρήστη SageMaker RStudio
- Ρόλος υπηρεσίας IAM για τον τομέα SageMaker RStudio
- Ρόλος υπηρεσίας IAM για το προφίλ χρήστη SageMaker RStudio
Ολοκληρώστε τα παρακάτω βήματα για να δημιουργήσετε τους πόρους σας:
Επιλέξτε Εκκίνηση στοίβας για να δημιουργήσετε τη στοίβα.
- Στις Δημιουργία στοίβας σελίδα, επιλέξτε Επόμενο.
- Στις Καθορίστε λεπτομέρειες στοίβας σελίδα, δώστε ένα όνομα για τη στοίβα σας και αφήστε τις υπόλοιπες επιλογές ως προεπιλογές και, στη συνέχεια, επιλέξτε Επόμενο.
- Στις Διαμόρφωση επιλογών στοίβας σελίδα, αφήστε τις επιλογές ως προεπιλογές και επιλέξτε Επόμενο.
- Στις Σελίδα αναθεώρησης, Επιλέξτε
- Αναγνωρίζω ότι το AWS CloudFormation μπορεί να δημιουργήσει πόρους IAM με προσαρμοσμένα ονόματα και
- Αναγνωρίζω ότι το AWS CloudFormation ενδέχεται να απαιτεί την ακόλουθη δυνατότητα: CAPABILITY_AUTO_EXPAND.
- Επιλέξτε Δημιουργία στοίβας.
Το πρότυπο δημιουργεί πέντε στοίβες.
Για να δείτε το σύμπλεγμα EMR Spark που δημιουργήθηκε, μεταβείτε στην κονσόλα Amazon EMR. Θα δείτε ένα σύμπλεγμα που δημιουργήθηκε για εσάς που ονομάζεται sagemaker
. Αυτό είναι το σύμπλεγμα στο οποίο συνδεόμαστε μέσω του RStudio στο SageMaker.
Δημιουργήστε το προσαρμοσμένο RStudio στην εικόνα του SageMaker
Έχουμε δημιουργήσει μια προσαρμοσμένη εικόνα που θα εγκαταστήσει όλες τις εξαρτήσεις του sparklyr και θα δημιουργήσει μια σύνδεση με το σύμπλεγμα EMR που δημιουργήσαμε.
Εάν χρησιμοποιείτε το δικό σας σύμπλεγμα EMR και τομέα RStudio, τροποποιήστε τα σενάρια ανάλογα.
Βεβαιωθείτε ότι το Docker εκτελείται. Ξεκινήστε μπαίνοντας στο αποθετήριο του έργου μας:
Τώρα θα δημιουργήσουμε την εικόνα Docker και θα την καταχωρήσουμε στο RStudio μας στον τομέα SageMaker.
- Στην κονσόλα SageMaker, επιλέξτε Domains στο παράθυρο πλοήγησης.
- Επιλέξτε τον τομέα
select rstudio-domain
. - Στις Περιβάλλον καρτέλα, επιλέξτε Επισύναψη εικόνας.
Τώρα επισυνάπτουμε την εικόνα sparklyr που δημιουργήσαμε νωρίτερα στον τομέα. - Για Επιλέξτε πηγή εικόνας, Επιλέξτε Υπάρχουσα εικόνα.
- Επιλέξτε την εικόνα sparklyr που δημιουργήσαμε.
- Για Ιδιότητες εικόνας, αφήστε τις επιλογές ως προεπιλογές.
- Για Τύπος εικόνας, Επιλέξτε Εικόνα RStudio.
- Επιλέξτε Υποβολη.
Επικυρώστε ότι η εικόνα έχει προστεθεί στον τομέα. Μπορεί να χρειαστούν μερικά λεπτά για να επισυναφθεί πλήρως η εικόνα. - Όταν είναι διαθέσιμο, συνδεθείτε στο RStudio στην κονσόλα SageMaker χρησιμοποιώντας το
rstudio-user
προφίλ που δημιουργήθηκε. - Από εδώ, δημιουργήστε μια περίοδο λειτουργίας με την εικόνα sparklyr που δημιουργήσαμε νωρίτερα.
Πρώτα, πρέπει να συνδεθούμε στο σύμπλεγμα EMR μας. - Στο παράθυρο συνδέσεων, επιλέξτε Νέα σύνδεση.
- Επιλέξτε το απόσπασμα κώδικα σύνδεσης συμπλέγματος EMR και επιλέξτε Συνδεθείτε στο Amazon EMR Cluster.
Αφού εκτελεστεί ο κωδικός σύνδεσης, θα δείτε μια σύνδεση Spark μέσω του Livy, αλλά όχι πίνακες. - Αλλάξτε τη βάση δεδομένων σε
credit_card
:tbl_change_db(sc, “credit_card”)
- Επιλέξτε Ανανέωση δεδομένων σύνδεσης.
Τώρα μπορείτε να δείτε τους πίνακες. - Τώρα πλοηγηθείτε στο
rstudio-sparklyr-code-walkthrough.md
αρχείο.
Αυτό έχει ένα σύνολο μετασχηματισμών Spark που μπορούμε να χρησιμοποιήσουμε στο σύνολο δεδομένων της πιστωτικής μας κάρτας για να το προετοιμάσουμε για μοντελοποίηση. Ο παρακάτω κώδικας είναι ένα απόσπασμα:
Ας count()
πόσες συναλλαγές υπάρχουν στον πίνακα συναλλαγών. Αλλά πρώτα πρέπει να αποθηκεύσουμε προσωρινά τη χρήση του tbl()
λειτουργία.
Ας εκτελέσουμε μια καταμέτρηση του αριθμού των σειρών για κάθε πίνακα.
Τώρα ας καταχωρήσουμε τους πίνακές μας ως Spark Data Frames και ας τους τραβήξουμε στη μνήμη cache σε όλο το σύμπλεγμα για καλύτερη απόδοση. Θα φιλτράρουμε επίσης την κεφαλίδα που τοποθετείται στην πρώτη σειρά για κάθε πίνακα.
Για να δείτε την πλήρη λίστα των εντολών, ανατρέξτε στο rstudio-sparklyr-code-walkthrough.md
αρχείο.
εκκαθάριση
Για να καθαρίσετε τυχόν πόρους για να αποφύγετε επαναλαμβανόμενα κόστη, διαγράψτε το ριζικό πρότυπο CloudFormation. Διαγράψτε επίσης όλα Amazon Elastic File Service Δημιουργήθηκαν βάσεις (Amazon EFS) και οποιαδήποτε Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) κάδοι και αντικείμενα που δημιουργήθηκαν.
Συμπέρασμα
Η ενσωμάτωση του RStudio στο SageMaker με το Amazon EMR παρέχει μια ισχυρή λύση για εργασίες ανάλυσης δεδομένων και μοντελοποίησης στο cloud. Συνδέοντας το RStudio στο SageMaker και δημιουργώντας μια σύνδεση Livy με το Spark στο EMR, μπορείτε να επωφεληθείτε από τους υπολογιστικούς πόρους και των δύο πλατφορμών για αποτελεσματική επεξεργασία μεγάλων συνόλων δεδομένων. Το RStudio, ένα από τα πιο ευρέως χρησιμοποιούμενα IDE για ανάλυση δεδομένων, σας επιτρέπει να επωφεληθείτε από τις πλήρως διαχειριζόμενες δυνατότητες υποδομής, ελέγχου πρόσβασης, δικτύωσης και ασφάλειας του SageMaker. Εν τω μεταξύ, η σύνδεση Livy με το Spark στο Amazon EMR παρέχει έναν τρόπο εκτέλεσης κατανεμημένης επεξεργασίας και κλιμάκωσης των εργασιών επεξεργασίας δεδομένων.
Εάν ενδιαφέρεστε να μάθετε περισσότερα σχετικά με τη χρήση αυτών των εργαλείων μαζί, αυτή η ανάρτηση χρησιμεύει ως σημείο εκκίνησης. Για περισσότερες πληροφορίες, ανατρέξτε στο RStudio στο Amazon SageMaker. Εάν έχετε οποιεσδήποτε προτάσεις ή βελτιώσεις λειτουργιών, δημιουργήστε ένα αίτημα έλξης στο αποθετήριο GitHub ή αφήστε ένα σχόλιο σε αυτήν την ανάρτηση!
Σχετικά με τους Συγγραφείς
Ράιαν Γκάρνερ είναι Επιστήμονας Δεδομένων με AWS Professional Services. Είναι παθιασμένος να βοηθά τους πελάτες του AWS να χρησιμοποιούν το R για να λύσουν τα προβλήματα Επιστήμης Δεδομένων και Μηχανικής Μάθησης.
Raj Pathak είναι Senior Solutions Architect και Τεχνολόγος με ειδίκευση στις Χρηματοοικονομικές Υπηρεσίες (Ασφάλειες, Τραπεζικές, Κεφαλαιαγορές) και Machine Learning. Ειδικεύεται στην Επεξεργασία Φυσικής Γλώσσας (NLP), στα Μεγάλα Μοντέλα Γλωσσών (LLM) και σε έργα υποδομής και λειτουργιών Μηχανικής Μάθησης (MLOps).
Saiteja Pudi είναι αρχιτέκτονας λύσεων στην AWS, με έδρα το Ντάλας, Τέξας. Βρίσκεται στην AWS για περισσότερα από 3 χρόνια τώρα, βοηθώντας τους πελάτες να αντλήσουν τις πραγματικές δυνατότητες του AWS όντας ο έμπιστος σύμβουλός τους. Προέρχεται από ένα υπόβαθρο ανάπτυξης εφαρμογών, που ενδιαφέρεται για την Επιστήμη των Δεδομένων και τη Μηχανική Μάθηση.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- Platoblockchain. Web3 Metaverse Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- Minting the Future με την Adryenn Ashley. Πρόσβαση εδώ.
- πηγή: https://aws.amazon.com/blogs/machine-learning/connect-amazon-emr-and-rstudio-on-amazon-sagemaker/
- :έχει
- :είναι
- $UP
- 100
- 11
- 20
- 22
- 7
- a
- Σχετικα
- πρόσβαση
- αναλόγως
- αναγνωρίζω
- προστιθέμενη
- Πλεονέκτημα
- σύμβουλος
- Όλα
- επιτρέπει
- ήδη
- Επίσης
- Amazon
- EMR Αμαζονίου
- Amazon Sage Maker
- ποσό
- Ποσά
- amp
- an
- ανάλυση
- analytics
- αναλύοντας
- και
- κάθε
- Apache
- αρχιτεκτονική
- ΕΙΝΑΙ
- AS
- At
- αποδίδουν
- διαθέσιμος
- AWS
- AWS CloudFormation
- Επαγγελματικές υπηρεσίες AWS
- φόντο
- Τράπεζες
- βασίζονται
- ήταν
- είναι
- Καλύτερα
- και οι δύο
- φέρω
- χτίζω
- Κτίριο
- χτισμένο
- αλλά
- by
- κρύπτη
- που ονομάζεται
- CAN
- δυνατότητες
- κεφάλαιο
- Κεφαλαιαγορές
- κάρτα
- Κάρτες
- Επιλέξτε
- Backup
- συστάδα
- κωδικός
- σχόλιο
- Υπολογίστε
- χρήση υπολογιστή
- Connect
- Συνδετικός
- σύνδεση
- Διασυνδέσεις
- πρόξενος
- ΣΥΝΕΧΕΙΑ
- έλεγχος
- Δικαστικά έξοδα
- δημιουργία
- δημιουργήθηκε
- δημιουργεί
- μονάδες
- πιστωτική κάρτα
- έθιμο
- Πελάτες
- Ντάλας
- ημερομηνία
- ανάλυση δεδομένων
- επεξεργασία δεδομένων
- επιστημονικά δεδομένα
- επιστήμονας δεδομένων
- βάση δεδομένων
- σύνολα δεδομένων
- Προεπιλογή
- αποδεικνύουν
- κατέδειξε
- ανάπτυξη
- Ανάπτυξη
- διανέμονται
- Λιμενεργάτης
- τομέα
- κάτω
- κάθε
- Νωρίτερα
- αποτελεσματικός
- Μηχανικοί
- εξασφαλίζω
- Περιβάλλον
- εγκαθιδρύω
- δημιουργία
- υφιστάμενα
- οικείος
- Χαρακτηριστικό
- λίγοι
- Αρχεία
- φιλτράρισμα
- οικονομικός
- των χρηματοπιστωτικών υπηρεσιών
- Όνομα
- Εξής
- Για
- από
- πλήρη
- πλήρως
- λειτουργία
- Φύλο
- παράγουν
- δημιουργεί
- να πάρει
- GitHub
- Έχω
- he
- βοήθεια
- εδώ
- Κυψέλη
- Πως
- HTML
- http
- HTTPS
- εικόνα
- εφαρμογή
- βελτιώσεις
- in
- της βιομηχανίας
- πληροφορίες
- Υποδομή
- εγκαθιστώ
- ασφάλιση
- ενσωματωθεί
- ολοκλήρωση
- ενδιαφερόμενος
- σε
- IT
- Δουλειά
- jpg
- Γλώσσα
- large
- μεγάλης κλίμακας
- μεγαλύτερος
- ξεκινήσει
- μάθηση
- Άδεια
- Μου αρέσει
- Λιστα
- LLM
- μηχανή
- μάθηση μηχανής
- κάνω
- Κατασκευή
- διαχειρίζεται
- πολοί
- αγορές
- Ενδέχεται..
- Εν τω μεταξύ,
- Μνήμη
- ενδέχεται να
- Λεπτ.
- ML
- MLOps
- μοντέλα
- τροποποιήσει
- περισσότερο
- πλέον
- όνομα
- ονόματα
- Φυσικό
- Επεξεργασία φυσικής γλώσσας
- Πλοηγηθείτε
- Πλοήγηση
- Ανάγκη
- δικτύωσης
- nlp
- τώρα
- αριθμός
- αντικειμένων
- of
- on
- ONE
- λειτουργίες
- Επιλογές
- or
- δικός μας
- δική
- σελίδα
- παράθυρο
- μέρος
- παθιασμένος
- Εκτελέστε
- επίδοση
- δικαιώματα
- Μέρος
- Πλατφόρμες
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- σας παρακαλούμε
- Σημείο
- Θέση
- δυναμικού
- ισχυρός
- Προετοιμάστε
- προετοιμασία
- ιδιωτικός
- προβλήματα
- μεταποίηση
- επαγγελματίας
- Προφίλ ⬇️
- σχέδιο
- έργα
- παρέχουν
- παρέχει
- γρήγορα
- επαναλαμβανόμενα
- κάντε ΕΓΓΡΑΦΗ
- υπόλοιπα
- Αποθήκη
- ζητήσει
- απαιτούν
- απαιτείται
- απαιτήσεις
- Υποστηρικτικό υλικό
- Ρόλος
- ρίζα
- ΣΕΙΡΑ
- τρέξιμο
- τρέξιμο
- σοφός
- SC
- Κλίμακα
- απολέπιση
- Επιστήμη
- Επιστήμονας
- επιστήμονες
- έκταση
- Εφαρμογές
- Τμήμα
- ασφάλεια
- αρχαιότερος
- εξυπηρετεί
- υπηρεσία
- Υπηρεσίες
- Συνεδρίαση
- σειρά
- τον καθορισμό
- Απλούς
- So
- λύση
- Λύσεις
- SOLVE
- Σπινθήρας
- ειδικεύεται
- ειδικευμένη
- σωρός
- Στοίβες
- Εκκίνηση
- Ξεκινήστε
- Βήμα
- Βήματα
- χώρος στο δίσκο
- υποβάλουν
- τραπέζι
- Πάρτε
- εργασίες
- τεχνολόγος
- πρότυπο
- από
- ότι
- Η
- οι πληροφορίες
- τους
- Τους
- Αυτοί
- αυτό
- Μέσω
- προς την
- μαζι
- εργαλεία
- Συναλλαγές
- μετασχηματισμούς
- μετασχηματίζοντας
- αληθής
- Έμπιστος
- TX
- υποκείμενες
- χρήση
- μεταχειρισμένος
- Χρήστες
- Χρήστες
- χρησιμοποιώντας
- ήταν
- Τρόπος..
- we
- ενώ
- ευρέως
- θα
- με
- χωρίς
- Εργασία
- γιαμ
- χρόνια
- Εσείς
- Σας
- zephyrnet