Πέρυσι, ανακοινώσαμε τη γενική διαθεσιμότητα του RStudio στο Amazon SageMaker, το πρώτο πλήρως διαχειριζόμενο περιβάλλον ανάπτυξης RStudio Workbench (IDE) του κλάδου στο cloud. Μπορείτε να εκκινήσετε γρήγορα το γνωστό RStudio IDE και να καλέσετε πάνω-κάτω τους υποκείμενους υπολογιστικούς πόρους χωρίς να διακόψετε την εργασία σας, καθιστώντας εύκολη τη δημιουργία λύσεων μηχανικής εκμάθησης (ML) και αναλυτικών στοιχείων σε R σε κλίμακα.
Πολλοί από τους χρήστες του RStudio στο SageMaker είναι επίσης χρήστες Amazon RedShift, μια πλήρως διαχειριζόμενη, κλίμακας petabyte, μαζικά παράλληλη αποθήκη δεδομένων για αποθήκευση δεδομένων και αναλυτικό φόρτο εργασίας. Καθιστά γρήγορη, απλή και οικονομικά αποδοτική την ανάλυση όλων των δεδομένων σας χρησιμοποιώντας την τυπική SQL και τα υπάρχοντα εργαλεία επιχειρηματικής ευφυΐας (BI). Οι χρήστες μπορούν επίσης να αλληλεπιδράσουν με δεδομένα με ODBC, JDBC ή το Amazon Redshift Data API.
Η χρήση του RStudio στο SageMaker και στο Amazon Redshift μπορεί να είναι χρήσιμη για την αποτελεσματική εκτέλεση ανάλυσης σε μεγάλα σύνολα δεδομένων στο cloud. Ωστόσο, η εργασία με δεδομένα στο cloud μπορεί να παρουσιάσει προκλήσεις, όπως η ανάγκη κατάργησης των σιλό δεδομένων του οργανισμού, η διατήρηση της ασφάλειας και της συμμόρφωσης και η μείωση της πολυπλοκότητας με την τυποποίηση των εργαλείων. Το AWS προσφέρει εργαλεία όπως το RStudio στο SageMaker και το Amazon Redshift για να βοηθήσουν στην αντιμετώπιση αυτών των προκλήσεων.
Σε αυτήν την ανάρτηση ιστολογίου, θα σας δείξουμε πώς να χρησιμοποιείτε και τις δύο αυτές υπηρεσίες μαζί για να εκτελείτε αποτελεσματικά ανάλυση σε τεράστια σύνολα δεδομένων στο cloud, ενώ αντιμετωπίζετε τις προκλήσεις που αναφέρονται παραπάνω. Αυτό το ιστολόγιο εστιάζει στο Rstudio στη γλώσσα Amazon SageMaker, με επιχειρηματικούς αναλυτές, μηχανικούς δεδομένων, επιστήμονες δεδομένων και όλους τους προγραμματιστές που χρησιμοποιούν τη γλώσσα R και το Amazon Redshift, ως κοινό-στόχο.
Εάν θέλετε να χρησιμοποιήσετε την παραδοσιακή εμπειρία του SageMaker Studio με το Amazon Redshift, ανατρέξτε στο Χρήση του Amazon Redshift Data API για αλληλεπίδραση από έναν φορητό υπολογιστή Amazon SageMaker Jupyter.
Επισκόπηση λύσεων
Στο ιστολόγιο σήμερα, θα εκτελέσουμε τα ακόλουθα βήματα:
- Κλωνοποίηση του αποθετηρίου δειγμάτων με τα απαιτούμενα πακέτα.
- Σύνδεση στο Amazon Redshift με ασφαλή σύνδεση ODBC (Το ODBC είναι το προτιμώμενο πρωτόκολλο για το RStudio).
- Εκτέλεση ερωτημάτων και ενέργειες SageMaker API σε δεδομένα εντός του Amazon Redshift Serverless μέσω του RStudio στο SageMaker
Αυτή η διαδικασία απεικονίζεται στην ακόλουθη αρχιτεκτονική λύσεων:
Αναλυτική λύση
Προϋποθέσεις
Πριν ξεκινήσετε, βεβαιωθείτε ότι έχετε όλες τις απαιτήσεις για τη ρύθμιση του RStudio στο Amazon SageMaker και στο Amazon Redshift Serverless, όπως:
Θα χρησιμοποιήσουμε μια στοίβα CloudFormation για να δημιουργήσουμε την απαιτούμενη υποδομή.
Σημείωση: Εάν έχετε ήδη έναν τομέα RStudio και σύμπλεγμα Amazon Redshift, μπορείτε να παραλείψετε αυτό το βήμα
Η εκκίνηση αυτής της στοίβας δημιουργεί τους ακόλουθους πόρους:
- 3 Ιδιωτικά υποδίκτυα
- 1 Δημόσιο υποδίκτυο
- 1 πύλη NAT
- Πύλη Διαδικτύου
- Σύμπλεγμα χωρίς διακομιστή Amazon Redshift
- Τομέας SageMaker με RStudio
- Προφίλ χρήστη SageMaker RStudio
- Ρόλος υπηρεσίας IAM για την εκτέλεση τομέα SageMaker RStudio
- Ρόλος υπηρεσίας IAM για την εκτέλεση προφίλ χρήστη SageMaker RStudio
Αυτό το πρότυπο έχει σχεδιαστεί για να λειτουργεί σε μια Περιοχή (π.χ. us-east-1
, us-west-2
) με τρεις Ζώνες Διαθεσιμότητας, το RStudio στο SageMaker και το Amazon Redshift Serverless. Βεβαιωθείτε ότι η περιοχή σας έχει πρόσβαση σε αυτούς τους πόρους ή τροποποιήστε τα πρότυπα ανάλογα.
Πατήστε το κουμπί Εκκίνηση στοίβας κουμπί για να δημιουργήσετε τη στοίβα.
- Στις Δημιουργία στοίβας σελίδα, επιλέξτε Επόμενο.
- Στις Καθορίστε λεπτομέρειες στοίβας σελίδα, δώστε ένα όνομα για τη στοίβα σας και αφήστε τις υπόλοιπες επιλογές ως προεπιλογές και, στη συνέχεια, επιλέξτε Επόμενο.
- Στις Διαμόρφωση επιλογών στοίβας σελίδα, αφήστε τις επιλογές ως προεπιλογές και πατήστε Επόμενο.
- Στις Σελίδα αναθεώρησης, Επιλέξτε το
- Αναγνωρίζω ότι το AWS CloudFormation μπορεί να δημιουργήσει πόρους IAM με προσαρμοσμένα ονόματα
- Αναγνωρίζω ότι το AWS CloudFormation ενδέχεται να απαιτεί την ακόλουθη δυνατότητα: CAPABILITY_AUTO_EXPANDκαι επιλέξτε Υποβολη.
Το πρότυπο θα δημιουργήσει πέντε στοίβες.
Μόλις είναι η κατάσταση στοίβας ΔΗΜΙΟΥΡΓΙΑ_COMPLETE, μεταβείτε στην κονσόλα Amazon Redshift Serverless. Αυτή είναι μια νέα δυνατότητα που καθιστά εξαιρετικά εύκολη την εκτέλεση αναλυτικών στοιχείων στο cloud με υψηλή απόδοση σε οποιαδήποτε κλίμακα. Απλώς φορτώστε τα δεδομένα σας και ξεκινήστε την αναζήτηση. Δεν υπάρχει ανάγκη δημιουργίας και διαχείρισης συμπλεγμάτων.
Note: Το μοτίβο που παρουσιάζεται σε αυτό το ιστολόγιο ενσωματώνοντας το Amazon Redshift και το RStudio στο Amazon SageMaker θα είναι το ίδιο ανεξάρτητα από το μοτίβο ανάπτυξης του Amazon Redshift (χωρίς διακομιστή ή παραδοσιακό σύμπλεγμα).
Φόρτωση δεδομένων στο Amazon Redshift Serverless
Το σενάριο CloudFormation δημιούργησε μια βάση δεδομένων που ονομάζεται sagemaker
. Ας συμπληρώσουμε αυτήν τη βάση δεδομένων με πίνακες για τον χρήστη του RStudio να κάνει ερώτημα. Δημιουργήστε μια καρτέλα επεξεργασίας SQL και βεβαιωθείτε ότι sagemaker
επιλέγεται η βάση δεδομένων. Θα χρησιμοποιήσουμε το συνθετικά δεδομένα συναλλαγών με πιστωτική κάρτα για τη δημιουργία πινάκων στη βάση δεδομένων μας. Αυτά τα δεδομένα αποτελούν μέρος των δειγμάτων πίνακα δεδομένων του SageMaker s3://sagemaker-sample-files/datasets/tabular/synthetic_credit_card_transactions
.
Θα εκτελέσουμε το ακόλουθο ερώτημα στον επεξεργαστή ερωτημάτων. Αυτό θα δημιουργήσει τρεις πίνακες, κάρτες, συναλλαγές, και Χρήστες.
Μπορείτε να επιβεβαιώσετε ότι το ερώτημα εκτελέστηκε με επιτυχία βλέποντας τρεις πίνακες στο αριστερό παράθυρο του προγράμματος επεξεργασίας ερωτημάτων.
Μόλις συμπληρωθούν όλοι οι πίνακες, μεταβείτε στο SageMaker RStudio και ξεκινήστε μια νέα περίοδο λειτουργίας με εικόνα βάσης RSession σε μια παρουσία ml.m5.xlarge.
Μόλις ξεκινήσει η συνεδρία, θα τρέξουμε αυτόν τον κώδικα για να δημιουργήσουμε μια σύνδεση με τη βάση δεδομένων Amazon Redshift Serverless.
Για να δείτε τους πίνακες στο συνθετικό σχήμα, θα χρειαστεί να παραχωρήσετε πρόσβαση στο Amazon Redshift μέσω του επεξεργαστή ερωτημάτων.
Το RStudio Διασυνδέσεις το παράθυρο πρέπει να δείχνει το sagemaker
βάση δεδομένων με συνθετικά σχήματα και πίνακες κάρτες, συναλλαγές, χρήστες.
Μπορείτε να κάνετε κλικ στο εικονίδιο του πίνακα δίπλα στους πίνακες για να προβάλετε 1,000 εγγραφές.
Σημείωση: Έχουμε δημιουργήσει ένα προκατασκευασμένο αρχείο R Markdown με όλα τα μπλοκ κωδικών προκατασκευασμένα που μπορούν να βρεθούν στο έργο GitHub repo.
Τώρα ας χρησιμοποιήσουμε το DBI
λειτουργία πακέτου dbListTables()
για να δείτε τους υπάρχοντες πίνακες.
Χρησιμοποιήστε το dbGetQuery() για να περάσετε ένα ερώτημα SQL στη βάση δεδομένων.
Μπορούμε επίσης να χρησιμοποιήσουμε το dbplyr
και dplyr
πακέτα για την εκτέλεση ερωτημάτων στη βάση δεδομένων. Ας count()
πόσες συναλλαγές υπάρχουν στον πίνακα συναλλαγών. Αλλά πρώτα, πρέπει να εγκαταστήσουμε αυτά τα πακέτα.
Χρησιμοποιήστε το tbl()
λειτουργία κατά τον καθορισμό του σχήματος.
Ας εκτελέσουμε μια καταμέτρηση του αριθμού των σειρών για κάθε πίνακα.
Έτσι έχουμε 2,000 χρήστες. 6,146 κάρτες; και 24,386,900 συναλλαγές. Μπορούμε επίσης να δούμε τους πίνακες στην κονσόλα.
transactions_tbl
Μπορούμε επίσης να δούμε τι dplyr
ρήματα κάνουν κάτω από την κουκούλα.
Ας εξερευνήσουμε οπτικά τον αριθμό των συναλλαγών ανά έτος.
Μπορούμε επίσης να συνοψίσουμε τα δεδομένα στη βάση δεδομένων ως εξής:
Ας υποθέσουμε ότι θέλουμε να δούμε απάτη χρησιμοποιώντας στοιχεία κάρτας. Απλώς πρέπει να ενώσουμε τους πίνακες και μετά να τους ομαδοποιήσουμε με βάση το χαρακτηριστικό.
Τώρα ας ετοιμάσουμε ένα σύνολο δεδομένων που θα μπορούσε να χρησιμοποιηθεί για μηχανική εκμάθηση. Ας φιλτράρουμε τα δεδομένα συναλλαγών για να συμπεριλάβουμε απλώς τις πιστωτικές κάρτες Discover, διατηρώντας παράλληλα μόνο ένα υποσύνολο στηλών.
Και τώρα ας κάνουμε λίγο καθαρισμό χρησιμοποιώντας τους ακόλουθους μετασχηματισμούς:
- Μετατρέπω
is_fraud
σε δυαδικό χαρακτηριστικό - Κατάργηση συμβολοσειράς συναλλαγής από
use_chip
και μετονομάστε το για να πληκτρολογήσετε - Συνδυάστε έτος, μήνα και ημέρα σε ένα αντικείμενο δεδομένων
- Αφαιρέστε $ από το ποσό και μετατρέψτε σε έναν τύπο αριθμητικών δεδομένων
Τώρα που φιλτράραμε και καθαρίσαμε το σύνολο δεδομένων μας, είμαστε έτοιμοι να συλλέξουμε αυτό το σύνολο δεδομένων στην τοπική μνήμη RAM.
Τώρα έχουμε ένα λειτουργικό σύνολο δεδομένων για να αρχίσουμε να δημιουργούμε χαρακτηριστικά και να προσαρμόζουμε μοντέλα. Δεν θα καλύψουμε αυτά τα βήματα σε αυτό το ιστολόγιο, αλλά αν θέλετε να μάθετε περισσότερα σχετικά με την κατασκευή μοντέλων στο RStudio στο SageMaker, ανατρέξτε στο Ανακοινώνουμε το πλήρως διαχειριζόμενο RStudio στο Amazon SageMaker για Επιστήμονες Δεδομένων.
Εκκαθάριση
Για να καθαρίσετε τυχόν πόρους για να αποφύγετε επαναλαμβανόμενα κόστη, διαγράψτε το ριζικό πρότυπο CloudFormation. Διαγράψτε επίσης όλες τις βάσεις EFS που δημιουργήθηκαν και τυχόν κάδους και αντικείμενα S3 που δημιουργήθηκαν.
Συμπέρασμα
Η ανάλυση και η μοντελοποίηση δεδομένων μπορεί να είναι προκλητική όταν εργάζεστε με μεγάλα σύνολα δεδομένων στο cloud. Το Amazon Redshift είναι μια δημοφιλής αποθήκη δεδομένων που μπορεί να βοηθήσει τους χρήστες να εκτελέσουν αυτές τις εργασίες. Το RStudio, ένα από τα πιο ευρέως χρησιμοποιούμενα ολοκληρωμένα περιβάλλοντα ανάπτυξης (IDE) για ανάλυση δεδομένων, χρησιμοποιείται συχνά με τη γλώσσα R. Σε αυτήν την ανάρτηση ιστολογίου, δείξαμε πώς να χρησιμοποιείτε μαζί το Amazon Redshift και το RStudio στο SageMaker για την αποτελεσματική εκτέλεση ανάλυσης σε τεράστια σύνολα δεδομένων. Χρησιμοποιώντας το RStudio στο SageMaker, οι χρήστες μπορούν να επωφεληθούν από την πλήρως διαχειριζόμενη υποδομή, τον έλεγχο πρόσβασης, τη δικτύωση και τις δυνατότητες ασφάλειας του SageMaker, ενώ παράλληλα απλοποιούν την ενσωμάτωση με το Amazon Redshift. Εάν θέλετε να μάθετε περισσότερα σχετικά με τη χρήση αυτών των δύο εργαλείων μαζί, ανατρέξτε στις άλλες αναρτήσεις και πόρους του ιστολογίου μας. Μπορείτε επίσης να δοκιμάσετε να χρησιμοποιήσετε το RStudio στο SageMaker και στο Amazon Redshift για τον εαυτό σας και να δείτε πώς μπορούν να σας βοηθήσουν με τις εργασίες ανάλυσης δεδομένων και μοντελοποίησης.
Προσθέστε τα σχόλιά σας σε αυτό το ιστολόγιο ή δημιουργήστε ένα αίτημα έλξης στο GitHub.
Σχετικά με τους Συγγραφείς
Ράιαν Γκάρνερ είναι Επιστήμονας Δεδομένων με AWS Professional Services. Είναι παθιασμένος να βοηθά τους πελάτες του AWS να χρησιμοποιούν το R για να λύσουν τα προβλήματα Επιστήμης Δεδομένων και Μηχανικής Μάθησης.
Raj Pathak είναι Senior Solutions Architect και Τεχνολόγος με ειδίκευση στις Χρηματοοικονομικές Υπηρεσίες (Ασφάλειες, Τραπεζικές, Κεφαλαιαγορές) και Machine Learning. Ειδικεύεται στην Επεξεργασία Φυσικής Γλώσσας (NLP), στα Μεγάλα Μοντέλα Γλωσσών (LLM) και σε έργα υποδομής και λειτουργιών Μηχανικής Μάθησης (MLOps).
Aditi Rajnish είναι δευτεροετής φοιτητής μηχανικής λογισμικού στο Πανεπιστήμιο του Waterloo. Τα ενδιαφέροντά της περιλαμβάνουν την όραση υπολογιστών, την επεξεργασία φυσικής γλώσσας και τον υπολογισμό αιχμής. Είναι επίσης παθιασμένη με την προσέγγιση και την υπεράσπιση του STEM που βασίζεται στην κοινότητα. Στον ελεύθερο χρόνο της, μπορεί να βρεθεί να σκαρφαλώνει, να παίζει πιάνο ή να μαθαίνει πώς να ψήνει το τέλειο scone.
Saiteja Pudi είναι αρχιτέκτονας λύσεων στην AWS, με έδρα το Ντάλας, Τέξας. Βρίσκεται στην AWS για περισσότερα από 3 χρόνια τώρα, βοηθώντας τους πελάτες να αντλήσουν τις πραγματικές δυνατότητες του AWS όντας ο έμπιστος σύμβουλός τους. Προέρχεται από ένα υπόβαθρο ανάπτυξης εφαρμογών, που ενδιαφέρεται για την Επιστήμη των Δεδομένων και τη Μηχανική Μάθηση.
- AI
- αι τέχνη
- ι γεννήτρια τέχνης
- ρομπότ ai
- Amazon RedShift
- Amazon Sage Maker
- τεχνητή νοημοσύνη
- πιστοποίηση τεχνητής νοημοσύνης
- τεχνητή νοημοσύνη στον τραπεζικό τομέα
- ρομπότ τεχνητής νοημοσύνης
- ρομπότ τεχνητής νοημοσύνης
- λογισμικό τεχνητής νοημοσύνης
- Μηχανική εκμάθηση AWS
- blockchain
- συνέδριο blockchain ai
- Coingenius
- συνομιλητική τεχνητή νοημοσύνη
- κρυπτοσυνεδριο αι
- του νταλ
- βαθιά μάθηση
- Ειδικός (400)
- έχεις google
- μάθηση μηχανής
- Πλάτων
- πλάτων αι
- Πληροφορία δεδομένων Plato
- Παιχνίδι Πλάτωνας
- Πλάτωνα δεδομένα
- platogaming
- κλίμακα αι
- σύνταξη
- Τεχνικός τρόπος
- zephyrnet