Σε αυτήν την ανάρτηση, δείχνουμε πώς να διαμορφώσετε μια νέα δυνατότητα ελέγχου ταυτότητας που βασίζεται σε OAuth για χρήση Νιφάδα χιονιού in Amazon SageMaker Data Wrangler. Το Snowflake είναι μια πλατφόρμα δεδομένων cloud που παρέχει λύσεις δεδομένων για αποθήκευση δεδομένων στην επιστήμη δεδομένων. Η νιφάδα χιονιού είναι μια Συνεργάτης AWS με πολλαπλές διαπιστεύσεις AWS, συμπεριλαμβανομένων των ικανοτήτων AWS στη μηχανική εκμάθηση (ML), στο λιανικό εμπόριο και στα δεδομένα και τα αναλυτικά στοιχεία.
Το Data Wrangler απλοποιεί τη διαδικασία προετοιμασίας δεδομένων και μηχανικής χαρακτηριστικών, μειώνοντας τον χρόνο που χρειάζεται από εβδομάδες σε λεπτά, παρέχοντας μια ενιαία οπτική διεπαφή για τους επιστήμονες δεδομένων να επιλέγουν και να καθαρίζουν δεδομένα, να δημιουργούν λειτουργίες και να αυτοματοποιούν την προετοιμασία δεδομένων σε ροές εργασίας ML χωρίς να γράφουν κώδικα. Μπορείτε να εισάγετε δεδομένα από πολλές πηγές δεδομένων, όπως π.χ Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3), Αμαζόν Αθηνά, Amazon RedShift, EMR Αμαζονίου, και Snowflake. Με αυτήν τη νέα δυνατότητα, μπορείτε να χρησιμοποιήσετε τον δικό σας πάροχο ταυτότητας (IdP), όπως π.χ ΟΚΤΑ, Azure AD, ή Ομοσπονδία Ping για να συνδεθείτε στο Snowflake μέσω του Data Wrangler.
Επισκόπηση λύσεων
Στις επόμενες ενότητες, παρέχουμε βήματα για έναν διαχειριστή για να ρυθμίσει το IdP, το Snowflake και το Studio. Αναφέρουμε επίσης λεπτομερώς τα βήματα που μπορούν να κάνουν οι επιστήμονες δεδομένων για τη διαμόρφωση της ροής δεδομένων, την ανάλυση της ποιότητας των δεδομένων και την προσθήκη μετασχηματισμών δεδομένων. Τέλος, δείχνουμε πώς να εξάγουμε τη ροή δεδομένων και να εκπαιδεύουμε ένα μοντέλο χρησιμοποιώντας Αυτόματο πιλότο SageMaker.
Προϋποθέσεις
Για αυτήν την καθοδήγηση, θα πρέπει να έχετε τις ακόλουθες προϋποθέσεις:
- Για διαχειριστή:
- Ένας χρήστης Snowflake με δικαιώματα για τη δημιουργία ενσωματώσεων αποθήκευσης και ενσωματώσεις ασφαλείας στο Snowflake.
- Ένας λογαριασμός AWS με δικαιώματα δημιουργίας Διαχείριση ταυτότητας και πρόσβασης AWS (IAM) πολιτικές και ρόλοι.
- Πρόσβαση και δικαιώματα για τη διαμόρφωση του IDP για την εγγραφή της εφαρμογής Data Wrangler και τη ρύθμιση του διακομιστή εξουσιοδότησης ή του API.
- Για τον επιστήμονα δεδομένων:
Ρύθμιση διαχειριστή
Αντί να βάζετε τους χρήστες σας να εισάγουν απευθείας τα διαπιστευτήριά τους Snowflake στο Data Wrangler, μπορείτε να τους ζητήσετε να χρησιμοποιούν ένα IdP για πρόσβαση στο Snowflake.
Τα ακόλουθα βήματα απαιτούνται για την ενεργοποίηση της πρόσβασης στο Data Wrangler OAuth στο Snowflake:
- Διαμορφώστε το IdP.
- Διαμόρφωση Snowflake.
- Διαμόρφωση του SageMaker Studio.
Διαμορφώστε το IdP
Για να ρυθμίσετε το IdP σας, πρέπει να καταχωρήσετε την εφαρμογή Data Wrangler και να ρυθμίσετε τον διακομιστή εξουσιοδότησης ή το API σας.
Καταχωρίστε την εφαρμογή Data Wrangler στο IdP
Ανατρέξτε στην ακόλουθη τεκμηρίωση για τα IdP που υποστηρίζει το Data Wrangler:
Χρησιμοποιήστε την τεκμηρίωση που παρέχεται από το IdP σας για να καταχωρήσετε την εφαρμογή Data Wrangler. Οι πληροφορίες και οι διαδικασίες σε αυτήν την ενότητα σάς βοηθούν να κατανοήσετε πώς να χρησιμοποιείτε σωστά την τεκμηρίωση που παρέχεται από το IdP σας.
Συγκεκριμένες προσαρμογές εκτός από τα βήματα στους αντίστοιχους οδηγούς αναφέρονται στις υποενότητες.
- Επιλέξτε τη διαμόρφωση που ξεκινά τη διαδικασία εγγραφής του Data Wrangler ως εφαρμογής.
- Παρέχετε στους χρήστες εντός του IdP πρόσβαση στο Data Wrangler.
- Ενεργοποιήστε τον έλεγχο ταυτότητας πελάτη OAuth αποθηκεύοντας τα διαπιστευτήρια του πελάτη ως μυστικό του Secrets Manager.
- Καθορίστε μια διεύθυνση URL ανακατεύθυνσης χρησιμοποιώντας την ακόλουθη μορφή:
https://domain-ID.studio.AWS Region.sagemaker.aws/jupyter/default/lab
.
Καθορίζετε το αναγνωριστικό τομέα SageMaker και την περιοχή AWS που χρησιμοποιείτε για την εκτέλεση του Data Wrangler. Πρέπει να καταχωρίσετε μια διεύθυνση URL για κάθε τομέα και περιοχή όπου εκτελείτε το Data Wrangler. Οι χρήστες από έναν τομέα και μια περιοχή που δεν έχουν ρυθμίσει διευθύνσεις URL ανακατεύθυνσης για αυτούς δεν θα μπορούν να πραγματοποιήσουν έλεγχο ταυτότητας με το IdP για πρόσβαση στη σύνδεση Snowflake.
- Βεβαιωθείτε ότι ο κωδικός εξουσιοδότησης και οι τύποι επιχορήγησης διακριτικού ανανέωσης επιτρέπονται για την αίτησή σας στο Data Wrangler.
Ρυθμίστε τον διακομιστή εξουσιοδότησης ή το API εντός του IdP
Στο IdP σας, πρέπει να ρυθμίσετε έναν διακομιστή εξουσιοδότησης ή μια διεπαφή προγραμματισμού εφαρμογών (API). Για κάθε χρήστη, ο διακομιστής εξουσιοδότησης ή το API στέλνει διακριτικά στο Data Wrangler με το Snowflake ως κοινό.
Το Snowflake χρησιμοποιεί την έννοια του ρόλους που διαφέρουν από τους ρόλους IAM που χρησιμοποιούνται στο AWS. Πρέπει να διαμορφώσετε το IdP ώστε να χρησιμοποιεί ΟΠΟΙΟΝΔΗΠΟΤΕ ρόλο για να χρησιμοποιήσετε τον προεπιλεγμένο ρόλο που σχετίζεται με τον λογαριασμό Snowflake. Για παράδειγμα, εάν ένας χρήστης έχει systems administrator
ως προεπιλεγμένο ρόλο στο προφίλ τους Snowflake, η σύνδεση από το Data Wrangler στο Snowflake χρησιμοποιεί systems administrator
ως ο ρόλος.
Χρησιμοποιήστε την ακόλουθη διαδικασία για να ρυθμίσετε τον διακομιστή εξουσιοδότησης ή το API στο IdP σας:
- Από το IdP σας, ξεκινήστε τη διαδικασία ρύθμισης του διακομιστή ή του API.
- Διαμορφώστε τον διακομιστή εξουσιοδότησης ώστε να χρησιμοποιεί τον κωδικό εξουσιοδότησης και να ανανεώνει τους τύπους παραχώρησης διακριτικών.
- Καθορίστε τη διάρκεια ζωής του διακριτικού πρόσβασης.
- Ορίστε το χρονικό όριο αδράνειας του διακριτικού ανανέωσης.
Το χρονικό όριο αδράνειας είναι ο χρόνος που λήγει το διακριτικό ανανέωσης εάν δεν χρησιμοποιηθεί. Εάν προγραμματίζετε εργασίες στο Data Wrangler, συνιστούμε να κάνετε το χρονικό όριο αδράνειας μεγαλύτερο από τη συχνότητα της εργασίας επεξεργασίας. Διαφορετικά, ορισμένες εργασίες επεξεργασίας ενδέχεται να αποτύχουν επειδή το διακριτικό ανανέωσης έληξε πριν μπορέσουν να εκτελεστούν. Όταν λήξει το διακριτικό ανανέωσης, ο χρήστης πρέπει να πραγματοποιήσει εκ νέου έλεγχο ταυτότητας αποκτώντας πρόσβαση στη σύνδεση που έχει κάνει στο Snowflake μέσω του Data Wrangler.
Λάβετε υπόψη ότι το Data Wrangler δεν υποστηρίζει περιστρεφόμενα διακριτικά ανανέωσης. Η χρήση περιστρεφόμενων κουπονιών ανανέωσης μπορεί να οδηγήσει σε αποτυχίες πρόσβασης ή σε χρήστες να χρειάζεται να συνδέονται συχνά.
Εάν το διακριτικό ανανέωσης λήξει, οι χρήστες σας πρέπει να ελέγξουν ξανά την ταυτότητα αποκτώντας πρόσβαση στη σύνδεση που έχουν κάνει στο Snowflake μέσω του Data Wrangler.
- Καθορίστε
session:role-any
ως νέο πεδίο εφαρμογής.
Για το Azure AD, πρέπει επίσης να καθορίσετε ένα μοναδικό αναγνωριστικό για το εύρος.
Αφού ρυθμίσετε τον πάροχο OAuth, παρέχετε στο Data Wrangler τις πληροφορίες που χρειάζεται για να συνδεθεί με τον πάροχο. Μπορείτε να χρησιμοποιήσετε την τεκμηρίωση από το IdP σας για να λάβετε τιμές για τα ακόλουθα πεδία:
- Token URL – Το URL του διακριτικού που στέλνει το IdP στο Data Wrangler
- Διεύθυνση URL εξουσιοδότησης – Το URL του διακομιστή εξουσιοδότησης του IdP
- Αναγνωριστικό πελάτη – Η ταυτότητα του IdP
- Μυστικό πελάτη – Το μυστικό που αναγνωρίζει μόνο ο διακομιστής εξουσιοδότησης ή το API
- Πεδίο εφαρμογής OAuth – Αυτό είναι μόνο για το Azure AD
Διαμόρφωση Snowflake
Για να διαμορφώσετε το Snowflake, συμπληρώστε τις οδηγίες στο Εισαγωγή δεδομένων από το Snowflake.
Χρησιμοποιήστε την τεκμηρίωση Snowflake για το IdP σας για να ρυθμίσετε μια εξωτερική ενοποίηση OAuth στο Snowflake. Δείτε την προηγούμενη ενότητα Καταχωρίστε την εφαρμογή Data Wrangler στο IdP για περισσότερες πληροφορίες σχετικά με τον τρόπο ρύθμισης μιας εξωτερικής ενοποίησης OAuth.
Όταν ρυθμίζετε την ενσωμάτωση ασφαλείας στο Snowflake, βεβαιωθείτε ότι την έχετε ενεργοποιήσει external_oauth_any_role_mode
.
Διαμόρφωση του SageMaker Studio
Αποθηκεύετε τα πεδία και τις τιμές σε ένα μυστικό του Secrets Manager και το προσθέτετε στο Studio Lifecycle Configuration που χρησιμοποιείτε για το Data Wrangler. Το Lifecycle Configuration είναι ένα σενάριο φλοιού που φορτώνει αυτόματα τα διαπιστευτήρια που είναι αποθηκευμένα στο μυστικό όταν ο χρήστης συνδέεται στο Studio. Για πληροφορίες σχετικά με τη δημιουργία μυστικών, βλ Μετακινήστε τα κωδικοποιημένα μυστικά στο AWS Secrets Manager. Για πληροφορίες σχετικά με τη χρήση των ρυθμίσεων κύκλου ζωής στο Studio, βλ Χρησιμοποιήστε τις διαμορφώσεις κύκλου ζωής με το Amazon SageMaker Studio.
Δημιουργήστε ένα μυστικό για τα διαπιστευτήρια Snowflake
Για να δημιουργήσετε το μυστικό σας για τα διαπιστευτήρια Snowflake, ολοκληρώστε τα παρακάτω βήματα:
- Στην κονσόλα Secrets Manager, επιλέξτε Αποθηκεύστε ένα νέο μυστικό.
- Για Μυστικός τύπος, Επιλέξτε Άλλο είδος μυστικού.
- Καθορίστε τις λεπτομέρειες του μυστικού σας ως ζεύγη κλειδιού-τιμής.
Τα ονόματα κλειδιών απαιτούν πεζά γράμματα λόγω ευαισθησίας πεζών-κεφαλαίων. Το Data Wrangler δίνει μια προειδοποίηση εάν εισαγάγετε κάποιο από αυτά λανθασμένα. Εισαγάγετε τις μυστικές τιμές ως ζεύγη κλειδιού-τιμής Κλειδί/τιμή εάν θέλετε ή χρησιμοποιήστε το Απλό κείμενο επιλογή.
Ακολουθεί η μορφή του μυστικού που χρησιμοποιείται για το Okta. Εάν χρησιμοποιείτε το Azure AD, πρέπει να προσθέσετε το datasource_oauth_scope
τομέα.
- Ενημερώστε τις προηγούμενες τιμές με το IdP της επιλογής σας και τις πληροφορίες που συγκεντρώθηκαν μετά την εγγραφή της αίτησης.
- Επιλέξτε Επόμενο.
- Για Μυστικό όνομα, προσθέστε το πρόθεμα
AmazonSageMaker
(για παράδειγμα, το μυστικό μας είναιAmazonSageMaker-DataWranglerSnowflakeCreds
). - Στο Ετικέτες ενότητα, προσθέστε μια ετικέτα με το κλειδί
SageMaker
και αξίαtrue
. - Επιλέξτε Επόμενο.
- Τα υπόλοιπα πεδία είναι προαιρετικά. επιλέγω Επόμενο έως ότου έχετε την επιλογή να επιλέξετε κατάστημα για να αποθηκεύσει το μυστικό.
Αφού αποθηκεύσετε το μυστικό, επιστρέφετε στην κονσόλα του Secrets Manager.
- Επιλέξτε το μυστικό που μόλις δημιουργήσατε και, στη συνέχεια, ανακτήστε το μυστικό ARN.
- Αποθηκεύστε το στο πρόγραμμα επεξεργασίας κειμένου που προτιμάτε για χρήση αργότερα όταν δημιουργείτε την πηγή δεδομένων Data Wrangler.
Δημιουργήστε μια διαμόρφωση κύκλου ζωής Studio
Για να δημιουργήσετε μια διαμόρφωση κύκλου ζωής στο Studio, ολοκληρώστε τα παρακάτω βήματα:
- Στην κονσόλα SageMaker, επιλέξτε Διαμορφώσεις κύκλου ζωής στο παράθυρο πλοήγησης.
- Επιλέξτε Δημιουργία διαμόρφωσης.
- Επιλέξτε Εφαρμογή διακομιστή Jupyter.
- Δημιουργήστε μια νέα διαμόρφωση κύκλου ζωής ή προσαρτήστε μια υπάρχουσα με το ακόλουθο περιεχόμενο:
Η διαμόρφωση δημιουργεί ένα αρχείο με το όνομα ".snowflake_identity_provider_oauth_config"
, που περιέχει το μυστικό στον αρχικό φάκελο του χρήστη.
- Επιλέξτε Δημιουργία διαμόρφωσης.
Ορίστε την προεπιλεγμένη ρύθμιση παραμέτρων κύκλου ζωής
Ολοκληρώστε τα παρακάτω βήματα για να ορίσετε ως προεπιλογή τη Διαμόρφωση κύκλου ζωής που μόλις δημιουργήσατε:
- Στην κονσόλα SageMaker, επιλέξτε Domains στο παράθυρο πλοήγησης.
- Επιλέξτε τον τομέα Studio που θα χρησιμοποιήσετε για αυτό το παράδειγμα.
- Στις Περιβάλλον στην καρτέλα Διαμορφώσεις κύκλου ζωής για προσωπικές εφαρμογές Studio τμήμα, επιλέξτε Επισυνάψτε.
- Για Πηγή, Επιλέξτε Υπάρχουσα διαμόρφωση.
- Επιλέξτε τη διαμόρφωση που μόλις κάνατε και μετά επιλέξτε Επισύναψη στον τομέα.
- Επιλέξτε τη νέα διαμόρφωση και επιλέξτε Ορισμός ως προεπιλογή, κατόπιν επιλέξτε Ορισμός ως προεπιλογή ξανά στο αναδυόμενο μήνυμα.
Οι νέες ρυθμίσεις σας θα πρέπει τώρα να είναι ορατές κάτω από Διαμορφώσεις κύκλου ζωής για προσωπικές εφαρμογές Studio ως προεπιλογή.
- Τερματίστε την εφαρμογή Studio και επανεκκινήστε για να τεθούν σε ισχύ οι αλλαγές.
Εμπειρία επιστήμονα δεδομένων
Σε αυτήν την ενότητα, καλύπτουμε πώς οι επιστήμονες δεδομένων μπορούν να συνδεθούν στο Snowflake ως πηγή δεδομένων στο Data Wrangler και να προετοιμάσουν δεδομένα για ML.
Δημιουργήστε μια νέα ροή δεδομένων
Για να δημιουργήσετε τη ροή δεδομένων σας, ακολουθήστε τα παρακάτω βήματα:
- Στην κονσόλα SageMaker, επιλέξτε Στούντιο Amazon SageMaker στο παράθυρο πλοήγησης.
- Επιλέξτε Άνοιγμα στούντιο.
- Στο στούντιο Αρχική σελίδα, επιλέξτε Εισαγωγή και προετοιμασία δεδομένων οπτικά. Εναλλακτικά, στο Αρχεία αναπτυσσόμενο μενού, επιλέξτε Νέα, κατόπιν επιλέξτε SageMaker Data Wrangler Flow.
Η δημιουργία μιας νέας ροής μπορεί να διαρκέσει μερικά λεπτά.
- Στις Εισαγωγή δεδομένων σελίδα, επιλέξτε Δημιουργία σύνδεσης.
- Επιλέξτε Νιφάδα χιονιού από τη λίστα πηγών δεδομένων.
- Για Μέθοδος αυθεντικότητας, επιλέξτε OAuth.
Εάν δεν βλέπετε το OAuth, επαληθεύστε τα προηγούμενα βήματα διαμόρφωσης κύκλου ζωής.
- Εισαγάγετε λεπτομέρειες για Όνομα λογαριασμού Snowflake και Ενσωμάτωση αποθηκευτικού χώρου.
- Εισαγάγετε ένα όνομα σύνδεσης και επιλέξτε Connect.
Ανακατευθυνθείτε σε μια σελίδα ελέγχου ταυτότητας IdP. Για αυτό το παράδειγμα, χρησιμοποιούμε το Okta.
- Εισαγάγετε το όνομα χρήστη και τον κωδικό πρόσβασής σας και, στη συνέχεια, επιλέξτε Συνδεθείτε.
Αφού ολοκληρωθεί με επιτυχία ο έλεγχος ταυτότητας, θα ανακατευθυνθείτε στη σελίδα ροής δεδομένων του Studio.
- Στις Εισαγωγή δεδομένων από το Snowflake σελίδα, περιηγηθείτε στα αντικείμενα της βάσης δεδομένων ή εκτελέστε ένα ερώτημα για τα στοχευμένα δεδομένα.
- Στο πρόγραμμα επεξεργασίας ερωτημάτων, εισαγάγετε ένα ερώτημα και κάντε προεπισκόπηση των αποτελεσμάτων.
Στο παρακάτω παράδειγμα, φορτώνουμε Δεδομένα δανείου και ανακτήστε όλες τις στήλες από 5,000 σειρές.
- Επιλέξτε εισαγωγή.
- Εισαγάγετε ένα όνομα δεδομένων (για αυτήν την ανάρτηση, χρησιμοποιούμε
snowflake_loan_dataset
) και επιλέξτε Πρόσθεση.
Ανακατευθύνεστε στο Προετοιμάστε σελίδα, όπου μπορείτε να προσθέσετε μετασχηματισμούς και αναλύσεις στα δεδομένα.
Το Data Wrangler διευκολύνει την απορρόφηση δεδομένων και την εκτέλεση εργασιών προετοιμασίας δεδομένων, όπως η διερευνητική ανάλυση δεδομένων, η επιλογή χαρακτηριστικών και η μηχανική χαρακτηριστικών. Καλύψαμε μόνο μερικές από τις δυνατότητες του Data Wrangler σε αυτήν την ανάρτηση σχετικά με την προετοιμασία δεδομένων. μπορείτε να χρησιμοποιήσετε το Data Wrangler για πιο προηγμένη ανάλυση δεδομένων, όπως η σημασία χαρακτηριστικών, η διαρροή στόχου και η επεξήγηση του μοντέλου, χρησιμοποιώντας μια εύκολη και διαισθητική διεπαφή χρήστη.
Αναλύστε την ποιότητα των δεδομένων
Χρησιμοποιήστε το Αναφορά ποιότητας δεδομένων και πληροφοριών για να εκτελέσετε μια ανάλυση των δεδομένων που έχετε εισαγάγει στο Data Wrangler. Το Data Wrangler δημιουργεί την αναφορά από τα δεδομένα του δείγματος.
- Στη σελίδα ροής δεδομένων Wrangler, επιλέξτε το σύμβολο συν δίπλα Τύποι δεδομένων, κατόπιν επιλέξτε Λάβετε πληροφορίες δεδομένων.
- Επιλέξτε Αναφορά ποιότητας δεδομένων και πληροφοριών for Τύπος ανάλυσης.
- Για Στήλη στόχου, επιλέξτε τη στήλη-στόχο σας.
- Για Τύπος προβλήματος, Επιλέξτε Ταξινόμηση.
- Επιλέξτε Δημιουργία.
Η αναφορά πληροφοριών περιλαμβάνει μια σύντομη περίληψη των δεδομένων, η οποία περιλαμβάνει γενικές πληροφορίες, όπως τιμές που λείπουν, μη έγκυρες τιμές, τύπους χαρακτηριστικών, μετρήσεις ακραίων τιμών και άλλα. Μπορείτε είτε να κατεβάσετε την αναφορά είτε να την δείτε online.
Προσθέστε μετασχηματισμούς στα δεδομένα
Το Data Wrangler έχει πάνω από 300 ενσωματωμένους μετασχηματισμούς. Σε αυτήν την ενότητα, χρησιμοποιούμε μερικούς από αυτούς τους μετασχηματισμούς για να προετοιμάσουμε το σύνολο δεδομένων για ένα μοντέλο ML.
- Στη σελίδα ροής δεδομένων Wrangler, επιλέξτε το σύμβολο συν και, στη συνέχεια, επιλέξτε Προσθήκη μετασχηματισμού.
Εάν ακολουθείτε τα βήματα της ανάρτησης, κατευθύνεστε αυτόματα εδώ μετά την προσθήκη του συνόλου δεδομένων σας.
- Επαληθεύστε και τροποποιήστε τον τύπο δεδομένων των στηλών.
Κοιτάζοντας μέσα από τις στήλες, το αναγνωρίζουμε αυτό MNTHS_SINCE_LAST_DELINQ
και MNTHS_SINCE_LAST_RECORD
θα πρέπει πιθανότατα να αντιπροσωπεύεται ως τύπος αριθμού και όχι ως συμβολοσειρά.
- Αφού εφαρμόσετε τις αλλαγές και προσθέσετε το βήμα, μπορείτε να επαληθεύσετε ότι ο τύπος δεδομένων της στήλης έχει αλλάξει σε float.
Κοιτάζοντας τα δεδομένα, μπορούμε να δούμε ότι τα πεδία EMP_TITLE
, URL
, DESCRIPTION
, να TITLE
πιθανότατα δεν θα δώσει αξία στο μοντέλο μας στην περίπτωση χρήσης μας, οπότε μπορούμε να τα απορρίψουμε.
- Επιλέξτε Προσθέστε το βήμα, κατόπιν επιλέξτε Διαχείριση στηλών.
- Για Μεταμορφώστε, επιλέξτε Πτώση στήλης.
- Για Στήλη προς πτώση, καθορίστε
EMP_TITLE
,URL
,DESCRIPTION
, ναTITLE
. - Επιλέξτε Προβολή και Πρόσθεση.
Στη συνέχεια, θέλουμε να αναζητήσουμε κατηγορηματικά δεδομένα στο σύνολο δεδομένων μας. Το Data Wrangler έχει μια ενσωματωμένη λειτουργικότητα για την κωδικοποίηση κατηγορηματικών δεδομένων χρησιμοποιώντας κωδικοποιήσεις κανονικής και απλής. Κοιτάζοντας το σύνολο δεδομένων μας, μπορούμε να δούμε ότι το TERM
, HOME_OWNERSHIP
, να PURPOSE
όλες οι στήλες φαίνεται να είναι κατηγορηματικής φύσης.
- Προσθέστε άλλο ένα βήμα και επιλέξτε Κωδικοποιήστε κατηγορηματικά.
- Για Μεταμορφώστε, επιλέξτε One-hot κωδικοποίηση.
- Για Στήλη εισαγωγής, επιλέξτε
TERM
. - Για Στυλ εξόδου, επιλέξτε Στήλες.
- Αφήστε όλες τις άλλες ρυθμίσεις ως προεπιλογές και, στη συνέχεια, επιλέξτε Προβολή και Πρόσθεση.
Η HOME_OWNERSHIP
Η στήλη έχει τέσσερις πιθανές τιμές: RENT
, MORTGAGE
, OWN
, και άλλες.
- Επαναλάβετε τα προηγούμενα βήματα για να εφαρμόσετε μια προσέγγιση κωδικοποίησης one-hot σε αυτές τις τιμές.
Τέλος, η PURPOSE
στήλη έχει πολλές πιθανές τιμές. Για αυτά τα δεδομένα, χρησιμοποιούμε επίσης μια προσέγγιση κωδικοποίησης μίας δέσμης, αλλά ορίζουμε την έξοδο σε διάνυσμα και όχι σε στήλες.
- Για Μεταμορφώστε, επιλέξτε One-hot κωδικοποίηση.
- Για Στήλη εισαγωγής, επιλέξτε
PURPOSE
. - Για Στυλ εξόδου, επιλέξτε διάνυσμα.
- Για Στήλη εξόδου, ονομάζουμε αυτήν τη στήλη
PURPOSE_VCTR
.
Αυτό διατηρεί το πρωτότυπο PURPOSE
αν αποφασίσουμε να το χρησιμοποιήσουμε αργότερα.
- Αφήστε όλες τις άλλες ρυθμίσεις ως προεπιλογές και, στη συνέχεια, επιλέξτε Προβολή και Πρόσθεση.
Εξαγωγή της ροής δεδομένων
Τέλος, εξάγουμε ολόκληρη αυτή τη ροή δεδομένων σε ένα χώρο αποθήκευσης χαρακτηριστικών με μια εργασία επεξεργασίας SageMaker, η οποία δημιουργεί ένα σημειωματάριο Jupyter με τον κώδικα προσυμπληρωμένο.
- Στη σελίδα ροής δεδομένων , επιλέξτε το σύμβολο συν και Εξαγωγή στο.
- Επιλέξτε πού θα εξαγάγετε. Για την περίπτωση χρήσης μας, επιλέγουμε Κατάστημα χαρακτηριστικών SageMaker.
Το εξαγόμενο σημειωματάριο είναι τώρα έτοιμο για εκτέλεση.
Εξαγωγή δεδομένων και εκπαίδευση μοντέλου με Autopilot
Τώρα μπορούμε να εκπαιδεύσουμε το μοντέλο χρησιμοποιώντας Αυτόματος πιλότος Amazon SageMaker.
- Στη σελίδα ροής δεδομένων, επιλέξτε το Εκπαίδευση Tab.
- Για Τοποθεσία Amazon S3, εισαγάγετε μια θέση για την αποθήκευση των δεδομένων.
- Επιλέξτε Εξαγωγή και τρένο.
- Καθορίστε τις ρυθμίσεις στο Στόχος και χαρακτηριστικά, Μέθοδος εκπαίδευσης, Ρυθμίσεις ανάπτυξης και εκ των προτέρων, να Ελέγξτε και δημιουργήστε ενότητες.
- Επιλέξτε Δημιουργία πειράματος για να βρείτε το καλύτερο μοντέλο για το πρόβλημά σας.
εκκαθάριση
Εάν η εργασία σας με το Data Wrangler έχει ολοκληρωθεί, τερματίστε την παρουσία δεδομένων Wrangler για να αποφευχθούν επιπλέον χρεώσεις.
Συμπέρασμα
Σε αυτήν την ανάρτηση, δείξαμε τη σύνδεση Data Wrangler σε Snowflake χρησιμοποιώντας OAuth, μετασχηματίζοντας και αναλύοντας ένα σύνολο δεδομένων και, τέλος, εξάγοντάς το στη ροή δεδομένων, ώστε να μπορεί να χρησιμοποιηθεί σε ένα σημειωματάριο Jupyter. Πιο συγκεκριμένα, δημιουργήσαμε μια διοχέτευση για την προετοιμασία δεδομένων χωρίς να χρειάζεται να γράψουμε κανέναν απολύτως κώδικα.
Για να ξεκινήσετε με το Data Wrangler, δείτε Προετοιμάστε τα δεδομένα ML με το Amazon SageMaker Data Wrangler.
Σχετικά με τους συγγραφείς
Ajjay Govindaram είναι Senior Solutions Architect στην AWS. Συνεργάζεται με στρατηγικούς πελάτες που χρησιμοποιούν AI/ML για την επίλυση σύνθετων επιχειρηματικών προβλημάτων. Η εμπειρία του έγκειται στην παροχή τεχνικής καθοδήγησης καθώς και στη σχεδιαστική βοήθεια για μικρές έως μεγάλης κλίμακας αναπτύξεις εφαρμογών AI/ML. Οι γνώσεις του κυμαίνονται από την αρχιτεκτονική εφαρμογών έως τα μεγάλα δεδομένα, την ανάλυση και τη μηχανική μάθηση. Του αρέσει να ακούει μουσική ενώ ξεκουράζεται, να βιώνει την ύπαιθρο και να περνά χρόνο με τα αγαπημένα του πρόσωπα.
Μπόσκο Αλμπουκέρκη είναι Sr. Partner Solutions Architect στην AWS και έχει πάνω από 20 χρόνια εμπειρίας στη συνεργασία με προϊόντα βάσεων δεδομένων και αναλυτικών στοιχείων από προμηθευτές εταιρικών βάσεων δεδομένων και παρόχους cloud. Έχει βοηθήσει μεγάλες εταιρείες τεχνολογίας να σχεδιάσουν λύσεις ανάλυσης δεδομένων και έχει οδηγήσει ομάδες μηχανικών στο σχεδιασμό και την υλοποίηση πλατφορμών ανάλυσης δεδομένων και προϊόντων δεδομένων.
Ματ Μαρτζίλο είναι Sr. Partner Sales Engineer στο Snowflake. Έχει 10 χρόνια εμπειρίας στην επιστήμη δεδομένων και σε ρόλους μηχανικής μάθησης τόσο σε συμβουλευτικές όσο και σε βιομηχανικούς οργανισμούς. Ο Matt έχει εμπειρία στην ανάπτυξη και ανάπτυξη μοντέλων AI και ML σε πολλούς διαφορετικούς οργανισμούς σε τομείς όπως το μάρκετινγκ, οι πωλήσεις, οι λειτουργίες, η κλινική και η χρηματοδότηση, καθώς και παροχή συμβουλών σε συμβουλευτικούς ρόλους.
Huong Nguyen είναι ηγέτης προϊόντων για το Amazon SageMaker Data Wrangler στην AWS. Διαθέτει 15 χρόνια εμπειρίας στη δημιουργία προϊόντων με εμμονή με τους πελάτες και βασισμένα στα δεδομένα τόσο για επιχειρηματικούς όσο και για καταναλωτικούς χώρους. Στον ελεύθερο χρόνο της, της αρέσει τα ηχητικά βιβλία, η κηπουρική, η πεζοπορία και ο χρόνος με την οικογένεια και τους φίλους της.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- Platoblockchain. Web3 Metaverse Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- πηγή: https://aws.amazon.com/blogs/machine-learning/access-snowflake-data-using-oauth-based-authentication-in-amazon-sagemaker-data-wrangler/
- :είναι
- $UP
- 000
- 10
- 100
- 15 χρόνια
- 20 χρόνια
- 7
- 8
- 9
- a
- Ικανός
- ΠΛΗΡΟΦΟΡΙΕΣ
- πρόσβαση
- Πρόσβαση σε δεδομένα
- πρόσβαση
- Λογαριασμός
- απέναντι
- Ad
- Επιπλέον
- Πρόσθετος
- διαχειριστής
- εκ των προτέρων
- προηγμένες
- συμβουλεύοντας
- Μετά το
- AI
- AI / ML
- Όλα
- Amazon
- Amazon Sage Maker
- Amazon SageMaker Data Wrangler
- αναλύσεις
- ανάλυση
- analytics
- αναλύσει
- αναλύοντας
- και
- Άλλος
- api
- app
- εμφανίζομαι
- Εφαρμογή
- Εφαρμογή
- εφαρμόζοντας
- πλησιάζω
- εφαρμογές
- αρχιτεκτονική
- ΕΙΝΑΙ
- περιοχές
- AS
- Βοήθεια
- συσχετισμένη
- At
- αποδίδουν
- ακροατήριο
- ήχου
- πιστοποιώ την αυθεντικότητα
- Πιστοποίηση
- εξουσιοδότηση
- αυτοματοποίηση
- αυτομάτως
- AWS
- Γαλανός
- BE
- επειδή
- πριν
- αρχίζουν
- ΚΑΛΎΤΕΡΟΣ
- Μεγάλος
- Big Data
- σώμα
- Βιβλία
- ενσωματωμένο
- επιχείρηση
- by
- κλήση
- που ονομάζεται
- CAN
- δυνατότητες
- περίπτωση
- CAT
- Αλλαγές
- επιλογή
- Επιλέξτε
- πελάτης
- Κλινικός
- Backup
- κωδικός
- Στήλη
- Στήλες
- Εταιρείες
- πλήρης
- συγκρότημα
- έννοια
- διαμόρφωση
- Connect
- Συνδετικός
- σύνδεση
- πρόξενος
- συμβουλευτικές
- καταναλωτής
- περιεχόμενο
- θα μπορούσε να
- κάλυμμα
- καλύπτονται
- δημιουργία
- δημιουργήθηκε
- δημιουργεί
- δημιουργία
- Διαπιστεύσεις
- Πελάτες
- ημερομηνία
- ανάλυση δεδομένων
- Δεδομένα Analytics
- Πλατφόρμα δεδομένων
- Προετοιμασία δεδομένων
- επιστημονικά δεδομένα
- επιστήμονας δεδομένων
- βασίζονται σε δεδομένα
- βάση δεδομένων
- αποφασίζει
- Προεπιλογή
- κατέδειξε
- ανάπτυξη
- αναπτύξεις
- Υπηρεσίες
- σχέδιο
- λεπτομέρεια
- καθέκαστα
- ανάπτυξη
- διαφορετικές
- κατεύθυνση
- κατευθείαν
- διακριτή
- τεκμηρίωση
- Όχι
- τομέα
- Μην
- κάτω
- κατεβάσετε
- Πτώση
- κάθε
- συντάκτης
- αποτέλεσμα
- είτε
- ενεργοποιήσετε
- μηχανικός
- Μηχανική
- εισάγετε
- Εταιρεία
- Περιβάλλον
- παράδειγμα
- υφιστάμενα
- εμπειρία
- βιώνουν
- Διερευνητική Ανάλυση Δεδομένων
- εξαγωγή
- εξωτερικός
- ΑΠΟΤΥΓΧΑΝΩ
- οικογένεια
- Χαρακτηριστικό
- Χαρακτηριστικά
- Τελη Εγγραφης
- λίγοι
- πεδίο
- Πεδία
- Αρχεία
- Τελικά
- χρηματοδότηση
- Εύρεση
- φλοτέρ
- ροή
- Εξής
- Για
- μορφή
- Συχνότητα
- συχνά
- φίλους
- από
- λειτουργικότητα
- General
- παίρνω
- δίνει
- χορηγεί
- μεγαλύτερη
- Οδηγοί
- Έχω
- που έχει
- βοήθεια
- βοήθησε
- εδώ
- Αρχική
- Πως
- Πώς να
- HTML
- http
- HTTPS
- ID
- αναγνωριστικό
- προσδιορίσει
- Ταυτότητα
- Idle
- εκτελεστικών
- εισαγωγή
- σπουδαιότητα
- in
- περιλαμβάνει
- Συμπεριλαμβανομένου
- εσφαλμένα
- βιομηχανία
- πληροφορίες
- εισαγωγή
- διορατικότητα
- ιδέες
- οδηγίες
- ολοκλήρωση
- ολοκληρώσεις
- περιβάλλον λειτουργίας
- διαισθητική
- συμμετέχουν
- IT
- Δουλειά
- Θέσεις εργασίας
- jpg
- Κλειδί
- γνώση
- large
- μεγάλης κλίμακας
- ηγέτης
- μάθηση
- Led
- βρίσκεται
- κύκλος ζωής
- Διάρκεια Ζωής
- Μου αρέσει
- Πιθανός
- Λιστα
- Ακούγοντας
- φορτίο
- φορτία
- τοποθεσία
- ματιά
- κοιτάζοντας
- αγάπησε
- μηχανή
- μάθηση μηχανής
- που
- κάνω
- ΚΑΝΕΙ
- Κατασκευή
- διευθυντής
- πολοί
- Μάρκετινγκ
- μήνυμα
- ενδέχεται να
- Λεπτ.
- Λείπει
- ML
- μοντέλο
- μοντέλα
- τροποποιήσει
- περισσότερο
- πλέον
- πολλαπλούς
- Μουσική
- όνομα
- ονόματα
- Φύση
- Πλοήγηση
- Ανάγκη
- χρειάζονται
- ανάγκες
- Νέα
- επόμενη
- ιδιαίτερα
- σημειωματάριο
- αριθμός
- Ωχ
- αντικειμένων
- of
- ΟΚΤΑ
- on
- ONE
- διαδικτυακά (online)
- λειτουργίες
- Επιλογή
- οργανώσεις
- πρωτότυπο
- ΑΛΛΑ
- αλλιώς
- ύπαιθρο
- παραγωγή
- δική
- σελίδα
- ζεύγη
- παράθυρο
- εταίρος
- Κωδικός Πρόσβασης
- Εκτελέστε
- δικαιώματα
- προσωπικός
- αγωγού
- πλατφόρμες
- Πλατφόρμες
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- συν
- Πολιτικές
- pop-up
- δυνατός
- Θέση
- προτιμάται
- Προετοιμάστε
- προαπαιτούμενα
- Προβολή
- προηγούμενος
- Πρόβλημα
- προβλήματα
- διαδικασίες
- διαδικασια μας
- μεταποίηση
- Προϊόν
- Προϊόντα
- Προφίλ ⬇️
- Προγραμματισμός
- δεόντως
- παρέχουν
- παρέχεται
- προμηθευτής
- Παρόχους υπηρεσιών
- παρέχει
- χορήγηση
- ποιότητα
- μάλλον
- έτοιμος
- συνιστώ
- διευθύνω πάλιν
- μείωση
- περιοχή
- κάντε ΕΓΓΡΑΦΗ
- εγγραφή
- Εγγραφή
- επανεκκίνηση
- αναφέρουν
- εκπροσωπούνται
- απαιτούν
- εκείνοι
- ΠΕΡΙΦΕΡΕΙΑ
- αποτέλεσμα
- Αποτελέσματα
- λιανική πώληση
- Ρόλος
- ρόλους
- τρέξιμο
- τρέξιμο
- σοφός
- εμπορικός
- προγραμματισμός
- Επιστήμη
- Επιστήμονας
- επιστήμονες
- έκταση
- Μυστικό
- Τμήμα
- τμήματα
- ασφάλεια
- επιλογή
- αρχαιότερος
- Ευαισθησία
- σειρά
- τον καθορισμό
- ρυθμίσεις
- διάφοροι
- κέλυφος
- θα πρέπει να
- δείχνουν
- υπογράψουν
- Απλούς
- ενιαίας
- So
- Λύσεις
- SOLVE
- μερικοί
- Πηγή
- Πηγές
- χώρων
- Δαπάνες
- ξεκίνησε
- ξεκινά
- Βήμα
- Βήματα
- χώρος στο δίσκο
- κατάστημα
- αποθηκεύονται
- εναποθήκευση
- Στρατηγική
- Σπάγγος
- στούντιο
- επιτυχής
- τέτοιος
- ΠΕΡΙΛΗΨΗ
- υποστήριξη
- Υποστηρίζει
- TAG
- Πάρτε
- παίρνει
- στόχος
- στοχευμένες
- εργασίες
- ομάδες
- Τεχνικός
- Τεχνολογία
- εταιρείες τεχνολογίας
- ότι
- Η
- οι πληροφορίες
- τους
- Τους
- Αυτοί
- Μέσω
- ώρα
- προς την
- ένδειξη
- κουπόνια
- Τρένο
- Μεταμορφώστε
- μετασχηματισμούς
- μετασχηματίζοντας
- τύποι
- υπό
- καταλαβαίνω
- μοναδικός
- Ενημέρωση
- URL
- χρήση
- περίπτωση χρήσης
- Χρήστες
- Διεπαφής χρήστη
- Χρήστες
- αξία
- Αξίες
- πωλητές
- επαληθεύει
- μέσω
- Δες
- ορατός
- περιδιάβαση
- προειδοποίηση
- Εβδ.
- ΛΟΙΠΌΝ
- Ποιό
- ενώ
- Ο ΟΠΟΊΟΣ
- ολόκληρο
- θα
- με
- εντός
- χωρίς
- Εργασία
- ροές εργασίας
- εργαζόμενος
- λειτουργεί
- γράφω
- γραφή
- χρόνια
- Εσείς
- Σας
- zephyrnet