Amazon SageMaker Data Wrangler μειώνει τον χρόνο που χρειάζεται για τη συγκέντρωση και την προετοιμασία δεδομένων για μηχανική εκμάθηση (ML) από εβδομάδες σε λεπτά στο Amazon SageMaker Studio. Το Data Wrangler σάς επιτρέπει να έχετε πρόσβαση σε δεδομένα από μια μεγάλη ποικιλία δημοφιλών πηγών (Amazon S3, Αμαζόν Αθηνά, Amazon RedShift, EMR Αμαζονίου και Snowflake) και πάνω από 40 άλλες πηγές τρίτων. Από σήμερα, μπορείτε να συνδεθείτε με EMR Αμαζονίου Hive ως μηχανή αναζήτησης μεγάλων δεδομένων για να φέρει μεγάλα σύνολα δεδομένων για ML.
Η συγκέντρωση και η προετοιμασία μεγάλων ποσοτήτων δεδομένων είναι ένα κρίσιμο μέρος της ροής εργασίας ML. Οι επιστήμονες δεδομένων και οι μηχανικοί δεδομένων χρησιμοποιούν τα Apache Spark, Apache Hive και Presto που εκτελούνται στο Amazon EMR για επεξεργασία δεδομένων μεγάλης κλίμακας. Αυτή η ανάρτηση ιστολογίου θα εξετάσει τον τρόπο με τον οποίο οι επαγγελματίες δεδομένων μπορούν να χρησιμοποιήσουν την οπτική διεπαφή του SageMaker Data Wrangler για να εντοπίσουν και να συνδεθούν με υπάρχοντα συμπλέγματα EMR του Amazon με τελικά σημεία Hive. Για να προετοιμαστούν για μοντελοποίηση ή αναφορά, μπορούν να αναλύσουν οπτικά τη βάση δεδομένων, τους πίνακες, το σχήμα και τα ερωτήματα του συγγραφέα Hive για να δημιουργήσουν το σύνολο δεδομένων ML. Στη συνέχεια, μπορούν γρήγορα να προφίλ δεδομένων χρησιμοποιώντας την οπτική διεπαφή Data Wrangler για να αξιολογήσουν την ποιότητα των δεδομένων, να εντοπίσουν ανωμαλίες και ελλιπή ή λανθασμένα δεδομένα και να λάβουν συμβουλές για τον τρόπο αντιμετώπισης αυτών των προβλημάτων. Μπορούν να αξιοποιήσουν πιο δημοφιλείς ενσωματωμένες αναλύσεις και 300+ ενσωματωμένους μετασχηματισμούς που υποστηρίζονται από το Spark για να αναλύσουν, να καθαρίσουν και να επεξεργαστούν χαρακτηριστικά χωρίς να γράψουν ούτε μια γραμμή κώδικα. Τέλος, μπορούν επίσης να εκπαιδεύσουν και να αναπτύξουν μοντέλα με Αυτόματο πιλότο SageMaker, προγραμματίστε εργασίες ή εφαρμόστε την προετοιμασία δεδομένων σε έναν αγωγό SageMaker από την οπτική διεπαφή του Data Wrangler.
Επισκόπηση λύσεων
Με τις ρυθμίσεις του SageMaker Studio, οι επαγγελματίες δεδομένων μπορούν γρήγορα να αναγνωρίσουν και να συνδεθούν με υπάρχοντα συμπλέγματα EMR. Επιπλέον, οι επαγγελματίες δεδομένων μπορούν να ανακαλύψουν συμπλέγματα EMR από Το SageMaker Studio χρησιμοποιεί προκαθορισμένα πρότυπα κατ' απαίτηση σε λίγα μόνο κλικ. Οι πελάτες μπορούν να χρησιμοποιήσουν το καθολικό σημειωματάριο SageMaker Studio και να γράψουν κώδικα Apache Spark, Κυψέλη, Presto or PySpark να εκτελέσει προετοιμασία δεδομένων σε κλίμακα. Ωστόσο, δεν είναι όλοι οι επαγγελματίες δεδομένων εξοικειωμένοι με τη σύνταξη κώδικα Spark για την προετοιμασία δεδομένων, επειδή υπάρχει μια απότομη καμπύλη εκμάθησης. Τώρα μπορούν να συνδεθούν γρήγορα και απλά στο Amazon EMR χωρίς να γράψουν ούτε μια γραμμή κώδικα, χάρη στο Amazon EMR που αποτελεί πηγή δεδομένων για το Amazon SageMaker Data Wrangler.
Το παρακάτω διάγραμμα αντιπροσωπεύει τα διάφορα συστατικά που χρησιμοποιούνται σε αυτήν τη λύση.
Παρουσιάζουμε δύο επιλογές ελέγχου ταυτότητας που μπορούν να χρησιμοποιηθούν για τη δημιουργία σύνδεσης με το σύμπλεγμα EMR. Για κάθε επιλογή, αναπτύσσουμε μια μοναδική στοίβα από AWS CloudFormation πρότυπα.
Το πρότυπο CloudFormation εκτελεί τις ακόλουθες ενέργειες όταν επιλέγεται κάθε επιλογή:
- Δημιουργεί έναν τομέα Studio σε λειτουργία μόνο VPC, μαζί με ένα προφίλ χρήστη με όνομα
studio-user
. - Δημιουργεί δομικά στοιχεία, συμπεριλαμβανομένων του VPC, των τελικών σημείων, των υποδικτύων, των ομάδων ασφαλείας, του συμπλέγματος EMR και άλλων απαιτούμενων πόρων για την επιτυχή εκτέλεση των παραδειγμάτων.
- Για το σύμπλεγμα EMR, συνδέει τον κατάλογο δεδομένων κόλλας AWS ως μετακατάστημα για το EMR Hive και το Presto, δημιουργεί έναν πίνακα Hive στο EMR και τον γεμίζει με δεδομένα από ένα Στοιχεία δεδομένων αεροδρομίου των ΗΠΑ.
- Για το πρότυπο LDAP CloudFormation, δημιουργεί ένα Amazon Elastic Compute Cloud (Amazon EC2) για να φιλοξενήσει τον διακομιστή LDAP για τον έλεγχο ταυτότητας του χρήστη Hive και Presto LDAP.
Επιλογή 1: Lightweight Access Directory Protocol
Για το πρότυπο ελέγχου ταυτότητας LDAP CloudFormation, παρέχουμε μια παρουσία Amazon EC2 με έναν διακομιστή LDAP και διαμορφώνουμε το σύμπλεγμα EMR ώστε να χρησιμοποιεί αυτόν τον διακομιστή για έλεγχο ταυτότητας. Αυτό είναι ενεργοποιημένο το TLS.
Επιλογή 2: Όχι-Auth
Στο πρότυπο ελέγχου ταυτότητας No-Auth CloudFormation, χρησιμοποιούμε ένα τυπικό σύμπλεγμα EMR χωρίς ενεργοποιημένο έλεγχο ταυτότητας.
Αναπτύξτε τους πόρους με το AWS CloudFormation
Ολοκληρώστε τα παρακάτω βήματα για την ανάπτυξη του περιβάλλοντος:
- Συνδεθείτε στο Κονσόλα διαχείρισης AWS ως Διαχείριση ταυτότητας και πρόσβασης AWS (IAM), κατά προτίμηση διαχειριστής.
- Επιλέξτε Εκκίνηση στοίβας για να εκκινήσετε το πρότυπο CloudFormation για το κατάλληλο σενάριο ελέγχου ταυτότητας. Βεβαιωθείτε ότι η περιοχή που χρησιμοποιήθηκε για την ανάπτυξη της στοίβας CloudFormation δεν έχει υπάρχοντα Studio Domain. Εάν έχετε ήδη έναν τομέα Studio σε μια περιοχή, μπορείτε να επιλέξετε διαφορετική Περιοχή.
LDAP Όχι Auth - Επιλέξτε Επόμενο.
- Για Όνομα στοίβας, εισαγάγετε ένα όνομα για τη στοίβα (για παράδειγμα,
dw-emr-hive-blog
). - Αφήστε τις άλλες τιμές ως προεπιλογή.
- Για να συνεχίσετε, επιλέξτε Επόμενο από τη σελίδα λεπτομερειών στοίβας και τις επιλογές στοίβας.
Η στοίβα LDAP χρησιμοποιεί τα ακόλουθα διαπιστευτήρια.- όνομα χρήστη:
david
- κωδικός:
welcome123
- όνομα χρήστη:
- Στη σελίδα ελέγχου, επιλέξτε το πλαίσιο ελέγχου για να επιβεβαιώσετε ότι το AWS CloudFormation ενδέχεται να δημιουργήσει πόρους.
- Επιλέξτε Δημιουργία στοίβας. Περιμένετε μέχρι να αλλάξει η κατάσταση της στοίβας από
CREATE_IN_PROGRESS
προς τηνCREATE_COMPLETE
. Η διαδικασία διαρκεί συνήθως 10-15 λεπτά.
Ρυθμίστε το Amazon EMR ως πηγή δεδομένων στο Data Wrangler
Σε αυτήν την ενότητα, καλύπτουμε τη σύνδεση με το υπάρχον σύμπλεγμα EMR του Amazon που δημιουργήθηκε μέσω του προτύπου CloudFormation ως πηγή δεδομένων στο Data Wrangler.
Δημιουργήστε μια νέα ροή δεδομένων
Για να δημιουργήσετε τη ροή δεδομένων σας, ακολουθήστε τα παρακάτω βήματα:
- Στην κονσόλα SageMaker, κάντε κλικ Domains, στη συνέχεια κάντε κλικ στο StudioDomain δημιουργήθηκε εκτελώντας πάνω από το πρότυπο CloudFormation.
- Αγορά στούντιο-χρήστης προφίλ χρήστη και εκκινήστε το Studio.
- Επιλέξτε Ανοιχτό στούντιο.
- Στην κονσόλα Studio Home, επιλέξτε Εισαγωγή και προετοιμασία δεδομένων οπτικά. Εναλλακτικά, στο Αρχεία αναπτυσσόμενο μενού, επιλέξτε Νέα, κατόπιν επιλέξτε Ροή Wrangler δεδομένων.
- Η δημιουργία μιας νέας ροής μπορεί να διαρκέσει μερικά λεπτά. Αφού δημιουργηθεί η ροή, βλέπετε το Εισαγωγή δεδομένων .
- Προσθέστε το Amazon EMR ως πηγή δεδομένων στο Data Wrangler. Στο Προσθήκη πηγής δεδομένων μενού, επιλέξτε Amazon EMR.
Μπορείτε να περιηγηθείτε σε όλα τα συμπλέγματα EMR που έχει δικαιώματα να δει ο ρόλος εκτέλεσης στο Studio. Έχετε δύο επιλογές για να συνδεθείτε σε ένα σύμπλεγμα. το ένα είναι μέσω διαδραστικής διεπαφής χρήστη και το άλλο είναι πρώτα δημιουργήστε ένα μυστικό χρησιμοποιώντας το AWS Secrets Manager με JDBC URL, συμπεριλαμβανομένων των πληροφοριών συμπλέγματος EMR και, στη συνέχεια, παρέχετε το αποθηκευμένο μυστικό ARN AWS στη διεπαφή χρήστη για σύνδεση στο Hive. Σε αυτό το blog, ακολουθούμε την πρώτη επιλογή.
- Επιλέξτε ένα από τα ακόλουθα συμπλέγματα που θέλετε να χρησιμοποιήσετε. Κάντε κλικ στο Επόμενοκαι επιλέξτε τελικά σημεία.
- Αγορά Κυψέλη, συνδεθείτε στο Amazon EMR, δημιουργήστε ένα όνομα για να προσδιορίσετε τη σύνδεσή σας και κάντε κλικ Επόμενο.
- Επιλέξτε τύπο ελέγχου ταυτότητας Ελαφρύ πρωτόκολλο πρόσβασης καταλόγου (LDAP) or Χωρίς έλεγχο ταυτότητας.
Για Lightweight Directory Access Protocol (LDAP), επιλέξτε την επιλογή και κάντε κλικ Στη συνέχεια, συνδεθείτε στο cluster, στη συνέχεια δώστε όνομα χρήστη και κωδικό πρόσβασης για έλεγχο ταυτότητας και κάντε κλικ στην επιλογή Σύνδεση.
Για Χωρίς έλεγχο ταυτότητας, θα συνδεθείτε στο EMR Hive χωρίς να παρέχετε διαπιστευτήρια χρήστη εντός του VPC. Εισαγάγετε τη σελίδα εξερεύνησης SQL του Data Wrangler για EMR.
- Μόλις συνδεθείτε, μπορείτε να προβάλετε διαδραστικά ένα δέντρο βάσης δεδομένων και μια προεπισκόπηση ή ένα σχήμα πίνακα. Μπορείτε επίσης να ρωτήσετε, να εξερευνήσετε και να οπτικοποιήσετε δεδομένα από το EMR. Για προεπισκόπηση, θα δείτε ένα όριο 100 εγγραφών από προεπιλογή. Μόλις παρέχετε μια δήλωση SQL στο πλαίσιο επεξεργασίας ερωτήματος και κάντε κλικ στο τρέξιμο κουμπί, το ερώτημα θα εκτελεστεί στη μηχανή Hive του EMR για προεπισκόπηση των δεδομένων.
Η Ακύρωση ερωτήματος Το κουμπί επιτρέπει την ακύρωση των συνεχιζόμενων ερωτημάτων εάν διαρκούν ασυνήθιστα μεγάλο χρονικό διάστημα.
- Το τελευταίο βήμα είναι η εισαγωγή. Μόλις είστε έτοιμοι με τα ερωτούμενα δεδομένα, έχετε επιλογές να ενημερώσετε τις ρυθμίσεις δειγματοληψίας για την επιλογή δεδομένων σύμφωνα με τον τύπο δειγματοληψίας (FirstK, Random ή Stratified) και το μέγεθος δειγματοληψίας για την εισαγωγή δεδομένων στο Data Wrangler.
Πατήστε εισαγωγή. Η σελίδα προετοιμασίας θα φορτωθεί, επιτρέποντάς σας να προσθέσετε διάφορους μετασχηματισμούς και ουσιαστική ανάλυση στο σύνολο δεδομένων.
- Πλοηγηθείτε στο Ροή δεδομένων από την επάνω οθόνη και προσθέστε περισσότερα βήματα στη ροή όπως απαιτείται για μετασχηματισμούς και ανάλυση. Μπορείτε να εκτελέσετε ένα έκθεση πληροφοριών δεδομένων για τον εντοπισμό προβλημάτων ποιότητας δεδομένων και τη λήψη συστάσεων για την επίλυση αυτών των προβλημάτων. Ας δούμε μερικά παραδείγματα μετασχηματισμών.
- Στο Ροή δεδομένων προβολή, θα πρέπει να δείτε ότι χρησιμοποιούμε το EMR ως πηγή δεδομένων χρησιμοποιώντας την υποδοχή Hive.
- Ας κάνουμε κλικ στο + κουμπί προς τα δεξιά του Τύποι δεδομένων και επιλέξτε Προσθήκη μετασχηματισμού. Όταν το κάνετε αυτό, θα επιστρέψετε στο ημερομηνία θέα.
Ας εξερευνήσουμε τα δεδομένα. Βλέπουμε ότι έχει πολλαπλά χαρακτηριστικά όπως π.χ iata_code, αεροδρόμιο, πόλη, κατάσταση, χώρα, γεωγραφικό πλάτος, να γεωγραφικό μήκος. Μπορούμε να δούμε ότι ολόκληρο το σύνολο δεδομένων βασίζεται σε μια χώρα, που είναι οι ΗΠΑ, και λείπουν τιμές γεωγραφικό πλάτος και γεωγραφικό μήκος. Η έλλειψη δεδομένων μπορεί να προκαλέσει μεροληψία στην εκτίμηση των παραμέτρων και μπορεί να μειώσει την αντιπροσωπευτικότητα των δειγμάτων, επομένως πρέπει να εκτελέσουμε απόδοση και να χειριστεί τις τιμές που λείπουν στο σύνολο δεδομένων μας.
- Ας κάνουμε κλικ στο Προσθέστε το βήμα κουμπί στη γραμμή πλοήγησης στα δεξιά. Επιλέγω Λείπει η λαβή. Οι διαμορφώσεις φαίνονται στα ακόλουθα στιγμιότυπα οθόνης.
Κάτω από Μεταμορφώνω, επιλέξτε Αποδίδω. Επιλέξτε το Τύπος στήλης as Αριθμητικός και Στήλη εισαγωγής ονόματα γεωγραφικό πλάτος και γεωγραφικό μήκος. Θα υπολογίσουμε τις τιμές που λείπουν χρησιμοποιώντας μια κατά προσέγγιση διάμεση τιμή.
Πρώτα κάντε κλικ στο Προβολή για να δείτε την τιμή που λείπει και, στη συνέχεια, κάντε κλικ στην ενημέρωση για να προσθέσετε τον μετασχηματισμό.
- Ας δούμε τώρα ένα άλλο παράδειγμα μετασχηματισμού. Κατά τη δημιουργία ενός μοντέλου ML, οι στήλες αφαιρούνται εάν είναι περιττές ή δεν βοηθούν το μοντέλο σας. Ο πιο συνηθισμένος τρόπος για να αφαιρέσετε μια στήλη είναι να την αποθέσετε. Στο σύνολο δεδομένων μας, το χαρακτηριστικό χώρα μπορεί να απορριφθεί, καθώς το σύνολο δεδομένων προορίζεται ειδικά για δεδομένα αεροδρομίου των ΗΠΑ. Για να διαχειριστείτε στήλες, κάντε κλικ στο Προσθέστε βήμα κουμπί στη γραμμή πλοήγησης προς τα δεξιά και επιλέξτε Διαχείριση στηλών. Οι διαμορφώσεις φαίνονται στα ακόλουθα στιγμιότυπα οθόνης. Υπό Μεταμορφώστε, Επιλέξτε Πτώση στήλης, και κάτω από Στήλες για πτώση, Επιλέξτε χώρα.
- Κάντε κλικ στο Προβολή και στη συνέχεια Ενημέρωση να ρίξει τη στήλη.
- Το Feature Store είναι ένα αποθετήριο για αποθήκευση, κοινή χρήση και διαχείριση λειτουργιών για μοντέλα ML. Ας κάνουμε κλικ στο + κουμπί προς τα δεξιά του Πτώση στήλης. Επιλέγω Εξαγωγή στο Και επιλέξτε Κατάστημα χαρακτηριστικών SageMaker (μέσω σημειωματάριου Jupyter).
- Επιλέγοντας Κατάστημα χαρακτηριστικών SageMaker Ως προορισμός, μπορείτε να αποθηκεύσετε τις δυνατότητες σε μια υπάρχουσα ομάδα χαρακτηριστικών ή να δημιουργήσετε μια νέα.
Τώρα δημιουργήσαμε δυνατότητες με το Data Wrangler και αποθηκεύσαμε εύκολα αυτές τις δυνατότητες στο Κατάστημα δυνατοτήτων. Δείξαμε ένα παράδειγμα ροής εργασιών για τη μηχανική χαρακτηριστικών στο Data Wrangler UI. Στη συνέχεια, αποθηκεύσαμε αυτές τις δυνατότητες στο Κατάστημα δυνατοτήτων απευθείας από το Data Wrangler δημιουργώντας μια νέα ομάδα χαρακτηριστικών. Τέλος, εκτελέσαμε μια εργασία επεξεργασίας για να ενσωματώσουμε αυτές τις δυνατότητες στο Κατάστημα δυνατοτήτων. Το Data Wrangler και το Feature Store μαζί μας βοήθησαν να δημιουργήσουμε αυτόματες και επαναλαμβανόμενες διαδικασίες για να απλοποιήσουμε τις εργασίες προετοιμασίας δεδομένων με την ελάχιστη απαιτούμενη κωδικοποίηση. Το Data Wrangler μας παρέχει επίσης ευελιξία για να αυτοματοποιήσουμε την ίδια ροή προετοιμασίας δεδομένων χρησιμοποιώντας προγραμματισμένες εργασίες. Μπορούμε επίσης αυτόματα εκπαιδεύστε και αναπτύξτε μοντέλα χρησιμοποιώντας το SageMaker Autopilot από την οπτική διεπαφή του Data Wrangler ή δημιουργήστε σωλήνωση μηχανικής εκπαίδευσης ή χαρακτηριστικών με το SageMaker Pipelines (μέσω του Jupyter Notebook) και αναπτύξτε το στο τελικό σημείο συμπερασμάτων με τη διοχέτευση συμπερασμάτων SageMaker (μέσω του Jupyter Notebook).
εκκαθάριση
Εάν η εργασία σας με το Data Wrangler έχει ολοκληρωθεί, τα παρακάτω βήματα θα σας βοηθήσουν να διαγράψετε τους πόρους που δημιουργήθηκαν για να αποφύγετε την επιβολή πρόσθετων χρεώσεων.
- Κλείστε το SageMaker Studio.
Από το SageMaker Studio, κλείστε όλες τις καρτέλες και, στη συνέχεια, επιλέξτε Αρχεία τότε Τερματισμός. Μόλις σας ζητηθεί επιλέξτε Τερματισμός όλων.
Ο τερματισμός ενδέχεται να διαρκέσει μερικά λεπτά με βάση τον τύπο της παρουσίας. Βεβαιωθείτε ότι όλες οι εφαρμογές που σχετίζονται με το προφίλ χρήστη έχουν διαγραφεί. Εάν δεν διαγράφηκαν, διαγράψτε μη αυτόματα την εφαρμογή που σχετίζεται με το προφίλ χρήστη.
- Αδειάστε τυχόν κουβάδες S3 που δημιουργήθηκαν από την εκκίνηση του CloudFormation.
Ανοίξτε τη σελίδα Amazon S3 αναζητώντας το S3 στην αναζήτηση της κονσόλας AWS. Αδειάστε τυχόν κουβάδες S3 που δημιουργήθηκαν κατά την παροχή συμπλεγμάτων. Ο κάδος θα ήταν σε μορφή dw-emr-hive-blog-
.
- Διαγράψτε το SageMaker Studio EFS.
Ανοίξτε τη σελίδα EFS κάνοντας αναζήτηση για EFS στην αναζήτηση της κονσόλας AWS.
Εντοπίστε το σύστημα αρχείων που δημιουργήθηκε από το SageMaker. Μπορείτε να το επιβεβαιώσετε κάνοντας κλικ στο Αναγνωριστικό συστήματος αρχείων και επιβεβαίωση της ετικέτας ManagedByAmazonSageMakerResource
σχετικά με την Ετικέτες Tab.
- Διαγράψτε τις στοίβες CloudFormation. Ανοίξτε το CloudFormation αναζητώντας και ανοίγοντας την υπηρεσία CloudFormation από την κονσόλα AWS.
Επιλέξτε το πρότυπο ξεκινώντας από dw- όπως φαίνεται στην παρακάτω οθόνη και διαγράψτε τη στοίβα όπως φαίνεται κάνοντας κλικ στο Διαγραφή κουμπί.
Αυτό είναι αναμενόμενο και θα επανέλθουμε σε αυτό και θα το καθαρίσουμε στα επόμενα βήματα.
- Διαγράψτε το VPC αφού η στοίβα CloudFormation αποτύχει να ολοκληρωθεί. Πρώτα ανοίξτε το VPC από την κονσόλα AWS.
- Στη συνέχεια, προσδιορίστε το VPC που δημιουργήθηκε από το SageMaker Studio CloudFormation, με τίτλο
dw-emr-
και, στη συνέχεια, ακολουθήστε τις οδηγίες για να διαγράψετε το VPC. - Διαγράψτε τη στοίβα CloudFormation.
Επιστρέψτε στο CloudFormation και δοκιμάστε ξανά τη διαγραφή στοίβας για dw-emr-hive-blog
.
Πλήρης! Όλοι οι πόροι που παρέχονται από το πρότυπο CloudFormation που περιγράφεται σε αυτήν την ανάρτηση ιστολογίου θα αφαιρεθούν τώρα από τον λογαριασμό σας.
Συμπέρασμα
Σε αυτήν την ανάρτηση, εξετάσαμε πώς να ρυθμίσετε το Amazon EMR ως πηγή δεδομένων στο Data Wrangler, πώς να μετασχηματίσετε και να αναλύσετε ένα σύνολο δεδομένων και πώς να εξάγετε τα αποτελέσματα σε μια ροή δεδομένων για χρήση σε ένα σημειωματάριο Jupyter. Αφού οπτικοποιήσαμε το σύνολο δεδομένων μας χρησιμοποιώντας τις ενσωματωμένες αναλυτικές δυνατότητες του Data Wrangler, βελτιώσαμε περαιτέρω τη ροή δεδομένων μας. Το γεγονός ότι δημιουργήσαμε μια διοχέτευση προετοιμασίας δεδομένων χωρίς να γράψουμε ούτε μια γραμμή κώδικα είναι σημαντικό.
Για να ξεκινήσετε με το Data Wrangler, δείτε Προετοιμάστε τα δεδομένα ML με το Amazon SageMaker Data Wrangler και δείτε τις πιο πρόσφατες πληροφορίες για το Σελίδα προϊόντος Data Wrangler και Τεχνικά έγγραφα AWS.
Σχετικά με τους Συγγραφείς
Ajjay Govindaram είναι Senior Solutions Architect στην AWS. Συνεργάζεται με στρατηγικούς πελάτες που χρησιμοποιούν AI/ML για την επίλυση σύνθετων επιχειρηματικών προβλημάτων. Η εμπειρία του έγκειται στην παροχή τεχνικής καθοδήγησης καθώς και στη σχεδιαστική βοήθεια για μικρές έως μεγάλης κλίμακας αναπτύξεις εφαρμογών AI/ML. Οι γνώσεις του κυμαίνονται από την αρχιτεκτονική εφαρμογών έως τα μεγάλα δεδομένα, την ανάλυση και τη μηχανική μάθηση. Του αρέσει να ακούει μουσική ενώ ξεκουράζεται, να βιώνει την ύπαιθρο και να περνά χρόνο με τα αγαπημένα του πρόσωπα.
Isha Dua είναι Senior Solutions Architect με έδρα την περιοχή του κόλπου του Σαν Φρανσίσκο. Βοηθά τους εταιρικούς πελάτες της AWS να αναπτυχθούν κατανοώντας τους στόχους και τις προκλήσεις τους και τους καθοδηγεί για το πώς μπορούν να αρχιτεκτονήσουν τις εφαρμογές τους με έναν εγγενή τρόπο στο cloud, διασφαλίζοντας παράλληλα ανθεκτικότητα και επεκτασιμότητα. Είναι παθιασμένη με τις τεχνολογίες μηχανικής μάθησης και την περιβαλλοντική βιωσιμότητα.
Βαρούν Μέτα είναι αρχιτέκτονας λύσεων στην AWS. Είναι παθιασμένος με το να βοηθά τους πελάτες να δημιουργήσουν λύσεις Enterprise-Scale Well-Architected στο AWS Cloud. Συνεργάζεται με στρατηγικούς πελάτες που χρησιμοποιούν AI/ML για την επίλυση σύνθετων επιχειρηματικών προβλημάτων.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- Platoblockchain. Web3 Metaverse Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- πηγή: https://aws.amazon.com/blogs/machine-learning/accelerate-time-to-insight-with-amazon-sagemaker-data-wrangler-and-the-power-of-apache-hive/
- :είναι
- $UP
- 1
- 10
- 100
- 11
- 7
- a
- ΠΛΗΡΟΦΟΡΙΕΣ
- επιταχύνουν
- πρόσβαση
- Πρωτόκολλο πρόσβασης
- Σύμφωνα με
- Λογαριασμός
- ενεργειών
- Επιπλέον
- Πρόσθετος
- διαχειριστής
- συμβουλές
- Μετά το
- AI / ML
- αεροδρόμιο
- Όλα
- Επιτρέποντας
- επιτρέπει
- ήδη
- Amazon
- Amazon EC2
- EMR Αμαζονίου
- Amazon Sage Maker
- Amazon SageMaker Data Wrangler
- Στούντιο Amazon SageMaker
- Ποσά
- αναλύσεις
- ανάλυση
- Αναλυτικός
- analytics
- αναλύσει
- και
- Άλλος
- Apache
- app
- Εφαρμογή
- εφαρμογές
- κατάλληλος
- εφαρμογές
- αρχιτεκτονική
- ΕΙΝΑΙ
- ΠΕΡΙΟΧΗ
- AS
- Βοήθεια
- συσχετισμένη
- At
- πιστοποιώ την αυθεντικότητα
- επικυρωμένο
- Πιστοποίηση
- συγγραφέας
- αυτοματοποίηση
- Αυτόματο
- αυτομάτως
- AWS
- AWS CloudFormation
- Κόλλα AWS
- πίσω
- μπαρ
- βασίζονται
- Κόλπος
- BE
- επειδή
- είναι
- προκατάληψη
- Μεγάλος
- Big Data
- Μπλοκ
- Μπλοκ
- Κουτί
- φέρω
- χτίζω
- Κτίριο
- ενσωματωμένο
- επιχείρηση
- κουμπί
- by
- CAN
- κατάλογος
- Αιτία
- προκλήσεις
- Αλλαγές
- έλεγχος
- Επιλέξτε
- κλικ
- Κλεισιμο
- Backup
- συστάδα
- κωδικός
- Κωδικοποίηση
- Στήλη
- Στήλες
- Ελάτε
- Κοινός
- πλήρης
- συγκρότημα
- εξαρτήματα
- Υπολογίστε
- Επιβεβαιώνω
- Connect
- συνδεδεμένος
- Συνδετικός
- σύνδεση
- συνδέει
- πρόξενος
- ΣΥΝΕΧΕΙΑ
- χώρα
- κάλυμμα
- δημιουργία
- δημιουργήθηκε
- δημιουργεί
- δημιουργία
- Διαπιστεύσεις
- κρίσιμης
- καμπύλη
- Πελάτες
- ημερομηνία
- Προετοιμασία δεδομένων
- επεξεργασία δεδομένων
- βάση δεδομένων
- σύνολα δεδομένων
- συμφωνία
- Προεπιλογή
- Ζήτηση
- αποδεικνύουν
- παρατάσσω
- αναπτύξεις
- περιγράφεται
- Υπηρεσίες
- προορισμός
- καθέκαστα
- διαφορετικές
- κατεύθυνση
- κατευθείαν
- ανακαλύπτουν
- τομέα
- Μην
- κάτω
- Πτώση
- έπεσε
- κάθε
- εύκολα
- συντάκτης
- είτε
- ενεργοποιημένη
- δίνει τη δυνατότητα
- Τελικό σημείο
- Κινητήρας
- μηχανικός
- Μηχανική
- Μηχανικοί
- ενισχυμένη
- εξασφαλίζοντας
- εισάγετε
- Εταιρεία
- Ολόκληρος
- Περιβάλλον
- περιβάλλοντος
- ουσιώδης
- εγκαθιδρύω
- αξιολογήσει
- παράδειγμα
- παραδείγματα
- εκτέλεση
- υφιστάμενα
- αναμένεται
- εμπειρία
- βιώνουν
- διερευνήσει
- εξερευνητής
- εξαγωγή
- αποτυγχάνει
- οικείος
- Χαρακτηριστικό
- Χαρακτηριστικά
- Τελη Εγγραφης
- λίγοι
- Τελικά
- Όνομα
- σταθερός
- ροή
- ακολουθήστε
- Εξής
- Για
- Φρανσίσκο
- από
- περαιτέρω
- παίρνω
- Go
- Στόχοι
- Group
- Ομάδα
- Grow
- Οδηγοί
- λαβή
- Έχω
- βοήθεια
- βοήθησε
- βοήθεια
- βοηθά
- Κυψέλη
- Αρχική
- οικοδεσπότης
- Πως
- Πώς να
- Ωστόσο
- HTML
- http
- HTTPS
- προσδιορίσει
- Ταυτότητα
- εισαγωγή
- εισαγωγή
- in
- Συμπεριλαμβανομένου
- πληροφορίες
- διορατικότητα
- παράδειγμα
- διαδραστικό
- περιβάλλον λειτουργίας
- συμμετέχουν
- θέματα
- IT
- Δουλειά
- Θέσεις εργασίας
- jpg
- γνώση
- large
- μεγάλης κλίμακας
- Επίθετο
- αργότερο
- ξεκινήσει
- μάθηση
- Μόχλευση
- βρίσκεται
- πυγμάχος ελαφρού βάρους
- LIMIT
- γραμμή
- Ακούγοντας
- Μακριά
- πολύς καιρός
- ματιά
- αγάπησε
- μηχανή
- μάθηση μηχανής
- κάνω
- διαχείριση
- διαχείριση
- τρόπος
- χειροκίνητα
- Μενού
- ενδέχεται να
- ελάχιστο
- Λεπτ.
- Λείπει
- ML
- Τρόπος
- μοντέλο
- μοντέλα
- περισσότερο
- πλέον
- πολλαπλούς
- Μουσική
- όνομα
- Ονομάστηκε
- ονόματα
- Πλοήγηση
- Ανάγκη
- Νέα
- σημειωματάριο
- of
- on
- ONE
- συνεχή
- ανοίξτε
- άνοιγμα
- Επιλογή
- Επιλογές
- ΑΛΛΑ
- ύπαιθρο
- σελίδα
- παράμετροι
- μέρος
- παθιασμένος
- Κωδικός Πρόσβασης
- Εκτελέστε
- εκτελεί
- δικαιώματα
- αγωγού
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- Δημοφιλής
- Θέση
- δύναμη
- Προετοιμάστε
- προετοιμασία
- Προβολή
- προβλήματα
- διαδικασια μας
- Διεργασίες
- μεταποίηση
- Προϊόν
- επαγγελματίες
- Προφίλ ⬇️
- πρωτόκολλο
- παρέχουν
- παρέχει
- χορήγηση
- πρόβλεψη
- ποιότητα
- γρήγορα
- τυχαίος
- έτοιμος
- συστάσεις
- αρχεία
- μείωση
- μειώνει
- περιοχή
- αφαιρέστε
- Καταργήθηκε
- επαναληπτός
- Αναφορά
- Αποθήκη
- αντιπροσωπεύει
- απαιτείται
- ανθεκτικότητα
- Υποστηρικτικό υλικό
- Αποτελέσματα
- ανασκόπηση
- Ρόλος
- τρέξιμο
- τρέξιμο
- σοφός
- Συμπεράσματα SageMaker
- Αγωγοί SageMaker
- ίδιο
- Σαν
- Σαν Φρανσίσκο
- Αποθήκευση
- Απεριόριστες δυνατότητες
- Κλίμακα
- σενάριο
- πρόγραμμα
- επιστήμονες
- Οθόνη
- screenshots
- Αναζήτηση
- αναζήτηση
- Μυστικό
- Τμήμα
- ασφάλεια
- επιλέγονται
- επιλογή
- επιλογή
- αρχαιότερος
- υπηρεσία
- σειρά
- ρυθμίσεις
- Κοινοποίηση
- θα πρέπει να
- παρουσιάζεται
- σημαντικός
- απλά
- αφού
- ενιαίας
- Μέγεθος
- So
- λύση
- Λύσεις
- SOLVE
- μερικοί
- Πηγή
- Πηγές
- Σπινθήρας
- ειδικά
- Δαπάνες
- Spot
- σωρός
- Στοίβες
- πρότυπο
- ξεκίνησε
- Ξεκινήστε
- Δήλωση
- στατιστική
- Κατάσταση
- Βήμα
- Βήματα
- κατάστημα
- αποθηκεύονται
- Στρατηγική
- εξορθολογισμό
- στούντιο
- υποδίκτυα
- μεταγενέστερος
- Επιτυχώς
- τέτοιος
- υποστηριζόνται!
- Βιωσιμότητα
- σύστημα
- τραπέζι
- TAG
- Πάρτε
- παίρνει
- λήψη
- εργασίες
- Τεχνικός
- Τεχνολογίες
- πρότυπο
- πρότυπα
- Ευχαριστώ
- ότι
- Η
- τους
- Τους
- Αυτοί
- τρίτους
- Μέσω
- ώρα
- προς την
- σήμερα
- μαζι
- κορυφή
- Τρένο
- Εκπαίδευση
- Μεταμορφώστε
- μετασχηματισμούς
- ui
- υπό
- κατανόηση
- μοναδικός
- Παγκόσμιος
- Ενημέρωση
- URL
- us
- χρήση
- Χρήστες
- συνήθως
- αξία
- Αξίες
- ποικιλία
- διάφορα
- μέσω
- Δες
- περιμένετε
- Τρόπος..
- Εβδ.
- ΛΟΙΠΌΝ
- Ποιό
- ενώ
- Ο ΟΠΟΊΟΣ
- ευρύς
- Wikipedia
- θα
- με
- εντός
- χωρίς
- Εργασία
- λειτουργεί
- θα
- γράφω
- γράψτε κώδικα
- γραφή
- γιαμ
- Εσείς
- Σας
- zephyrnet