Δημιουργήστε τυχαία και στρωματοποιημένα δείγματα δεδομένων με το Amazon SageMaker Data Wrangler

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Σε αυτήν την ανάρτηση, σας καθοδηγούμε σε δύο τεχνικές δειγματοληψίας Amazon SageMaker Data Wrangler ώστε να μπορείτε να δημιουργήσετε γρήγορα ροές εργασίας επεξεργασίας για τα δεδομένα σας. Καλύπτουμε τεχνικές τόσο τυχαίας δειγματοληψίας όσο και στρωματοποιημένης δειγματοληψίας για να σας βοηθήσουμε να δειγματίσετε τα δεδομένα σας με βάση τις συγκεκριμένες απαιτήσεις σας.

Το Data Wrangler μειώνει τον χρόνο που απαιτείται για τη συγκέντρωση και την προετοιμασία δεδομένων για μηχανική εκμάθηση (ML) από εβδομάδες σε λεπτά. Μπορείτε να απλοποιήσετε τη διαδικασία προετοιμασίας δεδομένων και τη μηχανική χαρακτηριστικών και να ολοκληρώσετε κάθε βήμα της ροής εργασιών προετοιμασίας δεδομένων, συμπεριλαμβανομένης της επιλογής δεδομένων, του καθαρισμού, της εξερεύνησης και της οπτικοποίησης, από μια ενιαία οπτική διεπαφή. Με το εργαλείο επιλογής δεδομένων του Data Wrangler, μπορείτε να επιλέξετε τα δεδομένα που θέλετε από διάφορες πηγές δεδομένων και να τα εισαγάγετε με ένα μόνο κλικ. Το Data Wrangler περιέχει πάνω από 300 ενσωματωμένους μετασχηματισμούς δεδομένων, ώστε να μπορείτε γρήγορα να κανονικοποιείτε, να μετασχηματίζετε και να συνδυάζετε λειτουργίες χωρίς να χρειάζεται να γράψετε κώδικα. Με τα πρότυπα οπτικοποίησης του Data Wrangler, μπορείτε γρήγορα να κάνετε προεπισκόπηση και να επιθεωρήσετε ότι αυτοί οι μετασχηματισμοί έχουν ολοκληρωθεί όπως σκοπεύατε, προβάλλοντάς τους σε Στούντιο Amazon SageMaker, το πρώτο πλήρως ενσωματωμένο περιβάλλον ανάπτυξης (IDE) για ML. Αφού προετοιμαστούν τα δεδομένα σας, μπορείτε να δημιουργήσετε πλήρως αυτοματοποιημένες ροές εργασίας ML με Αγωγοί Amazon SageMaker και αποθηκεύστε τα για επαναχρησιμοποίηση Κατάστημα χαρακτηριστικών Amazon SageMaker.

Τι είναι η δειγματοληψία και πώς μπορεί να βοηθήσει

Στη στατιστική ανάλυση, το συνολικό σύνολο των παρατηρήσεων είναι γνωστό ως το πληθυσμός. Όταν εργάζεστε με δεδομένα, συχνά δεν είναι υπολογιστικά εφικτό να μετρήσετε κάθε παρατήρηση από τον πληθυσμό. Στατιστική δειγματοληψία είναι μια διαδικασία που σας επιτρέπει να κατανοήσετε τα δεδομένα σας επιλέγοντας υποσύνολα από τον πληθυσμό.

Η δειγματοληψία προσφέρει μια πρακτική λύση που θυσιάζει κάποια ακρίβεια για χάρη της πρακτικότητας και της ευκολίας. Για να διασφαλίσετε ότι το δείγμα σας είναι μια καλή αντιπροσώπευση του συνολικού πληθυσμού, μπορείτε να εφαρμόσετε στρατηγικές δειγματοληψίας. Το Data Wrangler υποστηρίζει δύο από τις πιο κοινές στρατηγικές: τυχαία δειγματοληψία και στρωματοποιημένη δειγματοληψία.

Τυχαία δειγματοληψία

Εάν έχετε ένα μεγάλο σύνολο δεδομένων, ο πειραματισμός σε αυτό το σύνολο δεδομένων μπορεί να είναι χρονοβόρος. Το Data Wrangler παρέχει τυχαία δειγματοληψία, ώστε να μπορείτε να επεξεργάζεστε και να οπτικοποιείτε αποτελεσματικά τα δεδομένα σας. Για παράδειγμα, μπορεί να θέλετε να υπολογίσετε τον μέσο αριθμό αγορών για έναν πελάτη εντός ενός χρονικού πλαισίου ή μπορεί να θέλετε να υπολογίσετε το ποσοστό φθοράς ενός συνδρομητή. Μπορείτε να χρησιμοποιήσετε ένα τυχαίο δείγμα για να απεικονίσετε προσεγγίσεις σε αυτές τις μετρήσεις.

Ένα τυχαίο δείγμα από το σύνολο δεδομένων σας επιλέγεται έτσι ώστε κάθε στοιχείο να έχει ίση πιθανότητα να επιλεγεί. Αυτή η λειτουργία εκτελείται με αποτελεσματικό τρόπο, κατάλληλο για μεγάλα σύνολα δεδομένων, επομένως το μέγεθος του δείγματος που επιστρέφεται είναι περίπου το μέγεθος που ζητήθηκε και δεν είναι απαραίτητα ίσο με το μέγεθος που ζητήθηκε.

Μπορείτε να χρησιμοποιήσετε τυχαία δειγματοληψία εάν θέλετε να κάνετε γρήγορους κατά προσέγγιση υπολογισμούς για να κατανοήσετε το σύνολο δεδομένων σας. Καθώς το μέγεθος του δείγματος μεγαλώνει, το τυχαίο δείγμα μπορεί να προσεγγίσει καλύτερα ολόκληρο το σύνολο δεδομένων, αλλά αν δεν συμπεριλάβετε όλα τα σημεία δεδομένων, το τυχαίο δείγμα σας ενδέχεται να μην περιλαμβάνει όλα τα ακραία σημεία και τις ακμές περιπτώσεις. Εάν θέλετε να προετοιμάσετε ολόκληρο το σύνολο δεδομένων σας διαδραστικά, μπορείτε επίσης να μεταβείτε σε έναν μεγαλύτερο τύπο παρουσίας.

Κατά γενικό κανόνα, το σφάλμα δειγματοληψίας στον υπολογισμό του μέσου όρου του πληθυσμού χρησιμοποιώντας ένα τυχαίο δείγμα τείνει στο 0 καθώς το δείγμα γίνεται μεγαλύτερο. Καθώς το μέγεθος του δείγματος αυξάνεται, το σφάλμα μειώνεται ως το αντίστροφο της τετραγωνικής ρίζας του μεγέθους του δείγματος. Όσο μεγαλύτερο είναι το δείγμα, τόσο καλύτερη είναι η προσέγγιση.

Στρωματοποιημένη δειγματοληψία

Σε ορισμένες περιπτώσεις, ο πληθυσμός σας μπορεί να χωριστεί σε στρώματα ή σε αμοιβαία αποκλειόμενους κουβάδες, όπως γεωγραφική τοποθεσία για διευθύνσεις, έτος δημοσίευσης για τραγούδια ή φορολογικά κλιμάκια για εισοδήματα. Η τυχαία δειγματοληψία είναι η πιο δημοφιλής τεχνική δειγματοληψίας, αλλά εάν ορισμένα στρώματα είναι ασυνήθιστα στον πληθυσμό σας, μπορείτε να χρησιμοποιήσετε τη στρωματοποιημένη δειγματοληψία στο Data Wrangler για να διασφαλίσετε ότι κάθε στρώμα αντιπροσωπεύεται αναλογικά στο δείγμα σας. Αυτό μπορεί να είναι χρήσιμο για τη μείωση των σφαλμάτων δειγματοληψίας καθώς και για τη διασφάλιση ότι καταγράφετε αιχμές κατά τη διάρκεια του πειραματισμού σας.

Στον πραγματικό κόσμο, οι δόλιες συναλλαγές με πιστωτικές κάρτες είναι σπάνια γεγονότα και συνήθως αποτελούν λιγότερο από το 1% των δεδομένων σας. Αν κάναμε τυχαία δειγματοληψία, δεν είναι ασυνήθιστο το δείγμα να περιέχει πολύ λίγες ή καθόλου δόλιες συναλλαγές. Ως αποτέλεσμα, όταν εκπαιδεύουμε ένα μοντέλο, θα είχαμε πολύ λίγα δόλια παραδείγματα για να μάθουμε ένα ακριβές μοντέλο. Μπορούμε να χρησιμοποιήσουμε στρωματοποιημένη δειγματοληψία για να βεβαιωθούμε ότι έχουμε αναλογική αντιπροσώπευση δόλιων συναλλαγών.

Στη στρωματοποιημένη δειγματοληψία, το μέγεθος κάθε στρώματος στο δείγμα είναι ανάλογο με το μέγεθος των στρωμάτων του πληθυσμού. Αυτό λειτουργεί διαιρώντας τα δεδομένα σας σε στρώματα με βάση την καθορισμένη στήλη σας, επιλέγοντας τυχαία δείγματα από κάθε στρώμα με τη σωστή αναλογία και συνδυάζοντας αυτά τα δείγματα σε ένα στρωματοποιημένο δείγμα του πληθυσμού.

Η στρωματοποιημένη δειγματοληψία είναι μια χρήσιμη τεχνική όταν θέλετε να κατανοήσετε πώς συγκρίνονται διαφορετικές ομάδες στα δεδομένα σας μεταξύ τους και θέλετε να διασφαλίσετε ότι έχετε την κατάλληλη αντιπροσώπευση από κάθε ομάδα.

Τυχαία δειγματοληψία κατά την εισαγωγή από το Amazon S3

Σε αυτήν την ενότητα, χρησιμοποιούμε τυχαία δειγματοληψία με ένα σύνολο δεδομένων που αποτελείται τόσο από δόλια όσο και από μη δόλια συμβάντα από το σύστημα ανίχνευσης απάτης. Μπορείς κατεβάσετε το σύνολο δεδομένων που θα ακολουθήσει μαζί με αυτήν την ανάρτηση (Άδεια διεθνούς αναφοράς CC 4.0).

Τη στιγμή της σύνταξης αυτού του κειμένου, μπορείτε να εισαγάγετε σύνολα δεδομένων από Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3), Αμαζόν Αθηνά, Amazon RedShift, και Snowflake. Το σύνολο δεδομένων μας είναι πολύ μεγάλο, περιέχει 1 εκατομμύριο σειρές. Σε αυτήν την περίπτωση, θέλουμε να πάρουμε δείγμα 1,0000 σειρών κατά την εισαγωγή από το Amazon S3 για κάποιο διαδραστικό πειραματισμό στο Data Wrangler.

Ανοίξτε το SageMaker Studio και δημιουργήστε μια νέα ροή δεδομένων Wrangler.
Κάτω από Εισαγωγή δεδομένων, επιλέξτε Amazon S3.
Επιλέξτε το σύνολο δεδομένων για εισαγωγή.
Στο Περιγραφή παραθύρου, δώστε το όνομα του συνόλου και τον τύπο αρχείου σας.
Για Δειγματοληψία, επιλέξτε Τυχαίος.
Για Το μέγεθος του δείγματος, εισαγω 10000.
Επιλέξτε εισαγωγή για να φορτώσετε το σύνολο δεδομένων στο Data Wrangler.

Μπορείτε να απεικονίσετε δύο διαφορετικά βήματα στη σελίδα ροής δεδομένων στο Data Wrangler. Το πρώτο βήμα υποδεικνύει τη φόρτωση του δείγματος δεδομένων βάσει της στρατηγικής δειγματοληψίας που ορίσατε. Μετά τη φόρτωση των δεδομένων, το Data Wrangler εκτελεί αυτόματη ανίχνευση των τύπων δεδομένων για κάθε μία από τις στήλες του συνόλου δεδομένων. Αυτό το βήμα προστίθεται από προεπιλογή για όλα τα σύνολα δεδομένων.

Μπορείτε τώρα να ελέγξετε τα τυχαία δειγματοληπτικά δεδομένα στο Data Wrangler προσθέτοντας μια ανάλυση.

Επιλέξτε το σύμβολο συν δίπλα Τύποι δεδομένων Και επιλέξτε Ανάλυση.
Για Τύπος ανάλυσης¸ επιλέξτε Διάγραμμα διασποράς.
Επιλέξτε feat_1 και feat_2 όσον αφορά Άξονα Χ και Άξονας Υ, Αντίστοιχα.
Για Χρώμα από, επιλέξτε είναι_απάτη.

Όταν είστε άνετοι με το σύνολο δεδομένων, προχωρήστε σε περαιτέρω μετασχηματισμούς δεδομένων σύμφωνα με τις απαιτήσεις της επιχείρησής σας για την προετοιμασία των δεδομένων σας για ML.

Στο παρακάτω στιγμιότυπο οθόνης, μπορούμε να παρατηρήσουμε τις δόλιες (σκούρο μπλε) και τις μη δόλιες (γαλάζιο) συναλλαγές στην ανάλυσή μας.

Στην επόμενη ενότητα, θα συζητήσουμε τη χρήση στρωματοποιημένης δειγματοληψίας για να διασφαλίσουμε ότι οι περιπτώσεις απάτης επιλέγονται αναλογικά.

Στρωματοποιημένη δειγματοληψία με μετασχηματισμό

Το Data Wrangler σάς επιτρέπει να κάνετε δειγματοληψία κατά την εισαγωγή, καθώς και δειγματοληψία μέσω μετασχηματισμού. Σε αυτήν την ενότητα, συζητάμε τη χρήση στρωματοποιημένης δειγματοληψίας μέσω μετασχηματισμού αφού έχετε εισαγάγει το σύνολο δεδομένων σας στο Data Wrangler.

Για να ξεκινήσει η δειγματοληψία, στο Ροή δεδομένων καρτέλα, επιλέξτε το σύμβολο συν δίπλα στο εισαγόμενο σύνολο δεδομένων και επιλέξτε Προσθήκη μετασχηματισμού.

Τη στιγμή της συγγραφής αυτής της συγγραφής, το Data Wrangler παρέχει περισσότερα από 300 ενσωματωμένες μετατροπές. Εκτός από τους ενσωματωμένους μετασχηματισμούς, μπορείτε να γράψετε τους δικούς σας προσαρμοσμένους μετασχηματισμούς στο Pandas ή στο PySpark.

Από το Προσθήκη μετασχηματισμού λίστα, επιλέξτε Δειγματοληψία.

Τώρα μπορείτε να χρησιμοποιήσετε τρεις διαφορετικές στρατηγικές δειγματοληψίας: όριο, τυχαία και στρωματοποιημένη.

Για Μέθοδος δειγματοληψίας, επιλέξτε Στρωματοποιημένο.
Χρησιμοποιήστε το is_fraud στήλη ως στρωματοποιημένη στήλη.
Επιλέξτε Προβολή για προεπισκόπηση του μετασχηματισμού και, στη συνέχεια, επιλέξτε Πρόσθεση για να προσθέσετε αυτόν τον μετασχηματισμό ως ένα βήμα στη συνταγή μεταμόρφωσής σας.

Η ροή δεδομένων σας αντικατοπτρίζει τώρα το προστιθέμενο βήμα δειγματοληψίας.

Τώρα μπορούμε να ελέγξουμε τα τυχαία δειγματοληπτικά δεδομένα προσθέτοντας μια ανάλυση.

Επιλέξτε το σύμβολο συν και επιλέξτε Ανάλυση.
Για Τύπος ανάλυσης¸ επιλέξτε Ιστόγραμμα.
Επιλέξτε είναι_απάτη τόσο Άξονα Χ και Χρώμα από.
Επιλέξτε Προβολή.

Στο παρακάτω στιγμιότυπο οθόνης, μπορούμε να παρατηρήσουμε την ανάλυση των δόλιων (σκούρο μπλε) και των μη δόλιων υποθέσεων (γαλάζιο) που επιλέχθηκαν μέσω στρωματοποιημένης δειγματοληψίας στις σωστές αναλογίες 20% δόλιες και 80% μη δόλιες.

Συμπέρασμα

Είναι σημαντικό να κάνετε σωστή δειγματοληψία δεδομένων όταν εργάζεστε με εξαιρετικά μεγάλα σύνολα δεδομένων και να επιλέξετε τη σωστή στρατηγική δειγματοληψίας για να καλύψετε τις απαιτήσεις της επιχείρησής σας. Η αποτελεσματικότητα της δειγματοληψίας σας βασίζεται σε διάφορους παράγοντες, όπως το επιχειρηματικό αποτέλεσμα, η διαθεσιμότητα δεδομένων και η διανομή. Σε αυτήν την ανάρτηση, καλύψαμε τον τρόπο χρήσης του Data Wrangler και τις ενσωματωμένες στρατηγικές δειγματοληψίας του για την προετοιμασία των δεδομένων σας.

Μπορείτε να αρχίσετε να χρησιμοποιείτε αυτήν τη δυνατότητα σήμερα σε όλες τις Περιοχές όπου είναι διαθέσιμο το SageMaker Studio. Για να ξεκινήσετε, επισκεφθείτε Προετοιμάστε τα δεδομένα ML με το Amazon SageMaker Data Wrangler.

Ευχαριστίες

Οι συγγραφείς θα ήθελαν να ευχαριστήσουν τον Jonathan Chung (Applied Scientist) για την κριτική και τα πολύτιμα σχόλιά του σχετικά με αυτό το άρθρο.

Σχετικά με τους Συγγραφείς

Μπεν Χάρις είναι μηχανικός λογισμικού με εμπειρία στο σχεδιασμό, την ανάπτυξη και τη διατήρηση επεκτάσιμων αγωγών δεδομένων και λύσεων μηχανικής εκμάθησης σε διάφορους τομείς.

Βισάαλ Καπούρ είναι Ανώτερος Εφαρμοσμένος Επιστήμονας με AWS AI. Είναι παθιασμένος με το να βοηθά τους πελάτες να κατανοήσουν τα δεδομένα τους στο Data Wrangler. Στον ελεύθερο χρόνο του, κάνει ποδήλατα βουνού, snowboard και περνά χρόνο με την οικογένειά του.

Meenakshisundaram Thandavarayan είναι Ανώτερος ειδικός AI/ML με AWS. Βοηθά στρατηγικούς λογαριασμούς Hi-Tech στο ταξίδι τους σε AI και ML. Είναι πολύ παθιασμένος με την τεχνητή νοημοσύνη που βασίζεται σε δεδομένα.

Ατζάι Σάρμα είναι κύριος διευθυντής προϊόντων για το Amazon SageMaker όπου εστιάζει στο Data Wrangler, ένα εργαλείο προετοιμασίας οπτικών δεδομένων για επιστήμονες δεδομένων. Πριν από το AWS, ο Ajai ήταν Εμπειρογνώμονας Επιστήμης Δεδομένων στην McKinsey and Company, όπου ηγήθηκε δεσμεύσεων με επίκεντρο το ML για κορυφαίες χρηματοοικονομικές και ασφαλιστικές εταιρείες παγκοσμίως. Ο Ajai είναι παθιασμένος με την επιστήμη των δεδομένων και λατρεύει να εξερευνά τους πιο πρόσφατους αλγόριθμους και τεχνικές μηχανικής εκμάθησης.

Σφραγίδα ώρας: Απρίλιος 26, 2022

Σφραγίδα ώρας: 6 Φεβρουαρίου 2024

Δημιουργήστε τυχαία και στρωματοποιημένα δείγματα δεδομένων με το Amazon SageMaker Data Wrangler

Αναδημοσίευση από τον Πλάτωνα

Τι είναι η δειγματοληψία και πώς μπορεί να βοηθήσει

Τυχαία δειγματοληψία

Στρωματοποιημένη δειγματοληψία

Τυχαία δειγματοληψία κατά την εισαγωγή από το Amazon S3

Στρωματοποιημένη δειγματοληψία με μετασχηματισμό

Συμπέρασμα

Ευχαριστίες

Σχετικά με τους Συγγραφείς

Περισσότερα από Μηχανική εκμάθηση AWS

Βελτιώστε τα μοντέλα Whisper στο Amazon SageMaker με το LoRA | Υπηρεσίες Ιστού της Amazon

Αναζητήστε έξυπνα το περιεχόμενο του Adobe Experience Manager χρησιμοποιώντας το Amazon Kendra | Υπηρεσίες Ιστού της Amazon

Δημιουργήστε συνθετικά δεδομένα για αγωγούς όρασης υπολογιστή στο AWS

Θέστε σε λειτουργία τους φορητούς υπολογιστές Amazon SageMaker Studio ως προγραμματισμένες εργασίες για σημειωματάρια

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός