Πώς να αξιολογήσετε την ποιότητα των συνθετικών δεδομένων - Μετρώντας από την προοπτική της πιστότητας, της χρησιμότητας και της ιδιωτικής ζωής

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Σε έναν κόσμο που επικεντρώνεται όλο και περισσότερο στα δεδομένα, οι επιχειρήσεις πρέπει να επικεντρωθούν στη συλλογή τόσο πολύτιμων φυσικών πληροφοριών όσο και στη δημιουργία των πληροφοριών που χρειάζονται, αλλά δεν μπορούν να συλλάβουν εύκολα. Η πρόσβαση στα δεδομένα, η ρύθμιση και η συμμόρφωση αποτελούν αυξανόμενη πηγή τριβής για την καινοτομία στην ανάλυση και την τεχνητή νοημοσύνη (AI).

Για κλάδους με υψηλή ρύθμιση, όπως οι χρηματοοικονομικές υπηρεσίες, η υγειονομική περίθαλψη, οι βιοεπιστήμες, η αυτοκινητοβιομηχανία, η ρομποτική και η βιομηχανία, το πρόβλημα είναι ακόμη μεγαλύτερο. Προκαλεί εμπόδια στο σχεδιασμό του συστήματος, την κοινή χρήση δεδομένων (Εσωτερική και εξωτερική), τη δημιουργία εσόδων, την ανάλυση και τη μηχανική μάθηση (ML).

Τα συνθετικά δεδομένα είναι ένα εργαλείο που αντιμετωπίζει πολλές προκλήσεις δεδομένων, ιδιαίτερα θέματα τεχνητής νοημοσύνης και αναλυτικών στοιχείων, όπως η προστασία του απορρήτου, η συμμόρφωση με τους κανονισμούς, η προσβασιμότητα, η σπανιότητα δεδομένων και η μεροληψία. Αυτό περιλαμβάνει επίσης την κοινή χρήση δεδομένων και το χρόνο για τα δεδομένα (και επομένως χρόνο για την αγορά).

Τα συνθετικά δεδομένα παράγονται αλγοριθμικά. Αντικατοπτρίζει στατιστικές ιδιότητες και μοτίβα από τα δεδομένα πηγής. Αλλά το σημαντικό είναι ότι δεν περιέχει ευαίσθητα, ιδιωτικά ή προσωπικά σημεία δεδομένων.

Κάνετε ερωτήσεις για τα συνθετικά δεδομένα και παίρνετε τις ίδιες απαντήσεις που θα κάνατε από τα πραγματικά δεδομένα.

Σε μας προηγούμενη ανάρτηση, δείξαμε πώς να χρησιμοποιούμε ανταγωνιστικά δίκτυα όπως τα Generative Adversarial Networks (GANS) για τη δημιουργία συνόλων δεδομένων σε πίνακα για τη βελτίωση της εκπαίδευσης μοντέλων πιστωτικής απάτης.

Για να υιοθετήσουν οι επιχειρηματικοί φορείς συνθετικά δεδομένα για τα έργα τους ML και αναλυτικών στοιχείων, είναι επιτακτική ανάγκη όχι μόνο να βεβαιωθείτε ότι τα δημιουργούμενα συνθετικά δεδομένα ταιριάζουν με τον σκοπό και τις αναμενόμενες μεταγενέστερες εφαρμογές, αλλά και να είναι σε θέση να μετρήσουν και να αποδείξουν την ποιότητα του τα παραγόμενα δεδομένα.

Με τις αυξανόμενες νομικές και ηθικές υποχρεώσεις για τη διατήρηση του απορρήτου, ένα από τα δυνατά σημεία των συνθετικών δεδομένων είναι η ικανότητα αφαίρεσης ευαίσθητων και πρωτότυπων πληροφοριών κατά τη σύνθεσή τους. Επομένως, εκτός από την ποιότητα, χρειαζόμαστε μετρήσεις για να αξιολογήσουμε τον κίνδυνο διαρροής προσωπικών πληροφοριών, εάν υπάρχουν, και να αξιολογήσουμε ότι η διαδικασία δημιουργίας δεν «απομνημονεύει» ή δεν αντιγράφει κανένα από τα αρχικά δεδομένα.

Για να τα επιτύχουμε όλα αυτά, μπορούμε να χαρτογραφήσουμε την ποιότητα των συνθετικών δεδομένων σε διαστάσεις, οι οποίες βοηθούν τους χρήστες, τους ενδιαφερόμενους φορείς και εμάς να κατανοήσουμε καλύτερα τα δεδομένα που δημιουργούνται.

Οι τρεις διαστάσεις της αξιολόγησης της ποιότητας των συνθετικών δεδομένων

Τα συνθετικά δεδομένα που δημιουργούνται μετρώνται σε τρεις βασικές διαστάσεις:

Πιστότητα
Χρησιμότητα
Προστασία προσωπικών δεδομένων

Αυτές είναι μερικές από τις ερωτήσεις σχετικά με τυχόν δημιουργούμενα συνθετικά δεδομένα που πρέπει να απαντηθούν από μια αναφορά ποιότητας συνθετικών δεδομένων:

Πόσο παρόμοια είναι αυτά τα συνθετικά δεδομένα σε σύγκριση με το αρχικό σετ εκπαίδευσης;
Πόσο χρήσιμα είναι αυτά τα συνθετικά δεδομένα για τις μεταγενέστερες εφαρμογές μας;
Έχει διαρρεύσει κάποια πληροφορία από τα αρχικά δεδομένα εκπαίδευσης στα συνθετικά δεδομένα;
Τα δεδομένα που θεωρούνται ευαίσθητα στον πραγματικό κόσμο (από άλλα σύνολα δεδομένων που δεν χρησιμοποιούνται για την εκπαίδευση του μοντέλου) έχουν συντεθεί κατά λάθος από το μοντέλο μας;

Οι μετρήσεις που μεταφράζουν κάθε μία από αυτές τις ιδιότητες για τους τελικούς χρήστες είναι κάπως ευέλικτες. Εξάλλου, τα δεδομένα που θα δημιουργηθούν μπορεί να διαφέρουν ως προς τις κατανομές, το μέγεθος και τις συμπεριφορές. Θα πρέπει επίσης να είναι εύκολο να κατανοηθούν και να ερμηνευτούν.

Τελικά, οι μετρήσεις πρέπει να βασίζονται πλήρως σε δεδομένα και να μην απαιτούν προηγούμενη γνώση ή πληροφορίες για συγκεκριμένο τομέα. Ωστόσο, εάν ο χρήστης θέλει να εφαρμόσει συγκεκριμένους κανόνες και περιορισμούς που ισχύουν για έναν συγκεκριμένο επιχειρηματικό τομέα, τότε θα πρέπει να μπορεί να τους ορίσει κατά τη διαδικασία σύνθεσης για να βεβαιωθεί ότι τηρείται η πιστότητα του συγκεκριμένου τομέα.

Εξετάζουμε κάθε μία από αυτές τις μετρήσεις με περισσότερες λεπτομέρειες στις επόμενες ενότητες.

Μετρήσεις για την κατανόηση της πιστότητας

Σε κάθε έργο επιστήμης δεδομένων, πρέπει να κατανοήσουμε εάν ένας συγκεκριμένος πληθυσμός δείγματος σχετίζεται με το πρόβλημα που επιλύουμε. Ομοίως, για τη διαδικασία αξιολόγησης της συνάφειας των συνθετικών δεδομένων που δημιουργούνται, πρέπει να τα αξιολογήσουμε με όρους πιστότητα σε σύγκριση με το πρωτότυπο.

Οι οπτικές αναπαραστάσεις αυτών των μετρήσεων καθιστούν ευκολότερη την κατανόησή τους. Θα μπορούσαμε να δείξουμε εάν τηρήθηκαν η πληθώρα και η αναλογία των κατηγοριών, διατηρήθηκαν οι συσχετίσεις μεταξύ των διαφορετικών μεταβλητών και ούτω καθεξής.

Η οπτικοποίηση των δεδομένων όχι μόνο βοηθά στην αξιολόγηση της ποιότητας των συνθετικών δεδομένων, αλλά εντάσσεται επίσης ως ένα από τα αρχικά βήματα στον κύκλο ζωής της επιστήμης δεδομένων για την καλύτερη κατανόηση των δεδομένων.

Ας δούμε μερικές μετρήσεις πιστότητας με περισσότερες λεπτομέρειες.

Διερευνητικές στατιστικές συγκρίσεις

Μέσα στις διερευνητικές στατιστικές συγκρίσεις, τα χαρακτηριστικά των αρχικών και συνθετικών συνόλων δεδομένων διερευνώνται χρησιμοποιώντας βασικά στατιστικά μέτρα, όπως ο μέσος όρος, η διάμεσος, η τυπική απόκλιση, οι διακριτές τιμές, οι τιμές που λείπουν, τα ελάχιστα, τα μέγιστα, τα τεταρτημόρια για συνεχή χαρακτηριστικά και ο αριθμός των εγγραφών ανά κατηγορία, των τιμών που λείπουν ανά κατηγορία και των περισσότερων εμφανιζόμενων χαρακτήρων για τα χαρακτηριστικά της κατηγορίας.

Αυτή η σύγκριση θα πρέπει να διεξάγεται μεταξύ του αρχικού συγκρατημένου δεδομένων και των συνθετικών δεδομένων. Αυτή η αξιολόγηση θα αποκάλυπτε εάν τα συγκριτικά σύνολα δεδομένων είναι στατιστικά παρόμοια. Εάν δεν είναι, τότε θα κατανοήσουμε ποια χαρακτηριστικά και μέτρα είναι διαφορετικά. Θα πρέπει να εξετάσετε το ενδεχόμενο επανεκπαίδευσης και αναγέννησης των συνθετικών δεδομένων με διαφορετικές παραμέτρους εάν σημειωθεί σημαντική διαφορά.

Αυτή η δοκιμή λειτουργεί ως αρχική διαλογή για να βεβαιωθείτε ότι τα συνθετικά δεδομένα έχουν εύλογη πιστότητα στο αρχικό σύνολο δεδομένων και επομένως μπορούν να υποβληθούν χρήσιμα σε πιο αυστηρές δοκιμές.

Βαθμολογία ομοιότητας ιστογράμματος

Η βαθμολογία ομοιότητας ιστογράμματος μετρά τις οριακές κατανομές κάθε χαρακτηριστικού των συνθετικών και αρχικών συνόλων δεδομένων.

Η βαθμολογία ομοιότητας οριοθετείται μεταξύ μηδέν και ενός, με τη βαθμολογία ενός να υποδηλώνει ότι οι κατανομές συνθετικών δεδομένων επικαλύπτουν τέλεια τις κατανομές των αρχικών δεδομένων.

Μια βαθμολογία κοντά στο ένα θα έδινε στους χρήστες τη σιγουριά ότι το σύνολο δεδομένων κράτησης και το συνθετικό σύνολο δεδομένων είναι στατιστικά παρόμοια.

Βαθμολογία αμοιβαίας ενημέρωσης

Η βαθμολογία αμοιβαίας πληροφόρησης μετρά την αμοιβαία εξάρτηση δύο χαρακτηριστικών, αριθμητικών ή κατηγορικών, υποδεικνύοντας πόσες πληροφορίες μπορούν να ληφθούν από ένα χαρακτηριστικό παρατηρώντας ένα άλλο.

Οι αμοιβαίες πληροφορίες μπορούν να μετρήσουν μη γραμμικές σχέσεις, παρέχοντας μια πιο ολοκληρωμένη κατανόηση της ποιότητας των συνθετικών δεδομένων, καθώς μας επιτρέπουν να κατανοήσουμε την έκταση της διατήρησης των σχέσεων της μεταβλητής.

Η βαθμολογία ενός υποδηλώνει ότι η αμοιβαία εξάρτηση μεταξύ των χαρακτηριστικών έχει αποτυπωθεί τέλεια στα συνθετικά δεδομένα.

Βαθμολογία συσχέτισης

Η βαθμολογία συσχέτισης μετρά πόσο καλά έχουν αποτυπωθεί οι συσχετίσεις στο αρχικό σύνολο δεδομένων στα συνθετικά δεδομένα.

Οι συσχετίσεις μεταξύ δύο ή περισσότερων στηλών είναι εξαιρετικά σημαντικές για τις εφαρμογές ML, οι οποίες βοηθούν στην αποκάλυψη των σχέσεων μεταξύ των χαρακτηριστικών και της μεταβλητής στόχου και βοηθούν στη δημιουργία ενός καλά εκπαιδευμένου μοντέλου.

Η βαθμολογία συσχέτισης οριοθετείται μεταξύ μηδέν και ενός, με τη βαθμολογία ενός να υποδηλώνει ότι οι συσχετίσεις έχουν ταιριάξει τέλεια.

Σε αντίθεση με τα δομημένα δεδομένα σε πίνακα, τα οποία συναντάμε συνήθως σε προβλήματα δεδομένων, ορισμένοι τύποι δομημένων δεδομένων έχουν μια ιδιαίτερη συμπεριφορά όπου οι προηγούμενες παρατηρήσεις έχουν πιθανότητα να επηρεάσουν την ακόλουθη παρατήρηση. Αυτά είναι γνωστά ως χρονοσειρές ή διαδοχικά δεδομένα - για παράδειγμα, ένα σύνολο δεδομένων με ωριαίες μετρήσεις της θερμοκρασίας δωματίου.

Αυτή η συμπεριφορά σημαίνει ότι υπάρχει απαίτηση καθορισμού ορισμένων μετρήσεων που μπορούν να μετρήσουν συγκεκριμένα την ποιότητα αυτών των συνόλων δεδομένων χρονοσειρών

Βαθμολογία αυτοσυσχέτισης και μερικής αυτοσυσχέτισης

Αν και παρόμοια με τη συσχέτιση, η αυτοσυσχέτιση δείχνει τη σχέση μιας χρονοσειράς στην παρούσα τιμή της, καθώς σχετίζεται με τις προηγούμενες τιμές της. Η κατάργηση των επιπτώσεων των προηγούμενων χρονικών καθυστερήσεων οδηγεί σε μερική αυτοσυσχέτιση. Επομένως, η βαθμολογία αυτοσυσχέτισης μετρά πόσο καλά τα συνθετικά δεδομένα έχουν συλλάβει τις σημαντικές αυτοσυσχετίσεις ή μερικές συσχετίσεις από το αρχικό σύνολο δεδομένων.

Μετρήσεις για την κατανόηση της χρησιμότητας

Τώρα μπορεί να έχουμε συνειδητοποιήσει στατιστικά ότι τα συνθετικά δεδομένα είναι παρόμοια με το αρχικό σύνολο δεδομένων. Επιπλέον, πρέπει επίσης να αξιολογήσουμε πόσο καλά αποδίδει το συνθετικό σύνολο δεδομένων σε κοινά προβλήματα επιστήμης δεδομένων όταν εκπαιδεύεται σε διάφορους αλγόριθμους ML.

Χρησιμοποιώντας τα παρακάτω χρησιμότητα μετρήσεις, στοχεύουμε να οικοδομήσουμε τη σιγουριά ότι μπορούμε πραγματικά να επιτύχουμε απόδοση σε μεταγενέστερες εφαρμογές σχετικά με την απόδοση των αρχικών δεδομένων.

Βαθμολογία πρόβλεψης

Η μέτρηση της απόδοσης των συνθετικών δεδομένων σε σύγκριση με τα αρχικά πραγματικά δεδομένα μπορεί να γίνει μέσω μοντέλων ML. Η βαθμολογία του μεταγενέστερου μοντέλου καταγράφει την ποιότητα των συνθετικών δεδομένων συγκρίνοντας την απόδοση των μοντέλων ML που έχουν εκπαιδευτεί τόσο στα συνθετικά όσο και στα αρχικά σύνολα δεδομένων και έχουν επικυρωθεί σε δεδομένα δοκιμών από το αρχικό σύνολο δεδομένων. Αυτό παρέχει α Βαθμολογία Train Synthetic Test Real (TSTR). και σε έναν Train Real Test Real (TRTR) σκορ αντίστοιχα.

TSTR, βαθμολογίες TRTR και η βαθμολογία σημασίας χαρακτηριστικών (Εικόνα ανά συγγραφέα)

Η βαθμολογία ενσωματώνει ένα ευρύ φάσμα των πιο αξιόπιστων αλγορίθμων ML για εργασίες είτε παλινδρόμησης είτε ταξινόμησης. Η χρήση πολλών ταξινομητών και παλινδρομητών διασφαλίζει ότι η βαθμολογία είναι πιο γενική στους περισσότερους αλγόριθμους, έτσι ώστε τα συνθετικά δεδομένα να θεωρούνται χρήσιμα στο μέλλον.

Στο τέλος, εάν η βαθμολογία TSTR και η βαθμολογία TRTR είναι συγκρίσιμες, αυτό δείχνει ότι τα συνθετικά δεδομένα έχουν την ποιότητα που πρέπει να χρησιμοποιηθούν για την εκπαίδευση αποτελεσματικών μοντέλων ML για εφαρμογές πραγματικού κόσμου.

Βαθμολογία σπουδαιότητας χαρακτηριστικών

Σε μεγάλη σχέση με τη βαθμολογία πρόβλεψης, η βαθμολογία σημασίας χαρακτηριστικών (FI) την επεκτείνει προσθέτοντας ερμηνευτικότητα στις βαθμολογίες TSTR και TRTR.

Η βαθμολογία F1 συγκρίνει τις αλλαγές και τη σταθερότητα της σειράς σπουδαιότητας του χαρακτηριστικού που λαμβάνεται με τη βαθμολογία πρόβλεψης. Ένα συνθετικό σύνολο δεδομένων θεωρείται ότι έχει μεγάλη χρησιμότητα εάν αποδίδει την ίδια σειρά σπουδαιότητας χαρακτηριστικών με τα αρχικά πραγματικά δεδομένα.

QScore

Για να βεβαιωθούμε ότι ένα μοντέλο που έχει εκπαιδευτεί στα δεδομένα που δημιουργήθηκαν πρόσφατα θα δώσει τις ίδιες απαντήσεις στις ίδιες ερωτήσεις με ένα μοντέλο που εκπαιδεύτηκε χρησιμοποιώντας τα αρχικά δεδομένα, χρησιμοποιούμε το Qscore. Αυτό μετρά την κατάντη απόδοση των συνθετικών δεδομένων εκτελώντας πολλά ερωτήματα που βασίζονται σε τυχαία συνάθροιση τόσο στα συνθετικά όσο και στα πρωτότυπα (και σε παραμονή) σύνολα δεδομένων.

Η ιδέα εδώ είναι ότι και τα δύο αυτά ερωτήματα θα πρέπει να επιστρέφουν παρόμοια αποτελέσματα.

Ένα υψηλό QScore διασφαλίζει ότι οι μεταγενέστερες εφαρμογές που χρησιμοποιούν λειτουργίες ερωτήματος και συνάθροισης μπορούν να παρέχουν σχεδόν ίση αξία με αυτή του αρχικού δεδομένων.

Μετρήσεις για την κατανόηση του απορρήτου

Με μυστικότητα κανονισμοί που ισχύουν ήδη, είναι ηθική υποχρέωση και νομική απαίτηση να διασφαλίζεται ότι προστατεύονται οι ευαίσθητες πληροφορίες.

Προτού αυτά τα συνθετικά δεδομένα μπορούν να κοινοποιηθούν ελεύθερα και να χρησιμοποιηθούν για μεταγενέστερες εφαρμογές, πρέπει να εξετάσουμε τις μετρήσεις απορρήτου που μπορούν να βοηθήσουν τον ενδιαφερόμενο να κατανοήσει πού βρίσκονται τα δημιουργημένα συνθετικά δεδομένα σε σύγκριση με τα αρχικά δεδομένα όσον αφορά την έκταση των πληροφοριών που έχουν διαρρεύσει. Επιπλέον, πρέπει να λάβουμε κρίσιμες αποφάσεις σχετικά με τον τρόπο κοινής χρήσης και χρήσης των συνθετικών δεδομένων.

Ακριβής βαθμολογία αγώνα

Μια άμεση και διαισθητική αξιολόγηση του απορρήτου είναι η αναζήτηση αντιγράφων των πραγματικών δεδομένων μεταξύ των συνθετικών εγγραφών. Το ακριβές σκορ αγώνα μετράει τον αριθμό των πραγματικών ρεκόρ που μπορούν να βρεθούν μεταξύ του συνθετικού σετ.

Η βαθμολογία πρέπει να είναι μηδέν, δηλώνοντας ότι δεν υπάρχουν πραγματικές πληροφορίες όπως είναι στα συνθετικά δεδομένα. Αυτή η μέτρηση λειτουργεί ως μηχανισμός ελέγχου προτού αξιολογήσουμε περαιτέρω μετρήσεις απορρήτου.

Βαθμολογία απορρήτου των γειτόνων

Επιπλέον, η βαθμολογία απορρήτου των γειτόνων μετρά την αναλογία των συνθετικών εγγραφών που μπορεί να είναι πολύ κοντά σε ομοιότητα με τις πραγματικές. Αυτό σημαίνει ότι, αν και δεν είναι απευθείας αντίγραφα, αποτελούν πιθανά σημεία διαρροής απορρήτου και πηγή χρήσιμων πληροφοριών για επιθέσεις συμπερασμάτων.

Η βαθμολογία υπολογίζεται με τη διεξαγωγή μιας υψηλών διαστάσεων αναζήτησης των πλησιέστερων γειτόνων στα συνθετικά δεδομένα που επικαλύπτονται με τα αρχικά δεδομένα.

Βαθμολογία συμπεράσματος μελών

Στον κύκλο ζωής της επιστήμης δεδομένων, από τη στιγμή που ένα μοντέλο έχει εκπαιδευτεί, δεν χρειάζεται πλέον πρόσβαση στα δείγματα εκπαίδευσης και μπορεί να κάνει προβλέψεις για μη ορατά δεδομένα. Ομοίως, στην περίπτωσή μας, μόλις εκπαιδευτεί το μοντέλο συνθεσάιζερ, μπορούν να δημιουργηθούν δείγματα συνθετικών δεδομένων χωρίς να χρειάζονται τα αρχικά δεδομένα.

Μέσω ενός τύπου επίθεσης που ονομάζεται «Επίθεση συμπερασμάτων μέλους», οι εισβολείς μπορούν να επιχειρήσουν να αποκαλύψουν τα δεδομένα που χρησιμοποιήθηκαν για τη δημιουργία των συνθετικών δεδομένων, χωρίς να έχουν πρόσβαση στα αρχικά δεδομένα. Αυτό οδηγεί σε συμβιβασμό του απορρήτου.

Η βαθμολογία συμπεράσματος μέλους μετρά την πιθανότητα επιτυχίας μιας επίθεσης συμπερασμάτων μέλους.

Μια χαμηλή βαθμολογία υποδηλώνει τη δυνατότητα να συναχθεί το συμπέρασμα ότι μια συγκεκριμένη εγγραφή ήταν μέλος του συνόλου δεδομένων εκπαίδευσης που οδήγησε στη δημιουργία των συνθετικών δεδομένων. Με άλλα λόγια, οι επιθέσεις μπορούν να συναγάγουν λεπτομέρειες ενός μεμονωμένου αρχείου, θέτοντας έτσι σε κίνδυνο το απόρρητο.

Μια υψηλή βαθμολογία συμπεράσματος μέλους υποδεικνύει ότι ένας εισβολέας είναι απίθανο να προσδιορίσει εάν μια συγκεκριμένη εγγραφή ήταν μέρος του αρχικού συνόλου δεδομένων που χρησιμοποιήθηκε για τη δημιουργία των συνθετικών δεδομένων. Αυτό σημαίνει επίσης ότι οι πληροφορίες κανενός ατόμου δεν παραβιάστηκαν μέσω των συνθετικών δεδομένων.

Η έννοια της κράτησης

Μια σημαντική βέλτιστη πρακτική που πρέπει να ακολουθήσουμε είναι να διασφαλίσουμε ότι τα συνθετικά δεδομένα είναι αρκετά γενικά και δεν ταιριάζουν υπερβολικά με τα αρχικά δεδομένα στα οποία εκπαιδεύτηκαν. Στην τυπική ροή της επιστήμης δεδομένων, ενώ κατασκευάζουμε μοντέλα ML όπως ένας ταξινομητής τυχαίας δασικής ύλης, παραμερίζουμε τα δεδομένα δοκιμών, εκπαιδεύουμε τα μοντέλα χρησιμοποιώντας τα δεδομένα εκπαίδευσης και αξιολογούμε τις μετρήσεις σε αόρατα δεδομένα δοκιμής.

Ομοίως, για τα συνθετικά δεδομένα, κρατάμε στην άκρη ένα δείγμα των αρχικών δεδομένων – που γενικά αναφέρονται ως δεδομένα αναμονής ή μη εμφανή δεδομένα δοκιμής – και αξιολογούμε τα δημιουργούμενα συνθετικά δεδομένα σε σχέση με το συγκρατημένο σύνολο δεδομένων.

Το σύνολο δεδομένων συγκράτησης αναμένεται να είναι μια αναπαράσταση των αρχικών δεδομένων, αλλά δεν φαίνεται πότε δημιουργήθηκαν τα συνθετικά δεδομένα. Ως εκ τούτου, είναι ζωτικής σημασίας να υπάρχουν παρόμοιες βαθμολογίες για όλες τις μετρήσεις κατά τη σύγκριση του αρχικού με το κράτημα και τα συνθετικά σύνολα δεδομένων.

Όταν λαμβάνονται παρόμοιες βαθμολογίες, μπορούμε να διαπιστώσουμε ότι τα σημεία συνθετικών δεδομένων δεν είναι αποτέλεσμα απομνημόνευσης των αρχικών σημείων δεδομένων, διατηρώντας παράλληλα την ίδια πιστότητα και χρησιμότητα.

Τελικές σκέψεις

Ο κόσμος αρχίζει να κατανοεί τη στρατηγική σημασία των συνθετικών δεδομένων. Ως επιστήμονες δεδομένων και παραγωγοί δεδομένων, είναι καθήκον μας να οικοδομήσουμε εμπιστοσύνη στα συνθετικά δεδομένα που παράγουμε και να διασφαλίσουμε ότι είναι για κάποιο σκοπό.

Τα συνθετικά δεδομένα εξελίσσονται σε ένα απαραίτητο στοιχείο στην εργαλειοθήκη ανάπτυξης της επιστήμης δεδομένων. Το MIT Technology Review έχει Σημειώνεται Τα συνθετικά δεδομένα ως μία από τις καινοτόμες τεχνολογίες του 2022. Δεν μπορούμε να φανταστούμε τη δημιουργία μοντέλων τεχνητής νοημοσύνης εξαιρετικής αξίας χωρίς συνθετικά δεδομένα, ισχυρίζεται Gartner.

Σύμφωνα με McKinsey, τα συνθετικά δεδομένα ελαχιστοποιούν το κόστος και τα εμπόδια που διαφορετικά θα είχατε κατά την ανάπτυξη αλγορίθμων ή την πρόσβαση στα δεδομένα.

Η παραγωγή συνθετικών δεδομένων αφορά τη γνώση των μεταγενέστερων εφαρμογών και την κατανόηση των αντισταθμίσεων μεταξύ των διαφορετικών διαστάσεων για την ποιότητα των συνθετικών δεδομένων.

Χαρακτηριστικά

Ως χρήστης των συνθετικών δεδομένων, είναι σημαντικό να ορίσετε το πλαίσιο της περίπτωσης χρήσης για την οποία θα χρησιμοποιηθεί κάθε δείγμα συνθετικού υλικού στο μέλλον. Όπως και με τα πραγματικά δεδομένα, η ποιότητα των συνθετικών δεδομένων εξαρτάται από την προβλεπόμενη περίπτωση χρήσης, καθώς και από τις παραμέτρους που επιλέγονται για σύνθεση.

Για παράδειγμα, η διατήρηση ακραίων τιμών στα συνθετικά δεδομένα όπως στα αρχικά δεδομένα είναι χρήσιμη για μια περίπτωση χρήσης ανίχνευσης απάτης. Ωστόσο, δεν είναι χρήσιμο σε περίπτωση χρήσης υγειονομικής περίθαλψης με ανησυχίες σχετικά με το απόρρητο, καθώς οι ακραίες τιμές γενικά θα μπορούσαν να είναι διαρροή πληροφοριών.

Επιπλέον, υπάρχει μια αντιστάθμιση μεταξύ πιστότητας, χρησιμότητας και ιδιωτικότητας. Τα δεδομένα δεν μπορούν να βελτιστοποιηθούν και για τα τρία ταυτόχρονα. Αυτές οι μετρήσεις δίνουν τη δυνατότητα στα ενδιαφερόμενα μέρη να δώσουν προτεραιότητα σε ό,τι είναι απαραίτητο για κάθε περίπτωση χρήσης και να διαχειριστούν τις προσδοκίες από τα δημιουργούμενα συνθετικά δεδομένα.

Τελικά, όταν βλέπουμε τις τιμές κάθε μέτρησης και όταν ανταποκρίνονται στις προσδοκίες, οι ενδιαφερόμενοι μπορούν να είναι σίγουροι για τις λύσεις που δημιουργούν χρησιμοποιώντας τα συνθετικά δεδομένα.

Οι περιπτώσεις χρήσης για δομημένα συνθετικά δεδομένα καλύπτουν μια ευρεία γκάμα εφαρμογών από δεδομένα δοκιμών για ανάπτυξη λογισμικού έως τη δημιουργία συνθετικών βραχιόνων ελέγχου σε κλινικές δοκιμές.

Απευθυνθείτε για να εξερευνήσετε αυτές τις ευκαιρίες ή δημιουργήστε ένα PoC για να αποδείξετε την αξία.

Φάρις Χαντάντ είναι ο επικεφαλής Data & Insights στην ομάδα Strategic Pursuits της AABG. Βοηθά τις επιχειρήσεις να κατευθύνονται με επιτυχία στα δεδομένα.

Σφραγίδα ώρας: Δεκέμβριος 16, 2022Δεκέμβριος 18, 2022

Σφραγίδα ώρας: 25 Αυγούστου 2022

Πώς να αξιολογήσετε την ποιότητα των συνθετικών δεδομένων – μέτρηση από την άποψη της πιστότητας, της χρησιμότητας και της ιδιωτικότητας

Αναδημοσίευση από τον Πλάτωνα

Οι τρεις διαστάσεις της αξιολόγησης της ποιότητας των συνθετικών δεδομένων

Μετρήσεις για την κατανόηση της πιστότητας

Διερευνητικές στατιστικές συγκρίσεις

Βαθμολογία ομοιότητας ιστογράμματος

Βαθμολογία αμοιβαίας ενημέρωσης

Βαθμολογία συσχέτισης

Βαθμολογία αυτοσυσχέτισης και μερικής αυτοσυσχέτισης

Μετρήσεις για την κατανόηση της χρησιμότητας

Βαθμολογία πρόβλεψης

Βαθμολογία σπουδαιότητας χαρακτηριστικών

QScore

Μετρήσεις για την κατανόηση του απορρήτου

Ακριβής βαθμολογία αγώνα

Βαθμολογία απορρήτου των γειτόνων

Βαθμολογία συμπεράσματος μελών

Η έννοια της κράτησης

Τελικές σκέψεις

Χαρακτηριστικά

Περισσότερα από Μηχανική εκμάθηση AWS

Φιλοξενεί διακομιστή κώδικα στο Amazon SageMaker

Face-off Probability, μέρος του NHL Edge IQ: Πρόβλεψη νικητών σε πραγματικό χρόνο κατά τη διάρκεια τηλεοπτικών παιχνιδιών

Δημιουργήστε, εκπαιδεύστε και αναπτύξτε μοντέλα Amazon Lookout for Equipment χρησιμοποιώντας το Python Toolbox

Ανίχνευση ανωμαλιών με το Amazon SageMaker Edge Manager χρησιμοποιώντας AWS IoT Greengrass V2

Επίτευξη φιλοξενίας χαμηλής καθυστέρησης για μοντέλα ML που βασίζονται σε δέντρα αποφάσεων στον διακομιστή NVIDIA Triton Inference στο Amazon SageMaker

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός