Τι είναι τα συνθετικά δεδομένα; Οι τύποι, οι περιπτώσεις χρήσης και οι εφαρμογές τους για τη μηχανική μάθηση και το απόρρητο

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Ο τομέας της Επιστήμης Δεδομένων και της Μηχανικής Μάθησης αυξάνεται καθημερινά. Καθώς με τον καιρό προτείνονται νέα μοντέλα και αλγόριθμοι, αυτοί οι νέοι αλγόριθμοι και μοντέλα χρειάζονται τεράστια δεδομένα για εκπαίδευση και δοκιμή. Τα μοντέλα Deep Learning κερδίζουν τόσο μεγάλη δημοτικότητα στις μέρες μας, και αυτά τα μοντέλα είναι επίσης πεινασμένα για δεδομένα. Η απόκτηση τόσο τεράστιου όγκου δεδομένων στο πλαίσιο των διαφορετικών δηλώσεων προβλημάτων είναι μια αρκετά φρικτή, χρονοβόρα και δαπανηρή διαδικασία. Τα δεδομένα συλλέγονται από σενάρια πραγματικής ζωής, γεγονός που εγείρει ευθύνες ασφάλειας και ανησυχίες για το απόρρητο. Τα περισσότερα από τα δεδομένα είναι ιδιωτικά και προστατεύονται από νόμους και κανονισμούς περί απορρήτου, γεγονός που εμποδίζει την κοινή χρήση και τη μετακίνηση δεδομένων μεταξύ οργανισμών ή μερικές φορές μεταξύ διαφορετικών τμημάτων ενός μόνο οργανισμού—με αποτέλεσμα την καθυστέρηση πειραμάτων και δοκιμών προϊόντων. Τίθεται λοιπόν το ερώτημα πώς μπορεί να λυθεί αυτό το ζήτημα; Πώς μπορούν τα δεδομένα να γίνουν πιο προσιτά και ανοιχτά χωρίς να εγείρονται ανησυχίες για το απόρρητο κάποιου;

Η λύση σε αυτό το πρόβλημα είναι κάτι που είναι γνωστό ως Συνθετικά δεδομένα.

Λοιπόν, τι είναι τα συνθετικά δεδομένα;

Εξ ορισμού, τα συνθετικά δεδομένα παράγονται τεχνητά ή αλγοριθμικά και μοιάζουν πολύ με την υποκείμενη δομή και την ιδιότητα των πραγματικών δεδομένων. Εάν τα συνθετικά δεδομένα είναι καλά, δεν διακρίνονται από τα πραγματικά δεδομένα.

Πόσοι διαφορετικοί τύποι συνθετικών δεδομένων μπορεί να υπάρχουν;

Η απάντηση σε αυτή την ερώτηση είναι πολύ ανοιχτή, καθώς τα δεδομένα μπορούν να λάβουν πολλές μορφές, αλλά κυρίως έχουμε

Δεδομένα κειμένου
Ηχητικά ή οπτικά δεδομένα (για παράδειγμα, Εικόνες, βίντεο και ήχος)
Πίνακας δεδομένων

Χρησιμοποιήστε περιπτώσεις συνθετικών δεδομένων για μηχανική εκμάθηση

Θα συζητήσουμε μόνο τις περιπτώσεις χρήσης τριών μόνο τύπων συνθετικών δεδομένων, όπως αναφέρθηκε παραπάνω.

Χρήση δεδομένων συνθετικού κειμένου για εκπαίδευση μοντέλων NLP

Τα συνθετικά δεδομένα έχουν εφαρμογές στον τομέα της επεξεργασίας φυσικής γλώσσας. Για παράδειγμα, η ομάδα Alexa AI στο Amazon χρησιμοποιεί συνθετικά δεδομένα για να ολοκληρώσει το σετ εκπαίδευσης για το σύστημα NLU (κατανόηση φυσικής γλώσσας). Τους παρέχει μια σταθερή βάση για την εκπαίδευση νέων γλωσσών χωρίς υπάρχοντα ή επαρκή δεδομένα αλληλεπίδρασης με τους καταναλωτές.

Χρήση συνθετικών δεδομένων για αλγόριθμους εκπαίδευσης όρασης

Ας συζητήσουμε εδώ μια περίπτωση ευρείας χρήσης. Ας υποθέσουμε ότι θέλουμε να αναπτύξουμε έναν αλγόριθμο για να ανιχνεύσουμε ή να μετρήσουμε τον αριθμό των προσώπων σε μια εικόνα. Μπορούμε να χρησιμοποιήσουμε ένα GAN ή κάποιο άλλο δίκτυο παραγωγής για να δημιουργήσουμε ρεαλιστικά ανθρώπινα πρόσωπα, δηλαδή πρόσωπα που δεν υπάρχουν στον πραγματικό κόσμο, για να εκπαιδεύσουμε το μοντέλο. Ένα άλλο πλεονέκτημα είναι ότι μπορούμε να δημιουργήσουμε όσα δεδομένα θέλουμε από αυτούς τους αλγόριθμους χωρίς να παραβιάζουμε το απόρρητο κανενός. Ωστόσο, δεν μπορούμε να χρησιμοποιήσουμε πραγματικά δεδομένα, καθώς περιέχουν πρόσωπα ορισμένων ατόμων, επομένως ορισμένες πολιτικές απορρήτου περιορίζουν τη χρήση αυτών των δεδομένων.

Μια άλλη περίπτωση χρήσης είναι η ενίσχυση της μάθησης σε ένα προσομοιωμένο περιβάλλον. Ας υποθέσουμε ότι θέλουμε να δοκιμάσουμε έναν ρομποτικό βραχίονα που έχει σχεδιαστεί για να αρπάζει ένα αντικείμενο και να το τοποθετεί σε ένα κουτί. Για το σκοπό αυτό έχει σχεδιαστεί ένας αλγόριθμος ενίσχυσης μάθησης. Πρέπει να κάνουμε πειράματα για να το δοκιμάσουμε γιατί έτσι μαθαίνει ο αλγόριθμος ενίσχυσης μάθησης. Η εγκατάσταση ενός πειράματος σε ένα πραγματικό σενάριο είναι αρκετά δαπανηρή και χρονοβόρα, περιορίζοντας τον αριθμό των διαφορετικών πειραμάτων που μπορούμε να εκτελέσουμε. Αλλά αν κάνουμε τα πειράματα στο προσομοιωμένο περιβάλλον, τότε η ρύθμιση του πειράματος είναι σχετικά φθηνή, καθώς δεν θα απαιτήσει ένα πρωτότυπο ρομποτικού βραχίονα.

Χρήσεις Πίνακα δεδομένων

Τα συνθετικά δεδομένα σε πίνακα είναι δεδομένα που δημιουργούνται τεχνητά και μιμούνται τα δεδομένα του πραγματικού κόσμου που είναι αποθηκευμένα σε πίνακες. Αυτά τα δεδομένα είναι δομημένα σε γραμμές και στήλες. Αυτοί οι πίνακες μπορούν να περιέχουν οποιαδήποτε δεδομένα, όπως μια λίστα αναπαραγωγής μουσικής. Για κάθε τραγούδι, το πρόγραμμα αναπαραγωγής μουσικής σας διατηρεί ένα σωρό πληροφορίες: το όνομά του, τον τραγουδιστή, το μήκος του, το είδος του κ.λπ. Μπορεί επίσης να είναι ένα αρχείο χρηματοδότησης όπως τραπεζικές συναλλαγές, τιμές μετοχών κ.λπ.

Τα δεδομένα συνθετικών πινάκων που σχετίζονται με τραπεζικές συναλλαγές χρησιμοποιούνται για την εκπαίδευση μοντέλων και τον σχεδιασμό αλγορίθμων για τον εντοπισμό δόλιων συναλλαγών. Τα δεδομένα τιμών μετοχών από το παρελθόν μπορούν να χρησιμοποιηθούν για την εκπαίδευση και τη δοκιμή μοντέλων για την πρόβλεψη των μελλοντικών τιμών των μετοχών.

Ένα από τα σημαντικά πλεονεκτήματα της χρήσης συνθετικών δεδομένων στη μηχανική εκμάθηση είναι ότι ο προγραμματιστής έχει τον έλεγχο των δεδομένων. μπορεί να κάνει αλλαγές στα δεδομένα ανάλογα με την ανάγκη να δοκιμάσει οποιαδήποτε ιδέα και να πειραματιστεί με αυτήν. Εν τω μεταξύ, ένας προγραμματιστής μπορεί να δοκιμάσει το μοντέλο σε συνθετικά δεδομένα και θα δώσει μια πολύ ξεκάθαρη ιδέα για την απόδοση του μοντέλου σε δεδομένα πραγματικής ζωής. Εάν ένας προγραμματιστής θέλει να δοκιμάσει ένα μοντέλο και περιμένει για πραγματικά δεδομένα, τότε η απόκτηση δεδομένων μπορεί να διαρκέσει εβδομάδες ή και μήνες. Ως εκ τούτου, καθυστερεί η ανάπτυξη και η καινοτομία της τεχνολογίας.

Τώρα είμαστε έτοιμοι να συζητήσουμε πώς τα συνθετικά δεδομένα βοηθούν στην επίλυση ζητημάτων που σχετίζονται με το απόρρητο δεδομένων.

Πολλές βιομηχανίες εξαρτώνται από τα δεδομένα που δημιουργούνται από τους πελάτες τους για καινοτομία και ανάπτυξη, αλλά αυτά τα δεδομένα περιέχουν Προσωπικά Αναγνωρίσιμα στοιχεία (PII) και οι νόμοι περί απορρήτου ρυθμίζουν αυστηρά την επεξεργασία τέτοιων δεδομένων. Για παράδειγμα, ο Γενικός Κανονισμός Προστασίας Δεδομένων (GDPR) απαγορεύει τις χρήσεις για τις οποίες δεν έγινε ρητή συναίνεση όταν ο οργανισμός συνέλεξε τα δεδομένα. Καθώς τα συνθετικά δεδομένα μοιάζουν πολύ με την υποκείμενη δομή των πραγματικών δεδομένων και, ταυτόχρονα, διασφαλίζει ότι δεν Το άτομο που υπάρχει στα πραγματικά δεδομένα μπορεί να επαναπροσδιοριστεί από τα συνθετικά δεδομένα. Ως αποτέλεσμα, η επεξεργασία και η κοινή χρήση συνθετικών δεδομένων έχει πολύ λιγότερους κανονισμούς, με αποτέλεσμα ταχύτερες εξελίξεις και καινοτομίες και εύκολη πρόσβαση στα δεδομένα.

Συμπέρασμα

Τα συνθετικά δεδομένα έχουν πολλά σημαντικά πλεονεκτήματα. Δίνει στους προγραμματιστές ML έλεγχο επί των πειραμάτων και αυξάνει την ταχύτητα ανάπτυξης καθώς τα δεδομένα είναι πλέον πιο προσβάσιμα. Προωθεί τη συνεργασία σε μεγαλύτερη κλίμακα, καθώς τα δεδομένα είναι ελεύθερα κοινοποιήσιμα. Επιπλέον, τα συνθετικά δεδομένα εγγυώνται την προστασία του απορρήτου των ατόμων από τα πραγματικά δεδομένα.

<img width=”150″ height=”150″ src=”https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-150×150-1.jpg” class=” avatar avatar-150 photo” alt decoding=”async” loading=”lazy” srcset=”https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-150×150 jpg 1w, https://bizbuildermike.com/wp-content/uploads/150/2022/IMG11-Vineet-kumar-20221002180119×80-80.jpg 1w, https://www.marktechpost.com/wp-content/ uploads/80/2022/IMG11-Vineet-kumar-20221002180119×70.jpg 70w, https://www.marktechpost.com/wp-content/uploads/70/2022/IMG11×20221002180119-Vine 24w, https://www.marktechpost.com/wp-content/uploads/24/24/IMG2022-Vineet-kumar-11×20221002180119.jpg 48w, https://bizbuildermike.com/wp-content/uploads/48 /48/IMG2022-Vineet-kumar-11×20221002180119-96.jpg 96w, https://bizbuildermike.com/wp-content/uploads/1/96/IMG2022-Vineet-11jpgw20221002180119-300 ” sizes=”(max-width: 300px) 1vw, 300px” data-attachment-id=”150″ data-permalink=”https://www.marktechpost.com/img100-vineet-kumar/” data- file=”https://www.marktechpost.com/wp-content/uploads/150/28275/IMG20221002180119-Vineet-kumar-scaled.jpg” data-orig-size=”2022″ data-comments-opened= ”11″ data-image-meta=”{“aperture”:”20221002180119″,”credit”:””,”camera”:”OnePlus 1920,2560 1G”,”caption”:””,”created_timestamp”:”2.8″ ,”copyright”:””,”focal_length”:”9″,”iso”:”5″,”shutter_speed”:”1664733679″,”title”:””,”προσανατολισμός”:”6.064″}” δεδομένα- image-title=”IMG100 – Vineet kumar” data-image-description data-image-caption=”

Vineet

” data-medium-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-225×300.jpg” data-large-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-768×1024.jpg”>

Ο Vineet Kumar είναι οικότροφος συμβούλων στην MarktechPost. Αυτήν τη στιγμή παρακολουθεί το πτυχίο του από το Ινδικό Ινστιτούτο Τεχνολογίας (IIT), Kanpur. Είναι λάτρης της Μηχανικής Μάθησης. Είναι παθιασμένος με την έρευνα και τις τελευταίες εξελίξεις στο Deep Learning, το Computer Vision και συναφείς τομείς.

Si al principi no tens èxit, aleshores el paracaigudisme no és per a tu.

Σφραγίδα ώρας: Νοέμβριος 12, 2022Νοέμβριος 14, 2022