Χρήση μεθόδων επιλογής χαρακτηριστικών στην ταξινόμηση κειμένου PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Χρήση μεθόδων επιλογής χαρακτηριστικών κατά την ταξινόμηση κειμένου

Στην ταξινόμηση κειμένου, η επιλογή χαρακτηριστικών είναι η διαδικασία επιλογής ενός συγκεκριμένου υποσυνόλου των όρων του συνόλου εκπαίδευσης και χρήσης μόνο αυτών στον αλγόριθμο ταξινόμησης. Η διαδικασία επιλογής χαρακτηριστικών πραγματοποιείται πριν από την εκπαίδευση του ταξινομητή.

Ενημέρωση: Το Datumbox Machine Learning Framework είναι τώρα ανοιχτού κώδικα και δωρεάν κατεβάσετε. Ρίξτε μια ματιά στο πακέτο com.datumbox.framework.machinelearning.featureselection για να δείτε την εφαρμογή των μεθόδων Chi-square και Mutual Information Feature Selection στην Java.

Τα κύρια πλεονεκτήματα για τη χρήση αλγορίθμων επιλογής χαρακτηριστικών είναι το γεγονός ότι μειώνει τη διάσταση των δεδομένων μας, κάνει την εκπαίδευση πιο γρήγορη και μπορεί να βελτιώσει την ακρίβεια αφαιρώντας θορυβώδεις λειτουργίες. Κατά συνέπεια, η επιλογή χαρακτηριστικών μπορεί να μας βοηθήσει να αποφύγουμε την υπερβολική προσαρμογή.

Ο βασικός αλγόριθμος επιλογής για την επιλογή των k καλύτερων χαρακτηριστικών παρουσιάζεται παρακάτω (Manning et al, 2008):

Χρήση μεθόδων επιλογής χαρακτηριστικών στην ταξινόμηση κειμένου PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Στις επόμενες ενότητες παρουσιάζουμε δύο διαφορετικούς αλγόριθμους επιλογής χαρακτηριστικών: το Mutual Information και το Chi Square.

Αμοιβαίες πληροφορίες

Μία από τις πιο κοινές μεθόδους επιλογής χαρακτηριστικών είναι η αμοιβαία πληροφορία του όρου t στην κατηγορία c (Manning et al, 2008). Αυτό μετρά πόσες πληροφορίες συμβάλλει η παρουσία ή η απουσία ενός συγκεκριμένου όρου στη λήψη της σωστής απόφασης ταξινόμησης για το c. Οι αμοιβαίες πληροφορίες μπορούν να υπολογιστούν χρησιμοποιώντας τον ακόλουθο τύπο:

Χρήση μεθόδων επιλογής χαρακτηριστικών στην ταξινόμηση κειμένου PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.[1]

Στους υπολογισμούς μας, αφού χρησιμοποιούμε τις εκτιμήσεις μέγιστης πιθανότητας των πιθανοτήτων, μπορούμε να χρησιμοποιήσουμε την ακόλουθη εξίσωση:

Χρήση μεθόδων επιλογής χαρακτηριστικών στην ταξινόμηση κειμένου PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.[2]

Όπου N είναι ο συνολικός αριθμός εγγράφων, Ntcείναι οι μετρήσεις των εγγράφων που έχουν τις τιμές et (εμφάνιση του όρου t στο έγγραφο, παίρνει την τιμή 1 ή 0) και ec(εμφάνιση εγγράφου στην κατηγορία c, παίρνει την τιμή 1 ή 0) που υποδεικνύεται από δύο δείκτες, Χρήση μεθόδων επιλογής χαρακτηριστικών στην ταξινόμηση κειμένου PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. και Χρήση μεθόδων επιλογής χαρακτηριστικών στην ταξινόμηση κειμένου PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.. Τέλος, πρέπει να σημειώσουμε ότι όλες οι προαναφερθείσες μεταβλητές παίρνουν μη αρνητικές τιμές.

Πλατεία Τσι

Μια άλλη κοινή μέθοδος επιλογής χαρακτηριστικών είναι η Πλατεία Τσι. Το Χ2 Το τεστ χρησιμοποιείται στις στατιστικές, μεταξύ άλλων, για να ελέγξει την ανεξαρτησία δύο γεγονότων. Πιο συγκεκριμένα στην επιλογή χαρακτηριστικών το χρησιμοποιούμε για να ελέγξουμε αν η εμφάνιση ενός συγκεκριμένου όρου και η εμφάνιση μιας συγκεκριμένης κλάσης είναι ανεξάρτητες. Έτσι υπολογίζουμε την ακόλουθη ποσότητα για κάθε όρο και τα κατατάσσουμε με τη βαθμολογία τους:

Χρήση μεθόδων επιλογής χαρακτηριστικών στην ταξινόμηση κειμένου PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.[3]

Υψηλές βαθμολογίες στο x2 υποδεικνύουν ότι η μηδενική υπόθεση (H0) της ανεξαρτησίας θα πρέπει να απορριφθεί και επομένως η εμφάνιση του όρου και της τάξης να εξαρτώνται. Εάν εξαρτώνται, τότε επιλέγουμε τη δυνατότητα για την ταξινόμηση κειμένου.

Ο παραπάνω τύπος μπορεί να ξαναγραφτεί ως εξής:

Χρήση μεθόδων επιλογής χαρακτηριστικών στην ταξινόμηση κειμένου PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.[4]

Αν χρησιμοποιήσουμε τη μέθοδο Chi Square, θα πρέπει να επιλέξουμε μόνο έναν προκαθορισμένο αριθμό χαρακτηριστικών που έχουν ax2 βαθμολογία δοκιμής μεγαλύτερη από 10.83 που υποδηλώνει στατιστική σημασία στο επίπεδο 0.001.

Τέλος, πρέπει να σημειώσουμε ότι από στατιστική άποψη η επιλογή χαρακτηριστικών Τετράγωνο Τσι είναι ανακριβής, λόγω του ενός βαθμού ελευθερίας και Διόρθωση Yates θα πρέπει να χρησιμοποιηθεί αντ' αυτού (πράγμα που θα δυσκολέψει την επίτευξη στατιστικής σημασίας). Επομένως, θα πρέπει να περιμένουμε ότι από τα συνολικά επιλεγμένα χαρακτηριστικά, ένα μικρό μέρος από αυτά είναι ανεξάρτητα από την κατηγορία). Επομένως, θα πρέπει να περιμένουμε ότι από τα συνολικά επιλεγμένα χαρακτηριστικά, ένα μικρό μέρος τους είναι ανεξάρτητο από την κατηγορία. Παρόλα αυτά ως Manning et al (2008) Όπως φαίνεται, αυτά τα θορυβώδη χαρακτηριστικά δεν επηρεάζουν σοβαρά τη συνολική ακρίβεια του ταξινομητή μας.

Κατάργηση θορυβωδών/σπάνιων χαρακτηριστικών

Μια άλλη τεχνική που μπορεί να μας βοηθήσει να αποφύγουμε την υπερβολική προσαρμογή, να μειώσουμε την κατανάλωση μνήμης και να βελτιώσουμε την ταχύτητα, είναι να αφαιρέσουμε όλους τους σπάνιους όρους από το λεξιλόγιο. Για παράδειγμα, μπορεί κανείς να εξαλείψει όλους τους όρους που εμφανίστηκαν μόνο μία φορά σε όλες τις κατηγορίες. Η κατάργηση αυτών των όρων μπορεί να μειώσει τη χρήση της μνήμης κατά σημαντικό παράγοντα και να βελτιώσει την ταχύτητα της ανάλυσης. Τέλος, δεν θα πρέπει αυτή η τεχνική να μπορεί να χρησιμοποιηθεί σε συνδυασμό με τους παραπάνω αλγόριθμους επιλογής χαρακτηριστικών.

Σας άρεσε το άρθρο; Αφιερώστε ένα λεπτό για να το μοιραστείτε στο Twitter. 🙂

Σφραγίδα ώρας:

Περισσότερα από Databox