Χρήση μεθόδων επιλογής χαρακτηριστικών στην ταξινόμηση κειμένων

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Ιανουάριος 20, 2014
Βασίλης Βρυνιώτης
. 5 Σχόλια

Στην ταξινόμηση κειμένου, η επιλογή χαρακτηριστικών είναι η διαδικασία επιλογής ενός συγκεκριμένου υποσυνόλου των όρων του συνόλου εκπαίδευσης και χρήσης μόνο αυτών στον αλγόριθμο ταξινόμησης. Η διαδικασία επιλογής χαρακτηριστικών πραγματοποιείται πριν από την εκπαίδευση του ταξινομητή.

Ενημέρωση: Το Datumbox Machine Learning Framework είναι τώρα ανοιχτού κώδικα και δωρεάν κατεβάσετε. Ρίξτε μια ματιά στο πακέτο com.datumbox.framework.machinelearning.featureselection για να δείτε την εφαρμογή των μεθόδων Chi-square και Mutual Information Feature Selection στην Java.

Τα κύρια πλεονεκτήματα για τη χρήση αλγορίθμων επιλογής χαρακτηριστικών είναι το γεγονός ότι μειώνει τη διάσταση των δεδομένων μας, κάνει την εκπαίδευση πιο γρήγορη και μπορεί να βελτιώσει την ακρίβεια αφαιρώντας θορυβώδεις λειτουργίες. Κατά συνέπεια, η επιλογή χαρακτηριστικών μπορεί να μας βοηθήσει να αποφύγουμε την υπερβολική προσαρμογή.

Ο βασικός αλγόριθμος επιλογής για την επιλογή των k καλύτερων χαρακτηριστικών παρουσιάζεται παρακάτω (Manning et al, 2008):

Χρήση μεθόδων επιλογής χαρακτηριστικών στην ταξινόμηση κειμένου PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Στις επόμενες ενότητες παρουσιάζουμε δύο διαφορετικούς αλγόριθμους επιλογής χαρακτηριστικών: το Mutual Information και το Chi Square.

Αμοιβαίες πληροφορίες

Μία από τις πιο κοινές μεθόδους επιλογής χαρακτηριστικών είναι η αμοιβαία πληροφορία του όρου t στην κατηγορία c (Manning et al, 2008). Αυτό μετρά πόσες πληροφορίες συμβάλλει η παρουσία ή η απουσία ενός συγκεκριμένου όρου στη λήψη της σωστής απόφασης ταξινόμησης για το c. Οι αμοιβαίες πληροφορίες μπορούν να υπολογιστούν χρησιμοποιώντας τον ακόλουθο τύπο:

Χρήση μεθόδων επιλογής χαρακτηριστικών στην ταξινόμηση κειμένου PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. [1]

Στους υπολογισμούς μας, αφού χρησιμοποιούμε τις εκτιμήσεις μέγιστης πιθανότητας των πιθανοτήτων, μπορούμε να χρησιμοποιήσουμε την ακόλουθη εξίσωση:

[2]

Όπου N είναι ο συνολικός αριθμός εγγράφων, N_tcείναι οι μετρήσεις των εγγράφων που έχουν τις τιμές e_t(εμφάνιση του όρου t στο έγγραφο, παίρνει την τιμή 1 ή 0) και e_c(εμφάνιση εγγράφου στην κατηγορία c, παίρνει την τιμή 1 ή 0) που υποδεικνύεται από δύο δείκτες, και . Τέλος, πρέπει να σημειώσουμε ότι όλες οι προαναφερθείσες μεταβλητές παίρνουν μη αρνητικές τιμές.

Πλατεία Τσι

Μια άλλη κοινή μέθοδος επιλογής χαρακτηριστικών είναι η Πλατεία Τσι. Το Χ² Το τεστ χρησιμοποιείται στις στατιστικές, μεταξύ άλλων, για να ελέγξει την ανεξαρτησία δύο γεγονότων. Πιο συγκεκριμένα στην επιλογή χαρακτηριστικών το χρησιμοποιούμε για να ελέγξουμε αν η εμφάνιση ενός συγκεκριμένου όρου και η εμφάνιση μιας συγκεκριμένης κλάσης είναι ανεξάρτητες. Έτσι υπολογίζουμε την ακόλουθη ποσότητα για κάθε όρο και τα κατατάσσουμε με τη βαθμολογία τους:

Χρήση μεθόδων επιλογής χαρακτηριστικών στην ταξινόμηση κειμένου PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. [3]

Υψηλές βαθμολογίες στο x² υποδεικνύουν ότι η μηδενική υπόθεση (H₀) της ανεξαρτησίας θα πρέπει να απορριφθεί και επομένως η εμφάνιση του όρου και της τάξης να εξαρτώνται. Εάν εξαρτώνται, τότε επιλέγουμε τη δυνατότητα για την ταξινόμηση κειμένου.

Ο παραπάνω τύπος μπορεί να ξαναγραφτεί ως εξής:

Χρήση μεθόδων επιλογής χαρακτηριστικών στην ταξινόμηση κειμένου PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. [4]

Αν χρησιμοποιήσουμε τη μέθοδο Chi Square, θα πρέπει να επιλέξουμε μόνο έναν προκαθορισμένο αριθμό χαρακτηριστικών που έχουν ax² βαθμολογία δοκιμής μεγαλύτερη από 10.83 που υποδηλώνει στατιστική σημασία στο επίπεδο 0.001.

Τέλος, πρέπει να σημειώσουμε ότι από στατιστική άποψη η επιλογή χαρακτηριστικών Τετράγωνο Τσι είναι ανακριβής, λόγω του ενός βαθμού ελευθερίας και Διόρθωση Yates θα πρέπει να χρησιμοποιηθεί αντ' αυτού (πράγμα που θα δυσκολέψει την επίτευξη στατιστικής σημασίας). Επομένως, θα πρέπει να περιμένουμε ότι από τα συνολικά επιλεγμένα χαρακτηριστικά, ένα μικρό μέρος από αυτά είναι ανεξάρτητα από την κατηγορία). Επομένως, θα πρέπει να περιμένουμε ότι από τα συνολικά επιλεγμένα χαρακτηριστικά, ένα μικρό μέρος τους είναι ανεξάρτητο από την κατηγορία. Παρόλα αυτά ως Manning et al (2008) Όπως φαίνεται, αυτά τα θορυβώδη χαρακτηριστικά δεν επηρεάζουν σοβαρά τη συνολική ακρίβεια του ταξινομητή μας.

Κατάργηση θορυβωδών/σπάνιων χαρακτηριστικών

Μια άλλη τεχνική που μπορεί να μας βοηθήσει να αποφύγουμε την υπερβολική προσαρμογή, να μειώσουμε την κατανάλωση μνήμης και να βελτιώσουμε την ταχύτητα, είναι να αφαιρέσουμε όλους τους σπάνιους όρους από το λεξιλόγιο. Για παράδειγμα, μπορεί κανείς να εξαλείψει όλους τους όρους που εμφανίστηκαν μόνο μία φορά σε όλες τις κατηγορίες. Η κατάργηση αυτών των όρων μπορεί να μειώσει τη χρήση της μνήμης κατά σημαντικό παράγοντα και να βελτιώσει την ταχύτητα της ανάλυσης. Τέλος, δεν θα πρέπει αυτή η τεχνική να μπορεί να χρησιμοποιηθεί σε συνδυασμό με τους παραπάνω αλγόριθμους επιλογής χαρακτηριστικών.

Σας άρεσε το άρθρο; Αφιερώστε ένα λεπτό για να το μοιραστείτε στο Twitter. 🙂

Σφραγίδα ώρας: Ιανουάριος 20, 2014Νοέμβριος 6, 2022

Σφραγίδα ώρας: 19 Οκτωβρίου 2014

Χρήση μεθόδων επιλογής χαρακτηριστικών κατά την ταξινόμηση κειμένου

Αναδημοσίευση από τον Πλάτωνα

Αμοιβαίες πληροφορίες

Πλατεία Τσι

Κατάργηση θορυβωδών/σπάνιων χαρακτηριστικών

Περισσότερα από Databox

Ομαδοποίηση με το μοντέλο του μείγματος διεργασιών Dirichlet στη Java

Πώς να φτιάξετε το δικό σας εργαλείο ανάλυσης sentiment Facebook

Διάτρηση στον αλγόριθμο Συστάσεων ALS του Spark

Ανάπτυξη ενός ταξινομητή κειμένου Naive Bayes σε JAVA

Νέα σειρά Blog - Απομνημονεύματα προγραμματιστή του TorchVision

Μια κλεφτή ματιά στο TorchVision v0.11 – Αναμνήσεις ενός προγραμματιστή TorchVision – 2

Το ταξίδι του εκσυγχρονισμού του TorchVision – Αναμνήσεις ενός προγραμματιστή TorchVision – 3

5 συμβουλές για εκπαίδευση πολλαπλών GPU με την Keras

Λήψη της χρήσης GPU των καρτών NVIDIA με το εργαλείο Linux dstat

Το μοντέλο μείγματος διεργασίας Dirichlet

Ομαδοποίηση εγγράφων και δεδομένων gaussian με Dirichlet Process Mixture Models

Νέο πλαίσιο μηχανικής μάθησης ανοιχτού κώδικα γραμμένο σε Java

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός