שימוש בשיטות בחירת תכונות בסיווג טקסט PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

שימוש בשיטות בחירת תכונות בסיווג טקסט

בסיווג טקסטים, בחירת התכונה היא תהליך בחירת קבוצת משנה ספציפית של מונחי מערך ההדרכה והשימוש בהם רק באלגוריתם הסיווג. תהליך בחירת התכונה מתרחש לפני אימון המסווג.

עדכון: מסגרת הלמידה על מכונה של Datumbox היא כעת קוד פתוח וחינמית ל- להורדה. בדוק את החבילה com.datumbox.framework.machinelearning.features Selection בכדי לראות את היישום של שיטות בחירת תכונות מידע כיכר צ'י ומידע הדדי ב- Java.

היתרונות העיקריים לשימוש באלגוריתמים לבחירת תכונות הם העובדות שהוא מקטין את מימד הנתונים שלנו, זה הופך את האימונים למהירים יותר וזה יכול לשפר את הדיוק על ידי הסרת תכונות רועשות. כתוצאה מכך בחירה בתכונות יכולה לעזור לנו להימנע מהתאמת יתר.

אלגוריתם הבחירה הבסיסי לבחירת התכונות הטובות ביותר ב- k מוצג להלן (מאנינג ואח ', 2008):

שימוש בשיטות בחירת תכונות בסיווג טקסט PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

בחלקים הבאים אנו מציגים שני אלגוריתמים לבחירת תכונות שונים: המידע ההדדי וכיכר הצ'י.

מידע הדדי

אחת משיטות הבחירה התכונות הנפוצות ביותר היא המידע ההדדי של מונח t בכיתה ג (מאנינג ואח ', 2008). זה מודד כמה מידע נוכחות או היעדר מונח מסוים תורם לקבלת החלטת הסיווג הנכונה ב- c. ניתן לחשב את המידע ההדדי באמצעות הנוסחה הבאה:

שימוש בשיטות בחירת תכונות בסיווג טקסט PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.[1]

בחישובים שלנו, מכיוון שאנו משתמשים בערכות הסבירות המרבית של ההסתברויות אנו יכולים להשתמש במשוואה הבאה:

שימוש בשיטות בחירת תכונות בסיווג טקסט PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.[2]

כאשר N הוא המספר הכולל של המסמכים, Ntcהם ספירת המסמכים שיש להם את הערכים et (התרחשות המונח t במסמך; זה לוקח את הערך 1 או 0) ו- ec(התרחשות המסמך בכיתה ג; זה לוקח את הערך 1 או 0) המצוין על ידי שתי תסריטים משנה, שימוש בשיטות בחירת תכונות בסיווג טקסט PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. ו שימוש בשיטות בחירת תכונות בסיווג טקסט PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.. לבסוף עלינו לציין כי כל המשתנים האמורים לוקחים ערכים לא שליליים.

כיכר צ'י

שיטת בחירת תכונות נפוצה נוספת היא כיכר צ'י. ה- x2 המבחן משמש בסטטיסטיקה, בין היתר, לבחינת העצמאות של שני אירועים. ליתר דיוק בבחירת התכונות אנו משתמשים בו כדי לבדוק אם המופע של מונח מסוים וההופעה של מחלקה מסוימת אינם תלויים. כך אנו מעריכים את הכמות הבאה לכל מונח ואנחנו מדרגים אותם לפי הציון שלהם:

שימוש בשיטות בחירת תכונות בסיווג טקסט PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.[3]

ציונים גבוהים ב- x2 מציינים שהשערת האפס (ח0) יש לדחות את העצמאות וכך התרחשות המונח והמעמד תלויים. אם הם תלויים, אנו בוחרים את התכונה לסיווג הטקסט.

ניתן לכתוב מחדש את הנוסחה לעיל:

שימוש בשיטות בחירת תכונות בסיווג טקסט PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.[4]

אם אנו משתמשים בשיטת צ'י ריבוע, עלינו לבחור רק מספר מוגדר מראש של תכונות שיש בהן גרזן2 ציון הבדיקה גדול מ- 10.83 מה שמצביע על מובהקות סטטיסטית ברמה של 0.001.

אחרון חביב נציין כי מבחינה סטטיסטית הבחירה בתכונות של כיכר צ'י אינה מדויקת, בגלל מידת החופש היחידה תיקון ייטס יש להשתמש במקום (מה שיקשה על הגעה לסטטיסטיקה). לפיכך עלינו לצפות שמתוך כל התכונות שנבחרו, חלק קטן מהן אינן תלויות בכיתה). לפיכך עלינו לצפות שמתוך כל התכונות שנבחרו, חלק קטן מהן אינן תלויות בכיתה. אף על פי כן מאנינג ואח '(2008) הראו, תכונות רועשות אלה אינן משפיעות ברצינות על הדיוק הכללי של המסווג שלנו.

מסיר תכונות רועשות / נדירות

טכניקה נוספת שיכולה לעזור לנו להימנע מהתקפי יתר, להפחית את צריכת הזיכרון ולשפר את המהירות היא להסיר את כל המונחים הנדירים מאוצר המילים. לדוגמה, ניתן לבטל את כל המונחים שהתרחשו פעם אחת בלבד בכל הקטגוריות. הסרת מונחים אלו יכולה להפחית את השימוש בזיכרון בגורם משמעותי ולשפר את מהירות הניתוח. לבסוף אל לנו להשתמש בטכניקה זו בשילוב עם אלגוריתמי בחירת התכונות שלעיל.

אהבת את המאמר? אנא הקדש דקה לשתף אותו בטוויטר. 🙂

בול זמן:

עוד מ דטומבוקס