- ינואר 20, 2014
- וסיליס ווריניוטיס
- . 5 תגובות
בסיווג טקסטים, בחירת התכונה היא תהליך בחירת קבוצת משנה ספציפית של מונחי מערך ההדרכה והשימוש בהם רק באלגוריתם הסיווג. תהליך בחירת התכונה מתרחש לפני אימון המסווג.
עדכון: מסגרת הלמידה על מכונה של Datumbox היא כעת קוד פתוח וחינמית ל- להורדה. בדוק את החבילה com.datumbox.framework.machinelearning.features Selection בכדי לראות את היישום של שיטות בחירת תכונות מידע כיכר צ'י ומידע הדדי ב- Java.
היתרונות העיקריים לשימוש באלגוריתמים לבחירת תכונות הם העובדות שהוא מקטין את מימד הנתונים שלנו, זה הופך את האימונים למהירים יותר וזה יכול לשפר את הדיוק על ידי הסרת תכונות רועשות. כתוצאה מכך בחירה בתכונות יכולה לעזור לנו להימנע מהתאמת יתר.
אלגוריתם הבחירה הבסיסי לבחירת התכונות הטובות ביותר ב- k מוצג להלן (מאנינג ואח ', 2008):
בחלקים הבאים אנו מציגים שני אלגוריתמים לבחירת תכונות שונים: המידע ההדדי וכיכר הצ'י.
מידע הדדי
אחת משיטות הבחירה התכונות הנפוצות ביותר היא המידע ההדדי של מונח t בכיתה ג (מאנינג ואח ', 2008). זה מודד כמה מידע נוכחות או היעדר מונח מסוים תורם לקבלת החלטת הסיווג הנכונה ב- c. ניתן לחשב את המידע ההדדי באמצעות הנוסחה הבאה:
[1]
בחישובים שלנו, מכיוון שאנו משתמשים בערכות הסבירות המרבית של ההסתברויות אנו יכולים להשתמש במשוואה הבאה:
[2]
כאשר N הוא המספר הכולל של המסמכים, Ntcהם ספירת המסמכים שיש להם את הערכים et (התרחשות המונח t במסמך; זה לוקח את הערך 1 או 0) ו- ec(התרחשות המסמך בכיתה ג; זה לוקח את הערך 1 או 0) המצוין על ידי שתי תסריטים משנה, ו . לבסוף עלינו לציין כי כל המשתנים האמורים לוקחים ערכים לא שליליים.
כיכר צ'י
שיטת בחירת תכונות נפוצה נוספת היא כיכר צ'י. ה- x2 המבחן משמש בסטטיסטיקה, בין היתר, לבחינת העצמאות של שני אירועים. ליתר דיוק בבחירת התכונות אנו משתמשים בו כדי לבדוק אם המופע של מונח מסוים וההופעה של מחלקה מסוימת אינם תלויים. כך אנו מעריכים את הכמות הבאה לכל מונח ואנחנו מדרגים אותם לפי הציון שלהם:
[3]
ציונים גבוהים ב- x2 מציינים שהשערת האפס (ח0) יש לדחות את העצמאות וכך התרחשות המונח והמעמד תלויים. אם הם תלויים, אנו בוחרים את התכונה לסיווג הטקסט.
ניתן לכתוב מחדש את הנוסחה לעיל:
[4]
אם אנו משתמשים בשיטת צ'י ריבוע, עלינו לבחור רק מספר מוגדר מראש של תכונות שיש בהן גרזן2 ציון הבדיקה גדול מ- 10.83 מה שמצביע על מובהקות סטטיסטית ברמה של 0.001.
אחרון חביב נציין כי מבחינה סטטיסטית הבחירה בתכונות של כיכר צ'י אינה מדויקת, בגלל מידת החופש היחידה תיקון ייטס יש להשתמש במקום (מה שיקשה על הגעה לסטטיסטיקה). לפיכך עלינו לצפות שמתוך כל התכונות שנבחרו, חלק קטן מהן אינן תלויות בכיתה). לפיכך עלינו לצפות שמתוך כל התכונות שנבחרו, חלק קטן מהן אינן תלויות בכיתה. אף על פי כן מאנינג ואח '(2008) הראו, תכונות רועשות אלה אינן משפיעות ברצינות על הדיוק הכללי של המסווג שלנו.
מסיר תכונות רועשות / נדירות
טכניקה נוספת שיכולה לעזור לנו להימנע מהתקפי יתר, להפחית את צריכת הזיכרון ולשפר את המהירות היא להסיר את כל המונחים הנדירים מאוצר המילים. לדוגמה, ניתן לבטל את כל המונחים שהתרחשו פעם אחת בלבד בכל הקטגוריות. הסרת מונחים אלו יכולה להפחית את השימוש בזיכרון בגורם משמעותי ולשפר את מהירות הניתוח. לבסוף אל לנו להשתמש בטכניקה זו בשילוב עם אלגוריתמי בחירת התכונות שלעיל.
אהבת את המאמר? אנא הקדש דקה לשתף אותו בטוויטר. 🙂
- AI
- איי אמנות
- מחולל אמנות ai
- איי רובוט
- בינה מלאכותית
- הסמכת בינה מלאכותית
- רובוט בינה מלאכותית
- רובוטים של בינה מלאכותית
- תוכנת בינה מלאכותית
- blockchain
- blockchain conference ai
- קוינגניוס
- בינה מלאכותית של שיחה
- קריפטו כנס ai
- של דאל
- דטומבוקס
- למידה עמוקה
- גוגל איי
- למידת מכונה
- לימוד מכונה וסטטיסטיקה
- אפלטון
- plato ai
- מודיעין אפלטון
- משחק אפלטון
- אפלטון נתונים
- פלטוגיימינג
- סולם ai
- תחביר
- זפירנט