การใช้วิธีการเลือกคุณสมบัติในการจำแนกข้อความ

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ในการจัดประเภทข้อความ การเลือกคุณสมบัติเป็นกระบวนการของการเลือกชุดย่อยเฉพาะของเงื่อนไขของชุดการฝึก และใช้เฉพาะในอัลกอริธึมการจัดหมวดหมู่เท่านั้น กระบวนการคัดเลือกคุณสมบัติจะเกิดขึ้นก่อนการฝึกอบรมตัวแยกประเภท

อัปเดต: ขณะนี้ Datumbox Machine Learning Framework เป็นโอเพ่นซอร์สและฟรีสำหรับ ดาวน์โหลด. ตรวจสอบแพ็คเกจ com.datumbox.framework.machinelearning.featureselection เพื่อดูการนำเมธอด Chi-square และ Mutual Information Feature Selection ไปใช้ใน Java

ข้อได้เปรียบหลักสำหรับการใช้อัลกอริธึมการเลือกคุณสมบัติคือข้อเท็จจริงที่ว่ามันลดมิติข้อมูลของเรา ทำให้การฝึกอบรมเร็วขึ้น และสามารถปรับปรุงความแม่นยำโดยการลบคุณสมบัติที่รบกวน ผลที่ตามมาก็คือ การเลือกคุณสมบัติสามารถช่วยเราหลีกเลี่ยงการใส่มากเกินไป

อัลกอริธึมการเลือกพื้นฐานสำหรับการเลือกคุณสมบัติที่ดีที่สุด k แสดงไว้ด้านล่าง (แมนนิ่ง และคณะ, 2008):

การใช้วิธีการเลือกคุณสมบัติในการจำแนกข้อความ PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ในหัวข้อถัดไป เราจะนำเสนออัลกอริธึมการเลือกคุณสมบัติที่แตกต่างกันสองแบบ: ข้อมูลรวม และ Chi Square

ข้อมูลร่วมกัน

วิธีการเลือกคุณสมบัติทั่วไปวิธีหนึ่งคือ Mutual Information ของเทอม t ในคลาส c (แมนนิ่ง และคณะ, 2008). สิ่งนี้วัดว่าข้อมูลที่มีหรือไม่มีคำใดคำหนึ่งมีส่วนช่วยในการตัดสินใจจำแนกประเภทที่ถูกต้องในค. ข้อมูลร่วมกันสามารถคำนวณได้โดยใช้สูตรต่อไปนี้:

การใช้วิธีการเลือกคุณสมบัติในการจำแนกข้อความ PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. [1]

ในการคำนวณของเรา เนื่องจากเราใช้ค่าประมาณความน่าจะเป็นสูงสุดของความน่าจะเป็น เราจึงสามารถใช้สมการต่อไปนี้ได้:

[2]

โดยที่ N คือจำนวนเอกสารทั้งหมด N_tcคือจำนวนเอกสารที่มีค่า e_t(การเกิดขึ้นของเทอม t ในเอกสาร จะใช้ค่า 1 หรือ 0) และ e_c(การเกิดของเอกสารในคลาส c จะใช้ค่า 1 หรือ 0) ที่ระบุโดยตัวห้อยสองตัว และ . สุดท้ายเราต้องสังเกตว่าตัวแปรดังกล่าวทั้งหมดใช้ค่าที่ไม่เป็นลบ

จี้สแควร์

วิธีการเลือกคุณสมบัติทั่วไปอีกวิธีหนึ่งคือ จี้สแควร์. เดอะ x² การทดสอบใช้ในสถิติเพื่อทดสอบความเป็นอิสระของสองเหตุการณ์ โดยเฉพาะอย่างยิ่งในการเลือกคุณสมบัติเราใช้เพื่อทดสอบว่าการเกิดขึ้นของคำศัพท์เฉพาะและการเกิดขึ้นของคลาสเฉพาะนั้นเป็นอิสระหรือไม่ ดังนั้นเราจึงประมาณการปริมาณต่อไปนี้สำหรับแต่ละเทอมและเราจัดอันดับตามคะแนน:

การใช้วิธีการเลือกคุณสมบัติในการจำแนกข้อความ PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. [3]

คะแนนสูงใน x² แสดงว่าสมมติฐานว่าง (H₀) ความเป็นอิสระควรถูกปฏิเสธและด้วยเหตุนี้การเกิดขึ้นของคำศัพท์และระดับขึ้นอยู่กับ หากขึ้นอยู่กับพวกเขา เราจะเลือกคุณสมบัติสำหรับการจัดประเภทข้อความ

สูตรข้างต้นสามารถเขียนใหม่ได้ดังนี้:

การใช้วิธีการเลือกคุณสมบัติในการจำแนกข้อความ PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. [4]

ถ้าเราใช้วิธี Chi Square เราควรเลือกเฉพาะจำนวนคุณสมบัติที่กำหนดไว้ล่วงหน้าที่มี ax² คะแนนการทดสอบที่มากกว่า 10.83 ซึ่งบ่งชี้นัยสำคัญทางสถิติที่ระดับ 0.001

สุดท้ายแต่ไม่ท้ายสุด เราควรสังเกตว่าจากจุดทางสถิติ การเลือกคุณสมบัติของ Chi Square นั้นไม่ถูกต้อง เนื่องจากระดับความเป็นอิสระหนึ่งระดับและ การแก้ไขเยทส์ ควรใช้แทน (ซึ่งจะทำให้เข้าถึงนัยสำคัญทางสถิติได้ยากขึ้น) ดังนั้น เราควรคาดหวังว่าจากคุณลักษณะที่เลือกทั้งหมด ส่วนเล็ก ๆ ของคุณลักษณะเหล่านี้ไม่ขึ้นกับชั้นเรียน) ดังนั้น เราควรคาดหวังว่าจากคุณลักษณะที่เลือกทั้งหมด ส่วนเล็ก ๆ ของคุณลักษณะเหล่านี้ไม่ขึ้นกับชั้นเรียน ยังไงก็ตาม แมนนิ่งและคณะ (2008) แสดงให้เห็นว่าคุณลักษณะที่มีเสียงดังเหล่านี้ไม่ส่งผลกระทบอย่างจริงจังต่อความถูกต้องโดยรวมของตัวแยกประเภทของเรา

การลบคุณสมบัติที่มีเสียงดัง/หายาก

อีกเทคนิคหนึ่งที่สามารถช่วยให้เราหลีกเลี่ยงการใส่มากเกินไป ลดการใช้หน่วยความจำ และเพิ่มความเร็ว คือการเอาคำศัพท์ที่หายากทั้งหมดออกจากคำศัพท์ ตัวอย่างเช่น สามารถกำจัดเงื่อนไขทั้งหมดที่เกิดขึ้นเพียงครั้งเดียวในทุกหมวดหมู่ การนำข้อกำหนดเหล่านั้นออกสามารถลดการใช้หน่วยความจำได้เป็นปัจจัยสำคัญและปรับปรุงความเร็วของการวิเคราะห์ สุดท้ายนี้ เราไม่ควรให้เทคนิคนี้ใช้ร่วมกับอัลกอริธึมการเลือกคุณลักษณะด้านบน

คุณชอบบทความนี้หรือไม่? โปรดสละเวลาสักครู่เพื่อแบ่งปันบน Twitter 🙂

ประทับเวลา: January 20, 2014 November 6, 2022

ประทับเวลา: ตุลาคม 19, 2014

การใช้วิธีการเลือกคุณสมบัติในการจำแนกข้อความ

เผยแพร่ซ้ำโดยเพลโต

ข้อมูลร่วมกัน

จี้สแควร์

การลบคุณสมบัติที่มีเสียงดัง/หายาก

เพิ่มเติมจาก กล่องข้อมูล

การทำคลัสเตอร์ด้วยโมเดลส่วนผสมของกระบวนการ Dirichlet ใน Java

วิธีสร้างเครื่องมือวิเคราะห์ความรู้สึกบน Facebook ของคุณเอง

เจาะลึกอัลกอริทึม ALS Recommendation ของ Spark

การพัฒนาตัวจำแนกข้อความ Naive Bayes ในJAVA

ชุดบล็อกใหม่ – ความทรงจำของนักพัฒนา TorchVision

แอบมอง TorchVision v0.11 – ความทรงจำของนักพัฒนา TorchVision – 2

การเดินทางของ Modernizing TorchVision – บันทึกความทรงจำของผู้พัฒนา TorchVision – 3

5 เคล็ดลับสำหรับการฝึกอบรม multi-GPU ด้วย Keras

รับการใช้งาน GPU ของการ์ด NVIDIA ด้วยเครื่องมือ Linux dstat

แบบจำลองส่วนผสมของกระบวนการ Dirichlet

การจัดกลุ่มเอกสารและข้อมูลเกาส์เซียนด้วย Dirichlet Process Mixture Models

Machine Learning Framework โอเพ่นซอร์สใหม่ที่เขียนด้วย Java

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้