การจัดกลุ่มเอกสารและข้อมูลเกาส์เซียนด้วยแบบจำลองส่วนผสมของกระบวนการดิริชเล็ต

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

บทความนี้เป็นส่วนที่ห้าของบทช่วยสอนเกี่ยวกับ การทำคลัสเตอร์ด้วย DPMM. ในโพสต์ก่อนหน้านี้ เราได้กล่าวถึงรายละเอียดพื้นฐานทางทฤษฎีของวิธีการ และเราได้อธิบายการแทนค่าทางคณิตศาสตร์และวิธีการสร้างมัน ในโพสต์นี้ เราจะพยายามเชื่อมโยงทฤษฎีกับการปฏิบัติโดยแนะนำสองโมเดล DPMM: Dirichlet Multivariate Normal Mixture Model ซึ่งสามารถใช้เพื่อจัดกลุ่มข้อมูล Gaussian และ Dirichlet-Multinomial Mixture Model ซึ่งใช้ในการจัดกลุ่มเอกสาร

อัปเดต: ขณะนี้ Datumbox Machine Learning Framework เป็นโอเพ่นซอร์สและฟรีสำหรับ ดาวน์โหลด. ตรวจสอบแพ็คเกจ com.datumbox.framework.machinelearning.clustering เพื่อดูการใช้งาน Dirichlet Process Mixture Models ใน Java

1. แบบจำลองส่วนผสมปกติหลายตัวแปรของ Dirichlet

แบบจำลองส่วนผสม Dirichlet Process แรกที่เราจะตรวจสอบคือ Dirichlet Multivariate Normal Mixture Model ซึ่งสามารถใช้เพื่อดำเนินการจัดกลุ่มบนชุดข้อมูลต่อเนื่อง แบบจำลองส่วนผสมถูกกำหนดไว้ดังนี้:

สมการที่ 1: Dirichlet Multivariate Normal Mixture Model

ดังที่เราเห็นข้างต้น โมเดลเฉพาะสันนิษฐานว่าการแจกแจงกำเนิดเป็นการแจกแจงแบบเกาส์เซียนแบบพหุนาม และใช้กระบวนการร้านอาหารจีนเหมือนก่อนหน้าสำหรับการกำหนดคลัสเตอร์ นอกจากนี้สำหรับการกระจายฐาน G₀ มันใช้ Normal-Inverse-Wishart ก่อนหน้าซึ่งคือ ผันก่อน ของการแจกแจงแบบปกติหลายตัวแปรที่มีค่าเฉลี่ยและเมทริกซ์ความแปรปรวนร่วมที่ไม่ทราบค่า ด้านล่างนี้เรานำเสนอ Graphical Model ของแบบจำลองส่วนผสม:

การจัดกลุ่มเอกสารและข้อมูลเกาส์เซียนด้วยโมเดล Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
รูปที่ 1: โมเดลกราฟิกของ Dirichlet Multivariate Normal Mixture Model

ดังที่เราได้กล่าวไว้ก่อนหน้านี้ เพื่อให้สามารถประมาณการมอบหมายคลัสเตอร์ได้ เราจะใช้ การสุ่มตัวอย่างกิ๊บส์แบบยุบ ซึ่งต้องเลือก คอนจูเกตที่เหมาะสม. นอกจากนี้เราจะต้องอัปเดตพารามิเตอร์หลังที่ได้รับ poster ก่อนหน้าและหลักฐาน. ด้านล่างเราจะเห็น MAP ประมาณการ ของพารามิเตอร์สำหรับหนึ่งในคลัสเตอร์:

การจัดกลุ่มเอกสารและข้อมูลเกาส์เซียนด้วยโมเดล Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
สมการที่ 2: MAP ประมาณการเกี่ยวกับ Cluster Parameters

โดยที่ d คือมิติข้อมูลของเราและ คือค่าเฉลี่ยตัวอย่าง นอกจากนี้เรายังมีไฮเปอร์พารามิเตอร์หลายตัวของ Normal-Inverse-Wishart เช่น μ₀ ซึ่งเป็นค่าเฉลี่ยเริ่มต้น κ₀ คือเศษส่วนเฉลี่ยซึ่งทำงานเป็นพารามิเตอร์การปรับให้เรียบ ν₀ คือ ดีกรีอิสระซึ่งกำหนดเป็นจำนวนมิติและ Ψ₀ คือผลคูณค่าเบี่ยงเบนคู่ซึ่งตั้งค่าเป็นเมทริกซ์เอกลักษณ์ dxd คูณด้วยค่าคงที่ จากนี้ไปในไฮเปอร์พารามิเตอร์ก่อนหน้าทั้งหมดของ G₀ จะถูกแทนด้วย λ เพื่อทำให้สัญกรณ์ง่ายขึ้น สุดท้าย เมื่อมีทั้งหมดที่กล่าวมา เราสามารถประมาณความน่าจะเป็นที่ Collapsed Gibbs Sampler ต้องการ ความน่าจะเป็นของการสังเกต i ที่อยู่ในคลัสเตอร์ k จากการกำหนดคลัสเตอร์ ชุดข้อมูล และไฮเปอร์พารามิเตอร์ α และ λ ทั้งหมดของ DP และ G₀ได้รับด้านล่าง:

การจัดกลุ่มเอกสารและข้อมูลเกาส์เซียนด้วยโมเดล Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

สมการที่ 3: ความน่าจะเป็นที่ใช้โดย Gibbs Sampler สำหรับ MNMM

ที่ไหน z_i คือการกำหนดคลัสเตอร์ของการสังเกต x_i, x_1:น เป็นชุดข้อมูลที่สมบูรณ์ z_-i คือชุดของการกำหนดคลัสเตอร์ที่ไม่มี i . ตัวใดตัวหนึ่ง^th การสังเกต x_-i เป็นชุดข้อมูลที่สมบูรณ์ ยกเว้น i^th การสังเกต c_k_,-ผม คือจำนวนการสังเกตทั้งหมดที่กำหนดให้กับคลัสเตอร์ k ไม่รวม i^th สังเกตในขณะที่ และ คือเมทริกซ์ค่าเฉลี่ยและความแปรปรวนร่วมของคลัสเตอร์ k ที่ไม่รวม i^th การสังเกต

2. แบบจำลองส่วนผสมของไดริชเล็ต-พหุนาม

Dirichlet-Multinomial Mixture Model ใช้เพื่อวิเคราะห์เอกสารแบบคลัสเตอร์ โมเดลเฉพาะมีลำดับชั้นที่ซับซ้อนกว่าเล็กน้อย เนื่องจากเป็นแบบจำลองหัวข้อ/ประเภทของเอกสาร ความน่าจะเป็นของคำภายในแต่ละหัวข้อ การมอบหมายคลัสเตอร์ และการกระจายทั่วไปของเอกสาร เป้าหมายคือการเรียนรู้แบบไม่มีผู้ดูแลและจัดกลุ่มรายการเอกสารโดยมอบหมายให้กลุ่ม แบบจำลองส่วนผสมถูกกำหนดไว้ดังนี้:

สมการที่ 4: แบบจำลองส่วนผสมไดริชเล็ต-พหุนาม

โดยที่ φ จำลองความน่าจะเป็นของหัวข้อ z_i เป็นตัวเลือกหัวข้อ θ_k คือความน่าจะเป็นของคำในแต่ละคลัสเตอร์และ x_{ฉันเจ} แสดงถึงคำในเอกสาร เราควรสังเกตว่าเทคนิคนี้ใช้ กรอบคำศัพท์ ซึ่งแสดงถึงเอกสารที่เป็นกลุ่มคำที่ไม่เรียงลำดับโดยไม่คำนึงถึงไวยากรณ์และลำดับของคำ การแสดงแบบง่ายนี้มักใช้ในการประมวลผลภาษาธรรมชาติและการดึงข้อมูล ด้านล่างนี้เรานำเสนอ Graphical Model ของแบบจำลองส่วนผสม:

การจัดกลุ่มเอกสารและข้อมูลเกาส์เซียนด้วยโมเดล Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
รูปที่ 2: แบบจำลองกราฟิกของแบบจำลองส่วนผสมไดริชเล็ต-พหุนาม

เฉพาะรุ่นที่ใช้ การแจกแจงพหุนามแบบไม่ต่อเนื่อง สำหรับการแจกแจงกำเนิดและการแจกแจงไดริชเล็ตสำหรับนักบวช ℓ คือขนาดของคลัสเตอร์ที่ใช้งานอยู่ n จำนวนเอกสารทั้งหมด β ควบคุมจำนวนคลัสเตอร์ที่คาดไว้ล่วงหน้าในขณะที่ α ควบคุมจำนวนคำที่กำหนดให้กับแต่ละคลัสเตอร์ เพื่อประมาณความน่าจะเป็นที่ .ต้องการ ตัวอย่าง Gibbs ที่ยุบ เราใช้ไฟล์ สมการต่อไปนี้:

การจัดกลุ่มเอกสารและข้อมูลเกาส์เซียนด้วยโมเดล Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
สมการที่ 5: ความน่าจะเป็นที่ใช้โดย Gibbs Sampler สำหรับ DMMM

โดยที่ Γ คือฟังก์ชันแกมมา z_i คือการกำหนดคลัสเตอร์ของเอกสาร x_i, x_1:น เป็นชุดข้อมูลที่สมบูรณ์ z_-i คือชุดของการกำหนดคลัสเตอร์ที่ไม่มี i . ตัวใดตัวหนึ่ง^th เอกสาร x_-i เป็นชุดข้อมูลที่สมบูรณ์ ยกเว้น i^th เอกสาร N_k(z_-i) คือจำนวนการสังเกตที่กำหนดให้กับคลัสเตอร์ k ไม่รวม i^th เอกสาร N_z_=k(x_-i) เป็นเวกเตอร์ที่มีผลรวมของการนับสำหรับแต่ละคำสำหรับเอกสารทั้งหมดที่กำหนดให้กับคลัสเตอร์ k ยกเว้น i^th เอกสารและ N(x_i) เป็นเวกเตอร์กระจัดกระจายที่มีการนับของแต่ละคำในเอกสาร x_i. สุดท้าย ดังที่เราเห็นข้างต้น โดยใช้ Collapsed Gibbs Sampler กับ Chinese Restaurant Process the θ_jk ตัวแปรที่เก็บความน่าจะเป็นของคำ j ในหัวข้อ k สามารถรวมเข้าด้วยกันได้

ประทับเวลา: มิถุนายน 30, 2014กรกฎาคม 18, 2022

ประทับเวลา: May 20, 2014

การจัดกลุ่มเอกสารและข้อมูลเกาส์เซียนด้วย Dirichlet Process Mixture Models

เผยแพร่ซ้ำโดยเพลโต

1. แบบจำลองส่วนผสมปกติหลายตัวแปรของ Dirichlet

2. แบบจำลองส่วนผสมของไดริชเล็ต-พหุนาม

เพิ่มเติมจาก กล่องข้อมูล

วิธีสำรองข้อมูล S3 ด้วย DejaDup บน Ubuntu 20.10

Datumbox Machine Learning Framework เวอร์ชัน 0.8.0 เปิดตัวแล้ว

ชุดบล็อกใหม่ – ความทรงจำของนักพัฒนา TorchVision

รับการใช้งาน GPU ของการ์ด NVIDIA ด้วยเครื่องมือ Linux dstat

การเดินทางของ Modernizing TorchVision – บันทึกความทรงจำของผู้พัฒนา TorchVision – 3

การพัฒนาตัวจำแนกข้อความ Naive Bayes ในJAVA

การใช้วิธีการเลือกคุณสมบัติในการจำแนกข้อความ

แบบจำลองส่วนผสมของกระบวนการ Dirichlet

การวัดความนิยมบนโซเชียลมีเดียของเพจด้วย DEA ใน JAVA

Datumbox Machine Learning Framework 0.6.0 ออกแล้ว

บทช่วยสอนการวิเคราะห์การห่อหุ้มข้อมูล

Dirichlet ดำเนินการกระบวนการร้านอาหารจีนและการแสดงอื่น ๆ

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้