網(wǎng)站制作NEWS
LDA主題模型詳解(面試的問題都在里面)
本文參考自《LDA數(shù)學八卦》,欲獲取此書資源,請關注公眾號,并在微信后臺回復“LDA”,即可獲得贈書。同時,也請幫忙將此資源分享給您的朋友。
LDA主題模型旨在為每一篇文章找到一個20維的向量,該向量中的20個值表示該文章屬于某個主題的概率。這一過程類似于聚類操作。
在LDA主題模型中,文章的生成涉及三個要素:詞語、主題和文章。詞語和主題是多對多的關系,每個詞語都可能代表多個主題,每個主題下也有多個代表的詞語。主題和文章也是多對多的關系,每個主題對應多篇文章,每篇文章也可能涉及多個主題。
LDA主題模型下,文章由詞語序列組成。首先,以一定概率選擇一個主題,然后以一定概率選擇該主題下的一個詞。如果一篇文章由1000個詞組成,則重復上述過程1000次即可組成這篇文章。值得注意的是,選擇主題的過程服從多項式分布,其參數(shù)服從Dirichlet分布。在特定主題中選擇一個詞也服從多項式分布,其參數(shù)同樣服從Dirichlet分布。這是因為Dirichlet分布是多項式分布的共軛分布,由貝葉斯估計得到的后驗分布仍然是Dirichlet分布。
關于LDA主題模型的求解參數(shù)、Gibbs采樣訓練流程和預測流程,以及什么是采樣等問題的詳細解釋,請關注微信公眾號“算法崗從零到無窮”,并在微信后臺回復“LDA”,即可獲得更全面的解答。
在LDA中,主題數(shù)目沒有一個固定的最優(yōu)解。模型訓練時,需要事先設置主題數(shù),訓練人員根據(jù)訓練結果手動調(diào)整參數(shù),優(yōu)化主題數(shù)目,以優(yōu)化文本分類結果。
多重隨機標簽