網(wǎng)站制作NEWS
LDA主題模型詳解(面試的問(wèn)題都在里面)
本文參考自《LDA數(shù)學(xué)八卦》,欲獲取此書(shū)資源,請(qǐng)關(guān)注公眾號(hào),并在微信后臺(tái)回復(fù)“LDA”,即可獲得贈(zèng)書(shū)。同時(shí),也請(qǐng)幫忙將此資源分享給您的朋友。
LDA主題模型旨在為每一篇文章找到一個(gè)20維的向量,該向量中的20個(gè)值表示該文章屬于某個(gè)主題的概率。這一過(guò)程類似于聚類操作。
在LDA主題模型中,文章的生成涉及三個(gè)要素:詞語(yǔ)、主題和文章。詞語(yǔ)和主題是多對(duì)多的關(guān)系,每個(gè)詞語(yǔ)都可能代表多個(gè)主題,每個(gè)主題下也有多個(gè)代表的詞語(yǔ)。主題和文章也是多對(duì)多的關(guān)系,每個(gè)主題對(duì)應(yīng)多篇文章,每篇文章也可能涉及多個(gè)主題。
LDA主題模型下,文章由詞語(yǔ)序列組成。首先,以一定概率選擇一個(gè)主題,然后以一定概率選擇該主題下的一個(gè)詞。如果一篇文章由1000個(gè)詞組成,則重復(fù)上述過(guò)程1000次即可組成這篇文章。值得注意的是,選擇主題的過(guò)程服從多項(xiàng)式分布,其參數(shù)服從Dirichlet分布。在特定主題中選擇一個(gè)詞也服從多項(xiàng)式分布,其參數(shù)同樣服從Dirichlet分布。這是因?yàn)镈irichlet分布是多項(xiàng)式分布的共軛分布,由貝葉斯估計(jì)得到的后驗(yàn)分布仍然是Dirichlet分布。
關(guān)于LDA主題模型的求解參數(shù)、Gibbs采樣訓(xùn)練流程和預(yù)測(cè)流程,以及什么是采樣等問(wèn)題的詳細(xì)解釋,請(qǐng)關(guān)注微信公眾號(hào)“算法崗從零到無(wú)窮”,并在微信后臺(tái)回復(fù)“LDA”,即可獲得更全面的解答。
在LDA中,主題數(shù)目沒(méi)有一個(gè)固定的最優(yōu)解。模型訓(xùn)練時(shí),需要事先設(shè)置主題數(shù),訓(xùn)練人員根據(jù)訓(xùn)練結(jié)果手動(dòng)調(diào)整參數(shù),優(yōu)化主題數(shù)目,以優(yōu)化文本分類結(jié)果。
多重隨機(jī)標(biāo)簽