網(wǎng)站制作NEWS
LDA主題模型詳解(面試的問題都在里面)
本文參考自《LDA數(shù)學八卦》,欲獲取此書資源,請關(guān)注公眾號,并在微信后臺回復“LDA”,即可獲得贈書。同時,也請幫忙將此資源分享給您的朋友。
LDA主題模型旨在為每一篇文章找到一個20維的向量,該向量中的20個值表示該文章屬于某個主題的概率。這一過程類似于聚類操作。
在LDA主題模型中,文章的生成涉及三個要素:詞語、主題和文章。詞語和主題是多對多的關(guān)系,每個詞語都可能代表多個主題,每個主題下也有多個代表的詞語。主題和文章也是多對多的關(guān)系,每個主題對應(yīng)多篇文章,每篇文章也可能涉及多個主題。
LDA主題模型下,文章由詞語序列組成。首先,以一定概率選擇一個主題,然后以一定概率選擇該主題下的一個詞。如果一篇文章由1000個詞組成,則重復上述過程1000次即可組成這篇文章。值得注意的是,選擇主題的過程服從多項式分布,其參數(shù)服從Dirichlet分布。在特定主題中選擇一個詞也服從多項式分布,其參數(shù)同樣服從Dirichlet分布。這是因為Dirichlet分布是多項式分布的共軛分布,由貝葉斯估計得到的后驗分布仍然是Dirichlet分布。
關(guān)于LDA主題模型的求解參數(shù)、Gibbs采樣訓練流程和預測流程,以及什么是采樣等問題的詳細解釋,請關(guān)注微信公眾號“算法崗從零到無窮”,并在微信后臺回復“LDA”,即可獲得更全面的解答。
在LDA中,主題數(shù)目沒有一個固定的最優(yōu)解。模型訓練時,需要事先設(shè)置主題數(shù),訓練人員根據(jù)訓練結(jié)果手動調(diào)整參數(shù),優(yōu)化主題數(shù)目,以優(yōu)化文本分類結(jié)果。
excel輸入的數(shù)據(jù)類型分為什么型excel輸入的數(shù)據(jù)類型分為幾類
怎么把校園卡錄入iphone
剛開始學網(wǎng)頁設(shè)計,用電腦的記事本打的,為什么在網(wǎng)頁中不顯示東西
十八款軟件禁用
書法比賽獲獎名單
上海久優(yōu)化有限公司久優(yōu)化介紹
土巴兔裝修網(wǎng)怎么樣
治理型電子政務(wù)運維管理體系治理型電子政務(wù)運維管理的目標
外貿(mào)建設(shè)網(wǎng)站公司哪家好
多重隨機標簽