網(wǎng)站制作NEWS
對(duì)比傳統(tǒng)K-Means等聚類算法,LDA主題模型在文本聚類上有何優(yōu)缺點(diǎn)
K-MEANS算法:k-means算法接受輸入量k;然后將n個(gè)數(shù)據(jù)對(duì)象劃分為k個(gè)聚類以便使得所獲得的聚類滿足:同一聚類中的對(duì)象相似度較高;而不同聚類中的對(duì)象相似度較小。聚類相似度是利用各聚類中對(duì)象的均值所獲得一個(gè)“中心對(duì)象”(引力中心)來(lái)進(jìn)行計(jì)算的。k-means算法的工作過(guò)程說(shuō)明如下:首先從n個(gè)數(shù)據(jù)對(duì)象任意選擇k個(gè)對(duì)象作為初始聚類中心;而對(duì)于所剩下其它對(duì)象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計(jì)算每個(gè)所獲新聚類的聚類中心(該聚類中所有對(duì)象的均值);不斷重復(fù)這一過(guò)程直到標(biāo)準(zhǔn)測(cè)度函數(shù)開(kāi)始收斂為止。一般都采用均方差作為標(biāo)準(zhǔn)測(cè)度函數(shù).k個(gè)聚類具有以下特點(diǎn):各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開(kāi)。具體如下:輸入:k,data[n];(1)選擇k個(gè)初始中心點(diǎn),例如c[0]=data[0],…c[k-1]=data[k-1];(2)對(duì)于data[0]….data[n],分別與c[0]…c[n-1]比較,假定與c[i]差值最少,就標(biāo)記為i;(3)對(duì)于所有標(biāo)記為i點(diǎn),重新計(jì)算c[i]=/標(biāo)記為i的個(gè)數(shù);(4)重復(fù)(2)(3),直到所有c[i]值的變化小于給定閾值。算法實(shí)現(xiàn)起來(lái)應(yīng)該很容易,就不幫你編寫代碼了。
多重隨機(jī)標(biāo)簽