- 相關(guān)推薦
聚類分析的一些評(píng)價(jià)手段
什么是聚類
聚類簡(jiǎn)單的說(shuō)就是要把一個(gè)文檔集合根據(jù)文檔的相似性把文檔分成若干類,但是究竟分成多少類,這個(gè)要取決于文檔集合里文檔自身的性質(zhì)。下面這個(gè)圖就是一個(gè)簡(jiǎn)單的例子,我們可以把不同的文檔聚合為3類。另外聚類是典型的無(wú)指導(dǎo)學(xué)習(xí),所謂無(wú)指導(dǎo)學(xué)習(xí)是指不需要有人干預(yù),無(wú)須人為文檔進(jìn)行標(biāo)注。
聚類的評(píng)價(jià)
既然聚類是把一個(gè)包含若干文檔的文檔集合分成若干類,像上圖如果聚類算法應(yīng)該把文檔集合分成3類,而不是2類或者5類,這就設(shè)計(jì)到一個(gè)如何評(píng)價(jià)聚類結(jié)果的問(wèn)題。下面介紹幾種聚類算法的評(píng)價(jià)指標(biāo),看下圖
如圖認(rèn)為x代表一類文檔,o代表一類文檔,方框代表一類文檔,完美的聚類顯然是應(yīng)該把各種不同的圖形放入一類,事實(shí)上我們很難找到完美的聚類方法,各種方法在實(shí)際中難免有偏差,所以我們才需要對(duì)聚類算法進(jìn)行評(píng)價(jià)看我們采用的方法是不是好的算法。
評(píng)價(jià)方法一:purity
purity方法是極為簡(jiǎn)單的一種聚類評(píng)價(jià)方法,只需計(jì)算正確聚類的文檔數(shù)占總文檔數(shù)的比例:
其中Ω = {ω1,ω2, . . . ,ωK}是聚類的集合ωK表示第k個(gè)聚類的集合。C = {c1, c2, . . . , cJ}是文檔集合,cJ表示第J個(gè)文檔。N表示文檔總數(shù)。
如上圖的purity = ( 3+ 4 + 5) / 17 = 0.71
其中第一類正確的有5個(gè),第二個(gè)4個(gè),第三個(gè)3個(gè),總文檔數(shù)17。
purity方法的優(yōu)勢(shì)是方便計(jì)算,值在0~1之間,完全錯(cuò)誤的聚類方法值為0,完全正確的方法值為1。同時(shí),purity方法的缺點(diǎn)也很明顯它無(wú)法對(duì)退化的聚類方法給出正確的評(píng)價(jià),設(shè)想如果聚類算法把每篇文檔單獨(dú)聚成一類,那么算法認(rèn)為所有文檔都被正確分類,那么purity值為1!而這顯然不是想要的結(jié)果。
評(píng)價(jià)方法二:RI
實(shí)際上這是一種用排列組合原理來(lái)對(duì)聚類進(jìn)行評(píng)價(jià)的手段,公式如下:
其中TP是指被聚在一類的兩個(gè)文檔被正確分類了,TN是只不應(yīng)該被聚在一類的兩個(gè)文檔被正確分開了,F(xiàn)P只不應(yīng)該放在一類的文檔被錯(cuò)誤的放在了一類,F(xiàn)N只不應(yīng)該分開的文檔被錯(cuò)誤的分開了。對(duì)上圖
TP+FP = C(2,6) + C(2,6) + C(2,5) = 15 + 15 + 10 = 40 其中C(n,m)是指在m中任選n個(gè)的組合數(shù)。
TP = C(2,5) + C(2,4) + C(2,3) + C(2,2) = 20
FP = 40 - 20 = 20
相似的方法可以計(jì)算出TN = 72 FN = 24
所以RI = ( 20 + 72) / ( 20 + 20 + 72 +24) = 0.68
評(píng)價(jià)方法三:F值
這是基于上述RI方法衍生出的一個(gè)方法
RI方法有個(gè)特點(diǎn)就是把準(zhǔn)確率和召回率看得同等重要,事實(shí)上有時(shí)候我們可能需要某一特性更多一點(diǎn),這時(shí)候就適合F值方法
【聚類分析的一些評(píng)價(jià)手段】相關(guān)文章:
網(wǎng)絡(luò)營(yíng)銷的手段和方法03-24
一些開啟寒假的文案12-01
一些太空知識(shí)點(diǎn)的總結(jié)03-23
高調(diào)做事也需要一些技巧03-18
《多一些寬容》教案設(shè)計(jì)03-30
關(guān)于“雙減”政策的一些感想10-11
正式一些的拜年祝福語(yǔ)01-20