標準化互信息NMI計算步驟及其Python實現
假設對于17個樣本點( v 1 , v 2 , . . . , v 17 ) 進行聚類:
某一種算法得到聚類結果為:
A=[1 2 1 1 1 1 1 2 2 2 2 3 1 1 3 3 3]
標準的聚類結果為:
B=[1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3]
問題:需要度量算法結果與標準結果之間的相似度,如果結果越相似NMI值應接近1;如果算法結果很差則NMI值接近0。
計算過程:略,有需要回原版看一下
代碼實現過程:
- 可以直接調用scikit-learn包中集成的度量函數
- 自己編寫函數實現計算過程
# -*- coding:utf-8 -*- ''' Created on 2017年10月28日 @summary: 利用Python實現NMI計算 @author: dreamhome ''' import math import numpy as np from sklearn import metrics def NMI(A,B): #樣本點數 total = len(A) A_ids = set(A) B_ids = set(B) #互信息計算 MI = 0 eps = 1.4e-45 for idA in A_ids: for idB in B_ids: idAOccur = np.where(A==idA) idBOccur = np.where(B==idB) idABOccur = np.intersect1d(idAOccur,idBOccur) px = 1.0*len(idAOccur[0])/total py = 1.0*len(idBOccur[0])/total pxy = 1.0*len(idABOccur)/total MI = MI + pxy*math.log(pxy/(px*py)+eps,2) # 標準化互信息 Hx = 0 for idA in A_ids: idAOccurCount = 1.0*len(np.where(A==idA)[0]) Hx = Hx - (idAOccurCount/total)*math.log(idAOccurCount/total+eps,2) Hy = 0 for idB in B_ids: idBOccurCount = 1.0*len(np.where(B==idB)[0]) Hy = Hy - (idBOccurCount/total)*math.log(idBOccurCount/total+eps,2) MIhat = 2.0*MI/(Hx+Hy) return MIhat if __name__ == '__main__': A = np.array([1,1,1,1,1,1,2,2,2,2,2,2,3,3,3,3,3]) B = np.array([1,2,1,1,1,1,1,2,2,2,2,3,1,1,3,3,3]) print(NMI(A,B)) # 0.3645617718571898 print(metrics.normalized_mutual_info_score(A,B)) # 0.36456177185718985
————————————————
版權聲明:本文為CSDN博主「夢家」的原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/DreamHome_S/article/details/78379635
存在問題:如何獲得標準聚類結果呢?
state:暫未解決

浙公網安備 33010602011771號