標準化互信息NMI計算步驟及其Python實現

假設對于17個樣本點( v 1 , v 2 , . . . , v 17 ) 進行聚類：

某一種算法得到聚類結果為：

A=[1 2 1 1 1 1 1 2 2 2 2 3 1 1 3 3 3]

標準的聚類結果為：

B=[1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3]

問題：需要度量算法結果與標準結果之間的相似度，如果結果越相似NMI值應接近1；如果算法結果很差則NMI值接近0。

計算過程：略，有需要回原版看一下

代碼實現過程：

可以直接調用scikit-learn包中集成的度量函數
自己編寫函數實現計算過程

# -*- coding:utf-8 -*-
'''
Created on 2017年10月28日

@summary: 利用Python實現NMI計算

@author: dreamhome
'''
import math
import numpy as np
from sklearn import metrics
def NMI(A,B):
    #樣本點數
    total = len(A)
    A_ids = set(A)
    B_ids = set(B)
    #互信息計算
    MI = 0
    eps = 1.4e-45
    for idA in A_ids:
        for idB in B_ids:
            idAOccur = np.where(A==idA)
            idBOccur = np.where(B==idB)
            idABOccur = np.intersect1d(idAOccur,idBOccur)
            px = 1.0*len(idAOccur[0])/total
            py = 1.0*len(idBOccur[0])/total
            pxy = 1.0*len(idABOccur)/total
            MI = MI + pxy*math.log(pxy/(px*py)+eps,2)
    # 標準化互信息
    Hx = 0
    for idA in A_ids:
        idAOccurCount = 1.0*len(np.where(A==idA)[0])
        Hx = Hx - (idAOccurCount/total)*math.log(idAOccurCount/total+eps,2)
    Hy = 0
    for idB in B_ids:
        idBOccurCount = 1.0*len(np.where(B==idB)[0])
        Hy = Hy - (idBOccurCount/total)*math.log(idBOccurCount/total+eps,2)
    MIhat = 2.0*MI/(Hx+Hy)
    return MIhat

if __name__ == '__main__':
    A = np.array([1,1,1,1,1,1,2,2,2,2,2,2,3,3,3,3,3])
    B = np.array([1,2,1,1,1,1,1,2,2,2,2,3,1,1,3,3,3])
    print(NMI(A,B))  # 0.3645617718571898
    print(metrics.normalized_mutual_info_score(A,B))  # 0.36456177185718985

————————————————
版權聲明：本文為CSDN博主「夢家」的原創文章，遵循CC 4.0 BY-SA版權協議，轉載請附上原文出處鏈接及本聲明。
原文鏈接：https://blog.csdn.net/DreamHome_S/article/details/78379635

存在問題：如何獲得標準聚類結果呢？

state：暫未解決

posted @ 2023-06-26 16:51 涼天閱讀(406) 評論(0) 收藏舉報

刷新頁面返回頂部

涼天

標準化互信息NMI計算步驟及其Python實現

公告