kafka筆記9(監(jiān)控)
Kafka提供的所有度量指標(biāo)都是通過JMX(Java Management Extensions)接口訪問
JMX端口查詢: zookeeper上獲取端口信息 /brokers/ids/<ID>節(jié)點(diǎn)包含json格式的broker信息,里面含有JMX對應(yīng)的主機(jī)名和端口
JMX接口提供的是內(nèi)部度量指標(biāo),第三方程序提供的則是外部度量指標(biāo)
應(yīng)用程序健康檢測:
使用外部進(jìn)程來報告broker的運(yùn)行狀態(tài)(健康檢測)
在broker停止發(fā)送度量指標(biāo)時發(fā)出告警(stale度量指標(biāo))
broker度量指標(biāo)
非同步分區(qū)數(shù)量: 作為首領(lǐng)的broker有多少個分區(qū)處于非同步狀態(tài)

該值大于0就要采取措施,首先建議重新選舉首領(lǐng),看看能否解決問題
問題排查步驟:

集群級別的問題:
不均衡的負(fù)載 資源過度消耗
問題定位: 用到以下度量指標(biāo)
分區(qū)數(shù)量 首領(lǐng)分區(qū)數(shù)量 主題流入字節(jié)速率 主題流入消息速率
在一個均衡集群里,度量指標(biāo)的數(shù)值在整個集群范圍內(nèi)均等的

以下資源出現(xiàn)過度消耗會導(dǎo)致分區(qū)不同步

主機(jī)級別問題:
硬件問題
磁盤問題是常見的故障,導(dǎo)致分區(qū)不同步,拖慢整個集群broker請求
進(jìn)程沖突
本地配置的不一致
活躍控制器數(shù)量:
表示broker是否就是當(dāng)前的集群控制器,1代表是,任何時候集群應(yīng)該只有一個集群控制器

請求處理器空閑率

空閑率低于20%說明存在潛在問題,低于10%說明存在性能問題
主題流入字節(jié)

主題流出字節(jié)

主題流入消息

分區(qū)數(shù)量:

首領(lǐng)數(shù)量:
該度量指標(biāo)表示broker擁有的首領(lǐng)分區(qū)數(shù)量,與其他度量一樣,該度量指標(biāo)也應(yīng)該在整個集群的broker上保持均等

一個均衡集群如果復(fù)制系數(shù)是N,則該百分比應(yīng)該為1/N
離線分區(qū): 顯示集群里沒有首領(lǐng)的分區(qū)數(shù)量
分區(qū)離線的主要原因: 包含分區(qū)副本的broker都關(guān)閉了; 消息不匹配,沒有同步副本可以拿到首領(lǐng)身份(并且禁用了不完全的首領(lǐng)選舉)

請求度量指標(biāo):


主題和分區(qū)的度量指標(biāo):(指定某個主題)
主題實(shí)例的度量指標(biāo): 取決于集群主題數(shù)量

分區(qū)實(shí)例的度量指標(biāo)

![]()
JAVA虛擬機(jī)監(jiān)控
垃圾回收:

Java操作系統(tǒng)監(jiān)控

日志:
Kafka.controller 記錄集群控制器的消息
kafka.server.ClientQuotaManager 記錄與生產(chǎn)和消費(fèi)配額活動相關(guān)的信息
啟用kafka.log.LogCleaner kafka.log.Cleaner kafka.log.LogCleanerManager這些日志,并設(shè)置為DEBUG級別,就可以輸出日志壓縮線程的運(yùn)行狀態(tài)
客戶端監(jiān)控
生產(chǎn)者度量指標(biāo)

record-error-rate 是一個完全有必要對其設(shè)置告警的屬性,一般情況下是0,大于0,說明生產(chǎn)者正在丟棄無法發(fā)送的消息
record-retry-rate 重試次數(shù)
request-latency-avg 設(shè)置告警,表示發(fā)送一個生產(chǎn)者請求到broker所需的平均時間
3種不同視圖: outgoing-byte-rate 每秒鐘消息的字節(jié)數(shù) record-send-rate 每秒消息的數(shù)量 request-rate 每秒鐘生產(chǎn)者發(fā)送給broker的請求數(shù)
Per-broker和Per-topic 度量指標(biāo)
消費(fèi)者度量指標(biāo):

Fetchmanager度量指標(biāo)
fetch-latency-avg 表示消費(fèi)者向Broker發(fā)送請求所需要的時間


Coordinator度量指標(biāo)

配額

延遲監(jiān)控
端到端監(jiān)控
:
浙公網(wǎng)安備 33010602011771號