中間件實時監控,運維難題一站解決
中間件是介于操作系統和在其上運行的應用程序之間的軟件,實現了分布式應用程序的通信和數據管理,用于協調不同的系統和組件之間的通信,是連接應用與底層資源之間的橋梁。因此,中間件的穩定與高可用對于整個業務系統的可靠性和性能至關重要。
北京智和信中間件監控運維方案通過對中間件的實時監控和編排運維,提高對中間件故障的感知、分析、解決能力,保障中間件持續穩定運行。
第1章 中間件監控范圍與指標
智和信通方案通過構建對Tomcat、Jboss、WebLogic等中間件的關鍵指標的監控,實現對中間件性能和資源的實時追蹤,識別并解決影響中間件性能的問題,保障中間件的高性能及高可用性,更全面地支撐業務及應用的穩定、持續運行,提升用戶體驗。
1.1.常見中間件監控模型及指標擴展
目前方案已實現對中間件包括Web中間件、數據庫中間件、消息中間件、安全中間件、事務中間件、應用程序服務器中間件、分布式計算中間件等常見中間件的監控管理,涵蓋的品牌包括Tomcat、Jboss、WebLogic、Nginx、Apache、RabbitMQ、Kafka、Redis、東方通、中創、寶藍德、普元、金蝶天燕等國內外中間件。
同時采取用戶自定義擴展中間件品牌、類型及其資源的方式,賦予用戶強大的適配能力,其他中間件品牌也可通過靈活可配的模型庫進行擴展適配,最大可能地實現對不同時期、不同品牌、不同型號中間件的管控;支持自定義中間件類型、中間件資源、故障監視器、性能監視器、TRAP監視器等。
1.2.常見中間件資源監測點和指標
本方案通過主動輪詢和日志解析的方式對中間件的常見性能指標,如響應時間、吞吐量、JVM內存、執行線程、JDBC連接池、并發用戶數等進行監控,同時除內置的常見指標外,其他資源和指標也可以通過模型庫不斷進行拓展。
|
常見中間件監測點和指標 |
|
|
資源監測點 |
監測指標 |
|
基礎信息 |
中間件品牌、名稱、版本等 |
|
Ping |
連接狀態、響應時長、服務成功率等 |
|
JVM信息 |
堆名稱、JVM堆棧利用率、VM堆中內存、當前JVM堆中空閑內存數等 |
|
連接池 |
狀態、名稱、大小、總連接數、最大連接數、活動連接數、等待連接數、空閑連接數、已處理連接數、已接受連接數、平均每秒請求數、已關閉連接數、丟棄連接數、連接的最大客戶數、池平均使用率等 |
|
線程池 |
線程池負載、線程池總大小、活動線程數、創建線程數、銷毀線程數、ORB線程池利用率、Web線程池利用率、服務器線程池大小、死鎖線程數等 |
|
會話信息 |
最大會話數、會話總數等 |
|
事務信息 |
并發活動全局事務數、已落實全局事務數、提交事務數、回滾事務數、超時事務數等 |
|
執行隊列 |
隊列名稱、執行線程總數、當前空閑執行線程數、未處理請求最長時間(分鐘)、隊列中未處理的請求數、隊列已經處理的請求數等 |
|
Jms信息 |
JMS連接總數、JMS當前連接總數、JMS最高連接數、JMS Server總數、當前JMS Server總數、JMS Server歷史中最高總數、JMS Session總數、當前JMS Session數、最高JMS Session數、已接收JMS消息數、未處理JMS消息數等 |
第2章 中間件實時監控
通過建立全面的監控運維體系,北京智和信中間件監控運維方案實時監控中間件的各項關鍵性能指標,包括:CPU/內存使用率、實時?流量/帶寬、執行隊列等。針對各類中間件特點深入監控其內部組件和整體運行狀態,提升中間件可靠性,保障業務系統穩定運行。
2.1.自動發現中間件設備
智和信通具備獨特的中間件自動發現技術,在網絡可達范圍內,僅需輸入IP范圍即可自動發現網絡中的中間件及其他設備,識別中間件品牌、版本的信息,獲取中間件內部資源,匹配故障與性能監視器,并自動發現中間件與其他設備的連接關系,生成可視化鏈路,通過可視拓撲動態展示中間件、鏈路的運行狀態。
2.1.1.自動生成網絡拓撲
方案以圖形拓撲的形式展現中間件在網絡中和其他設備間的拓撲關系,支持樹形結構和平面結構的聯動展示,也可以按片區、按地域、按層級等多種布局方式劃分網絡,在拓撲中以不同顏色圖標、光效展現中間件的實時狀態信息。
2.1.2.可視化展示中間件資源
在拓撲圖的基礎上,進一步展示中間件的內部細節,以圖形方式展示中間件基礎信息、CPU、內存、執行隊列、線程池、JVM信息、連接池信息等關鍵指標,對中間件進行細化監控,實時告警,事前管理,降低故障發生率。
2.2.中間件性能態勢感知
中間件的運行性能將直接影響業務系統的響應速度和穩定,同時定時監測中間件的相關性能情況,持續觀測、多維管理,通過分析、展示中間件性能態勢,實現對中間件設備的“可觀、可管、可控”。
2.2.1.全面監控中間件性能
全面采集中間件的各項性能指標,如JVM堆棧利用率、JVM堆中內存、活動連接數、等待連接數、空閑連接數、執行線程總數、當前空閑執行線程數等,并可按照時間范圍、資源類型、性能指標等多種維度,以圖形、表格等多種形式進行展示。
2.2.2.實時、歷史性能分析
對實時、歷史性能數據進行統計分析,通過曲線圖、柱狀圖或表格等形象化地展示,按天、星期、月查看性能指標變化。運維人員能隨時把握中間件性能變化態勢,防患于未然。
2.2.3.多中間件性能對比
支持選擇多臺中間件進行同維度性能數據分析,提供可視化性能對比視圖,通過性能對比分析中間件性能變化趨勢。
2.3.中間件自動巡檢
可自定義中間件的巡檢策略,預設時間自動執行中間件巡檢,定期巡查中間件實時運行狀態,并向指定郵箱發送結果報告,可自行選擇要統計的中間件所屬網絡、中間件類型、中間件資源、中間件支撐的業務、中間件關聯的鏈路等范圍類型,生成巡檢報表。
2.4.日志與事件管理
接收中間件主動發送如連接池泄露、連接失敗、內存泄漏、線程死鎖、創建連接失敗、連接池已滿、連接數據庫超時、鎖超時、服務器無響應等事件與日志消息,集中存儲、解析處理后,將錯誤、告警、攻擊行為等異常信息及時地通知用戶。通過統一界面集中管理事件與日志,提高其完整性和可追溯性,幫助用戶快速定位問題并采取相應的解決措施。
2.5.故障告警與智能收斂
搭載多種告警機制,自定義配置告警閾值,具備主動的故障監控功能,從眾多的事件和狀態中,系統地將零散的狀態信息,總結成為當前狀態,并對異常狀態進行告警,第一時間獲取準確的告警信息,快速標示已執行操作的告警,迅速定位產生告警的中間件,提升告警處理效率,極大降低因中間件故障帶來的損失。
告警管理采用自動去重、風暴抑制、關聯聚合、維護期時間屏蔽、依賴屏蔽等多種智能告降噪機制,通過AI算法,對各類告警進行自動壓縮收斂,減少90%的無效告警,抑制告警風暴,有效避免誤報和漏報,直達故障根因。
第3章 中間件承載的業務狀態撥測
針對中間件所支撐的業務應用性能與用戶體驗進行檢測分析,無需安裝插件就可以為用戶提供開箱即用的企業級主動撥測式業務監測。以拓撲形式展示每個業務流程中的每臺相關設備,支持設備邏輯視圖和面板視圖,展示業務流程中涉及的所有的設備之間的鏈路關系,流程方向。
構建包含各業務整體流程的調用依賴關系圖譜,展示業務部署中網絡設備間多維度關系拓撲。對從業務的前臺受理到真正完成的整個業務流程所依賴的業務應用、中間件、中間件、中間件、操作系統等進行實時監控分析,呈現業務各節點的實時運行狀態,包括用戶體驗、節點可用性、節點負載等狀態信息,快速定位業務瓶頸根因,并可根據用戶自愈策略,觸發自動運維實現故障自愈。
第4章 統計報表和大屏展示
通過定義中間件相關數據報表的能力,實現中間件性能和狀態的靈活展現和統計分析,通過對比、TOPN等分析方式并結合報表排序規則、過濾規則等能力,周期自動生成報表,幫助用戶更好地了解中間件的各項負載情況和運行態勢,為優化資源配置和性能調整提供依據。
通過大屏展示核心運維數據態勢,細粒度可達網絡中中間件、中間件資源和鏈路。所有的網絡故障與性能瓶頸都一目了然地呈現,大大降低了管理成本,同時也提高了運維人員處理故障的能力,節省的故障處理時間,為運維人員管理網絡提供了可靠的保證。
第5章 中間件遠程控制和編排式配置
方案提供中間件遠程控制的能力,采用“監控+運維+控制”的方式,將不同類型、不同版本的中間件統一納入控制管理。通過智能算法對中間件的資源配置進行智能動態調整,當中間件出現性能瓶頸時,自動調優資源配置,優化中間件運行環境,當中間件發生故障時,自動啟動自愈機制,快速恢復中間件的正常運行。
5.1.中間件遠程配置執行
將周期性、重復性、規律性的大量日常中間件配置工作,如啟動/停止服務、定期備份中間件配置、修改JVM參數等運維工作,轉化為依托于平臺的自動執行工作流,實現對中間件的批量、定時自動化控制管理。
5.2.故障自愈以中間件離線重啟為例
以中間件實時監控和日志、事件管理為基礎,通過多指標聚合檢測動態識別中間件異常,智能判斷告警類型及級別,利用自動化故障診斷和修復能力,實現對中間件常規故障的自動處置,特殊告警觸發升級與工單,最終實現故障恢復,減少人工干預,提高運維效率。
下面以中間件離線重啟為例,介紹如何通過智和網管平臺實現中間件故障自愈。
效果要求:當中間件掉線時,觸發自動重啟上線策略,恢復中間件運行。
第一步:將需要管理的中間件納入平臺進行監控,并設置中間件在線狀態監視器,中間件離線進行告警。
第二步:進入安管模塊的運維編排菜單,創建【中間件離線重啟】策略。根據真實排障過程,通過進行策略節點拖拽編排的方式規劃自愈流程。
第三步:配置觸發方式。方式支持通過告警觸發和通過時間觸發兩種方式進行,為實現故障自愈的效果,我們選擇通過匹配告警的方式觸發策略。選定觸發設備,并以在線狀態為監控指標,當出現掉線告警時,自動觸發自愈策略。
編排流程配置完成后,中間件出現掉線告警時,立即觸發中間件自動重啟作業流,自動執行編排內的操作,對故障進行校驗和處置。并在執行過程中,對每一步處置操作進行記錄形成日志,確保有跡可循。
5.3.配置備份、對比與恢復
支持中間件配置的批量備份、下載、周期性備份、查看等,對中間件的多個備份文件進行對比。定期自動對中間件配置進行巡檢備份,并可進行對比分析,為用戶管理網絡做出合理的建議提供數據支撐,支持進行已備份配置間的對比分析和針對性的配置恢復。
第6章 應用價值
北京智和信通為用戶提供高可用的中間件監控運維與故障自愈方案,通過監控中間件的運行狀態和日志,迅速發現并診斷出現的異常問題,并提供詳細的故障信息,協助運維人員快速定位故障源頭。更值得一提的是,借助于自動化運維編排能力,可對常見中間件故障實現自愈。這意味著在很多情況下,系統可以自動修復問題,而無需人工干預,極大地提高了運維效率和系統的穩定性。
平臺的告警和通知機制非常靈活,在中間件運行出現特定閾值或異常時,立即通知運維人員,通過智能降噪機制,更準確地識別與定位關鍵異常,從而在對關聯業務影響最小的情況下進行故障處置。通過定時捕獲和大數據分析等技術,識別潛在的性能瓶頸,并通過IT資源的調整和優化提升中間件的響應速度,也保障了整個業務系統的流暢運行。
對中間件進行實時監控和管理的同時,方案兼顧對網絡設備、服務器、數據庫、應用等整個IT基礎設施的立體監測,不僅支持多源數據的統一收集與處理,還提供了直觀的監控儀表板和定制化報告功能,讓運維人員能夠迅速把握IT系統全局運行態勢,做出精準決策。
智和信通方案通過構建對Tomcat、Jboss、WebLogic等中間件的關鍵指標的監控,實現對中間件性能和資源的實時追蹤,識別并解決影響中間件性能的問題,保障中間件的高性能及高可用性,更全面地支撐業務及應用的穩定、持續運行,提升用戶體驗。











浙公網安備 33010602011771號