分層運維自動化監(jiān)控
背景
架構(gòu)設(shè)計的分層架構(gòu)思想是一種將軟件系統(tǒng)劃分為多個層次的設(shè)計方法,每個層次都有其特定的職責和功能,通過層次之間的接口進行通信,以實現(xiàn)系統(tǒng)的整體目標。這種設(shè)計思想的核心在于將復雜的系統(tǒng)分解為一系列相對獨立的子問題,并通過各層的協(xié)作來提供整體的解決方案。
分層架構(gòu)思想的優(yōu)勢
降低系統(tǒng)復雜度:
通過分層將一個復雜的系統(tǒng)拆分成不同層次的關(guān)聯(lián)個體,各個個體專注于它們特有的職責和功能,從而降低了單個問題的規(guī)模和復雜度。
提高開發(fā)效率:
開發(fā)人員可以專注于某一層次的開發(fā)工作,而不必擔心其他層次的具體實現(xiàn),提高了開發(fā)效率。
易于維護和擴展:
分層架構(gòu)使得系統(tǒng)的各個部分相對獨立,修改或擴展某一層次的功能時,對其他層次的影響較小,從而降低了維護成本。
同時,由于各層次之間的低耦合性,可以方便地插入新的層次來擴展系統(tǒng)的功能。
提高系統(tǒng)可靠性:
分層架構(gòu)使得系統(tǒng)的各個層次可以獨立地進行測試和驗證,從而提高了系統(tǒng)的可靠性和穩(wěn)定性。
實踐
分層運維自動化監(jiān)控實踐通過將監(jiān)控系統(tǒng)劃分為多個層次,實現(xiàn)了不同層次的功能和管理需求。如下是不同層監(jiān)控對應關(guān)系圖,右邊是我們監(jiān)控常規(guī)的軟件項目,中間件較多并沒有完全羅列,
僅供參考:
通常包含這幾個層監(jiān)控
1)硬件基礎(chǔ)設(shè)施層:
環(huán)境動力:暖通系統(tǒng)(如空調(diào)、新風系統(tǒng)、機房環(huán)境、漏水等)、電力系統(tǒng)(如配電柜、UPS、ATS等)、安防系統(tǒng)(如防雷、消防、門禁等)等
網(wǎng)絡(luò)設(shè)備:路由器、二三層網(wǎng)絡(luò)交換機、多層交換機、負載均衡設(shè)備等
安全設(shè)備:防火墻、入侵檢測IDS、防病毒、加密機等
其主要任務是收集和匯總監(jiān)控數(shù)據(jù),并將其傳遞給視圖層用于展示和告警。
2)服務器層:
關(guān)注CPU、磁盤、內(nèi)存、網(wǎng)絡(luò)、可用性和性能等服務器層面的監(jiān)控
虛擬化:虛擬網(wǎng)絡(luò)資源、虛擬主機、虛擬存儲資源等
存儲設(shè)備:磁盤陣列、虛擬帶庫、物理磁帶庫、SAN、NAS等
服務器:大中小型機、X86服務器
實施基礎(chǔ)設(shè)施級別的告警和事件管理。
基于基礎(chǔ)設(shè)施層數(shù)據(jù)進行容量規(guī)劃和優(yōu)化
3)系統(tǒng)軟件-基礎(chǔ)設(shè)施層:
操作系統(tǒng):Linux, Ubuntu, CentOS, Windows, Fedora CoreOS, OpenSUSE, Red Hat等
數(shù)據(jù)庫:ORACLE,DB2,SQL SERVER,MYSQL,DM, PostgreSQL, Redis, Kafka, HBase等
中間件:WEBSPHERE、WEBLOGIC、MQ、IHS、TOMCAT、AD等
其它系統(tǒng)軟件:備份軟件
收集應用服務器性能、數(shù)據(jù)庫響應時間和平臺級資源利用率等指標。
實施對平臺特定事件、日志和安全漏洞的監(jiān)控。
確保支持應用的平臺服務的可用性和可靠性。
監(jiān)控集成組件(如 API、消息總線和企業(yè)服務總線)的健康和性能。
收集消息吞吐量、延遲和錯誤率等指標。
實施對集成特定事件、日志和安全方面的監(jiān)控。
Prometheus Exporter 是一種用于將特定應用程序或服務的指標數(shù)據(jù)暴露給 Prometheus 監(jiān)控系統(tǒng)的工具或組件。在 Prometheus 的架構(gòu)中,Exporter 扮演著至關(guān)重要的角色,因為它們負責從被監(jiān)控的目標(如數(shù)據(jù)庫、消息隊列、Web 服務器等)收集指標,并將這些指標以 Prometheus 能夠理解的格式(通常是文本格式,遵循 Prometheus 的 exposition format)暴露出來。
4)應用服務層:
服務可用性:服務狀態(tài)、日志刷新、端口監(jiān)聽、網(wǎng)絡(luò)連通性等。更側(cè)重于應用層面的監(jiān)控,比如Prometheus平臺可以用于監(jiān)控微服務架構(gòu)中的各個服務實例,確保它們正常運行此外,業(yè)務層還關(guān)注數(shù)據(jù)的可視化和多維數(shù)據(jù)展示能力,如儀表盤和大屏顯示。
監(jiān)控業(yè)務應用和服務的行為和性能。
收集面向用戶的指標,如應用響應時間、交易量和錯誤率。
實施綜合和真實用戶監(jiān)控,評估最終用戶體驗。
分析應用級日志和事件,識別和排查問題。
5)客戶體驗層:
客戶訪問速度:頁面響應時間、撥測登錄、普通頁面渲染時間、重要接口響應時間等。
監(jiān)控面向用戶的組件(如 Web 界面和移動應用)的可用性和性能。
收集頁面加載時間、用戶交互和設(shè)備特定性能等指標。
實施對用戶體驗和可訪問性指標的監(jiān)控。
分析用戶行為和反饋,以優(yōu)化表現(xiàn)層。
阿里云,騰訊云,華為云都有撥測服務,涉及費用
數(shù)據(jù)流
從內(nèi)到外
從外到內(nèi),從云端開始,取決于網(wǎng)絡(luò)安全策略配置
工具鏈
1. Zabbix
Zabbix是由Alexei Vladishev創(chuàng)建,并由Zabbix SIA持續(xù)開發(fā)和支持的一種企業(yè)級的分布式開源監(jiān)控解決方案。它能夠監(jiān)控眾多網(wǎng)絡(luò)參數(shù)和服務器的健康度和完整性,提供靈活的通知機制,允許用戶為各種事件配置基于郵件的警報。Zabbix還基于存儲的數(shù)據(jù)提供出色的報告和數(shù)據(jù)可視化功能,使其成為容量規(guī)劃的理想選擇。
特點與優(yōu)勢:
數(shù)據(jù)采集:支持SNMP、IPMI、JMX、VMware等多種協(xié)議,通過Server/Proxy和Agents執(zhí)行數(shù)據(jù)采集。
高度可配置化的告警:支持自定義告警通知,包括遞增計劃、接收者、媒介類型等。
豐富的可視化選項:創(chuàng)建自定義圖形、網(wǎng)絡(luò)拓撲圖、儀表盤等。
歷史數(shù)據(jù)存儲:內(nèi)置數(shù)據(jù)管理機制,支持可配置的歷史數(shù)據(jù)存儲。
配置簡單:通過模板快速部署監(jiān)控任務,支持網(wǎng)絡(luò)發(fā)現(xiàn)功能。
2. Nagios
Nagios是一款流行的開源監(jiān)控系統(tǒng),能夠監(jiān)控網(wǎng)絡(luò)、服務器和應用程序等各種資源。它具有高可用性和可擴展性,可以輕松地擴展到數(shù)千個設(shè)備,并提供豐富的第三方插件庫。Nagios能夠?qū)崟r監(jiān)測網(wǎng)絡(luò)和服務器的狀態(tài),并通過郵件、短信或手機APP等方式通知管理員關(guān)鍵事件的發(fā)生。
特點與優(yōu)勢:
實時監(jiān)控:支持對網(wǎng)絡(luò)和服務器狀態(tài)的實時監(jiān)測。
強大的通知功能:支持多種通知方式,確保管理員能及時響應。
歷史數(shù)據(jù)分析:記錄歷史數(shù)據(jù)以進行趨勢分析,幫助識別必要的升級和配置更改。
豐富的插件庫:龐大的社區(qū)支持和豐富的第三方插件庫,擴展性強。
3. Apache HertzBeat
項目描述:
Apache HertzBeat(孵化中)是一款無代理的實時監(jiān)控系統(tǒng),支持Prometheus兼容的自定義監(jiān)控和狀態(tài)頁面構(gòu)建能力。它具備高性能集群、自定義監(jiān)控和靈活的狀態(tài)頁面構(gòu)建功能。
特點與優(yōu)勢:
無代理設(shè)計:減少被監(jiān)控端的負載和復雜性。
Prometheus兼容:便于與Prometheus生態(tài)系統(tǒng)集成。
自定義監(jiān)控:支持自定義監(jiān)控項和狀態(tài)頁面,滿足特定需求。
高性能集群:支持分布式部署,提高系統(tǒng)可靠性和可擴展性。
4. Prometheus
Prometheus是一個高度可擴展的實時監(jiān)控系統(tǒng),由Google的Brendan Burns等人設(shè)計,并成為云原生計算基金會(CNCF)的一部分。它主要用于收集、存儲和處理時間序列數(shù)據(jù),幫助開發(fā)者和運維人員監(jiān)控應用程序和服務的性能。
特點與優(yōu)勢:
高效的數(shù)據(jù)處理:基于時間序列數(shù)據(jù)模型,能夠高效處理大量監(jiān)控數(shù)據(jù)。
強大的查詢語言:PromQL支持動態(tài)、即時的數(shù)據(jù)聚合和運算。
靈活的告警處理:通過Alertmanager處理生成的警報,避免重復和通知疲勞。
開放生態(tài):具有大量Exporter,輕松集成各種服務和平臺的監(jiān)控指標。
5. Grafana
Grafana是一個開源的平臺,專門用于運行時監(jiān)控、指標分析和可視化。它提供了豐富的圖表庫和靈活的儀表板設(shè)計功能,使得數(shù)據(jù)展示和分析更加直觀和高效。
特點與優(yōu)勢:
豐富的圖表庫:包括時序數(shù)據(jù)圖、柱狀圖、餅圖等多種類型。
自定義儀表板:通過拖放方式自定義儀表板,實現(xiàn)實時監(jiān)控和分析。
多數(shù)據(jù)源支持:支持Prometheus、InfluxDB、Elasticsearch等多種數(shù)據(jù)源。
高性能和靈活性:前端使用AngularJS和React構(gòu)建,后端采用Go語言開發(fā)。
IT 運維團隊應該:
- 實施覆蓋所有層面的綜合監(jiān)控策略。
- 明確各層面監(jiān)控的所有權(quán)和責任。
- 整合跨層面的監(jiān)控數(shù)據(jù),實現(xiàn)端到端可見性。
- 使用高級分析和關(guān)聯(lián)功能,識別和診斷問題。
- 通過劇本和運行手冊自動化常見問題的修復。
- 持續(xù)優(yōu)化監(jiān)控工具和流程,提高效率。
通過采用基于層級的 IT 運維監(jiān)控方法,組織可以增強維護 IT 系統(tǒng)健康和性能的能力,更有效地響應事件,并推動 IT 運維的持續(xù)改進。
智能運維全棧監(jiān)控
運維監(jiān)控平臺通過集成這些不同層次的監(jiān)控數(shù)據(jù),實現(xiàn)跨層次的故障關(guān)聯(lián)分析,迅速定位問題源頭,提高故障處理效率。同時,自動化操作平臺支持線上變更、任務執(zhí)行的安全可控,實現(xiàn)運維流程的標準化和自動化,提升運維效率和質(zhì)量。智能運維全棧監(jiān)控解決方案還利用大數(shù)據(jù)和人工智能技術(shù),實現(xiàn)智能告警、性能優(yōu)化和資源調(diào)度,進一步提升運維的智能化水平。例如,通過實時收集并分析網(wǎng)絡(luò)設(shè)備數(shù)據(jù),運維人員可以迅速發(fā)現(xiàn)問題、定位問題,甚至預測潛在故障,實現(xiàn)主動式運維管理。參考如下:
結(jié)論
分層運維自動化監(jiān)控是構(gòu)建穩(wěn)定、高效IT環(huán)境的關(guān)鍵。通過將監(jiān)控策略與自動化操作相結(jié)合,IT組織能夠?qū)崿F(xiàn)對基礎(chǔ)設(shè)施、應用服務和業(yè)務運營的全面、深入監(jiān)控,從而提升運維效率,確保業(yè)務連續(xù)性和用戶體驗。信息源自對分層運維自動化監(jiān)控策略的綜合分析,涵蓋了從硬件設(shè)備到軟件系統(tǒng),再到業(yè)務應用的全方位監(jiān)控體系。通過自動化工具和智能分析技術(shù),運維團隊能夠?qū)崿F(xiàn)對IT環(huán)境的實時監(jiān)測和智能化管理,以應對分布式系統(tǒng)中復雜的運維挑戰(zhàn)。
今天先到這兒,希望對AIGC,云原生,技術(shù)領(lǐng)導力, 企業(yè)管理,系統(tǒng)架構(gòu)設(shè)計與評估,團隊管理, 項目管理, 產(chǎn)品管理,信息安全,團隊建設(shè) 有參考作用 , 您可能感興趣的文章:
構(gòu)建創(chuàng)業(yè)公司突擊小團隊
國際化環(huán)境下系統(tǒng)架構(gòu)演化
微服務架構(gòu)設(shè)計
視頻直播平臺的系統(tǒng)架構(gòu)演化
微服務與Docker介紹
Docker與CI持續(xù)集成/CD
互聯(lián)網(wǎng)電商購物車架構(gòu)演變案例
互聯(lián)網(wǎng)業(yè)務場景下消息隊列架構(gòu)
互聯(lián)網(wǎng)高效研發(fā)團隊管理演進之一
消息系統(tǒng)架構(gòu)設(shè)計演進
互聯(lián)網(wǎng)電商搜索架構(gòu)演化之一
企業(yè)信息化與軟件工程的迷思
企業(yè)項目化管理介紹
軟件項目成功之要素
人際溝通風格介紹一
精益IT組織與分享式領(lǐng)導
學習型組織與企業(yè)
企業(yè)創(chuàng)新文化與等級觀念
組織目標與個人目標
初創(chuàng)公司人才招聘與管理
人才公司環(huán)境與企業(yè)文化
企業(yè)文化、團隊文化與知識共享
高效能的團隊建設(shè)
項目管理溝通計劃
構(gòu)建高效的研發(fā)與自動化運維
某大型電商云平臺實踐
互聯(lián)網(wǎng)數(shù)據(jù)庫架構(gòu)設(shè)計思路
IT基礎(chǔ)架構(gòu)規(guī)劃方案一(網(wǎng)絡(luò)系統(tǒng)規(guī)劃)
餐飲行業(yè)解決方案之客戶分析流程
餐飲行業(yè)解決方案之采購戰(zhàn)略制定與實施流程
餐飲行業(yè)解決方案之業(yè)務設(shè)計流程
供應鏈需求調(diào)研CheckList
企業(yè)應用之性能實時度量系統(tǒng)演變
如有想了解更多軟件設(shè)計與架構(gòu), 系統(tǒng)IT,企業(yè)信息化, 團隊管理 資訊,請關(guān)注我的微信訂閱號:
作者:Petter Liu
出處:http://www.rzrgm.cn/wintersun/
本文版權(quán)歸作者和博客園共有,歡迎轉(zhuǎn)載,但未經(jīng)作者同意必須保留此段聲明,且在文章頁面明顯位置給出原文連接,否則保留追究法律責任的權(quán)利。
該文章也同時發(fā)布在我的獨立博客中-Petter Liu Blog。





![image_thumb2_thumb_thumb_thumb_thumb[2] image_thumb2_thumb_thumb_thumb_thumb[2]](https://img2023.cnblogs.com/blog/15172/202408/15172-20240813152608777-346729148.png)
浙公網(wǎng)安備 33010602011771號