大型集團企業一體化運維監控方案
當前,云計算、大數據、人工智能等IT技術迅猛發展,企業的信息化步入了一個嶄新的時代,企業規模不斷壯大,業務不斷拓展,企業信息化依賴的網絡結構和IT技術越來越復雜。企業運維部門采用的運維工具和技術實力直接決定企業是否能提供穩定、可靠、快速、優質的服務。但傳統網管監控設備種類受限,監控的效率不高,后期擴展困難,同時無法和企業的業務情況結合起來,無法提供足夠的安全管控功能,致使企業IT系統運行維護的管理水平相對滯后。
第1章 大型集團企業網絡運維的痛點
隨著企業數字化轉型升級進程的加快,很多大型集團企業的信息化建設雖已具備良好的IT基礎,但同時也導致企業IT系統架構越來越復雜,新業務系統不斷上線,企業內部難以掌握企業內所有軟硬資源的數量、版本、運行狀態等信息,大型集團企業運維面臨諸多難題。
面臨的具體難題如下:
- 因建設時期等原因,企業網絡中分布著不同時期、不同廠商、不同型號的IT設備,運維人員需頻繁切換不同廠商的管理平臺對其進行管理,難以進行全面高效運維。
- 常規網絡管理工具,缺乏各級網絡結構可視化能力,難以全面覆蓋所有網絡設施,用戶無法掌握網絡運行態勢。
- 企業網絡中交換機、路由器、VPN、服務器、PC等多種類型設備并存且相互連接,連接方式多樣復雜,難以清晰管理設備間的鏈接關系。
- 網絡中出現故障或異常時,因設備品牌、型號、配置等存在差異,難以快速定位,又因網絡結構復雜,難以快速定位故障根因,造成排障困難。
- 企業運維過程中,只有當故障已經發生并且造成業務影響時才能發現和著手處理,日常運維工作多處于“救火”狀態,被動地處理各種故障。
- 網絡設備配置復雜,設備間兼容性差,運維過程中大量的配置變更和巡檢工作以手工為主,效率低、風險大。
- 企業內部如ERP、CRM、OA辦公、項目管理系統等業務系統眾多,業務系統間交叉聯動,缺乏合理手段對業務進行全面監控。
- 企業中IT設備、業務軟件、行政資產等數量巨大,種類繁多,僅靠人工管理難以對其備件、配件信息詳細統計,資產的采購、調撥、報廢等管理效率低,難審計。
- 網絡性能、流量、巡檢和配置檢查的數據多為手工整理,數據分析統計難度大,效率和正確率較低,難滿足更高的運維管理需求。
第2章 大型集團企業對運維監控軟件的需求
根據企業信息化建設現狀和運維難題,往往提出以下基礎運維需求,并希望通過一款產品全棧式運維,滿足企業基本需求和支撐企業進行運維擴張。
(1)全面深入地監控管理
企業既有不同廠商的網絡設備,也有各種服務器、軟件應用,設備種類繁多,設備數量巨大,而且設備的管理協議不同,運維部門期望能用一套軟件統一監控起來。
(2)不間斷地全程監控
運維部門需要進行7*24的全程監控,故障將要發生前能提前預警,故障出現時可以立刻通知到管理員,定位到故障環節,快速恢復系統。
(3)后期擴展設備的支持
對企業來說,新的業務在不斷開展,設備和新的軟件應用也在不斷擴展,運維部門期望現有的網管軟件對未來的擴展也能有較好的支持。
(4)清楚地掌控設備部署間的關系
設備之間的物理關系、設備與業務的關系,是運維部門進行全局掌控的基本條件, 隨著時間的變化、人員的流動、設備的變更、業務的遷移,導致設備和業務的拓撲關系很難管理。
(5)IT復雜性與管理方便性的矛盾
IT基礎設施本身就越來越復雜,技術也越來越高級,面對復雜的IT設施進行管理,對運維部門技能的要求也將更高。因此對網管的功能要求也是越來越高,造成網管軟件功能操作復雜,難以上手。
(6)多層次的安全管理
對于企業中的不同部門,需要對不同的部門分配不同的管理權限以及設備權限,權限的管理分配是運維部門關注的重要指標。
(7)結合業務監控
傳統網管監控軟件往往只監控網絡設備,無法對公司業務情況進行多層級業務可視化展示和實時監控,難以有效反饋業務運行情況,因此需要一款產品可深入業務進行實時監控。
(8)成本的控制
運維部門作為服務中心,如何保障IT投資收益,提升IT投資價值,實現最大的業務目標,是運維部門重點關注的指標。
第3章 大型集團企業一體運維監控方案
大型集團企業中,旗下各分子公司通常分別建設數據中心和運維體系,但隨著集團信息化建設的發展,運維需求越來越多樣,各分子公司獨立建設運維系統的技術和成本飛速增長,且各級公司“煙囪式”分散部署的運維系統,難以實現一體化管理與協同融合。北京智和信通一體化運維監控方案,引入萬物互聯理念和技術打造一體化運維系統,為企業信息化、數字化轉型奠定基礎。
方案通過智和網管平臺對管理區域內的各類網絡設備進行集中監控、操作維護和資源配置調度等,實現對網絡資源的管理、運行監測、策略配置、故障管理,并通過自動化運維能力實現故障資源,對于無法自愈的故障與報修,通過運維工單調動現場運維人員進行處理,提高企業IT設備資源的可靠性與安全性,保障企業業務穩定運行,為用戶帶來更高質量的信息服務。
智和信通大型集團企業一體化運維監控架構
3.1.多級架構一體化監控
一般大型集團企業會根據地域、業務等設立多個分子公司、事業部或辦事處,如何建立“一體化”“集中式”的IT運維體系,保障集團核心網絡、業務的持續穩定,降低故障率是每個大型集團企業必須思考的問題。
在運維管理上,北京智和信通一體化運維監控方案將大型集團企業網絡中的IT設施均納入智和網管平臺中一站管控,避免分散管理,減少運維成本。采取智能技術,實現網絡拓撲可視化的能力,通過動態智能拓撲實現全網設備、資源、鏈接關系、IP等實時更新、快速定位。
通過按片區、按地域、按層級等多種布局方式劃分網絡,使用不同顏色、粗細、圖標表示被管理對象的狀態信息,助力運維人員實時了解網絡架構及全網運行狀態,快速感知資源、鏈路、流量等異常信息。
3.2.全網資源統一監控
通過對大型集團企業網絡中海量交換機、路由器、接入設備、無線AC、AP、攝像頭、操作系統、應用、數據庫、虛擬化、中間件、云、存儲等智能解析和關聯分析,結合全流量采集分析能力,形成整個網絡通信鏈路的多端網絡流量分析鏈,助力運維人員從多個維度實現對相應告警的智能分析,解決傳統運維監控中關聯數據缺失,輔助排障信息不足的問題。
3.3.虛擬化資源統一管理
方案支持對虛擬化環境下的虛擬機、宿主機等進行全方位運維監控,全面支持Exi5、KVM、Xen、Hyper-v等,監測指標涵蓋物理機內部虛擬化設備的電源、操作系統、CPU、內存、磁盤等,最大化利用計算資源,保障虛擬化平臺運行穩定。
方案對復雜的多云異構環境、云上云下資源、信創云等進行全面管理,實現云下服務器、網絡設備、安全設備、機房、機柜、專線、配件等設施,云上各類云服務器、云磁盤等云產品以及各類 IP、NAT、DNS 等資源的真正一站式運維,并支持對納管資源的快速擴展。
3.5.端到端全鏈路可視化
方案通過對交換機光口和網絡接口的監控,通過數據采集分析,實現對網絡流量和關鍵連接的預測性維護,從整體維度到局部維度全面展示大型集團企業網絡內IT設備間鏈路各項指標,整體可觀測、可告警、可分析、可統計。
3.6.彈性擴展,滿足網絡發展需求
方案支持設備及資源彈性伸縮,滿足網絡中設備量持續增長及更新的需求??蓪υO備類型模型進行擴展,可自定義新設備的類型、圖標、類型識別策略;可對設備資源模型進行擴展,自定義新設備類型的網口、指示燈、風扇、電源的圖標、識別發現策略;可自定義設備面板圖,以拖拽、鼠標操作完成設備面板模板的制作;支持故障和性能擴展。
全面采集大型集團企業網絡內所有聯網設備,如交換機、路由器、接入設備、無線AC、AP、攝像頭、操作系統、應用、數據庫、虛擬化、中間件、云、存儲等狀態信息,通過對告警機制以及閾值的設置,第一時間獲取準確的告警信息,快速定位告警設備,提升告警處理效率,降低因設備故障帶來的損失。
將事件和告警分離管理,接收設備/服務器主動發送的消息,集中處理后,及時地通知用戶,并可以通過集中的管理界面進行管理。接收設備/服務器主動發送的消息,極大地提高了管理的主動性,通過統一界面集中管理事件,降低了管理的難度。
傳統的人工巡檢,尤其是應用巡檢,缺乏統一的規范、標準,導致巡檢的范圍和深度都存在一定的局限性,并且是基于人工的手工統計,工作效率比較低,同時耗費較大的人力資源。本方案依托平臺將以前依賴手工進行的日常巡檢轉換為自動化、定時執行的巡檢策略,日常例行巡檢、節假日和重要事件前的巡檢均可自動化執行。
隨著大型集團企業信息化建設的加速,其業務、應用層出不窮,對網絡帶寬的需求越來越高。正常的業務需要良好的帶寬環境保障機制,避免被一些與業務無關的雜事干擾,影響工作效率。方案對大型集團企業流量和帶寬實時監控,將出入雙方向流量情況可視化展現?;诤A苛髁繑祿拇鎯ν诰?,統計分析流量峰值、谷值、流量趨勢、設備流量等數據,為網絡流量管理提供數據支撐。
對于大型集團企業的IP資產,采取統一數據標準,對整體網絡中的IP和MAC進行梳理和管理,建立健全IP資產臺賬,端到端規劃、部署、管理和監控IP 地址。通過智能IP掃描能力,定義多層次子網,然后掃描其范圍內每個IP地址的當前狀態,包括IP地址,MAC地址等信息,也可以查看IP段內地址使用詳情,便于IP地址分配管理等。
3.12.端到端業務運維體系
隨著業務的不斷增長,企業內部應用系統也越來越多,如果建設統一的應用維護、管理體系,將給企業運維管理帶來不小的壓力。通過搭建端到端業務監控體系,實現集團業務系統運維管理的主動化和體系化,通過實時的監測和分析發現系統潛在的問題和風險,實現主動式運維管理,保障關鍵業務穩定運行。
針對業務應用性能與用戶體驗進行檢測分析,無需安裝插件即可提供開箱即用的主動撥測試業務監測。從前端用戶體驗、網絡延遲到后端的業務服務和基礎架構,全棧溯源為用戶提供端到端的完整全鏈路數據融合和關聯分析,為用戶快速發現業務性能瓶頸,提升用戶體驗奠定基礎。
直觀、便捷地幫助運維人員對大型集團企業的ERP、MES、LIMS、CRM、人事管理系統、OA管理系統、項目管理系統、桌面安全、ITSM、數據存儲備份等進行監控,掌握業務的運行狀態和健康水平,了解業務動態變化趨勢,快速定位故障源,降低運營風險。
3.13.無人值守的設備遠程配置
大型集團企業網絡承載的業務經常發生變更,面對業務的變更運維工程師往往要對大量設備進行操作,此時如果依靠工程師逐一登錄設備進行命令下發、策略配置,將產生大量重復性的工作,不但導致運維效率低下,也不可避免地產生人為配置錯誤。
通過智和信通全場景自動化運維方案納入監控的設備進行單獨、批量的配置操作,設備策略遠程配置管理,可以自動批量進行設備配置修改,并可對設備配置進行備份、對比、恢復,宕機后設備配置可快速復原,保障設備及時恢復運行,全面提升配置效率、質量和安全性。

通過批量作業并行處理能力,實現多設備并發批處理操作,將簡單的設備控制操作在大批量設備進行執行,并對執行過程進行監督,對執行結果進行檢查。在安全合規的前提下,將運維人員從整體的變更流程及變更內容的準備中解脫出來,實現網絡變更、設備配置自動化。
多類型多廠商設備支持:
針對不同類型的設備,支持進行各種控制、配置操作。
- 對服務器/主機/虛擬化,支持一鍵開關機、進程管理、應用管理、容量管理等
- 對交換機/路由器,支持ACL、QoS、流量策略、端口策略等
- 對安全設備,支持防護管理、認證管理、NAT管理、VPN管理、內容控制等
- 對數據庫/中間件,支持空間管理、池管理、會話管理、連接控制等
- 對傳輸設備,支持終端管理、鏈路管理、信號控制、功率配置等
- 對其他設備,支持結合用戶實際場景,通過拖拽流程的方式實現自定義管控策略
對不同廠商,如Cisco、HP、Nortel、Juniper、3Com、D-link、Foundry、Dell、Proxim、NetScreen、華為、H3C、銳捷、中興等多家廠商的網絡設備。
3.14.全場景自動化運維
方案將大型集團企業網絡運維中涉及的服務、命令、操作、執行組件化、策略化,將需要進行的運維服務、操作等以組件、策略的形式托管至平臺中進行維護和管理,通過簡單靈活地編排能力,使用者可以選擇業務場景所需的策略,通過可視化拖拽的編排方式進行組合,即可完成應用場景端到端的圖形化編排,最后以多種方式觸發執行即可完成期望的運維變更任務,從而實現高效、穩定、安全的智能運維。
將人工運維與故障自愈結合,無需針對告警進行手動處置,只需預編排告警處理流程,平臺根據場景自動觸發,實現故障自愈。
通過實時發現告警,進行預診斷分析,判斷告警類型和級別,如果是一般告警,平臺進行自動恢復,如果是嚴重復雜告警則通過告警通知、運維工單等形式通知運維管理人員,進行人工處理。同時,將只能由專家處理的各類操作和判斷轉化為可存在于平臺內的流程,形成可保留可復用的運維知識。
3.16.運維大數據分析
大型集團企業網絡設施及各業務系統產生的海量數據無法得到深層次的應用,管理者決策缺乏數據依據,難以參考各類網絡業務指標、數據等實現對運行態勢、隱患風險的實時掌控及運營管理。
為解決此難題,智和信通大型集團企業監控運維方案利用圖形、圖表、圖表等易于理解的形式,提取和分析大量復雜的各類運維數據,呈現分析結果,將全域資源融合展示。從而幫助運維人員在短時間內更好地理解和獲得更多的信息,幫助運維中心能夠實時了解業務和其所依賴IT資源的運行狀況,以及提供系統運維和優化的指示和依據。
3.17.IT資產生命周期監管
對于資產管理,采取統一數據標準,對整體網絡資產進行梳理和調用,避免資產信息在運維系統和實物間的差異,減少網絡運維過程中信息不一致、數據不統一等問題通過平臺將資產實物與運維數據庫一一對應,解決網絡設備在日常運維過程中出現“脫管”或“半脫管”的問題。
建立健全資產臺賬,實現一機一檔,通過自定義多級資產分類,細化資產類別,實現資產分類管控,提高資產精細管理程度。從資產入庫、領用、變更、維修、調撥、到報廢處置,資產每一步操作均實現完整記錄,支持追溯,通過平臺實現資產整個生命周期的全流程閉環管理。
3.18.可量化運維工單體系
通過方案實現運維工單“無紙化”,支持于設備和故障管理頁面快速創建工單,把控故障處理進度,通過工單平臺簡化故障處理流程,形成自動化故障處理機制,并在每個處理流程的節點上責任到人,實現在快速響應故障的同時,實現兼顧運維流程管控。

通過建立工單服務基準,預設工單在不同優先級、不同狀態時,受理人應該響應的時間及未響應時的處理方式,生成工單自動化處理規則,并以多種方式進行通知,避免超時響應提升全流程服務管理質量。
第4章 智和信通信創國產化支持
方案涉及的所有產品與模塊,均由北京智和信通自主研發,從功能模塊、數據庫、界面全部基于統一Java技術平臺和統一數據關系模型,不包含任何第三方功能庫。
智和信通提供的信創運維方案,立足于北京智和信通10年的國產融合經驗,與國產軟硬件產品深度適配,方案應用覆蓋各行各業。方案支持在中標麒麟、銀河麒麟、紅 旗 Linux等國產操作系統上運行,支持在達夢、金倉、神州等國產數據庫進行數據存儲,通過東方通等國產中間件提供對外服務,支持龍芯、申威等 國產CPU 架構,并實現對國產化CPU、服務器、數據庫、中間件等IT 軟硬件設備的綜合監控與運維管理。
2010年中國移動通信集團在全國建設了不良信息過濾系統,此系統由不良信息過濾軟件、Windows 服務器、Linux 服務器、數據庫、分流設備、交換機、存儲服務器等構成。
建設范圍:中國移動不良信息過濾系統的北方區域:北京、天津、黑龍江、吉林、遼寧、山東、山西、甘肅、青海、西藏、河南、寧夏共13個省公司。
設備類型:過濾軟件、Windows 服務器、Linux 服務器、數據庫、分流設備、交換機、存儲服務器等
5.1.核心需求
需要一套集中的OMC(操作維護中心)監控軟件,對不良信息過濾系統的所有的設施進行監控。
- 集中部署OMC,分區域管理:各省市管理人員從Internet登錄到OMC系統,對本省的設備進行監控;
- 穿透私網:要管理的設備分散在各省公司下不同城市的機房中, 網管服務器無法直接訪問各省設備;在北京的中心機房,可以監控到其他機房的設備運行情況;
- 嚴格的故障處理機制:故障發生、故障通知、故障清除、故障確認、故障恢復,需要符合中國移動的運維管理規定;
- 時效性要高:發現故障的時間,平均不能低于30秒,最大不能超過1分鐘;每臺設備 10—20個需要監控的故障/性能指標,監控周期為10秒鐘;
- 統一監控:所有的服務器、網絡設備、軟件系統在同一界面中統一監控;
- 7*24 小時的監控畫面:主監控屏幕需要7*24小時不間斷展示告警和警報。
5.2.智和信通建設方案與效果
已實現包括設備拓撲、故障管理、性能管理、配置管理以及安全管理等在內的超過1000種基礎網管功能,且支持功能擴展針對中國移動的具體需求,智和信通提出以下解決方案:
- 利用WebService技術采用集中式部署運維平臺,分布式部署的網管采集代理,實現中心、片區的層級監測,片區獨立運行,中心可以集中管理分部的監測數據;
- 配置代理服務器的IP和端口,做到采集服務端的代理模式,可以做到監控私有網段下的設備;
- 具備主動的故障監控功能,能從眾多的事件和狀態中,系統將零散的狀態信息,總結成為當前工作狀態,并產生告警;
- 采用JAVA多線程任務并發技術,把監測頻率提升到秒級,以保證監測數據的實時性和精確性,監控周期最低可以設置為5秒;
- 采用設備統一模型,可以統一管理Windows 服務器、Linux 服務器、數據庫、分流設備、交換機等各種設備類型;
- 客戶端與服務端之間網絡故障恢復后,網管客戶端無需重啟,自動恢復,數據庫停機/故障恢復后,網管系統客戶端、服務端無需重啟,自動恢復,支持雙機熱備功能。
大型集團企業中,旗下各分子公司通常分別建設數據中心和運維體系,但隨著集團信息化建設的發展,運維需求越來越多樣,各分子公司獨立建設運維系統的技術和成本飛速增長,且各級公司“煙囪式”分散部署的運維系統,難以實現一體化管理與協同融合。北京智和信通一體化運維監控方案,引入萬物互聯理念和技術打造一體化運維系統,為企業信息化、數字化轉型奠定基礎。




















浙公網安備 33010602011771號