監控貫穿應用的整個生命周期。即從程序設計、開發、部署、下線,監控是需要站在公司的業務角度去考慮,而不是針對某個監控技術的使用。監控的目標包括:對系統不間斷的實時監控。實時反饋系統當前狀態。保證服務可靠性安全性。保證業務持續穩定運行。
運維監控方法包括:健康檢查。健康檢查是對應用本身健康狀況的監控,檢查服務是否還正常存活。日志。日志是排查問題的主要方式,日志可以提供豐富的信息用于定位和解決問題。調用鏈監控。調用鏈監控可以完整的呈現出一次請求的全部信息,包括服務調用鏈路、所耗時間等。指標監控。指標是一些基于時間序列的離散數據點,通過聚合和計算后能反映出一些重要指標的趨勢。 什么是統一運維監控平臺?真的能提高IT運維效率嗎?廣東運維監控常見問題
對于服務器的監控同樣也是從狀態、性能與容量這幾個維度入手。雖然SNMP也可以用于服務器監控,但相對于agent主動上報指標與數據會少很多。
服務器的狀態監控主要包含服務器是否ping的通、agent上報是否超時與電源運行狀態等等。對于性能與容量這兩類維度,主要依賴當前OS的數據捕獲,一般來說對于服務器監控來說在通用場景下主要關注CPU、內存、流量與包量這四個指標即可,但是別的指標也建議盡量捕獲。
單個監控對象的數據豐富了會有如下好處:避免對象的監控盲點不同的監控數據點可以部分對應出該服務器所承載的業務特性指標,例如存儲類業務也會關注disk_total_read、svctm_time_max、await_time_max等等系統指標生產的數據足夠豐富能夠催生出更加豐富的運維數據消費場景。服務器監控相對是很標準的監控模型,針對于物理服務器與虛擬機都有共性指標。這部分主要做到采集的數據豐富與上報的準確性(算法準確)。 服務運維監控管理Argus運維監控系統通過事件壓縮機制, 構建了事件集的聚合業務。
Zabbix 是 B/S 架構,抓取數據是通過客戶端抓取的,在客戶端必須有服務啟動,該服務負責采集數據,數據會主動上報給服務端,也可讓服務端連接客戶端去抓取數據??蛻舳朔譃閮煞N模式,即主動模式和被動模式。Argus運維監平臺以 Zabbix 為基礎,可同時兼容 不同版本的Zabbix,以 zabbix 為采集關鍵配合自研的 ArgusNMS 增強模塊為一組采集單元, ArgusEdge 的統一調度實現監管控的需求。單一業務環境下可以支持多 組采集單元(多zabbix-server),實現真正意義上的分布式采集。
2020年12月13日,據海外媒體報道,一個名為APT的網絡入侵組織把世界出名網管軟件廠商SolarWinds作為入侵目標。這次APT攻擊首先是對SolarWinds旗下的Orion網絡監控軟件更新服務器進行入侵,并在軟件更新(Orion)中植入了惡意代碼。透露大約有1.8萬客戶在其系統上部署了該更新,且對美國財政部高層領導使用的電子郵件系統也造成了影響。
SolarWinds的系統被攻擊之后,已導致全球許多組織的網絡遭到破壞,涉及的供應鏈范圍極為廣大,被稱為2020年美國極大網絡安全事件。
“太陽風”(SolarWinds) 是一家專職提供IT監控和運維解決方案的商業公司。其產品SolarWinds Orion Network Performance Monitor(NPM)是集網絡監測、設備性能維護管理、故障監控、網絡實時流量監控和歷史數據統計、匯總和歷史數據分析、虛擬數據中心監控、網絡拓撲監控等功能于一體的網絡管理系統。該軟件主要是用于企業內部網絡管理,目前全球客戶超過32萬家。SolarWinds作為一個齊全的IT管理系統還有一些功能的欠缺,而且中文支持也是一個國內推廣的難題。像同一類型的軟件Hostmonitor、CA Unicenter也是存在同樣的問題。 快來看看常用的運維監控必備知識!
對于網絡設備的監控,也一般從設備性能、質量、狀態等維度入手。對于每臺網絡設備來說運維同學一般會關注如下等高頻場景:
網絡設備的運行狀態syslog(設備運行日志)的監控與告警;設備堆疊狀態下的(例如交換機堆疊)的監控與告警;網絡設備上每個物理端口的、流量、包量、錯包與端口狀態的監控與告警;網絡設備上邏輯端口(物理端口組合)的性能與狀態。
對于網絡設備的syslog告警來說,同樣也會面臨諸如:不同的廠商、設備類型與設備型號日志標準不統一等問題。
所以對于網絡設備syslog監控告警來說,首先是將眾多的網絡設備進行邏輯分組,以便于在一個分組內的設備均可以響應同一個告警關鍵字,并且這個分組粒度建議較細,這樣才能保障告警關鍵字的有效性與獨一性。在這里根據多年的運維經驗,建議syslog告警的分組模型由四個維度組成:廠商+類型+型號+用途例如:CISCO+交換機+EX43000-24T+內網接入層交換機,通過這個公式就描述出一個設備的邏輯分組。 Argus優化了 Promethues Exporter Http 采集接入流程,可自動創建指標。方案運維監控案例
Argus運維監控系統針對 Zabbix 數據模型的場景優化,定制了自定義拖拽的組合詳情頁面。廣東運維監控常見問題
運維監控系統智能告警的整體成效明顯。結合預警和健康診斷后終在告警觸發環節形成可配置 化派單和收斂模型??呻S時滿足運維團隊的各種派單規則。有效抑制同類型告警事件以及存在從屬關系告警事件, 同樣實現界面化配置,整體抑制無需處理的告警工單 40%。整個智能告警模塊全部自主研發,并實現標準的告警接 入模塊,可快速對接開源監控工具以及專業管理軟件提 供的監控功能。以歷史監控數據做為樣本,通過算法學習形成預警 基線。 實作為告警的前置動作,結合監控數據觸發健康診 斷流程。 逐步擴充基線繪制的場景,在隱患出現期間提前介 入。廣東運維監控常見問題
上海觀縱科技有限公司是我國webfunny前端監控,webfunny前端埋點,全鏈路應用性能監控,Argus-IT運維監控專業化較早的有限責任公司之一,觀縱科技是我國傳媒、廣電技術的研究和標準制定的重要參與者和貢獻者。公司承擔并建設完成傳媒、廣電多項重點項目,取得了明顯的社會和經濟效益。觀縱科技將以精良的技術、優異的產品性能和完善的售后服務,滿足國內外廣大客戶的需求。