對(duì)于服務(wù)器的監(jiān)控同樣也是從狀態(tài)、性能與容量這幾個(gè)維度入手。雖然SNMP也可以用于服務(wù)器監(jiān)控,但相對(duì)于agent主動(dòng)上報(bào)指標(biāo)與數(shù)據(jù)會(huì)少很多。
服務(wù)器的狀態(tài)監(jiān)控主要包含服務(wù)器是否ping的通、agent上報(bào)是否超時(shí)與電源運(yùn)行狀態(tài)等等。對(duì)于性能與容量這兩類維度,主要依賴當(dāng)前OS的數(shù)據(jù)捕獲,一般來說對(duì)于服務(wù)器監(jiān)控來說在通用場(chǎng)景下主要關(guān)注CPU、內(nèi)存、流量與包量這四個(gè)指標(biāo)即可,但是別的指標(biāo)也建議盡量捕獲。
單個(gè)監(jiān)控對(duì)象的數(shù)據(jù)豐富了會(huì)有如下好處:避免對(duì)象的監(jiān)控盲點(diǎn)不同的監(jiān)控?cái)?shù)據(jù)點(diǎn)可以部分對(duì)應(yīng)出該服務(wù)器所承載的業(yè)務(wù)特性指標(biāo),例如存儲(chǔ)類業(yè)務(wù)也會(huì)關(guān)注disk_total_read、svctm_time_max、await_time_max等等系統(tǒng)指標(biāo)生產(chǎn)的數(shù)據(jù)足夠豐富能夠催生出更加豐富的運(yùn)維數(shù)據(jù)消費(fèi)場(chǎng)景。服務(wù)器監(jiān)控相對(duì)是很標(biāo)準(zhǔn)的監(jiān)控模型,針對(duì)于物理服務(wù)器與虛擬機(jī)都有共性指標(biāo)。這部分主要做到采集的數(shù)據(jù)豐富與上報(bào)的準(zhǔn)確性(算法準(zhǔn)確)。 想吃透運(yùn)維監(jiān)控系統(tǒng),就這一篇足夠了!哪個(gè)運(yùn)維監(jiān)控平臺(tái)好用
運(yùn)維監(jiān)控的流程包括:
發(fā)現(xiàn)問題:當(dāng)系統(tǒng)發(fā)生故障報(bào)警,我們會(huì)收到故障報(bào)警的信息定位問題:故障郵件一般都會(huì)寫某某主機(jī)故障、具體故障的內(nèi)容,我們需要對(duì)報(bào)警內(nèi)容進(jìn)行分析,比如一臺(tái)服務(wù)器連不上:我們就需要考慮是網(wǎng)絡(luò)問題、還是負(fù)載太高導(dǎo)致長時(shí)間無法連接,又或者某開發(fā)觸發(fā)了防火墻禁止的相關(guān)策略等等,我們就需要去分析故障具體原因。解決問題:當(dāng)然我們了解到故障的原因后,就需要通過故障解決的優(yōu)先級(jí)去解決該故障。總結(jié)問題:當(dāng)我們解決完重大故障后,需要對(duì)故障原因以及防范進(jìn)行總結(jié)歸納,避免以后重復(fù)出現(xiàn)。 哪個(gè)運(yùn)維監(jiān)控方案好用Argus運(yùn)維監(jiān)控系統(tǒng)支持納管 VMware、OpenStack等虛擬化平臺(tái),以及Nutanix、H3C CAS等超融合平臺(tái)。
Argus監(jiān)控運(yùn)維系統(tǒng)采用高性能深度列式存儲(chǔ)集群,能提供超高壓縮比、順序存儲(chǔ)和自定義數(shù)據(jù)等功能,滿足企業(yè)PB級(jí)數(shù)據(jù)存儲(chǔ)的需求,實(shí)現(xiàn)海量數(shù)據(jù)毫秒級(jí)的響應(yīng)。以觀縱服務(wù)的某企業(yè)為例,該企業(yè)承擔(dān)著產(chǎn)業(yè)鏈上下游數(shù)百家企業(yè)海量電子信息的實(shí)時(shí)匯聚和處理,每天新生成日志數(shù)據(jù)達(dá)到數(shù)十TB。云智慧助力該客戶打造的數(shù)字化運(yùn)維日志中心,數(shù)據(jù)存儲(chǔ)壓縮比達(dá)到了1:0.3,能支持10萬/秒并發(fā)數(shù)據(jù)實(shí)時(shí)分析處理,數(shù)據(jù)傳輸和平臺(tái)解析處理吞吐量達(dá)540MB/s,處理延時(shí)控制在300毫秒以內(nèi)。
中間件和數(shù)據(jù)庫組件監(jiān)控:中間件和數(shù)據(jù)庫組件都統(tǒng)一提供sidecar模式部署的exporter進(jìn)行指標(biāo)采集,并配置監(jiān)控告警。如果不是集群納管的數(shù)據(jù)庫,也可以開發(fā)自定義exporter(kingbase、greatdb等國產(chǎn)數(shù)據(jù)庫都走這個(gè)方式),也可以開發(fā)指標(biāo)推到Prometheus的pushgateway(polardb國產(chǎn)數(shù)據(jù)庫走這個(gè)方式),還可以配置Prometheus去拉取各組件的metrics(etcd等中間件有提供標(biāo)準(zhǔn)的metrics)。
各業(yè)務(wù)集群怎么部署監(jiān)控組件各業(yè)務(wù)集群都單獨(dú)部署Prometheus和grafana;在集群各節(jié)點(diǎn)部署有kubelet客戶端和demonset模式的node-exporter;在集群管理節(jié)點(diǎn)部署Deloyment模式的kube-state-metrics;而k8s的管理組件kube-scheduler、control-manager、etcd自帶metrics,不需要部署任何采集工具,而是在Prometheus的配置文件中配置各組件的metrics地址獲取指標(biāo)數(shù)據(jù);中間件和數(shù)據(jù)庫組件內(nèi)帶有Sidecar模式的xxx-exporter(比如mysql-exporter),部署中間件和數(shù)據(jù)庫時(shí)就開始收集監(jiān)控?cái)?shù)據(jù)。 Argus V3.4 重磅發(fā)布,打造完整的Iaas&Paas兼容感知,解耦Zabbix版本限制,生態(tài)無縫兼容。
大集群場(chǎng)景特點(diǎn)數(shù)據(jù)規(guī)模大:監(jiān)控對(duì)象targets多,數(shù)千萬時(shí)序數(shù)據(jù)time-series,單Prometheus負(fù)載非常高。
當(dāng)series數(shù)據(jù)超過300萬時(shí),Prometheus內(nèi)存增長較為明顯,需要使用較大內(nèi)存的機(jī)器來運(yùn)行。壓測(cè)過程中,我們使用了工具去生成預(yù)期數(shù)目的series,工具生成的series每個(gè)label的長度及值的長度都較小,固定為10個(gè)字符左右。我們的目的是觀察相對(duì)負(fù)載變化,實(shí)際生產(chǎn)中由于label長度不同,服務(wù)發(fā)現(xiàn)機(jī)制(比如Pod頻繁重啟)的消耗不同,相同的series數(shù)目所消耗的負(fù)載會(huì)比壓測(cè)中高不少。目前Argus有好幾個(gè)集群的采集端Prometheus消耗內(nèi)存在30G以上,這會(huì)導(dǎo)致查詢效率下降,嚴(yán)重的會(huì)導(dǎo)致OOM,有的大集群內(nèi)存消耗達(dá)幾百G。 運(yùn)維監(jiān)控中收到了故障報(bào)警,我們?cè)趺刺幚砟??有什么更高效的處理流程嗎??shù)據(jù)中心一體化運(yùn)維監(jiān)控軟件
運(yùn)維監(jiān)控體系一般來說包括數(shù)據(jù)采集、數(shù)據(jù)檢測(cè)、告警管理、故障管理、視圖管理和監(jiān)控管理6大模塊。哪個(gè)運(yùn)維監(jiān)控平臺(tái)好用
面向IT資源200+以上的各類型單位,產(chǎn)品提供一體化運(yùn)維監(jiān)控功能,以幫助信息部門員高效管理IT運(yùn)行環(huán)境、IT資產(chǎn),通過運(yùn)維工具的自動(dòng)化,提升單位IT服務(wù)質(zhì)量,提高運(yùn)維效率,降低運(yùn)維成本,減輕運(yùn)維人員工作壓力。
Argus實(shí)時(shí)運(yùn)維監(jiān)控分析系統(tǒng)是基于全球負(fù)有盛名的IT基礎(chǔ)監(jiān)控平臺(tái)Zabbix深度二次開發(fā)的運(yùn)維監(jiān)控軟件,面向私有化及混合云數(shù)據(jù)中心提供多角度多層次的統(tǒng)一監(jiān)控和運(yùn)維管理。幫助用戶實(shí)時(shí)對(duì)各類IT資源(網(wǎng)絡(luò)設(shè)備、服務(wù)器、存儲(chǔ)、數(shù)據(jù)庫、中間件等)執(zhí)行性能指標(biāo)監(jiān)控,實(shí)現(xiàn)事前運(yùn)維。 哪個(gè)運(yùn)維監(jiān)控平臺(tái)好用
上海觀縱科技有限公司成立于2022-11-14,同時(shí)啟動(dòng)了以webfunny,walkingfunny,argus為主的webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控產(chǎn)業(yè)布局。業(yè)務(wù)涵蓋了webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控等諸多領(lǐng)域,尤其webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控中具有強(qiáng)勁優(yōu)勢(shì),完成了一大批具特色和時(shí)代特征的傳媒、廣電項(xiàng)目;同時(shí)在設(shè)計(jì)原創(chuàng)、科技創(chuàng)新、標(biāo)準(zhǔn)規(guī)范等方面推動(dòng)行業(yè)發(fā)展。隨著我們的業(yè)務(wù)不斷擴(kuò)展,從webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控等到眾多其他領(lǐng)域,已經(jīng)逐步成長為一個(gè)獨(dú)特,且具有活力與創(chuàng)新的企業(yè)。上海觀縱科技有限公司業(yè)務(wù)范圍涉及一般項(xiàng)目:技術(shù)服務(wù)、技術(shù)開發(fā)、技術(shù)咨詢、技術(shù)交流、技術(shù)轉(zhuǎn)讓、技術(shù)推廣;軟件開發(fā);人工智能基礎(chǔ)軟件開發(fā);人工智能應(yīng)用軟件開發(fā);數(shù)據(jù)處理服務(wù);信息技術(shù)咨詢服務(wù);信息系統(tǒng)集成服務(wù):信息系統(tǒng)運(yùn)行維護(hù)服務(wù);計(jì)算機(jī)系統(tǒng)服務(wù);軟件銷售;計(jì)算機(jī)軟硬件及輔助設(shè)備批發(fā);計(jì)算機(jī)軟硬件及輔助設(shè)備零售;電子產(chǎn)品銷售;通信設(shè)備銷售;通訊設(shè)備銷售;咨詢策劃服務(wù);市場(chǎng)調(diào)查(不含涉外調(diào)查);廣告制作;廣告發(fā)布;廣告設(shè)計(jì)、代理;會(huì)議及展覽服務(wù);貨物進(jìn)出口。(除依法須經(jīng)批準(zhǔn)的項(xiàng)目外,憑營業(yè)執(zhí)照依法自主開展經(jīng)營活動(dòng)) 許可項(xiàng)目:建筑智能化系統(tǒng)設(shè)計(jì);建設(shè)工程施工;網(wǎng)絡(luò)文化經(jīng)營;互聯(lián)網(wǎng)信息服務(wù)。(依法須經(jīng)批準(zhǔn)的項(xiàng)目,經(jīng)相關(guān)部門批準(zhǔn)后方可開展經(jīng)營活動(dòng),具體經(jīng)營項(xiàng)目以相關(guān)部門批準(zhǔn)文件或許可證件為準(zhǔn))等多個(gè)環(huán)節(jié),在國內(nèi)傳媒、廣電行業(yè)擁有綜合優(yōu)勢(shì)。在webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控等領(lǐng)域完成了眾多可靠項(xiàng)目。