對(duì)于IaaS層的監(jiān)控,本質(zhì)來說就是監(jiān)控組成IaaS層的各個(gè)資源對(duì)象,那么資源對(duì)象代表什么呢?
例如物理服務(wù)器、交換機(jī)、一條專線與一個(gè)公網(wǎng)IP等等都是一個(gè)個(gè)資源對(duì)象。通常來說對(duì)于資源對(duì)象的監(jiān)控可以分為以下4個(gè)維度。
狀態(tài)的監(jiān)控:通指設(shè)備的的狀態(tài),如設(shè)備的存活狀態(tài)、網(wǎng)絡(luò)設(shè)備的端口狀態(tài)、電源、風(fēng)扇狀態(tài)等;
性能監(jiān)控:通指設(shè)備內(nèi)存大小,端口流量包量、CPU利用率等等;
質(zhì)量監(jiān)控:通指設(shè)備的丟包率、錯(cuò)包率、網(wǎng)絡(luò)訪問的延時(shí)等等;
容量監(jiān)控:通指設(shè)備的負(fù)載使用率、專線帶寬使用率、網(wǎng)絡(luò)設(shè)備的負(fù)載使用率、服務(wù)器的負(fù)載使用率等等。 自研 ArgusNMS,增強(qiáng) Zabbix 網(wǎng)管功能, 實(shí)現(xiàn)模塊動(dòng)態(tài)擴(kuò)展。系統(tǒng)智慧運(yùn)維監(jiān)控案例
在云原生時(shí)代,基礎(chǔ)設(shè)施與應(yīng)用的部署構(gòu)建都發(fā)生了極大變化,傳統(tǒng)的監(jiān)控方式已經(jīng)無法適應(yīng)云原生的場(chǎng)景。Prometheus支持對(duì)kubernetes和容器的監(jiān)控,基本上是完美選擇,那么通過Prometheus監(jiān)控體系如何搭建PAAS監(jiān)控體系?監(jiān)控哪些對(duì)象?
k8s管理組件、節(jié)點(diǎn)、pod容器、各種中間件數(shù)據(jù)庫(kù)組件指標(biāo):mysql、redis、kafka、rocketmq、activemq、zookeeper、elasticsearch、mongodb、nginx、clickhouse。同時(shí),還提供了kingbase、polardb、GreatDB等國(guó)產(chǎn)數(shù)據(jù)庫(kù)的監(jiān)控。
怎么監(jiān)控?
k8s組件監(jiān)控:Prometheus直接拉取各組件的metrics接口數(shù)據(jù);
節(jié)點(diǎn)監(jiān)控:在各節(jié)點(diǎn)部署node_exporter,Prometheus自動(dòng)發(fā)現(xiàn)所有節(jié)點(diǎn)對(duì)象拉取exporter提供的數(shù)據(jù);
pod容器監(jiān)控:用各節(jié)點(diǎn)部署的kubelet的cadivisor功能,使Prometheus自動(dòng)發(fā)現(xiàn)并拉取cadivisor提供的容器運(yùn)行時(shí)指標(biāo),并部署kube-state-metrics拉取pod容器元數(shù)據(jù)。 信創(chuàng)統(tǒng)一運(yùn)維監(jiān)控方案打破信息孤島,集成運(yùn)維監(jiān)控升級(jí)!
遇到多集群場(chǎng)景問題
多達(dá)上百個(gè)集群數(shù),而有些業(yè)務(wù)系統(tǒng)擁有多個(gè)集群,其多集群場(chǎng)景特點(diǎn)有:
服務(wù)發(fā)現(xiàn)隔離:Prometheus的服務(wù)發(fā)現(xiàn)機(jī)制無法發(fā)現(xiàn)多個(gè)集群的被監(jiān)控對(duì)象;
網(wǎng)絡(luò)隔離:跨集群可能存在連通性問題;
業(yè)務(wù)需求:業(yè)務(wù)系統(tǒng)可能需要跨集群聚合數(shù)據(jù)。
只用Prometheus能解決嗎?
Prometheus本身只支持單機(jī)部署,沒有自帶支持集群部署,對(duì)于集群化和水平擴(kuò)展,官方和社區(qū)都沒有銀彈,需要合理選擇VictoriaMetrics、Thanos等開源方案或自研方案。Prometheus的存儲(chǔ)空間也受限于單機(jī)磁盤容量,磁盤容量決定了單個(gè)Prometheus所能存儲(chǔ)的數(shù)據(jù)量,數(shù)據(jù)量大小又取決于被采集服務(wù)的指標(biāo)數(shù)量、服務(wù)數(shù)量、采集速率以及數(shù)據(jù)過期時(shí)間。在數(shù)據(jù)量大的情況下,我們可能就需要做很多取舍,比如丟棄不重要的指標(biāo)、降低采集速率、設(shè)置較短的數(shù)據(jù)過期時(shí)間等。
Argus運(yùn)維監(jiān)控系統(tǒng)擁有靈活的策略告警和多種通知方式,告警豐富是為了后續(xù)告警事件分析做準(zhǔn)備,需要輔助信息去判斷該怎么處理、分析和通知。設(shè)定指標(biāo)產(chǎn)生告警的條件定義告警規(guī)則策略,條件包含指標(biāo)閾值的上限或下限。Argus的告警通知方式包括系統(tǒng)內(nèi)、移動(dòng)APP、郵件、短信、企業(yè)微信等,并提供擴(kuò)展開發(fā)接口增加其他的通知方式。對(duì)告警發(fā)生、處置(確認(rèn)、忽略)、恢復(fù)的全生命周期跟蹤快照,統(tǒng)計(jì)告警處置的用戶、處理響應(yīng)時(shí)長(zhǎng)、故障恢復(fù)用時(shí),為信息運(yùn)維管理提供行為效能數(shù)據(jù)支撐。 Argus運(yùn)維監(jiān)控系統(tǒng)可手動(dòng)設(shè)置貼合業(yè)務(wù)的事件聚合規(guī)則、消息分派規(guī)則,并可查看與管理事件集、事件。
基于信創(chuàng)環(huán)境建立信創(chuàng)運(yùn)維服務(wù)體系,滿足跨平臺(tái)對(duì)信創(chuàng)軟硬件設(shè)備提供運(yùn)維監(jiān)控管理功能,包括不限于服務(wù)器(ARM架構(gòu)、MIPS架構(gòu)、X86架構(gòu)等)、網(wǎng)絡(luò)設(shè)備、數(shù)據(jù)庫(kù)(國(guó)產(chǎn)數(shù)據(jù)庫(kù)及非國(guó)產(chǎn)數(shù)據(jù)庫(kù))、應(yīng)用服務(wù)器、存儲(chǔ)、業(yè)務(wù)系統(tǒng)等全域多視角地監(jiān)控和管理,幫助用戶在極短時(shí)間發(fā)現(xiàn)問題、分析出原因、得出解決方案,使故障問題能夠在極短時(shí)間內(nèi)解決,保證業(yè)務(wù)系統(tǒng)的連續(xù)性。Argus 運(yùn)維監(jiān)控平臺(tái)是跨區(qū)域、跨部門的運(yùn)維系統(tǒng)監(jiān)控平臺(tái),實(shí)現(xiàn)包括不限于服務(wù)器(ARM架構(gòu)、MIPS架構(gòu)、X86架構(gòu)等)、網(wǎng)絡(luò)設(shè)備、數(shù)據(jù)庫(kù)(國(guó)產(chǎn)數(shù)據(jù)庫(kù)及非國(guó)產(chǎn)數(shù)據(jù)庫(kù))、中間件、存儲(chǔ)、業(yè)務(wù)系統(tǒng)等運(yùn)維監(jiān)控。通過對(duì)基礎(chǔ)實(shí)施、信息系統(tǒng)、項(xiàng)目進(jìn)度的總體監(jiān)控實(shí)現(xiàn)運(yùn)維體系的有效運(yùn)行,保障信創(chuàng)項(xiàng)目順利開展。提供自動(dòng)化運(yùn)維、智能化運(yùn)維功能,打破了人工現(xiàn)場(chǎng)運(yùn)維效率低下的現(xiàn)狀;從信息采集、健康巡檢、補(bǔ)丁分發(fā)等場(chǎng)景實(shí)現(xiàn)功能自動(dòng)化;利用智能學(xué)習(xí)、大數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等技術(shù)手段,實(shí)現(xiàn)故障從人工處理到無人值守的變革,降低故障處理時(shí)間的同時(shí),實(shí)現(xiàn)被動(dòng)運(yùn)維到主動(dòng)干預(yù)的轉(zhuǎn)變。運(yùn)維監(jiān)控的目的是什么?哪個(gè)運(yùn)維監(jiān)控管理平臺(tái)好用
Argus運(yùn)維監(jiān)控全自動(dòng)拓?fù)渖桑瑴?zhǔn)確率高達(dá)90%以上。系統(tǒng)智慧運(yùn)維監(jiān)控案例
Flow是一種數(shù)據(jù)交換方式,其工作原理是:
Flow利用標(biāo)準(zhǔn)的交換模式處理數(shù)據(jù)流的第1個(gè)IP包數(shù)據(jù),生成Flow緩存,隨后同樣的數(shù)據(jù)基于緩存信息在同一個(gè)數(shù)據(jù)流中進(jìn)行傳輸,不再匹配相關(guān)的訪問控制等策略,F(xiàn)low緩存同時(shí)包含了隨后數(shù)據(jù)流的統(tǒng)計(jì)信息。
一個(gè)Flow流定義為在一個(gè)源IP地址和目的IP地址間傳輸?shù)膯蜗驍?shù)據(jù)包流,且所有數(shù)據(jù)包具有共同的傳輸層源、目的端口號(hào)。
相對(duì)于會(huì)話(“Session”)而言,“Flow”具備更細(xì)致的標(biāo)識(shí)特征,在傳統(tǒng)的TCP/IP五元組的基礎(chǔ)上增加了一些新的域值,至少包括以下幾個(gè)字段:
|源IP地址|目的IP地址|源端口|目的端口|IP層協(xié)議類型|ToS服務(wù)類型(dscp)|輸入物理端口(ifindex)|
以上七個(gè)字段可以唯1地確定任意一個(gè)數(shù)據(jù)包屬于哪個(gè)特定的Flow。
換而言之,任何一個(gè)字段出現(xiàn)了差異都意味著一個(gè)新Flow的發(fā)生。對(duì)于Flow的分析展示同樣也是要基于多維度的:
IP(目的與源)、port(目的與源)、業(yè)務(wù)、網(wǎng)絡(luò)架構(gòu)、城市、IDC等。
具體所需的維度依賴于自己的業(yè)務(wù)場(chǎng)景。Flow是廠商的私有協(xié)議,業(yè)界也有多種的Flow格式。例如CISCO、華為、juniper等等的主流廠商的Flow也是均有一定差異性與優(yōu)劣的,常用的有NetFlow與SFlow。所以這部分的后臺(tái)能力是需要有異構(gòu)。 系統(tǒng)智慧運(yùn)維監(jiān)控案例
觀縱科技,2022-11-14正式啟動(dòng),成立了webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控等幾大市場(chǎng)布局,應(yīng)對(duì)行業(yè)變化,順應(yīng)市場(chǎng)趨勢(shì)發(fā)展,在創(chuàng)新中尋求突破,進(jìn)而提升webfunny,walkingfunny,argus的市場(chǎng)競(jìng)爭(zhēng)力,把握市場(chǎng)機(jī)遇,推動(dòng)傳媒、廣電產(chǎn)業(yè)的進(jìn)步。旗下webfunny,walkingfunny,argus在傳媒、廣電行業(yè)擁有一定的地位,品牌價(jià)值持續(xù)增長(zhǎng),有望成為行業(yè)中的佼佼者。我們?cè)诎l(fā)展業(yè)務(wù)的同時(shí),進(jìn)一步推動(dòng)了品牌價(jià)值完善。隨著業(yè)務(wù)能力的增長(zhǎng),以及品牌價(jià)值的提升,也逐漸形成傳媒、廣電綜合一體化能力。值得一提的是,觀縱科技致力于為用戶帶去更為定向、專業(yè)的傳媒、廣電一體化解決方案,在有效降低用戶成本的同時(shí),更能憑借科學(xué)的技術(shù)讓用戶極大限度地挖掘webfunny,walkingfunny,argus的應(yīng)用潛能。