整個餓了么監控系統在演進過程中主要分為如下3個階段:
第一階段:主要由Statsd/Graphite/Grafana負責業務層的監控,ETrace負責全鏈路監控,Zabbix負責服務器層面的監控,ELog負責分布式日志搜索;
第二階段:整個餓了么也從單IDC演進成異地多活架構,所以對監控也提出了更高的要求,基于這個我們也自研LinDB,以支持多活架構下的監控,Zabbix慢慢被ESM/InfluxDB/Grafana所替換,使用ELK替換原來的日志方案;
第三階段:主要做一個減法,即把原來StatsD/Graphite/ETrace/ESM/InfluxDB統一到了EMonitor+LinDB這樣的平臺,以提供給用戶一套統一的監控平臺,日志開始使用阿里云的SLS。 想要做好運維監控,這個命題很大,可想而知不是只要做好一件兩件的事就能實現,必定是成體系、成規范。青海運維監控共同合作
基于Zabbix來構建整個監控體系生態圈。下面我們就來監控系統的整個流程:數據采集:Zabbix通過SNMP、Agent、ICMP、SSH、IPMI等對系統進行數據采集;數據存儲:Zabbix存儲在MySQL上,也可以存儲在其他數據庫服務;使用數據庫是必備技能。數據分析:當我們事后需要復盤分析故障時,Zabbix能給我們提供圖形以及時間等相關信息,方面我們確定故障所在;數據展示:Web界面展示、(移動APP、java_php開發一個Web界面也可以);監控報警:電話報警、郵件報警、微信報警、短信報警、報警升級機制等(無論什么報警都可以);報警處理:當接收到報警,我們需要根據故障的級別進行處理,比如:重要緊急、重要不緊急,等。根據故障的級別,配合相關的人員進行快速處理。本地運維監控那個好Argus運維監控多通道, 多用戶的事件靈活推送機制。
IT運維監控具有性能穩定、用戶界面友好、跨平臺、易實施、易集成等特點,可極大地簡化IT設施和業務系統的監控管理。越來越多的客戶都在考慮或采納業務集中的方案。然而業務系統集中后,不僅增加運行維護的工作強度,而且會使集中的系統變得更加繁雜。有效的系統和應用監控體系成為了解業務資源的使用狀況,及時發現可能導致系統故障的隱患,實現系統運營保障的關鍵。另一方面,借助于集中監控解決方案,用戶能夠正確和及時地了解系統的運行狀態,發現影響整體系統運行的瓶頸,幫助系統人員進行必要的系統優化和配置變更,甚至為系統的升級和擴容提供依據。強有力的監控和診斷工具還可以幫助運行維護人員快速地分析出應用故障原因,把他們從繁雜重復的勞動中解放出來。維護人員快速地分析出應用故障原因,把他們從繁雜重復的勞動中解放出來。因此,很多客戶的 IT 部門提出建立集中 IT 管理系統的需求,監控的內容包括網絡、服務器、數據庫、中間件和應用。通過集中監控系統及時發現系統中的故障,減少故障處理時間。
信創終端運維服務、數據中心運維服務、業務系統運維服務、適配遷移服務、安全運維服務等信創運維服務。通過信創運維服務體系、信創安全管理體系、信創一體化服務保障平臺、信創現場和遠程運維服務管理平臺,規范信創運維服務過程,提升信創運維服務保障能力,為客戶創建可視可控的運維環境,保障信創終端、數據中心和業務應用系統的可靠、高效、持續、安全運行。
多種信創技術路線并存:信創運維技術難度高,缺乏成熟運維技術和經驗參考,信創運維技術培訓不健全。信創適配遷移困難:缺乏應用系統適配改造經驗,應用遷移涉及重構與重編譯,工作量大,遷移工具不成熟。信創生態環境不成熟:信創產品性能、可靠性、品質、成熟度參差不齊,生態環境不成熟,產業鏈生態整合能力弱。信創運維管理復雜:信創環境和非信創環境并存,運維管理復雜。與國外成熟產品差距大,運維難度高,要求較高的運維技術能力。 Argus運維監控系統支持納管 VMware、OpenStack等虛擬化平臺,以及Nutanix、H3C CAS等超融合平臺。
對于網絡設備的監控,也一般從設備性能、質量、狀態等維度入手。對于每臺網絡設備來說運維同學一般會關注如下等高頻場景:
網絡設備的運行狀態syslog(設備運行日志)的監控與告警;設備堆疊狀態下的(例如交換機堆疊)的監控與告警;網絡設備上每個物理端口的、流量、包量、錯包與端口狀態的監控與告警;網絡設備上邏輯端口(物理端口組合)的性能與狀態。
對于網絡設備的syslog告警來說,同樣也會面臨諸如:不同的廠商、設備類型與設備型號日志標準不統一等問題。
所以對于網絡設備syslog監控告警來說,首先是將眾多的網絡設備進行邏輯分組,以便于在一個分組內的設備均可以響應同一個告警關鍵字,并且這個分組粒度建議較細,這樣才能保障告警關鍵字的有效性與獨一性。在這里根據多年的運維經驗,建議syslog告警的分組模型由四個維度組成:廠商+類型+型號+用途例如:CISCO+交換機+EX43000-24T+內網接入層交換機,通過這個公式就描述出一個設備的邏輯分組。 Argus運維監控系統配備統一的事件分析概覽,各類事件統計結果一覽無余。本地運維監控那個好
運維小白如何做好運維監控?青海運維監控共同合作
大集群場景特點數據規模大:監控對象targets多,數千萬時序數據time-series,單Prometheus負載非常高。
當series數據超過300萬時,Prometheus內存增長較為明顯,需要使用較大內存的機器來運行。壓測過程中,我們使用了工具去生成預期數目的series,工具生成的series每個label的長度及值的長度都較小,固定為10個字符左右。我們的目的是觀察相對負載變化,實際生產中由于label長度不同,服務發現機制(比如Pod頻繁重啟)的消耗不同,相同的series數目所消耗的負載會比壓測中高不少。目前Argus有好幾個集群的采集端Prometheus消耗內存在30G以上,這會導致查詢效率下降,嚴重的會導致OOM,有的大集群內存消耗達幾百G。 青海運維監控共同合作
上海觀縱科技有限公司是我國webfunny前端監控,webfunny前端埋點,全鏈路應用性能監控,Argus-IT運維監控專業化較早的有限責任公司之一,公司位于上海市奉賢區望園南路1288弄80號1904、1909室,成立于2022-11-14,迄今已經成長為傳媒、廣電行業內同類型企業的佼佼者。觀縱科技以webfunny前端監控,webfunny前端埋點,全鏈路應用性能監控,Argus-IT運維監控為主業,服務于傳媒、廣電等領域,為全國客戶提供先進webfunny前端監控,webfunny前端埋點,全鏈路應用性能監控,Argus-IT運維監控。產品已銷往多個國家和地區,被國內外眾多企業和客戶所認可。