網站制作NEWS
螞蟻智能監(jiān)控
AntMonitor 簡介
AntMonitor是螞蟻集團的智能監(jiān)控系統(tǒng),通過構建面向監(jiān)控可觀測數(shù)據的實時、穩(wěn)定的數(shù)據鏈路,為技術風險大腦及體系提供實時、穩(wěn)定、可靠、豐富的可觀測數(shù)據與告警服務。
系統(tǒng)架構
系統(tǒng)架構上,AntMonitor可以分為產品、告警、計算和存儲等四個子系統(tǒng),各個子系統(tǒng)可以獨立提供服務,又相互協(xié)調配合,承擔起了螞蟻技術風險的數(shù)據底盤角色。
產品系統(tǒng)
產品系統(tǒng)直接為用戶提供各項可視化服務,包括monitormeta和monitorprod兩個組件。
計算系統(tǒng)
計算系統(tǒng)提供一體化的數(shù)據采集、清洗、聚合與數(shù)據生命周期管理服務。
告警系統(tǒng)
告警系統(tǒng)基于用戶配置的告警規(guī)則對計算產出的指標數(shù)據進行巡檢,產出告警事件并推送給訂閱者。
存儲系統(tǒng)
存儲系統(tǒng)為AntMonitor提供時序數(shù)據的讀寫服務。
穩(wěn)定性建設
監(jiān)控系統(tǒng)在整個螞蟻的體系架構內是一個特殊的角色,它在承載所有業(yè)務系統(tǒng)的可觀測與告警能力的同時,還為容量、自愈、故障應急等技術風險其他子域提供著數(shù)據服務。
穩(wěn)定性架構
穩(wěn)定性架構是建設穩(wěn)定性中最重要的一環(huán),一個經過縝密設計的穩(wěn)定性架構,可以使我們后期盡可能優(yōu)雅從容地處理各類穩(wěn)定性問題,而不是疲于奔命地打地鼠。
容災架構
前文簡要提及了架構去單點問題的解決思路,這足以覆蓋日??赡馨l(fā)生的節(jié)點宕機、網絡抖動等小規(guī)模故障場景。
城市級容災
對于高保的業(yè)務域租戶,AntMonitor提供城市級的容災能力。
架構單元化
架構單元化,可以理解為AntMonitor內部的集群管理。
運行時保障
設計并實現(xiàn)良好的穩(wěn)定性架構,就像種下了一棵基因優(yōu)良、枝干筆挺的樹苗,但要讓它長得枝繁葉茂,還需要平時地照看、灌溉與修剪,這就是日常的運行時穩(wěn)定性保障。
自監(jiān)控
提起監(jiān)控,總有不少看似悖論的話題被提起,例如監(jiān)控系統(tǒng)如何監(jiān)控自己?
數(shù)字化運營
數(shù)字化運營,顧名思義,就是針對監(jiān)控本身,做好全方位的數(shù)字化衡量工作。
配置管控
「沙盒攔截」
經驗告訴我們,變更往往最容易給系統(tǒng)引入穩(wěn)定性問題。
總結
系統(tǒng)的穩(wěn)定性建設是一項長期投入的工作和不斷精進的過程。
多重隨機標簽