網(wǎng)站制作NEWS
螞蟻智能監(jiān)控
AntMonitor 簡介
AntMonitor是螞蟻集團的智能監(jiān)控系統(tǒng),通過構(gòu)建面向監(jiān)控可觀測數(shù)據(jù)的實時、穩(wěn)定的數(shù)據(jù)鏈路,為技術(shù)風(fēng)險大腦及體系提供實時、穩(wěn)定、可靠、豐富的可觀測數(shù)據(jù)與告警服務(wù)。
系統(tǒng)架構(gòu)
系統(tǒng)架構(gòu)上,AntMonitor可以分為產(chǎn)品、告警、計算和存儲等四個子系統(tǒng),各個子系統(tǒng)可以獨立提供服務(wù),又相互協(xié)調(diào)配合,承擔(dān)起了螞蟻技術(shù)風(fēng)險的數(shù)據(jù)底盤角色。
產(chǎn)品系統(tǒng)
產(chǎn)品系統(tǒng)直接為用戶提供各項可視化服務(wù),包括monitormeta和monitorprod兩個組件。
計算系統(tǒng)
計算系統(tǒng)提供一體化的數(shù)據(jù)采集、清洗、聚合與數(shù)據(jù)生命周期管理服務(wù)。
告警系統(tǒng)
告警系統(tǒng)基于用戶配置的告警規(guī)則對計算產(chǎn)出的指標數(shù)據(jù)進行巡檢,產(chǎn)出告警事件并推送給訂閱者。
存儲系統(tǒng)
存儲系統(tǒng)為AntMonitor提供時序數(shù)據(jù)的讀寫服務(wù)。
穩(wěn)定性建設(shè)
監(jiān)控系統(tǒng)在整個螞蟻的體系架構(gòu)內(nèi)是一個特殊的角色,它在承載所有業(yè)務(wù)系統(tǒng)的可觀測與告警能力的同時,還為容量、自愈、故障應(yīng)急等技術(shù)風(fēng)險其他子域提供著數(shù)據(jù)服務(wù)。
穩(wěn)定性架構(gòu)
穩(wěn)定性架構(gòu)是建設(shè)穩(wěn)定性中最重要的一環(huán),一個經(jīng)過縝密設(shè)計的穩(wěn)定性架構(gòu),可以使我們后期盡可能優(yōu)雅從容地處理各類穩(wěn)定性問題,而不是疲于奔命地打地鼠。
容災(zāi)架構(gòu)
前文簡要提及了架構(gòu)去單點問題的解決思路,這足以覆蓋日??赡馨l(fā)生的節(jié)點宕機、網(wǎng)絡(luò)抖動等小規(guī)模故障場景。
城市級容災(zāi)
對于高保的業(yè)務(wù)域租戶,AntMonitor提供城市級的容災(zāi)能力。
架構(gòu)單元化
架構(gòu)單元化,可以理解為AntMonitor內(nèi)部的集群管理。
運行時保障
設(shè)計并實現(xiàn)良好的穩(wěn)定性架構(gòu),就像種下了一棵基因優(yōu)良、枝干筆挺的樹苗,但要讓它長得枝繁葉茂,還需要平時地照看、灌溉與修剪,這就是日常的運行時穩(wěn)定性保障。
自監(jiān)控
提起監(jiān)控,總有不少看似悖論的話題被提起,例如監(jiān)控系統(tǒng)如何監(jiān)控自己?
數(shù)字化運營
數(shù)字化運營,顧名思義,就是針對監(jiān)控本身,做好全方位的數(shù)字化衡量工作。
配置管控
「沙盒攔截」
經(jīng)驗告訴我們,變更往往最容易給系統(tǒng)引入穩(wěn)定性問題。
總結(jié)
系統(tǒng)的穩(wěn)定性建設(shè)是一項長期投入的工作和不斷精進的過程。
多重隨機標簽