01. 數(shù)字化轉(zhuǎn)型與可觀測(cè)的關(guān)系
在數(shù)字化轉(zhuǎn)型的浪潮中,我們面臨著將“線下業(yè)務(wù)線上化”及實(shí)現(xiàn)“業(yè)務(wù)快速創(chuàng)新迭代”的迫切需求,這也進(jìn)而要求支撐業(yè)務(wù)的應(yīng)用系統(tǒng)更加敏捷、可擴(kuò)展性更高。
因而,分布式、云原生是企業(yè)應(yīng)用架構(gòu)的發(fā)展方向。
分布式架構(gòu)下,各種IT對(duì)象如消息隊(duì)列、緩存、分布式數(shù)據(jù)庫(kù)等層出不窮,并且組件間的調(diào)用關(guān)系錯(cuò)綜復(fù)雜。
此時(shí),傳統(tǒng)IT監(jiān)控只能提供資源層面的狀態(tài)警告,無(wú)法提供分布式應(yīng)用故障診斷所需的更多有效信息,因此,一個(gè)面向應(yīng)用面向故障的全棧可觀測(cè)方案越來(lái)越成為企業(yè)IT運(yùn)維的迫切需求。
02. 30年過(guò)去,終迎來(lái)第二代監(jiān)控——可觀測(cè)
IT監(jiān)控作為IT運(yùn)維之眼,是IT運(yùn)維第一個(gè)建設(shè)的工具,追溯IT監(jiān)控工具歷史,已有30年之久。傳統(tǒng)IT監(jiān)控的發(fā)展,主要是在監(jiān)控對(duì)象以及在監(jiān)控能力(如指標(biāo)、Log、Trace)的不斷擴(kuò)展,發(fā)展至今,已形成眾多從IaaS到SaaS層的監(jiān)控工具。據(jù)Gartner市場(chǎng)調(diào)研數(shù)據(jù)顯示,超過(guò)70%的中大型企業(yè)擁有10個(gè)以上的IT監(jiān)控工具,以滿足各種IT監(jiān)控需求。
監(jiān)控工具越來(lái)越多,但每個(gè)監(jiān)控工具卻只能揭示業(yè)務(wù)和應(yīng)用的部分問(wèn)題,且工具能力重合、工具數(shù)據(jù)互為煙囪,這導(dǎo)致用戶難以聯(lián)動(dòng)整合所有監(jiān)控,面向整個(gè)業(yè)務(wù)和應(yīng)用進(jìn)行全面的故障診斷。
傳統(tǒng)工具發(fā)展的這些瓶頸和問(wèn)題在可觀測(cè)體系中得到了完美解決。
傳統(tǒng)監(jiān)控與可觀測(cè)的主要區(qū)別如下:
簡(jiǎn)單來(lái)講,監(jiān)控主要聚焦在感知,可觀測(cè)還聚焦于問(wèn)題出現(xiàn)之后診斷分析和隱患發(fā)現(xiàn)。
03. 基于四大支柱數(shù)據(jù)設(shè)計(jì)可觀測(cè)體系
要做到面向應(yīng)用、面向故障的可觀測(cè),我們需要為整個(gè)應(yīng)用系統(tǒng)的生產(chǎn)運(yùn)行拓?fù)溥M(jìn)行建模,并將應(yīng)用所有相關(guān)組件的各種觀測(cè)數(shù)據(jù)進(jìn)行有機(jī)聚合,因此,可觀測(cè)體系設(shè)計(jì)的核心理念在于對(duì)Metirc、Log、Trace、Topology這四大支柱數(shù)據(jù)進(jìn)行統(tǒng)一采集、統(tǒng)一治理和有機(jī)聚合。
這幾個(gè)數(shù)據(jù)之間的關(guān)系如下:
基于上述理念,可抽象可觀測(cè)的數(shù)據(jù)模型如下:
基于此設(shè)計(jì),我們可以自動(dòng)構(gòu)建應(yīng)用橫縱向全景拓?fù)洌兄獞?yīng)用故障點(diǎn)。
根據(jù)故障點(diǎn)實(shí)現(xiàn)上游故障影響分析和下游故障根因溯源。
04. 可觀測(cè)成熟度模型
可觀測(cè)既包含了傳統(tǒng)監(jiān)控的技術(shù),又包含了基于數(shù)據(jù)和AI的統(tǒng)一數(shù)據(jù)治理與智能根因分析以實(shí)現(xiàn)端到端的監(jiān)控與分析的能力。可觀測(cè)體系的建設(shè)不是一蹴而就的,也不是將傳統(tǒng)監(jiān)控體系推倒重來(lái),而是一個(gè)基于科學(xué)建設(shè)路徑和方法逐步演進(jìn)的過(guò)程。
可觀測(cè)成熟度模型如下:
L1【基礎(chǔ)可觀測(cè)】
L2【應(yīng)用可觀測(cè)】
L3【因果可觀測(cè)】
L4【主動(dòng)可觀測(cè)】
L5【業(yè)務(wù)可觀測(cè)】
05. 可觀測(cè)平臺(tái)功能設(shè)計(jì)
可參考下圖進(jìn)行可觀測(cè)平臺(tái)的功能設(shè)計(jì):
06. 可觀測(cè)平臺(tái)建設(shè)過(guò)程
建設(shè)重點(diǎn)1——觀測(cè)元數(shù)據(jù)建模治理【Topology】
建設(shè)重點(diǎn)2——指標(biāo)體系建模治理【Metric】
建設(shè)重點(diǎn)3——統(tǒng)一日志管理【Log】
可觀測(cè)平臺(tái)需要提供統(tǒng)一的、豐富的日志采集、清洗、檢索與展示能力以覆蓋各類(lèi)設(shè)備日志管理需求。
建設(shè)重點(diǎn)4——APM實(shí)現(xiàn)故障追蹤【Trace】
APM是分布式系統(tǒng)的關(guān)鍵監(jiān)控能力,通過(guò)APM可以對(duì)應(yīng)用的四個(gè)黃金指標(biāo)進(jìn)行監(jiān)控,可以對(duì)服務(wù)件、服務(wù)與組件間的調(diào)用狀態(tài)進(jìn)行監(jiān)控,還可以實(shí)現(xiàn)對(duì)服務(wù)接口級(jí)、方法級(jí)的故障發(fā)現(xiàn)與診斷分析。
建設(shè)重點(diǎn)5——實(shí)現(xiàn)告警的全生命周期治理【Alert】
基于統(tǒng)一告警中心的建設(shè),實(shí)現(xiàn)一條告警的全生命周期流轉(zhuǎn)閉環(huán)管控。
建設(shè)重點(diǎn)6——基于AI與LLM的智能可觀測(cè)【AI】
通過(guò)集成AI能力實(shí)現(xiàn)動(dòng)態(tài)閾值、告警聚合收斂、時(shí)序預(yù)測(cè)、日志聚類(lèi)分析、多維下鉆與根因定位等智能可觀測(cè)能力。
基于LLM可以構(gòu)建可觀測(cè)智能小助手,如展示告警詳情:
挖掘告警相關(guān)故障信息:
獲取故障推薦和交互式故障自動(dòng)化處理:
建設(shè)重點(diǎn)7——基于應(yīng)用可觀測(cè)向上構(gòu)建業(yè)務(wù)可觀測(cè)【Business】
在數(shù)字化時(shí)代,業(yè)務(wù)的穩(wěn)定生產(chǎn)運(yùn)行都會(huì)反饋到應(yīng)用系統(tǒng)的各項(xiàng)運(yùn)行指標(biāo)上,運(yùn)維的最核心目標(biāo)也是保障業(yè)務(wù)的穩(wěn)定生產(chǎn)運(yùn)行。
當(dāng)我們實(shí)現(xiàn)了應(yīng)用可觀測(cè)后,基于應(yīng)用可觀測(cè)能力去構(gòu)建面向上層各類(lèi)業(yè)務(wù)活動(dòng)、業(yè)務(wù)場(chǎng)景的可觀測(cè),就會(huì)水到渠成且事半功倍。
業(yè)務(wù)觀測(cè)領(lǐng)域中,最重要的是對(duì)各類(lèi)業(yè)務(wù)交易場(chǎng)景以及各個(gè)應(yīng)用系統(tǒng)的業(yè)務(wù)黃金指標(biāo)進(jìn)行監(jiān)控,例如銀行,有各種支付、轉(zhuǎn)賬、查額、還款等場(chǎng)景,這些交易的交易鏈路如何自動(dòng)構(gòu)建,如何監(jiān)測(cè)每一筆交易的效率和質(zhì)量,如何在交易異常的情況下迅速找到問(wèn)題點(diǎn)并進(jìn)行解決,是業(yè)務(wù)可觀測(cè)的重點(diǎn)建設(shè)內(nèi)容。
業(yè)界基于業(yè)務(wù)監(jiān)控的有三大技術(shù):APM的交易鏈路自動(dòng)構(gòu)建與黃金指標(biāo)監(jiān)測(cè)、應(yīng)用標(biāo)準(zhǔn)化日志的交易鏈路自動(dòng)構(gòu)建與黃金指標(biāo)監(jiān)測(cè)、網(wǎng)絡(luò)流量鏡像分析的交易鏈路自動(dòng)構(gòu)建與黃金指標(biāo)監(jiān)測(cè)。
三者各有優(yōu)劣點(diǎn),如基于APM的技術(shù)面臨著全量采集給應(yīng)用帶來(lái)的性能壓力、基于日志則需要應(yīng)用進(jìn)行標(biāo)準(zhǔn)化日志輸出的改造、基于網(wǎng)絡(luò)流量則面臨著網(wǎng)絡(luò)丟包、數(shù)據(jù)量巨大和云原生SDN架構(gòu)下的流量采集技術(shù)壁壘等問(wèn)題。企業(yè)需要根據(jù)自己的實(shí)際情況選擇合適的技術(shù)。
最后,業(yè)務(wù)可觀測(cè)的技術(shù)還需要能夠聯(lián)動(dòng)應(yīng)用可觀測(cè),從而實(shí)現(xiàn)從業(yè)務(wù)指標(biāo)到具體問(wèn)題資源對(duì)象聯(lián)動(dòng)起來(lái)的根因定位。
07. 可觀測(cè)平臺(tái)三年建設(shè)計(jì)劃建議
前面提到,可觀測(cè)不是將現(xiàn)有監(jiān)控推倒重來(lái),而是基于現(xiàn)狀進(jìn)行規(guī)劃建設(shè)。對(duì)于大部分傳統(tǒng)企業(yè)而言,可參考以下三年建設(shè)計(jì)劃:
第一年:感知&治理
第二年:定位&業(yè)務(wù)
第三年:智能&擴(kuò)展
ITSM運(yùn)營(yíng):服務(wù)請(qǐng)求管理持續(xù)改進(jìn)
查看詳細(xì)
AI驅(qū)動(dòng)IT運(yùn)維轉(zhuǎn)型:從審批流到AI工作流
查看詳細(xì)
國(guó)產(chǎn)化替代實(shí)踐:嘉為藍(lán)鯨全棧智能觀測(cè)中心對(duì)比IBM Tivoli
查看詳細(xì)
嘉為藍(lán)鯨平臺(tái):三位一體,打造云原生數(shù)字化基座
查看詳細(xì)
嘉為藍(lán)鯨DevOps研發(fā)效能管理平臺(tái):AI賦能研運(yùn),效能再進(jìn)化
查看詳細(xì)
ITSM運(yùn)營(yíng):事件管理持續(xù)改進(jìn)
查看詳細(xì)
申請(qǐng)演示