日韩精品在线观看网站_女同久久另类99精品蜜臀|HD中文字幕在线播放,欧美日韩毛片,人善交video另类牛3d,色综合久久综合网

一文詳解傳統(tǒng)企業(yè)可觀測(cè)建設(shè)之路

發(fā)布日期:2024-07-18 15:17:35

分享到

01. 數(shù)字化轉(zhuǎn)型與可觀測(cè)的關(guān)系

在數(shù)字化轉(zhuǎn)型的浪潮中,我們面臨著將“線下業(yè)務(wù)線上化”及實(shí)現(xiàn)“業(yè)務(wù)快速創(chuàng)新迭代”的迫切需求,這也進(jìn)而要求支撐業(yè)務(wù)的應(yīng)用系統(tǒng)更加敏捷、可擴(kuò)展性更高。

因而,分布式、云原生是企業(yè)應(yīng)用架構(gòu)的發(fā)展方向。

分布式架構(gòu)下,各種IT對(duì)象如消息隊(duì)列、緩存、分布式數(shù)據(jù)庫(kù)等層出不窮,并且組件間的調(diào)用關(guān)系錯(cuò)綜復(fù)雜。

此時(shí),傳統(tǒng)IT監(jiān)控只能提供資源層面的狀態(tài)警告,無(wú)法提供分布式應(yīng)用故障診斷所需的更多有效信息,因此,一個(gè)面向應(yīng)用面向故障的全棧可觀測(cè)方案越來(lái)越成為企業(yè)IT運(yùn)維的迫切需求。


02. 30年過(guò)去,終迎來(lái)第二代監(jiān)控——可觀測(cè)

IT監(jiān)控作為IT運(yùn)維之眼,是IT運(yùn)維第一個(gè)建設(shè)的工具,追溯IT監(jiān)控工具歷史,已有30年之久。傳統(tǒng)IT監(jiān)控的發(fā)展,主要是在監(jiān)控對(duì)象以及在監(jiān)控能力(如指標(biāo)、Log、Trace)的不斷擴(kuò)展,發(fā)展至今,已形成眾多從IaaS到SaaS層的監(jiān)控工具。據(jù)Gartner市場(chǎng)調(diào)研數(shù)據(jù)顯示,超過(guò)70%的中大型企業(yè)擁有10個(gè)以上的IT監(jiān)控工具,以滿足各種IT監(jiān)控需求。

監(jiān)控工具越來(lái)越多,但每個(gè)監(jiān)控工具卻只能揭示業(yè)務(wù)和應(yīng)用的部分問(wèn)題,且工具能力重合、工具數(shù)據(jù)互為煙囪,這導(dǎo)致用戶難以聯(lián)動(dòng)整合所有監(jiān)控,面向整個(gè)業(yè)務(wù)和應(yīng)用進(jìn)行全面的故障診斷。

傳統(tǒng)工具發(fā)展的這些瓶頸和問(wèn)題在可觀測(cè)體系中得到了完美解決。

傳統(tǒng)監(jiān)控與可觀測(cè)的主要區(qū)別如下:

簡(jiǎn)單來(lái)講,監(jiān)控主要聚焦在感知,可觀測(cè)還聚焦于問(wèn)題出現(xiàn)之后診斷分析和隱患發(fā)現(xiàn)。


03. 基于四大支柱數(shù)據(jù)設(shè)計(jì)可觀測(cè)體系

要做到面向應(yīng)用、面向故障的可觀測(cè),我們需要為整個(gè)應(yīng)用系統(tǒng)的生產(chǎn)運(yùn)行拓?fù)溥M(jìn)行建模,并將應(yīng)用所有相關(guān)組件的各種觀測(cè)數(shù)據(jù)進(jìn)行有機(jī)聚合,因此,可觀測(cè)體系設(shè)計(jì)的核心理念在于對(duì)Metirc、Log、Trace、Topology這四大支柱數(shù)據(jù)進(jìn)行統(tǒng)一采集、統(tǒng)一治理和有機(jī)聚合。

這幾個(gè)數(shù)據(jù)之間的關(guān)系如下:

  • Topology描述了一個(gè)應(yīng)用包含多少個(gè)微服務(wù)、一個(gè)微服務(wù)包含多少個(gè)實(shí)例,實(shí)例運(yùn)行在哪些Pod上,Pod又運(yùn)行在哪些虛擬機(jī)上, 虛擬機(jī)連接了哪些存儲(chǔ),服務(wù)或?qū)嵗g存在什么樣的調(diào)用關(guān)系等資源配置和關(guān)聯(lián)關(guān)系數(shù)據(jù)。
  • Topology提供了觀測(cè)的元數(shù)據(jù)(資源及拓?fù)洌鳛镸etric、Log、Trace的資源主體。但在某些場(chǎng)景下,Trace中發(fā)現(xiàn)的應(yīng)用調(diào)用關(guān)系、Log中采集和發(fā)現(xiàn)的一些業(yè)務(wù)交易拓?fù)潢P(guān)系,也可以成為T(mén)opology中的數(shù)據(jù)來(lái)源。
  • 當(dāng)一個(gè)IT對(duì)象的指標(biāo)(Metric)存在告警時(shí),我們需要基于Trace向上分析故障影響,向下追溯根因,也需要獲取該對(duì)象的Log信息進(jìn)行進(jìn)一步的故障診斷。
  • 當(dāng)一個(gè)微服務(wù)的調(diào)用(Trace)延遲或失敗時(shí),我們可以基于Metric和Log進(jìn)一步分析相關(guān)對(duì)象的關(guān)鍵健康指標(biāo)和日志上下文信息。

基于上述理念,可抽象可觀測(cè)的數(shù)據(jù)模型如下:

  • 面向應(yīng)用系統(tǒng)部署情況構(gòu)建從上到下(應(yīng)用、微服務(wù)、實(shí)例、系統(tǒng)與虛擬化、硬件)的縱向分層對(duì)象模型關(guān)系;
  • 基于APM調(diào)用關(guān)系構(gòu)建橫向的服務(wù)間調(diào)用實(shí)例調(diào)用關(guān)系;
  • 每一個(gè)實(shí)例的狀態(tài)信息,可通過(guò)各種采集手段獲取相關(guān)的Metrix、Log、Trace監(jiān)測(cè)數(shù)據(jù)。
  • 當(dāng)系統(tǒng)出現(xiàn)故障時(shí),通過(guò)橫縱向的關(guān)系和Metric/Log/Trace的告警聚合信息,實(shí)現(xiàn)自動(dòng)化告警收斂和故障診斷,從而給出相關(guān)的根因推薦。

基于此設(shè)計(jì),我們可以自動(dòng)構(gòu)建應(yīng)用橫縱向全景拓?fù)洌兄獞?yīng)用故障點(diǎn)。

根據(jù)故障點(diǎn)實(shí)現(xiàn)上游故障影響分析和下游故障根因溯源。


04. 可觀測(cè)成熟度模型

可觀測(cè)既包含了傳統(tǒng)監(jiān)控的技術(shù),又包含了基于數(shù)據(jù)和AI的統(tǒng)一數(shù)據(jù)治理與智能根因分析以實(shí)現(xiàn)端到端的監(jiān)控與分析的能力。可觀測(cè)體系的建設(shè)不是一蹴而就的,也不是將傳統(tǒng)監(jiān)控體系推倒重來(lái),而是一個(gè)基于科學(xué)建設(shè)路徑和方法逐步演進(jìn)的過(guò)程。

可觀測(cè)成熟度模型如下:

L1【基礎(chǔ)可觀測(cè)】

  • 補(bǔ)全基礎(chǔ)監(jiān)控,以滿足分布式時(shí)代各類(lèi)云、容器、分布式組件等的監(jiān)控要求;
  • 對(duì)各個(gè)監(jiān)控工具中的告警事件進(jìn)行統(tǒng)一告警匯聚、告警豐富、告警收斂、告警分派、告警分析、告警處置、告警復(fù)盤(pán)的全生命周期管理。

L2【應(yīng)用可觀測(cè)】

  • 基于數(shù)據(jù)平臺(tái)思路建設(shè)集中監(jiān)控,接入企業(yè)當(dāng)前已有各類(lèi)監(jiān)控工具,實(shí)現(xiàn)統(tǒng)一對(duì)象管理、指標(biāo)管理、策略及視圖管理等;
  • 補(bǔ)全APM能力實(shí)現(xiàn)應(yīng)用性能監(jiān)控。

L3【因果可觀測(cè)】

  • 將四大支柱數(shù)據(jù)融合打通,通過(guò)各種自動(dòng)構(gòu)建的排障拓?fù)涮峁┕收陷o助定位能力。

L4【主動(dòng)可觀測(cè)】

  • 在L3之上,基于上下文分析能力和AI能力,實(shí)現(xiàn)故障的主動(dòng)式定位和根因推薦;
  • 基于知識(shí)庫(kù)和大模型能力,實(shí)現(xiàn)故障處置預(yù)案推薦,并提供監(jiān)控、告警、日志小助手與運(yùn)維人員進(jìn)行實(shí)現(xiàn)緊密協(xié)同。

L5【業(yè)務(wù)可觀測(cè)】

  • 基于行業(yè)特征,實(shí)現(xiàn)對(duì)關(guān)鍵業(yè)務(wù)交易活動(dòng)和交易鏈路的監(jiān)控,將業(yè)務(wù)監(jiān)控與應(yīng)用可觀測(cè)無(wú)縫集成以進(jìn)一步保障業(yè)務(wù)穩(wěn)定運(yùn)行;
  • 聯(lián)動(dòng)ITSM、自動(dòng)化等實(shí)現(xiàn)端到端的故障預(yù)防、發(fā)現(xiàn)、定位、處置與復(fù)盤(pán)改進(jìn)的“1-5-10”業(yè)務(wù)連續(xù)性管理能力;
  • 基于算力調(diào)度能力實(shí)現(xiàn)業(yè)務(wù)智能擴(kuò)縮容和成本優(yōu)化。


05. 可觀測(cè)平臺(tái)功能設(shè)計(jì)

可參考下圖進(jìn)行可觀測(cè)平臺(tái)的功能設(shè)計(jì):

  • 以數(shù)據(jù)中臺(tái)思路建設(shè)底座,以滿足各類(lèi)數(shù)據(jù)的采集清洗和各類(lèi)外部監(jiān)控工具數(shù)據(jù)的接入;
  • 建設(shè)統(tǒng)一觀測(cè)能力中心,包含面向Metric、Log、Trace的各項(xiàng)觀測(cè)基本能力;
  • 構(gòu)建統(tǒng)一觀測(cè)場(chǎng)景,包含基礎(chǔ)集中監(jiān)控、日志和APM、統(tǒng)一告警場(chǎng)景,也包含觀測(cè)融合相關(guān)全鏈路監(jiān)控、故障輔助定位等場(chǎng)景。


06. 可觀測(cè)平臺(tái)建設(shè)過(guò)程

建設(shè)重點(diǎn)1——觀測(cè)元數(shù)據(jù)建模治理【Topology】

  • 面向應(yīng)用建立觀測(cè)元數(shù)據(jù)模型,包括描述應(yīng)用的生產(chǎn)和災(zāi)備環(huán)境,描述應(yīng)用的可用區(qū)或分布式地域集群,描述組成應(yīng)用的子系統(tǒng)或模塊(微服務(wù))。
  • 模塊(微服務(wù))包含一組實(shí)例,實(shí)例則是運(yùn)行于虛擬機(jī)或容器上。微服務(wù)之間存在調(diào)用關(guān)系,微服務(wù)也與消息隊(duì)列、數(shù)據(jù)庫(kù)等基礎(chǔ)組件存在訪問(wèn)關(guān)聯(lián)關(guān)系。
  • 觀測(cè)元數(shù)據(jù)建議使用企業(yè)統(tǒng)一的CMDB進(jìn)行存儲(chǔ)。一方面可以充分利用CMDB中自動(dòng)采集&手動(dòng)維護(hù)的各類(lèi)IT資源對(duì)象數(shù)據(jù),另一方面基于統(tǒng)一對(duì)象配置數(shù)據(jù)與ITSM、自動(dòng)化等運(yùn)維工具聯(lián)動(dòng)實(shí)現(xiàn)故障定位(如從ITSM獲取該對(duì)象近期的變更審批信息,從自動(dòng)化平臺(tái)獲取該對(duì)象近期的操作記錄以作為輔助故障定位)和處置自動(dòng)化。


設(shè)重點(diǎn)2——指標(biāo)體系建模治理【Metric】

  • IT資源對(duì)象種類(lèi)多,IT存量監(jiān)控工具數(shù)量大,因此面向硬件、系統(tǒng)、云、OS、虛擬化、中間件、數(shù)據(jù)庫(kù)等基礎(chǔ)資源的集中監(jiān)控能力是可觀測(cè)體系建設(shè)的基礎(chǔ)。
  • 集中監(jiān)控的關(guān)鍵前提是統(tǒng)一指標(biāo)治理,包括對(duì)每種資源對(duì)象的指標(biāo)定義、指標(biāo)梳理和指標(biāo)消費(fèi)等。
  • 集中監(jiān)控的建設(shè)過(guò)程是擴(kuò)展種類(lèi)采集插件覆蓋各種IT對(duì)象,或提供便利的數(shù)據(jù)接入能力接入其他監(jiān)控工具的數(shù)據(jù)。


設(shè)重點(diǎn)3——統(tǒng)一日志管理【Log】

可觀測(cè)平臺(tái)需要提供統(tǒng)一的、豐富的日志采集、清洗、檢索與展示能力以覆蓋各類(lèi)設(shè)備日志管理需求。


建設(shè)重點(diǎn)4——APM實(shí)現(xiàn)故障追蹤【Trace】

APM是分布式系統(tǒng)的關(guān)鍵監(jiān)控能力,通過(guò)APM可以對(duì)應(yīng)用的四個(gè)黃金指標(biāo)進(jìn)行監(jiān)控,可以對(duì)服務(wù)件、服務(wù)與組件間的調(diào)用狀態(tài)進(jìn)行監(jiān)控,還可以實(shí)現(xiàn)對(duì)服務(wù)接口級(jí)、方法級(jí)的故障發(fā)現(xiàn)與診斷分析。


建設(shè)重點(diǎn)5——實(shí)現(xiàn)告警的全生命周期治理【Alert】

  • 告警接入:通過(guò)可擴(kuò)展的告警源插件完成各類(lèi)告警事件的接入;
  • 告警豐富:聯(lián)動(dòng)CMDB完成告警豐富,包括運(yùn)維人員、告警對(duì)象配置信息等;
  • 告警抑制:基于多種靈活的告警收斂方法實(shí)現(xiàn)告警收斂,避免告警風(fēng)暴;
  • 告警分派:將告警事件自動(dòng)分派或手動(dòng)分派給相應(yīng)的運(yùn)維人員進(jìn)行處置;
  • 告警分析:基于告警對(duì)象的Log、Trace、Metric,基于告警對(duì)象的上下游關(guān)聯(lián)對(duì)象的狀態(tài)信息,基于告警對(duì)象的近期變更或運(yùn)維信息進(jìn)行展示分析;
  • 告警處置:聯(lián)動(dòng)自動(dòng)化平臺(tái)進(jìn)行告警的處置。

基于統(tǒng)一告警中心的建設(shè),實(shí)現(xiàn)一條告警的全生命周期流轉(zhuǎn)閉環(huán)管控。


建設(shè)重點(diǎn)6——基于AI與LLM的智能可觀測(cè)【AI】

通過(guò)集成AI能力實(shí)現(xiàn)動(dòng)態(tài)閾值、告警聚合收斂、時(shí)序預(yù)測(cè)、日志聚類(lèi)分析、多維下鉆與根因定位等智能可觀測(cè)能力。

基于LLM可以構(gòu)建可觀測(cè)智能小助手,如展示告警詳情:

挖掘告警相關(guān)故障信息:

獲取故障推薦和交互式故障自動(dòng)化處理:


建設(shè)重點(diǎn)7——基于應(yīng)用可觀測(cè)向上構(gòu)建業(yè)務(wù)可觀測(cè)【Business】

在數(shù)字化時(shí)代,業(yè)務(wù)的穩(wěn)定生產(chǎn)運(yùn)行都會(huì)反饋到應(yīng)用系統(tǒng)的各項(xiàng)運(yùn)行指標(biāo)上,運(yùn)維的最核心目標(biāo)也是保障業(yè)務(wù)的穩(wěn)定生產(chǎn)運(yùn)行。

當(dāng)我們實(shí)現(xiàn)了應(yīng)用可觀測(cè)后,基于應(yīng)用可觀測(cè)能力去構(gòu)建面向上層各類(lèi)業(yè)務(wù)活動(dòng)、業(yè)務(wù)場(chǎng)景的可觀測(cè),就會(huì)水到渠成且事半功倍。

業(yè)務(wù)觀測(cè)領(lǐng)域中,最重要的是對(duì)各類(lèi)業(yè)務(wù)交易場(chǎng)景以及各個(gè)應(yīng)用系統(tǒng)的業(yè)務(wù)黃金指標(biāo)進(jìn)行監(jiān)控,例如銀行,有各種支付、轉(zhuǎn)賬、查額、還款等場(chǎng)景,這些交易的交易鏈路如何自動(dòng)構(gòu)建,如何監(jiān)測(cè)每一筆交易的效率和質(zhì)量,如何在交易異常的情況下迅速找到問(wèn)題點(diǎn)并進(jìn)行解決,是業(yè)務(wù)可觀測(cè)的重點(diǎn)建設(shè)內(nèi)容。

業(yè)界基于業(yè)務(wù)監(jiān)控的有三大技術(shù):APM的交易鏈路自動(dòng)構(gòu)建與黃金指標(biāo)監(jiān)測(cè)、應(yīng)用標(biāo)準(zhǔn)化日志的交易鏈路自動(dòng)構(gòu)建與黃金指標(biāo)監(jiān)測(cè)、網(wǎng)絡(luò)流量鏡像分析的交易鏈路自動(dòng)構(gòu)建與黃金指標(biāo)監(jiān)測(cè)。

三者各有優(yōu)劣點(diǎn),如基于APM的技術(shù)面臨著全量采集給應(yīng)用帶來(lái)的性能壓力、基于日志則需要應(yīng)用進(jìn)行標(biāo)準(zhǔn)化日志輸出的改造、基于網(wǎng)絡(luò)流量則面臨著網(wǎng)絡(luò)丟包、數(shù)據(jù)量巨大和云原生SDN架構(gòu)下的流量采集技術(shù)壁壘等問(wèn)題。企業(yè)需要根據(jù)自己的實(shí)際情況選擇合適的技術(shù)。

最后,業(yè)務(wù)可觀測(cè)的技術(shù)還需要能夠聯(lián)動(dòng)應(yīng)用可觀測(cè),從而實(shí)現(xiàn)從業(yè)務(wù)指標(biāo)到具體問(wèn)題資源對(duì)象聯(lián)動(dòng)起來(lái)的根因定位。


07. 可觀測(cè)平臺(tái)三年建設(shè)計(jì)劃建議

前面提到,可觀測(cè)不是將現(xiàn)有監(jiān)控推倒重來(lái),而是基于現(xiàn)狀進(jìn)行規(guī)劃建設(shè)。對(duì)于大部分傳統(tǒng)企業(yè)而言,可參考以下三年建設(shè)計(jì)劃:

第一年:感知&治理

  • 構(gòu)建硬件、云、容器、系統(tǒng)、組件監(jiān)控等統(tǒng)一基礎(chǔ)監(jiān)控感知能力;
  • 構(gòu)建統(tǒng)一日志監(jiān)控感知能力;
  • 構(gòu)建統(tǒng)一應(yīng)用調(diào)用鏈監(jiān)控感知能力;
  • 構(gòu)建告警的統(tǒng)一閉環(huán)治理能力。

第二年:定位&業(yè)務(wù)

  • 面向應(yīng)用構(gòu)建故障的快速定位能力
    融合APM(Trace)、基礎(chǔ)監(jiān)控(Metric)、日志(Log)、CMDB拓?fù)洌═opology)進(jìn)行輔助故障定位;
    構(gòu)建各類(lèi)可視化應(yīng)用拓?fù)涮峁┕收仙嫌斡绊懛治瞿芰Γ峁┕收舷掠嗡菰捶治瞿芰Α?/span>
  • 面向業(yè)務(wù)提供監(jiān)控與故障定位能力
    實(shí)現(xiàn)業(yè)務(wù)指標(biāo)監(jiān)控與業(yè)務(wù)交易鏈路觀測(cè);
    結(jié)合應(yīng)用可觀測(cè)能力實(shí)現(xiàn)業(yè)務(wù)問(wèn)題的故障定位。

第三年:智能&擴(kuò)展

  • 結(jié)合AI和大模型進(jìn)一步升華可觀測(cè)能力
    基于AI實(shí)現(xiàn)根因定位、動(dòng)態(tài)閾值、告警聚類(lèi)、離群檢測(cè)、容量預(yù)測(cè)、智能擴(kuò)縮容、算力調(diào)度能力;
    基于大模型與知識(shí)庫(kù)的處置預(yù)案推薦,基于自動(dòng)化的故障自愈。
  • 融合網(wǎng)絡(luò)監(jiān)控工具和用戶監(jiān)控工具實(shí)現(xiàn)全棧監(jiān)控
    融合NPM、eBPF技術(shù)將網(wǎng)絡(luò)流量級(jí)診斷能力豐富到故障定位能力中;
    融合RUM(真實(shí)用戶監(jiān)控)實(shí)現(xiàn)端到端的全棧可觀測(cè)能力。

免費(fèi)申請(qǐng)演示

聯(lián)系我們

服務(wù)熱線:

020-38847288

QQ咨詢:

3593213400

在線溝通:

立即咨詢
查看更多聯(lián)系方式

申請(qǐng)演示

請(qǐng)登錄后在查看!