本文我們聚焦可觀測的另一個重要支柱——日志管理,從日志的數(shù)據(jù)特點角度出發(fā),分析日志數(shù)據(jù)在可觀測體系中的意義,深度剖析日志與可觀測體系融合建設(shè)的難點與思路,并分享企業(yè)日志系統(tǒng)設(shè)計選型思路以及落地實踐參考。
01. 從數(shù)據(jù)特點看日志與可觀測
1)指標數(shù)據(jù)和日志數(shù)據(jù)的區(qū)別
首先我們來看一個企業(yè)中比較普遍的現(xiàn)象,當系統(tǒng)發(fā)生故障時,運維人員通常關(guān)注指標類數(shù)據(jù),而研發(fā)人員更“鐘情“于日志數(shù)據(jù),為什么會有這種區(qū)別呢?
從兩個方面來分析,第一個方面就是運維與研發(fā)自身職責的不同,運維更希望能夠快速的解決問題,而研發(fā)更注重于準確找到問題的根源。第二個方面就是指標數(shù)據(jù)與日志數(shù)據(jù)的本身特點具備著差異性。
運維人員能夠通過指標數(shù)據(jù),快速地了解當前系統(tǒng)的狀態(tài),通過指標聚合,從業(yè)務(wù)一步步追隨到集群、再到具體的節(jié)點。而日志數(shù)據(jù)能夠詳細記錄到代碼執(zhí)行的過程,如果能夠收集到包含根因的日志數(shù)據(jù),那么研發(fā)人員就可以非常準確地鎖定故障發(fā)生的位置和原因,從而進行修復工作。
指標數(shù)據(jù):以數(shù)字形式呈現(xiàn),可聚合并持續(xù)穩(wěn)定輸出,數(shù)據(jù)直觀、精確,通常用于查詢和展示。
日志數(shù)據(jù):以文本形式承載,不可聚合,輸出并不具備周期性,通常數(shù)據(jù)量較大,需要從海量日志中找到所需要的字段進行進一步的處理。
2)如何實現(xiàn)破局,發(fā)揮日志數(shù)據(jù)價值?
透過以上這類現(xiàn)象,不難發(fā)現(xiàn),日志數(shù)據(jù)在傳統(tǒng)的運維過程中,由于數(shù)據(jù)量大,價值信息少,文本形式的數(shù)據(jù)也無法像指標一樣,進行有效聚合,掌握全貌,日志數(shù)據(jù)無法高效定位,也使得日志在傳統(tǒng)運維中應(yīng)用范圍受到限制。
而如今可觀測時代下,日志數(shù)據(jù)要想解決以上存在的這些問題,發(fā)揮數(shù)據(jù)價值,實現(xiàn)成功破局,核心必須聚焦在提升日志數(shù)據(jù)傳遞到人的價值密度。通常商業(yè)化或開源日志工具會具備以下四種特點,實現(xiàn)日志數(shù)據(jù)價值呈現(xiàn):
前三種往往是單獨在日志系統(tǒng)內(nèi)部可以完成的,第四種則會涉及到可觀測的體系化建設(shè),這里可能不只是一個技術(shù)實現(xiàn)的問題,還需要依賴企業(yè)對可觀測理念的感知和認可。本文也重點就這個話題進行展開。
3)可觀測三大支柱數(shù)據(jù)聯(lián)動,快速定位問題
云原生時代IT可觀測的三大支柱數(shù)據(jù):Metrics,Tracing,Logging,日志數(shù)據(jù)在其中承擔著“排障的最后一公里”的角色,基于其信息量大的特點為研發(fā)、運維提供最直觀豐富了解到IT系統(tǒng)運行的細節(jié)信息。
隨著可觀測體系的技術(shù)發(fā)展,可觀測三大數(shù)據(jù)的融合和串聯(lián),已經(jīng)成為提升日志價值信息密度的重要手段,前端的Metrics,Tracing數(shù)據(jù)就宛如快捷的交通工具,而故障的最后一公里就需要依賴日志數(shù)據(jù)來支撐,融合串聯(lián),快速定位關(guān)鍵信息點。
4)日志數(shù)據(jù)在可觀測時代的全新意義
近年來,隨著SRE理論的推廣,運維角色職能發(fā)生了變化,從聚焦于底層資源的穩(wěn)定性,變?yōu)樾枰P(guān)注整個服務(wù)對上層業(yè)務(wù)支撐的可靠性,這個過程中,對全局架構(gòu)和上層業(yè)務(wù)的一定了解是必須的。
在這種情況下,傳統(tǒng)的監(jiān)控指標已經(jīng)不滿足于運維的需求,要從運維角度去了解整體架構(gòu)和業(yè)務(wù),而這一過程中,可觀測技術(shù)就是一把鑰匙。在可觀測體系中,日志數(shù)據(jù)代表著一個個Event事件,不再是大面積的平鋪陳列,而是作為觀測結(jié)果的必備屬性,與其他數(shù)據(jù)相輔相成,在新的運維模式下扮演著更加重要的角色。如此即是可觀測技術(shù)發(fā)展給日志數(shù)據(jù)賦予的全新意義。
02. 開源社區(qū)與企業(yè)實踐探討
以上是基于理論來闡述新時代日志和可觀測密不可分的關(guān)系,那么在實踐層面,可觀測技術(shù)又是如何推動日志數(shù)據(jù)的呢?我們首先先了解一下開源社區(qū)關(guān)于日志的發(fā)展歷程。
早期的可觀測開源項目基本都是圍繞著 Trace 這一類數(shù)據(jù)開展的,而隨著可觀測技術(shù)的發(fā)展,可以看到,日志在最新的OT協(xié)議中,已經(jīng)被納入標準規(guī)范。
OT協(xié)議希望能夠統(tǒng)一日志規(guī)范,其目的也是想將可觀測三支柱數(shù)據(jù)中最難結(jié)構(gòu)化的數(shù)據(jù)也進行一定程度的規(guī)范,最終形成一套相互關(guān)聯(lián)的數(shù)據(jù)作為可觀測平臺的數(shù)據(jù)后臺。這個在其官方推薦的新版OT數(shù)據(jù)采集架構(gòu)中就可以體現(xiàn),它希望我們在匯聚三種數(shù)據(jù)的時候,有一個統(tǒng)一的富化過程,加強三種數(shù)據(jù)的關(guān)聯(lián)性,從而能更好發(fā)揮觀測數(shù)據(jù)的實際效用。
接下來我們來看一個有趣的企業(yè)實踐,很多企業(yè)會嘗試去使用日志數(shù)據(jù)作為底座來建設(shè)可觀測平臺,認為這是可觀測性建設(shè)的一種可靠方案,但事實上,基于日志數(shù)據(jù)構(gòu)建可觀測體系的方式仍然是優(yōu)劣并存的。
如果未來OT協(xié)議真的能覆蓋到每種觀測對象并將日志輸出標準統(tǒng)一,那么這種方式確實有一定的好處,除了代碼無入侵以及組件復雜度降低,更重要的一點好處就是日志數(shù)據(jù)和其他的觀測數(shù)據(jù)可以天然串聯(lián),更方便實現(xiàn)前文所提到的串聯(lián)排障以及架構(gòu)分析。
但是目前這種方式也存在很大的局限性,規(guī)范推行的本身也是需要一定時間的,而且很多企業(yè)所擁有的存量系統(tǒng)十分繁多復雜,如果進行改造,建設(shè)可行性和周期都是一個很大的問號。
接下來我們就來針對日志與可觀測融合建設(shè)的幾個難點進行更加深入剖析,給出一些的有效的建設(shè)思路和方法。
03. 日志與可觀測體系融合建設(shè)的難點與思路
1)可觀測體系中的日志與其他數(shù)據(jù)串聯(lián)的難點
前面提到,日志數(shù)據(jù)可以通過可觀測數(shù)據(jù)的相互串聯(lián)來提升自身的數(shù)據(jù)價值,那么在具體建設(shè)中會遇到哪些難點呢?
① 難點一:數(shù)據(jù)格式不統(tǒng)一。在中大型企業(yè)中,還有不少老舊設(shè)備的日志,這些日志數(shù)據(jù)需要經(jīng)過加工處理才可以識別出必要字段
解決思路:清洗轉(zhuǎn)化,格式兼容
② 難點二:數(shù)據(jù)采集方式不統(tǒng)一。指標類數(shù)據(jù),目前流行的采集方式已達上百種,有特有協(xié)議,有自定義輸出,但一般會在demension中包含資源ID之類的上下文信息
解決思路:提取公共因子為關(guān)聯(lián)線索(時間、資源ID等)
③ 難點三:煙囪式工具,前臺界面無法串聯(lián)。很多企業(yè)有傳統(tǒng)的監(jiān)控工具,也有專門的日志系統(tǒng),即使數(shù)據(jù)關(guān)聯(lián)上了,兩者的界面難以打通,串聯(lián)觀測的體驗仍舊不佳
解決思路:盡量選用可拓展性較強的產(chǎn)品,或者一開始建設(shè)時就選用融合設(shè)計的產(chǎn)品
2)關(guān)聯(lián)日志數(shù)據(jù)的解決方案
針對這些難以關(guān)聯(lián)的問題,我們也有對應(yīng)的關(guān)聯(lián)手段。同時企業(yè)間存量日志情況各不相同,可以使用不同的方式做可觀測關(guān)聯(lián)。
在實際的可觀測系統(tǒng)落地的過程中,不同類型日志需要采用不一樣的關(guān)聯(lián)方式,常見關(guān)聯(lián)方式如下圖:
04. 企業(yè)日志系統(tǒng)設(shè)計思路與選型建議
1)日志系統(tǒng)設(shè)計思路
如何設(shè)計企業(yè)日志系統(tǒng)呢?傳統(tǒng)日志系統(tǒng)通常采用5層式獨立結(jié)構(gòu),但這樣的建設(shè)模式,排障時需從大量日志數(shù)據(jù)入手,難以快速定位到問題。
而隨著可觀測技術(shù)的發(fā)展,很多企業(yè)開始建設(shè)監(jiān)控系統(tǒng)、日志管理系統(tǒng)、調(diào)用鏈追蹤系統(tǒng),但由于分開建設(shè),底層數(shù)據(jù)之間無關(guān)聯(lián)。雖然實現(xiàn)了三大支柱數(shù)據(jù)的系統(tǒng)建設(shè),但彼此之間屬于煙囪模式,無法有效聯(lián)動,難以有效提升故障定位效率。
而雙價值鏈條所驅(qū)動的企業(yè)級日志系統(tǒng),通過日志數(shù)據(jù)流轉(zhuǎn)鏈和可觀測全景數(shù)據(jù)鏈的驅(qū)動,解決了日志數(shù)據(jù)“管理難”,“應(yīng)用難”的問題。全??捎^測平臺的建設(shè),提供了一站式的排障能力,支持統(tǒng)一告警與統(tǒng)一展示,降低故障排查難度,提升排障效率。
2)企業(yè)日志系統(tǒng)選型建議:
結(jié)合上文提到的設(shè)計思路和難點,我們?yōu)槠髽I(yè)日志系統(tǒng)選型提供以下幾點建議:
① 選用覆蓋完整的,且各類觀測工具可自由組合的可觀測平臺
覆蓋完的工具或平臺,往往從一開始就會考慮幾種數(shù)據(jù)之間的融合設(shè)計(不僅局限于數(shù)據(jù),還有UI界面上的串聯(lián)),避免煙囪式建設(shè)。
同時以融合理念進行設(shè)計的產(chǎn)品,可以根據(jù)自身現(xiàn)狀分批、分階段建設(shè),有限控制建設(shè)成本,實現(xiàn)最終的可觀測體系建設(shè),讓企業(yè)能夠順利轉(zhuǎn)型過渡。
② 選用支持開源協(xié)議的云平臺或商業(yè)產(chǎn)品
③ 需具備強大的日志清洗能力,沉淀常用組件清洗模板
助力標準化建設(shè):有利于減輕落地推廣的難度,提升觀測體系的覆蓋度,沉淀經(jīng)驗和標準,也有利于規(guī)范的落地。
05. 案例分享
1)某新能源企業(yè)運維一體化項目
① 建設(shè)背景
② 建設(shè)內(nèi)容
針對該企業(yè)現(xiàn)狀,嘉為鯨眼日志中心為其打造了相契合的解決方案,集中納管公司60+業(yè)務(wù)、4000+節(jié)點的日志,日數(shù)據(jù)量3TB+,制定60+系統(tǒng)的200+項監(jiān)控策略,出現(xiàn)故障問題及時多渠道通知對應(yīng)的專業(yè)人員進行排查,故障響應(yīng)效率提升30%以上。
2)某銀行企業(yè)日志集中化改造項目
① 建設(shè)背景
② 建設(shè)內(nèi)容
銀行對于日志數(shù)據(jù)的安全和存儲都有更高的要求,嘉為藍鯨根據(jù)企業(yè)組織進行了精細授權(quán)管理,同時日志數(shù)據(jù)流轉(zhuǎn)處理過程中都進行了加密和脫敏處理,保障銀行的安全性需求。除此之外,針對銀行海量的日志數(shù)據(jù)存儲需求,采用三層存儲金字塔架構(gòu),降低存儲成本。
完成了數(shù)據(jù)源接入2000+,數(shù)據(jù)清洗1700+,日數(shù)據(jù)量1TB+,存儲成本降低50%以上,監(jiān)控策略300+,儀表盤60+,沉淀30+采集配置模板、清洗模板、儀表盤模板。
3)某車企云管&研發(fā)運維一體化項目
① 建設(shè)背景
② 建設(shè)內(nèi)容
該大型企業(yè)主要問題在于業(yè)務(wù)的高速發(fā)展帶來了海量數(shù)據(jù),復雜的技術(shù)棧,頻繁的變更,對運維的要求越來越高,人工運維已經(jīng)難以快讀定位并處理問題。通過Trace全景分析+Metirc波動分析的建設(shè),結(jié)合明細日志log數(shù)據(jù),建立全景數(shù)據(jù)鏈條,從根源解決問題,快速定位故障根因。
對于人工運維難度大的問題,引入嘉為鯨眼AI能力,對日志進行日志聚類、模式智能異常檢測、模式趨勢可視化等人工智能手段方式,幫助運維人員快速掌握日志全貌,敏銳捕捉動態(tài)異常,動態(tài)配置監(jiān)控策略,大大提升運維人員故障定位效率。
以上是嘉為在日志建設(shè)中的一些典型案例,感興趣的讀者可以點擊下方圖片查看回放或下載直播PPT獲得更多相關(guān)內(nèi)容。
當前,可觀測性建設(shè)仍然在高速探索的階段,不同的企業(yè)運維建設(shè)階段不同,對于全??捎^測能力的構(gòu)建也有適合各自的建設(shè)路徑,本期我們僅僅是對日志系統(tǒng)之于可觀測的意義以及日志運維場景工具設(shè)計和落地實踐進行了分享,如果您在日常運維中也遇到了可觀測建設(shè)的相關(guān)問題,或是對可觀測有建設(shè)需求,歡迎聯(lián)系我們!
申請演示