日韩精品在线观看网站_女同久久另类99精品蜜臀|HD中文字幕在线播放,欧美日韩毛片,人善交video另类牛3d,色综合久久综合网

首頁

/

日志數(shù)據(jù)于可觀測的意義及日志運維場景和工具實踐

發(fā)布日期:2023-03-22 13:48:10

分享到

本文我們聚焦可觀測的另一個重要支柱——日志管理,從日志的數(shù)據(jù)特點角度出發(fā),分析日志數(shù)據(jù)在可觀測體系中的意義,深度剖析日志與可觀測體系融合建設(shè)的難點與思路,并分享企業(yè)日志系統(tǒng)設(shè)計選型思路以及落地實踐參考。


01. 從數(shù)據(jù)特點看日志與可觀測

1)指標數(shù)據(jù)和日志數(shù)據(jù)的區(qū)別

首先我們來看一個企業(yè)中比較普遍的現(xiàn)象,當系統(tǒng)發(fā)生故障時,運維人員通常關(guān)注指標類數(shù)據(jù),而研發(fā)人員更“鐘情“于日志數(shù)據(jù),為什么會有這種區(qū)別呢?

從兩個方面來分析,第一個方面就是運維與研發(fā)自身職責的不同,運維更希望能夠快速的解決問題,而研發(fā)更注重于準確找到問題的根源。第二個方面就是指標數(shù)據(jù)與日志數(shù)據(jù)的本身特點具備著差異性。

運維人員能夠通過指標數(shù)據(jù),快速地了解當前系統(tǒng)的狀態(tài),通過指標聚合,從業(yè)務(wù)一步步追隨到集群、再到具體的節(jié)點。而日志數(shù)據(jù)能夠詳細記錄到代碼執(zhí)行的過程,如果能夠收集到包含根因的日志數(shù)據(jù),那么研發(fā)人員就可以非常準確地鎖定故障發(fā)生的位置和原因,從而進行修復工作。

指標數(shù)據(jù):以數(shù)字形式呈現(xiàn),可聚合并持續(xù)穩(wěn)定輸出,數(shù)據(jù)直觀、精確,通常用于查詢和展示。

日志數(shù)據(jù):以文本形式承載,不可聚合,輸出并不具備周期性,通常數(shù)據(jù)量較大,需要從海量日志中找到所需要的字段進行進一步的處理。


2)如何實現(xiàn)破局,發(fā)揮日志數(shù)據(jù)價值?

透過以上這類現(xiàn)象,不難發(fā)現(xiàn),日志數(shù)據(jù)在傳統(tǒng)的運維過程中,由于數(shù)據(jù)量大,價值信息少,文本形式的數(shù)據(jù)也無法像指標一樣,進行有效聚合,掌握全貌,日志數(shù)據(jù)無法高效定位,也使得日志在傳統(tǒng)運維中應(yīng)用范圍受到限制。

而如今可觀測時代下,日志數(shù)據(jù)要想解決以上存在的這些問題,發(fā)揮數(shù)據(jù)價值,實現(xiàn)成功破局,核心必須聚焦在提升日志數(shù)據(jù)傳遞到人的價值密度。通常商業(yè)化或開源日志工具會具備以下四種特點,實現(xiàn)日志數(shù)據(jù)價值呈現(xiàn):

  • 日志主動監(jiān)控:利用機器來自動化檢測文本,獲取有效信息后再輸出。
  • 結(jié)構(gòu)化:清洗成結(jié)構(gòu)化數(shù)據(jù)后,對某些字段進行統(tǒng)計。
  • 可觀測串聯(lián):將其他類型的觀測數(shù)據(jù)于日志串聯(lián),快速定位。
  • 日志聚類:將日志用機器學習算法進行分類后再統(tǒng)計。

前三種往往是單獨在日志系統(tǒng)內(nèi)部可以完成的,第四種則會涉及到可觀測的體系化建設(shè),這里可能不只是一個技術(shù)實現(xiàn)的問題,還需要依賴企業(yè)對可觀測理念的感知和認可。本文也重點就這個話題進行展開。


3)可觀測三大支柱數(shù)據(jù)聯(lián)動,快速定位問題

云原生時代IT可觀測的三大支柱數(shù)據(jù):Metrics,Tracing,Logging,日志數(shù)據(jù)在其中承擔著“排障的最后一公里”的角色,基于其信息量大的特點為研發(fā)、運維提供最直觀豐富了解到IT系統(tǒng)運行的細節(jié)信息。

隨著可觀測體系的技術(shù)發(fā)展,可觀測三大數(shù)據(jù)的融合和串聯(lián),已經(jīng)成為提升日志價值信息密度的重要手段,前端的Metrics,Tracing數(shù)據(jù)就宛如快捷的交通工具,而故障的最后一公里就需要依賴日志數(shù)據(jù)來支撐,融合串聯(lián),快速定位關(guān)鍵信息點。


4)日志數(shù)據(jù)在可觀測時代的全新意義

近年來,隨著SRE理論的推廣,運維角色職能發(fā)生了變化,從聚焦于底層資源的穩(wěn)定性,變?yōu)樾枰P(guān)注整個服務(wù)對上層業(yè)務(wù)支撐的可靠性,這個過程中,對全局架構(gòu)和上層業(yè)務(wù)的一定了解是必須的。

在這種情況下,傳統(tǒng)的監(jiān)控指標已經(jīng)不滿足于運維的需求,要從運維角度去了解整體架構(gòu)和業(yè)務(wù),而這一過程中,可觀測技術(shù)就是一把鑰匙。在可觀測體系中,日志數(shù)據(jù)代表著一個個Event事件,不再是大面積的平鋪陳列,而是作為觀測結(jié)果的必備屬性,與其他數(shù)據(jù)相輔相成,在新的運維模式下扮演著更加重要的角色。如此即是可觀測技術(shù)發(fā)展給日志數(shù)據(jù)賦予的全新意義。


02. 開源社區(qū)與企業(yè)實踐探討

以上是基于理論來闡述新時代日志和可觀測密不可分的關(guān)系,那么在實踐層面,可觀測技術(shù)又是如何推動日志數(shù)據(jù)的呢?我們首先先了解一下開源社區(qū)關(guān)于日志的發(fā)展歷程。

早期的可觀測開源項目基本都是圍繞著 Trace 這一類數(shù)據(jù)開展的,而隨著可觀測技術(shù)的發(fā)展,可以看到,日志在最新的OT協(xié)議中,已經(jīng)被納入標準規(guī)范。

(信息來源:OpenTelemetry)

OT協(xié)議希望能夠統(tǒng)一日志規(guī)范,其目的也是想將可觀測三支柱數(shù)據(jù)中最難結(jié)構(gòu)化的數(shù)據(jù)也進行一定程度的規(guī)范,最終形成一套相互關(guān)聯(lián)的數(shù)據(jù)作為可觀測平臺的數(shù)據(jù)后臺。這個在其官方推薦的新版OT數(shù)據(jù)采集架構(gòu)中就可以體現(xiàn),它希望我們在匯聚三種數(shù)據(jù)的時候,有一個統(tǒng)一的富化過程,加強三種數(shù)據(jù)的關(guān)聯(lián)性,從而能更好發(fā)揮觀測數(shù)據(jù)的實際效用。

(信息來源:OpenTelemetry)

接下來我們來看一個有趣的企業(yè)實踐,很多企業(yè)會嘗試去使用日志數(shù)據(jù)作為底座來建設(shè)可觀測平臺,認為這是可觀測性建設(shè)的一種可靠方案,但事實上,基于日志數(shù)據(jù)構(gòu)建可觀測體系的方式仍然是優(yōu)劣并存的。

如果未來OT協(xié)議真的能覆蓋到每種觀測對象并將日志輸出標準統(tǒng)一,那么這種方式確實有一定的好處,除了代碼無入侵以及組件復雜度降低,更重要的一點好處就是日志數(shù)據(jù)和其他的觀測數(shù)據(jù)可以天然串聯(lián),更方便實現(xiàn)前文所提到的串聯(lián)排障以及架構(gòu)分析。

但是目前這種方式也存在很大的局限性,規(guī)范推行的本身也是需要一定時間的,而且很多企業(yè)所擁有的存量系統(tǒng)十分繁多復雜,如果進行改造,建設(shè)可行性和周期都是一個很大的問號。

接下來我們就來針對日志與可觀測融合建設(shè)的幾個難點進行更加深入剖析,給出一些的有效的建設(shè)思路和方法。


03. 日志與可觀測體系融合建設(shè)的難點與思路

1)可觀測體系中的日志與其他數(shù)據(jù)串聯(lián)的難點

前面提到,日志數(shù)據(jù)可以通過可觀測數(shù)據(jù)的相互串聯(lián)來提升自身的數(shù)據(jù)價值,那么在具體建設(shè)中會遇到哪些難點呢?

① 難點一:數(shù)據(jù)格式不統(tǒng)一。在中大型企業(yè)中,還有不少老舊設(shè)備的日志,這些日志數(shù)據(jù)需要經(jīng)過加工處理才可以識別出必要字段

解決思路:清洗轉(zhuǎn)化,格式兼容

② 難點二:數(shù)據(jù)采集方式不統(tǒng)一。指標類數(shù)據(jù),目前流行的采集方式已達上百種,有特有協(xié)議,有自定義輸出,但一般會在demension中包含資源ID之類的上下文信息

解決思路:提取公共因子為關(guān)聯(lián)線索(時間、資源ID等)

③ 難點三:煙囪式工具,前臺界面無法串聯(lián)。很多企業(yè)有傳統(tǒng)的監(jiān)控工具,也有專門的日志系統(tǒng),即使數(shù)據(jù)關(guān)聯(lián)上了,兩者的界面難以打通,串聯(lián)觀測的體驗仍舊不佳

解決思路:盡量選用可拓展性較強的產(chǎn)品,或者一開始建設(shè)時就選用融合設(shè)計的產(chǎn)品


2)關(guān)聯(lián)日志數(shù)據(jù)的解決方案

針對這些難以關(guān)聯(lián)的問題,我們也有對應(yīng)的關(guān)聯(lián)手段。同時企業(yè)間存量日志情況各不相同,可以使用不同的方式做可觀測關(guān)聯(lián)。

  • 通過執(zhí)行時關(guān)聯(lián):日志、跟蹤和指標都會記錄發(fā)生的時間或時間范圍。這是最基本的關(guān)聯(lián)形式。
  • 通過請求上下文關(guān)聯(lián):盡可能通過在日志記錄中包含 TraceId 和 SpanId 來記錄日志和請求的關(guān)系,這樣每次跟蹤到一條具體的請求時,也能快速找到這個請求產(chǎn)生之后所觸發(fā)的日志。
  • 通過資源上下文關(guān)聯(lián):指標數(shù)據(jù)和跟蹤數(shù)據(jù)中也會包含一定的資源數(shù)據(jù),例如主機IP或服務(wù)地址,如果能確定好這些資源關(guān)系的映射,可以進一步縮小關(guān)聯(lián)日志的范圍從而做到精準排障。

在實際的可觀測系統(tǒng)落地的過程中,不同類型日志需要采用不一樣的關(guān)聯(lián)方式,常見關(guān)聯(lián)方式如下圖:


04. 企業(yè)日志系統(tǒng)設(shè)計思路與選型建議

1)日志系統(tǒng)設(shè)計思路

如何設(shè)計企業(yè)日志系統(tǒng)呢?傳統(tǒng)日志系統(tǒng)通常采用5層式獨立結(jié)構(gòu),但這樣的建設(shè)模式,排障時需從大量日志數(shù)據(jù)入手,難以快速定位到問題。

而隨著可觀測技術(shù)的發(fā)展,很多企業(yè)開始建設(shè)監(jiān)控系統(tǒng)、日志管理系統(tǒng)、調(diào)用鏈追蹤系統(tǒng),但由于分開建設(shè),底層數(shù)據(jù)之間無關(guān)聯(lián)。雖然實現(xiàn)了三大支柱數(shù)據(jù)的系統(tǒng)建設(shè),但彼此之間屬于煙囪模式,無法有效聯(lián)動,難以有效提升故障定位效率。

而雙價值鏈條所驅(qū)動的企業(yè)級日志系統(tǒng),通過日志數(shù)據(jù)流轉(zhuǎn)鏈和可觀測全景數(shù)據(jù)鏈的驅(qū)動,解決了日志數(shù)據(jù)“管理難”,“應(yīng)用難”的問題。全??捎^測平臺的建設(shè),提供了一站式的排障能力,支持統(tǒng)一告警與統(tǒng)一展示,降低故障排查難度,提升排障效率。


2)企業(yè)日志系統(tǒng)選型建議:

結(jié)合上文提到的設(shè)計思路和難點,我們?yōu)槠髽I(yè)日志系統(tǒng)選型提供以下幾點建議:

① 選用覆蓋完整的,且各類觀測工具可自由組合的可觀測平臺

覆蓋完的工具或平臺,往往從一開始就會考慮幾種數(shù)據(jù)之間的融合設(shè)計(不僅局限于數(shù)據(jù),還有UI界面上的串聯(lián)),避免煙囪式建設(shè)。

同時以融合理念進行設(shè)計的產(chǎn)品,可以根據(jù)自身現(xiàn)狀分批、分階段建設(shè),有限控制建設(shè)成本,實現(xiàn)最終的可觀測體系建設(shè),讓企業(yè)能夠順利轉(zhuǎn)型過渡。


② 選用支持開源協(xié)議的云平臺或商業(yè)產(chǎn)品

  • 順應(yīng)業(yè)界主流趨勢:開源社區(qū)(OT)已經(jīng)在很早期就開始設(shè)計幾種數(shù)據(jù)的關(guān)聯(lián)關(guān)系,并逐步迭代。
  • 方便拓展對接:可以與自己早期使用的開源工具或者組件相互對接,兼容存量系統(tǒng)。
  • 生態(tài)長存:采集和處理工具千千萬,唯開源生態(tài)長存,可拓展和替換是必須考慮的因素。


③ 需具備強大的日志清洗能力,沉淀常用組件清洗模板

助力標準化建設(shè):有利于減輕落地推廣的難度,提升觀測體系的覆蓋度,沉淀經(jīng)驗和標準,也有利于規(guī)范的落地。


05. 案例分享

1)某新能源企業(yè)運維一體化項目

① 建設(shè)背景


  • 日志數(shù)據(jù)異構(gòu):和多家國內(nèi)外企業(yè)有合作,對接的核心系統(tǒng)多達數(shù)十個,有自研、外購、外購二次開發(fā)、開源改造的企業(yè)系統(tǒng),架構(gòu)不一,日志多樣且分散。
  • 日志規(guī)模爆發(fā)式增長:自建大數(shù)據(jù)平臺進行供應(yīng)鏈分析、設(shè)備健康管控以及園區(qū)智能管理,日志規(guī)模隨著新能源業(yè)務(wù)迅猛發(fā)展而爆發(fā)式增長,每日TB級別日志流量,日志數(shù)據(jù)采集鏈路性能壓力極大。
  • 日志主題劃分困難:多業(yè)務(wù)方,相互依賴關(guān)系復雜,日志主題劃分難度大,無法高效查詢分析日志,無法關(guān)聯(lián)分析日志。
  • 硬件監(jiān)控落后:缺乏有效的監(jiān)控手段,硬件設(shè)別廠商多種多樣,需要針對每種硬件設(shè)備制作專門的監(jiān)控指標采集插件或告警源插件,成本極高,且需要專門的技術(shù)人員針對這些硬件的指標數(shù)據(jù)進行值班監(jiān)控。



② 建設(shè)內(nèi)容

針對該企業(yè)現(xiàn)狀,嘉為鯨眼日志中心為其打造了相契合的解決方案,集中納管公司60+業(yè)務(wù)、4000+節(jié)點的日志,日數(shù)據(jù)量3TB+,制定60+系統(tǒng)的200+項監(jiān)控策略,出現(xiàn)故障問題及時多渠道通知對應(yīng)的專業(yè)人員進行排查,故障響應(yīng)效率提升30%以上。


2)某銀行企業(yè)日志集中化改造項目

① 建設(shè)背景


  • 日志串聯(lián)繁瑣:運維人員查看日志時往往需要根據(jù)交易串聯(lián)日志,當前日志串聯(lián)是通過各個應(yīng)用管理員人力傳遞式查詢(業(yè)務(wù)系統(tǒng)負責人查看本系統(tǒng)內(nèi)的關(guān)鍵字,查找到相關(guān)信息之后,傳遞給其他系統(tǒng)的負責人),繁瑣且耗時。
  • 管理維度不同:根據(jù)企業(yè)組織架構(gòu)有兩個運維部門,基礎(chǔ)運維室負責運維中間件、數(shù)據(jù)庫、系統(tǒng)日志,需要跨業(yè)務(wù)管理;應(yīng)用運維室負責運維各業(yè)務(wù)部門的應(yīng)用日志,需要業(yè)務(wù)隔離。
  • 信息泄露風險:銀行內(nèi)部通常有許多外包人員,并且有時候需要將日志數(shù)據(jù)發(fā)給系統(tǒng)服務(wù)商進行分析,日志中又包含了大量的客戶敏感信息,如果任何運維人員都可隨意查看日志中的敏感信息,信息安全風險將無法評估。
  • 存儲成本高昂:為滿足審計要求,需要長時間保留日志,日志存儲成本高。且日志應(yīng)用場景復雜,偶爾短時間大批量消費日志。



② 建設(shè)內(nèi)容

銀行對于日志數(shù)據(jù)的安全和存儲都有更高的要求,嘉為藍鯨根據(jù)企業(yè)組織進行了精細授權(quán)管理,同時日志數(shù)據(jù)流轉(zhuǎn)處理過程中都進行了加密和脫敏處理,保障銀行的安全性需求。除此之外,針對銀行海量的日志數(shù)據(jù)存儲需求,采用三層存儲金字塔架構(gòu),降低存儲成本。

完成了數(shù)據(jù)源接入2000+,數(shù)據(jù)清洗1700+,日數(shù)據(jù)量1TB+,存儲成本降低50%以上,監(jiān)控策略300+,儀表盤60+,沉淀30+采集配置模板、清洗模板、儀表盤模板。


3)某車企云管&研發(fā)運維一體化項目

① 建設(shè)背景


  • 日志規(guī)模龐大:集團業(yè)務(wù)發(fā)展,整合集團“兩地三中心”,承載各類集團管控任務(wù),支撐各事業(yè)部、品牌業(yè)務(wù)發(fā)展。集團現(xiàn)有云IaaS、PaaS、微服務(wù)治理服務(wù),主機數(shù)1000+,日志規(guī)模龐大。
  • 技術(shù)棧復雜:正在企業(yè)IT運維轉(zhuǎn)型的道路上,從傳統(tǒng)的單機應(yīng)用邁向云原生應(yīng)用,現(xiàn)有私有云平臺、華為混合云平臺、容器平臺,其中還包括14項云服務(wù),技術(shù)棧復雜導致故障定位異常困難。
  • 業(yè)務(wù)變更頻繁:應(yīng)用系統(tǒng)敏捷開發(fā)、快速迭代,迭代周期縮短到2個月,導致故障數(shù)量增加,日志頻繁變化,還可能存在潛在的應(yīng)用性能問題,對運維人員提出了更高要求。運維人員難以適應(yīng)業(yè)務(wù)日志變化,難以通過歷史經(jīng)驗進行問題定位。
  • 人工運維困境:不同應(yīng)用系統(tǒng)的編程語言多種多樣,日志格式繁多且不斷變化,依靠運維人員手動配置正則進行日志清洗非常低效。同時日志量級大,報警多,一些無關(guān)的錯誤日志容易掩蓋真正的問題。



② 建設(shè)內(nèi)容

該大型企業(yè)主要問題在于業(yè)務(wù)的高速發(fā)展帶來了海量數(shù)據(jù),復雜的技術(shù)棧,頻繁的變更,對運維的要求越來越高,人工運維已經(jīng)難以快讀定位并處理問題。通過Trace全景分析+Metirc波動分析的建設(shè),結(jié)合明細日志log數(shù)據(jù),建立全景數(shù)據(jù)鏈條,從根源解決問題,快速定位故障根因。

對于人工運維難度大的問題,引入嘉為鯨眼AI能力,對日志進行日志聚類、模式智能異常檢測、模式趨勢可視化等人工智能手段方式,幫助運維人員快速掌握日志全貌,敏銳捕捉動態(tài)異常,動態(tài)配置監(jiān)控策略,大大提升運維人員故障定位效率。

以上是嘉為在日志建設(shè)中的一些典型案例,感興趣的讀者可以點擊下方圖片查看回放或下載直播PPT獲得更多相關(guān)內(nèi)容。

當前,可觀測性建設(shè)仍然在高速探索的階段,不同的企業(yè)運維建設(shè)階段不同,對于全??捎^測能力的構(gòu)建也有適合各自的建設(shè)路徑,本期我們僅僅是對日志系統(tǒng)之于可觀測的意義以及日志運維場景工具設(shè)計和落地實踐進行了分享,如果您在日常運維中也遇到了可觀測建設(shè)的相關(guān)問題,或是對可觀測有建設(shè)需求,歡迎聯(lián)系我們!

免費申請演示

聯(lián)系我們

服務(wù)熱線:

020-38847288

QQ咨詢:

3593213400

在線溝通:

立即咨詢
查看更多聯(lián)系方式

申請演示

請登錄后在查看!