日韩精品在线观看网站_女同久久另类99精品蜜臀|HD中文字幕在线播放,欧美日韩毛片,人善交video另类牛3d,色综合久久综合网

首頁

/

如何基于IT事件全生命管理周期,提升業(yè)務(wù)連續(xù)性?

發(fā)布日期:2023-02-17 17:01:00

分享到

進(jìn)入數(shù)字化時代,IT架構(gòu)面臨的復(fù)雜性越來越高,業(yè)務(wù)連續(xù)性管理這項IT最基本的工作,也成為了很多行業(yè)或企業(yè)IT運維的最核心任務(wù);業(yè)務(wù)連續(xù)性管理是一個持續(xù)不斷提升的過程,圍繞“快速發(fā)現(xiàn)事件→快速響應(yīng)事件→快速定位與處理事件→減少事件發(fā)生”的事件生命周期閉環(huán),結(jié)合一體化運維平臺,是提高業(yè)務(wù)連續(xù)性保障水平的一種好思路。


01. IT運維的趨勢與挑戰(zhàn)

當(dāng)前,各行各業(yè)正如火如荼持續(xù)推進(jìn)自身業(yè)務(wù)和管理模式的數(shù)字化轉(zhuǎn)型。數(shù)字化轉(zhuǎn)型在提升客戶體驗、加快業(yè)務(wù)創(chuàng)新交付、為運營提能增效方面確實可以為企業(yè)帶來重要價值;但與此同時,企業(yè)數(shù)字化轉(zhuǎn)型給IT運維帶來極大挑戰(zhàn),數(shù)字化轉(zhuǎn)型推動新技術(shù)、新場景的快速迭代,讓運維面臨的復(fù)雜度、不確定性因素加大,企業(yè)業(yè)務(wù)連續(xù)性面臨更大挑戰(zhàn)和不確定性。


02. ITIL事件生命周期

ITIL將IT服務(wù)管理分為十個核心流程和一項管理職能。這十個核心流程分別是服務(wù)級別管理、IT服務(wù)財務(wù)管理、能力管理、IT服務(wù)持續(xù)性管理、可用性管理、配置管理、變更管理、發(fā)布管理、事件管理、問題管理,一項管理職能是服務(wù)臺。

ITIL V3中把事件定義為“任何可被發(fā)現(xiàn)或辨別的事情,此類事情對于基礎(chǔ)設(shè)施的管理或IT服務(wù)的交付有重要意義,以及有助于評估可能導(dǎo)致服務(wù)出現(xiàn)的偏差?!?與ITIL V3相比,ITIL 4給出的定義更清晰,事件(Incident)是指服務(wù)的意外中斷或服務(wù)質(zhì)量的降低。

在ITIL中,IT事件管理是IT基礎(chǔ)架構(gòu)管理策略的一部分,包括監(jiān)控、調(diào)查、上報和響應(yīng)IT平臺上發(fā)生的事件。在ITIL 事件管理生命周期中,ITIL 提供了一個七步流程來處理事件:

步驟一:事件識別

這是服務(wù)臺第一次意識到問題的時候。用戶可能會檢測到與用戶體驗相關(guān)的事件,并提出投訴。另一方面,技術(shù)事故通常是在日常監(jiān)控中發(fā)現(xiàn)的。

步驟二:事件記錄

一旦確定了事件,服務(wù)臺就應(yīng)該將其記錄下來。他們通常會要求確定事件的人的姓名、發(fā)現(xiàn)的日期和時間以及對錯誤的描述。然后服務(wù)臺將進(jìn)行事件分類。這是一種確定問題類型的方法。事件分類有兩個目標(biāo):使服務(wù)臺能夠查找任何趨勢,并通知事件優(yōu)先級。事件優(yōu)先級是確定解決方案緊迫性的過程。這通常被定義為“高”、“中”或“低”,并基于受影響用戶的數(shù)量和事件造成的破壞程度。

步驟三:事故調(diào)查與診斷

這是解決事件的第一步。受影響的用戶與服務(wù)臺的一名成員討論該事件,以查看是否有立即解決的方法,或者他們是否可以快速識別問題。如果服務(wù)臺的假設(shè)成功,則問題已解決,可以直接跳到步驟 5。但是,如果沒有立即修復(fù),事件將需要進(jìn)入下一階段。

步驟四:事件分配或升級

由于需要進(jìn)一步工作,服務(wù)臺會將事件分配給現(xiàn)場技術(shù)人員或經(jīng)過認(rèn)證的支持人員,他們將尋找解決方法,然后調(diào)查事件原因。

步驟五:事件解決

顧名思義,此步驟涉及服務(wù)臺確認(rèn)事件已解決。

步驟六:事件結(jié)束

此時,事件被視為已結(jié)束,流程結(jié)束。

步驟七:用戶滿意度調(diào)查

組織可能會要求用戶在問題解決后完成一份簡短的問卷,以確定他們是否對服務(wù)交付感到滿意。這是識別事件管理過程中任何問題的好方法,例如無用的服務(wù)臺員工或不滿意的解決方案。同時,壓倒性的積極反饋是提高員工士氣的好方法,它可以幫助識別在工作中表現(xiàn)出色的團(tuán)隊成員。

將上述事件生命周期的七步流程抽象為快速發(fā)現(xiàn)事件、快速響應(yīng)事件、快速定位與處理事件,但這些環(huán)節(jié)偏事件發(fā)生后的事后應(yīng)對處理環(huán)節(jié),可以再補充偏事前的減少事件發(fā)生環(huán)節(jié),形成完整的事件生命周期如下圖,下文主要圍繞下圖事件生命周期展開解析如何提升業(yè)務(wù)連續(xù)性。


03. 圍繞事件生命周期提升業(yè)務(wù)連續(xù)性

1)快速發(fā)現(xiàn)事件

以前,通常是根據(jù)最終用戶和IT專家的信息來報告大多數(shù)事件,這種獲取信息的方法仍被廣泛使用,但是現(xiàn)在一個好的實踐建議是自動發(fā)現(xiàn)和報告事件??梢栽谑录l(fā)生后和開始影響用戶之前立即被發(fā)現(xiàn)。這種方法具有多種好處:

  • 事件較早發(fā)現(xiàn)縮短了服務(wù)不可用或降級的時間;
  • 更高質(zhì)量的初始數(shù)據(jù)支持事件正確的響應(yīng)和解決,包括自動解決,也稱為故障自愈;
  • 一些事件可能在影響與客戶約定的服務(wù)質(zhì)量之前得到解決,從而提高用戶滿意度;
  • 與事件相關(guān)的成本可能會降低。

總體來看,事件主要從服務(wù)臺與監(jiān)控體系而來,用戶反饋到服務(wù)臺屬于被動發(fā)現(xiàn),監(jiān)控體系屬于主動發(fā)現(xiàn),監(jiān)控體系又包括針對IT資源對象的指標(biāo)監(jiān)控、針對應(yīng)用系統(tǒng)的調(diào)用鏈監(jiān)控和針對資源與應(yīng)用的日志監(jiān)控。

被動發(fā)現(xiàn)維度,可以通過提升用戶報障渠道的便利性從而提升事件發(fā)現(xiàn)的及時性,比如電話、郵件、IM入口、應(yīng)用系統(tǒng)嵌入入口、工單系統(tǒng)等;主動發(fā)現(xiàn)維度,通過提升監(jiān)控對象的覆蓋率、指標(biāo)的及時性、告警的有效性等促進(jìn)快速主動發(fā)現(xiàn)事件故障。


2)快速響應(yīng)事件

所有的事件都應(yīng)該被完整地記錄下來,無論是由服務(wù)臺受理的還是由監(jiān)控告警自動生成的。所有與事件相關(guān)的信息都應(yīng)該被記錄下來形成一份完整的歷史記錄,這樣如果其它支持組查詢事件時他們能夠獲得所有相關(guān)信息來幫助他們。事件需要被分配合適的事件類型代碼。這樣,準(zhǔn)確的事件類型就被記錄下來。通過事件類型或頻率確定趨勢,用于問題管理、供應(yīng)商管理和其他IT服務(wù)管理活動,這一點十分重要。

在一些用戶只是尋求某種信息的事件(服務(wù)請求)中,服務(wù)臺可以很快的解決這種服務(wù)請求。對于服務(wù)臺無法處理的事件,為了實現(xiàn)快速響應(yīng),需要快速精準(zhǔn)的分配給一線支持人員。派單規(guī)則可結(jié)合值班管理與配置管理,步驟可參考比如示例:

  • 根據(jù)告警對象從配置管理CMDB里找到對應(yīng)的業(yè)務(wù)系統(tǒng)
  • 根據(jù)業(yè)務(wù)系統(tǒng)找到對應(yīng)的值班單位、值班組及崗位
  • 找到該值班單位對應(yīng)的值班人員(符合該值班組及崗位的)并派工單
  • 如果該崗位沒人值班,則將工單派至值班經(jīng)理
  • 如果有多個符合條件的人員,則隨機派給一個符合條件的值班人員

如果一線支持人員也難以快速解決問題,則需要進(jìn)行事件升級。事件升級包括職能性升級與管理性升級兩類:

職能性升級:即將一個事件從一線轉(zhuǎn)到二線及以上的支持,這樣可以得到更多的專業(yè)技術(shù)、時間或者資源來解決事件。職能性升級也可能發(fā)生在協(xié)議規(guī)定的時間到期后,事件仍然沒有解決的情況;

管理性升級:即將事件單升級到更高級別的管理人員,以協(xié)調(diào)必需的資源來解決事件。管理性升級也可以發(fā)生在事件解決流程的任何時刻。


3)事件快速定位與處理

事件管理是記錄和解決事件問題的過程。事件管理的首要目標(biāo)是盡快將運營恢復(fù)到正常狀態(tài),并將對業(yè)務(wù)運營的影響降到最低。在這個過程中,問題定位與恢復(fù)速度往往是重中之重。甚至通常是先通過臨時修復(fù)而不是永久解決方案來解決,稍后才會進(jìn)行永久性修復(fù)。

如何做到事件快速處理和業(yè)務(wù)快速恢復(fù)呢?需要從故障快速分析和故障快速處理兩個維度著手。


① 故障快速排查分析定位

基于監(jiān)控數(shù)據(jù)進(jìn)行綜合分析:結(jié)合時序指標(biāo)(metric)、日志(log)、調(diào)用鏈(trace),將收集到的所有數(shù)據(jù)通過數(shù)據(jù)標(biāo)簽體系進(jìn)行關(guān)聯(lián),在一套界面上展示所有的信息,從而快速定位問題;

結(jié)合配置管理CMDB拓?fù)溥M(jìn)行關(guān)聯(lián)分析:按照應(yīng)用或?qū)ο筮M(jìn)行事件聚合,展示告警事件的詳情與關(guān)聯(lián)拓?fù)?,快速排障?/span>

基于歷史經(jīng)驗進(jìn)行定位:借助沉淀到ITSM知識庫中積累的知識經(jīng)驗輔助分析,知識庫需要持續(xù)運營;


② 故障快速處理恢復(fù)

對故障進(jìn)行分類分級處理,針對不同類型故障采用不同處理方法,比如代碼缺陷引發(fā)的故障采用回滾操作、組件異常故障采用高可用集群切換或組件重啟、微服務(wù)調(diào)用復(fù)雜場景的故障采用限流降級等手段

使用故障自愈手段,故障自愈是采用"故障自動化處理"解決方案,提升企業(yè)的服務(wù)可用性和降低故障處理的人力投入,實現(xiàn)故障自愈從“人工處理”到“無人值守”的變革。通過自動化處理節(jié)省人力投入,通過預(yù)定的恢復(fù)流程讓恢復(fù)過程更可靠,通過并行分析達(dá)到更快的故障定位和恢復(fù)。

一句話總結(jié):實時發(fā)現(xiàn)告警,預(yù)診斷分析,自動恢復(fù)故障,并打通周邊系統(tǒng)實現(xiàn)整個流程的閉環(huán)。故障自愈常見快速恢復(fù)手段包括進(jìn)程啟停、清磁盤、主備切換等。

另外,借助ITIL最佳實踐,快速恢復(fù)的實現(xiàn)手段還包括:

集中會診:尤其是出現(xiàn)重大故障時,技術(shù)專家要聚集起來,集中解決故障,恢復(fù)服務(wù)。

事件模型:對于經(jīng)常發(fā)生的問題,可以定義事件模型進(jìn)行記錄。

減少事件發(fā)生:“上醫(yī)治未病,中醫(yī)治欲病,下醫(yī)治已病”,實際上,為了更好的增強業(yè)務(wù)連續(xù)性、提升IT服務(wù)質(zhì)量、提升企業(yè)客戶滿意度,應(yīng)該盡量減少事件的發(fā)生才是上策。

如何減少事件發(fā)生呢?可以從提升變更質(zhì)量、加強問題管理、巡檢體系建設(shè)、提升災(zāi)備演練與自動化切換能力著手。


① 強化變更管理

80%的故障都是變更引起。ITIL4將變更支持實踐中定義的最大化成功服務(wù)和產(chǎn)品的變更主要表現(xiàn)在以下三個方面:確保已正確評估風(fēng)險、授權(quán)進(jìn)行變更、管理變更時間表。促成變更的五個主要活動是:記錄、計劃、批準(zhǔn)、執(zhí)行、回顧。

記錄:包括在公共位置記錄或記錄變更內(nèi)容,以便所有利益相關(guān)者都能了解變更的原因和優(yōu)先級。記錄有助于審查,評估,評估變更的優(yōu)先級。

計劃:包括調(diào)整任務(wù)以及準(zhǔn)備資源和組件。計劃階段的目標(biāo)是確保成功進(jìn)行變更,同時將對現(xiàn)有服務(wù)和組件的影響降到最低。

審批:是進(jìn)行變更需要正式授權(quán)。 授權(quán)的級別取決于變更和公司的文化,高風(fēng)險的變更與規(guī)避風(fēng)險的文化相結(jié)合可能需要更多的利益相關(guān)者批準(zhǔn)。

執(zhí)行:主要是變更的實施。按照所有利益相關(guān)者記錄的議定時間表和步驟執(zhí)行和實施變更。溝通至關(guān)重要。客戶、員工和其他用戶需要知道短期和長期的變化期望。執(zhí)行可以在演練環(huán)境中進(jìn)行驗證,測試對于確保功能和非功能需求至關(guān)重要,盡管測試級別可能會根據(jù)變更類型而有所不同。

回顧:為了提升變更的效率與減少變更的出錯率,變更會遵循計劃的變更時間表,在變更工具平臺(比如變更自動化系統(tǒng)、發(fā)布自動化系統(tǒng))進(jìn)行自動變更。如果變更出錯,需要執(zhí)行回滾計劃。


② 升級問題管理

與事件管理強調(diào)事件恢復(fù)的速度不同,問題管理強調(diào)的是找出事件產(chǎn)生的根源,從而制定恰當(dāng)?shù)慕鉀Q方案或防止其再次發(fā)生的預(yù)防措施。

問題管理流程在運作過程中需要與其他多個流程進(jìn)行信息上的溝通。它需要根據(jù)事件管理、容量管理、配置管理、服務(wù)級別管理等流程提供的信息制定解決方案和應(yīng)急措施;同時它所產(chǎn)生的解決方案和變更請求等信息又需要輸入事件管理和變更管理流程的運作過程。


③ 巡檢體系建設(shè)

如何保證信息系統(tǒng)的安全穩(wěn)定運行,及時發(fā)現(xiàn)和消除信息系統(tǒng)隱患是對企業(yè)信息系統(tǒng)運維人員的巨大挑戰(zhàn)。自動化巡檢的應(yīng)用提升了信息系統(tǒng)運行的可靠性,減輕了運維人員的工作壓力,對大型復(fù)雜信息系統(tǒng)的運維工作模式具有重要示范意義。

通過對機房基礎(chǔ)環(huán)境設(shè)備、網(wǎng)絡(luò)設(shè)備、主機、數(shù)據(jù)庫及中間件系統(tǒng)等實現(xiàn)巡檢,自動收集各種巡檢項指標(biāo),及時發(fā)現(xiàn)系統(tǒng)缺陷和故障,為不同角色的運維人員提供統(tǒng)一的工作平臺。巡檢體系包括對巡檢對象實現(xiàn)全方位的健康性檢測和告警,包含軟硬件基本信息、系統(tǒng)配置、安全配置、系統(tǒng)運行狀態(tài)和系統(tǒng)性能狀態(tài)等方面的檢查。


④ 災(zāi)備演練管理

一般來說,災(zāi)備的級別可以分為數(shù)據(jù)級、應(yīng)用級和業(yè)務(wù)級三個級別。無論數(shù)據(jù)級還是應(yīng)用級,都只是災(zāi)備建設(shè)的技術(shù)手段。災(zāi)備建設(shè)作為一項系統(tǒng)工程,遠(yuǎn)遠(yuǎn)超出了這個技術(shù)范疇。要想災(zāi)備系統(tǒng)在關(guān)鍵時刻能發(fā)揮應(yīng)有的作用,完善的災(zāi)備應(yīng)急預(yù)案、定期的災(zāi)備演練、自動化的災(zāi)備切換和恢復(fù)能力不可缺少。


04. 事件生命周期管理最佳實踐

嘉為藍(lán)鯨一體化運維PaaS平臺,基于藍(lán)鯨平臺打造,實現(xiàn)企業(yè)一體化運維,覆蓋配置管理中心(CMDB)、可觀測中心、IT服務(wù)管理中心(ITSM)、自動化運維中心和多云管理中心的企業(yè)運維場景,并為客戶提供了強大的擴展能力,滿足當(dāng)前及未來運維管理所需。

嘉為藍(lán)鯨可觀測中心,通過監(jiān)控、告警、日志實現(xiàn)故障發(fā)現(xiàn)、故障處理和故障復(fù)盤;覆蓋基礎(chǔ)設(shè)施、應(yīng)用、云原生等企業(yè)各類IT對象,并實現(xiàn)告警治理、指標(biāo)治理、監(jiān)控統(tǒng)一、可視化統(tǒng)一的整體解決方案,并與配置管理中心、IT服務(wù)管理中心、自動化運維中心無縫集成,實現(xiàn)事件生命周期閉環(huán)管理,包括告警收斂、告警關(guān)聯(lián)定位、告警自動轉(zhuǎn)工單、故障自愈等。

同時,通過嘉為藍(lán)鯨自動化運維中心的變更管理、應(yīng)用自動化發(fā)布、自動化巡檢、災(zāi)備切換自動化,以及IT服務(wù)管理中心的問題管理,減少事件故障發(fā)生的概率。

進(jìn)入數(shù)字化時代,IT架構(gòu)面臨的復(fù)雜性越來越高,業(yè)務(wù)連續(xù)性管理這項IT最基本的工作,也成為了很多行業(yè)或企業(yè)IT運維的最核心任務(wù);業(yè)務(wù)連續(xù)性管理是一個持續(xù)不斷提升的過程,圍繞”快速發(fā)現(xiàn)事件→快速響應(yīng)事件→快速定位與處理事件→減少事件發(fā)生”的事件生命周期閉環(huán),結(jié)合一體化運維平臺,是提高業(yè)務(wù)連續(xù)性保障水平的一種不錯思路。

免費申請演示

聯(lián)系我們

服務(wù)熱線:

020-38847288

QQ咨詢:

3593213400

在線溝通:

立即咨詢
查看更多聯(lián)系方式

申請演示

請登錄后在查看!