設想一下,如果北京市600多萬機動車保有量的交通出行沒有有效的運營指揮與管理,那會形成什么景象?恐怕帶來的不僅是擁堵,大規模的交通違章與事故也在所難免。
與此類似,數字世界的IT運維如同城市的智慧交通管理,目的要確保高質量、高效率的業務系統運行,提高服務可用性。然而理想很豐滿,現實很骨感。
和現實中市民時常遇到交通堵塞時產生的抱怨一樣,在線上IT業務出現不穩定、甚至宕機時,運維人員的噩夢也就來了,業務人員指責、領導不滿再正常不過。


如何改變這一現狀,運維人員渴望喝著咖啡搞運維,而不再是不斷奔波救火。其實為了實現這一目標,業內進行了諸多探索。從最早的人工命令行運維到系統化工具運維,再到自動化運維,可以說,運維的自動化程度在不斷升級。不過,這離運維人員要達到的目標還有很長的距離。
數字化運維之難
之所以說離喝著咖啡搞運維的目標還有很遠,是因為現實中數字化運維面臨諸多難題,說起來這和交通治理難題很像。
首先以運營來說,數據分散在各個運維系統中,未進行統一的管理,一個個“煙囪”的樹立在企業很是常見,這也就導致運維數據的價值未能充分利用;其次在運維方式上,各個部門使用各自運維工具,“七國八制”現象嚴重,未能實現多部門運維能力的共享,更談不上統一監控運維;第三在運維手段上,傳統的運維工具和方法都只能在故障發生時發出告警并進行提醒,“事后諸葛”無法最大化運維的價值。
如何消除這些難題,Gartner曾提出AIOps理念,目的是利用機器學習、AI等技術提升運維的智能化水平,甚至是“無人值守”。怎么去實現?一個踐行AIOps理念的統一運維平臺尤為重要,華為就推出了這樣的平臺。
華為I?MOC將運維推向智能
面向新技術、新場景和新應用的運維創新,是未來數字化轉型的必然選擇。為此,華為I?MOC(Intelligent Maintenance and Operation Center)統一運維平臺,以“監、管、控、營、服”五大智能運維管理體系,帶來全新的“可視、智能、易用”運維體驗,并將運維能力推向智能化水平。


首先來說,為什么華為I?MOC能將運維推向智能?
華為I?MOC包含了“監、管、控、營、服”五大能力,具體有eWatch集中監控平臺、eCMDB配置管理系統、eOps統一操作自動化平臺、eSee運維數字化平臺和eTicket工單服務系統。
“管”把所有資源進行統一登記,打破煙囪,不同于傳統的孤立和單點式運維,I?MOC構建了覆蓋機房、基礎設施、網絡、數據、應用、安全的一體化運維體系。eCMDB實現了配置實時動態更新,并打造了按需隨享、高性能、高質量的配置可視數據服務,讓配置像云一樣按需隨享。
“監”實時把握IT資源運行狀況,運維監控中心全局查看所有對象的告警狀態。“告警查看”深入分析告警詳細情況,“性能看板”實時更新對象運行狀態,“運維監控場景”實現對象關系圖形定義和實時數據綁定到拓撲……總之來說,eWatch運維集中監控平臺實現了7*24H無縫值守,秒級告警監控,極速性能感知,故障自動通知,智能修復自愈。
“控”和“服”處理運維產生的問題:eOps統一操作自動化平臺實現可編程、可配置、自主調度執行,通過標準化的開發框架及服務API,支撐外圍豐富的應用生態圈;eTicket工單服務系統結合ITIL、DevOps理念,內置符合日常運維工作需要的流程場景,支持根據實際維護需求進行流程自定義調整,提升流程處理的協作能力。
“營“把所有資產、資源的使用狀況、運行狀況以及健康狀況集中可視化展示。如同面向運維管理人員的“駕駛艙”,eSee運維數字化平臺拉通各維度運營數據,打破互聯信息孤島,提供可視化、自動化、智能化的運維數字化服務,實現“毛細血管級”的資產運維數字化,讓運維人員做到心中有數。
其次,為什么說華為I?MOC帶來了全新運維體驗?
華為I?MOC構建了統一在線可視化平臺,實現全網資源實時可視;通過建設專業智能平臺,固化專家經驗、流程,I?MOC實現“機器”運維“機器”,從而解放人力;I?MOC還內置了20+類標準,支持業務拖拽式“私人定制”,提升易用水平。
其中尤其在“機器”運維“機器”方面,I?MOC通過在高度完善的運維自動化基礎之上,通過機器學習不斷從運維大數據如日志、監控信息、應用信息等中提煉和總結規則,進而做出智能化的分析決策達到運維系統的整體目標,以機器自判、自斷和自決提升智能運維水平,這也是實現AIOps的關鍵能力支撐。
華為將三十年運維經驗能力復制到更多企業
將運維推向智能,并帶來全新運維體驗,華為為什么能做到?這離不開多年實踐經驗中的沉淀。
伴隨華為自身的發展歷程,從人拉肩扛的救火式運維,到分散式運維,到自動化、平臺化運維,到服務化、數字化運維,華為積累了豐富的運維轉型經驗。當前,華為運維支撐了全球200多個數據中心、5萬多個機柜、30萬臺服務器、1000+PB的數據、百萬級VM和多個異構云環境,800多項業務的正常運轉,使得人機維護比達到1:8000,用“喝著咖啡搞運維”來形容一點都不為過。
現在,華為將這些實踐經驗沉淀開放出來,并運用于客戶運維場景中。例如,某客戶通過部署華為I?MOC運維平臺,將全局14套網管平臺整合到一個統一運維平臺中,統一接入的設備數量超過10萬,實現自動告警和派單,運維效率提升3倍。
在運維能力提升過程中,最為重要的是,運維體系需要伴隨數字化轉型不斷同步與升級,否則又容易出現運維之痛的循環。如今AIOps概念的誕生,就是伴隨智能技術的發展應運而生,但實現AIOps運維,需要有足夠的技術實力、資源和數據錘煉。而業內像華為這樣有著龐大的業務和資源體量的企業少之又少,所以,華為能夠將三十年運維實踐經驗復制到更多的企業,讓運維難題迎刃而解。