站長資訊網(wǎng)
        最全最豐富的資訊網(wǎng)站

        AI時(shí)代的全鏈路監(jiān)控,阿里工程師怎么做?

        AI時(shí)代的全鏈路監(jiān)控,阿里工程師怎么做?

          阿里妹導(dǎo)讀:全鏈路監(jiān)控從業(yè)務(wù)的視角出發(fā),監(jiān)控整個(gè)業(yè)務(wù)流程的健康狀況,無需多個(gè)系統(tǒng)切換,直觀看到全局和上下游,方便快速發(fā)現(xiàn)、定位問題。今天,我們一起來看看阿里基礎(chǔ)設(shè)施技術(shù)團(tuán)隊(duì)在這方面的實(shí)踐經(jīng)驗(yàn)。

          背景

          近年來,隨著阿里新業(yè)務(wù)、新技術(shù)的快速發(fā)展,傳統(tǒng)的業(yè)務(wù)總量“監(jiān)控大盤”已經(jīng)越來越不能滿足監(jiān)控需求,主要表現(xiàn)在以下幾個(gè)方面:

          缺乏全局視角:“監(jiān)控大盤”主要反映的是單個(gè)業(yè)務(wù)或應(yīng)用的運(yùn)行狀態(tài),缺少全局的業(yè)務(wù)視角能反應(yīng)整個(gè)“業(yè)務(wù)域”的上下游整體的運(yùn)行情況。比如交易系統(tǒng)成功率下跌,想看看是不是優(yōu)惠出問題了,但是不知道“優(yōu)惠”的業(yè)務(wù)監(jiān)控在哪里,只能依賴”優(yōu)惠”的同學(xué)去排查,釘釘電話溝通,大家一起拼湊信息,上下游協(xié)調(diào)成本很高。

          監(jiān)控標(biāo)準(zhǔn)不統(tǒng)一:一直以來“業(yè)務(wù)監(jiān)控”都是自定義的,依賴開發(fā)人員的個(gè)人經(jīng)驗(yàn),往往系統(tǒng)、業(yè)務(wù)監(jiān)控混在一起,沒有標(biāo)準(zhǔn),業(yè)務(wù)之間不能比較;各系統(tǒng)監(jiān)控能力參差不齊,很容易出現(xiàn)業(yè)務(wù)鏈路中的監(jiān)控?cái)鄬?業(yè)務(wù)監(jiān)控缺少一套行之有效的方法論,新人或者新業(yè)務(wù)對于業(yè)務(wù)要怎么監(jiān)控,不知道如何下手、不知道自己配的監(jiān)控是否覆蓋全面,只有等到故障發(fā)生以后才去補(bǔ)監(jiān)控。

          缺少業(yè)務(wù)視角:隨著阿里業(yè)務(wù)飛速發(fā)展,特別是“大中臺(tái)”的建設(shè),使得傳統(tǒng)的“總量”監(jiān)控已經(jīng)不能滿足需求,比如一個(gè)“交易”中臺(tái)業(yè)務(wù)就會(huì)有數(shù)十個(gè)“業(yè)務(wù)方”調(diào)用,單純的總量監(jiān)控會(huì)把小調(diào)用量的業(yè)務(wù)淹沒,必須按每個(gè)業(yè)務(wù)方的“業(yè)務(wù)身份”進(jìn)行監(jiān)控。對于像“盒馬”、“淘鮮達(dá)”這樣的新零售業(yè)務(wù),這樣的問題更加突出,一家門店出現(xiàn)交易異常對于“交易總量”來說是微不足道的,但是對這件門店的客戶體驗(yàn)來說是災(zāi)難性的。

          監(jiān)控配置成本高:“業(yè)務(wù)監(jiān)控”一直都是由“開發(fā)人員”純手工打造,需要經(jīng)過日志埋點(diǎn)、監(jiān)控配置、報(bào)警閾值設(shè)置,整個(gè)過程費(fèi)時(shí)費(fèi)力,缺乏自動(dòng)化、智能化監(jiān)控的手段,這也是造成各系統(tǒng)監(jiān)控能力參差不齊的重要原因,一些新業(yè)務(wù)因?yàn)闊o力投入大量精力配置監(jiān)控,導(dǎo)致業(yè)務(wù)監(jiān)控能力缺失。

          全景式監(jiān)控

          業(yè)務(wù)全鏈路監(jiān)控從業(yè)務(wù)的視角出發(fā),監(jiān)控整個(gè)業(yè)務(wù)流程的健康狀況,無需多個(gè)系統(tǒng)切換,直觀看到全局和上下游,方便快速發(fā)現(xiàn)、定位問題。

        AI時(shí)代的全鏈路監(jiān)控,阿里工程師怎么做?

          建立了完整的“業(yè)務(wù)監(jiān)控模型”,為業(yè)務(wù)建立起一個(gè)從“宏觀”到“微觀”的全景式業(yè)務(wù)監(jiān)控體系,結(jié)束了業(yè)務(wù)監(jiān)控沒有標(biāo)準(zhǔn),只能純手工打造的歷史。業(yè)務(wù)監(jiān)控模型主要包括3部分:

          業(yè)務(wù)域:一個(gè)完整的業(yè)務(wù)或產(chǎn)品稱為“業(yè)務(wù)域”,如電商的“交易域”、“營銷域”、“支付域”等。

          業(yè)務(wù)活動(dòng):業(yè)務(wù)域中的的核心業(yè)務(wù)用例叫做“業(yè)務(wù)活動(dòng)”,如交易域的“下單確認(rèn)”、“創(chuàng)建訂單”等,業(yè)務(wù)活動(dòng)是整個(gè)監(jiān)控模型的核心,每個(gè)業(yè)務(wù)活動(dòng)都會(huì)有標(biāo)準(zhǔn)的【黃金指標(biāo)】來反應(yīng)自身的健康狀況,業(yè)務(wù)活動(dòng)之間建立上下游關(guān)系就形成了業(yè)務(wù)鏈路。

          系統(tǒng)服務(wù):業(yè)務(wù)活動(dòng)中的依賴的關(guān)鍵方法稱作“系統(tǒng)服務(wù)”,如“下單確認(rèn)”包含:查詢會(huì)員、查詢商品、查詢優(yōu)惠等關(guān)鍵方法,每個(gè)系統(tǒng)服務(wù)也通過【黃金指標(biāo)】來表示其健康狀況。

          監(jiān)控流程

        AI時(shí)代的全鏈路監(jiān)控,阿里工程師怎么做?

          以“監(jiān)控模型”為基礎(chǔ),我們總結(jié)出了一套如何做好“業(yè)務(wù)監(jiān)控”的方法論,并將其沉淀到產(chǎn)品中。

          梳理關(guān)鍵業(yè)務(wù): 業(yè)務(wù)方需要梳理出自己的核心業(yè)務(wù)是什么(業(yè)務(wù)活動(dòng)),以及這些核心業(yè)務(wù)的關(guān)鍵依賴有哪些(系統(tǒng)服務(wù))。

          監(jiān)控?cái)?shù)據(jù)埋點(diǎn):提供了無侵入的配置化監(jiān)控SDK,只要將“業(yè)務(wù)活動(dòng)”和“系統(tǒng)服務(wù)”對應(yīng)的方法填寫到配置文件中即可,系統(tǒng)會(huì)自動(dòng)收集,計(jì)算,上報(bào)監(jiān)控?cái)?shù)據(jù)。

          監(jiān)控鏈路:系統(tǒng)根據(jù)收集的數(shù)據(jù)自動(dòng)生成業(yè)務(wù)鏈路,每個(gè)“業(yè)務(wù)活動(dòng)”和“系統(tǒng)服務(wù)”節(jié)點(diǎn)都自動(dòng)生成流量、耗時(shí)、成功率的黃金指標(biāo),同時(shí)每個(gè)‘節(jié)點(diǎn)’都可以通過鉆取查看詳細(xì)的監(jiān)控?cái)?shù)據(jù),包括:不同機(jī)房、單元、分組的數(shù)據(jù)對比,每個(gè)業(yè)務(wù)身份的明細(xì)調(diào)用情況等。

          異常檢測:業(yè)務(wù)鏈路涉及節(jié)點(diǎn)眾多,必須要有完善的異常檢測機(jī)制來幫助用戶自動(dòng)發(fā)現(xiàn)問題,我們提供了“智能基線預(yù)警”和“專家規(guī)則預(yù)警”相結(jié)合的異常檢測機(jī)制,無需用戶逐個(gè)配置報(bào)警規(guī)則,自動(dòng)發(fā)現(xiàn)異常節(jié)點(diǎn),實(shí)時(shí)將這些節(jié)點(diǎn)“標(biāo)紅”,異常的詳細(xì)信息也會(huì)同步顯示,方便用戶快速發(fā)現(xiàn)和定位問題。

          通過業(yè)務(wù)全鏈路監(jiān)控,可以做到對業(yè)務(wù)域的監(jiān)控標(biāo)準(zhǔn)化和全覆蓋,避免了自定義監(jiān)控覆蓋不全面、不標(biāo)準(zhǔn)、配置工作量大的問題,使得老板、PD、運(yùn)營、監(jiān)控值班等用戶都可以快速了解業(yè)務(wù)是否有問題。

          黃金指標(biāo)

        AI時(shí)代的全鏈路監(jiān)控,阿里工程師怎么做?

          引入Google的黃金指標(biāo)概念,改變了業(yè)務(wù)監(jiān)控完全依賴自定義的現(xiàn)狀,為業(yè)務(wù)監(jiān)控樹立了標(biāo)準(zhǔn)。

          流量 :業(yè)務(wù)在單位時(shí)間內(nèi)的調(diào)用量,如:服務(wù)的QPS、每秒訂單筆數(shù)等。

          耗時(shí) :業(yè)務(wù)的具體處理時(shí)長,需區(qū)分成功耗時(shí)和失敗耗時(shí)。

          錯(cuò)誤 :調(diào)用出錯(cuò)數(shù)量、成功率、錯(cuò)誤碼。

          飽和度 :應(yīng)用已使用資源的占比。

          由于飽和度更多反應(yīng)的是應(yīng)用的層面情況,所以業(yè)務(wù)監(jiān)控使用流量、耗時(shí)、錯(cuò)誤這三個(gè)指標(biāo)就能很好的回答“業(yè)務(wù)”是否健康的問題,在“業(yè)務(wù)全鏈路監(jiān)控”中每個(gè)業(yè)務(wù)活動(dòng)和系統(tǒng)服務(wù)都會(huì)標(biāo)配這三個(gè)監(jiān)控指標(biāo)。

          除了黃金指標(biāo)以外,還可以根據(jù)各自業(yè)務(wù)的不同特點(diǎn),定義各種分維度的輔助指標(biāo),比如:按不同的業(yè)務(wù)身份,按商家、按門店分,不同的錯(cuò)誤碼等等,用于進(jìn)一步細(xì)化和定位問題。

          業(yè)務(wù)維度

        AI時(shí)代的全鏈路監(jiān)控,阿里工程師怎么做?

          傳統(tǒng)的“總量”指標(biāo)已經(jīng)不能滿足中臺(tái)、盒馬這樣的業(yè)務(wù)監(jiān)控需求了,通過可擴(kuò)展的業(yè)務(wù)維度實(shí)現(xiàn)對業(yè)務(wù)身份、商家、門店的精細(xì)化監(jiān)控。像“交易”這樣的中臺(tái)業(yè)務(wù)會(huì)被幾十個(gè)業(yè)務(wù)方調(diào)用,總量沒有異常并不代表具體的業(yè)務(wù)方?jīng)]有問題,而是需要監(jiān)控每一個(gè)業(yè)務(wù)方各自的調(diào)用情況,只要有一個(gè)出現(xiàn)異常就要預(yù)警。

          橫向業(yè)務(wù)維度:業(yè)務(wù)全鏈路監(jiān)控提供了“橫向業(yè)務(wù)維度”功能,能夠方便的配置“業(yè)務(wù)身份”、“商家”、“門店”等特定的業(yè)務(wù)維度,可以對一個(gè)業(yè)務(wù)域中所有的“業(yè)務(wù)活動(dòng)”和“系統(tǒng)服務(wù)”按一個(gè)維度過濾,比如可以對交易鏈路按“盒馬”這個(gè)業(yè)務(wù)身份過濾,從而在鏈路上看到的是盒馬的交易調(diào)用情況。

          配置化埋點(diǎn)

        AI時(shí)代的全鏈路監(jiān)控,阿里工程師怎么做?

          監(jiān)控SDK使用AOP切面技術(shù)實(shí)現(xiàn)了配置化埋點(diǎn)能力,業(yè)務(wù)系統(tǒng)引入監(jiān)控SDK后,通過簡單的一個(gè)配置文件即可完成監(jiān)控埋點(diǎn),自動(dòng)完成數(shù)據(jù)的攔截、計(jì)算、上報(bào),與業(yè)務(wù)代碼完全解耦。

          鏈路自動(dòng)生成

        AI時(shí)代的全鏈路監(jiān)控,阿里工程師怎么做?

          自動(dòng)生成應(yīng)用核心鏈路、黃金指標(biāo)、業(yè)務(wù)維度大盤,無需用戶配置,用戶還可以通過可視化編輯頁面對鏈路進(jìn)行調(diào)整。

          智能基線預(yù)警

        AI時(shí)代的全鏈路監(jiān)控,阿里工程師怎么做?

          通過機(jī)器學(xué)習(xí)快速預(yù)測指標(biāo)的合理范圍,一旦超出邊界就會(huì)自動(dòng)觸發(fā)報(bào)警,無需配置閾值。

          智能基線預(yù)警已經(jīng)在業(yè)務(wù)自定義監(jiān)控中得到了驗(yàn)證(已經(jīng)有超過1200指標(biāo)接入),準(zhǔn)確率和召回率相對于人工配置都有大幅提高,現(xiàn)在我們將該技術(shù)引入“業(yè)務(wù)全鏈路監(jiān)控”,實(shí)現(xiàn)對業(yè)務(wù)活動(dòng)的智能異常檢測,全程無人參與。

          實(shí)戰(zhàn)

          實(shí)戰(zhàn)1-交易全局鏈路

        AI時(shí)代的全鏈路監(jiān)控,阿里工程師怎么做?

          交易域的全局業(yè)務(wù)鏈路,鏈路中列出交易的關(guān)鍵“業(yè)務(wù)活動(dòng)”,省略了每個(gè)業(yè)務(wù)活動(dòng)的“系統(tǒng)服務(wù)”等細(xì)節(jié),主要用于全鏈路壓測,大促投屏等需要關(guān)注全局狀態(tài)的業(yè)務(wù)場景,已在6.18大促中得到實(shí)際應(yīng)用。

          實(shí)戰(zhàn)2-交易核心鏈路

        AI時(shí)代的全鏈路監(jiān)控,阿里工程師怎么做?

          交易是整個(gè)電商的核心,我們通過“鏈路自動(dòng)生成”能力生成了核心業(yè)務(wù)鏈路,其中綠色節(jié)點(diǎn)為“業(yè)務(wù)活動(dòng)”,黃色節(jié)點(diǎn)為“業(yè)務(wù)活動(dòng)”依賴的“系統(tǒng)服務(wù)”。

          通過業(yè)務(wù)鏈路可以很方便了解交易活動(dòng)的運(yùn)行狀況,一旦業(yè)務(wù)活動(dòng)出現(xiàn)問題也可以更加直觀的發(fā)現(xiàn)與下游依賴的關(guān)系。

          實(shí)戰(zhàn)3-POS服務(wù)端鏈路

        AI時(shí)代的全鏈路監(jiān)控,阿里工程師怎么做?

          POS是整個(gè)新零售場景線下支付場景的交易核心,下線支付場景對交易系統(tǒng)提出更加嚴(yán)格的可靠性要求,通過POS業(yè)務(wù)鏈路可以很好的監(jiān)控POS交易各環(huán)節(jié)的運(yùn)行情況,及時(shí)發(fā)現(xiàn)交易異常。

          同時(shí)POS鏈路添加了“商家”、“門店”的業(yè)務(wù)維度,可以實(shí)時(shí)切換“盒馬”,“大潤發(fā)”等不同商家的POS交易情況,實(shí)現(xiàn)針對每個(gè)商家精細(xì)化監(jiān)控。

          關(guān)于我們

          集團(tuán)監(jiān)控平臺(tái)團(tuán)隊(duì)是阿里巴巴研發(fā)效能事業(yè)部下的監(jiān)控開發(fā)團(tuán)隊(duì),面向阿里龐大的應(yīng)用生態(tài)與海量的服務(wù)器,致力于打造業(yè)內(nèi)一流的智能化監(jiān)控平臺(tái),保障阿里集團(tuán)各業(yè)務(wù)的穩(wěn)定運(yùn)行。我們非常歡迎各位監(jiān)控領(lǐng)域的產(chǎn)品或技術(shù)牛人加入我們團(tuán)隊(duì)。歡迎投遞簡歷至:jingjie@taobao.com。

        特別提醒:本網(wǎng)內(nèi)容轉(zhuǎn)載自其他媒體,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,并請自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時(shí)聯(lián)系我們,本站將會(huì)在24小時(shí)內(nèi)處理完畢。

        贊(0)
        分享到: 更多 (0)
        網(wǎng)站地圖   滬ICP備18035694號(hào)-2    滬公網(wǎng)安備31011702889846號(hào)
        主站蜘蛛池模板: 久久中文精品无码中文字幕| 久久精品麻豆日日躁夜夜躁| 一本色道久久88—综合亚洲精品| 国内精品久久久久影院免费| 中文字幕日本精品一区二区三区| 白浆都出来了视频国产精品| 国内精品久久久久影院优| 欧美成人精品网站播放| 国产国产成人久久精品| 国产精品欧美日韩| 精品无人码麻豆乱码1区2区| 日韩欧美一区二区三区中文精品| 国产精品被窝福利一区| 亚洲无删减国产精品一区| 大桥未久在线精品视频在线| 久久亚洲欧美国产精品| 一本一本久久A久久综合精品| 久久丝袜精品中文字幕| 惠民福利中文字幕人妻无码乱精品| 精品一区二区三区在线视频| 97精品国产一区二区三区| 精品国产福利一区二区| 人妻熟妇乱又伦精品视频 | 精品国产免费人成网站| 免费视频精品一区二区三区| 精品久久久久久中文字幕| 国产精品久久一区二区三区| 99热精品在线观看| 国产精品亚洲片夜色在线| 国产在线拍揄自揄视精品不卡| 91视频精品全国免费观看| 2022国产精品福利在线观看| 99久久久精品| 欧美成人精品一级高清片| 91精品国产福利在线观看麻豆| 亚洲欧美日韩精品久久| 国产精品五月天强力打造| 国产偷国产偷高清精品| 久久精品国产精品亚洲人人| 日韩在线精品一二三区| 亚洲精品无码av人在线观看 |