站長資訊網
        最全最豐富的資訊網站

        一套架構兼容所有計算,螞蟻金服是怎么做到的?

          引言:

          螞蟻金服在過去十五年重塑支付改變生活,為全球超過十二億人提供服務,這些背后離不開技術的支撐。在2019杭州云棲大會上,螞蟻金服將十五年來的技術沉淀,以及面向未來的金融技術創新和參會者分享。我們將其中的優秀演講整理成文并將陸續發布在“螞蟻金服科技”公眾號上,本文為其中一篇。

          正文:

          十幾年來,螞蟻金服一直在解決用技術重塑金融服務的問題,在解決這個問題的過程中涉及到兩個方向的技術領域,第一就是解決怎么把錢從一個帳戶移到另一個帳戶,這個過程中出現海量、安全、可用性問題怎么解決,我們的答案就是多地容災、高可用的分布式架構;第二,新的數字金融時代到來,如何更多更好的利用數據驅動業務發展,也就是數據智能技術。本文將會分享螞蟻在數據智能方面的一些進展,以及我們的思考。

          首先,我們看一下金融數據智能有哪些需求,和傳統的大數據有什么不一樣的地方:

          實時性要求高,實時數據以兩倍以上的速度增長,在線決策越來越多,不再是把數據離線做決策再部署到線上;

          計算場景復雜多樣,以前可能是一個簡單的聚合,逐漸進化到用規則做決策,基于圖、基于機器學習等決策,整個計算的形式越來越多樣化;

          數據鏈路長,研發調試效率低,當你要做全鏈路數據研發的時候,從頭到尾會經歷十幾個系統,對整體的數據研發提出了很大的挑戰;

          計算及存儲高可用,包括跨城市的容災,高可靠的計算服務;

          數據安全、監管合規、風險防控, 需要做嚴格的數據安全和隱私保護,特別在監管層面要合規。

          過去十幾年,計算技術不斷演進,從大規模數據倉庫批計算,到實時計算和流計算,再到交互式分析,一方面能解決一部分問題,另一方面給我們帶來了新的挑戰。比如,多種計算模式帶來多次研發的效率問題,多套系統帶來多樣存儲需求的成本問題,以及不同容災和數據安全要求帶來的復雜度問題等。

          為了解決計算多樣性帶來的問題,我們需要一個更為開放的計算架構。

          螞蟻金服開放計算架構

          做一套系統解決一切問題是技術人員很自然的想法,但難點是怎么定義這個系統的邊界。我們認為,計算和業務本身是緊密連接的,業務的需求變化很有可能需要探索越來越多的計算模式。所以我們的實踐是這樣的開放計算架構,它在不同層面上做了統一,以兼容不同的計算模式。

          首先是統一存儲層,將各個存儲系統打通進行數據共享,這樣一來就可以根據計算需求做定制化的優化,內部數據自動回流。

          第二是統一數據安全規范,在統一存儲上實現統一元數據管理及接入,并且數據血緣互通,統一鑒權及數據訪問權限體系,統一數據安全等級和隱私保護體系。

          第三是統一編程模型,基于標準SQL和擴展,做業務研發的時候面對的是下層抽象出來的數據,真正做面向數據的編程,不需要關注用交互式分析還是其它計算模式,也不需要關注數據是如何存儲的。這樣做數據研發以及寫業務邏輯的時候可以提升效率。這方面我們做了很多的探索,目標就是當你在做SQL研發的時候可以降低兩個數量級,原來可能要寫幾萬行代碼,現在只寫幾百行。

        一套架構兼容所有計算,螞蟻金服是怎么做到的?

          經過這些統一我們形成了如上的架構,這個架構可以根據新的技術進一步擴展。

          開放計算架構下的AI引擎

          AI計算是開放架構下重要的能力,我們需要打造更加靈活智能的AI引擎。

        一套架構兼容所有計算,螞蟻金服是怎么做到的?

          目前絕大多數公司的人工智能系統,會遵循這樣一個架構:有一個數據倉庫或集群進行數據清洗和預處理,然后取出一個表,和數據標注一起在一個模型平臺上進行訓練,訓練出來的模型最后再部署到線上去進行預測。這整個流程經過了多個系統,所以這個數據事實上可能會有多份存儲,加上模型的傳輸也會花費比較多的時間,你很難做到真正的實時性,這里面用戶也往往需要研發多個平臺和組件才能滿足需求。

        一套架構兼容所有計算,螞蟻金服是怎么做到的?

          開放架構下可以插入AI引擎,我們在SQL層和深度學習引擎都做了一些工作。SQLFLow相當于用SQL描述你對應用的需求,底層會直接針對SQL產生出機器學習的任務來訓練模型。

          ElasticDL我們剛剛在9月11日宣布開源(頭條附上超鏈接https://www.toutiao.com/i6735349206833168903/),它是基于TensorFlow的一個彈性調度的AI引擎。當你資源緊張或者發生錯誤時,仍然可以進行高效的AI訓練。同時它讓AI的訓練變得更加簡單,可以在命令行直接訓練Keras模型。通過這些工具,我們希望讓AI的訓練和整個使用過程更加的簡潔。

          關于SQLFlow和ElasticDL想了解更多可以可以查看他們的開源主頁sqlflow.org 和 elasticdl.org

          在開放性的架構下,事實上也不需要做引擎的改變,一般的模式是,當有一個新的引擎或工具可以直接拿過來使用,使用完了覺得需要優化,就在上面迭代提升。

          開放計算架構下的金融級圖計算

          在金融領域里,金融場景大量依賴于圖數據,我們需要強大的圖計算能力,那么開放計算架構如何支持圖計算呢?

        一套架構兼容所有計算,螞蟻金服是怎么做到的?

          上圖是螞蟻整個圖計算發展的歷程,四年以前我們從做圖數據產品開始,到做離線全圖的迭代計算引擎,然后做流圖融合的引擎,然后是高速的圖緩存,以及到現在把圖相關的所有東西聚合起來,做成一站式的圖平臺。

        一套架構兼容所有計算,螞蟻金服是怎么做到的?

          首先第一個是金融級分布式圖數據庫GeaBase,解決的問題是,當你有海量的圖數據,數據之間有關系的時候,提供強一致、高容量的存儲。它和現有的一些圖數據庫最大的區別是,很多現有的圖數據庫都是把所有數據收起來做一個計算,這是最簡單的做法,但會導致性能瓶頸,我們做的是把計算下發到worker以實現分布式的高性能。同時GeaBase可以根據用戶的業務需求去選擇需要什么樣的一致性。

        一套架構兼容所有計算,螞蟻金服是怎么做到的?

          然后是大規模全圖計算,采用了自適應的分區策略來降低資源門檻,因為很多圖計算里面都是需要把全圖加載到內存里面,然后進行迭代,這種情況一些超大圖對內存的需求量非常高,所以我們做了一些優化希望降低資源的使用率。同時我們也能夠更靈活的支持更多的圖算法,以及能夠做非常大規模高效圖關系的挖掘,這個也已經在內部的風控場景落地。

          然后還有在線流圖融合,螞蟻研發了業界首個實時多模融合計算框架。起因是我們發現,在業務中有很多時候有數據進來,同時要進行很多的圖計算,計算完結果以后再輸出,這在業界也是比較前沿的探索課題,我們做到了在海量大圖上同時能夠做很多層的計算。

        一套架構兼容所有計算,螞蟻金服是怎么做到的?

          基于對圖計算的強烈需求,我們做了一個高性能的圖緩存,里面的關鍵技術是基于無沖突的Hash函數,以及對于圖數據結構的壓縮。大家可以看下圖中的效果,我們最高可以壓縮到原始數據的五分之一,性能為業界優秀同類產品的2-5倍。

        一套架構兼容所有計算,螞蟻金服是怎么做到的?

          當有了這么多系統后,我們遇到的問題是,在一個場景下需要針對多個引擎做研發,所以我們開發了一站式平臺AntGraph,為從開發調試到生產上線整個流程提供便利。我們把所有的訪問統一到一個Graph SQL下面,關于這個我們也在進行一些額外的探索,因為到底SQL是不是最適合于Graph語言是有爭議的,但我們可以用SQL部分描述性的功能再加上一些擴展,可以完成我們想要的功能。

        一套架構兼容所有計算,螞蟻金服是怎么做到的?

          經過前面針對圖計算能力的研發后,我們擁有多個圖計算引擎,同時為了優化客戶體驗,在上層也用SQL語言進行統一。這樣我們的開放計算架構就擁有了強大的圖計算能力。

          開放計算架構下的融合計算

          經過前面的研發,開放計算架構里有了大量的計算引擎,雖然在上層進行了統一,但這種情況往往不是最優的選擇。當我們對已有的計算模式已經有把握,了解的比較清楚的時候,有沒有可能對它們進行更多的優化?很多情況下用戶需要的是要多種模式融合起來的計算,有時候需要流加上圖,有時候需要流加機器學習加其他的東西,我們給出的答案就是融合計算引擎。

        一套架構兼容所有計算,螞蟻金服是怎么做到的?

          融合計算在底層基于Ray,Ray是螞蟻金服聯合 UC Berkeley 大學推進的新一代計算引擎,融合計算通過一套引擎解決復雜場景問題,通過動態計算及狀態共享提高效率,實現研發、運行時、容災一體化。

          融合計算已經在螞蟻若干場景中落地,包括:

          動態圖推導,流+圖計算,性能上可以1秒內完成6層迭代查詢,用于實時反套現、欺詐識別;

          金融在線決策,流+分布式查詢+在線服務,性能上數據生產到分布式查詢一秒內,用于金融網絡監控、機構渠道路由等;

          在線機器學習,流+分布式機器學習,性能上實現秒級數據樣本到模型更新,用于智能營銷、實時推薦、流控等。

        一套架構兼容所有計算,螞蟻金服是怎么做到的?

          融合計算并不會取代其它的引擎,而是作為補充,用于部分合適的場景。通過上面的分享可以看到,這套架構可以容納各種不同種類和作用的計算引擎,這也是開放二字的意義,如果未來有一個新的引擎,或者業務對數據有新的需求,完全可以插入自己的引擎直接使用。

        一套架構兼容所有計算,螞蟻金服是怎么做到的?

          最后總結一下螞蟻金服對數據智能未來的整體愿景,我們希望未來的存儲是可以打通的,所有的引擎是可以插拔、融合的,上層希望有標準的數據訪問模式,所有的這一套組合在一起,我們把它叫做Big Data Base。我們認為,大數據經過過去十多年的發展,一定會進化到下一個階段,對數據的增刪改查會像數據庫一樣簡單。

          另外一個層面,Big Data Base還意味著可以在一個體系中很方便的使用包含機器學習、圖計算以及未來各種各樣的計算引擎。這套開放計算架構中的很多組件我們已經開源,這個大的體系我們還在研發過程中,未來會和大家分享更多的細節,希望大家能夠一起參與進來,把金融的數據智能領域推到下一個階段。

        特別提醒:本網內容轉載自其他媒體,目的在于傳遞更多信息,并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

        贊(0)
        分享到: 更多 (0)
        網站地圖   滬ICP備18035694號-2    滬公網安備31011702889846號
        主站蜘蛛池模板: 久久久久亚洲精品无码网址 | 日产国产精品亚洲系列| 国产欧美日韩综合精品一区二区| 99精品久久久久久久婷婷| 国产区精品一区二区不卡中文 | 精品久人妻去按摩店被黑人按中出 | 国产欧美一区二区精品性色99 | 看99视频日韩精品| 国产69精品久久久久9999| 国内精品人妻无码久久久影院| 久久久久久极精品久久久| 98精品国产自产在线XXXX| 久久91精品久久91综合| 国产精品无码一区二区三级 | 亚洲欧洲国产精品香蕉网| 精品午夜国产人人福利| 97国产视频精品| 欧美精品免费在线| 国产精品久久久久久一区二区三区| 日韩AV无码精品人妻系列| 亚洲精品无码永久中文字幕| 四虎精品成人免费视频| 麻豆国内精品欧美在线| 久久精品中文字幕有码| 国产午夜亚洲精品国产成人小说| 99久久精品免费看国产| 91麻豆精品一二三区在线| 欧美一卡2卡3卡四卡海外精品| 99国产精品国产精品九九| 国产亚洲精品美女久久久 | 久久久精品免费国产四虎| 国产亚洲福利精品一区| 国产福利微拍精品一区二区 | 无码精品人妻一区二区三区漫画| 亚洲精品国产精品乱码视色| 亚洲国产午夜中文字幕精品黄网站| 青草国产精品视频。| 日韩精品欧美亚洲| 亚洲精品欧美精品日韩精品| 亚洲精品无码专区在线播放| 亚洲欧美日韩国产精品一区二区|