青云科技(qingcloud.com) AI 算力發布會上,國家超級計算濟南中心(下文簡稱:濟南超算)總工程師王繼彬博士圍繞算力平臺建設與運營主題做了精彩分享。
以下為演講全文,經整理:
濟南超算
發展概況&建立歷程
濟南超算由國家科技部批準成立,創建于 2011 年 10 月,同時落地國內第一臺采用完全自主處理器的超級計算機。

其發展歷程主要包括五個階段:
2011 年:濟南超算成立并落地“神威·藍光”超級計算機。
2018 年:研制“神威 E 級原型機”讓整體算力實現 3 倍提升。
2019 年:在省市支持下成立了首個以超算為主題的科技園區,主要布局超算應用生態做相關產業升級。
2021 年:上線山河超級計算機,主要圍繞通用超算的應用場景構建。
2022 年:發布新一代“神威·藍光 Ⅱ”超級計算機,實現核心部件完全國產化,整體算力達到 14PFlops。

在組織架構上,濟南超算有學術委員會和主任委員會,同時下設三個部門:業務支撐部門、科研團隊,另落地兩個相關科研平臺。
圍繞成果轉化濟南超算孵化了一系列相關企業,譬如與青云科技聯合成立了泉云智慧公司,主打算力服務及其相關產品。在科創平臺建設上基于實驗室、技術中心、創新平臺擁有豐富的資源支撐,主要圍繞云計算、大數據、人工智能、高性能計算四個方向展開。同時濟南超算多次獲得省級科技進步獎,斬獲 Top500、國內 HPC Top100、國際人工智能算力 AIPerf500 等多項榮譽。
算力資源建設
融合發展&科學運營
濟南超算資源平臺建設規劃主要圍繞五個平臺:高性能計算、人工智能計算、云計算、工業仿真計算、數據存儲與災備平臺。
以多計算集群融合發展的思路,濟南超算目前人工智能計算集群達 1000 PFlops,超 2500 個節點,其中人工智能和云計算集群都按照混合異構方式構建。具體來看,超級計算集群不僅在 2022 年落地了“神威·藍光Ⅱ”超級計算機,整體算力約 14PFlops,這是采用新一代國產自主處理器構建千萬億次的國產超級計算機。還落地了面向通用應用場景的山河超級計算集群,整體集群算力達到 60PFlops,存儲容量達到 17PFlops,數據傳輸帶寬達到 1TB。

山河超級計算集群
計算資源:山河超級計算集群高性能計算資源超 50 萬物理核心,為適應特殊行業領域計算規劃建設了大內存節點,單節點內存可達 1.5TB,云計算集群實現從 IaaS、PaaS 到 SaaS 全方位覆蓋,提供超 60 種云服務。
云服務:山河超級計算集群與青云聯合打造,主要圍繞超算使用場景和人工智能場景進行規劃,整個人工智能集群超過 850PFlops。
網絡建設資源:山河超級計算集群與青云合作打造基于 SD-WAN 網絡接入的方式,對外互聯網出口網絡帶寬超 15Gbps,同時在構建山東省 16 地市網絡算力方面做了大量工作。
存儲資源:目前總存儲資源超 245PB,其中 17PB 是用于山河超級計算機配套使用的全閃并行文件存儲,支持傳統文件存儲、對象存儲和云計算里的塊存儲以及大數據存儲。
高性能計算節點:山河超級計算主要圍繞科學計算集群、工程計算集群和數據計算集群三個集群打造,加上“神威·藍光Ⅱ”超級計算機共有四個集群。
通過與青云合作建設 AI 計算節點,濟南超算針對已有四款集群做了融合和調度,與青云基于數據中心的物聯網平臺聯合打造了邊緣推理。目前,山河超級計算的云計算節點超 2500 個,整體提供的業務規模超 4 萬臺,得益于青云提供的相關支持還配套了超 5000 臺云桌面。同時山河超級計算平臺連續兩年參加 IO 500 榜單相關的測試打榜工作,并取得全球第一的成績,印證了其硬件配置高,配套軟件彈性伸縮、調度能力優秀。

濟南超算科技園區
2019 年在省市的支持下,濟南超算建設了國家超級計算濟南中心科技園區,地處齊魯科創大走廊和山東自由貿易區交叉區域,可以非常便捷地服務周邊企業及科研院所,滿足其算力資源需求。濟南超算數據中心建筑面積達 4 萬平米,共建設了 21 個機房(包含 5 個 A 類機房、16 個 B 類機房),規劃了 2700 個機柜數。針對 AI 算力對單機柜功率的高要求,濟南超算機柜過半比例為高功率,主要分為 20 千瓦、35 千瓦和 50 千瓦三檔(傳統 IDC 一般為 7 千瓦、3.5 千瓦和 5 千瓦),因此濟南超算數據中心在承載 AI 算力、高性能算力上具有非常大的優勢。
同時濟南超算科技園區建設了大量公共空間和相關辦公環境,超 12 個培訓教室、大中型報告廳、休閑區域,非常適合做聯合科研創新、研發工作的企業。
算力網絡建設
多方攜手&逐步構建

算力網絡建設發展歷程
濟南超算在算力網絡方面起步較早,整體圍繞六個方向規劃:算網基礎設施方面、算網操作系統方面(與青云聯合研發工作)、算網應用方面(青云參與輔助支撐)、算力安全、算力網絡安全、算網標準規范。
整個濟南超算的算力網絡建設內部命名為“山東超算互聯網建設”,發展歷程大致如下:
2017 年:在全國超算中心 CEO 聯席會議上提出,想構建一個全國性的超算互聯網絡。
2018 年:開始實施規劃并與青島海洋科學實驗室合作項目。
2019 年:立項重點支持超算互聯網建設。
2021 年:項目驗收并圍繞超算互聯網的關鍵技術做相關研發工作。
2022 年:第二期超算互聯網建設立項,同時山東省基于整個超算互聯網絡專門給濟南超算立項,支持山東超算互聯網的關鍵技術專項。
總體來說,濟南超算在整個算力網絡建設上積累了豐富經驗與成果。

山東超算互聯網從 2019 年規劃,分三期建設:第一期:與青島海洋實驗室合作驗證性網絡建立了”同城兩地三中心”架構,實現濟南超算濟南市運營的兩個數據中心互聯,并與青島海洋實驗室遠距互聯,在此之上構筑算力應用并做驗證。第二期:構建山東 16 地市的“山東算網”2022 — 2023 年底計劃在科研、教育、工業、民生等領域的算力應用開展落地、實施和驗證工作。第三期:構筑 5ms 算力圈到 2025 年主要基于濟南超算目前 16 地市的建設經驗打造面向黃河流域算力平臺構筑 5ms 算力圈。

算力網絡建設發展現狀
基于整個山東超算互聯網建設歷程,濟南超算針對原有算力網絡標準體系,根據自身理解做了定義,認為整個算力節點分為三種:一、傳統算力節點:主要提供算力服務。二、存力節點:主要提供多元存儲服務。三、網絡結點:主要提供網絡服務,如網絡加速、網絡接入、VPN、高速直連通道、邊緣應用加速。

另外針濟南超算對整個算力節點做了“算網定義”,即在算力網絡上存在四張網:生產網、傳輸網、配給網、終端網,并按照三類節點構建(核心、骨干和邊緣)來承載這四張網,其中核心節點是濟南、青島和棗莊,骨干上覆蓋了剩下的 13 個地市以及涉及地市的邊緣節點,整體組網拓撲采用了“星型”組網的建設方式。目前核心節點濟南和青島已經建設完成,采用 100Gbps 網絡建設,剩下 14 個地市大多按照骨干節點、10Gbps 全光互聯的方式建設,還有一些邊緣節點有 1Gbps 和幾百兆的帶寬。具體實施上,濟南超算采用全光的 OTN 的方式構建,可靈活調整帶寬,實現極低延遲。

算力網絡建設未來構想
由于建設項目的要求,目前實施仍按照“星型”模式,預計 2023 年底能調成環網,因為網狀的結構相對更靈活,延遲更低。同時在建設時為濟南和棗莊預留了算力網絡接入區,方便未來濟南往北對接京津冀算力圈,棗莊對接長三角的算力集群。
未來濟南超算也將繼續積極參與各類算網項目,目前已作為成員單位參與科技部牽頭的中國超算互聯網,并在“東數西算”網絡方面成立了黃河流域算力聯盟,未來還將逐步構建連接黃河流域的國家級“東數西算”樞紐。
全算力服務
支持諸多科研&商業場景
濟南超算作為公共服務平臺,圍繞山東省產業和山東規劃建設的大科學計劃、大科學工程展開算力服務。

傳統超算涉及的新能源、仿真、石油、高端農機裝備、新材料、海洋、藥物、化工、天文觀測、衛星遙感等領域生態建設已較成熟,濟南超算自 2011 年開始圍繞國產超算平臺構建自主可控的超算應用生態,2022 年上線自主可控的超算軟件生態平臺,主要為電池、材料、海洋、醫療、核能、環保、生態保護、石油勘探等行業提供基礎庫與軟件平臺。
生態環境方面
濟南超算運營國家生態環境大數據超算云中心開展很多國家生態環保、特別是空氣質量預測預報工作,支撐了部分國家重大活動,譬如服務山東本地空氣質量業務平臺。超算云中心得益于青云科技提供的許多支撐,自 2021 年底上線運行至今都相當穩定。
工業互聯網方面
濟南超算在高鐵氣動仿真平臺上做得相對較早,也是自身比較擅長的領域。目前圍繞超算互聯網山東算網工程與省內工業企業合作,今年在鋼鐵行業做了相關計算工作。圍繞“黃河戰略”的場景涉及大量數據和模型相關的融合場景,智慧黃河模擬器內部還在研發,作為底層基礎設施平臺青云調度能力在整個數據采集、數據流轉方面發揮了作用。

智慧政務業務方面
濟南超算為山東數字政府提供云計算服務,資源調度方面與青云科技合作,針對目前政務云的云計算資源池,與高性能計算、人工智能計算的集群之間實現了算力資源的彈性擴展。在山東省生態環保業務平臺時,其需要高性能計算算力,但政務云的傳統云計算平臺里很少規劃高性能計算,得益于濟南超算有獨立的高性能計算池因此實現了政務云資源池和山河高性能計算資源池之間的彈性資源擴展,可以支持山東環保業務平臺需要高性能計算業務時自動彈到高性能計算池,相反如果沒有需求時可自動收縮。
智慧醫療方面
濟南超算按照“云、邊、端”形式,與國家醫療大數據北方中心、省千佛山醫院等單位合作,研發了在線遠程標注、推理等相關場景。
對地觀測方面
濟南超算與空天院深度合作,建設濟南到北京的遙感專線,用于匯聚遙感數據。同時計算集群支撐針對遙感數據的分析處理,與青云合作數據流轉平臺用于數據無縫流轉,特別是處理后的數據。
智慧教育方面
基于青云的底層平臺,濟南超算做了像教學實訓類業務,并從已經服務的 7、8 所大學向全國推廣,可以提供虛擬機、容器集中服務,基于青云提供的底座有效支撐了整個業務應用需求,在疫情期間在線教學上發揮了很大作用。
人工智能平臺建設方面
濟南超算依托青云以及其他合作伙伴共同推進自然語言巨量模型訓練的相關工作,去年在國家高考語文閱讀理解、作文上可以看到平臺訓練出來的模型整體效果優秀,青云科技平臺就其中涉及的存儲數據流轉、AI 算力調度提供了強有力的支撐保障。
申請創業報道,分享創業好點子。點擊此處,共同探討創業新機遇!
本文素材來自互聯網,如有侵權,請聯系將及時刪除!