12 月 3 日消息,據阿里云官方發布,阿里達摩院成功研發存算一體芯片。這是全球首款基于 DRAM 的 3D 鍵合堆疊存算一體芯片。它可突破馮?諾依曼架構的性能瓶頸,滿足人工智能等場景對高帶寬、高容量內存和極致算力的需求。在特定 AI 場景中,該芯片性能提升 10 倍以上,效能比提升高達 300 倍。

為什么要研發存算一體芯片?
隨著人工智能應用場景的爆發,現有的計算機系統架構的短板逐漸顯露,例如功耗墻、性能墻、內存墻等問題。
其主要癥結在于:
一是數據搬運帶來了巨大的能量消耗。在傳統架構下,數據從內存單元傳輸到計算單元需要的功耗是計算本身的約 200 倍,因此真正用于計算的能耗和時間占比很低。
二是內存的發展遠遠滯后于處理器的發展。目前,處理器的算力以每兩年 3.1 倍的速度增長,而內存的性能每兩年只有 1.4 倍的提升。后者的性能極大地影響了數據傳輸的速度,這也被認為是傳統計算機的阿克琉斯之踵。

存算一體芯片是目前解決以上問題的最佳途徑 —— 它類似于人腦,將數據存儲單元和計算單元融合為一體,大幅減少數據搬運,從而極大提高計算并行度和能效。
這一技術早在 90 年代就被提出,但受限于技術的復雜度、高昂的設計成本以及應用場景的匱乏,過去幾十年業界對存算一體芯片的研究進展緩慢。如今,達摩院希望通過自研創新技術解決算力瓶頸這一業界難題。
此外,存算一體芯片在終端、邊緣端以及云端都有廣闊的應用前景。例如 VR/AR、無人駕駛、天文數據計算、遙感影像數據分析等場景中,存算一體芯片都可以發揮高帶寬、低功耗的優勢。
從長遠來看,存算一體技術還將成為類腦計算的關鍵技術。
實現存算一體的三種路線
實現存算一體有三種技術路線:
- 近存儲計算(Processing Near Memory):計算操作由位于存儲芯片外部的獨立計算芯片完成。
- 內存儲計算(Processing In Memory):計算操作由位于存儲芯片內部的獨立計算單元完成,存儲單元和計算單元相互獨立存在。
- 內存執行計算(Processing With Memory):存儲芯片內部的存儲單元完成計算操作,存儲單元和計算單元完全融合,沒有一個獨立的計算單元。
其中,近存計算通過將計算資源和存儲資源距離拉近,實現對能效和性能的大幅度提升,被認為是現階段解決內存墻問題的最佳途徑。達摩院本次也是沿著這一方向進行突破。
混合鍵合 3D 堆疊技術
為了拉近計算資源和存儲資源的距離,達摩院計算技術實驗室創新性采用混合鍵合 (Hybrid Bonding) 的 3D 堆疊技術進行芯片封裝 —— 將計算芯片和存儲芯片 face-to-face 地用特定金屬材質和工藝進行互聯。
比起業內常見的封裝方案 HBM,混合鍵合 3D 堆疊技術擁有高帶寬、低成本等特點,被認為是低功耗近存計算的完美載體之一。

此外,內存單元采用異質集成嵌入式 DRAM ,擁有超大內存容量和超大帶寬優勢。
在計算芯片方面,達摩院研發設計了流式的定制化加速器架構,對推薦系統進行“端到端”加速,包括匹配、粗排序、神經網絡計算、細排序等任務。
這種近存架構有效解決了帶寬受限的問題,最終內存、算法以及計算模塊的完美融合,大幅提升帶寬的同時還實現了超低功耗,展示了近存計算在數據中心場景的潛力。
達摩院表示,最終的測試芯片顯示,這種存算技術和架構的優勢明顯:
能通過拉近存儲單元與計算單元的距離增加帶寬,降低數據搬運的代價,緩解由于數據搬運產生的瓶頸,而且與數據中心的推薦系統對于帶寬/內存的需求完美匹配。
該芯片的研究成果已被芯片領域頂級會議 ISSCC 2022 收錄。未來,達摩院希望能進一步攻克存內計算技術,并逐步優化典型應用、生態系統等方面。
特別提醒:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。