美國時間2月22日,百度硅谷人工智能實驗室(SVAIL)宣布向深度學習領域開源了 Ring Allreduce算法庫,以實現在多個GPU之上更快速地訓練神經網絡模型。
Ring Allreduce是高性能計算領域的著名算法,但在深度學習領域應用不足。該技術可以實現近乎線性的加速,以及幾十個甚至上百個GPU的擴展。比如,運用Ring Allreduce算法,百度硅谷人工智能實驗室將神經網絡的訓練擴展至40個GPU并且訓練速度提高31倍。

百度研究員Shubho Sengupta表示:“我們很高興能開源我們的Ring Allreduce算法庫,該庫可應用于各大主要的深度學習框架,這將使深度學習研究人員可以在更多GPU上用更快的速度訓練自己的模型。”
過去幾年里,神經網絡迅猛發展,其訓練所需的數據量和計算資源也越來越大。為了提供所需的計算能力,更多GPU被用在訓練之中。
在多個GPU之上訓練神經網絡通常比較困難,因為比較普遍的做法是向單個GPU發送數據,這樣就形成了通訊瓶頸。而Ring Allreduce算法可以大大減少GPU用于發送數據的時間,用更多的時間進行有效運算,以此來消除瓶頸。
“Ring Allreduce算法讓我們可以在神經網絡的眾多設備和節點之間進行更加高效的梯度分級,這是一種針對帶寬優化的算法,能夠大大減少運算時間,從而實現更多設備的擴展,同時還能保留同步隨機梯度下降的確定性與可預測的收斂性質。百度研究員Andrew Gibiansky表示。
百度Ring Allreduce (https://github.com/baidu-research/baidu-allreduce )C類庫可在Github上下載使用。同時Github上還提供與TensorFLow共同使用時所需的補丁 (https://github.com/baidu-research/tensorflow-allreduce)。
特別提醒:本網內容轉載自其他媒體,目的在于傳遞更多信息,并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。