(觀察者網 訊)5月14日消息,阿里雲AI高性能網絡架構HPN 7.0成果論文被SIGCOMM2024收錄,成爲SIGCOMM歷史上首篇關於AI智算集羣網絡架構的論文。

SIGCOMM是全球最權威的計算機通信網絡頂會,此前谷歌Jupiter網絡入選SIGCOMM後發展成爲經典架構,有專家指出,阿里雲HPN7.0有望成爲下一代AI高性能網絡架構的新範式。據悉,今年阿里雲共有6篇論文被SIGCOMM收錄。

大模型對AI基礎設施提出了更高要求,阿里雲新一代HPN7.0架構,爲AI時代超大規模、超高穩定性的網絡需求而研發。HPN 7.0創新性地設計了“雙上聯+多軌+雙平面”的網絡架構,並自研Solar-RDMA和ACCL通信庫,可實現網絡的高性能和高穩定互聯。

HPN7.0架構:爲AI設計的高性能網絡集羣

從2023年9 月開始,HPN7.0在阿里雲展開大規模部署,大模型訓練性能較上一代架構在典型場景下提升14.9%,且大幅提高了智算網絡整體穩定性。前不久阿里雲發佈通義千問2.5版本大模型,中文性能全面趕超GPT-4Turbo,就是基於HPN7.0高性能網絡集羣訓練而成。

阿里雲基礎設施網絡負責人蔡德忠介紹稱:“阿里雲從2017年開始探索端網融合的可預期網絡,HPN7.0更進一步,把端網融合的體系結構從網絡協議棧拓展到網絡架構和通信庫,實現了面向AI智算時代的全新網絡集羣架構創新。”

據悉,始於1977年的SIGCOMM是計算機網絡領域最頂級的國際學術會議,每年錄取率在10%~20%之間,入選成果極有可能成爲主流技術範式標準。此前,谷歌傳統數據中心網絡Jupiter論文SIGCOMM收錄,成爲經典架構;此次阿里雲HPN7.0架構斬獲SIGCOMM首篇AI高性能網絡論文,則是中國公司首次爲全球AI網絡基礎設施的設計及實踐提供了全新高性能標準。

阿里雲在高性能網絡領域已深耕多年,提出了端網融合的可預期網絡技術體系,並在業界率先完成RDMA低延時網絡、智算集羣網絡架構HPN 7.0等先進技術的大規模實踐。阿里巴巴還曾獲評AMiner全球十大網絡研究機構,是榜單中唯一的中國科技企業。

相關文章