機器之心報道

編輯:澤南、張倩在最新的 MLPerf 基準測試結果中,英偉達新出的 A100 GPU 打破了八項 AI 性能紀錄,谷歌的 4096 塊 TPU V3 將 VERT 的訓練時間縮短到了 23 秒。華爲昇騰 910 這次也跑了個分。

在距離推出不到一個月的時間裏,內置超過 2000 塊英偉達 A100 GPU 的全新 DGX SuperPOD 服務器就在各項針對大規模計算性能的 MLPerf 基準測試中取得了優異成績。

在今天官方發佈的 MLPerf 第三批 AI 訓練芯片測試結果中,英偉達 A100 Tensor Core GPU 在全部八項基準測試中展現了最快性能。在實現總體最快的大規模解決方案方面,利用 HDR InfiniBand 實現多個 DGX A100 系統互聯的服務器集羣 DGX SuperPOD 系統也同樣創造了業內最優性能。

行業基準測試組織 MLPerf 於 2018 年 5 月由谷歌、百度、英特爾、AMD、哈佛和斯坦福大學共同發起,目前已成爲機器學習領域芯片性能的重要參考標準。此次結果已是英偉達在 MLPerf 訓練測試中連續第三次展現了最強性能。早在 2018 年 12 月,英偉達就曾在 MLPerf 訓練基準測試中創下了六項紀錄,次年 7 月英偉達再次創下八項紀錄。

最新版的 MLPerf 基準測試包含 8 個領域的 8 項測試,分別爲目標檢測(light-weight、heavy-weight)、翻譯(recurrent、non-recurrent)、NLP、推薦系統、強化學習,參與測試的模型包括 SSD、Mask R-CNN、NMT、BERT 等。MLPerf 在強化學習測試中使用了 Mini-go 和全尺寸 19×19 圍棋棋盤。該測試是本輪最複雜的測試,內容涵蓋從遊戲到訓練的多項操作。

在最新的測試中,英偉達送交的服務器配置和測試結果使用了最新一代的安培(Ampere)架構,以及目前較爲流行的 Volta 架構 V100 芯片。

英偉達表示,在評測結果中,自己是唯一一家在所有測試中均採用市售商用產品的公司。其他廠家大多數提交使用的要麼是預覽類別(Preview,其所用產品預計幾個月後纔會面市),要麼使用的是仍在研究中的產品。

安培架構,市場採用速度刷新紀錄

今年 5 月在 GTC 大會上正式發佈的 A100 是首款基於安培架構的處理器,它不僅打破了 GPU 性能紀錄,其進入市場的速度也比以往任何英偉達 GPU 更快。A100 在發佈之初用於 NVIDIA 的第三代 DGX 系統,正式發佈僅六週後就正式登陸谷歌雲服務系統。

目前,AWS、百度雲、微軟 Azure 和騰訊雲等全球雲提供商,以及戴爾、惠普、浪潮和超微等數十家主要服務器製造商,均已推出基於 A100 的雲服務或服務器產品。

英偉達 A100 在 MLPerf 單卡性能名列前茅的全部八項測試,最新的 MLPerf 榜單中還有華爲昇騰 910 的成績。

英偉達 GPU 性能的提升不僅來自硬件。測試結果顯示,相較於首輪 MLPerf 訓練測試中使用的基於 V100 GPU 的系統,如今的 DGX A100 系統能夠以相同的吞吐率,實現高達 4 倍的性能提升。同時,得益於最新的軟件優化,基於 NVIDIA V100 的 DGX-1 系統亦可實現高達 2 倍的性能提升。

谷歌:我們成績太好,基準測試需要換了

在最新的 MLPerf 測試結果中,谷歌的 TPU 加速器也獲得了很好的成績:在預覽和測試組別中,TPU 集羣打破了 8 項測試紀錄中的 6 項,4096 塊並聯的 TPU v3 可以實現高達 430 PFLOPs 的峯值算力,訓練 ResNet-50、BERT、Transformer、SSD 等模型都可以在 33 秒內完成。

程序員大神,谷歌 AI 負責人 Jeff Dean 說道:「我們需要更大的基準測試,因爲現在訓練 ResNet-50、BERT、Transformer、SSD 這種模型只需要不到 30 秒了。」

谷歌與第二名在 6 項基準上的成績比較。

谷歌在本次 MLPerf 訓練中使用的超級計算機比在之前比賽中創下三項記錄的 Cloud TPU v3 Pod 大三倍。該系統包括 4096 個 TPU v3 芯片和數百臺 CPU 主機,峯值性能超過 430 PFLOPs。

在 4096 塊 TPU 的加持下,谷歌的超級計算機可以在 33 秒內訓練 ResNet-50、BERT、Transformer、SSD 等模型。在使用 TensorFlow 框架時,該計算機甚至可以將 BERT 的訓練時間縮短到 23 秒。

在谷歌最新的 ML 超級計算機上,上述所有模型的訓練都可以在 33 秒內完成。

谷歌還在最新的博客中透露了一些關於第四代 TPU 的信息。新一代 TPU 的矩陣乘法 TFLOPs 是上一代的兩倍還多,內存帶寬顯著提高,還採用了新的互連技術。與 TPU v3 相比,TPU V4 在芯片數量類似情況下的表現平均提高了 1.7 倍。

最後,一些從業者也對深度學習框架在模型訓練速度上的貢獻表示感嘆。

看起來,TensorFlow 2.0 的速度比 PyTorch 要快,谷歌最近開源的 TensorFlow 簡化庫 JAX 則效率更高。在工業應用上,我們對於框架的選擇看來也要出現變化?

https://cloud.google.com/blog/products/ai-machine-learning/google-breaks-ai-performance-records-in-mlperf-with-worlds-fastest-training-supercomputer

https://blogs.nvidia.com/blog/2020/07/29/mlperf-training-benchmark-records/?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+nvidiablog+%28The+NVIDIA+Blog%29

https://mlperf.org/training-results-0-7

相關文章