谷歌訓練BERT僅23秒,英偉達A100破八項AI性能紀錄,最新MLPerf榜單

機器之心報道

編輯：澤南、張倩在最新的 MLPerf 基準測試結果中，英偉達新出的 A100 GPU 打破了八項 AI 性能紀錄，谷歌的 4096 塊 TPU V3 將 VERT 的訓練時間縮短到了 23 秒。華爲昇騰 910 這次也跑了個分。

在距離推出不到一個月的時間裏，內置超過 2000 塊英偉達 A100 GPU 的全新 DGX SuperPOD 服務器就在各項針對大規模計算性能的 MLPerf 基準測試中取得了優異成績。

在今天官方發佈的 MLPerf 第三批 AI 訓練芯片測試結果中，英偉達 A100 Tensor Core GPU 在全部八項基準測試中展現了最快性能。在實現總體最快的大規模解決方案方面，利用 HDR InfiniBand 實現多個 DGX A100 系統互聯的服務器集羣 DGX SuperPOD 系統也同樣創造了業內最優性能。

行業基準測試組織 MLPerf 於 2018 年 5 月由谷歌、百度、英特爾、AMD、哈佛和斯坦福大學共同發起，目前已成爲機器學習領域芯片性能的重要參考標準。此次結果已是英偉達在 MLPerf 訓練測試中連續第三次展現了最強性能。早在 2018 年 12 月，英偉達就曾在 MLPerf 訓練基準測試中創下了六項紀錄，次年 7 月英偉達再次創下八項紀錄。

最新版的 MLPerf 基準測試包含 8 個領域的 8 項測試，分別爲目標檢測（light-weight、heavy-weight）、翻譯（recurrent、non-recurrent）、NLP、推薦系統、強化學習，參與測試的模型包括 SSD、Mask R-CNN、NMT、BERT 等。MLPerf 在強化學習測試中使用了 Mini-go 和全尺寸 19×19 圍棋棋盤。該測試是本輪最複雜的測試，內容涵蓋從遊戲到訓練的多項操作。

在最新的測試中，英偉達送交的服務器配置和測試結果使用了最新一代的安培（Ampere）架構，以及目前較爲流行的 Volta 架構 V100 芯片。

英偉達表示，在評測結果中，自己是唯一一家在所有測試中均採用市售商用產品的公司。其他廠家大多數提交使用的要麼是預覽類別（Preview，其所用產品預計幾個月後纔會面市），要麼使用的是仍在研究中的產品。

安培架構，市場採用速度刷新紀錄

今年 5 月在 GTC 大會上正式發佈的 A100 是首款基於安培架構的處理器，它不僅打破了 GPU 性能紀錄，其進入市場的速度也比以往任何英偉達 GPU 更快。A100 在發佈之初用於 NVIDIA 的第三代 DGX 系統，正式發佈僅六週後就正式登陸谷歌雲服務系統。

目前，AWS、百度雲、微軟 Azure 和騰訊雲等全球雲提供商，以及戴爾、惠普、浪潮和超微等數十家主要服務器製造商，均已推出基於 A100 的雲服務或服務器產品。

英偉達 A100 在 MLPerf 單卡性能名列前茅的全部八項測試，最新的 MLPerf 榜單中還有華爲昇騰 910 的成績。

英偉達 GPU 性能的提升不僅來自硬件。測試結果顯示，相較於首輪 MLPerf 訓練測試中使用的基於 V100 GPU 的系統，如今的 DGX A100 系統能夠以相同的吞吐率，實現高達 4 倍的性能提升。同時，得益於最新的軟件優化，基於 NVIDIA V100 的 DGX-1 系統亦可實現高達 2 倍的性能提升。

谷歌：我們成績太好，基準測試需要換了

在最新的 MLPerf 測試結果中，谷歌的 TPU 加速器也獲得了很好的成績：在預覽和測試組別中，TPU 集羣打破了 8 項測試紀錄中的 6 項，4096 塊並聯的 TPU v3 可以實現高達 430 PFLOPs 的峯值算力，訓練 ResNet-50、BERT、Transformer、SSD 等模型都可以在 33 秒內完成。

程序員大神，谷歌 AI 負責人 Jeff Dean 說道：「我們需要更大的基準測試，因爲現在訓練 ResNet-50、BERT、Transformer、SSD 這種模型只需要不到 30 秒了。」

谷歌與第二名在 6 項基準上的成績比較。

谷歌在本次 MLPerf 訓練中使用的超級計算機比在之前比賽中創下三項記錄的 Cloud TPU v3 Pod 大三倍。該系統包括 4096 個 TPU v3 芯片和數百臺 CPU 主機，峯值性能超過 430 PFLOPs。

在 4096 塊 TPU 的加持下，谷歌的超級計算機可以在 33 秒內訓練 ResNet-50、BERT、Transformer、SSD 等模型。在使用 TensorFlow 框架時，該計算機甚至可以將 BERT 的訓練時間縮短到 23 秒。

在谷歌最新的 ML 超級計算機上，上述所有模型的訓練都可以在 33 秒內完成。

谷歌還在最新的博客中透露了一些關於第四代 TPU 的信息。新一代 TPU 的矩陣乘法 TFLOPs 是上一代的兩倍還多，內存帶寬顯著提高，還採用了新的互連技術。與 TPU v3 相比，TPU V4 在芯片數量類似情況下的表現平均提高了 1.7 倍。

最後，一些從業者也對深度學習框架在模型訓練速度上的貢獻表示感嘆。

看起來，TensorFlow 2.0 的速度比 PyTorch 要快，谷歌最近開源的 TensorFlow 簡化庫 JAX 則效率更高。在工業應用上，我們對於框架的選擇看來也要出現變化？

https://cloud.google.com/blog/products/ai-machine-learning/google-breaks-ai-performance-records-in-mlperf-with-worlds-fastest-training-supercomputer

https://blogs.nvidia.com/blog/2020/07/29/mlperf-training-benchmark-records/?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+nvidiablog+%28The+NVIDIA+Blog%29

https://mlperf.org/training-results-0-7

谷歌訓練BERT僅23秒,英偉達A100破八項AI性能紀錄,最新MLPerf榜單

熱門新聞

週熱門

谷歌訓練BERT僅23秒,英偉達A100破八項AI性能紀錄,最新MLPerf榜單

最前線｜高德發佈好的出租3.0，爲出租車提供靈活調價能力

圖靈獎得主楊立昆：大語言模型是通往AGI的一條歧路

主營電動工具DIY場景，「鐵腕創新」完成近2500萬元天使輪融資｜36氪首發

禾賽科技李一帆：激光雷達應該是商品，不能賣一臺虧一臺｜36氪專訪

推行動物實驗替代計劃，臨牀前CRO巨頭的“陽謀”

人工智能在教育中的43種用途

何爲數據化運營？

酒店新零售和酒店機器人……

小米汽車將推出純電SUV，同時規劃更低價車型｜獨家

AI搞砸工作誰“抗雷”

8點1氪丨鬥魚主播小團團被捕，或面臨3至5年刑期；於東來稱去年計劃掙2000萬結果賺了1.4億；蘋果將於5月7日舉行發佈會

應避免的八個數據戰略錯誤

從張文宏，聊聊普通人的逆襲之路

醫療健康行業週報 | 「中科新生命」獲數億元C輪融資；「聯影智元」打造醫療領域“App Store”

中國拿什麼重現“互聯網三十年”

熱門新聞

週熱門