斯坦福DAWNBench：華爲雲ModelArts深

近日，斯坦福大學發佈了DAWNBenchmark最新成績，在圖像識別（ResNet50-on-ImageNet，93%以上精度）的總訓練時間上，華爲雲ModelArts排名第一，僅需10分28秒，比第二名提升近44%。成績證明，華爲雲ModelArts實現了更低成本、更快速度、更極致的體驗。

斯坦福大學DWANBench是用來衡量端到端的深度學習模型訓練和推理性能的國際權威基準測試平臺，相應的排行榜反映了當前全球業界深度學習平臺技術的領先性。計算時間和成本是構建深度模型的關鍵資源，DAWNBench提供了一套通用的深度學習評價指標，用於評估不同優化策略、模型架構、軟件框架、雲和硬件上的訓練時間、訓練成本、推理延遲以及推理成本。斯坦福大學DAWNBenchmark最新成績作爲人工智能最重要的基礎技術之一，近年來深度學習也逐步延伸到更多的應用場景。隨着深度學習模型越來越大，所需數據量越來越多，深度學習的訓練和推理性能將是重中之重。華爲雲ModelArts將結合華爲在AI芯片、硬件、雲設施、軟件和算法的全棧優勢，打造更快的普惠的AI開發平臺。下文將深入分析，華爲雲ModelArts如何做到性能極致——128塊GPU，ImageNet訓練時間10分鐘。

深度學習已廣泛應用模型增大、數據增長，深度學習訓練加速的需求日益劇增

近年來，深度學習已經廣泛應用於計算機視覺、語音識別、自然語言處理、視頻分析等領域，可服務於視頻監控、自動駕駛、搜索推薦、對話機器人等場景，具有廣闊的商業價值。

爲了達到更高的精度，通常深度學習所需數據量和模型都很大，訓練非常耗時。例如：

在計算機視覺中，如果我們在ImageNet[1]數據集上用1塊P100 GPU訓練一個ResNet-50模型，則需要耗時將近1周。這嚴重阻礙了深度學習應用的開發進度。因此，深度學習訓練加速一直是學術界和工業界所關注的重要問題，也是深度學習應主要用的痛點。

Jeremy Howard等幾位教授領銜的fast.ai當前專注於深度學習加速，在ImageNet數據集上用128塊V100 GPU訓練 ResNet-50模型的最短時間爲18分鐘。

然而，最近BigGAN、NASNet、BERT等模型的出現，預示着訓練更好精度的模型需要更強大的計算資源。

可以預見，在未來隨着模型的增大、數據量的增加，深度學習訓練加速將變得會更加重要。只有擁有端到端全棧的優化能力，才能使得深度學習的訓練性能做到極致。

[1] 文中所指的ImageNet數據集包含1000類個類別，共128萬張圖片，是最常用、最經典的圖像分類數據集，是原始的ImageNet數據的一個子集。

華爲雲ModelArts創造新記錄

“極致”的訓練速度

華爲雲ModelArts是一站式的AI開發平臺，已經服務於華爲公司內部各大產品線的AI模型開發，幾年下來已經積累了跨場景、軟硬協同、端雲一體等多方位的優化經驗。

ModelArts提供了自動學習、數據管理、開發管理、訓練管理、模型管理、推理服務管理、市場等多個模塊化的服務，使得不同層級的用戶都能夠很快地開發出自己的AI模型。

華爲雲ModelArts功能視圖

在模型訓練部分，ModelArts通過硬件、軟件和算法協同優化來實現訓練加速。尤其在深度學習模型訓練方面，華爲將分佈式加速層抽象出來，形成一套通用框架——MoXing（“模型”的拼音，意味着一切優化都圍繞模型展開）。

採用與fast.ai一樣的硬件、模型和訓練數據，ModelArts可將訓練時長可縮短到10分鐘，創造了新的記錄，爲用戶節省44%的時間。

基於MoXing和ModelArts的訓練速度提升

分佈式加速框架MoXing

MoXing是華爲雲ModelArts團隊自研的分佈式訓練加速框架，它構建於開源的深度學習引擎TensorFlow、MXNet、PyTorch、Keras之上，使得這些計算引擎分佈式性能更高，同時易用性更好。

高性能

MoXing內置了多種模型參數切分和聚合策略、分佈式SGD優化算法、級聯式混合並行技術、超參數自動調優算法，並且在分佈式訓練數據切分策略、數據讀取和預處理、分佈式通信等多個方面做了優化，結合華爲雲Atlas高性能服務器，實現了硬件、軟件和算法協同優化的分佈式深度學習加速。

華爲雲MoXing架構圖

易用：讓開發者聚焦業務模型，無憂其他

在易用性方面，上層開發者僅需關注業務模型，無需關注下層分佈式相關的API，僅需根據實際業務定義輸入數據、模型以及相應的優化器即可，訓練腳本與運行環境（單機或者分佈式）無關，上層業務代碼和分佈式訓練引擎可以做到完全解耦。

從兩大指標看MoXing分佈式加速關鍵技術

在衡量分佈式深度學習的加速性能時，主要有如下2個重要指標：吞吐量，即單位時間內處理的數據量；收斂時間，即達到一定的收斂精度所需的時間。

吞吐量一般取決於服務器硬件（如更多、更大FLOPS處理能力的AI加速芯片，更大的通信帶寬等）、數據讀取和緩存、數據預處理、模型計算（如卷積算法選擇等）、通信拓撲等方面的優化，除了低bit計算和梯度（或參數）壓縮等，大部分技術在提升吞吐量的同時，不會造成對模型精度的影響。

爲了達到最短的收斂時間，需要在優化吞吐量的同時，在調參方面也做調優。如果調參調的不好，那麼吞吐量有時也很難優化上去，例如batch size這個超參不足夠大時，模型訓練的並行度就會較差，吞吐量難以通過增加計算節點個數而提升。

對用戶而言，最終關心的指標是收斂時間，因此MoXing和ModelArts實現了全棧優化，極大縮短了訓練收斂時間。

•在數據讀取和預處理方面，MoXing通過利用多級併發輸入流水線使得數據IO不會成爲瓶頸；

• 在模型計算方面，MoXing對上層模型提供半精度和單精度組成的混合精度計算，通過自適應的尺度縮放減小由於精度計算帶來的損失；• 在超參調優方面，採用動態超參策略（如momentum、batch size等）使得模型收斂所需epoch個數降到最低；•在底層優化方面，MoXing與底層華爲自研服務器和通信計算庫相結合，使得分佈式加速進一步提升。