近兩年,隨着AI在移動端的普及,幾乎所有智能手機都已經標配AI,不過AI的性能到底如何評判一直是業界討論的焦點,畢竟各大廠商的AI發展方向各不相同,就像田徑選手和體操選手無法完全同臺競爭一樣,AI跑分平臺只能做到儘量公平。目前,已經有不少評測機構開發了相應的測試模型,用以判定手機及芯片的AI能力,業界比較常用的主要是ETH AI-Benchmark(也就是蘇黎世AI跑分)、中國電信AI評測、魯大師AI Mark和安兔兔AI跑分。那麼這四大手機AI評測榜單,到底誰更專業呢?下面就來一起分析。

手機AI評測到底在測什麼?

開始之前,先看看AI跑分需要測試哪些項目?簡單來講,AI評測有兩個關鍵維度——性能和精度,其中,AI性能評測考驗的是手機處理AI應用的運行速度,AI運算精度則考驗的是AI應用的準確性。AI性能比較好理解,就像手機CPU和GPU跑分一樣,性能是評測中必不可少的環節,我們可以重點分析一下AI運算精度。

目前,手機AI運算用到的數據類型基本爲INT8和FP16,其中,FP16位寬更寬(16bit)相比INT8(8bit)精度更高,計算量也更大,同時對硬件處理能力要求更強;INT8又被稱爲低精度,顧名思義,精度相對較低,但佔用的內存空間更少,實現更小的硅片面積,在降低功耗的同時實現更高的每秒操作數。

由於FP16位寬更寬,計算量更大,因此,在當前的熱門AI圖像處理領域,FP16能大顯其手,而INT8位寬不足,無法處理HDR 10bit和RAW 10bit的圖像數據,因此,INT8量化處理後圖像會出現明顯的瑕疵。例如,在高對比度以及暗光場景下,INT8運算更容易丟失畫面細節,出現噪聲以及塗抹嚴重等成像不穩定的問題;此外,在圖像超分應用上,由於需要算法對每個像素進行生成處理,因此運算精度要求更高,舉個例子,用手機拍攝鼓棒擊打有水的鼓面,FP16進行超分圖像處理時能將水花四濺、水波流動紋理等更多細節表現出來,不僅圖像還原度更高,而且還能通過插幀算法實現7680幀/秒的慢動作,而INT8則會損失更多畫面細節,甚至出現大量噪點。不僅如此,在當下的熱門AI圖像應用,如照片背景虛化、視頻實時換背景,以及涉及用戶安全的人臉解鎖等高難度係數場景下,FP16優勢都更加顯著。

(7680幀超高速慢動作,華爲Mate 30 Pro 5G拍攝)

雖然上述應用場景下FP16表現更出色,但FP16和INT8之間並不是非此即彼的互斥關係,只是計算機計算的兩種數據格式,本身沒有孰優孰劣。不同的芯片廠商通常會根據不同業務、場景需求,結合平臺能力等約束綜合選擇,最終的目標是精度和性能的雙贏,因此,在某些網絡下會出現一部分AI運算用INT8,另一部分用FP16的情況。

哪個手機AI跑分平臺更專業?

瞭解AI測評的關鍵指標之後,讓我們回到主題,究竟哪個手機AI跑分平臺更專業可靠呢?

1)學院派:蘇黎世ETHAIBenchmark跑分

科技媒體、KOL參考最多的跑分平臺,當屬蘇黎世聯邦理工學院開發的AI-Benchmark(ETH AI Benchmark),不僅有“歐陸第一名校”和“世界頂尖研究型高校”的美譽,蘇黎世聯邦理工學院本身也是專業的AI研究機構,具備先進的實驗室測試環境,在AI算法設計、網絡模型、跑分制定、測試用例等方面均爲業界主流。

而從測試維度來看,不同於業界單一評測INT8精度的跑分軟件,ETH AI-Benchmark綜合對比了CPU Q、CPU F、QUANT、FP16、FP32等多種精度下的AI性能,並根據實際AI應用,在目標識別/分類、人臉識別、圖像去模糊、圖像超分辨率、語義圖像分割、圖像增強、內存極限等AI運算任務下的處理表現,是目前最專業的平臺之一。

值得注意的是,在ETH AI跑分榜單上,華爲和榮耀手機的持續霸榜也正是得益於華爲長期在AI應用領域的探索,從Mate 20系列的AI人像留色、AI卡路里識別等應用,再到Mate 30系列AI隔空操控、P40系列的AI一鍵去路人、AI去反光等功能,都能看到華爲在AI應用上的創新以及麒麟芯片領先的AI實力。

2)運營商派:中國電信

除了ETH,國內比較專業的AI評測平臺還有中國電信,測試維度同樣包括性能、精度、能效,並且在不同網絡類型(分類網絡、檢測網絡、超分網絡等),SDK等各個主要方面都進行了對比說明。其中,精度測評還包括了TOP1、TOP5和平均精度,各個網絡在不同平臺的運行能效也有分析,中國電信輸出的報告非常有參考價值。

3)跑分軟件派:魯大師AI Mark&安兔兔

當然,在評測領域跑分工具永遠不會缺席,魯大師和安兔兔也發佈了相應的AI評測工具。其中,魯大師選取Inception V3、ResNet34、VGG16三種網絡,各自完成同樣的100張標準圖片識別任務,獲取概率值TOP5的答案,獲取答案以及完成測試的時間作爲評測標準,這確實考驗到了AI性能,也具有一定的參考價值,但對比上述兩家來看,顯然維度還不夠全面,在精度方面的考慮相對較少,還有待完善。

至於安兔兔,客觀性有多少,相信搞機的各位都懂。根據安兔兔的說法,AI評測並沒有使用android統一的NN API,而是使用各家AI芯片的SDK。高通平臺是SNPE,華爲麒麟是HiAI、聯發科的SDK名爲NeuroPilot,跨平臺的對比參考價值並不高,更不必繼續深究其跑分模型的專業度了。

總的來說,目前業界還沒有完全統一的AI評測標準,仍需要全行業共同努力。要知道,即使是現在使用最多的CPU跑分評測,也是從90年代就開始啓動,由無數公司與產業組織共同努力,才最終完成了行業標準確立,所以AI評測標準的完全建立還需要持續的探索和積累。不過就目前業界使用最多的四大AI評測來看,還是ETH和中國電信最客觀最全面。

相關文章