高通公司的AI產品技術中國區負責人萬衛星發表了關於“推動終端側生成式AI時代到來”的主題演講。他強調了終端側生成式AI時代的到來。

4月17日,中國AIGC產業峯會在北京召開。本次峯會以“你好,新應用”爲主題,邀請到生成式AI應用、AI基礎設施和模型層的代表企業,一同分享對最新生成式AI現狀與趨勢的見解。在本次峯會上,高通公司的AI產品技術中國區負責人萬衛星發表了關於“推動終端側生成式AI時代到來”的主題演講。他強調了終端側生成式AI時代的到來,並提到高通發佈的第三代驍龍8和驍龍X Elite平臺已經或即將賦能衆多AI手機和AI PC產品。萬衛星詳細介紹了高通AI引擎及其組成部分,還展示了高通異構計算能力的端到端用例。此外,萬衛星也介紹了高通AI軟件棧和AI Hub,這些將極大地提升開發者在模型開發、優化和部署方面的效率,進而有助於創造出更多創新的AI應用。

萬衛星認爲,終端側生成式AI時代已經到來,高通在2023年10月發佈的第三代驍龍8和驍龍X Elite這兩款產品上,已經實現了將大語言模型完整的搬到了端側運行,且已經或即將賦能衆多的AI手機和AI PC。在手機方面,去年年底和今年年初衆多OEM廠商發佈的Android旗艦產品,包括三星、小米、榮耀、OPPO和vivo等,都已經具備了在端側運行生成式AI的能力。

基於圖像語義理解的多模態大模型發展是當下的重要趨勢,在今年2月的MWC巴塞羅那期間,高通也展示了全球首個在Android手機上運行的多模態大模型(LMM)。具體來說,我們在搭載第三代驍龍8的參考設計上運行了基於圖像和文本輸入、超過70億參數的大語言和視覺助理大模型(LLaVa),可基於圖像輸入生成多輪對話。具有語言理解和視覺理解能力的多模態大模型能夠賦能諸多用例,例如識別和討論複雜的視覺圖案、物體和場景。設想一下,有視覺障礙的用戶就可以在終端側利用這一技術,實現在城市內的導航。同時,高通在驍龍X Elite上也演示了全球首個在Windows PC上運行的音頻推理多模態大模型。

接下來看看高通作爲芯片廠商,如何滿足生成式AI多樣化的要求。不同領域的生成式AI用例具有多樣化的要求,包括按需型、持續型和泛在型用例,其背後所需的AI模型也是千差萬別,很難有一種可以完美適用所有生成式AI用例或非生成式AI用例。比如,有些用例需要進行順序控制,對時延比較敏感;有些用例是持續型的,對算力和功耗比較敏感;有些用例需要始終在線,對功耗尤其敏感。

高通公司推出的高通AI引擎就是領先的異構計算系統,它包含多個處理器組件,包括通用硬件加速單元CPU和GPU、專門面向高算力需求的NPU,以及高通傳感器中樞,它們在AI推理過程中扮演不同角色。前面提到的順序執行的按需型任務,可以運行在CPU或GPU上;對AI算力要求比較高的持續型任務,例如影像處理、生成式AI等,都可以運行在NPU上;對於需要始終在線、對功耗尤其敏感的任務,可以運行在高通傳感器中樞上。

我來爲大家簡單介紹一下高通NPU的演進路線,這是非常典型的由上層用例驅動底層硬件設計的案例。2015年及更早之前,AI主要用於一些比較簡單的圖像識別、圖像分類用例,所以我們給NPU配置了標量和向量加速器。到2016—2022年間,計算攝影概念開始流行,我們把研究方向從圖像分類轉移到了AI計算、AI視頻等等,包括對自然語言理解和處理的支持,以及對Transformer模型的支持,我們給NPU硬件在標量和向量加速器的基礎之上,增加了張量加速器。2023年,大模型熱度很高,我們在業內率先完成了端側的大模型支持,給NPU配置了專門的Transformer加速模塊。2024年,我們會重點支持多模態模型的端側化,以及支持更高參數量的大語言模型在端側的部署。

接下來爲大家更深入的介紹高通Hexagon NPU。第三代驍龍8上的Hexagon NPU不僅進行了微架構升級,還專門配置了獨立的供電軌道,以實現最佳的能效。我們還通過微切片推理技術支持網絡深度融合,獲取更極致的性能。此外Hexagon NPU還集成了專門爲生成式AI打造的Transformer加速模塊,更高的DDR傳輸帶寬,更高的IP主頻等先進技術。所有這些技術相結合,使得Hexagon NPU成爲面向終端側生成式AI的行業領先NPU。

接下來看一個具體案例,虛擬化身AI助手——這是非常典型的充分利用高通異構計算能力的端到端用例。它包括衆多複雜AI工作負載,首先需要自動語音識別(ASR)模型負責將語音信號轉成文本,這部分工作負載可以跑在高通傳感器中樞上;接下來會由大語言模型負責處理文本輸入,生成回覆和對話,這部分工作負載可以跑在NPU上;再通過文本生成語音(TTS)模型把文本輸出轉變成語音信號,這部分負載可以跑在CPU;最後由GPU模塊負責基於語音輸出同步完成虛擬化身渲染,這樣就能得到一個端到端的用語音來交互的虛擬化身助手用例。

前面介紹了硬件技術,接下來分享一下高通平臺的AI性能。在智能手機領域,第三代驍龍8不管是在魯大師AIMark V4.3、安兔兔AITuTu這些AI基準測試的總分方面,還是在MLCommon MLPerf推理:Mobile V3.1的具體模型推理性能測試方面,表現都遠超於競品。在PC方面,驍龍X Elite在面向Windows的UL Procyon AI推理基準測試中,表現也超過了基於X86架構的競品。

高通除了提供領先的硬件平臺設計之外,也推出了一個跨平臺、跨終端、跨操作系統的統一軟件棧,叫做高通AI軟件棧(Qualcomm AI Stack)。高通AI軟件棧支持所有目前主流的訓練框架和執行環境,我們還爲開發者提供不同級別、不同層次的優化接口,以及完整的編譯工具鏈,讓開發者可以在驍龍平臺上更加高效的完成模型的開發、優化和部署。值得強調的是,高通AI軟件棧是一個跨平臺、跨終端的統一解決方案,所以開發者只要在高通和驍龍的一個平臺上完成模型的優化部署工作,便可以非常方便的將這部分工作遷移到高通和驍龍的其他所有產品上。

今年MWC巴塞羅那期間,高通發佈了非常重量級的產品,高通AI Hub(Qualcomm AI Hub)。該產品面向第三方開發者和合作夥伴,可以幫助開發者更加充分的利用高通和驍龍底層芯片的硬件算力,開發出自己的創新AI應用。利用高通AI Hub進行應用開發的過程就像“把大象塞進冰箱”一樣簡單。第一步,根據用例選擇所需模型;第二步,選擇需要部署的高通或驍龍平臺;第三步,只需要寫幾行腳本代碼,就可以完成整個模型部署,在終端側看到應用或算法的運行效果。

目前,高通AI Hub已經支持超過100個模型,其中有大家比較關心的生成式AI模型,包括語言、文本和圖像生成,也包括傳統AI模型,例如圖像識別、圖像分割,自然語言理解、自然語言處理等等。具體的模型信息,歡迎大家訪問高通AI Hub網站(AIHUB.QUALCOMM.COM)進行查詢。

最後總結一下高通的AI領先優勢。第一,高通具備無與倫比的終端側AI性能;第二,高通具備頂尖的異構計算能力,使AI能力能夠貫穿整個SoC,將CPU、GPU、NPU和高通傳感器中樞的能力都充分釋放給應用開發者;第三,我們提供可擴展的AI軟件工具,即前面提到的高通AI軟件棧等;最後,我們可以支持廣泛的生態系統和AI模型。

相關文章