3月6日,高通發佈了最新白皮書《通過NPU和異構計算開啓終端側生成式AI》,深入闡述了NPU與異構計算,對端側生成式AI使用的重要性。

3月6日,高通發佈了最新白皮書《通過NPU和異構計算開啓終端側生成式AI》,深入闡述了NPU與異構計算,對端側生成式AI使用的重要性。與此同時,高通也舉辦了技術溝通會,對白皮書進行了解讀,並申明高通如何靠技術推動終端側生成式AI開發和應用。

異構計算與NPU

高通其實在很早時候就在強調異構計算的概念,只不過當時還沒有NPU入局,而是通過CPU、GPU、DSP等不同核心進行協作,發揮各處理單元的運算優勢,來加快處理速度。

異構計算能夠充分發揮硬件優勢,比如CPU就很擅長順序控制,非常適用於需要低時延的應用場景,在相對較小的神經網絡模型(CNN),或一些特定的大語言模型(LLM),就很適合CPU來進行運算。而GPU主要擅長面向高精度格式的並行處理,比如對畫質要求非常高的圖像以及視頻處理。

而近些年十分熱門的NPU,則是專門爲AI所打造的。AI運算上的主要負載是由標量、向量和張量的數學運算,雖說“萬能的”CPU也能對此進行處理,不過處理速度和功耗方面都不理想。NPU正是針對AI運算所打造的新處理單元,高通在2015年推出的第一代AI引擎,在Hexagon NPU集成了標量和向量運算核心,之後又加入了張量運算核心,從而極大加快了AI處理速度,並使AI運算處理的功耗大幅度降低。

目前,Hexagon NPU集成了不同的組件,在第三代驍龍8中,張量運算核心的峯值性能大幅提升了98%,標量和向量運算性能也得到了提升。集成了用於圖像處理的分割網絡模塊,還增加了非線性功能的硬件加速能力。

憑藉微切片推理技術,可以把一個神經網絡層分割成多個小切片,最多提供十層深度上進行融合,而市面上的其他AI引擎則必須要逐層進行推理。此外,Hexagon NPU還集成了大共享內存,提供加速器專用電源傳輸軌道,也爲大共享內存帶來更大的帶寬。

對於端側生成式AI來說,異構計算是必要條件。高通在MWC 2024中展示的Stable Diffusion快速生成圖片,就是完全依靠端側算力,它需要NPU進行推理,需要GPU進行圖像渲染,也正是在異構運算的幫助下,才能在10秒不到的時間裏完成圖片生成,並且能夠保持低功耗,保持手機終端的高電池續航。

虛擬化身AI助手同樣需要異構運算處理,其需要運行ASR模型將語音轉爲文本,然後通過大語言模型生成文本回復,再通過模型將文本轉爲語音。之後使用融合變形動畫(Blendshape)技術讓語音與虛擬化身的嘴型匹配,實現音話同步。此後通過GPU進行虛擬化身渲染。最終通過協同使用高通AI引擎上所有的多樣化處理模塊,實現出色的交互體驗。

顯然,Hexagon NPU作爲專爲AI打造的處理單元,在端側生成式AI的推進上必不可少,傳統的CPU、GPU支持同樣不可或缺。高通驍龍移動平臺在CPU方面,會在今年啓用自研的Oryon CPU,相比此前的ARM公版架構,Oryon無疑有着更大的自主性,並且在後續的優化上也更爲輕鬆。Adreno GPU是高通自主打造的,不僅性能表現出色,而且能效上也表現更好。各處理單元相輔相成,構建出的異構運算能力,正是生成式AI所需要的,也是端側生成式AI的更佳解決方案。

全面技術支持 加速生成式AI應用

高通對生成式AI應用的推動是全方面的,比如在至關重要的內存方面,就在軟硬件上均有技術支持。在端側部署大語言模型,在內存速度和內存容量上都有很高要求。新款的第三代驍龍8移動平臺,支持LPDDR5X內存,運行頻率高達4.8GHz,能夠高速運行大語言模型。

對於大模型喫內存的問題,高通在NPU上提供了4位整數模型的原生支持,其所佔用的內存要比16位整數模型小得多。在高通AI引擎中集成的模型壓縮等技術,則能夠讓大模型可以在有限的內存空間順利運行。

在AI應用的市場推進上,高通AI Hub能夠讓開發者快速將AI大模型部署到應用中,使開發效率倍增。高通AI Hub目前已經有近80個AI模型的模型庫,既有生成式AI模型,也有CNN等傳統AI模型,開發者選擇想要使用的模型,就可以看到該模型可以在什麼平臺上運行,選擇平臺後就能直接生成二進制插件,在應用中插入即可實現相應的AI能力。

利用高通AI軟件棧,開發者可在高通硬件上創建、優化和部署AI應用,一次編寫即可實現在不同產品和細分領域採用高通芯片組解決方案進行部署。

相關文章