蕭簫 發自 凹非寺

量子位 報道 | 公衆號 QbitAI

AI芯片行業,正面臨着層出不窮的需求。

據Research and Markets預測,數據中心的AI芯片(即AI加速器)市場規模將從2018年的28.4億美元,增長到2023年的211.9億美元。

AI芯片,分爲訓練和推理,前者用來“做模型”(跑大量數據、調整參數),後者則用來“出結果”(實時檢測、目標跟蹤)。

“做模型”就像是產品加工,在“工廠”裏完成,但模型出來後,就不侷限在“工廠”中了,還能部署到手機、汽車等設備上使用。

這裏的“工廠”,通常是雲端,那裏有大量服務器部署;而手機、汽車等設備,被稱爲邊緣 (終端),也是AI模型真正需要用到的地方。

可以看出,AI訓練芯片只靠絕對算力——只要算力越高,模型訓練得就越快。

但手機和汽車等設備,受體積、儲能、實時等諸多限制和要求,算力已不再是單一的考慮條件。

AI推理芯片不僅看算力,還要講究時延、功耗和成本。

相對於AI訓練芯片,AI推理芯片需求量更高,使用場景也更廣泛。

市調機構Tractica稱,預計從2018到2025年的7年時間裏,AI推理芯片將有10倍的增長,至2025年可達170億美元。

事實上,無論是算力、還是硬件要求,邊緣推理芯片的設計都要比雲端更復雜。

處在野蠻生長階段的AI芯片市場,做好雲端推理芯片已非易事,入局邊緣芯片還會更難。

但高通卻做出了嘗試。

18個月,性能領跑行業

2019年4月,高通宣佈推出Cloud AI 100芯片,稱它是“爲滿足急劇增長的雲端AI推理處理的需求而設計”、“讓分佈式智能可以從雲端遍佈至用戶的邊緣終端,以及雲端和邊緣終端之間的全部節點。”

那時候,市場上也有部分人士持並不看好的態度。一些觀點認爲,2019年再入局雲端AI芯片、並趕超最先進的雲端AI推理芯片,似乎爲時已晚。

而18個月過後,Cloud AI 100芯片在ResNet-50上的測試效果流出,引爆了行業內的深水炸彈。

從圖中來看,橫軸是功耗(越小越好,圖中右邊更小);縱軸是吞吐量(越高越好)。

即使是英偉達最新Ampere架構的A100芯片,吞吐量也不到25000,耗能卻超過了300W。

從功耗來看,英特爾的Goya可低達100W,但吞吐量只能達到15000左右。

相比之下,高通的Cloud AI 100 PCle,吞吐量超過25000,卻只需要75W。

這樣的芯片性能,聽起來讓人難以置信。

而且,這個75W的芯片,支持最高每秒400萬億次(400TOPS)的算力。

高通到底在雲端AI推理芯片上“施了什麼魔法”?

先來看看它的內部結構:

16個AI內核(AIC)

支持INT8,INT16,FP16和FP32

4個64位內存控制器(LPDDR4×)

144MB的片上SRAM高速緩存

也就是說,通道的總系統帶寬爲134GB/s,但144MB的片上SRAM高速緩存設計,在片上保存了儘可能多的存儲器流量。

此外,7nm的工藝節點,也有助於降低功耗。

而在封裝上,高通採取了三種不同的形式:

DM.2e,15W,超過50 TOPS

DM.2,25W,超過200 TOPS

PCle,75W,約400 TOPS

其中,DM.2從外形來看,有點像兩個相鄰的M.2連接器,其中,M.2以尺寸小、傳輸性能高廣受歡迎。

而DM.2e是dual M.2 edge的縮寫,意爲“兩個邊緣的M.2連接器”,是一種更小、功耗更低的熱封殼外形。

從DM.2e的芯片設計來看,高通的目標似乎並不僅侷限於雲端。

將雲端芯片“邊緣”化

事實上,從行業消息來看,雲端的確不是高通的終點。

這次的Cloud AI 100,也將目光放在了更長遠、更現實的位置——邊緣人工智能(Edge AI)。

國際數據公司IDC的半導體研究總監Michael J. Palma曾表示:“人工智能的成功,在於部署到邊緣的系統,在邊緣系統中,神經網絡做出的即時決策實際上可以創造價值,不受延遲和連接問題的約束——而這些問題對雲解決方案來說是個挑戰。”

據市場調研機構MarketsandMarkets預測,全球邊緣人工智能軟件市場規模,將從2018年的3.56億美元,增長到2023年的11.52億美元。

在2018年到2023年的預測期內,年複合增長率(CAGR)爲26.5%。

在Cloud AI 100芯片開始應用的同時,高通也同時發佈了對應的邊緣人工智能開發工具包——Cloud AI 100 Edge AI SDK。

這一工具包,主要由以下3大模型構成:

Cloud AI 100芯片(低功耗、高性能AI芯片)

驍龍865模塊化平臺(負責應用&視頻處理)

驍龍X55調制解調器及射頻系統(5G連接)

這一工具包,除了上述芯片所包含的5G特性、能耗低等特點以外,目前透露的功能還有不少。

其中,支持24個相機同時拍攝分辨率達1920×1080的視頻流、每秒25幀的高清視頻。

不僅支持遠程訪問、可升級空中下載軟件、可部署到戶外,而且在PyTorch、ONNX、Tensorflow上都能運行。

此外,這一SDK還支持Keras、Caffe、PaddlePaddle等主流框架。

至於應用方向,包括新聞推送、廣告、個性化視頻、搜索、XR和遊戲等,可以說是邊緣的應用場景,它都能滿足。

據高通近日公佈的消息,Cloud AI 100正面向其全球部分客戶出貨,預計採用該產品的商用設備將於2021年上半年面市。

回看高通AI探索節點後的發現

“高通在AI研發方面擁有悠久的歷史。”

高通人工智能及邊緣計算資深總監John Kehrli表示:“高通正處於第五代移動端解決方案中,擁有超過11年的研發經驗,因此,高通正在利用行業專業知識(進行研發)。雖然這是AI內核,它與移動技術並不相同,但我們可以利用那個領域的經驗。”

實際上,早在2007年,高通旗下的Qualcomm Research就啓動了首個人工智能項目,並於2018年成立Qualcomm AI Research。

2015年,搭載第一代AI Engine(人工智能引擎)的高通驍龍820發佈,第二年,高通發佈了神經處理引擎SDK。

在驍龍835、845和855發佈後,2019年,高通正式發佈第五代AI Engine驍龍865移動平臺。

高通第五代AI Engine支持許多移動端的新老應用,包括AI實時語音翻譯、人像留色、背景虛化、AI一鍵多拍、夜景拍攝與人像智能識別……

今年,高通也同樣在AI賽道上飛速奔馳。

6月18日,高通推出全球首款支持5G和AI的機器人平臺RB5。

此後推出了驍龍690 5G移動平臺、驍龍750G 5G移動平臺等,同樣支持第五代AI Engine。

9月初,驍龍8cx第二代5G計算平臺發佈,支持AI Engine。

同樣在近期,Facebook發佈的Oculus Quest 2首次搭載了驍龍XR2平臺,與前代平臺相比,驍龍XR2平臺的AI處理能力提升高達11倍,能夠支持更多感知算法。

9月中旬,高通的雲端推理芯片Cloud AI 100已經出貨,同時,高通開始探索Cloud AI 100邊緣方案開發套件,並已實際交付。

這是它在AI芯片行業、邊緣人工智能邁出的新一步。

在全球人工智能產業的生態系統逐步成型的當下,AI已然成爲各行各業加速發展的助推器。

高通也不例外,從手機、PC、XR到機器人等等,它在飛速推動各領域的AI升級。

目前,高通的所有系統級芯片都支持AI、或集成AI Engine。

對於AI芯片而言,就像產品的最終目的是落地一樣,從“雲端”到“邊緣”也是一種必然的趨勢。

如果只將目光放在眼下單一領域的利益發展、而非多角度進行探索,將難以在競爭愈漸激烈的行業中謀得生存。高通的全方位投入所取得的成果,讓AI行業看見了新的範例。

相關文章