(原標題:阿里平頭哥首顆自研芯片已和業務方做適配,“希望年底落地”)

澎湃新聞記者 承天蒙

9月25日雲棲大會上,阿里巴巴第一顆自研芯片,“全球最高性能AI推理芯片”含光800發佈。

阿里巴巴平頭哥半導體公司研究員、含光800芯片負責人驕暘表示,現在芯片已經在和業務方去做適配了,“希望年底左右可以落地”。他還表示,由於目標定得很高,“我們團隊做出了非常非常大的犧牲。”

含光800的研發速度令人矚目。據平頭哥介紹,平頭哥NPU團隊用最短的時間完成了芯片的設計、流片整個過程,7個月完成前端設計,之後僅了3個月就成功流片。驕暘表示,流片僅一次就獲得了成功。

在一場媒體羣訪中,驕暘對記者介紹,“這個NPU我們團隊花了差不多一年的時間,從團隊組建,到設計完成、架構驗證,到我們流片回來,是一次成功。流片回來後就通過了驗證。”

芯片設計是一個複雜的系統工程,單純完成設計並不意味着就可以流片成功,這是行業的深水區,假如流片失敗,就意味着硬件設計需要推倒重來,這比軟件出BUG更加嚴重。

一般芯片公司需要做兩次工程樣品、產品樣品或多次樣品才能流片成功。而流片成功後也不代表就可以直接商用,它還需要經過複雜的測試驗證,在各項指標都符合實際場景需求後纔到了真正的商用階段。

針對澎湃新聞記者的詢問,驕暘表示,其實這種速度下,保證質量是“非常難的”,他補充道,“我們團隊做出了非常非常大的犧牲,好在團隊的工作經驗是比較豐富的。”

驕暘還提到,“由於定下了一個比較高的目標,我們甚至有的團隊成員第一天加入,當天晚上就去debug(排除程序故障)了。”

據平頭哥介紹,含光800主要用於雲端視覺處理場景,目前已開始應用在阿里巴巴內部核心業務中。

根據雲棲大會的現場演示,1個含光800的算力等於10個GPU。以城市大腦中實時處理杭州主城區交通視頻爲例,需要40顆傳統GPU,延時爲300ms,使用含光800僅需4顆,延時降至150ms。拍立淘商品庫每天新增10億商品圖片,使用傳統GPU算力識別需要1小時,使用含光800後可縮減至5分鐘。

有網絡說法稱,含光800芯片第一次流片時,一羣工程師忐忑地在電梯口等結果,當得知流片成功時,有工程師哭了出來。

驕暘介紹,爲什麼要立下這種時間緊、任務重的目標,除了背後有計算支撐之外,這與爲什麼平頭哥要做AI芯片的戰略也有關係。

驕暘說,AI芯片是一個新的領域,有發展的機會。老的計算平臺如CPU、GPU等,是爲老的計算形態設計的。GPU原本是用於視頻渲染,在AI計算沒有更好的替代方案時,位於臨界點上的GPU便成爲了選擇。而一旦有更好的選擇,GPU很快就會被替代。速度便十分重要。

“我們看到了人工智能算法需要一個特殊的架構,”驕暘表示,“雖然挑戰很大,但從阿里巴巴的要求來說,我們是一定要去挑戰那個‘皇冠上的明珠’。”

“含光800已經量產,只服務阿里內部,暫不打算向第三方企業獨立銷售。”阿里巴巴研究員、平頭哥半導體有限公司IoT芯片研究員孟建熠告訴澎湃新聞記者,“量產數量暫不方便對外透露。”

相關文章