AI(人工智能)芯片緊缺之際,越來越多科技巨頭選擇自行研發。

當地時間4月10日,社交巨頭Meta公佈了自主研發芯片MTIA的最新版本。MTIA是Meta專門爲AI訓練和推理工作設計的定製芯片系列。和去年五月官宣的Meta第一代AI推理加速器MTIA v1相比,最新版本芯片在性能上有顯著提升,專爲Meta旗下社交軟件的排名和推薦系統而設計。分析指出,Meta的目標是降低對英偉達等芯片廠商的依賴。

10日當天,Meta(Nasdaq:META)股價收於每股519.83美元,漲0.57%,總市值1.33萬億美元。Wind數據顯示,自今年年初以來,Meta股價已漲超47%。

從名字來看,MTIA即爲“Meta訓練與推理加速器(Meta Training and Inference Accelerator)”的縮寫。儘管含有“訓練”二字,這款芯片實際上並不是爲AI訓練所優化的,而是專注於推理,即在生產過程中運行AI模型的任務。

Meta在博客文章中寫道,MTIA是公司“長期計劃的重要組成部分”,旨在Meta的服務中使用AI來構建基礎設施:“爲了實現我們對定製芯片的雄心,這意味着不僅要投資於計算芯片,還要投資於內存帶寬、網絡和容量以及其他下一代硬件系統。”

據介紹,新款MTIA芯片“從根本上專注於提供計算、內存帶寬和內存容量的適當平衡”。初代MTIA v1芯片採用臺積電的7nm製程工藝,而新款 MTIA 芯片採用臺積電的5nm工藝,擁有更多的處理核心。該芯片將擁有256MB的片上內存,頻率爲1.3GHz,而MTIA v1的片上內存爲128MB和800GHz。Meta的早期測試結果顯示,通過測試兩種芯片的“四個關鍵模型”的性能,新芯片的性能是一代版本的三倍。

在硬件方面,爲了支持下一代芯片,Meta開發了一個大型機架式系統,最多可容納72個加速器。它由三個機箱組成,每個機箱包含12個板,每個板包含兩個加速器。該系統可以將芯片的時鐘頻率從初代的800 MHz提高至1.35GHz,並以90瓦的功率運行,而初代設計的功耗爲25瓦。

在軟件方面,Meta強調,新芯片系統運行的軟件堆棧與 MTIA v1非常類似,加快團隊的部署速度。此外,新的MTIA與爲MTIA v1開發的代碼兼容,由於Meta已經將完整的軟件堆棧集成到芯片中,開發者在幾天內就可以使用這款新芯片啓動並運行Meta的流量,使Meta能夠在九個月的時間內將芯片落地到16個地區,運行生產模型。

根據Meta的總結,迄今爲止的測試結果表明,這款MTIA芯片可以處理作爲Meta產品組件的低複雜性 (LC) 和高複雜性 (HC) 排名以及推薦模型:“因爲我們控制整個堆棧,與商用GPU相比,我們可以實現更高的效率。”

目前,新款MTIA芯片已被部署在Meta的數據中心,並展現出了積極成果:“公司能夠爲更密集的AI工作負載投入並投資更多的算力。事實證明,在針對元特定工作負載提供性能和效率的最佳組合方面,該芯片與商用GPU具有高度互補性。”

今年2月,已有外媒透露了關於第二代MTIA芯片的消息,稱Meta擬在今年投產被內部稱爲“阿爾忒彌斯(Artemis)”的AI芯片,以進一步加速公司在AI領域內的擴張。當時,Meta發言人確認該計劃屬實,稱該芯片將與Meta採購到的數十萬個GPU協同工作。

隨着AI競賽加劇,高性能的AI芯片變得越來越搶手。今年1月18日,Meta的CEO馬克·扎克伯格曾高調宣佈,Meta正在計劃構建自己的AGI(通用人工智能),計劃在今年年底前獲得約35萬塊來自英偉達的H100 GPU,再算上其他GPU,公司擁有的算力總和將接近於60萬塊H100所能提供的算力。即使按照明星芯片H100的最低售價25000美元來計算,Meta仍將爲35萬塊H100支付約87.5億美元的支出。

當然,Meta並不是唯一一家將目光轉向自研芯片的科技巨頭。就在幾天前,谷歌宣佈其正在製造基於ARM架構的定製CPU,名爲“Axion” ,計劃讓其支持谷歌雲上的YouTube廣告等服務,並將於2024年晚些時候上市。此前,微軟和亞馬遜也都開始研發能夠處理AI任務的定製芯片。

市場研究機構CFRA的分析師表示,這些大型科技公司正在面臨成本上的壓力,需要靠自研芯片來加以緩解。儘管這些芯片對於公司來說是“必要的”,它們在性能上可能無法追上英偉達最新的Blackwell平臺產品。

相關文章