在國產版GPT接踵而至的背景下,目前國內的算力平臺還不足以提供支撐,這也成爲制約我國大模型發展的重要瓶頸。

上週,百度推出基於大模型的AI聊天機器人“文心一言”,成爲國內首個衝進GPT賽道的互聯網企業。3月18日,第一財經記者從達觀數據獲悉,該公司自主研發的大型語言模型“曹植”系統也取得突破性進展,有望成爲國內大規模語言模型中首批可落地的產業應用級模型。

在國產版GPT接踵而至的背景下,目前國內的算力平臺還不足以提供支撐,這也成爲制約我國大模型發展的重要瓶頸。

垂直大模型也需要上千張GPU

據介紹,“曹植”與ChatGPT和“文心一言”這類更加通用的大語言模型不同,是專注於垂直、專用領域的模型,目標是賦能金融、政務、製造等多個垂直領域。

達觀數據創始人CEO陳運文對第一財經表示:“‘曹植’在垂直領域內的理解和生成的任務上都達到了很好的效果。目前在一些技術細節方面還在調優,未來達觀數據將建立多個垂直領域的專用語言大模型,整體功能會很有特色。”

他舉例稱,基於達觀AIGC智能寫作能力,可適配各類材料申報業務場景,基於已有各結構化類數據,快速撰寫各類制式和非制式文檔,應用於公文、招投標、投行申報文檔、法律文書等專業寫作場景。

華爲公司創始人任正非近期也對ChatGPT發表看法。他表示:“未來在AI大模型上會風起雲湧,不只是微軟一家,人工智能軟件平臺公司對人類社會的直接貢獻可能不到2%,98%都是對工業社會、農業社會的促進,大家要關注應用。”

ChatGPT帶動了自然語言處理整體上下游以及芯片的思考和發展,某種程度上大模型也很可能成爲下一代技術發展的基礎設施。中國建立自己的基礎模型體系已成爲必然需求,在這一發展過程中,目前國內企業面臨的普遍問題是算力不足。

陳運文向第一財經記者坦言,訓練一個垂直的大模型可能需要上千張GPU芯片集羣。“現在面臨的問題是,我們需要的GPU數量還遠遠不夠,遠水解不了近渴。”他對第一財經記者說道,“集羣需要的GPU數量很多,建設週期長投入大。”

目前支撐包括ChatGPT大模型在內的95%用於機器學習的芯片都是英偉達的A100(或者國內使用的替代產品A800),該芯片的單價超過1萬美元。此外,英偉達最新一代的H100芯片的性能也遠超A100,但價格也更高,約合25萬元人民幣。

除了單個的芯片之外,英偉達還出售一個包含8個A100的服務器系統DGX,售價接近20萬美元。分析師和技術專家估計,訓練GPT-3等大型語言模型的耗資可能超過400萬美元。

這對於大多數中小企業而言幾乎是不可能承受的開支。在陳運文看來,如果有超大中心能夠提供算力租賃的模式,將會解決中小企業很大一部分算力不足的問題。“國內現有的租賃平臺的問題是算力規模還太小,而且價格太高。”陳運文告訴第一財經記者。

企業探索減少對算力的依賴

在GPT這類大模型問世前,國內幾乎沒有任何應用場景需要用到如此大的算力。第一財經記者瞭解到,商湯科技等國內企業都擁有自己的超算中心,但這些平臺僅向定向合作客戶開放;而阿里巴巴等對外出租的超算平臺的的算力仍然不足以滿足目前大量的大模型需求。

復旦大學自然語言處理實驗室邱錫鵬教授此前也表示,該實驗室開發的大語言模型MOSS受制於算力資源不足的問題。據介紹,MOSS是基於32張英偉達A100芯片算力。相比之下,ChatGPT模型背後擁有約3萬塊A100芯片,差距接近1000倍。

對此,邱錫鵬認爲,在資源有限的情況下發展大模型的方向是“用規模較小的模型找到特定的應用場景”,例如可以企業內部私有部署,經過一些數據微調就可以轉化爲生產力。

作爲GPT算力最重要的提供者,英偉達已經在探索新的商業模式。黃仁勳已經表示,英偉達願意將人工智能的算力放在雲端共享給企業。

“我們提供的價值是將原來需要投入10億美元運行CPU的數據中心縮減爲僅用1億美元就能搞定的數據中心,現在將該數據中心放在雲端共享,意味着可以由100家公司來分擔這一成本,因此每家公司支付的實際上是非常少的費用。”他說道,“現在企業可以花一兩千萬來構建一個類似GPT的大型語言模型,這是可以支付得起的。”

不過也有業內人士指出,解決算力問題只是開發大模型的第一步。瀾舟科技創始人CEO周明對第一財經記者表示:“雖然現在算力平臺不足是行業面臨的普遍問題,但是即便算力問題解決了,還是會有其他問題,關鍵在於對大模型本質的理解需要提升。”

周明表示,在美國現在大家也是一窩蜂地去搞大模型,其實很多人對大模型的機理理解還停留在比較初步的認知,包括大語言模型的工程化管理,缺乏獨立思考的精神。

周明也同意,未來大模型的一個發展方向是,在算法上進行優化,從而減少對模型和算力的依賴。“比如用很小的GPU也可以做大模型,這個方向值得關注。”他對第一財經記者表示。

相關文章