中國AI大模型始於去年,今年價格戰陰雲便已懸頂。

字節跳動被視爲這輪價格戰的發起者之一。上週字節跳動的大模型喊出比行業便宜99.3%,隨後阿里宣佈大模型降價,今天,百度智能雲宣佈,文心大模型兩大主力模型全面免費。這意味着,大模型僅僅問世一年,就迎來了免費時代。

5月15日,字節跳動豆包大模型在火山引擎原動力大會上正式發佈。火山引擎是字節跳動旗下雲服務平臺,據火山引擎總裁譚待介紹,經過一年時間的迭代和市場驗證,豆包大模型正成爲國內使用量最大、應用場景最豐富的大模型之一,目前日均處理1200億Tokens文本,生成3000萬張圖片。

“大的使用量,才能打磨出好模型,也能大幅降低模型推理的單位成本。豆包主力模型在企業市場的定價只有0.0008元/千Tokens,0.8釐就能處理1500多個漢字,比行業便宜99.3%。”譚待表示,大模型從以分計價到以釐計價,將助力企業以更低成本加速業務創新。

對於這次宣稱的成本下降,有的業內人士並不認可。

有大模型服務商對記者介紹:“當我們使用大模型時,會向大模型提問。在大模型廠商眼裏,我們可以把一次提問簡單看成一個向大模型提出的請求(Request),一個請求會包含輸入、輸出兩部分,也就是用戶先向模型提問,模型給出答案。問題和答案中包含的文字量通常會用固定的計算方式換算成大模型能夠理解的單元,也就是Token。根據問答內容的特徵、模型算力消耗等因素,大模型廠商一般會分別爲輸入、輸出內容設定不同的價格。”

同時,在付費模式方面,主要分爲預付費、後付費兩種模式。一般來說,預付費模式要比後付費模式更便宜。火山引擎最新發布的大模型Doubao-pro-32k,雖然爲模型輸入設定了超低的後付費價格,但是並沒有在發佈會上展示模型的輸出價格,相比輸入價格貴出很多。

更重要的是,用戶只有在較低的業務併發(每分鐘60次問答請求,即每秒1次)這個強限制條件下,才能享受得到這個價格。這意味着,豆包大模型的這個“超低價”只能用來體驗和測試,無法真正用到生產環境中。

對此,字節跳動方面也對記者做出解釋:推理輸入在模型推理中佔絕大部分,業內一般認爲,輸入比輸出是5比1。所以發佈會是以推理輸入價格作爲示例。同時企業可以自由選擇預付費或後付費模型:預付費有附加服務保障,價格相對後付費會更高(相當於商務艙和經濟艙的對比),但同時預付費也會有非常大的折扣,最低可以打一折。少數需要高併發保障的大客戶,會更傾向“預付費”模式;大多數客戶會用“後付費”模式。“後付費”在行業內一般是限制最高的TPM(每分鐘token數)和RPM(每分鐘請求數),豆包大模型“後付費”的TPM和RPM上限對比友商也都是非常高的,足夠滿足業務需求,客戶還可以購買多個模型單元來提高併發。

在字節跳動的大模型喊出比行業便宜99.3%之後,阿里也宣佈大模型降價了。尤其是在字節跳動重點宣傳的千tokens輸入價格上,阿里直接給出了更低的價格。

5月21日,阿里雲官微發文宣佈通義千問大模型降價。其中GPT-4級主力模型Qwen-Long降價幅度甚至達到97%,API輸入價格從0.02元/千tokens(文本中的基本單位)降至0.0005元/千tokens。這意味着,1塊錢可以買200萬tokens,相當於5本《新華字典》的文字量。

該模型最高支持1千萬tokens長文本輸入,降價後約爲GPT-4價格的1/400。

字節跳動對阿里降價進行了回應。

火山引擎相關負責人表示,非常歡迎通義千問大模型降價,共同助力企業以更低成本探索AI轉型,加速大模型應用場景落地。據介紹,豆包大模型在大幅降價同時,還爲客戶提供了業內最高標準的 TPM(每分鐘Tokens)和 RPM(每分鐘請求數),每分鐘處理 Tokens 限額達到業內同規格模型的數倍,能夠支持大量併發請求,有助於企業在生產系統調用大模型。

作爲中國首個發佈大模型的平臺,百度迅速加入價格混戰。今日,百度智能雲宣佈文心大模型的兩款主力模型ENIRE Speed、ENIRE Lite全面免費,即刻生效。

這兩款大模型今年3月發佈,均支持8K和128k上下文長度。ERNIE Lite是百度自研的輕量級大語言模型,兼顧優異的模型效果與推理性能,適合低算力AI加速卡推理使用。ERNIE Speed則是百度自研高性能大語言模型,適合作爲基座模型進行精調,更好地處理特定場景問題,同時具備極佳的推理性能。

從字節跳動推出豆包大模型、宣佈大模型價格進入釐時代,到百度直接宣佈兩款主力模型免費,大模型降價力度和速度遠超市場預期。

2024年被認爲是AI應用元年。有業內人士表示,推理成本過高依然制約着大模型規模化應用,降價有助於吸引更多的產品使用者。

“戰不戰不知道,反正在卷價格。”有接近某大廠的人士表示。

相關文章