“遙遙領先”GPT-4？谷歌最強AI大模型Gemini發佈一天便引質疑！公司承認6分鐘視頻經特殊剪輯處理

轉自：每日經濟新聞

每經記者蔡鼎每經編輯蘭素英

美東時間12月6日，谷歌CEO桑達爾？皮查伊宣佈迄今爲止規模最大，能力最強的谷歌大模型Gemini 1.0 版正式上線。Gemini是原生多模態大模型，是谷歌大模型新時代的第一步，它包括三種量級：能力最強的 Gemini Ultra，適用於多任務的 Gemini Pro，以及適用於特定任務和端側的 Gemini Nano。

皮查伊官宣推文發佈後，馬斯克也在下面評論稱，“（Gemini）令人印象深刻”。當天，谷歌還發布了一條約6分鐘的延時演示視頻，展示Gemini的多模態功能（例如，口語對話提示與圖像識別相結合）。截至發稿，該視頻在YouTube上已經收穫141萬次觀看。

然而，Gemini發佈才一天，外界已開始有聲音指控谷歌對Gemini的性能“造假”。

其中，彭博社一篇專欄文章就表示，谷歌在一段演示視頻中歪曲了Gemini的AI性能。專欄作家帕米·奧爾森（Parmy Olson）認爲，在谷歌發佈的這段視頻中，Gemini似乎非常強大，但有點過於強大了。對此質疑，谷歌回應時承認，這段關於Gemini性能演示的視頻並不是實時的，而是使用了原始鏡頭中的靜止圖像幀，然後編寫了文本提示，以便讓Gemini做出回應。

6分鐘演示視頻引質疑

奧爾森認爲，Gemini的演示視頻確實非常令人印象深刻。Gemini能夠僅憑一些毫無規則的點就可以推斷出繪製內容是一隻螃蟹，顯示出谷歌DeepMind人工智能實驗室多年來訓練的大模型推理能力。不過，奧爾森指出，谷歌這段視頻中展示的Gemini所具備的一些功能並不是其獨有的，ChatGPT Plus也具有類似的推理能力。

《每日經濟新聞》記者注意到，在這6分鐘的視頻中，Gemini似乎能夠快速識別圖像，並在幾秒鐘的時間內做出反應。然而，如果用戶點擊發布在YouTube上的這段視頻的描述，谷歌寫了一個重要的“免責聲明”，稱“爲了達到Gemini的演示目的，延遲已經被人爲減少，Gemini的輸出時長也爲了簡潔而被縮短。”這意味着，Gemini實際回答每個問題所花費的時間要比視頻演示中的更長。

機器學習講師Santiago Valdarrama在X平臺上發文暗示，谷歌上述視頻的“免責聲明”似乎“展示的是精心挑選的好結果，不是實時錄製而是剪輯的。”他直言，“這就是誤導，任何參與到其中的人都應該感到尷尬。”

此外，谷歌公佈的MMLU多任務語言理解數據集測試顯示，Gemini Ultra不光超越GPT-4，甚至超越了人類專家。然而，不少業內專家發現，在MMLU測試中，Gemini Ultra的結果下面有灰色小字標CoT@32，代表使用了思維鏈提示技巧、嘗試了32次後選取最好結果。而作爲對比的GPT-4，卻無提示詞技巧，且只嘗試了5次。

否認造假，Gemini負責人稱只是爲了簡潔縮短了反應時長

美國科技媒體The Verge報道中稱，公平地說，這並不是大型科技公司首次對其產品演示視頻進行剪輯處理，除了谷歌外，其他大型科技公司爲了避免現場演示帶來任何技術性問題，都會稍微對視頻進行調整，這也非常普遍。

但對於視頻“造假”一說，谷歌堅決予以否認。谷歌DeepMind和深度學習的副總裁、Gemini聯合負責人奧里奧爾·維亞萊斯（Oriol Vinyals）在一篇博客文章中，解釋了Gemini演示視頻的製作過程：性能演示視頻不是實時的，而是使用了原始鏡頭中的靜止圖像幀，然後編寫了文本提示，並要求它通過預測來做出回應。

“視頻中的所有用戶提示和輸出都是真實的，只是爲了簡潔而縮短了（Gemini的反應時長）。這個視頻展示了使用Gemini構建的多模式用戶體驗，我們製作它是爲了激勵開發者。”維亞萊斯強調。

奧爾森對此卻並不買賬。她在專欄文章中寫道：“這與谷歌描述的完全不同——谷歌稱，任何人都可以與Gemini進行流暢的語音對話，因爲Gemini可以實時觀察周遭世界並做出反應。”

她同時指出，谷歌官方發佈的Gemini各模態性能顯示，Gemini Ultra（下圖中藍色部分）在9項標準基準測試中的7項都優於GPT-4。這些基準測試往往用於測試人工智能模型在高中物理、專業法律和道德場景等方面的能力。

然而，在大多數基準測試中，Gemini Ultra只比OpenAI的GPT-4高出幾個百分點，有些甚至不到1個百分點。奧爾森認爲，換句話說，谷歌這個所謂的頂級人工智能模型只對OpenAI一年前完成的工作進行了有限的改進。

需要指出的是，谷歌的6分鐘Gemini演示視頻並沒有說明演示的模型是Gemini Ultra。

奧爾森認爲，一年前，谷歌這個“笨拙的搜索巨頭”被OpenAI的ChatGPT打了個措手不及，此後便一直希望趕上生成式人工智能這股浪潮。谷歌希望通過強大的營銷讓人們記住，它擁有世界上最強大的人工智能研究團隊之一，並且比其他任何人都能獲得更多的數據。但從技術角度來看，在生成式人工智能方面，谷歌仍然落後於OpenAI。

不過，在科技行業，誰也不能保證一直一帆風順，屹立不倒。早期的手機霸主諾基亞和黑莓就是例子。在蘋果推出功能更強大、更受歡迎的產品iPhone後，諾基亞和黑莓的市場份額便迅速被搶走。而在軟件領域，市場的成功則來自於擁有最強大性能的系統。

（責任編輯：朱曉航）

“遙遙領先”GPT-4？谷歌最強AI大模型Gemini發佈一天便引質疑！公司承認6分鐘視頻經特殊剪輯處理

熱門新聞

週熱門

“遙遙領先”GPT-4？谷歌最強AI大模型Gemini發佈一天便引質疑！公司承認6分鐘視頻經特殊剪輯處理

傳將獲Alphabet全股票收購 HubSpot週二股價大漲8%

前OpenAI安全團隊負責人Jan Leike將加入競爭對手Anthropic

馬斯克強勢助攻英偉達？“AI龍頭”股價再創新高，市值逼近蘋果！

鏈遊開發商Supervillain Labs完成450萬美元種子輪融資，Aptos Labs與Intella X領投

馬斯克再爲AI熱潮添一把火！英偉達有望晉級3萬億美元俱樂部

Cathie Wood：利用比特幣和AI推動其經濟和教育改革，薩爾瓦多GDP在未來五年內可能增長10倍

螞蟻明確AI戰略圖譜 讓AI像掃碼支付一樣便利

Chainlink聯創：自現貨比特幣ETF獲批以來，加密貨幣已變得“更加合法化”

OpenAI成立新的安全顧問委員會 成員全是自己人

電網升級需求大、電力股太便宜 高盛：下一波AI交易在歐洲

Spot On Chain：DWF Labs可能已在場外購買了價值500萬USDT的LADYS

螞蟻首次公佈AI應用矩陣

Kaiko：灰度即將推出的以太坊現貨ETF預計每日流出量可達1.1億美元

A股AI PC概念上揚

摩根大通：上調聯想集團目標價至13港元 上調2025及26財年盈測

熱門新聞

週熱門

螞蟻明確AI戰略圖譜讓AI像掃碼支付一樣便利

OpenAI成立新的安全顧問委員會成員全是自己人

電網升級需求大、電力股太便宜高盛：下一波AI交易在歐洲

摩根大通：上調聯想集團目標價至13港元上調2025及26財年盈測