谷歌稱Gemini開創“原生多模態”時代，但演示視頻被指誇大性能

·谷歌的演示視頻似乎暗示：當Gemini實時觀察周圍的世界並做出反應時，人可以與Gemini進行流暢的語音對話。但實際上，演示中的聲音是在讀出人向Gemini發出的文本提示，並識別人展示的靜態圖像，且響應時間比視頻中展示的時間長。

·谷歌DeepMind強調，Gemini是人工智能的新品種——“原生多模態”，區別於現有的“拼湊多模態”模型，即從一開始就使用多種模態（例如音頻、視頻和圖像）訓練而成。因此，Gemini開闢了一條人工智能領域前所未見的道路，可能會帶來重大的新突破。

Alphabet首席執行官桑達爾·皮查伊在2023年5月的Google I/O開發者大會上首次提到Gemini。

谷歌備受矚目的新AI模型Gemini剛剛發佈，就引發了一些爭議。

有媒體報道稱，一段由人工智能開發機構谷歌DeepMind製作的演示視頻誇大了Gemini的性能。這段視頻在網絡上廣泛流傳，顯示Gemini能夠迅速判斷畫面中的實物並給出像人一樣的語音反饋，凸顯出驚人的多模態功能。但一些媒體和用戶在親自上手使用時發現，Gemini並不能達到視頻中的效果。事實上，谷歌DeepMind承認演示不是實時或以語音進行的。這種營銷努力甚至遭到了谷歌內部員工的批評。

隨着中等版本的Gemini Pro開放使用，越來越多用戶在網上發佈測評，一些用戶對其早期印象並不好，儘管其確實改進了谷歌聊天機器人Bard的性能。而對標GPT-4的高級版本Gemini Ultra要到明年才發佈。

值得注意的是，谷歌DeepMind首席執行官德米斯·哈薩比斯（Demis Hassabis）在接受媒體採訪時強調，Gemini是人工智能的新品種——“原生多模態”，區別於現有的“拼湊多模態”模型，即從一開始就使用多種模態（例如音頻、視頻和圖像）訓練而成。因此，Gemini開闢了一條人工智能領域前所未見的道路，可能會帶來重大的新突破。

“只是爲了簡潔而縮短了”

彭博社專欄作家帕米·奧爾森（Parmy Olson）12月7日撰文稱，第一次觀看谷歌DeepMind關於Gemini的視頻演示時，確實大受震撼。Gemini能夠從塑料杯下追蹤蓋住的紙團，或者通過白色的點推斷出將畫出什麼圖形，這顯示了DeepMind人工智能實驗室在過去幾年中培養的推理能力，這是其他人工智能模型所缺少的。但所展示的許多其他功能並不是獨一無二的，正如沃頓商學院教授伊桑·莫利克（Ethan Mollick）所演示的，可以通過ChatGPT Plus複製。

02：35

谷歌DeepMind關於Gemini的視頻演示。（02：35）

這段演示也不是實時或以語音進行的。谷歌發言人承認，該視頻“使用鏡頭中的靜態圖像幀並通過文本提示”製作。該公司指出，有一個網站展示瞭如何通過雙手、圖畫或其他物體的照片與Gemini互動。換句話說，演示中的聲音是在讀出人向Gemini發出的文本提示，並識別人展示的靜態圖像。而谷歌視頻中暗示的似乎不同：當Gemini實時觀察周圍的世界並做出反應時，人可以與Gemini進行流暢的語音對話。

當然，谷歌其實已經表明該視頻經過編輯。“出於本演示目的，爲了簡潔起見，延遲已經減少，Gemini輸出（時間）也已縮短。”該公司在其YouTube視頻的描述中表示。這意味着模型每個響應所花費的時間實際上比視頻中展示的時間長。

這段視頻也沒有具體說明該演示是否使用的是尚未發佈的Gemini Ultra——Gemini中最大、功能最強大的類別，被定位爲GPT-4的競爭對手。

谷歌DeepMind產品副總裁伊萊·柯林斯（Eli Collins）告訴媒體，視頻中的畫鴨子演示仍然是研究級別的功能，至少目前還沒有出現在谷歌的實際產品中。

一位谷歌員工告訴彭博社，他們認爲這段視頻描繪了一幅不切實際的畫面：讓Gemini取得令人印象深刻的成績是多麼容易。另一位員工表示，對演示並不太感到驚訝，因爲他們已經習慣了公司公開定位其產品的某種程度的營銷炒作。“我認爲大多數使用過大語言模型技術的員工都知道要對這一切持保留態度。”該員工說。

科技媒體The Verge的編輯認爲，企業經常編輯演示視頻，特別是因爲許多公司希望避免現場演示帶來的任何技術問題，稍微調整一下是很常見的。但谷歌有製作可疑演示視頻的歷史，比如，可以打電話給理髮店和餐館進行預約的人工智能語音助手Duplex的演示就曾引起懷疑。而預先錄製的人工智能模型視頻往往會讓人們更加懷疑。

奧爾森則認爲，谷歌是在“炫耀”，目的是誤導人們，讓他們忽視Gemini仍然落後於OpenAI的事實。“捏造這些細節表明了更廣泛的營銷努力：谷歌希望我們記住，它擁有世界上最大的人工智能研究團隊之一，並且比其他任何人都能獲得更多的數據。”奧爾森寫到，“幾乎可以肯定，谷歌的炫耀是爲了利用OpenAI最近的動盪。”

谷歌DeepMind研究和深度學習負責人副總裁奧里奧爾·維尼亞爾斯（Oriol Vinyals）在一篇帖子解釋了團隊是如何製作該視頻的。“視頻中的所有用戶提示和輸出都是真實的，只是爲了簡潔而縮短了。”維尼亞爾斯說，“該視頻展示了使用Gemini構建的多模態用戶體驗是什麼樣子。我們這樣做是爲了激勵開發人員。”

這個回應遭到了The Verge編輯的批評：“這當然是解決這種情況的一種方法，但對谷歌來說可能不是正確的方法——至少在公衆看來，谷歌已經被OpenAI今年的巨大成功打了個措手不及。如果它想激勵開發人員，就不能通過精心編輯的、可能歪曲人工智能能力的精彩視頻。”

第一波測試結果

那麼，Gemini的性能到底怎麼樣呢？一些媒體和專業人員已經展開了測評。

Gemini的中等版本Gemini Pro在發佈當天通過聊天機器人Bard推出，沒過多久，用戶就開始在X（前身Twitter）上表達他們的不滿。

在某些案例中，該模型未能正確反映基本事實，例如2023年奧斯卡獲獎者。Gemini Pro錯誤地聲稱去年的最佳男主角是布蘭登·格里森（Brendan Gleeson），而不是真正的獲勝者布蘭登·弗雷澤（Brendan Fraser）。

Gemini Pro說錯了奧斯卡獎得主。

當再次向模型詢問同樣的問題時，它給出了不同的錯誤答案：

科幻小說作家查理·斯特羅斯（Charlie Stross）在一篇博客文章中寫道，發現了更多Gemini Pro虛構事實的例子。

翻譯似乎也不是Gemini Pro的強項。當要求它用法語給出一個6個字母的單詞時，它給出了一個5個字母的單詞。當TechCrunch記者提出同樣的要求時，Gemini Pro回答了一個7個字母的單詞。

當被要求給出6個字母的法語單詞時，Gemini Pro給出了錯誤的答案。

還有人測試了使用谷歌搜索和谷歌新聞來回顧一些熱門話題。Gemini Pro似乎不願意對可能有爭議的新聞話題提供信息，比如巴以衝突，而是告訴用戶自己去谷歌搜索。相比之下，ChatGPT給出了巴以衝突新動態的詳細摘要，並引用了新聞文章。

Gemini Pro似乎不願意提供巴以衝突的動態，而是告訴用戶自己去谷歌搜索。

不過，當TechCrunch記者要求Gemini Pro提供烏克蘭衝突最新情況的摘要時，它確實提供了一份，然而給出的信息已經過時一個多月。

谷歌在介紹中強調了Gemini增強的編程技能，儘管一些X上的帖子顯示在某些領域確實得到了改進，但有用戶發現，Gemini Pro似乎也很難處理基本的編程功能。

與所有生成式人工智能模型一樣，Gemini Pro也不能免受“越獄”的影響，即繞過阻止它討論有爭議話題的安全過濾器。銷售模型審計工具的初創公司Robust Intelligence的研究人員使用自動化方法通過算法更改提示上下文，直到Gemini Pro的護欄失效爲止，設法讓Gemini Pro提出了從慈善機構盜竊並暗殺高級官員的方法。

彭博社在對新Bard進行的有限測試中發現，大部分與GPT-3.5相當或更好，但在某些任務上仍然不可靠。

當然，Gemini Pro並不是Gemini最強大的版本，更強大的Gemini Ultra將在明年推出。雖然谷歌DeepMind稱Gemini Pro的性能擊敗了GPT-3.5，但後者已經推出了大約一年。

谷歌DeepMind發佈的表格顯示了Gemini與OpenAI頂級模型GPT-4的對比。Gemini Ultra在大多數標準基準測試中擊敗了GPT-4，測試包括在高中物理、專業法律和道德場景等方面的表現，而當前的大模型競爭幾乎完全由這些能力來定義。

谷歌發佈的表格顯示了Gemini與GPT-4的對比，藍色爲獲勝參數。

在大多數基準測試中，Gemini Ultra僅比GPT-4高几個百分點。換句話說，谷歌的頂級人工智能模型僅對OpenAI至少一年前完成的工作進行了有限的改進。而Ultra仍處於保密狀態。

研究Gemini與機器人技術結合

但Gemini的意義可能不只在於與GPT的參數對比，正如哈薩比斯特別強調的，Gemini是“原生多模態”，區別於其他既有的多模態模型。後者是將多個模態先獨立訓練成不同模型，然後再拼湊在一起的，而Gemini一開始就把多種形式的數據放在一起訓練，並使用同一個模型完成不同模態的內容輸出。

谷歌DeepMind首席執行官德米斯·哈薩比斯。

“據稱，Gemini開啓了一個新時代，超越了主要以文本爲基礎的大語言模型，這可能爲新一輪人工智能產品奠定基礎，這些產品與ChatGPT所支持的產品截然不同。”《連線》這樣評價。

此前，ChatGPT展示了人工智能模型如何在提供足夠文本的情況下了解大量關於世界的知識。一些研究人員認爲，簡單地使語言模型變得更大就會將其能力提高到與人類相媲美的程度。但是，通過人類編寫的文本過濾器，模型能瞭解的關於物理現實的信息是有限的。

“到目前爲止，大多數模型都通過訓練單獨的模塊然後將它們拼接在一起來近似於多模態。”哈薩比斯在接受《連線》採訪時表示，這似乎是在暗指OpenAI的技術，“對於某些任務來說這沒問題，但你無法在多模態空間中進行這種深層複雜的推理。”而Gemini處理不同形式數據的能力從一開始就是該項目願景的關鍵部分。

“作爲一名神經科學家和計算機科學家，多年來我一直想嘗試創建一種新一代人工智能模型，其靈感來自於我們通過所有感官互動和理解世界的方式。”哈薩比斯說，Gemini是“向這種模式邁出的一大步”。

哈薩比斯表示，爲了提供能夠以當前聊天機器人無法做到的方式理解世界的人工智能系統，大語言模型還需要與其他人工智能技術相結合。這與OpenAI首席執行官山姆·奧特曼（Sam Altman）在4月發表的言論相似，當時他明確表示，儘管ChatGPT取得了成功，但人工智能領域需要一個重大的新想法才能取得進一步的重大進展。

OpenAI正在開發一個名爲Q* 的項目，該項目旨在提高人工智能模型的推理能力，可能會使用強化學習。哈薩比斯表示，谷歌DeepMind正在按照類似的思路進行研究。

此外，哈薩比斯表示，谷歌DeepMind已經在研究如何將Gemini與機器人技術結合起來，與世界進行物理交互。“要成爲真正的多模態，你需要包括觸摸和觸覺反饋。”他說，“將這些基礎型模型應用於機器人技術有很多希望，我們正在對此進行深入探索。”

谷歌已經朝這個方向邁出了一小步。2022年5月，谷歌宣佈推出一款名爲Gato的人工智能模型，能夠學習執行各種任務。今年7月，谷歌展示了一個名爲RT-2的項目，涉及使用語言模型來幫助機器人理解和執行動作。

哈薩比斯說，相比軟件智能體（agent）或者嘗試以與人類類似的方式使用計算機和互聯網完成任務的機器人，能夠更好地推理視覺信息的模型應該會更有用。