谷歌Gemini：被神話的多模態和被低估的隱忍

Google最強大的大模型Gemini發佈了，陸續讀了技術報告和一些評測/分析，週末記錄和分享一下：

一、幾點值得Mark的筆記

Gemini Ultra的得分爲90.0%，是第一個在MMLU（大規模多任務語言理解）上超過人類專家的模型，類似於高考。國內外也有類似的評測基準。

比如C-Eval/CMMLU/GaoKao/LucyEval/SuperClue/OpenCompass/FlagEval等等。

2．此次Google對Gemini宣傳突出的最大亮點——多模態。“Gemini設計成原生的多模態，從一開始就在不同的模態上進行預訓練。助於Gemini從頭開始無縫地理解和推理各種輸入，遠遠優於現有的多模態模型——其能力在幾乎每個領域都是最先進的。”

遵循 next token prediction 的方式，Gemini 把多模態數據從頭訓練，包括文本、圖片、音頻、視頻等，所有模態數據轉換爲 token，最後變成一維線性輸入（不同的模態按照顏色順序標記），讓模型預測 next token。

3． Google一口氣發佈了三個規格的模型：Ultra是最大的，對標GPT4和4V、還沒有開放（12月13日開放API）。Pro對標GPT3.5，在美區Bard上可以用（我試了下我的Bard，還是之前的LaMDA）。Nano是小模型，在谷歌的Pixel 8手機上可以用。

4．技術報告中，Google強調了算力優勢：“我們宣佈迄今爲止最強大、高效和可擴展的TPU系統——Cloud TPU v5p ，旨在訓練尖端的人工智能模型。”

翻譯成大白話，就是：微軟/OpenAI/Anthropic這些公司，利潤（據說70%）都被Nvidia喫了，我的利潤還是自己的。（其實微軟和OpenAI也在嘗試自己做芯片，只是進度慢於Google。）

5． Gemini語音識別在主要語種上有大幅提升（Bleu值比OpenAI的Wisper 2高10個點，但在其他語種上Wisper更強。機器翻譯能力在WMT2023的測試集上評測的結果，也比GPT4略高）。

二、一個簡單的評測

沒用視頻，用這張圖試了下一些有多模態能力的模型。方法是：上傳這張圖，然後問：從設計上看，圖中哪個車會跑得更快？

百度文心4.0：

智譜清言：

ChatGPT的GPT4：

Google Bard（還不是Gemini Pro）：

不多評論，不過四個同學都挺有意思~

三、幾點想法

1．關於多模態：實時處理聲音、視頻流、真實世界交互，意味着具身智能的一大步。可以實時接收信息並實時處理任務，更像人類的生活場景了。Google坐擁全球最大的視頻網站Youtube，訓練多模態模型條件優越。而且最近大火的文生圖Midjourney和文生視頻Runway/Pika，證明了多模態在商業上的潛力。

不過，從智能的角度說，多模態被神化了。相比於文本語言模型，多模態模型從智能上來說提升並不大，模型在理解、推理、創造方面並沒有顯著的提升。除了視頻的訓練難度，我猜想，我們低估了文本。Rust創始人Graydon Hoare說過：“所有的文學和詩歌、歷史和哲學、數學、邏輯、編程和工程都依靠文本編碼來表達它們的想法，這不是一個巧合”。

文本確實保存了人類智慧的精華，古今中外的智慧、對世界萬物的認知和發現，自有人類文字記載以來，幾乎都存到文本中。

一方面，GPT只是一個讀了萬卷書的“書呆子”，卻已經能具備強大的常識、理解、推理和創造力，頗有點“不出戶，知天下；不窺牖，見天道“的味道。另一方面，大自然這本書，到底怎麼讀？這似乎是一個巨大的問題。從真實世界學習知識，就像行萬里路相比於讀萬卷書，低效太多。

2． Gemini沒有現場演示，網傳一些復現視頻和Demo視頻不符，有誇大宣傳嫌疑。不過，從Bard不斷縮小和ChatGPT差距的事實，以及Google綜合能力判斷，Gemini Ultra能力不會和宣傳的出入太大。

Gemini這一仗奠定了AI領域的雙子星格局，我們都低估了Google的隱忍。

從競爭格局看，無論是Meta的開源Llama2，還是主打安全的Anthropic、馬斯克的X.ai，目前的差距都拉大了。

3． Google的優勢有這些：

組織方面，今年年初DeepMind和Google Brain的合併，解決了力量分散和認知不統一的問題，化劣勢爲優勢。

人才方面，領軍人物是AlphaGo的推動者，對AGI理解深刻的Demi Hassabis，首席科學家是工程師傳說級人物Jeff Dean。人數方面，技術報告作者欄的人數好幾頁，已將近千人。已經比OpenAI的人數多（七百多人）。

算力/算法/工程方面：算力上谷歌不像微軟和OpenAI高度依賴英偉達，有Cloud TPU v5p。算法上，谷歌是Transformer的發明者，是一直以來算法的領頭羊；還有搜索業務本身積累的底層算法和工程能力。

生態方面，Google C端強於微軟，微軟除了雲主要是window/office，而Google擁有幾乎微軟+蘋果的C端能力。另外，模型層和應用層都在一個體系下，動作應該比OpenAI和微軟的聯盟快。

4．當然，OpenAI的優勢至少也還有這些：

GPT4是3月就發佈的，時間上領先了Gemini Ultra 9個月，過幾個月是否會發布GPT5？

ChatGPT的是一個Killer app，緊隨其後的GPT4發佈，OpenAI佔領了用戶心智，GPT也幾乎成了大模型的代名詞。

全球一億多用戶形成的用戶反饋和數據飛輪，大規模的落地已經鋪開。

微軟快得不像大公司的Copilot和Azure雲滲透，OpenAI的創業心態，關於GPTs和GPT store的生態野望，都是厚實的肌肉。

5．被神話的多模態前景，被低估的Google的隱忍，被加速的AI進程，被喧囂淹沒的AI風險提醒。

這可能是我們——依然處於早期矇昧的人類，在取得亙古未有的生產力躍遷前的徘徊，也有可能是文明充分發育後，在被硅基超越的懸崖邊緣的試探。

不管怎麼樣，這注定是一段風起雲湧，激盪數年，值得觀察和記錄的人類歷史。

責任編輯：張恆星 SF142

谷歌Gemini：被神話的多模態和被低估的隱忍

熱門新聞

週熱門

谷歌Gemini：被神話的多模態和被低估的隱忍

微軟、谷歌財報開路！“賣鏟人”英偉達本週強勢暴漲兩位數

投資者爲AI喝彩 微軟和谷歌股價大幅上漲

谷歌、微軟盤後大漲 市值合計增4500億美元

微軟三季報財報揭祕：AI已成爲變現利器？

微軟高管解讀Q3財報：有信心將投資轉化爲未來的第二次成功

微軟公佈第 3 財季財報：營收 619 億美元，同比增長 17%

得益於客戶對AI需求強勁 微軟季度營收和利潤高於預期

AI投資面臨英國反壟斷調查 微軟市值跌破3萬億美元

週末要聞：馬斯克極速訪華談了什麼 日元兌美元連刷34年來新低 加拿大2022年貧困率繼續增長

蘋果OpenAI合作，力爭今年生成式AI登陸iPhone

谷歌將投資30億美元在美國新建及擴建現有數據中心

新iPhone將引入AI功能？蘋果據傳正與OpenAI和谷歌進行談判

蘋果、谷歌下架多款惡意AI應用 更嚴峻的問題是.....

谷歌高管解讀Q1財報：AI會爲雲業務帶來拐點

谷歌公佈最新財報：營收 805 億美元、同比增長 15%，將首次發放季度股息

熱門新聞

週熱門

投資者爲AI喝彩微軟和谷歌股價大幅上漲

谷歌、微軟盤後大漲市值合計增4500億美元

得益於客戶對AI需求強勁微軟季度營收和利潤高於預期

AI投資面臨英國反壟斷調查微軟市值跌破3萬億美元

週末要聞：馬斯克極速訪華談了什麼日元兌美元連刷34年來新低加拿大2022年貧困率繼續增長

蘋果、谷歌下架多款惡意AI應用更嚴峻的問題是.....