Google最強大的大模型Gemini發佈了,陸續讀了技術報告和一些評測/分析,週末記錄和分享一下:

一、幾點值得Mark的筆記

Gemini Ultra的得分爲90.0%,是第一個在MMLU(大規模多任務語言理解)上超過人類專家的模型,類似於高考。國內外也有類似的評測基準。

比如C-Eval/CMMLU/GaoKao/LucyEval/SuperClue/OpenCompass/FlagEval等等。

2. 此次Google對Gemini宣傳突出的最大亮點——多模態。“Gemini設計成原生的多模態,從一開始就在不同的模態上進行預訓練。助於Gemini從頭開始無縫地理解和推理各種輸入,遠遠優於現有的多模態模型——其能力在幾乎每個領域都是最先進的。”

遵循 next token prediction 的方式,Gemini 把多模態數據從頭訓練,包括文本、圖片、音頻、視頻等,所有模態數據轉換爲 token,最後變成一維線性輸入(不同的模態按照顏色順序標記),讓模型預測 next token。

3. Google一口氣發佈了三個規格的模型:Ultra是最大的,對標GPT4和4V、還沒有開放(12月13日開放API)。Pro對標GPT3.5,在美區Bard上可以用(我試了下我的Bard,還是之前的LaMDA)。Nano是小模型,在谷歌的Pixel 8手機上可以用。

4. 技術報告中,Google強調了算力優勢:“我們宣佈迄今爲止最強大、高效和可擴展的TPU系統——Cloud TPU v5p ,旨在訓練尖端的人工智能模型。”

翻譯成大白話,就是:微軟/OpenAI/Anthropic這些公司,利潤(據說70%)都被Nvidia喫了,我的利潤還是自己的。(其實微軟和OpenAI也在嘗試自己做芯片,只是進度慢於Google。)

5. Gemini語音識別在主要語種上有大幅提升(Bleu值比OpenAI的Wisper 2高10個點,但在其他語種上Wisper更強。機器翻譯能力在WMT2023的測試集上評測的結果,也比GPT4略高)。

二、一個簡單的評測

沒用視頻,用這張圖試了下一些有多模態能力的模型。方法是:上傳這張圖,然後問:從設計上看,圖中哪個車會跑得更快?

百度文心4.0:

智譜清言:

ChatGPT的GPT4:

Google Bard(還不是Gemini Pro):

不多評論,不過四個同學都挺有意思~

三、幾點想法

1. 關於多模態:實時處理聲音、視頻流、真實世界交互,意味着具身智能的一大步。可以實時接收信息並實時處理任務,更像人類的生活場景了。Google坐擁全球最大的視頻網站Youtube,訓練多模態模型條件優越。而且最近大火的文生圖Midjourney和文生視頻Runway/Pika,證明了多模態在商業上的潛力。

不過,從智能的角度說,多模態被神化了。相比於文本語言模型,多模態模型從智能上來說提升並不大,模型在理解、推理、創造方面並沒有顯著的提升。除了視頻的訓練難度,我猜想,我們低估了文本。Rust創始人Graydon Hoare說過:“所有的文學和詩歌、歷史和哲學、數學、邏輯、編程和工程都依靠文本編碼來表達它們的想法,這不是一個巧合”。

文本確實保存了人類智慧的精華,古今中外的智慧、對世界萬物的認知和發現,自有人類文字記載以來,幾乎都存到文本中。

一方面,GPT只是一個讀了萬卷書的“書呆子”,卻已經能具備強大的常識、理解、推理和創造力,頗有點“不出戶,知天下;不窺牖,見天道“的味道。另一方面,大自然這本書,到底怎麼讀?這似乎是一個巨大的問題。從真實世界學習知識,就像行萬里路相比於讀萬卷書,低效太多。

2. Gemini沒有現場演示,網傳一些復現視頻和Demo視頻不符,有誇大宣傳嫌疑。不過,從Bard不斷縮小和ChatGPT差距的事實,以及Google綜合能力判斷,Gemini Ultra能力不會和宣傳的出入太大。

Gemini這一仗奠定了AI領域的雙子星格局,我們都低估了Google的隱忍。

從競爭格局看,無論是Meta的開源Llama2,還是主打安全的Anthropic、馬斯克的X.ai,目前的差距都拉大了。

3. Google的優勢有這些:

組織方面,今年年初DeepMind和Google Brain的合併,解決了力量分散和認知不統一的問題,化劣勢爲優勢。

人才方面,領軍人物是AlphaGo的推動者,對AGI理解深刻的Demi Hassabis,首席科學家是工程師傳說級人物Jeff Dean。人數方面,技術報告作者欄的人數好幾頁,已將近千人。已經比OpenAI的人數多(七百多人)。

算力/算法/工程方面:算力上谷歌不像微軟和OpenAI高度依賴英偉達,有Cloud TPU v5p。算法上,谷歌是Transformer的發明者,是一直以來算法的領頭羊;還有搜索業務本身積累的底層算法和工程能力。

生態方面,Google C端強於微軟,微軟除了雲主要是window/office,而Google擁有幾乎微軟+蘋果的C端能力。另外,模型層和應用層都在一個體系下,動作應該比OpenAI和微軟的聯盟快。

4. 當然,OpenAI的優勢至少也還有這些:

GPT4是3月就發佈的,時間上領先了Gemini Ultra 9個月,過幾個月是否會發布GPT5?

ChatGPT的是一個Killer app,緊隨其後的GPT4發佈,OpenAI佔領了用戶心智,GPT也幾乎成了大模型的代名詞。

全球一億多用戶形成的用戶反饋和數據飛輪,大規模的落地已經鋪開。

微軟快得不像大公司的Copilot和Azure雲滲透,OpenAI的創業心態,關於GPTs和GPT store的生態野望,都是厚實的肌肉。

5. 被神話的多模態前景,被低估的Google的隱忍,被加速的AI進程,被喧囂淹沒的AI風險提醒。

這可能是我們——依然處於早期矇昧的人類,在取得亙古未有的生產力躍遷前的徘徊,也有可能是文明充分發育後,在被硅基超越的懸崖邊緣的試探。

不管怎麼樣,這注定是一段風起雲湧,激盪數年,值得觀察和記錄的人類歷史。

責任編輯:張恆星 SF142

相關文章