作者: 劉佳

  [ 從自然圖像、音頻和視頻理解到數學推理,在被大型語言模型(LLM)研究和開發中廣泛使用的32項學術基準中,Gemini Ultra的性能有30項超過目前最先進的水平。 ]

在一段視頻中,一個男子做出後仰並躲避的慢動作,AI馬上猜出:這是表演《黑客帝國》中“子彈時間”的場景。

當人類拿起畫筆在一張紙上勾勒出一隻鴨子,併爲它塗上了藍色。這次AI說道:“這可不是鴨子常見的顏色。”

三個空杯並排放在桌子上,一張藍色紙團被塞進其中一個杯子裏,在人類一番眼花繚亂的操作後,AI準確地猜出:“紙團在最左邊的杯子裏!”

“喂”給AI一張手寫的物理題圖片,它不僅能看懂,而且還能分辨手寫答案的對錯,並給出一步步解決問題的細節。

上傳食材圖像和語音輸入,AI不僅可以指導你做菜,還能在不同階段提出相應的建議。

這些片段,是Google演示其在12月6日最新出爐的AI大模型Gemini的場景。

“我們離新一代人工智能模型的願景越來越近了。”一系列視頻演示後,Google DeepMind產品副總裁Eli Collins(伊萊·柯林斯)對包括第一財經在內的媒體說,這是Google迄今爲止功能最強大、最通用的大模型。

和市面上現有大模型相比,Gemini從一開始就被創建爲多模態的模型,這意味着它可以歸納並流暢地理解、操作以及組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。在靈活度上,從數據中心到移動設備上,它都能夠運行。

Gemini被視作Google在AI大模型領域放出的“大招”。多年前,Google憑藉AlphaGo的驚豔表現在全球掀起了一波AI浪潮。但這一次,在OpenAI的ChatGPT所引發的AI新浪潮中,Google面臨不小的壓力。眼下,Google迫切需要一款現象級AI產品,證明自己在人工智能領域的實力。

能打敗GPT4嗎?

就在Google發佈最新大模型之前,微軟剛剛宣佈了旗下AI助手Copilot重大升級,將接入OpenAI的最新模型GPT-4 Turbo。

“遲到總比不做好!終於有了OpenAI王座的有力競爭者。”在Google公佈消息後,英偉達AI科學家Jim Fan(範麟熙)就第一時間轉發並評論。

Google CEO Sundar Pichai(桑達爾・皮查伊) 評價,Gemini這一新時代的模型代表了Google作爲一家公司在科學和工程方面所做的最大努力之一。他同時提到,這也是Google今年早些時候成立Google DeepMind時的願景首次實現。

Google Deepmind發佈第一個版本Gemini 1.0,針對不同尺寸進行了優化,分別是Ultra、Pro和Nano。其中Gemini Ultra是目前Google規模最大、功能最強大的模型,適用於高度複雜的任務;Gemini Pro是適用於可擴展各種任務的模型;Gemini Nano主要是端側設備上的模型。

Gemini發佈後,外界最關心的是其對OpenAI GPT4的挑戰。在採訪中,記者提問Eli Collins:“Gemini能打敗市面上包括GPT4在內所有的大模型嗎?”

Eli Collins在回答中表示,團隊一直在對Gemini模型進行嚴格的測試並評估其在各種任務中的性能。從自然圖像、音頻和視頻理解到數學推理,在被大型語言模型(LLM)研究和開發中廣泛使用的32項學術基準中,Gemini Ultra的性能有30項都超過了目前最先進的水平。

他援引了來自MMLU的測試結果,稱Gemini Ultra的得分率爲90%,是第一個在MMLU測試中超過人類專家的模型,MMLU綜合使用了數學、物理、歷史、法律、醫學和倫理等57個科目,用於測試世界知識和解決問題的能力。作爲對比,人類專家的得分率爲89.8%,GPT4得分率爲86.4%。

在多模態方面,Gemini Ultra在新的MMMU基準測試中也獲得了59.4%的SOTA分數。這項基準測試是由跨不同領域的多模式任務組成的,需要大模型進行深思熟慮的推理。

在包括文本和編碼在內的一系列基準測試中,Gemini的性能都超過了當前最先進的水平。

Goolge Gemini大模型多模態背後的技術原理也引發業界關注。Goolge DeepMind首席科學家傑夫·迪恩團隊爲此撰寫了60頁技術報告來闡述。

截至目前,創建多模態模型的標準方法是分別訓練不同模態的組件,然後將它們拼接在一起,以粗略模擬某些功能。這些模型有時可以很好地完成描述圖像等特定任務,但在概念性更強、更復雜的推理方面卻顯得力不從心。

DeepMind CEO Demis Hassabis(戴密斯·哈薩比斯)透露,團隊將Gemini設計爲原生多模態,從一開始就在不同模態上進行預訓練。然後,利用額外的多模態數據對其進行微調以進一步提高有效性。這有助於Gemini從最初階段就能對輸入的各種內容順暢地進行理解和推理,並優於現有的多模態模型。

而在Gemini多模態大模型的背後,是由Google自研的雲芯片TPUs v4和v5e在通過AI優化過的基礎設施上,對Gemini 1.0進行大規模訓練。

當天,Google還發布了最新的TPU系統Cloud TPU v5p,稱訓練速度比前代快2.8倍,有望幫助開發者和企業客戶更快地訓練大規模生成式AI模型。

應用層比拼剛剛開始

目前看起來,在“跑分”上Google Gemini更勝一籌,但接下來,更重要的是各家大模型在實際應用中的比拼。

Eli Collins在接受第一財經等媒體採訪時說,Google希望建立新一代AI模型,它是由人們對世界的理解和互動而激發的,人工智能更像是一個樂於助人的合作者,而不像是一個聰明的軟件。

目前,Google旗下的聊天機器人Bard已經集成Gemini Pro的微調版本,在170多個國家和地區提供英語服務,並且計劃在未來幾個月內擴展不同的模態,並支持新的語言和地區。明年年初,Google還將推出Bard Advanced,提供Gemini Ultra模型的最佳性能。

在移動設備端,Google的Pixel 8 Pro成爲首款搭載Gemini Nano的智能手機,它可以支持錄音總結、智能回覆等AI功能,明年還將推出更多信息應用。

基於定製版的Gemini,谷歌推出了代碼生成系統AlphaCode 2。Google稱,在面對不僅涉及編程,還涉及複雜的數學和計算機科學理論等領域的問題時,AlphaCode 2都表現出了卓越的性能。

未來幾個月,Gemini將應用於Google更多的產品和服務,如Search、Ads、Chrome和Duet AI。

據透露,Google已經開始在Search中試驗Gemini,它能夠爲用戶提供更快的搜索生成體驗(SGE),用戶在美國的英語搜索延遲降低了40%,同時在質量方面也有所提高。

而對於Google採取哪些努力來防止Gemini產生幻覺和事實錯誤,或被用來創造危險的工具和其他不道德的用途,Google方面人士也對記者進行了解答。

Google基礎設施與系統副總裁Amin Vahdat(阿明·瓦達特)對記者表示,Gemini在開發的各個階段都會考慮潛在的風險,並努力進行測試和降低這些風險。

他透露,Gemini的安全評估包括偏見和毒性評估,並應用了Google Research的對抗性測試技術,幫助在部署Gemini之前檢測關鍵的安全問題。

例如,爲了在Gemini的訓練階段診斷內容安全問題,並確保其輸出符合政策,Google團隊使用了一些基準測試,例如真實毒性提示(Real Toxicity Prompts),這是一套由Allen Institute of AI的專家開發的基準測試,包含了從網絡上提取的10萬條具有不同程度毒性的提示。

此外,爲了減少傷害,團隊還構建了專門的安全分類器來識別、標記和篩選涉及暴力或負面刻板印象等方面的內容。“此外,我們正繼續解決模型面臨的已知挑戰,例如事實性、基礎、歸因性以及協作性。”

Google沒有透露未來是否會專門爲Gemini定製應用程序,但高管對記者表示,更加希望看到用戶在這種技術的基礎上創建更多的應用程序。

Google透露,從12月13日開始,開發者和企業客戶可以通過Google AI Studio或Google Cloud Vertex AI中的Gemini API獲取Gemini Pro。

目前Google正對Gemini Ultra完成大規模的信任和安全檢查,包括由可信賴的外部團隊進行紅隊測試,並在其被廣泛應用前通過微調和人類反饋強化學習(RLHF)進一步完善模型。在這一過程中,Google將向部分客戶、開發者、合作伙伴以及安全和責任專家提供Gemini Ultra,以供其進行早期試驗和提供反饋。

據記者瞭解,Google將在明年初向開發者和企業客戶提供該模型。

相關文章