谷歌發佈Gemini大模型能打敗GPT4嗎？

作者：劉佳

　　[ 從自然圖像、音頻和視頻理解到數學推理，在被大型語言模型（LLM）研究和開發中廣泛使用的32項學術基準中，Gemini Ultra的性能有30項超過目前最先進的水平。 ]

在一段視頻中，一個男子做出後仰並躲避的慢動作，AI馬上猜出：這是表演《黑客帝國》中“子彈時間”的場景。

當人類拿起畫筆在一張紙上勾勒出一隻鴨子，併爲它塗上了藍色。這次AI說道：“這可不是鴨子常見的顏色。”

三個空杯並排放在桌子上，一張藍色紙團被塞進其中一個杯子裏，在人類一番眼花繚亂的操作後，AI準確地猜出：“紙團在最左邊的杯子裏！”

“喂”給AI一張手寫的物理題圖片，它不僅能看懂，而且還能分辨手寫答案的對錯，並給出一步步解決問題的細節。

上傳食材圖像和語音輸入，AI不僅可以指導你做菜，還能在不同階段提出相應的建議。

這些片段，是Google演示其在12月6日最新出爐的AI大模型Gemini的場景。

“我們離新一代人工智能模型的願景越來越近了。”一系列視頻演示後，Google DeepMind產品副總裁Eli Collins（伊萊·柯林斯）對包括第一財經在內的媒體說，這是Google迄今爲止功能最強大、最通用的大模型。

和市面上現有大模型相比，Gemini從一開始就被創建爲多模態的模型，這意味着它可以歸納並流暢地理解、操作以及組合不同類型的信息，包括文本、代碼、音頻、圖像和視頻。在靈活度上，從數據中心到移動設備上，它都能夠運行。

Gemini被視作Google在AI大模型領域放出的“大招”。多年前，Google憑藉AlphaGo的驚豔表現在全球掀起了一波AI浪潮。但這一次，在OpenAI的ChatGPT所引發的AI新浪潮中，Google面臨不小的壓力。眼下，Google迫切需要一款現象級AI產品，證明自己在人工智能領域的實力。

能打敗GPT4嗎？

就在Google發佈最新大模型之前，微軟剛剛宣佈了旗下AI助手Copilot重大升級，將接入OpenAI的最新模型GPT-4 Turbo。

“遲到總比不做好！終於有了OpenAI王座的有力競爭者。”在Google公佈消息後，英偉達AI科學家Jim Fan（範麟熙）就第一時間轉發並評論。

Google CEO Sundar Pichai（桑達爾・皮查伊）評價，Gemini這一新時代的模型代表了Google作爲一家公司在科學和工程方面所做的最大努力之一。他同時提到，這也是Google今年早些時候成立Google DeepMind時的願景首次實現。

Google Deepmind發佈第一個版本Gemini 1.0，針對不同尺寸進行了優化，分別是Ultra、Pro和Nano。其中Gemini Ultra是目前Google規模最大、功能最強大的模型，適用於高度複雜的任務；Gemini Pro是適用於可擴展各種任務的模型；Gemini Nano主要是端側設備上的模型。

Gemini發佈後，外界最關心的是其對OpenAI GPT4的挑戰。在採訪中，記者提問Eli Collins：“Gemini能打敗市面上包括GPT4在內所有的大模型嗎？”

Eli Collins在回答中表示，團隊一直在對Gemini模型進行嚴格的測試並評估其在各種任務中的性能。從自然圖像、音頻和視頻理解到數學推理，在被大型語言模型（LLM）研究和開發中廣泛使用的32項學術基準中，Gemini Ultra的性能有30項都超過了目前最先進的水平。

他援引了來自MMLU的測試結果，稱Gemini Ultra的得分率爲90%，是第一個在MMLU測試中超過人類專家的模型，MMLU綜合使用了數學、物理、歷史、法律、醫學和倫理等57個科目，用於測試世界知識和解決問題的能力。作爲對比，人類專家的得分率爲89.8%，GPT4得分率爲86.4%。

在多模態方面，Gemini Ultra在新的MMMU基準測試中也獲得了59.4%的SOTA分數。這項基準測試是由跨不同領域的多模式任務組成的，需要大模型進行深思熟慮的推理。

在包括文本和編碼在內的一系列基準測試中，Gemini的性能都超過了當前最先進的水平。

Goolge Gemini大模型多模態背後的技術原理也引發業界關注。Goolge DeepMind首席科學家傑夫·迪恩團隊爲此撰寫了60頁技術報告來闡述。

截至目前，創建多模態模型的標準方法是分別訓練不同模態的組件，然後將它們拼接在一起，以粗略模擬某些功能。這些模型有時可以很好地完成描述圖像等特定任務，但在概念性更強、更復雜的推理方面卻顯得力不從心。

DeepMind CEO Demis Hassabis（戴密斯·哈薩比斯）透露，團隊將Gemini設計爲原生多模態，從一開始就在不同模態上進行預訓練。然後，利用額外的多模態數據對其進行微調以進一步提高有效性。這有助於Gemini從最初階段就能對輸入的各種內容順暢地進行理解和推理，並優於現有的多模態模型。

而在Gemini多模態大模型的背後，是由Google自研的雲芯片TPUs v4和v5e在通過AI優化過的基礎設施上，對Gemini 1.0進行大規模訓練。

當天，Google還發布了最新的TPU系統Cloud TPU v5p，稱訓練速度比前代快2.8倍，有望幫助開發者和企業客戶更快地訓練大規模生成式AI模型。

應用層比拼剛剛開始

目前看起來，在“跑分”上Google Gemini更勝一籌，但接下來，更重要的是各家大模型在實際應用中的比拼。

Eli Collins在接受第一財經等媒體採訪時說，Google希望建立新一代AI模型，它是由人們對世界的理解和互動而激發的，人工智能更像是一個樂於助人的合作者，而不像是一個聰明的軟件。

目前，Google旗下的聊天機器人Bard已經集成Gemini Pro的微調版本，在170多個國家和地區提供英語服務，並且計劃在未來幾個月內擴展不同的模態，並支持新的語言和地區。明年年初，Google還將推出Bard Advanced，提供Gemini Ultra模型的最佳性能。

在移動設備端，Google的Pixel 8 Pro成爲首款搭載Gemini Nano的智能手機，它可以支持錄音總結、智能回覆等AI功能，明年還將推出更多信息應用。

基於定製版的Gemini，谷歌推出了代碼生成系統AlphaCode 2。Google稱，在面對不僅涉及編程，還涉及複雜的數學和計算機科學理論等領域的問題時，AlphaCode 2都表現出了卓越的性能。

未來幾個月，Gemini將應用於Google更多的產品和服務，如Search、Ads、Chrome和Duet AI。

據透露，Google已經開始在Search中試驗Gemini，它能夠爲用戶提供更快的搜索生成體驗（SGE），用戶在美國的英語搜索延遲降低了40%，同時在質量方面也有所提高。

而對於Google採取哪些努力來防止Gemini產生幻覺和事實錯誤，或被用來創造危險的工具和其他不道德的用途，Google方面人士也對記者進行了解答。

Google基礎設施與系統副總裁Amin Vahdat（阿明·瓦達特）對記者表示，Gemini在開發的各個階段都會考慮潛在的風險，並努力進行測試和降低這些風險。

他透露，Gemini的安全評估包括偏見和毒性評估，並應用了Google Research的對抗性測試技術，幫助在部署Gemini之前檢測關鍵的安全問題。

例如，爲了在Gemini的訓練階段診斷內容安全問題，並確保其輸出符合政策，Google團隊使用了一些基準測試，例如真實毒性提示（Real Toxicity Prompts），這是一套由Allen Institute of AI的專家開發的基準測試，包含了從網絡上提取的10萬條具有不同程度毒性的提示。

此外，爲了減少傷害，團隊還構建了專門的安全分類器來識別、標記和篩選涉及暴力或負面刻板印象等方面的內容。“此外，我們正繼續解決模型面臨的已知挑戰，例如事實性、基礎、歸因性以及協作性。”

Google沒有透露未來是否會專門爲Gemini定製應用程序，但高管對記者表示，更加希望看到用戶在這種技術的基礎上創建更多的應用程序。

Google透露，從12月13日開始，開發者和企業客戶可以通過Google AI Studio或Google Cloud Vertex AI中的Gemini API獲取Gemini Pro。

目前Google正對Gemini Ultra完成大規模的信任和安全檢查，包括由可信賴的外部團隊進行紅隊測試，並在其被廣泛應用前通過微調和人類反饋強化學習（RLHF）進一步完善模型。在這一過程中，Google將向部分客戶、開發者、合作伙伴以及安全和責任專家提供Gemini Ultra，以供其進行早期試驗和提供反饋。

據記者瞭解，Google將在明年初向開發者和企業客戶提供該模型。

谷歌發佈Gemini大模型能打敗GPT4嗎？

熱門新聞

週熱門

谷歌發佈Gemini大模型 能打敗GPT4嗎？

Nansen：近一月Tether、USDC和DAI合計交易量超過Visa 2023年月度平均水平

Nansen：過去30天USDT、USDC和DAI的交易量均超過Visa去年每月的平均交易額

dYdX：由於執行dYdX Chain v4.1.0軟件升級可能會出現延遲和停機

比特幣橋接XLink在Core Chain上推出，以提高比特幣在DeFi中採用

英國《金融時報》與OpenAI達成協議，雙方將合作開發新的AI產品

美股人工智能概念多數上漲，Reddit漲超7%，英偉達和谷歌則跌超2%

工業富聯一季度淨利超41億元，AI服務器收入同比增近兩倍

將“dYdXChain啓動激勵計劃活動再延長3個月”的提案已獲社區投票通過

將“dYdX Chain啓動激勵計劃活動再延長3個月”的提案已獲社區投票通過

ShibaInu（SHIB）矯正再次開始：下一步是什麼？

AI助推的美股牛市還大有可爲？但需警惕這一泡沫破滅的時刻！

歐洲數字版權中心投訴OpenAI旗下ChatGPT提供虛假信息

OpenAI與英國《金融時報》達成戰略合作，包括內容使用

Uniswap在Taiko主網上部署UniswapV3的提案正式通過

Uniswap在Taiko主網上部署Uniswap V3的提案正式通過

熱門新聞

週熱門

谷歌發佈Gemini大模型能打敗GPT4嗎？