昨晚 11 點,Google 發佈原生多模態大模型 Gemini,最強 Ultra 模型達到 GPT-4 水平,多模態能力超過 GPT-4V。這是我們在 OpenAI 發佈一年內第一次看到有可以比肩 GPT 的模型。Google 來了,帶着更強的用戶積累和產品生態。本文帶來 Gemini 的介紹、 Google 與 OpenAI 的對比思考。

OpenAI 用戶是否會轉向谷歌?短期 OpenAI 仍具優勢,長期來看谷歌具備的海量用戶和產品生態將會成爲強大勢能。相比 OpenAI,谷歌積累了海量的 PC 和手機端用戶,擁有海量實時數據(而 OpenAI 的數據依賴互聯網,包括谷歌),並通過在用戶手機集成 GPT 提供如地鐵導航方面而擁有大量用戶信息。下一步,谷歌需要驗證其在搜索引擎以外,在日常應用中提供的強大 Copilot 體驗。壓力給到了 OpenAI,補齊產品生態。

背景

OpenAI 的月用戶數從 5 月開始下降,10 月出現回升達到 17 億。對比 Google 的搜索引擎 Bard 的用戶數在 2.6 億。在這次 Google 推出 Gemini 並集成到 Bard 之後,我們會繼續跟進 Bard 的後續。

每一次技術變革都是推動科學發現、加速人類進步和改善生活的機會。我相信,我們目前正在經歷的人工智能轉型,將是我們一生中最深刻的變革,遠超過此前的移動轉型或網絡轉型。人工智能具有創造機會的潛力——從日常到非凡——面向全球各地的人們。它將帶來創新和經濟進步的新浪潮,並在我們之前未曾見過的規模上推動知識、學習、創造力和生產力。

—— Sundar Pichai,Google 和 Alphabet CEO

AI 產品分析

Gemini 是包括 Google Research 在內的 Google 各團隊間進行廣泛合作的成果。它從一開始就被創建爲多模態的模型,這意味着它可以歸納並流暢地理解、操作以及組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。

Gemini 也是谷歌迄今爲止最靈活的模型,從數據中心到移動設備,它能夠在所有設備上高效運行。其先進的功能將顯著改善開發者和企業客戶通過 AI 構建和擴展的方式。

Ultra — 規模最大且功能最強大的模型,適用於高度複雜的任務。

Pro — 適用於各種任務的最佳模型。

Nano — 端側設備上最高效的模型。

第一個版本 Gemini 1.0 針對不同尺寸進行了優化,分別是:Ultra、Pro 和 Nano;可以解讀爲Ultra 對標 GPT4,Pro 對標 GPT3.5 ,且 Ultra 不輸 GPT4,Pro 大幅超越 3.5。

目前只有 Gemini Pro 可以在 Bard 測試,但 Bard 目前還未進行實質性更新,只提供文本處理能力,缺乏多模態功能,且還沒有提供API接口。因此,谷歌的演示視頻所展示的功能目前無法體驗。

一、性能

從自然圖像、音頻和視頻理解到數學推理,在被大型語言模型(LLM)研究和開發中廣泛使用的 32 項學術基準中,Gemini Ultra 的性能有 30 項都超過了目前最先進的水平。

Gemini Ultra 的得分率爲 90.0%,是第一個在 MMLU(大規模多任務語言理解)測試中超過人類專家的模型,MMLU 綜合使用了數學、物理、歷史、法律、醫學和倫理等 57 個科目,用於測試世界知識和解決問題的能力。

針對 MMLU,新的基準測試方法讓 Gemini 能夠利用其推理能力在回答困難問題之前更加仔細地思考,從而比僅憑第一印象就直接回答問題有顯著的改善。

在新的 MMMU 基準測試中,Gemini Ultra 也取得了得分率爲 59.4% 的優異成績,該基準測試由橫跨不同領域、需要仔細推理的多模態任務組成。

谷歌在圖像基準測試中,Gemini Ultra 在不使用對象字符識別(OCR)系統來提取圖像中的文本進行下一步處理的情況下,表現優於以前最好的模型。這些基準測試凸顯了 Gemini 的原生多模態性,並顯示出了 Gemini 具有更復雜推理能力的潛力。

二、能力

到目前爲止,創建多模態模型的標準方法是分別訓練不同模態的組件,然後將它們拼接在一起,以粗略模擬某些功能。這些模型有時可以很好地完成描述圖像等特定任務,但在概念性更強、更復雜的推理方面卻顯得力不從心。

谷歌將 Gemini 設計爲原生多模態,從一開始就在不同模態上進行預訓練。然後,谷歌利用額外的多模態數據對其進行微調,以進一步提高其有效性。這有助於 Gemini 從最初階段就能對輸入的各種內容順暢地進行理解和推理,遠遠優於現有的多模態模型,其能力幾乎各個領域都是最先進的。

1. 複雜的推理

Gemini 1.0 具有複雜的多模態推理能力,可幫助理解複雜的書面和視覺信息。這使得它具有獨特的技能,可以在海量的數據中發掘難以辨別的知識內容。

它擁有通過閱讀、過濾以及理解信息,從數十萬份文件中提取見解的卓越能力,將有助於在從科學到金融等多個領域以數字化速度實現新的突破。

2. 理解文本、圖像、音頻及更多

Gemini 1.0 經過訓練,可以同時識別並理解文本、圖像、音頻等,因此它能更好地理解具有細微差別的信息,回答與複雜主題相關的問題。這就讓它尤其擅長解釋數學和物理等複雜科目中的推理。

3. 高級編碼能力

谷歌的第一代 Gemini 可以理解、解釋和生成世界上最流行的編程語言(如 Python、Java、C++ 和 Go)的高質量代碼。它能夠跨語言工作並對複雜信息進行推理,這些能力使其成爲世界領先的編碼基礎模型之一。

Gemini Ultra 在多個編碼基準測試中表現出色,包括 HumanEval(用於評估編碼任務性能的重要行業標準)和 Natural2Code(谷歌內部的留出數據集),該數據集使用作者生成的信息作爲來源,而不是基於網絡的信息。

Gemini 還可用作更高級編碼系統的引擎。兩年前,谷歌展示了 AlphaCode,它是第一個在編程競賽中性能達到競賽水平的 AI 代碼生成系統。

谷歌利用一個專門版本的 Gemini,創建了更先進的代碼生成系統 AlphaCode 2,該系統擅長解決那些不僅需要編碼能力而且也需要複雜數學和理論計算機科學知識的競賽性編程問題。

在與最初的 AlphaCode 在同一個平臺上進行評估時,AlphaCode 2 表現出了巨大的改進。它解決的問題數量幾乎是 AlphaCode 的兩倍,谷歌預計它的性能超過 85% 的參賽者,比 AlphaCode 高出將近 50%。當程序員與 AlphaCode 2 合作,爲示例代碼定義某些屬性時,它的表現甚至更好。

三、生態

1. Google 產品中的 Gemini Pro

谷歌通過 Google 的產品將 Gemini 帶給數十億人。 從今天開始,Bard 將使用 Gemini Pro 的微調版本來進行更高級的推理、規劃和理解等。這是 Bard 自推出以來最大的升級。它將在 170 多個國家和地區提供英語服務,並且谷歌計劃在未來幾個月內擴展不同的模態,並支持新的語言和地區。

谷歌還在 Pixel 上使用 Gemini。Pixel 8 Pro 是首款搭載 Gemini Nano 的智能手機,它可以支持錄音應用中的“總結”等新功能,並在 Gboard 中推出“智能回覆”功能,從 WhatsApp 開始,明年還將推出更多信息應用。

未來幾個月,Gemini 將應用於谷歌更多的產品和服務,如 Search、Ads、Chrome 和 Duet AI。

谷歌已經開始在 Search 中試驗 Gemini,它能夠爲用戶提供更快的搜索生成體驗(SGE),用戶在美國的英語搜索延遲降低了 40%,同時在質量方面也有所提高。

2. 用 Gemini 打造產品

從 12 月 13 日開始,開發者和企業客戶可以通過 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 獲取 Gemini Pro。

Google AI Studio 是一款基於網絡的免費開發者工具,可使用 API 密鑰快速創建原型並啓動應用程序。當需要一個完全託管的 AI 平臺時,Vertex AI 允許對 Gemini 進行定製,提供全面的數據控制,並受益於 Google Cloud 功能,實現企業安全性、保密性、隱私性以及數據治理和合規性。

Android 開發者還可以通過 AICore 使用谷歌端側任務最高效的模型 Gemini Nano。AICore 是 Android 14 中的一項新的系統功能,從 Pixel 8 Pro 設備開始支持。註冊獲得 AICore 預覽。

3. 期待 Gemini Ultra

就 Gemini Ultra 而言,谷歌目前正在完成大規模的信任和安全檢查,包括由可信賴的外部團隊進行紅隊測試,並在其被廣泛使用前通過微調和人類反饋強化學習(RLHF)進一步完善模型。

在模型的完善過程中,谷歌將向部分客戶、開發者、合作伙伴以及安全和責任專家提供 Gemini Ultra,以供其進行早期試驗和提供反饋。隨後,在明年初谷歌將向開發者和企業客戶提供該模型。

明年年初,谷歌還將推出 Bard Advanced,這是一種全新的、前沿的 AI 體驗,讓用戶可以從 Gemini Ultra 開始使用谷歌最佳的模型和功能。

參考材料

https://blog.google/technology/ai/google-gemini-ai/

相關文章