谷歌反擊OpenAI奇襲：發佈生成式AI版搜索引擎等大模型“全家桶”

OpenAI召開春季發佈會第二日，谷歌則以新一屆I/O開發者大會對陣。

這場活動自北京時間5月15日凌晨1點開始便“火藥味”滿滿。谷歌在會上選擇“宣佈一切”：連續發佈、更新了十多款產品，包括AI助手Astra、文生圖模型Imagen3、對標Sora的文生視頻模型Veo，以及備受矚目的旗艦大模型Gemini。

當OpenAI“鴿”掉搜索，轉而推出最新旗艦大模型GPT-4o後，長期佔據搜索霸主地位的谷歌，不僅重新設計了AI搜索，還同步推出AI識圖助手。

Gemini的新語音對話功能Live更是直接對標OpenA的的GPT-4o，同樣可通過手機實時詢問周圍的情況，即使中斷對話也能再及時跟進。

此外，谷歌瀏覽器Chrome將添加GeminiNano。後者是Gemini系列中的一個輕量級版本，主要針對移動設備設計。

谷歌還表示，另一小模型Gemma2.0即將於今年夏天推出，包括開源模型PaliGemma，可用於標記照片以及爲圖像添加標題。Gemma模型採用與Gemini模型相同的技術棧，但規模更小，適合在資源受限的環境中部署。

很大程度上，人工智能競賽也是一次爭奪智能手機的競賽。谷歌產品管理副總裁SameerSamat明確表示，谷歌將通過Gemini進一步優化安卓操作系統。這種優化將首先在谷歌自家手機Pixel上得到體現。

Gemini顯然是此次發佈會的主角，這當中尤以多模態和長上下文技術被着墨更多。

過去幾個月，谷歌已經推出了能夠進行長上下文預覽的Gemini 1.5Pro，在翻譯、編碼和推理方面進行了一系列改進。目前，Gemini 1.5Pro的上下文長度由100萬token（文本處理的基本單位）刷新到200萬token，三個月即翻了一倍，表明該公司急於藉此向外界“秀肌肉”。

此時距離Gemini問世已有一年，這一多模態大模型已經可以跨文本、圖像、視頻、代碼等進行推理。據谷歌透露，有20億用戶以及超150萬開發人員都在使用Gemini模型，該模型可被用於調試代碼、獲得新的見解並構建下一代人工智能應用程序。

爲了能夠進一步展示該模型的多種特性，谷歌針對搜索、照片、安卓系統等不同場景做了更加細緻地介紹。

例如在搜索方面，Gemini爲其帶來了全面的AI化改造。用戶可以提出更新、更長、更復雜的問題進行查詢，甚至利用照片進行搜索。谷歌計劃在本週開始向美國地區推出“AI概述”搜索，後續會在其他國家上線。

谷歌在現場展示了“詢問照片”這一功能。當用戶在停車場付費卻忘記了車牌號碼時，通常可能會在手機照片中搜索關鍵字，瀏覽大批過往照片來尋找車牌。但現在，只需詢問照片，就能準確告知經常出現的汽車，對車輛進行三角測量，並告知車牌號。

再比如，你可以向照片提問自己的孩子是什麼時候學會游泳的，甚至於乾脆讓照片告訴你孩子的游泳進展如何。

Gemini不僅僅是一個聊天機器人，也是個人助手，能夠幫助用戶處理複雜的任務以及採取行動。Gemini 1.5 Pro也被引入谷歌雲計算服務GoogleWorkspace。谷歌號稱，Gemini可以完成所有工作所需步驟。以退貨爲例，AI可在郵件中搜索收據，找到相應的訂單號，自動填寫退貨表格，並安排取件。