OpenAI召開春季發佈會第二日,谷歌則以新一屆I/O開發者大會對陣。

這場活動自北京時間5月15日凌晨1點開始便“火藥味”滿滿。谷歌在會上選擇“宣佈一切”:連續發佈、更新了十多款產品,包括AI助手Astra、文生圖模型Imagen3、對標Sora的文生視頻模型Veo,以及備受矚目的旗艦大模型Gemini。

當OpenAI“鴿”掉搜索,轉而推出最新旗艦大模型GPT-4o後,長期佔據搜索霸主地位的谷歌,不僅重新設計了AI搜索,還同步推出AI識圖助手。

Gemini的新語音對話功能Live更是直接對標OpenA的的GPT-4o,同樣可通過手機實時詢問周圍的情況,即使中斷對話也能再及時跟進

此外,谷歌瀏覽器Chrome將添加GeminiNano。後者是Gemini系列中的一個輕量級版本,主要針對移動設備設計。

谷歌還表示,另一小模型Gemma2.0即將於今年夏天推出包括開源模型PaliGemma,用於標記照片以及爲圖像添加標題。Gemma模型採用與Gemini模型相同的技術棧,但規模更小,適合在資源受限的環境中部署。

很大程度上,人工智能競賽也是一次爭奪智能手機的競賽。谷歌產品管理副總裁SameerSamat明確表示,谷歌將通過Gemini進一步優化安卓操作系統。這種優化將首先在谷歌自家手機Pixel上得到體現。

Gemini顯然是此次發佈會的主角,這當中尤以多模態和長上下文技術被着墨更多。

過去幾個月,谷歌已經推出了能夠進行長上下文預覽的Gemini 1.5Pro,在翻譯、編碼和推理方面進行了一系列改進。目前,Gemini 1.5Pro的上下文長度100萬token(文本處理的基本單位)刷新到200萬token三個月即翻了一倍,表明該公司急於藉此外界“秀肌肉”

此時距離Gemini問世已有一年,這一多模態大模型已經可以跨文本、圖像、視頻、代碼等進行推理。據谷歌透露20億用戶以及超150萬開發人員都在使用Gemini模型,該模型可被用於調試代碼、獲得新的見解並構建下一代人工智能應用程序。

爲了能夠進一步展示該模型的多種特性,谷歌針對搜索、照片、安卓系統等不同場景做了更加細緻地介紹。

例如在搜索方面Gemini爲其帶來了全面的AI化改造。用戶可以提出更新、更長、更復雜的問題進行查詢,甚至利用照片進行搜索。谷歌計劃在本週開始向美國地區推出“AI概述”搜索,後續會在其他國家上線

谷歌在現場展示了“詢問照片”這一功能。當用戶在停車場付費卻忘記了車牌號碼時,通常可能會在手機照片中搜索關鍵字,瀏覽大批過往照片尋找車牌。但現在,只需詢問照片,就能準確告知經常出現的汽車,對車輛進行三角測量,並告知車牌號。

再比如,你可以向照片提問自己的孩子是什麼時候學會游泳的,甚至於乾脆讓照片告訴你孩子的游泳進展如何。

Gemini不僅僅是一個聊天機器人,也是個人助手,能夠幫助用戶處理複雜的任務以及採取行動。Gemini 1.5 Pro也被引入谷歌雲計算服務GoogleWorkspace歌號稱,Gemini可以完成所有工作所需步驟。以退貨爲例,AI可在郵件中搜索收據,找到相應的訂單號,自動填寫退貨表格,並安排取件。

大模型就是一場算力競賽,訓練最先進的模型需要大量的算力。過去六年中,行業對機器學習計算的需求增長了100萬倍並且每年都會增加十倍。作爲AI時代的重要參與者,谷歌也在基礎設施方面發力頗多。

當晚,谷歌即發佈了第六代TPU(谷歌專爲加速機器學習工作負載而設計的一種應用特定集成電路)——“Trillium”,並稱Trillium是迄今爲止性能最高、效率最高的TPU,與上一代TPUv5e相比,每個芯片的計算性能提高了4.7倍,計劃在今年底向客戶提供。

Gemini完全在谷歌自研的第四代和第五代TPU上接受訓練和服務,包括Anthropic在內的其他領先人工智能公司也在TPU上訓練了他們的模型。

但在谷歌爲其各種產品“灌注”AI功能的同時,意味着用戶需要對個人隱私數據做出更多讓渡。對此,谷歌承諾,不會使用其平臺上的用戶文件來訓練Gemini或其他人工智能模型。

谷歌CEO皮查伊表示,當天的發佈會“提到了121次AI”,足以表明AI對谷歌的重要性。但除了強調重要之外,這場被外界所期待的針對OpenAI的反擊,並沒有帶來更大的驚喜。

相關文章