來源:硬AI

雖然被OpenAI搶在前面發佈了重磅新品演示,但谷歌後發制人,做到了OpenAI還沒能做到的事,率先發布人工智能(AI)搜索引擎,捍衛搜索領域的王者地位,同時對壘OpenAI新發布的旗艦模型GPT-4o,以升級版的最強大AI模型Gemini迎戰。

美東時間5月24日週二舉行的年度Google I/O開發者大會上,谷歌CEO Sundar Pichai表示,谷歌所有的工作都圍繞生成式AI模型Gemini來做,“我們希望每個人都能從Gemini 所做的事中受益。” AI搜索正是Pichai提到的Gemini融入谷歌多種服務之一。

Pichai宣佈,本週,AI技術生成摘要的功能將上線美國的谷歌搜索,它名爲AI Overviews,並很快會在更多國家地區推出。

通過多步推理,Gemini可以代替用戶研究,找到更好的搜索結果。比如谷歌搜索中的Gemini可以通過彙總一天中的所有膳食以及所有菜餚的食譜,爲用戶規劃膳食。如果用戶覺得做飯太麻煩,谷歌搜索還可以在Gemini的幫助下,爲用戶找到可以購買用戶所需餐食的地方。

在Gemini的幫助下,用戶的搜索結果頁面也會發生變化,比如尋找有現場音樂的餐廳,它甚至可以根據不同的季節做推薦,比如顯示有屋頂的餐廳。

Pichai現場演示,藉助Gemini 的強大功能,在谷歌相冊Google Photos可以進行更多的相關搜索,比如通過名爲Ask Photos with Gemini的新功能讓Gemini找到用戶想要的車牌照號,Gemini將根據上下文響應在相冊中搜索,並選出用戶想要的照片,得到照片中拍到的車牌照號。

谷歌雲計算生產力和協作平臺Google Workspace的許多服務將結合Gemini,例如用Gemini 在Gmail中搜索特定發件人發出的電郵,在線上網絡和視頻會議Google Meeting中找到亮點。

Gemini可用於搜索用戶的手機,幫用戶查找收據、安排取貨窗口。如果用戶計劃旅行,Gemini 可以用來搜索有趣的活動。Pichai表示,谷歌正在“讓AI對每個人都有幫助”。

谷歌稱,用戶將可以直接在搜索中通過視頻提問。谷歌高管演示了,如何藉助視頻搜索修復損壞的電唱機。具體做法是,先錄製視頻展示損壞的問題,然後詢問,爲什麼電唱機無法正常工作。谷歌搜索就能夠進行逐幀搜索,回答高管的問題。

Gemini 1.5 Pro上下文窗口200萬token 全球最長

谷歌稱,推出號稱有史以來最強大AI模型Gemini Advanced三個月內,已有超過100用戶註冊。

從本週二起,谷歌在Gemini Advanced中加入新模型成員Gemini 1.5 Pro,稱它擁有的上下文窗口在全球消費類聊天機器人中最長,窗口起始就有100萬個token。Gemini 1.5 Pro將向150 多個國家地區的Gemini Advanced訂閱者提供,支持超過35 種語言。

Pichai稱,Gemini 1.5 Pro“提供了迄今爲止所有基礎模型中最長的上下文窗口。” 他介紹,Gemini 1.5 Pro將擁有200 萬個token的上下文窗口,是當前模型100萬個token窗口的兩倍。

Gemini新語音對話功能Live 定製版Gemini

谷歌稱,今年夏季將擴展 Gemini 的多模態功能,包括增加用語音進行深入雙向對話的能力,該功能被稱爲 Live。通過 Gemini Live,用戶可以與 Gemini 交談,並可以從各種自然的聲音中選擇它回應的聲音。 用戶甚至可以按照自己的節奏說話,或者在回答過程中打斷並澄清問題,就像在任何人類對話中一樣。

有網友評論稱,想知道相比OpenAI週一發佈的最新旗艦模型GPT-4o,Gemini的對話功能會有多好。

谷歌稱,今年夏季,將在Gemini Advanced 中添加新的旅行規劃功能。借助考慮時間和空間方面物流的先進推理,Gemini將能夠創建個性化的行程,節省用戶的工作時間。

未來幾周,谷歌將在Gemini Advanced中添加新的數據分析功能。用戶只需上傳電子表格,Gemini 就可以分析數據、製作圖表,並更快地發掘見解。

谷歌將推出被稱爲Gem的Gemini的定製版本。Gemini Advanced 訂閱者將很快可以獲得更個性化的體驗,根據自己的需要創建Gemini,只需描述用戶希望 Gem 做什麼以及希望它如何響應,就可以讓它化身健身夥伴、主廚幫手、編代碼的拍檔或者創意寫作指南。

例如,用戶可以要求Gemini:做我的跑步教練,給我一個每天跑步的計劃,而且保持積極、樂觀、激勵我。Gemini將接收這些說明,用戶只需單擊一下,即可強化這方面的特質,創建一個滿足特定需求的Gem。

Project Astra回答手機所拍物問題 安卓端側Gemini增加多模態功能

谷歌官宣推出新的多模態AI項目Project Astra,它可以爲用戶解釋智能手機拍到的東西。在谷歌展示的視頻中,只要將手機攝像頭對準某個物體,Gemini就可以識別它,比如一個紅蘋果,還可以回答諸如鏡頭中什麼東西是可以發聲的這種問題。

谷歌稱,將很快爲模型Gemini Nano添加多模式功能。這意味着,用戶的手機可以通過文本、圖像、聲音和口語,按照用戶理解的方式理解世界。

谷歌稱,端側安卓系統手機版的Gemini Nano將更有幫助,更有上下文的意識。今年,安卓手機的用戶將可以將生成的圖像拖放到Google Messages 和 Gmail 中,並可以直接在手機上提出有關YouTube視頻和 PDF文件的問題,得到解答。

谷歌稱,今年晚些時候,Gemini Nano的輔助功能TalkBack將增強。圖像描述將更加清晰和豐富,幫助弱視用戶和盲人用戶通過語音反饋,更好地指示他們的手機。

相關文章