AI搜索引擎來了！谷歌放大招，發佈最強AI模型，語音功能正面剛OpenAI

來源：硬AI

雖然被OpenAI搶在前面發佈了重磅新品演示，但谷歌後發制人，做到了OpenAI還沒能做到的事，率先發布人工智能（AI）搜索引擎，捍衛搜索領域的王者地位，同時對壘OpenAI新發布的旗艦模型GPT-4o，以升級版的最強大AI模型Gemini迎戰。

美東時間5月24日週二舉行的年度Google I/O開發者大會上，谷歌CEO Sundar Pichai表示，谷歌所有的工作都圍繞生成式AI模型Gemini來做，“我們希望每個人都能從Gemini 所做的事中受益。” AI搜索正是Pichai提到的Gemini融入谷歌多種服務之一。

Pichai宣佈，本週，AI技術生成摘要的功能將上線美國的谷歌搜索，它名爲AI Overviews，並很快會在更多國家地區推出。

通過多步推理，Gemini可以代替用戶研究，找到更好的搜索結果。比如谷歌搜索中的Gemini可以通過彙總一天中的所有膳食以及所有菜餚的食譜，爲用戶規劃膳食。如果用戶覺得做飯太麻煩，谷歌搜索還可以在Gemini的幫助下，爲用戶找到可以購買用戶所需餐食的地方。

在Gemini的幫助下，用戶的搜索結果頁面也會發生變化，比如尋找有現場音樂的餐廳，它甚至可以根據不同的季節做推薦，比如顯示有屋頂的餐廳。

Pichai現場演示，藉助Gemini 的強大功能，在谷歌相冊Google Photos可以進行更多的相關搜索，比如通過名爲Ask Photos with Gemini的新功能讓Gemini找到用戶想要的車牌照號，Gemini將根據上下文響應在相冊中搜索，並選出用戶想要的照片，得到照片中拍到的車牌照號。

谷歌雲計算生產力和協作平臺Google Workspace的許多服務將結合Gemini，例如用Gemini 在Gmail中搜索特定發件人發出的電郵，在線上網絡和視頻會議Google Meeting中找到亮點。

Gemini可用於搜索用戶的手機，幫用戶查找收據、安排取貨窗口。如果用戶計劃旅行，Gemini 可以用來搜索有趣的活動。Pichai表示，谷歌正在“讓AI對每個人都有幫助”。

谷歌稱，用戶將可以直接在搜索中通過視頻提問。谷歌高管演示了，如何藉助視頻搜索修復損壞的電唱機。具體做法是，先錄製視頻展示損壞的問題，然後詢問，爲什麼電唱機無法正常工作。谷歌搜索就能夠進行逐幀搜索，回答高管的問題。

Gemini 1.5 Pro上下文窗口200萬token 全球最長

谷歌稱，推出號稱有史以來最強大AI模型Gemini Advanced三個月內，已有超過100用戶註冊。

從本週二起，谷歌在Gemini Advanced中加入新模型成員Gemini 1.5 Pro，稱它擁有的上下文窗口在全球消費類聊天機器人中最長，窗口起始就有100萬個token。Gemini 1.5 Pro將向150 多個國家地區的Gemini Advanced訂閱者提供，支持超過35 種語言。

Pichai稱，Gemini 1.5 Pro“提供了迄今爲止所有基礎模型中最長的上下文窗口。” 他介紹，Gemini 1.5 Pro將擁有200 萬個token的上下文窗口，是當前模型100萬個token窗口的兩倍。

Gemini新語音對話功能Live 定製版Gemini

谷歌稱，今年夏季將擴展 Gemini 的多模態功能，包括增加用語音進行深入雙向對話的能力，該功能被稱爲 Live。通過 Gemini Live，用戶可以與 Gemini 交談，並可以從各種自然的聲音中選擇它回應的聲音。用戶甚至可以按照自己的節奏說話，或者在回答過程中打斷並澄清問題，就像在任何人類對話中一樣。