科技巨頭谷歌和AI(人工智能)新銳巨頭OpenAI正在AI領域激烈競爭。

當地時間5月14日,在谷歌I/O開發者大會上的主題演講中,谷歌爲旗下大模型Gemini推出了一系列更新,展示了由升級版Gemini驅動的AI助手項目Project Astra、對標Sora的文生視頻模型Veo,以及支持多模態輸入的AI搜索引擎和第六代Tensor處理器單元(TPU)Trillium芯片等等。其中,Astra是谷歌的AI智能體項目,能夠通過手機攝像頭或智能眼鏡來“看到”用戶眼前的內容,響應語音命令。

這本應是屬於谷歌的“炸場”時間,遺憾的是,就在前一天,OpenAI剛剛搶過風頭,推出了最新多模態大模型GPT-4o(o代表omini,全能),支持文本、音頻和圖像的任意組合輸入,並生成文本、音頻和圖像的任意組合輸出,可實現人類級別響應。

從已有的演示視頻來看,谷歌AI助手的回應速度似乎比GPT-4o稍慢一些,語音所表現出的感情色彩也比較平淡。相比之下,GPT-4o可以識別用戶聲音中展現的情感,甚至能實時根據用戶的需求來使用不同情感風格的聲音。

發佈GPT-4o後,OpenAI的CEO薩姆·奧特曼(Sam Altman)還意有所指地發出一條寫着“her”的推文,讓人聯想起著名影片《她(Her)》,片中主角和沒有實體但善解人意的AI助手墜入愛河,卻又因價值和世界觀的不同產生分歧。

有科技媒體指出,OpenAI正在讓生成式AI變得更像人類,谷歌則在AI搜索方面加碼。雖然谷歌憑藉其生態和規模在實用方面不斷增強,OpenAI的產品或許更能抓住年輕用戶的喜好。

這已經不是谷歌和OpenAI第一次“搶頭條”。

今年2月16日,谷歌推出了醞釀已久的Gemini 1.5 Pro,稱其在性能上超越GPT-4 Turbo。兩小時後,OpenAI突然空降文生視頻模型Sora,立刻憑藉其出色的生成質量和突破性的生成時長成爲全球焦點。

而在不久之後,由於網友發現Gemini 1.5的圖像生成器工具似乎有意避免生成包含白人的圖像,並在圖像中加入了過量的“多樣性”要素,一時引發輿論譁然,對谷歌的名聲和股價一度造成顯著的負面影響,引發投資者對於谷歌在日漸激烈的AI競賽中是否已經落後的擔憂。

不過,也有一些專家認爲,谷歌本屆開發者大會的表現說明,公司已經在AI領域走上正軌。

在開發者大會舉辦前,一些華爾街分析師就預測,本次活動將擴大谷歌在AI創新方面的規模,帶來產品商業化機會。Gemini的功能升級和AI與搜索引擎的結合符合了他們的預期,體現出谷歌正在積極尋找新的貨幣化策略。

知名科技分析師、深水資產管理公司(Deepwater Asset Management)的執行合夥人吉恩·蒙斯特(Gene Munster)表示,谷歌的AI進步體現在其生成式AI和代理AI技術上:“他們落後OpenAI約6個月,領先了其他人約5年。”

蒙斯特還指出,谷歌將在其整個產品陣容中推出其人工智能Gemini,這一舉措響應了谷歌在2017年宣佈要成爲“AI第一”的口號。此外,谷歌在本次大會上宣佈推出AI搜索AI Overview,這一點也值得關注,但谷歌尚未提供如何將該功能貨幣化的具體細節。

英偉達高級研究科學家範麟熙(Jim Fan)也表示:“谷歌正在做的一件事是正確的:他們終於在認真將AI整合到搜索中......谷歌最強大的護城河是分銷。Gemini不一定要成爲最好的模型,而是可以成爲世界上最常用的模型。”

有趣的是,在發佈會後接受外媒採訪時,谷歌CEO桑達爾·皮查伊(Sundar Pichai)還表示,如果確認OpenAI濫用視頻網站YouTube的數據和內容進行AI訓練,公司將採取行動。

雖然並未透露具體的行動方案,皮查伊表示,如果發現相關行爲,谷歌將與OpenAI一起“解決問題”。

此前,今年3月,OpenAI首席技術官米拉·穆拉蒂(Mira Murati)在接受採訪時還曾對Sora的訓練數據來源含糊其辭。當被追問具體來源是否包含YouTube的視頻時,穆拉蒂回覆稱“我實際上並不確定”,並拒絕回答有關Instagram或Facebook視頻是否被納入訓練集的問題。

相關文章