ChatGPT這麼會聊天，還要朋友幹什麼

OpenAI又改寫了一次歷史，在今日凌晨上線了一款能接受文本、音頻、圖像多模態輸入與輸出，表達自然流暢、並能讀懂情緒起伏的智能助手GPT-4o。更重要的是，它可被放入桌面和手機端，並完全免費。壓力被急劇轉移到了谷歌、蘋果身上；未來幾天，“科技春晚”還將輪番上演。

作者 |董溫淑

來源 | 市界

最近一週，科技行業熱鬧非凡，大型“臉對臉”開打的“科技春晚”，更將輪番上演。

5月14日凌晨，OpenAI 2024年春季發佈會上線。如今這家巨頭的每次動向，都存在再度“顛覆”一個行業的可能，既讓AI創業者們翹首以盼，更讓大家緊張萬分。

雖然這場OpenAI的發佈會僅持續了28分鐘，業內也早有劇透——不會有傳說中的ChatGPT 5，也不會直接對標谷歌做AI搜索；但發佈會的效果，仍然震驚四座。

此次OpenAI推出的是一款桌面版ChatGPT，該模型被稱爲GPT-4o。其中“o”代表着“omni”（全能）。在演示中，這一“全模態”模型不僅能接受文本、音頻、圖像的任意組合輸出，並可跨領域進行推理與展示——最重要的是，其反應速度最短達到了232毫秒，完全可做到與人類在正常對話中同頻。

演示中，GPT-4o像個真實的人類一樣，可以被打斷，也可做到語態聯想。當它被裝入手機時，能通過喘氣聽懂用戶的嘆息、疲憊，使用體驗易用自然、功能強大。

OpenAI同步宣佈了“獲客”大殺器：GPT-4o可以被安裝至桌面和手機端，並向所有人免費開放，API定價只有GPT-4 Turbo的一半，速度達到GPT-4 Turbo的2倍，付費的ChatGPT Plus用戶將獲得5倍調用額度。

壓力被急劇轉移到谷歌、蘋果等巨頭身上。北京時間5月15日凌晨，谷歌也將上線“I/O大會”，據傳谷歌將在會上公佈大模型最新進展，並將發佈類似GPT-4o，在Gemini加持下的、名爲“Pixie”的個人數字助理。

本月21日，微軟也將召開“Build開發者大會”，市場猜測其大概率會將OpenAI最新能力集成到自家產品線中。

另據外媒報道，蘋果在此次發佈會前，已與OpenAI達成合作。在6月的蘋果“WWDC大會”上，ChatGPT會不會被塞入iPhone之中，以取代“招人恨”的Siri，也非常值得期待。

28分鐘，幹翻所有語音助手

一場大範圍預熱，將OpenAI發佈會的懸念提前拉滿。

發佈會前，OpenAI創始人、CEO山姆·奧特曼先早早否定了對標谷歌，上線AI搜索的傳聞。他稱，“（新功能）對我來說就像魔法一樣”。OpenAI語音AGI研究領導Alexis Conneau更直接將自己的社交媒體主頁背景，改成了一張電影《Her》中的劇照——這是一部講述人與AI助手“薩曼莎”相戀的科幻電影。

外界甚至爲奧特曼編排出了一個與AI助手相愛的浪漫故事。發佈會結束後，山姆也順水推舟地，在自己的X賬號上，只發表了一個單詞——“Her”。

▲

不過當看過OpenAI的最新產品後，觀衆們驚呼，《Her》中的劇情真的進入了現實。

發佈會上展示的GPT-4o，彷彿是一個真實的“朋友”坐在身邊。它反應迅速，語調流暢自然，情緒飽滿，會跟隨着你的情緒興奮起來，也能根據上下文給出豐富的對話細節，揣摩對話者的情緒。

例如，當OpenAI的研發負責人Mark Chen上臺時，他對着GPT-4o說：“我站在臺上有點緊張，該怎麼辦？”GPT-4o回答：“你太棒了，深呼吸一下吧，記得你可是個專家。”Mark Chen隨之大聲喘氣，問GPT-4o接下來還能給些什麼建議，對方回答：“放鬆點Mark，呼吸得慢一點，你又不是吸塵器。”

▲

接下來，GPT-4o被要求給大家講個睡前故事。沒講幾秒，它就被Chen打斷，要求能不能多點情緒和戲劇性。隨即，GPT-4o語調更加起伏和誇張。Chen又對其要求：能不能再來點情感，最戲劇化的表達可以嗎？GPT-4o顯然讀懂了“戲劇化”的含義，隨即拿出了戲劇演員一樣誇張的語調——有趣的是，當GPT-4o又被要求唱歌時，它甚至自己先嘆了口氣。

在此過程中，GPT-4o的反應速度也令人深刻。據計算，它對音頻輸入的響應時間最短爲232毫秒，平均爲320毫秒，這與人類在對話中的響應時間相似。

語音聊天外，GPT-4o還表現出了多模態理解和輸出能力。它能夠跨聲音、文本和視覺進行智能推理，可以就用戶給出的截圖、照片，或含有文本和圖像的文件展開對話。

此外，GPT-4o也能生成任何文本、音頻和圖像的組合。並能在輸出中，識別人類的感情，根據感情做出“有情緒的反應”。

爲了快速“獲客”，這樣強大的助手，OpenAI準備交給用戶免費使用，並可在電腦桌面運行。據官方介紹，OpenAI優化了用戶界面，用戶只需要關注如何與ChatGPT協作。可想而知，這樣一位免費的AI助手，可以隨時陪你聊天、看圖表、寫日程，它將爆發怎樣的巨量使用場景。

打到谷歌、蘋果家門口

儘管OpenAI此次沒有亮出GPT-5這樣的大招，從業界反饋看，其展現出的技術能力升級足以令人再度感到震驚。

據騰訊科技報道，根據OpenAI官網最新博客文章顯示，在GPT-4o上線之前，使用語音模式與ChatGPT對話，平均延遲爲2.8秒（GPT-3.5）和5.4秒（GPT-4）。爲實現這一點，ChatGPT語音模式是由三個獨立的模型組成的流水線：一個簡單的模型將音頻轉錄爲文本，GPT-3.5或GPT-4接收文本並輸出文本，第三個簡單的模型將該文本再轉換回音頻。

在這個過程中，GPT-4會丟失很多信息，它不能直接觀察語調、多個說話者或背景噪音，也不能輸出笑聲、歌唱或表達情感。

而GPT-4o之所以能表現出更自然、更貼近人類的情感，源於其是單獨訓練的新模型。因此，可以端到端地處理文本、視覺和音頻，這意味着所有輸入和輸出都由同一個神經網絡處理。

▲

這款被OpenAI能力強大優化了的桌面App與手機端助手，其所打開的想象力，也威脅到了一衆巨頭的蛋糕。例如，許多人最直接的反應是：它已經達到了全面“吊打”Siri的水平。

有趣的是：據外媒報道，發佈會前一天，蘋果與OpenAI的合作已祕密達成。雖然合作方式尚不可知，但不少人猜測：OpenAI的技術將會在蘋果新品中集成亮相。

另外多模態人工智能助手的賽道里，最大的玩家本來還站着谷歌。

2023年12月，谷歌發佈了Gemini模型1.0版本，開始便定義其爲“原生多模態大模型”，希望打通語言、聽力、視覺信息的輸入輸出能力。2024年2月，Gemini上新了1.5版本。

5月15日，OpenAI發佈會一天後，谷歌“I/O大會”即將舉辦，Gemini的更新發布本是關注重點。但OpenAI爆冷發佈語音助手，無疑會將關注度從Gemini身上奪走不少。

不過這種在發佈會前被搶風頭的“糟心事”，谷歌已經不是第一次經歷。2023年12月，谷歌原定上線Gemini時，OpenAI便在11月搶先舉辦了首屆開發者大會。爲此，Gemini的上線時間一度被傳，要被延後到2024年初。

這一次，面對OpenAI“騎臉”開打，谷歌也不甘示弱地做出了反擊，很快在官方賬號裏放出了語音助手的demo實時演示。

▲

谷歌旗下人工智能研究機構DeepMind的CEO和聯合創始人Demis Hassabis、谷歌AI工作室產品負責人及Gemini API研究人員Logan Kilpatrick紛紛下場表示，自己將在本屆I/O大會上“首秀”。

兩大巨頭在實時語音助手戰場正面交鋒，讓看客直呼精彩。但也有人給谷歌先潑了涼水，評價道：“Sorry Google but we got it one day earlier（對不起谷歌，但我們一天前已經得到這個了）。”

競爭對手們怎麼辦？

十年前，“科技春晚”還是蘋果發佈會的代名詞。十年之後，主角已然輪換。

不得不承認，“百模大戰”國內外已膠着對戰了一年多，但每每在市場中扛起“議程設置”標杆角色的，仍非OpenAI莫屬。接下來，圍繞GPT-4o多模態功能更新的交互體驗，也勢必將掀起市場中的新一輪攻防大戰。

此前，市場在曝光了OpenAI可能發佈AI搜索產品、硬剛谷歌之時，已有各路大V下場，激辯“AI搜索”的未來。GPT-4o的最新體驗，也爲還在苦苦追趕的國內AI創業市場，平添了許多緊張氣氛。

不過，從業界的綜合觀察來看，國內創企亦不必覺得節奏被OpenAI追逐得難以喘息。比如，OpenAI沒有選擇上線GPT-5，本身亦是大模型訓練“卷”至高階，也逐漸進入到瓶頸期的反映。

作爲目前在研的OpenAI最新一代大模型，GPT-5被視爲有望對現有模型形成碾壓級超越的產品。其性能、售價等因素，也將直接影響市場的發力方向。

而從2022年11月到2023年3月，OpenAI很快完成了從ChatGPT（基於GPT-3.5）到GPT-4的跨越，但GPT-5的發佈目前還沒有具體時間表。

有關GPT-5的亮相時間，市場已經存在多個版本。此前，OpenAI官網曾預計GPT-5將在2023年第四季度推出，隨後發佈時間推遲。如今市場傳聞稱，GPT-5有望於年中、今夏發佈；亦有媒體援引內部人士消息稱，GPT-5或將於2024年11月份亮相。

而就在剛剛過去的4月，還有許多人在網上曬出了OpenAI發出的“紅隊測試邀請”郵件截圖。在AI行業，“紅藍對抗測試”是保證大模型安全性的重要方式，測試人員通過不斷地挑戰模型，以便提前對漏洞“查漏補缺”。因此，市場猜測雖然OpenAI未標明模型版本，但GPT-5或許已經接近發佈。

也有業內人士猜測，GPT-5的“姍姍來遲”，或因OpenAI研發遇到某種天花板。與此同時，OpenAI在今年2月16日發佈的重磅文生視頻模型Sora，雖然看起來技驚四座，但OpenAI至今仍未開放使用Sora，更遑論商業落地。

▲

在專業人士看來，Sora越快開放使用，就能提早完善問題、重塑商業流程。

音視頻協作軟件“分秒幀”創始人程剛對「市界」講道：“我們目前看到Sora存在幻覺問題、精準度問題、對物理世界的理解，以及模擬不準確所帶來的邏輯問題、版權溯源和版權保護問題，以及有人濫用工具去生成虛假內容的問題等等。這些問題當然會影響Sora在商業場景中的使用。”

但他判斷：“Sora迭代的速度，基本可以參照ChatGPT的迭代速度。Sora對現實模擬不準確的問題，比如手有六指，（如果放開使用）應該半年左右就能得到比較大的優化。”

ChatGPT這麼會聊天，還要朋友幹什麼

熱門新聞

週熱門

ChatGPT這麼會聊天，還要朋友幹什麼

滴滴第一季度總營收 491 億元同比增長 14.9%，中國出行日均單量 3250 萬單

國美零售發行 1.29 億股股份，以結算部分未償還債券

小鵬劇透飛行汽車：能跑又能飛 機翼可藏進車身

三星Lifestyle家族再添新貴：打造藝術格調家居的最優選擇

螞蟻明確AI戰略圖譜 讓AI像掃碼支付一樣便利

東航董事長詳解國產C919商業運營這一年，未來還要怎麼飛？

極空間推出私有云設備P8：佈局企業級市場 新品售價8999元

年度影像滅霸vivo X100 Ultra正式開售

京東CEO許冉：供應鏈優勢是京東與靠流量競爭的平臺最大的差異

全球100位頂尖商業大佬如何看AI

GREA、Lodeor、美旳……那些玩“文字遊戲”的假大牌爲何屢禁不止?

多地推進家電以舊換新，效果如何?

安裝集成竈必須要知道這些

今年618 空調將爆發最慘烈價格戰?

國產大模型登陸國產系統！百度文心一言上架統信應用商店

熱門新聞

週熱門

小鵬劇透飛行汽車：能跑又能飛機翼可藏進車身

螞蟻明確AI戰略圖譜讓AI像掃碼支付一樣便利

極空間推出私有云設備P8：佈局企業級市場新品售價8999元