OpenAI發佈旗艦AI模型GPT-4o：能識別用戶情緒還有幽默感

北京時間週二凌晨，OpenAI發佈了一款新的旗艦生成式AI模型“GPT-4o”，其中的“o”代表“omni”（全能），指的是該模型處理文本、語音和視頻的能力。它具有與人類相似的對話能力，令人印象深刻。

GPT-4o在保持GPT-4級別的智能的同時，對文本、視覺和音頻功能進行了改進。OpenAI首席技術官（CTO）Mira Murati及其員工Mark Chen和Barret Zoph在現場演示時展示了新的音頻對話和視覺理解能力。

OpenAI聲稱，GPT-4o對音頻輸入的平均反應時間約爲320毫秒。根據2009年的一項研究，這與人類在對話中的反應時間相似，而之前的模型通常要延遲2-3秒時間。

除了響應速度，GPT-4o似乎很容易捕捉到情緒，並根據用戶的要求調整語氣和風格，甚至還在回應中加入了音效、笑聲和歌聲。

GPT-4o更像人類

GPT-4o在理解人類交流方面邁出了重要的一步，用戶可以用一種接近自然的方式與其交談。它伴隨着現實世界中幾乎所有的傾向，比如打斷、理解語氣，甚至意識到自己犯了一個錯誤。

在第一次現場演示中，主持人要求GPT-4o對他的呼吸技巧做出反饋。他對着手機深深地吸了一口氣，而ChatGPT則詼諧地回應道：“你不是吸塵器。”它建議使用一種速度較慢的技術，展示其理解和回應人類細微差別的能力。

除了具有幽默感，ChatGPT也會改變回應的語氣，在傳達“思想”的同時用不同的語調來完成。就像人類對話一樣，你可以打斷它的對話並糾正它，讓它做出反應或停止說話。你甚至可以要求它以某種語氣、風格或機器人的聲音來說話。

此外，它甚至還可以提供翻譯服務。在現場演示中，舞臺上的兩名演講者，一名說英語，一名說意大利語，通過Chat GPT-4o的翻譯進行對話。它可以快速將意大利語翻譯成英語，然後無縫地將英語回覆翻譯回意大利語。

據悉，Chat GPT-4o在50多種語言的速度和質量上都有所提高。OpenAI表示，這些語言覆蓋了世界97%的人口。

除了語音理解，Chat GPT-4o還可以理解視覺效果。例如，對於視頻中的一道方程題，它可以指導你如何求解。

另外，它還可以觀看現場自拍，並提供描述，包括你的穿着，以及情緒。在演示中，Chat GPT-4o表示，主持人看起來很開心。

在整個演示過程中，Chat GPT-4o工作得很快，在理解方面並不費力，也沒有提出詢問。與輸入查詢相比，與Chat GPT-4o的交流更自然。你可以自然地對着手機說話，並得到想要的回應，而不是用谷歌去搜索。

電影《Her》中的薩曼莎

此時，如果想到了《Her》（一部和AI虛擬人薩曼莎談戀愛的電影），或者其他與AI相關的未來主義反烏托邦電影，你不是唯一的一個。以如此自然的方式與Chat GPT-4o交談，本質上就是OpenAI的《Her》時刻。考慮到它將在移動應用程序和桌面應用程序上免費推出，許多人可能很快就會擁有自己的《Her》時刻。