太平洋時間5月13日10點,OpenAI召開春季更新發佈會,直播發布GPT-4o

發佈會直播展示驚豔多模態交互能力,可以進行實時視頻交互。GPT-4o(“o”代表“omni全能”)接受文本、音頻和圖像的任意組合作爲輸入,直播中GPT-4O展示了實時語音交流能力,響應極快,並且可以識別用戶的語音情緒,語音有情感,還能用不同語言和多人同時交互。在語音的同時可以與視頻實時交互,演示了一邊聊天一邊解答手寫數學問題,以及實時交流閱讀代碼,指導編程、視頻聊天等能力。

GPT-4o 的文本和圖像功能今天開始在 ChatGPT 中推出。GPT-4o會 在免費套餐中提供,向 Plus 用戶提供高達 5 倍的消息限制。在未來幾周內OpenAI將在 ChatGPT Plus 中推出帶有 GPT-4o 的新版本語音模式。開發人員現在可以在 API 中將 GPT-4o 作爲文本和視覺模型進行訪問。與 GPT-4 Turbo 相比,GPT-4o 的速度快 2 倍,價格減半,速率限制高出 5 倍。

我們認爲,GPT-4o是邁向更自然的人機交互的重大進步,新功能帶來了嶄新的多模態交互能力,通過新的端到端模型實現了體驗上的新突破,有望在各類終端實現用戶體驗的最大化,利好智能終端Agent、機器人等方向。

風險提示:AI技術迭代不及預期;算力緊缺的風險;宏觀經濟下行的風險。

相關文章