國盛證券：OpenAI發佈GPT-4o 多模態實時交互能力重大突破

太平洋時間5月13日10點，OpenAI召開春季更新發佈會，直播發布GPT-4o

發佈會直播展示驚豔多模態交互能力，可以進行實時視頻交互。GPT-4o（“o”代表“omni全能”）接受文本、音頻和圖像的任意組合作爲輸入，直播中GPT-4O展示了實時語音交流能力，響應極快，並且可以識別用戶的語音情緒，語音有情感，還能用不同語言和多人同時交互。在語音的同時可以與視頻實時交互，演示了一邊聊天一邊解答手寫數學問題，以及實時交流閱讀代碼，指導編程、視頻聊天等能力。

GPT-4o 的文本和圖像功能今天開始在 ChatGPT 中推出。GPT-4o會在免費套餐中提供，向 Plus 用戶提供高達 5 倍的消息限制。在未來幾周內OpenAI將在 ChatGPT Plus 中推出帶有 GPT-4o 的新版本語音模式。開發人員現在可以在 API 中將 GPT-4o 作爲文本和視覺模型進行訪問。與 GPT-4 Turbo 相比，GPT-4o 的速度快 2 倍，價格減半，速率限制高出 5 倍。

我們認爲，GPT-4o是邁向更自然的人機交互的重大進步，新功能帶來了嶄新的多模態交互能力，通過新的端到端模型實現了體驗上的新突破，有望在各類終端實現用戶體驗的最大化，利好智能終端Agent、機器人等方向。

風險提示：AI技術迭代不及預期；算力緊缺的風險；宏觀經濟下行的風險。