OpenAI發佈最新旗艦級模型GPT4o，ChatGPT邁入人機交互新階段

Odaily星球日報訊 OpenAI 發佈最新旗艦級模型 GPT-4o，可以實時推理音頻、視覺和文本，主打概念爲擬人化、超自然、超低時延的個人語音交互助理。根據 OpenAI 官方網站及 X 平臺官方賬號相關信息，GPT4o 中的 o 代表 Omni（全面），是邁向更自然的人機交互的一步——它接受文本、音頻和圖像的任意組合作爲輸入，並支持生成任意組合的文本、音頻和圖像輸出。它可以在 232 毫秒內響應音頻輸入，平均 320 毫秒，與對話中人類反應時間相似。在英語和代碼方面，它與 GPT-4 Turbo 性能相當，在非英語語言文本上有顯著改進，同時 API 速度更快且成本便宜 50%。與現有模型相比，GPT-4o 在視覺和音頻理解方面表現特別出色。文本和圖像輸入將於今日在 API 和 ChatGPT 中推出，語音和視頻輸入將在未來幾周內推出。