Odaily星球日報訊 OpenAI 發佈最新旗艦級模型 GPT-4o,可以實時推理音頻、視覺和文本,主打概念爲擬人化、超自然、超低時延的個人語音交互助理。根據 OpenAI 官方網站及 X 平臺官方賬號相關信息,GPT4o 中的 o 代表 Omni(全面),是邁向更自然的人機交互的一步——它接受文本、音頻和圖像的任意組合作爲輸入,並支持生成任意組合的文本、音頻和圖像輸出。它可以在 232 毫秒內響應音頻輸入,平均 320 毫秒,與對話中人類反應時間相似。在英語和代碼方面,它與 GPT-4 Turbo 性能相當,在非英語語言文本上有顯著改進,同時 API 速度更快且成本便宜 50%。與現有模型相比,GPT-4o 在視覺和音頻理解方面表現特別出色。文本和圖像輸入將於今日在 API 和 ChatGPT 中推出,語音和視頻輸入將在未來幾周內推出。
相關文章