本文转自:华西都市报

美国开放人工智能研究中心(OpenAI)5月13日展示了ChatGPT最新版本GPT-4o,相比先前版本,它与使用者对话基本无延迟,会倾听,能唠嗑,还善于察言观色,让人惊呼新版本“更像人”了。

GPT-4o能捕捉用户声音中的细微差别,做到随时开始或打断对话,识别说话人的语气、情绪,根据场景或指令生成多种音调、带有丰富人类情绪特征的音频回复,你甚至可以要求它唱歌。

GPT-4o-视觉能力大大提升。它可以查看不同语言的菜单照片并进行翻译,还能在传统识图的基础上,识别手写体,比如解答手写的方程组、精准分析数据,并能够读懂画面中人物的面部表情。

GPT-4o语言能力更加强大。目前GPT-4o已经支持包括中文在内的20种语言进行音频等多模态交互,这次更新在多语言方面更加强大。

GPT-4o数据优势明显。在数据层面,根据传统基准测试,GPT-4o的性能对比GPT-4 Turbo处于优势,对比其他模型更是大幅领先。

GPT-4o可通过呼吸来辨别情绪,它甚至可以指导使用者怎么深吸慢呼平复心情,在分析用户喘气声后进行呼吸指导。

GPT-4o响应时间越来越短。它可以在最短232毫秒内响应对话,平均响应时间320毫秒,和人类的反应速度几乎一样。

GPT-4o还在一定程度上免费。首席技术官穆里穆拉蒂表示,OpenAI的使命就是要向所有人免费提供高级人工智能工具。

GPT-4o可能是有史以来最好的模型。OpenAI联合创始人表示,这是OpenAI朝着更自然的人机交互形式迈出的重要一步。

相关文章