项立刚：GPT-4o有哪些技术突破？｜宅男财经

【宅男财经｜专家面对面】当地时间5月13日上午，OpenAI举行春季发布会。这次发布的产品并非搜索引擎或GPT-5，而是GPT-4的迭代版本——GPT-4o。OpenAI首席技术官Mira Murati表示，GPT-4o具备GPT-4的智能水平，但处理速度比GPT-4 Turbo快了一倍。

GPT-4o技术水平如何？中关村信息消费联盟理事长、通信专家项立刚表示，GPT-4o在人工智能计算、理解能力上和GPT-4并没有本质不同。从产品命名的角度看，它之所以不叫GPT-5，可能也是因为它没有革命性的突破，但GPT-4o也有一定的能力提升。

发布会上，GPT-4o表现出多模态理解和输出能力，它能够跨声音、文本和视觉进行智能推理，可以就用户给出的截图、照片，或含有文本和图像的文件展开对话。项立刚表示，此前ChatGPT主要是通过“文字对文字”的形式工作，即它在接收相关文字后经过处理，输出的也是文字，而GPT-4o拥有了多模态理解和输出能力，它接收的信息可以是文字、图片、声音和影像。

比如在发布会上，OpenAI的研发负责人就与GPT-4o进行了语音对话；同时，GPT-4o在处理视频时，还能在一定程度上理解人的情绪。项立刚认为，GPT-4o虽然没有在人工智能的计算能力方面实现质的飞跃和革命性的改变，但是它的一系列表现，以及理解和输出能力从单模态向多模态的转变，未来它会更真实地了解和理解世界。这些能力可能会被植入到机器人中，使它能够通过摄像头或感应器对周围的环境，包括人的情绪、态度等有更深入地理解。

“虽然GPT-4o的表现并非尽善尽美，但是我们可以看到它的发展方向，在人工智能的推理计算上的革命性飞跃可能目前还无法达到，而在这个过程中对于多模态进行识别理解并输出的发展方向越来越明显。”

项立刚提到，GPT-4o发布的背后也反映出OpenAI所面对的一些实际情况。比如GPT-4o同时面向付费用户和免费用户，虽然付费用户的消息限制是免费用户的5倍，但一定程度上反映出OpenAI目前的用户增长不是非常多，它的收入情况不是很好。在这种情况下，公司为了维持自己的用户数就不得不开放免费注册，然而免费用户的加入也并不会产生收入，未来OpenAI或许还会面临一定的困难。

项立刚称，通过OpenAI的发布会可以看到，GPT技术在不断积累中已经从算力堆砌发生改变，逐渐开始变得更加关注人性化及多模态理解和输出能力，这种能力对未来的人形机器人发展更有帮助，它在与人交流沟通的过程中会更加顺畅、更加方便，并且更加理解普通人的感受。

(记者董湘依制作常晴朗余坤航宅男财经出品)

来源：中新经纬

编辑：余坤航

广告等商务合作，请点击这里

未经过正式授权严禁转载本文，侵权必究