多模态超出预期 GPT-4掀起更大产业变革

上海证券报

多模态的引入，让OpenAI最新发布的GPT-4明显“更上一层楼”。对比来看，GPT-4可以接受图像和文本输入，ChatGPT只接受文本；GPT-4在各种专业和学术基准上的表现达到“人类水平”，在事实性、可引导性和可控制方面取得了“史上最佳结果”；当任务的复杂性达到足够的阈值时，GPT-4比ChatGPT更可靠，更有创造力，能够处理更细微的指令

◎孙小程记者罗茂林

全球各界还在消化ChatGPT带来的颠覆性意义，OpenAI已经用更强大的GPT-4革了自己的命。

美国东部时间3月14日，OpenAI宣布推出大型的多模态模型GPT-4。“GPT-4比以往任何版本更具创造性和协作性”，并且“有更广泛的常识和解决问题的能力，可以更准确地解决难题”。OpenAI的CEO山姆·阿尔特曼说：“这是我们迄今为止功能最强大的模型。”

以名列前茅的成绩通过高难度考试、分析图片中的符号意义、在10秒时间内生成耗费程序员数十小时的代码……GPT-4展示出的能力让人欣喜，甚至恐慌。“科技狂人”马斯克感叹道：“人类还能做什么？”

从聊天机器人到生产力工具

“我们创建了GPT-4，这是OpenAI努力扩展深度学习的最新里程碑。GPT-4是一个大型多模态模型（接受图像和文本输入，提供文本输出），虽然在许多现实世界场景中的能力不如人类，但在各种专业和学术基准上表现出人类水平。”OpenAI介绍道。

与上一个版本相比，GPT-4强在哪？OpenAI称，虽然这两个版本在随意的谈话中看起来很相似，但“当任务的复杂性达到足够的阈值时，差异就会出现”，GPT-4更可靠、更有创意，并且能够处理更细微的指令。

对比来看，GPT-4可以接受图像和文本输入，ChatGPT只接受文本；GPT-4在各种专业和学术基准上的表现达到“人类水平”，在事实性、可引导性和可控制方面取得了“史上最佳结果”；当任务的复杂性达到足够的阈值时，GPT-4比ChatGPT更可靠，更有创造力，能够处理更细微的指令。

OpenAI展示的一个示例便可以窥探出GPT-4的智能：用户给出一张图片，询问GPT-4为什么好笑，GPT-4精准描述了图片内容，回答道：“这幅图的幽默之处在于，把一个大而过时的显示接口插入一个小而现代的智能手机充电端口是荒谬的。”识别图片是各大搜索引擎早有的功能，但对图片中的元素进行拆解并分析符号意义，却是首例。

OpenAI称，他们花了6个月时间使GPT-4更安全、更具一致性。在内部评估中，与GPT-3.5相比，GPT-4对不允许内容做出回应的可能性降低82%，给出事实性回应的可能性高40%。GPT-4引入了更多人类反馈数据进行训练，不断汲取现实世界使用的经验教训进行改进。

总体上，多模态的引入，让此次发布的GPT-4明显“更上一层楼”。上一代ChatGPT展示出的能力还属于聊天机器人范畴，GPT-4综合体感均有所完善，被视为强大的生产力工具。

商用化场景更为明朗

如果说ChatGPT的横空出世，主要给文字从业者带来了职业焦虑，那么GPT-4的推出，则是大幅加剧了程序员的恐慌感。

在此次发布会上，OpenAI总裁格雷格·布罗克曼在现场演示了GPT-4在这方面的能力。他直接在纸上画了一个潦草的示意图，拍照发给GPT，并要求其按照这个布局写网页代码。几乎只需要数秒钟的时间，相应的代码就完成了生成。发布会还展示了一个GPT-4的使用场景，把程序运行出错的信息甚至错误信息截图提交给GPT-4，仅凭这部分图片信息，GPT-4都能自动查出错误。

“这对于整个编程行业来说是具有颠覆性意义的。”一位互联网从业人士表示，未来大量基础性的编程都将由人工智能接手。据他透露，目前国内许多的互联网公司已经引入GPT，辅助编写程序，“以后这种替代的比例会进一步提高”。

正因如此，此次发布会上，OpenAI明确表示，将在ChatGPT Plus上提供GPT-4，并将其作为API提供给开发人员构建应用程序和服务，这意味着，任何公司和个人都可以在自己的程序中自由调取GPT-4的相关功能。定价方面，每1000次调用花费在0.03美元至0.06美元。

“ChatGPT开放商用API接入，意味着其成本已经足够低廉到一般企业可以支付。”一位市场人士直言，在商业化的逻辑下，许多小公司在性能上无可比拟ChatGPT的同时，成本上或许也将被其碾压。

除了微软的新版必应搜索引擎，目前还有多家公司将GPT-4搭载到他们的产品中，包括语言学习工具软件多邻国（Duolingo）、帮助视障用户的软件BeMyEyes、移动支付公司Stripe、国际性金融服务公司摩根士丹利等。

以摩根士丹利为例，在OpenAI的GPT-4的帮助下，摩根士丹利正在改变其财富管理人员定位相关信息的方式。摩根士丹利维护着一个内容库，其中包含数十万页涵盖投资策略、市场研究和评论以及分析师见解的知识和洞见。这些大量的信息分布在许多内部网站上，主要以PDF形式呈现，需要顾问们浏览大量信息才能找到特定问题的答案。

从去年开始，摩根士丹利开始探索如何利用GPT的嵌入和检索功能来利用其智库。摩根士丹利主导该项目的分析、数据与创新主管表示，目前已经使用GPT-4技术将所有智库内容转化为更易于使用和操作格式；该行此前一直在用300名顾问测试这款工具，并计划在未来几个月广泛推广。

不过，OpenAI也坦承，GPT-4还不完美，在许多情况下，它的能力不如人类。OpenAI表示：“GPT-4仍有许多已知的局限性，我们正在努力解决，比如社会偏见、幻觉和对抗性提示。”在GPT-4发布之后，山姆·阿尔特曼表示：“它仍然是有缺陷的、有限的，在你花了更多的时间第一次使用它时，它似乎比实际情况更令人印象深刻。”