自然语言处理“战国时代”即将到来？

北京时间3月15日凌晨，人工智能初创公司OpenAI公布新一代人工智能语言模型GPT-4。与ChatGPT所用的模型相比，GPT-4不仅能够处理图像内容，而且在回答的细节和表述方面更有价值和人情味。

(资料图)

“这是OpenAI努力扩展深度学习的最新里程碑。”OpenAI在当天的声明中这样表示。鉴于这是一个只训练了6个月且数据更新至2021年9月的模型，我们有理由推测出它的后续升级版本将可能做出更多令人惊艳的事情。有专家推测，OpenAI正在小心翼翼控制节奏，以防人们被太过聪明的工具“吓”到。

GPT-4 VS ChatGPT

与ChatGPT相比，GPT-4最大的改变就是增加了图片输入支持，并可输出图片或文本。这使它从一个单纯的文本聊天工具变成一个多模态语言模型。

目前图像处理功能尚未公开，不过OpenAI在官网上展示了一系列案例。上海人工智能研究院研究员王资凯注意到，其中有一个案例是让GPT-4预测将图片中的氢气球绳子剪断后会怎样。“这是一个涉及图片理解、常识和推理的问题，没见过气球的人很难回答。”不过，GPT-4很好地预测了气球的走向。“或许GPT-4已经能根据周围场景，猜出一个密闭的盒子里装的是什么。”王资凯说。

在中国计算机学会术语工委副主任、同济大学特聘研究员王昊奋看来，更能体现GPT-4水准的要数它对于非自然图像的理解，如图表、考试题目截图、论文截图等，这也解释了它为何能在各种考试中拔得头筹。在演示中，GPT-4帮助美国一对虚拟夫妇在特定纳税年度里完成了报税，这意味着它能读懂大量知识性文档。

GPT-4可输入25000个词，约是ChatGPT的八倍，这使得它的逻辑推理能力更上一层楼。据介绍，它已在包括美国律师资格考试、法学院入学考试、“美国高考”数学部分和证据性阅读与写作部分等考试中，得分高于88%的应试者。

“角色扮演”让GPT-4如有神助

“你是一位AI编程助手，第一步谨慎、逐字地遵循用户需求；第二步一步一步思考，阐述你如何构造代码；第三步在一个单独程序块中生成代码；第四步尽可能减少其他不严谨……”在官方发布的演示中，王昊奋注意到一个细节，OpenAI总裁和联合创始人格雷格·布罗克曼试图让GPT-4在回答复杂问题前先扮演某种角色。

“我们把这种引导称为‘元指令’，也就是给机器一个人设，比如一名医生、一名律师、一名编辑等，然后告诉它要做什么工作。”王昊奋说。作为ChatGPT全球首批百万用户之一，王昊奋掌握了不少使用心得，角色扮演的“元指令”是他经过长期使用后总结出的让ChatGPT生成更好回答的方法之一。而在此次最新发布的GPT-4中，他发现，OpenAI公司也注意到了这一现象，并有意引导机器去扮演某种角色。

让机器拥有“人设”，是否意味着GPT-4已经具备了智能？在王资凯看来，答案是肯定的。就像人类制造飞机没有用鸟的方式，而是通过空气动力学让一套机械装置飞起来了一样，人工智能也用自己的方式拥有了智能。不过，人类也无需恐慌，因为这仍然只是一个工具，而且通往智能的道路并非只有一条。

数十款多模态语言模型将同台竞争

就在GPT-4发布的几天前，谷歌悄悄上线了一款炸弹级模型PaLM-E——足足有5620亿参数，它将真实世界的传感器信号与文本输入相结合，建立语言和感知的链接；根据计划，百度将于今天发布类ChatGPT模型“文心一言”；而此前，由OpenAI前员工研发的ChatGPT竞品Claude已开放API接口……正如ChatGPT上线后多位专家预测的那样，自然语言处理的“战国时代”即将到来，未来，全球估计将会有数十款多模态语言模型同台竞技。

在王昊奋看来，OpenAI并非风光无限，而是感受到了切实的压力，这导致了GPT-4匆忙上线。毕竟，“该模型最大的亮点图文识别没有放开测试，并不符合OpenAI的一贯风格”。

不过，他也提醒人们注意，GPT-4的训练数据只更新到2021年，不排除后续会有更丰富的语料库训练版本。这次，他们很快就将自家的图像模型DALL-E整合进GPT-4，不仅工程技术难度不容小觑，而且更考验模型融合两种类型数据的稳定性和成本。专家预计，OpenAI内部还藏有“杀手锏”，将再一次带给人们冲击。