【资料图】

新京报贝壳财经讯(记者罗亦丹)5月26日至5月30日,2023中关村论坛举行期间,中科院院士、CCF开源发展委员会主任王怀民教授发表了关于“开源创新启示”的演讲。

王怀民表示,过去5年在人工智能领域大模型发展非常迅速,人们在大模型的研究中有过怀疑,也有过积极的探索。大模型的不确定性造就了开源模式和闭源模式同时推进的基本格局。当ChatGPT2发布之后,OpenAI也开始闭源。在这样的背景下,有很多参与到开源大模型研究领域中的参与者怀疑OpenAI的开源主张,也由此产生了一系列更多的所谓能够替代ChatGPT的开源的发展。去年年底ChatGPT发布之后,它所形成的潜力从学术界蔓延到全社会之后形成的影响力,一方面试图在支撑着闭源的模式,同时也在激发着开源模型的发展,那么究竟是开源还是闭源,应该如何发展?

在他看来,闭源大模型的训练成本极高,最近发布的谷歌的大模型训练费用超过了千亿美元,因此说闭源是保证商业投入的一个有效方式,也成为了闭源的理由。不过,开源创新已经成为软件发展乃至于IT技术发展的一种主流技术形态,超级计算机的操作系统几乎都是用Linux这样的开源软件操作系统进行构建,智能手机的操作系统80%以上都由开源的安卓系统支持,在云端,一些重要的软件80%也是开源支持的。在大模型出现之前,深度神经网络的学习框架也几乎都是开源的。

王怀民认为,从整个市场形态看,国际IT产业从芯片到操作系统到数据库到中间件,乃至于云边端的软件和设备发展模式,开源模式是一种非常有竞争力的形态。到了人工智能这个领域,最近ChatGPT是不开源,但是META把它的LLaMA模型开源,迅速地吸引了大量开发者,和在互联网时代Linux开源状态非常之相似。

“我们应该思考,今天我们的这个时代是一个不确定性的时代还是因为大模型已经确定了的人工智能时代,这实际上是开源和闭源能够发挥有效作用的一个重要的态势判断。在这个过程中我们看到LLaMA模型,也看到整个人工智能大模型开发过程中,开源开放是以不同的形态表征的,过去我们开源软件就是代码要开源,而今天在人工智能当中数据的开源,训练代码的开源,推理代码的开源,乃至于服务的开放,是不同层面的开放,都是被社会关注和接受的。比如说ChatGPT虽然它的数据训练代码、推理代码都没有开放,但是把API和服务开放之后,仍然可以吸引一大批在大模型驱动下的新型人工智能开发的探索。”王怀民说。

开源和闭源究竟哪一种模式更有效?王怀民表示,今天开源已经不简单是目的了,是一种推动技术创新发展的手段,“在一个确定性的时代,微软以它的企业组织模式封闭推进一个产品的开发,我们称为单性繁殖,每个新的产品都由微软定义。但是在互联网时代到来的时候,在一个不确定性的互联网时代,开源的竞争力更强,开源Linux社区发布一个核心版本,更多人在这个核心版本上根据他对需求和领域的理解进行不断地修改,形成了双性繁殖,能够产生或者低成本产生更多的适应未来发展的新版本,由环境来评价,然后再迭代回来不断地开发,这个新版本并不是由一家企业完成的,是由全社会参与的,开源在不确定性的时代更加有竞争力。”

(文章来源:新京报)

推荐内容