在6月29日召开的C3安全大会上,中国工程院院士、紫金山实验室主任刘韵洁进行了题为“未来网络赋能数字经济”的主题演讲。他提出,数字经济新业务、新需求、新挑战,对网络提出更高要求,迫切要求网络架构做出变革。

其以AI大模型为例称,ChatGPT的模型参数是1750亿,网络能力需要1万个GPU,而每个GPU服务器有400Gb/s的网络通信能力,可见大模型对算力的需求非常大。


(资料图片仅供参考)

但在这方面,因为芯片问题,中国企业存在一些短板,需要去追赶。至于如何追赶,刘韵洁认为,芯片方面短期内有突破很困难,主要是通过算力集群、并行计算、协同计算,“我们的算力中心很多,要训练一个大模型,就需要并行的多个算力中心来协调进行,这就需要提供一个像计算机总线的网络,没有这样的网络,要进行大模型训练是有困难的。”

有实验数据显示,网络传输丢包率为1%时,传输效率下降50%,如果丢包率达到2%,这个传输效率等于0。因此,刘韵洁提出,我们需要一个确定性的网络来保证大模型训练,而且不只大模型,在工业制造、能源、数字孪生等领域,都需要确定性的网络。

简单来说,确定性网络就是没有延迟的、稳定的、可以信任的网络。据刘韵洁介绍,确定性网络已经成为国内外研究的重点,包括IETF、IEC等国际组织也都在进行相关研究,只是还没有形成统一的标准。

对于中国如何抓住网络能力的重大变革机会,刘韵洁分享了他和团队的一些思考。首先,网络架构要从原来的封闭走向开放;其次,要保证安全;最后,必须要智能,而且要不断增强。

“这样的网络理念首先要解耦,包括硬件、软件的解耦,解耦以后所有硬件和软件功能都要模块化,这样的目的是使软件硬件的功能模块可定制、可重构,这就能大大提高网络的效率。”刘韵洁说道。

早在2020年8月,紫金山实验室就在全球率先突破了大规模确定性广域网基础理论与关键技术,构建了覆盖北京、南京、上海等13个城市核心节点的大规模试验网,首次成功试验了跨2000公里以上传输距离、小于30微秒级的时延抖动精确控制。

去年3月,紫金山实验室联合多家单位又突破了基于SRv6的确定性时隙队列转发技术,率先构建并开通了我国首个覆盖16个地市的确定性骨干网络,该网络性能已通过第三方权威评测,在1500多公里大尺度情况下实现了平均时延抖动6微秒,最大时延抖动14微秒的高质量网络服务。

刘韵洁表示,“确定性网络”已成为未来网络产业发展的核心,是在网络领域实现“换道超车”的重要契机。确定性网络有望解决传统互联网拥塞无序的问题,推动互联网从“尽力而为”到“确保所需”技术体系变革,并能够满足工业互联网、元宇宙、东数西算、人工智能大模型等典型场景的网络需求。

(文章来源:21世纪经济报道)

推荐内容