在今日召开的首届“全球数据系统稳定峰会”上,中国信通院云计算与大数据研究所所长何宝宏对中国信通院数据系统稳定工作体系进行了介绍。

何宝宏称,中国信通院于2021年启动稳定相关工作,依托分布式系统稳定实验室,面向供给侧机构、监管机构及应用侧机构,形成面向产品、工具、服务商、系统、灾备和保障体系等对象的“STAR”评估体系,助力我国各领域系统稳定保障工作。

系统稳定保障关键问题凸出

在2021年全球发生了多起严重的信息系统宕机事件,其中不乏有互联网基础设施、金融核心业务系统等,这些关键系统的宕机事件不仅造成了大量经济损失,也影响了社会的稳运行,同时也给其他系统建设运营者、监管机构敲响警钟,系统的稳定保障成为当前热点问题。

何宝宏指出,在我国,保障关键系统的稳运行受到国家层面高度重视,《关键信息基础设施安全保护条例》自2021年9月1日起正式实施,明确要求关键基础设施的运营者要依照条例和有关法律法规保障关键信息基础设施的安全稳定运行。

随着数字技术的更新,信息化系统的重要突显,系统稳定面临着新的挑战。互联网等数字原生企业为提升数字能力、满足用户需求,不断扩大系统规模,引入敏捷开发流程,导致信息系统复杂直线上升,稳定风险点增多,金融、电信等科技密集型行业,系统在线化程度不断提升,新技术不断引入,信息系统功能范围和复杂度不断升级。而政务、能源等传统行业也在政策推动下,将服务模式从原来的5×8的线下模式升级成7×24小时的线上模式,导致系统稳定压力激增。

何宝宏表示,当前信息系统稳定保障领域在技术、管理等方面都存在不足,比如技术方面随着新技术新架构应用存在异构软硬件兼容问题,分布式架构普及集群规模扩大导致硬件故障更普遍、通信交互更不稳定。在管理方面,由于系统涉及的部门机构增多,带来大量的沟通成本,导致稳定保障链路变长,跨团队协作更加困难。

中国信通院稳步推进相关工作

据悉,因运营行程卡系统,中国信通院在系统保障方面积累了大量的实践经验,行程卡至今已经运行了2年,累计查询突破458亿次,期单日查询量维持在3亿次以上,其使用量随着全国疫情变化波动,成为了疫情防控重要工具。为保障行程卡系统长期稳运行,行程卡团队实施很多保障稳定的措施:

首先,通过优化技术架构,对不同访问渠道的服务资源进行隔离,将三大运营商的服务通道解耦,实现各渠道及各运营商之间服务互不影响。

其次,对服务器负载均衡、带宽、数据库等资源进行多次扩容,已满足不断增长的访问请求,目前系统峰值容量较去年已经提升10倍以上,并通过周期压测随时确认系统的容量情况。

第三,行程码建立了备份容灾系统,开展了多次应急演练,可以随时进行主备切换。团队开发了全链路监控系统,能够监控各环节流量变化。为应对流量高峰,团队建立了突发情况的限流机制,保障系统不中断服务。

最后,行程卡还建立健全了运营维护的管理制度,形成了日常运维、重点保障、应急处置三位一体的运维保障体系。

何宝宏表示,基于以上背景,为助力我国各领域数据系统稳定提升,中国信通院于2020年启动稳定相关工作,依托分布式系统稳定实验室,面向供给侧、监管机构、应用侧等三类角色,形成产品稳定、稳定支撑工具、服务商、系统自身、系统灾备能力、系统稳定体系等六条工作主线,统一构成了STAR评估系统。

其中,分布式系统稳定实验室的定位是要打造行业台,汇聚系统稳定相关方的智慧,共同定义、梳理、研究、推广系统稳定相关工作和成果。由中国信通院牵头,自2021年4月成立以来,目前共计50余家成员单位,并且已组建包括23位技术专家的专家团,形成强大的研究和服务能力。实验室通过定期举办技术沙龙,集中编制稳定相关标准和、研究报告和实践指南等方式,持续推动稳定各项工作。

详解STAR评估六条主线

在会上,何宝宏详细介绍了STAR评估体系的六条主线工作。其中,STAR-A为稳定保障体系评估,STAR-R为系统灾备能力评估,STAR-S为系统压测/拨测服务,STAR-E为服务商能力评估,STAR-T为稳定保障工具测评,STAR-P为软件产品稳定测试。STAR评估体系完整涵盖数据系统稳定相关工作中涉及的各类对象,可以全方位衡量各环节的相关能力。

1、STAR-A,稳定保障体系评估。当前系统技术迭代快,架构复杂,理论上来说,“没有绝对稳定的系统,只有相对完善的保障体系”。由此,本部分工作主要是针对如何通过各类保障手段,最大限度确保系统稳定。因此,信通院联合行业力量共同编制了一套评估体系——《分布式系统稳定保障能力分级要求》,以及两本实践方法论——《混沌工程实践指南》和《系统稳定保障能力建设指南1.0》。同时,依据评估标准,开展首批数据系统稳定保障能力评估,首批共有12个信息系统通过。

2、STAR-R,系统灾备能力评估。数据系统出现故障是不可避免的,灾备系统能够在数据尽量少丢失的情况下,保持业务系统尽快恢复甚至不间断运行,是现代数据系统不可或缺的基础设施。为衡量数据系统灾备能力,中国信通院联合行业编制了《数据系统灾备能力成熟度模型》,从五大能力域、30个能力项全方位衡量系统的灾备能力。标准的发布,一方面可以为应用方建设灾备系统提供参考,另一方面,也可以评估已经建成灾备系统的实际能力。

3、STAR-S,向数据系统提供压测/拨测服务。系统稳定的真实情况一定要通过合理的测试和持续的监测才能获得,因此,围绕如何衡量系统实际的稳定状况,中国信通院同相关的专业技术公司合作,开展面向各类系统的压测/拨测服务。

系统实践承载能力只有通过全链路压测才能准确获得,压测结果是运营方预估系统容量、储备额外资源、实施应急举措的重要参考依据。针对各类系统联合专业技术公司提供第三方全链路压测服务,此外,针对小程序联合支付宝和微信推出小程序端到端全链路压测服务,准确衡量系统容量。同时,系统实际运行状况需要持续不断的监测才能够加以确认,相对人工观察,通过技术手段更能提升监测的及时、准确。信通院联合专业技术公司,通过模拟真实用户访问形式,为数据系统提供拨测服务。

4、STAR-E,提供稳定保障的服务商能力评估。随着稳定工作重要的提升,业内已经涌现出众多专业提供稳定保障服务的企业,在这一方面,当前中国信通院正在研制《系统稳定保障服务商能力分级要求》,对服务过程、人员、技术工具等进行规范,也将依托该标准对产业内提供稳定保障服务的服务商进行评估,引导行业规范化发展。

5、STAR-T,稳定保障工具测试。系统稳定提升离不开专业技术工具支撑,工具好坏显著影响着系统稳定的保障能力。当前,中国信通院已完成《系统稳定保障台能力要求》这一标准,对支撑系统稳定工作的各类台工具应具备的能力进行了全方位梳理,并形成阶梯化分级要求,后续将继续完善各类支撑工具标准的研制,并开展相应评测工作。

6、STAR-P,数据产品稳定测试工作。各类数据产品尤其是分布式软件已成为各行业数据系统的重要组成部分,其自身的稳定是系统整体稳定的重要前提。因此,中国信通院开展了面向数据产品自身稳定的测试。为了能够对各类数据产品进行标准化稳定测试,中国信通院基于Ansible和ChaosBlade自主研发了Databench-C分布式混沌测试台,通过Databench-C可以对被测产品进行稳态确定、扰动注入、差异对比等操作。可注入的故障及扰动类别包括计算、存储、网络、线程等方面的高负载或者故障现象。最终通过被测产品在实施加扰时的功能是否正常、能下降程度,以及扰动移除后的系统恢复程度,来衡量其稳定能力。

基于Databench-C,截止目前已完成两批次4类数据产品的稳定测试,以下是通过测试的参测企业和对应的被测产品。通过测试的结果可以观察到,当前数据类产品多采用分布式架构,网络扰动带来的能影响明显大于计算、存储等对资源的扰动。

何宝宏表示,STAR评估体系将沿各方向持续推进,产出更多标准和研究报告,落地更多评测评估,持续扩大服务行业的能力。

据何宝宏透露,未来,分布式系统稳定实验室将从以下几个方面开展工作:一是按照主题设立工作组,聚焦重点方向开展工作。二是启动人才培养计划,联合实验室专家团、外部专业技术企业,共同开展专题技术培训。三是开启全国巡演,持续在更多地区举办活动,为行业提供更全面、更具规模的行业交流台。

推荐内容