存算发展不均,数据存储成“东数西算”最大挑战
界面新闻记者 | 彭新
界面新闻编辑 |
“东边有海量的待处理数据,而西边电、土地资源都比较便宜,可能还有很多清洁、绿色的计算资源。如果要把数据从东边迁移到西边,对数据‘运力’、‘存力’都是一个很大的挑战。” 近日,华中科技大学武汉光电国家研究中心研究员吴非在接受界面新闻采访时这样表示。
【资料图】
“东数西算”工程自2022年2月全面启动,根据规划,将在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏八地启动建设国家算力枢纽节点。其中,长三角和成渝两大枢纽节点将建两个国家数据中心集群,使全国共有十个国家数据中心集群。目前的最新进展是,6月5日,我国首个实现多元异构算力调度的全国性平台正式发布,推进算力跨云商调度等应用取得实质进展。
在外界看来,“东数西算”推进进程中,算力处于中心位置而多被强调,多地算力中心建设此起彼伏。然而除算力之外,东数西算也离不开网络和存储,如果说算力是中心,网络则是链接,存储是根基,三者相辅相成。
“新的数据要怎么放才能够满足算力的需求?旧的数据怎么把它从东边迁到西边?”吴非认为,从国家整个战略上看,“东数西算”工程是八大枢纽、十大数据中心群构建的过程,但要想把“东数西算”用好,首先要做好高效数据管理。
据工信部统计,截至2022年底,我国总算力规模达180EFLOPS,存力总规模超过1000EB。市场咨询公司赛迪顾问业务总监高丹坦言,行业普遍共识是,整体来看我国算力性能超过存储能力,产生的数据难以被完全存储并转化为价值,“由于数据的价值挖掘以存储为前提,需求巨大,到2025年,我国将有超过420EB的巨大存储缺口亟待补充。”
“东数西算”的原则是“需求牵引,适度超前”,意味着2025年之前,中国数据中心行业将会涌入大量投资。
中国计算机行业协会信息存储与安全专委会秘书长阳小珊建议称,在数据中心存储设施和架构设计中,数据容量目标设置需要仔细考虑,“东数西存一般以大数据为主,因此在存储系统容量目标设置上,不宜一次性超前建设,原因是成本过高企业难以负担,可在架构上保证扩展性,在三、五年后,再扩展满足需求就好。”
阳小珊提醒,数据中心建设中,安全是最重要的前提,其中数据存储安全又经常被忽略,国内通常少有企业系统性建设存储安全体系。他称目前对于数据中心起最大影响的是设施层,即基础存储环境,其直接影响数据存储和业务服务,需要做到防灾规划等。此外,国内存储厂商偏爱开源软件,则涉及到软件供应链安全。
哪些更适用于“东数西算”工程?中科曙光存储事业部副总经理张新凤分析称,通常以对数据敏感性要求不高,但是对于存储和配套计算能力要求较高的行业比较适合,如金融、医疗等行业的图片和音视频数据备份存储。其特征在于此类应用场景更多要求低廉的存储成本,即“东数西备”。此外,随着游戏、影视行业发展带来了3D画面集群渲染需求增大,以及近年流行的AI模型训练等,即“东数西渲”“东数西训”,都要求大量GPU计算和数据分析,因此对于算力和配套存储要求很高。
张新凤总结称,无论是“东数西备”还是“东数西训”,“东数西算”工程对底层数据存储已经提出更高要求,包括海量数据存储空间管理能力、安全和可靠性要求、数据跨区域流动等。同时,符合“双碳”战略的绿色节能也是数据中心建设新趋势,液冷数据中心建设正在兴起,将降低数据中心PUE值。PUE是衡量数据中心节能的重要指标,显示数据中心全年耗电量与IT设备耗电量之间的比例。PUE值越低,说明数据中心用在IT设备以外的能耗越少,也就越节能。世界领先的数据中心PUE水平在1.1左右。
算力、存储外,网络也是需要关注的基础架构方向。“东数西算”工程要求,区域间数据中心端到端单向网络时延原则上小于20毫秒,城市内数据中心端到端单向网络时延小于10毫秒。这需要加快打通东西部间数据直连通道,提升数据中心集群的网络节点等级。中国移动就认为,“东数西算”对网络等指标的要求较高,网络面临低时延、高可靠、大带宽以及算力跨区域、跨层级连接敏捷开通的挑战,需规划面向算力服务的扁平化、低时延传输承载网络。
关键词: