本报记者 秦枭 哈尔滨报道
ChatGPT发布至今,AI大模型正在进入全新的生态模式,大模型时代,数据决定AI智能的高度。作为数据的载体,数据存储成为AI大模型的关键基础设施。
中国工程院院士倪光南表示:“数据存储产业正成为国家的战略性、基础性产业与新的国际竞争高地,我们必须高度重视中国数据存储产业发展,抓住中国数据存储产业面临的重大机遇和挑战,实现科技自立自强,高质量发展,为科技强国建设和掌握数字经济竞争主动权提供坚实支撑。”
(资料图片)
重算力,轻存力
随着大模型产业的快速发展,模型规模的快速膨胀,AIGC模型预训练数据量呈现指数级增长,带动算力需求爆发。《中国经营报》记者了解到,从GPT-1到GPT-3,模型参数量从GPT-1的1.17亿增加到GPT-3的1750亿;训练数据量也由GPT-1的5GB,增加到GPT-3的45TB。这也就导致面向AI大模型的数据准备时间长、数据来源分散、归集慢。
数据统计显示,目前大模型算力成本约占整个成本的25%,而数据清洗、预处理等工作,在不算数据存储硬件的情况下,占到成本的22%。从这个角度看,数据机器存储过程,在大模型时代越来越重要。这不仅仅是简单的数据量变大,而且数据的处理过程,以及过程中对于硬件性能的要求也越来越高。
“当前AI算力蓬勃兴起,但大家对算力理解存在一定的片面性。”倪光南认为,真正的人工智能不仅需要算力,还需要存力、运力,三者缺一不可,只有三者平衡配置、均衡发展,才能充分发挥算力的作用。
倪光南表示:“经过存算比的测算,我国存力相对不足,存在重算力、轻存力的倾向。”在其看来,在数字经济和数字中国大战略下,数据存储能力和信息计算能力、网络运载能力为代表的存力、算力、运力都是我国信息产业发展的核心和基础,是建设科技强国的战略支撑。
不仅如此,国内的存力水平与海外相比也有一定差距,IDC 公布《2023 年第一季度中国企业级存储市场跟踪报告》显示,中国企业级数据存储市场销售额同比增长3.45% 至70.14亿元,全闪存储销售额15亿元,市场占比25%,混闪存储销售额38亿元,市场占比54%,相比全球全闪存储市场份额41.3%的局面,中国全闪存储市场还有很大的发展空间。
掌握先进数据存储主动权
IDC预计全球数据量到2025年将达到175ZB,其中我国的数据量也将由2018年的7.6ZB增至48.6ZB,跃居全球第一,而拥有强大、先进的数据存储产业作为支撑,才能有发展的主动权。
对此,倪光南建议,产业发展,标准先行。他提出,为促进产业更好发展,以“行标”或“团标”的方式,发布《算力中心建设指南》;提出“算力”与“存力”的适当比率范围。
在“东数西算”工程、AIGC兴起、算力产业链完善等因素影响下,我国算力规模快速发展,年均复合增长接近30%,算力总规模位居全球第二。根据工信部发布的数据显示,截至2022年年底,我国数据中心标准机架总规模超过7000万架,服务器规模约2400万台,算力总规模达到180EFLOPS(每秒18000京次浮点运算)。
倪光南指出,要避免大力发展算力中心时出现某些倾向,均衡部署、均衡发展,抢占新一轮科技革命和产业变革的制高点。
而目前我国算力中心中采用SSD的占比较低,在我国存储市场中,闪存所占比例还较低,倪光南认为,要加强政策引导,力推SSD取代HDD。存储设备应优先支持SSD,不得以单一价格指标作为评标依据;重要基础设施的存储设备,应加强政策引导,采用国产SSD以促进国产SSD产业发展。
不仅如此,倪光南指出,国产数据存储产业正迎来发展窗口期。存储领域企业应以此为契机,重视对存储产品的安全审查,包括供应链安全、信息安全、数据安全等。尤其是对于存储整机、主控芯片、存储文件系统等关键核心技术,建议参照信创工作经验,实施“自主可控测评”,根据第三方测评机构给出的自主可控测评分值作为选择依据。
除此之外,倪光南还建议人才培养、建立良好的生态等方面来提升国产存储全球技术竞争力。
(编辑:张靖超 校对:翟军)
关键词: