>首页> IT >

中国算力总规模全球第二:如何随取随用,如何服务好大模型

时间:2023-08-20 20:16:25       来源:腾讯网

算力作为一种新型的信息基础设施,已经成为数字经济时代的关键生产力,也是新一轮科技革命和产业变革“必争之地”。


(资料图)

今年以来,国内数字经济蓬勃发展,以ChatGPT为代表的人工智能技术发展突飞猛进,拉动算力需求出现爆发式增长。在这种大背景下召开的2023年算力大会备受关注。中国算力总规模已经位居全球第二,仅次于美国,但同时也要指出的是,中国算力在使用上依然有许多挑战,存在利用率低,混合算力协同调度难等困难,尤其智算水平还需要进一步提升。

8月19日,中国工程院院士刘韵洁在2023算力大会上接受澎湃新闻记者采访时表示,中国在算力建设上要根据国家的具体情况和具体需求去做顶层设计,统一规划,“不要一窝蜂去做算力,而是具体问题具体分析。”

刘韵洁也指出,美国通用大模型出来,发现美国的智算水平远超中国,中国在通用大模型上落后于美国,中国在通用行业大模型上有机会。

中国算力总规模全球第二,但存在利用率不高等问题

工信部部长金壮龙在2023中国算力大会上致辞称,截至目前,全国在用数据中心机架总规模超过760万标准机架,算力总规模达到197EFLOPS(每秒19700京次浮点运算次数),位居全球第二;围绕算力枢纽节点建设130条干线光缆,数据传输性能大幅改善。

中国工程院院士高文在本次大会上演讲时指出,全世界GDP和算力是完全正相关的,美国计算力指数比中国多,中国大概是美国的70%左右。但中国在算力增长方面是全世界最强劲的,中国的算力增长的速度是年均13.5%,美国只有5%。

不过,刘韵洁也指出,尽管中国算力总规模位居全球第二,但也存在算力利用率不高的问题,“通用的算力和超算的算力,我们国家的利用率都不高,真正的大的智算算力,是需要的,是稀缺的。”

算力可以分成三种,普通通用算力,超算算力和智算算力。智算算力典型的应用就是大模型训练。

据悉,目前中国的通用算力利用率大约为百分之十几,这导致大量的算力在沉睡中没有被很好地利用起来。今年以来,阿里、腾讯等多家企业下调云计算价格,希望能够通过价格调整来扩大需求。

刘韵洁也指出,超算算力使用也有些问题,都是通过卡车、货车、飞机去运硬盘的数据去算,算完了把结果取回来,那么这些算力就是孤岛。

有关算力建设,金壮龙也表示接下来会在四个方面开展工作。一是优化基础设施布局。加快建设全国一体化算力网络国家枢纽,打造数据中心集群。加大高性能智算供给,增强算力网络可靠性,提升高效集约利用水平。二是加快关键技术攻关。发挥“链主”企业牵引作用,围绕计算、网络、存储等关键环节加大研发投入,尽快突破一批标志性技术产品和方案,加速新技术、新产品落地应用。三是激发融合应用潜力。面向工业、金融、能源、教育等重点领域,培育推广一批规模大、带动性强、示范效应突出的应用场景。积极推动企业上云,鼓励各方为中小企业提供更多精细化、个性化的算力产品和服务。四是营造开放合作生态。推动产学研用深度结合,引导产业链上下游企业有效衔接、融通发展,加快构建软硬件协同发展的产业生态。

“东数西算”需要解决时延和调度问题

刘韵洁表示,国家制定“东数西算”的政策,西部的电费比较省,东部的贵,而且西部还有绿色的能源,这个是很合理的。但用户使用西部的算力需要网络,尤其大模型训练这个成本也比较高。

“如果通过互联网那很便宜,但这个效率低,也不安全,数据容易被别人盗取,另一个办法是专网,专线能够保证安全、保证质量,但是很贵,大家用不起。”刘韵洁强调,需要一种公用的专网技术,既像专网一样的安全和保证质量,又像公网一样经济、方便灵活。

刘韵洁表示,国家确定了一个未来网络大科学装置,这个大科学装置就能提供便宜又安全的上网服务能力,今年年底准备验收,明年就能够提供服务。这些确定性网络的技术在全国40个城市已经可以提供服务。

19日,中国电信集团、中国移动集团、中国联通集团、中国广电集团共同发布“新一代超高速无损网络”,旨在将宁夏打造成“高速无损”“多点互联”“海量带宽”“传输可靠”的新一代超高速无损网络。

高文也在大会演讲上提出,好的算力网需要迎接两大技术挑战:一是连接延迟, 一个是调度挑战。

中国移动通信集团首席科学家、副总工程师王晓云接受澎湃新闻记者采访时表示,中国移动网络目前是20毫秒、5毫秒和1毫秒的时延圈,从东到西,最快是20毫秒时延,南北省内部到边缘是5毫秒时延,在本地传输1毫秒时延。

高文透露,如果把光纤变成空芯的光纤,能做到300公里1毫秒时延,鹏城国家实验室正在攻克,“现在200公里已经攻下来了,正在攻300公里。”

调度的挑战,高文指出,目前三类不同算力(普通算力、超算、智算)配送是不同体系,单独包装配送,算力将来也是要混合算力输送。全国大的算力中心之间一定要有超宽带、超低延迟的网络直连,这叫算力信息高速公路或者叫算力高速公路;其次,还有云原生网络,这是算力调度起来最关键的核心技术,可以把三个网络构建起来。

王晓云也介绍,在算力布局上,中国移动提出了4+N+31+X的整体布局,现在已经有80万台的算力,也是全球运营商最大的算力资源。

王晓云认为,算力网络不是简单的基础设施,是服务范式的变革,因此在服务上中移动要提供一体化的服务,现在公司也在做很多创新工作,比如东数西算、东数西训等等。

“还有一种模式创新就是算力并网,我们希望形成一种新的算力供给的模式,我们把算力网络构建好以后,把社会上的算力,国家建的大型算力中心、智算、超算,甚至社会上一些闲散的算力都能够并入我们的网,像电力一样,风电、水电都并到网里,让用户即取即得。”王晓云说,完全并网后算力让全国任何一个地方的用户都触手可得,赋能数字经济。

至于高文提出的高速算力传输,王晓云表示,中移动参与了ITF的算力路由的工作组,这也是中国在国际标准化组织里当的第二个组长单位。这也说明中国的算力网络理念在全世界得到了共识,此外,中国的创新能力也得到了大家的认可。

中国行业大模型更有机会

刘韵洁认为,大模型出来后,中国要做的不是表面上去提高算力,而是综合考虑、顶层分析,去系统性地解决问题。

“在应用方面我认为我们重视不够,等着别人成功的经验,别人做成功了我们再去跟着做,通用行业大模型我们中国是有机会的,行业大模型能不能有一些突破?!”刘韵洁表示,大模型出来后中国已经意识到GPU的重要性,现在又成立了国家大数据局,这些规划和举措都非常好。

刘韵洁认为,中国的机会在行业大模型,美国ChatGPT是“爬”全球的数据,中国需要把行业大数据保护好,利用好,管理好,“如果不把行业大数据利用好,行业大模型就出不来,就没有基础。”

大模型三要素指的是算法、数据和算力,三者缺一不可。目前,中国算力硬件设备对大模型训练支撑并不存在大问题。

本次算力大会上,浪潮信息、中兴通讯、联想集团都携带了多款用于大模型训练的服务器亮相,既有采用英伟达芯片的高端服务器,也有支持本土AI芯片的服务器。

联想在本次大会上推出两款全新AI服务器产品——联想问天WA7780 G3 AI大模型训练服务器、联想问天WA5480 G3 AI训推一体服务器,为大模型AI训练和推理提供新的基础设施。

联想集团在这次算力大会期间首次对外发布AI算力战略,提出将100%算力基础设施产品支持AI,50%基础设施研发投入在AI领域等战略举措,并推出了联想智算中心解决方案和服务核心产品。

联想副总裁、中国区基础设施业务群服务器事业部总经理陈振宽接受澎湃新闻记者采访时表示,随着生成式人工智能应用的问世,中国算力行业需要做好准备迎接新算力时代——智算的到来。

陈振宽表示,联想所提的“全栈智能”是指通过AI内嵌的智能终端、AI导向的基础设施、AI原生的方案服务,这些产品和服务将加速人工智能在千行百业的普及和渗透。

一位要求匿名的技术人士对澎湃新闻记者表示,算力设备对大模型训练支持上不存在问题,有些有钱的大厂采购英伟达芯片服务器多一些,有关跟国家安全相关的算力项目本土芯片服务器需求也比较大。

“目前英伟达芯片供货周期依然很长,相对之前会好一些,但整体产能还不够。本土芯片像摩尔线程我们也跟他们合作,可以满足不同客户的需求。”这位技术人士表示。

人们对未来算力的建设形象描述是像水和电一样随取随用而不可见,当然目前离这个目标依然比较远。

“这个事情我认为还是规划的问题,如果规划好了,当然现在在能力上还有待提升,从技术来讲,如果政策允许,像电、水一样去取的话,我觉得三五年完全可以能够做到这一点。” 刘韵洁表示。

关键词: