划重点
1包括超级计算机在内的高性能计算正成为能源消耗大户。容纳超算的数据中心用电量占全球总用电量的1.5%至2%,大致相当于整个英国的耗电量。2现代计算机可以进行大约10万亿次的计算,而其所消耗的电量与第二次世界大战结束后一次计算的耗电量相当。3芬兰超算LUMI被安置在亚北极圈内,其中一个原因是可以利用那里的凉爽空气,以节省冷却需要消耗的电能。4随着各国政府承诺减少温室气体排放,促使计算机行业试图找到用更少资源做更多事情和提高产品能效的方法。AMD希望到2025年将其最强大芯片的效率提高到2020年的30倍。在芬兰IT科学中心负责人基莫·科斯基博士(Kimmo Koski)的眼里,LUMI(芬兰语中意为雪)是欧洲最强大的超级计算机,它被安置在芬兰境内北极圈以南250公里的卡贾尼镇。提起这台超算时,科斯基说:“你首先会注意到,它运行时非常安静。”
LUMI于去年被投入使用,用于气候建模、寻找新药等诸多领域。它有成千上万个独立的处理器,每秒能够执行高达429千万亿次的计算操作。这使它成为世界上第三快的超级计算机。它由水力发电提供动力,其废热被用来帮助卡贾尼镇的居民取暖,其二氧化碳排放几乎为零。
(资料图片)
LUMI让我们看到了高性能计算(HPC)的未来,无论是在专用超级计算机上,还是在运行大部分互联网的云基础设施中。在过去的十年里,在机器学习、基因组测序、股票市场、核武器研发再到天气预报等各种模拟技术的推动下,全球对对高性能计算的需求都在激增,而且这种需求很可能会继续上升。与此同时,训练尖端人工智能模型所需的计算能力每五个月就会翻一番。
然而,所有这些技术开发都对环境造成了影响。高性能计算(更广泛地说是所有计算)正成为能源消耗大户。国际能源机构估计,数据中心的用电量占全球总用电量的1.5%至2%,大致相当于整个英国的耗电量。预计到2030年,这一比例将上升到4%。在政府承诺减少温室气体排放的情况下,计算机行业正试图找到用更少资源做更多事情和提高产品能效的方法。这项工作发生在三个层面:降低单个微芯片功耗、在电脑上搭载低功耗芯片以及在数据中心采纳低功耗电脑。
让我们首先从微芯片本身开始。在过去的80年里,数字计算机的效率大大提高。现代计算机可以进行大约10万亿次的计算,而其所消耗的能量与第二次世界大战结束后一次计算的耗电量相当。这种巨大的技术进步在很大程度上要归功于业界对摩尔定律的坚持。摩尔定律是指集成电路中可容纳的元件数量每隔几年就会翻一番。
计算机变得越来越节能
几十年来,摩尔定律带来的另一个积极影响是,随着电路的缩小,它们也变得更加节能。这种效应被称为登纳德缩放定律(Dennard scaling),以当时在IBM工作的科学家罗伯特·登纳德(Robert Dennard)的名字命名,他在1974年写了一篇关于这个问题的论文。然而,在2005年左右,超微小组件的物理特性意味着这种关系开始破裂。随着组件的缩小,计算机的效率仍在不断提高,但其速度已大幅放缓。
这迫使芯片制造商更加努力地追求过去免费获得的好处。LUMI采用的CPU是一种通用芯片,用于运行程序和协调机器的其余部分,它由美国芯片设计公司AMD制造。除了超级计算机,AMD与其竞争对手英特尔的CPU也同时为数据中心提供动力,使互联网得以运行。AMD的产品技术架构师塞缪尔·纳夫齐格(Samuel Naffziger)说,在2010年,AMD把提高能效“放在了优先事项的首位”。
如今,AMD的芯片使用了一系列技术来帮助降低功耗。它们覆盖着传感器,根据分配给它们的任务,监测并最大限度地减少发送到电路各部分的功率。其他改进集中在确保芯片在任何给定时刻都能尽可能多地做有用的工作,因为空闲电路存粹是在浪费电力。AMD希望将更聪明的设计方法与更小的组件相结合,到2025年将其最强大芯片的效率提高到2020年的30倍。
另一种选择是将工作从通用CPU转移到专门为更小范围的数学任务设计的专用芯片上。最著名的是“图形处理单元”,简称GPU。GPU最初的开发目的是为电子游戏制作更时髦的图像,但事实证明,现在它在许多任务上表现出色。这些任务可以被分解成小块,每个小块可以同时处理。类似的专用芯片被越来越多地处理诸如联网之类的任务,而这些任务以前通常由CPU处理。
这种系统级的调整是可以提高效率的第二个有效方案。惠普企业负责高性能计算的贾斯汀·霍塔德(Justin Hotard)说:“当你使用数千个CPU和GPU时,它们的连接方式会影响超级计算机的能效。”
确切地说,如何最好地将所有芯片连接起来,仍然是一个引人注目的研究领域。向计算机其他地方的另一个芯片发送信号要消耗大量的能量。因此,我们的目标是尽量减少这种情况发生的频率,并尽量减少信号传播的距离。
惠普更喜欢一种被称为“蜻蜓拓扑”的结构,这是一种两层系统。在这种结构中,芯片组以簇的形式相互连接,而这些簇又依次相互连接。该系统是模块化的,这使得它很容易通过简单地添加新节点来实现扩展。今年2月,巴利亚多利德大学计算机科学家弗朗西斯科·安杜贾尔(Francisco Andújar)及其同事发表了一篇论文,在进行了大量的数学分析后,他们发现蜻蜓的结构接近于高效超级计算机的理想设计。
而且,提高能效并不需要以牺牲性能为代价。Top500.org网站根据速度和效率对超级计算机进行排名,其今年6月发布的最新报告将LUMI列为世界上效率第七高、速度第三快的超算。安装在田纳西州橡树岭国家实验室的超算Frontier是目前世界上速度最快的计算机,大约比LUMI快四倍。然而,在能效方面,Frontier排名则降至第六。
数据中心是能够改进的最后一个领域。在这个高科技领域,超级计算机和为互联网提供动力的普通服务器都在这里运行,计算会产生大量的热量。尽管新发现的重点是效率,但现代CPU或GPU在全速运行时可以产生500瓦或更多的热量。在一个数据中心里有成千上万的CPU或GPU,这意味着它们散发的热量非常惊人。
让这些芯片保持凉爽同样需要消耗能量。衡量数据中心效率的标准是电源使用效率(PUE),即数据中心的总功耗与其中用于完成有用工作的电量之间的比率。根据IT顾问公司Uptime Institute的数据,一个典型数据中心的PUE为1.58。这意味着,该中心大约三分之二的电力用于运行计算机,而三分之一用于运行数据中心本身,其中大部分电力被冷却系统消耗。
高性能计算跨越净零碳排放界限
巧妙的设计可以将这个数字大大降低。大多数现有的数据中心依靠空气冷却。液体冷却提供了更好的热传递,但需要付出额外的工程努力为代价。有些初创公司甚至将电路板完全浸入专门设计的液体浴缸中。由于使用了液体冷却,Frontier的PUE降到了1.03。
LUMI之所以被部署在北极圈附近,其中一个原因是可以利用亚北极的凉爽空气。在同一设施内一台相邻的计算机,利用这种免费冷却机制,PUE等级仅为1.02。这意味着,98%的电能被转化为有用的数学应用。科斯基博士说:“这接近了可能的极限。”
即使是最好的商业数据中心也达不到这样的数字。例如,谷歌数据中心的平均PUE值为1.1。数据中心标准组织和第三方认证机构Uptime Institute于6月份发布的最新数据显示,经过几年的稳步改善,全球数据中心效率自2018年以来没有提高。但其主要原因是经济学,而非源自计算机科学。随着对计算的需求激增,公司让老旧的、效率较低的基础设施运行更长时间变得更有意义。
考虑到美国、英国和欧盟等国制定的碳减排目标,这些政府正在考虑新的规则,以迫使数据中心变得更高效。一项新的德国法律规定,到2027年,数据中心最低PUE将降至1.5,到2030年降为1.3。科斯基博士说:“我们希望LUMI能够证明,高性能计算能够跨越净零碳排放的界限。”那些想要获得相关经验的人,最好能亲自到芬兰去取经。(文/金鹿)
关键词: