扬州城市论坛 科技 邬贺铨:“东数西算”需要“懂数细算”

邬贺铨:“东数西算”需要“懂数细算”

目前我国正在实施“东数西算”工程。在算力发展这个话题下,我来谈一下对数据中心“数学”与“算术”的思考。这里的“数学”是指数据的科学,“算术”指的是算力的技术。

要分开:以算为主or以存为主

从2012年到2019年,科技巨头谷歌的算力需求6年间扩大了30万倍,约每三个半月翻一番。它为什么会有这么高的计算需求?是人工智能驱动了算力的增长。

以OpenAI于2020年发布的人工智能语言分析模型GPT-3为例,它的参数规模有1750亿个,包含45TB数据,数学模型大小为700GB。微软专门为OpenAI打造的超级计算机,拥有28.5万个CPU和1万个GPU,供OpenAI在上面训练所有的AI模型,训练一次的成本约为1300万美元。可见,人工智能建模对计算能力有很高的要求。

目前算力可以分为基础算力(基于CPU芯片)、智能算力(基于GPU和NPU芯片)和超算算力(基于高性能计算机)。基于GPU/NPU/FPGA等构建的AI智算中心,更适于训练数据、导出模型。训练出数学模型后,后续通过模型使用输入数据来计算AI决策结果,这时并不需要太高的计算算力。所以通常是用基于CPU的通用计算来做已知数学模型下的计算任务。这可以理解为智算中心的功能主要是算,数据中心的主要任务是存。

中国信息通信研究院的数据显示,2021年全球算力分布为,美国占31%、中国占27%,其次是日本、德国、英国等国家。其中,美国的基础算力占全球35%、智能算力占15%、超算占30%,而中国这三类算力占比分别为27%、26%和20%。

可以看出,美国以基础算力为主,中国在智能算力方面超过了美国。中国的超算和智能算力中心是以政府为主,基础算力以运营商和互联网企业为主,美国则以互联网企业为主。

另外,中国三大电信运营商都做了云计算的能力和业务部署,全球其他运营商都没有此类布局,这与国外有所不同。

要关注:冷数据与热数据

从数据角度看,大部分数据属于热数据或冷数据。热数据主要是一些需要实时计算的数据,相比之下冷数据不需要实时性。国家的八大算力枢纽,实际上西部主要定位于处理冷数据和本地的一些热数据;而东部主要是处理热数据。

国际数据公司IDC提出,人类历史上90%的数据都是过去几年产生的,其中50%是过去两年产生的。最近产生的数据是热数据,但热数据经过一段时间之后,也会“降温”变成冷数据。一项统计认为,冷、温、热三类数据分别占累计数据量的80%、15%和5%,这意味着,冷数据是最多的、主要的。

冷数据的需求主要是存储。东西部的算力中心,就分别更适用于热数据和冷数据,从这个意义上来讲,“东数西算”可以说是“东数西存”——主要是存,当然也有计算。

在计算架构上,主要有两种:存算分离、存内计算。

存算分离架构在控制单元指令下从存储器读数据并交给CPU计算,得到的结果再送回存储器。如此往复的I/O通信,对于热数据的计算来说效率不高。

但存算分离有个优点,存储单元不仅服务于单个计算单元,而且同时服务于多个服务器的计算,形成一个池化的存储,这样能够支持多云计算,实现较高利用率和低成本、低能耗。而这恰好适用于冷数据,例如可以用云平台建模,用边缘计算训练与仿真。

不过,热数据需快速计算,受限于存算分离I/O瓶颈,且CPU能力受累于存储器访问速度难以发挥,更需要存内计算。存内技术以随机存取存储器(RAM)替代硬盘,在RAM内完成所有运算。现在还有一些阻变存储器和相变存储器等新型非易失性存储器,已经在实验室中取得了突破,但要大规模推广目前成本还较高。还有介于存内计算和存算分离之间的模式,如近存计算。

总体而言,存算分离适用于冷数据处理,存内计算适用于热数据。举个例子,自动驾驶的数据要在路边甚至车内同时完成存与算。

西部以处理冷数据为主,但也需要处理当地的热数据。冷热数据是否需要分别采用不同的存算架构,这也是值得研究的问题。

要厘清:PUE与IT能效

现在数据中心都喜欢强调PUE。PUE是数据中心能耗占IT系统能耗之比,反映了制冷系统的水平,但并不能衡量IT系统的能效。

衡量碳使用效率的指标是CUE,能直观反映数据中心节碳水平。PUE与CUE在常规电力方面是等效的,但在使用“绿电”时,即使数据中心PUE很高,CUE也可以很低。因此,PUE低并不代表不耗能,因为IT系统也有能耗的。

据统计,数据中心IT系统的能耗中,服务器约占50%、存储系统约占35%、网络通信设备约占15%。数据中心需要7×24小时工作,但连续工作并不是连续计算,一般来讲,很多数据中心计算的时间占比不高,但是数据“睡觉”的时候也耗能——此时存储系统的能耗成为主体。所以麦卡锡报告称,数据中心大部分电能是用于维持服务器的,服务器大部分时间仅用于存储,只有6%~12%用来计算。所以,降低存储的能耗非常重要。

降低能耗,首先要考虑冷数据存储,有人建议采用磁带代替磁盘。据估计100PB的数据存储如果全部用硬盘,10年的存储成本要1641万美元;而如果这些数据100%用磁带来代替,存储成本可下降73%。

目前,磁带存储正被越来越多的科技公司所接受和应用。比如百度智能驾驶已全面开始使用磁带存储,对比之前的存储系统,整体成本下降了85%。

但对于热数据,人们希望越快越好,就用闪存来代替磁盘。它不但速度快,能效也好,但目前成本还比较高。

还有一种改进能效的办法是数据预处理。不是所有数据都是有用的,我们需要去掉一些无效值,如空格、有缺失的数据、过期数据等。另外,可以通过数据压缩算法把数据优化,而合理安排数据存储的位置和调度,以比较精确地找出数据所存的位置,也可以减少能耗。

对“东数西算”的思考

“东数西算”使得算力设施的布局超越了数据中心枢纽的范畴,虽然设想东部与西部互为冷热数据的配对,但东部西部间应如何配比?

我注意到广东省关于数据中心的规划中,设计省内算力占70%、省外算力占30%。这与冷数据占比80%的客观情况有出入。按理说,省外多数是冷数据,冷数据占80%,但省外算力只有30%,这显然不能满足需要。或者,是不是可以理解为,80%的冷数据是指存储容量,而不是算力的比例?这是个问题。

另外在市场经济条件下,东西部的存算比例理应“配对”,但是,谁去管它们之间的存算匹配?如果任由各自独立设计,怎么做到容量最佳利用?因此,在“东数西算”推进过程中,需要进一步加强东部和西部算力枢纽、数据中心的协同。

同时,同一数据中心枢纽或集群内部也有很多比例需要优化。数据中心枢纽内有多个数据中心,每个数据中心内部又有多个业主。那么,怎么协调它们的能源、土地、电力等的供应?怎么建立共享机制,以实现枢纽内各数据中心所需的能源与网络资源集约化,提升利用率?目前还没有这种机制。为此,需要协调“东数西算”跨域数据中心能力,避免存、算资源不匹配。总之,“东数西算”还需要“懂数细算”。

此外,每一个数据中心还需要设计算力、存力和网络能力的合理比例以及相应的灾备比例。这跟冷热数据、大文件小文件数据关联,不能“一刀切”。

从长远来看,数据中心越大,能效越好,但也忌一步到位,一般而言,CPU一年半就要换代,若超前建设就会存在浪费。信息技术研究和分析机构Gartner认为,到2025年,75%的数据要在边缘处理,只有25%的数据会送到云计算中心或数据枢纽。如何协同边缘与中心云的算力比例是需要认真研究的命题。所以,关于数据中心的“数学”和“算术”,还有很多需要深入研究的内容,算力对我们来讲还是一个比较新的东西,我们要善于从实践中学习创新。

(作者邬贺铨,系中国工程院院士,本文由中国科学报记者赵广立据其在2022中国算力大会上的发言整理)

本文来自网络,不代表本站立场,转载请注明出处:https://www.yzcslt.com/n/a5622.html

扬州城市论坛,情感,两性,娱乐

扬州城市论坛后续将为您提供丰富、全面的关于扬州城市论坛,情感,两性,娱乐内容,让您第一时间了解到关于扬州城市论坛,情感,两性,娱乐的热门信息。小编将持续从百度新闻、搜狗百科、微博热搜、知乎热门问答以及部分合作站点渠道收集和补充完善信息。