人工智能的崛起需要大量的超级计算能力 | 智能技术_行业新闻

人工智能的崛起需要大量的超级计算能力 | 智能技术

时间：2020-10-13 来源：章鱼通

数据中心出了名的不舒服：堆积如山的服务器和架子会释放出大量热量，需要精密的冷却风扇和空调系统，以避免过热。

工智能的崛起需要大量的超级计算能力的图像结果

人工智能的兴起需要先进的超级计算能力，这意味着来自处理器的热量水平不现实或效率低下，无法用更传统的方法处理。

液体冷却正在成为一种越来越高的标准：水的吸收能力是空气的3000倍，甚至不需要冷藏，这样就可以节省电。液体冷却可以通过处理器周围的管道输送热量。

但由于所需工程的巨大进步，液体冷却正在找到自己的专长，特别是在新建的数据中心。液体冷却的替代办法是降低数据中心的密度，使其更容易冷却，降低其整体计算能力。

数据中心或计算机室的内部不是一个令人愉快的地方。因为服务器粉丝的声音太大，它来自服务器废气，热金属的气味，主要来自热水槽的通风，听多了会令人沮丧。如果工人们在那里待很长的时间，就必须戴上耳塞。

这都是因为采用了冷却服务器的方法：空气冷却一直是冷却服务器的标准手段，但作为一种减少热量的手段，液体冷却越来越普遍。例如空调。

IDC基础设施、系统、平台和技术小组的研究主任彼得·鲁滕(Peter Rutten)说，“之所以会发生这种情况，是因为我们在过去五年里看到了工作量的变化。 ”

事实上，液体冷却正在缓慢但肯定地成为现代数据中心的标准，在某些使用情况下是强制性的。需求推动了该系统的采用，也克服了人们对服务器设备泄漏的担忧，这是IT经理们合乎逻辑的担忧，他们无法跟上液体冷却的步伐。

Rutten表示：“随着人工智能在数据中心，尤其是人工智能培训和人工智能分析中成为更典型的工作量，因为企业正寻求人工智能来解决它们面临的问题，人工智能正在从学术实验室转移到数据中心。 ”

联想集团(GDP)在2012年启动海王星科技(GDP)液态冷却系统之前跳跃。联想在液体冷却方面的第一项重大努力是帮助位于德国慕尼黑的莱比尼-雷钦岑中心(Leibniz - Rechenzentrum)减少电力支出。

"他们这样做完全是出于费用原因。联想数据中心集团(HPC & amp)人工智能业务总经理斯科特•泰瑟(Scott Tease)表示：德国电力成本是世界上最高的。其结果是电力消耗降低了40% 。

“所以，从生态角度和可持续性角度来看，这是一个巨大的成本节约故事， ”泰瑟说。

空气冷却需要计算机室的空调。这类系统有时比服务器吸引电力。

服务器以功率使用效率（PUE）来衡量， PUE是服务器功率与所需冷却的比率。如果你的设施总共使用了100公斤和50千瓦冷却，你的PUE是2.0 。如果你使用100千瓦，仅使用20千瓦冷却，你的PUE是1.25 。人数越少，就永远不能低于1.0 。

NREL的鹰总共消耗888千瓦，但PUE为1.034千瓦。这意味着它几乎所有的电力消耗都在IT设备上，而不是冷却。纽约大学的超级计算机“绿色”(Green)的PUE值是1.08 。在纽约大学的旧设施里，电脑“绿色”(Green)的PUE值是2.0 。“我在曼哈顿的能源成本是15美分。 ”这是每千瓦30美分，而在我的新地点是每千瓦10美分。Ackerman说，我真的会拥有一台容量比电力账单低10倍的电脑。

另一个节约是将粉丝从服务器上清除或减少使用，因为空气不再被移动。俄亥俄超级计算机中心(Ohio Supercomputer Center)得以降低戴尔(Dell)服务器的风扇速度，让数据中心更加安静，并降低成本。

“我们以更低的速度运营粉丝，节省了3到5%的资金。 ”俄亥俄州超级计算机中心(Ohio Supercomputer Center)副主任道格·约翰逊(Doug Johnson)说， 6位数电力法案中的3%并非微不足道。

液体冷却如何运作

液体冷却有三种类型：后门换热；浸入式；直接到芯片。后门交换是几十年前冷却主机的方式，在这种情况下，像汽车散热器这样的冷却液体系统会吸收热量，然后再将其从服务器的后部排放出去。吸入是最先进的方法，也是计算机硬件沉入矿物油浴缸的最罕见的方法。

直接芯片是最常见的。芯片上有一个热板，就像任何常规处理器装置上的标准热水槽一样，但有两条管道，其中一个将冷水带入CPU附着的铜板顶部。它吸收热量，加热的水从另一个管流出。

水不是冷却水，而是通过管道流过，热量独自消散。管道可能会经过风扇，风扇会砸管道，冷却管道及其内装物。所以，即使水是90 F ，当CPU在150 F运行时，技术上仍然很酷。这里的关键是，没有经常用制冷设备冷却水。这就是空气冷却带来的节约。

水的吸收能力是空气中热量吸收能力的3 000倍

造成这种情况的主要原因是芯片耗电量的液体冷却增加，服务器密度意味着服务器机架温度太高，无法再适当冷却。水的吸收能力是空气中吸收热量的3 000倍，任何在热天下水的人都知道这一点。

对于无法冷却货架的公司来说，唯一的解决办法是留下空位。“我们看到了这样的情景：如果他们不能用水，他们的配置就会减少，而这种配置会迫使空气冷却。 ”Supermicro(HNA)负责FAE和业务发展的高级副总裁维克·马利亚拉(Vik Malyala)说，因此，他们不再使用1U服务器，而是使用2U ，从而将策略密度减少了一半。策略密度降低意味着每平方英尺服务器的数量减少，这意味着数据中心的整体计算能力会受到影响。

"今天，芯片被空气冷却，你可能无法填满一个完整的架子。你也许能冷却30千瓦的电炉。但是，如果你填满了这个架子，它就变成了一个60千瓦的架子，所以你不能用空气冷却它， ”纽约大学(New York University)首席数字官兼研究技术(Research Technology)副总裁戴维·阿克曼(David Ackerman)说。

服务器机柜或机架的大小与电话亭差不多。根据需要和使用情况，计算机和储存服务器以各种配置滑入轨道。服务器以U高度单位测量。1 U高1英寸。2U高一倍， 4U高四倍。总之，服务器机架通常可容纳多达42U的服务器和存储器。

让服务器尽可能薄，就是如何把更多的电脑计算到一个架子里。服务器通常以1U和2U的设计设计。不仅如此，服务器供应商还在缩小服务器的尺寸，因此不止一个服务器可以横向安装在同一空间内。

"谷歌(Google)和亚马逊(HNA)等大型网络公司正在推动这个商品服务器空间，我们已经从一个2U空间的[单一]服务器转向一个2U设计，同一空间有四个独立服务器。因此，这意味着这些服务器中单个部件的密度和功率要求也大幅上升， ”俄亥俄超级计算机中心(Ohio Super Computer Center)的约翰逊(Johnson)说。

约翰逊说，他本可以像马利亚拉所说的那样，通过在裂缝中安装更少服务器来降低总体密度，但空旷的空间太多，以至于“变得很可笑” 。装有60%的填充策略是一回事，而装有30%的填充策略则是另一回事。我们支付数据中心空间的租金。安装密度较低的系统会占用更多的楼层空间，当你用平方英尺支付费用时，这不是一条下降的道路。 ”

可再生能源集团国家实验室(NREL)HPC项目监督经理David Sickinger也发现，水冷却有助于在空间较小的地方进行更多的计算，从而节省了资金。NREL的鹰超级计算机是慧与 SGI 8600系统，在一个单元架上有288个CPU ，每个单元架运行60千瓦。

在运行高性能计算基准的Linpack基准时，裂缝的电量达到90千瓦。在20千瓦时，有一个传统的空气冷却收集器，因此NREL能够达到一个空间计算能力的五倍。这些数据中心也比较安静。

转向液体冷却的一个副作用是：这些系统通常比传统的空气冷却所带来的风扇更安静。在俄亥俄超级计算中心(Ohio Supercomputing Center)，他们仍然戴着耳机，在OSC为游客保留着一碗鱼缸耳塞，但声音不太大，在服务器架子上走动时还能稍微冷却一点。"这就不像是再站在20个头发干燥器前面了。只有十个， ”约翰逊开玩笑说。

阿克曼说，托管绿色超级计算机的室友NYU “完全安静。 ”这有点吓人。就像电动汽车一样，它也不会制造噪音。 ”

Rutten说，进行液体冷却既不是一个容易的决定，也不是事后容易做的事情，但在建设新的数据中心基础设施时，这是一个越来越常见的解决方案。在更大的背景下，他注意到人们越来越接受液体冷却，也越来越不担心液体冷却。

"更普遍的理解是，探测泄漏的技术是健全的。我把一根水管拉出，没有滴水就关闭了。渗漏已经不再发生了。我没有听到很多人说这太危险了， ”他说。

标签