地址:北京市密云区高岭镇政府办公楼
王经理 13393261468
Q Q:514468705/1049705527
邮箱:jhcxkj@163.com
现代数据中心的不断发展演变导致了其能源消耗需求的不断增加,反向思维来看,我们也需要更好的冷却技术和方案。而数据中心运营商们对于冷却成本的控制也是至关重要的,故而他们需要选择恰当的方法来平衡冷却效率和冷却支出。
一、如何选择数据中心冷却技术解决方案?
从自身实际情况出发——冷静的思考
选择正确的冷却技术和方案并非易事,并且其需要在申请相关的资金预算之前进行彻底的审查和规划。无论是对旧设备的翻新改造还是完全的升级,数据中心管理人员需要能够随着时间的推移看到投资回报率,但只有当他们花时间来检查所有潜在的备选方案时,才能看到。
数据中心冷却散热可能不是IT技术员们感兴趣并广泛讨论的一个话题。但是,如果处理不当的话,其可能造成成本代价昂贵的错误。而如果不采取必要的预防措施或者如果太长时间依赖过时的冷却技术的话,或将造成您数据中心的服务器能耗的显著增加。而由于能源需求的增加,能源使用量也相应显著增加,数据中心冷却的重要性也在不断提升。
二、数据中心的现代冷却方法
数据中心设备冷却的关键性,还有高密度的机柜所产生的高热水平,现在已经扩展了传统常规数据中心冷却的限制。数据中心的冷却可以并且应该使用最新的技术和方案来得到增强。一些最新和最有效的技术方案是非常先进的,而其他一些技术方案仍然存在其固有的缺陷。
数据中心管理人员需要了解所有方法,这样才可以根据不同的数据中心设备以及其他相关条件,选择最佳的冷却技术方案。
1、传统的密封遏制方法仍然有效
密封遏制(containment)的方法其实是热通道/冷通道概念的延伸。热通道密封和冷通道密封已经在计算机房中使用多年了,以提高效率,增加机架密度和提高计算机房的总体利用率。到目前为止,整个数据中心行业主要使用硬墙密封遏制和软帘密封遏制的解决方案来实现这些目标。
(1)热通道密封
机架行的两端被门或塑料帘幕堵住,以进一步防止空气混合。如果门封闭了热通道,其被称为热通道密封。
(2)冷通道密封
如果其包围封闭了冷通道,那就是冷通道密封。
(3)完全/部分密封遏制
如果只有热通道或冷通道的端部被阻塞,那么其是部分的密封遏制。如果屏障安装在过道上,或从机柜顶部到天花板,这将构成完全密封遏制。
据称,部分密封遏制的效率可达完全密封遏制效率的80%,这两者都有助于提高新建和现有数据中心的制冷和能源效率。
(4)防火问题
在现有的数据中心操作空间,主要关注的问题是防火。完全密封遏制可以防止水份的分散蒸发或抑制气体的流通,这是相当危险且非法的。解决这一问题有三种方案:
①、在热通道和冷通道中安装喷淋头或惰性气体喷头;
②、可在探测到烟雾时降下竖立屏障;
③、或采用部分的密封遏制。
每种类型的方案都各有其利弊,但全美国所有的数据中心操作都必须符合NFPA-75防火标准,特别是当使用降下屏障时。
由于冷却通常是除计算设备本身之外最大的电力资源消耗者,因此,数据中心操作运营人员应考虑某种形式的密封遏制。
2、热轮和绝热冷却提高效率的冷却
(1)热轮
热轮(heat wheel)是大型的,缓慢旋转的装置,具有多个空气室。一半的轮子在户外,当轮子转动时,室外的冷空气被输送到数据中心内部。而内部的热空气则被输送到户外。在其旋转期间这些复杂的轮子作为热交换器,并带来只有少量的外部空气。轮子转动所需的能量很小,并且其在大多数气候条件下都是有效的。在所有的“免费冷却”形式中(即:使用环境空气而非机械制冷来冷却),热轮可能位列能效清单列表的顶部。
(2)绝热冷却
绝热冷却( Adiabatic cooling)是蒸发冷却的一种奇特方式。将水从液体变为蒸汽以消耗热量,因此如果我们在温暖、干燥的气候下在室外往室中喷水,水会快速蒸发,然后冷却。如果我们同时通过在室内传输热空气,空气将被冷却。因此,绝热冷却是一种节能的散热方式,并且在该过程中使用的水量通常小于冷却塔所消耗的水量。
(3)热源冷却系统
虽然它们在许多方面有所不同,但是在热源冷却系统类别中的方法却具有类似的功能。
行级冷却(In-Row Cooling,IRC)基本上将计算机房的空调(CRAC)从房间周边移动到了机柜行中。冷却单元设计为类似于机柜,并且放置在机柜之间或机柜行的端部。在这里,他们将空气直接输送到机柜前面的冷通道。同样重要的是,IRC将从热通道排出的空气直接排入每个冷却单元的后部,留下很少的热空气重新循环——即使存在开放路径,例如在部分密封遏制设计中。由于空气路径短,与周边单元相比,所需的风扇功率低。
(4)控制空气流向方法
一些IRC包括控制空气流向的方法。所有这些都使用高效率的风扇,具备变速控制以自动匹配冷却与热释放,从而最小化能源使用。最常见的控制方法依赖于连接到柜门前端的传感器来监测入口的空气温度和湿度。IRC可用于冷冻水,压缩机和基于制冷剂的系统。一些可以提供湿度控制,这意味着它们还需要冷凝排水管连接,而其他则只能提供等湿冷却(sensible cooling)。
IRC的最大缺点是它们占用的机柜位置——从12到30英寸的宽度不等。 虽然通过消除了对于大的周边所需的CRAC的使用通常抵消了占地面积的要求,但是行内单元破坏了机柜行的连续性,这在一些安装中是非常重要的。
机柜冷却装置上方是基于制冷剂的,这吸引了在其数据中心运行的水管有偏执偏好的数据中心管理人员们。但是制冷剂系统也接近能源效率的规模顶端,并且不会吞噬地板空间,因为它们或者直接位于机柜之上,或者在机柜行之间的冷通道中。
它们最常用来补充传统的CRAC,以便直接向高密度机柜提供额外的冷却。由于这些单元仅提供等湿冷却,因此CRAC仍然需要控制湿度,并冷却低密度机柜。机柜上方机组需要占用空间,并且在设计过程中与其他架空基础设施进行精心的协调。
(5)后门热交换器(RDHxs)
后门热交换器(RDHxs)取代了传统的机柜上的穿孔后门。从计算设备排出的热量通过门中的线圈,在其逸出之前用冷的循环水进行中和。这意味着入口和出口的温度是相同的。
(6)RDHx冷却器
RDHx冷却器的一大优势是其能够与温水一起使用。传统的建筑物冷却系统使用45华氏度的水,但是,在现代数据中心建筑中,55至60华氏度的温度变得越来越普遍。与大多数冷却单元不同,RDHx在高温下仍然表现良好。被动的RDHxs被设计为通过门线圈低压降——排名能源效率规模的顶级位置。
RDHx单元还可以附加到几乎任何规模尺寸的机柜或使用适配器框架制造的设备。它们的主要缺点是将机柜深度增加了大约6英寸,每个机柜需要水管和阀门,以及连接软管所需的清除空间,因此门可以打开。 当软管与地板桁条相冲突时,这在活动地板设计中是具有挑战性的。
请记住,RDHx的安装从不完全受控制,因为它们依靠重新循环来运行。因此,在主要使用RDHx冷却的冗余设计中是固有的。
自冷柜可以可以在很大程度上帮助解决这一问题,特别是当需要几个高密度柜,而实施重大的冷却升级又不现实的时候。机柜是完全封闭的,内置冷却,使设备热量在机柜内冷却,并重新循环到设备进水口。这些机柜可以使用冷冻水或制冷剂连接;他们甚至可能包含自己的冷却压缩机,就像一台大冰箱。
这些机柜最大的问题是冷却故障。有具备冗余、“热插拔”冷却组件的机柜,但最常见的方法是自动门释放,在发生冷却故障的情况下打开后门。这意味着设备受到机房中的冷却条件的影响,可能不足以持续几分钟。自冷却装置通常比其他机柜大,并且价格相当昂贵。然而,它们的成本要比实施重大的冷却升级的成本低。
3、浸没冷却
浸没冷却是一种新的、有趣的技术。服务器完全浸没在不导电的冷却剂中,例如纯矿物油或3M研制的Novec冷却液中,其包围组件并散热。固态驱动器是首选,但是如果它们被密封或悬挂在油位之上,则可以使用传统的常规驱动器。这消除了10%到20%的服务器能源使用以及最易发生故障的元件。
液体的热惯性可以在发生电源故障的情况下将服务器保持在温度公差范围内,根本不需要冷却功率。一款系统可以维持25千瓦半小时的时长。系统可以打造100 kW或更大的容量,可以在任何气候条件下运行,无需冷却设备。在至少一款这样的系统中,唯一的移动部件是循环泵,冷凝器水泵和冷却塔风扇。
标准的为提供舒适度的建筑冷却方案是为满足在机房内工作的人员的需要所提供的。其结果是极端的能源效率(能源效率低至一款良好的风冷设计的50%),并且潜在地降低了总成本,因为消除了对于操作环境凉爽的工厂的需要。一款有42台机架承载了约300加仑的油或冷却液,重量在2500磅和3000磅之间,但分配的重量超过了约12平方英尺,这导致其比今天许多的机架较低的地板负载。
4、液体冷却
直接的液体冷却也可以被称为“一切旧貌换新颜”。液体冷却再次出现在高性能计算环境中,根据一些业内专家的预测,随着企业服务器及其处理器变得越来越普及,而且更小更强大,液体冷却将成为司空见惯的事,甚至是必要的。
这些系统要么循环冷却水要么循环制冷剂,通过服务器以经由特殊散热器直接从处理器去除热量。这实质上是笔记本电脑多年来一直所使用的冷却方法,采用内部闭环液体冷却系统,其将处理器热量移动到笔记本电脑外壳的边缘,然后借助风扇排出散热。用于服务器的直接液体冷却将液体循环到每个机柜中的第二液体——热交换器,或者有时甚至一直返回到中央冷却系统。
这种技术最大的问题是潜在的泄漏和对管道连接以及所有电源和电缆的必要管理。制造商尽最大努力避免泄漏,借助使用液体管线以尽可能减少的连接点。
三、用密集的服务器机架设计
数据中心密度曾经是一个具有启示性话题,这可能是为什么许多IT企业组织仍然处于4到6 kW机架密度的原因所在了。但是电源和热管理已经为在大于10 kW服务器机架设计中的正常运行做好准备了。
猛涨的处理器内核和机箱刀片服务器设计使计算机机房空调(CRAC)和电源成本变得失控似乎是不可避免的。但是,更高的密度并不会因为设计师的担心而扼杀服务器。虚拟化,节能硬件,积极的冷却遏制和可接受的更高的操作温度联合起来,以防止热耗尽陷入困境。
四、冷却散热的问题
并非每项工作负载使用一台服务器,而是使用虚拟化技术适度的对服务器部署虚拟机管理程序,以支持10项、20项甚至更多的工作负载。设备必须将服务器压缩到每个开放的机架空间中,以匹配由虚拟化支持的工作负载容量。同时,芯片在晶体管水平和更低的时钟速度下变得更加密集,因此在设备更新中螺旋式增加处理器核心的数量几乎不改变机架的总体能量消耗。
在数据中心中使用较少的机架,更少的利用服务器已经改变了散热的方法。无需冷却整个数据中心,使用空气处理策略,如热/冷通道,以节省流经操作空间的空气流,操作运营人员部署密封遏制策略,并将运营操作区域缩小到一个更小的房间,甚至在几台机架内。在机架行或机架冷却系统处理这些机架,切断CRAC。
此外,美国采暖、制冷和空调工程师协会(ASHRAE)这样的组织提出:将服务器入口温度提高到80甚至90华氏度。
由于能源管理的这些进步,出现热点和冷却效率低下是不大可能的。然而,不良的规划或复古设计将限制设施的效率增益。
五、热点和其他冷却问题
意外的障碍物或空气路径通道中的意外间隙会产生多余的热量。例如,忽略服务器机架的挡板使冷却的空气流入机架中的意外位置,削弱其对其他服务器的影响,并增加出口温度。
服务器功率的显着增加也导致冷却问题。例如,用高端刀片系统替换几个白盒1U服务器大大增加了机架的功耗,并且不足的空气流量可能阻碍全套刀片模块的冷却。如果冷却方案不是专门为这种服务器而设计的,通常会出现热点。
当您企业提高服务器机架密度时,请考虑数据中心基础架构管理和其他系统管理工具,这些工具用于收集和报告每台服务器和机架中的热传感器所提供的温度数据。这些工具能够识别违反热限制,并采取必要的措施,从警告技术人员自动调用工作负载迁移到关闭系统,以防止过早的故障失效。
当服务器机架设计产生热点时,IT团队可以重新分配硬件设备。不是填充单台机架,而是如果有可用空间的话,将多达一半的设备移动到第二台机架,或者移走过热的系统。
如果空间不能进行重新设计,则添加点冷却装置,例如用于数据中心使用的便携式自包含空调。如果机架使用行内或机架内冷却单元紧密排列,则降低设定点温度可能更有效,而不是打开保护遏制屏障以添加点冷却装置。
六、热管理
从长远来看,更具突破性的技术可以帮助进行热管理。水冷机架通过机柜门或其他空气通道传送冷冻水。水冷式服务器机架解决了广泛的加热问题 - 特别是当空气温度较低,或更高的空气流动速率单独不奏效时。
浸入式冷却将服务器浸入冷却的不导电、非腐蚀性材料(如矿物油)中。这种技术承诺带来更高的冷却效率,几乎没有噪声,在功率损耗的情况下进行长期的热穿越。
然而,这些热点选项更适合于最近新建的数据中心,而不是普通的技术更新。
七、通过气流管理实现更高效的冷却
在采用最新、最伟大的组件技术方面——改善压缩系统的容量控制,电子换向电机,变速驱动器等,无疑对降低现代数据中心的PUE是有益的。 然而,由于气流管理问题,许多现有数据中心的运行效率依然低下。
1、旁路气流
一般来说,旁路气流是问题的根源。做一个简单的实验,将数据中心的所有CRAC或CRAH空调CFM中的总气流量汇总起来。 如果您不了解冷却装置上的CFM规格,请使用诸如550 CFM /吨冷却水平的缩略规则进行粗略估计。 然后,用等式估算你的风冷IT设备CFM;
现在比较两个气流速率数字。 总冷却单元CFM超过IT CFM的数量代表了您的效率权利。从效率的角度来看,5-10%的盈余是优秀的,50%是坏的。
剩余是额外的气流,通过几种方式在消耗成本,但在理论上其实是不需要的。 不幸的是,补救措施并不像在两个数字匹配之前关闭几个冷却单元一样简单。由于不完全耦合的冷却,通常情况下,随着剩余冷却能力的降低,有可能会形成热点。换句话说,只是因为我们将冷却系统的气流速度与IT气流速度相匹配,这并不意味着旁路气流不再存在。
旁路气流绕过气流的影响,当冷却空气返回到空调而没有通过任何IT设备和热排气返回到IT设备而不重新冷却时,就会产生热空气。
这就是气流组织管理和Upsite Technologies的使命科学来解决这个问题。为了节省来自减少过剩气流的节省,必须特别注意控制剩余气流的传送位置。设备设计允许我们超过这种气流的控制程度决定了冷却系统气流速率与IT气流速率的匹配程度。
人们可以想象出一种极端的情况,即一排机架的集合入口和出口可以通过密封的供应和返回管道以完全相等的流量直接耦合到周边空调。 虽然这种情况将允许完美的CFM匹配,没有旁路气流,它缺乏实用性,是不灵活和昂贵的。
考虑一个装有房间级的空调的房间,提高地板高度。
假设为了讨论,机架深度一致。实现机架面对面排放, 精密空调对着冷通道,从冷通道中送冷气流,从热通道中返回热空气流, 这些效果通过将这些空调与热通道对准并使其与冷通道对准相一致而有所减轻,但是在一定程度上仍然存在未被引导的返回系统。
通过在电缆的插入中密封泄漏,使凸起的地板保持良好的密封性能。由于布线方便,电缆孔常常位于位于热通道中,而不是冷通道。
将冷空气泄漏到热通道中是旁路气流,并且不利于降低排气流的不良影响,无论从热通道到空调返回的耦合程度如何。在一些案例中,一个或更多的空机柜被部署在它们最终会容纳的IT设备的前面
这可能导致在机架中形成大部分“透明”的气流。 随着机架排列的自然边界缺失,传统的“热通道冷通道”房间布局在一些地区有效地成为劣质的“背对背”布局。 重要的是通过在每个未使用的U空间中安装挡板来防止这种旁路气流。
类似地,任何可能允许气流在机架中从后向前流动的其它孔应该被密封。 这些可能包括轨道一侧的空间(特别是在一些较宽的网络机架中),在某些情况下可能包括最高和最低U空间之上和之下的空间。 安装盲板后已经在高压差下进行泄漏测试,以确保最佳的内部机架旁路气流密封。
最终,回风气流返回后,解决方案专注于在气流从机柜出来并进入热通道后被正确引导回风。 在这个阶段,旁路气流问题可能包括在机架下方,机架之间,行列顶部和围绕通道末端缠绕的空气。
机架下方的区域是从机架框架的底部和地板之间的间隙产生的,因为大多数机架具有将框架在地板上提升一英寸或两英寸的脚或脚轮。 当机架制造商的设计不允许零间隙机架间距或机架宽度略小于24“时,相邻机架之间的开放面积会导致,但是仍然使用24”间距,以便保持机架与地板对齐。 在机架和机架下间隙之间往往较窄,它们也很长。总的来说,这些间隙可以在可能发生旁路气流的热通道和冷通道之间增加多达几平方英尺的开放面积。
数据中心之间的安全扩展,将有助于恢复热通道/冷通道布局和热或冷通道遏制的完整性。 控制机架周围的旁路气流在没有回流空气冷却系统的数据中心中,热空气旁路流过机架顶部和排列末端的问题非常普遍。本文中给出的的解决方案,其简单性和低成本是前所未有的。 虽然全通道遏制解决方案在新的数据中心中实现极高的功率密度,但由于兼容性和操作连续性问题,在现有数据中心进行改造往往不实用。
解决方案由专门设计的盲板组合而成,旨在将排出的热气流转向旁路气流漏洞并转向更安全的返回气流通道。
为了防止气流在回风过程中重新进入冷通道,铰接部分盲板安装于冷通道的尽头。 这些可移动盲板可以将IT设备屏蔽在行中的最后一个机架的上部,从而在热回流空气通过时吸入。
这些措施可能包括降低风扇转速,关闭冷却单元,修改冗余故障方案以及提高温度设定值。在采取这些措施时,最终会达到一个要点,当入口温度开始超过ASHRAE推荐水平或者所需的冗余水平丢失时。 在这一点达成之前,通常有很大的好处。
由于行动比较简单,设备密集,费用低,投资回收期往往有吸引力。 确保降低能耗最大化,同时保护IT设备的可靠性。
通过气流管理实现更高效的冷却:
数据中心的总电力负荷的40-50%是由冷却设备产生的,这并不罕见。这大概与用于供应IT设备本身的能量分数大致相同。 冷却设备的功耗主导着关键的基础设施能源使用,像UPS效率低,电缆损耗和照明方面的问题。
2、改善数据中心PUE方法
因此,希望改善其PUE的数据中心所有者在逻辑上应首先寻找冷却系统中减少浪费的机会。降低机房散热所消耗的电能,提高数据中心机房的电源使用效率,降低数据中心的PUE值,目前主要有以下几种方法:
(1)方法一:在数据中心机房中建设冷通道,并配置下送风机房专用风冷式精密空调。
(2)方法二:在数据中心机房中建设热通道,并配置下送风机房专用风冷式精密空调。
(3)方法三:在数据中心机房中建设专用风冷式精密空调冷风和热风管道,对机柜进行全密封强制散热。
(4)方法四:在数据中心机房中使用下送风机房专用风冷式精密空调和智能送风机柜,将机房冷风净压仓的冷风直接送入机柜
(5)方法五:在数据中心机房采用大型水冷式机房精密空调。
(6)方法六:在数据中心机房建设专用大型水冷式机房精密空调和芯片冷却管道,直接给IT设备芯片散热。
(7)方法七:在数据中心机房采用机房风冷式精密空调 大型新风机1:1配置,合理利用自然新风冷源。
3、从冷源方面分析
这几种方法有各自的优势和不足,首先从冷源方面来分析,第1、2、3、4种方法均都是采用机房专用风冷式精密空调作为冷源,第5、6种方法采用水冷式精密空调,第7种采用风冷式精密空调或自然冷风和水模。使用风冷式精密空调的方法在节约电能主要依靠空调的制冷能效比,能效比一般在3~4之间,节能方面有限。使用水冷式精密空调,能效比最大能达到6,一般在4以上。使用自然风的新风节系统时,最大的能效比最大可达12.
4、从机房设备散热效果来分析
接下来,从机房内设备散热效果方面来分析,第1、2、5、7种方法都采用冷风源被动平均分布散热,要求整个机房的发热量布局要非常均衡,否则可能出现机房冷热不均,单相机柜局部过热的问题。
第3种采用主动大风量强制散热,每个机柜热出风管道都配有风机,散热效果好,容易出现过度制冷,风机也需要消耗一定的电能。
第4种方法采用主要设备机柜进风口配置变速风机,动态给机柜提供冷风,较好解决局部单个机柜过热和机柜内热负荷突然增大的问题,将机房内的温度提高到空调的回风温度,但机柜的深度比普通机柜深度要大100mm,风机需要消耗电能。
第6种方法采用精准散热,主芯片散热效果好,但电源、硬盘等部件需要精准散热不容易实施,需要服务器产商支持。
5、从机房内设备散热建设难易程度来分析
最后,从机房内设备散热建设难易程度来分析,第1、2、4、7种方法基本上是比较接近,比传统下送风空调系统略微复杂一点,比较容易实施,成本相差也不是太大。
第3种方法,需要对机柜前后门进行密封,实施起来比较困难,风管建设比较多,对机房的整体布局有影响,需要非常细致的规划和设计,成本相对要高一些。
第5种方法,水冷空调的建设门槛较高,比较适用于大型的机房,空调设备比风冷式精密空调要复杂,成本相对要高一些,运行也需要专业维护人员。
第6种方法,空调部份和第5种方法一样,但是分支制冷管道方面,会相对复杂很多,要非常了解服务器产商等设备的结构,甚至于需要它们的支持,成本方面相对会高出一部分。
总结:
当前市场上已经有了一系列数据中心冷却技术和方案,但是,无论选择哪一种技术和方案,希望大家不要盲目跟风,要从企业实际情况出发,选择一款适合自身企业数据中心特定业务需求的冷却技术解决方案才是最有必要的。
来源:机房专用空调 http://www.hiresair.com.cn/