为什么服务器冷却在数据中心行业如此重要?

作者:James Lupton 是 Blackcore Technologies 的首席技术官

数据中心运营商越来越多地寻求新的冷却解决方案,以确保其服务器有效高效地运行。

高性能计算 (HPC) 或人工智能 (AI) 工作负载可能需要数天的高利用率运行时间才能完成一组复杂的模拟。运行这些工作负载的硬件缺乏足够的冷却会导致不可靠、故障并降低服务器系统的整体性能,这也会延长工作负载的运行时间。这意味着运行该工作负载的总成本或服务器在其使用寿命期间运行的总成本将增加。

需要非传统冷却的另一个例子是在超频期间。通过超频处理器,您可以提高时钟速度,从而使 CPU 每秒执行更多指令。这通常用于游戏系统,但现在也广泛用于需要快速、低延迟计算的领域,如电子交易。

超频可以提高计算机组件的性能,但代价是增加功率,从而产生额外的废热。如果没有适当的冷却,组件根本无法应对额外的热量并发生故障,可能导致提升的性能毫无用处。

为了解决这些挑战,液体冷却通常是答案。

数据中心液体冷却有哪些不同类型?

最常见的三种液体冷却类型是浸入式冷却、机架级液体冷却和独立式液体冷却。

浸入式冷却涉及将所有计算机组件放置在专门的非导电液体中,通常具有油性。浸入式冷却有两种类型:单相和双相。

  • 单相的工作原理是主动将液体泵送到热源上,吸收热量,然后将液体循环到热交换器再次冷却。
  • 双相的工作原理是液体保持低沸点。然后,来自组件的热量在接触时使液体沸腾,这种相变将热量从冷的组件上转移出去。气泡上升到罐顶,然后凝结回液体形式。冷凝过程会带走冷却剂中的热量。
浸入式冷却需要定制硬件、非典型机架空间和数据中心定制。它还需要定义一个完整的堆栈,并且维护期望很少,因为在系统部署后添加卡或磁盘驱动器需要大量工作。与其他方法相比,浸入式冷却的部署成本通常很高。

然而,与传统的基于风扇的系统相比,浸入式冷却的优势在于它提供了更高的散热效率。液体冷却剂的导体比空气好得多,并且循环所需的能量输入更少。

机架级液体冷却是将整个数据中心机架转变为广泛的液体冷却回路的过程。机架的很大一部分将专用于泵送和冷却液体冷却剂。机架的其余部分将采用服务器系统,这些服务器系统的主要发热组件(CPU,RAM)装有水块或冷板,冷却剂从其上方流过。然后,这些系统将管道引导到机箱后部,在那里它们有快速断开阀。

这允许服务器的内部冷却回路与主机架级冷却回路连接和断开。机架级液体冷却提供非常高密度的计算,因为您可以将大量硬件堆叠在一起,因为冷却基础设施在某种程度上被抽象化了。然而,这需要整个机架级解决方案,并且根据部署的复杂性,可能会比典型的服务器部署成本大幅增加。

最后,独立式液体冷却涉及将所有必要的液体冷却硬件完全整合到单个服务器机箱中。这意味着将液体冷却剂泵入特定的计算机组件(即处理器)上,通过水块或冷板传递热量。这种冷却剂通过管道输送到关键组件或热源上,然后像传统服务器配置一样返回到由内部风扇冷却的散热器。

独立式液体冷却意味着数据中心不需要额外的硬件或基础设施。可以使用传统机架,服务器基本上像典型的风冷服务器一样即插即用,这意味着服务器具有与标准服务器类似的维护能力。与浸没式冷却系统相比,独立式液体冷却的部署成本往往更接近典型服务器的成本。

液体冷却不仅仅是提高服务器的效率

数据中心所有者意识到,他们可以通过捕获和回收现有基础设施中的废能来提高效率。正在实施一项新的 ISO 能源再利用因子 (ERF) 标准,以帮助数据中心衡量其在能源再利用方面的表现并提高可持续性。

微软和谷歌都已开始在芬兰开展热能再利用项目,前者与 Fortum 合作,称“数据中心产生的废热将转化为区域供热,为芬兰第二大城市埃斯波、邻近的考尼艾宁和基尔科努米市提供服务,这将是迄今为止世界上最大的数据中心废热回收项目。”

与此同时,谷歌正与 Haminan Energia 合作,重新利用现有数据中心的热量,这将“占当地区域供热网络年热量需求的 80%”。

英国也在试验类似的计划,能源供应商 Octopus 最近向 Deep Green 投资 2 亿英镑,利用废弃的直流电为附近的游泳池供暖。

数据中心的主要制约因素

特别是在金融等行业,人们逐渐远离云端,这通常是基于成本的举措,而回归到更靠近交易所或由交易所托管的共置数据中心——这是从性能和控制的角度推动的。与任何技术一样,它都是关于“合适的工具用于合适的工作”。云和远程数据中心对于某些行业和项目来说效果很好,但始终需要物理上靠近特定位置的高性能硬件。

人工智能、监管压力和工作负载将如何影响液冷采用的速度

人工智能和其他 HPC 行业正在继续提高机架式服务器系统的功率密度。计算机数量的增加意味着功耗增加,从而导致发热量增加。从服务器系统中去除这些热量反过来需要为高 CFM(立方英尺/分钟)风扇提供更多功率。

液冷技术(包括机架级冷却和浸没式)可以提高服务器系统散热效率,从而减少风扇功率。反过来,这可以减少服务器机架的总体功率预算。

当将此推算到数据中心占地面积的大部分时,节省的资金可以大幅增加。当您考虑到一些最新的 Nvidia 机架产品需要 40KW 或更高功率时,您可以开始看到功率需求如何转向极端。作为参考,许多电子交易共置仅提供 6-12KW 机架的情况并不少见,这些机架有时半空运行,因为服务器需要的功率超过机架可以提供的功率。

这些趋势将迫使数据中心采用任何可以减轻其自身基础设施和为其供电的本地基础设施的电力负担的技术。

此外,任何提高效率的方法,无论是通过减少总体负荷还是重复使用废热,对于保持运营效率,同时扩展以满足不断增长的计算需求都至关重要。许多人可能会开始考虑构建新的定制 HPC 或以 AI 为重点的数据中心,从头开始关注这些新要求。

位置也将继续在新数据中心建设中发挥重要作用,因为获取绿色能源和良好的气候将成为需要考虑的新的关键因素。