公开了用于数据中心冷却系统的智能阈值泄漏修复,并且具体地公开了一种用于数据中心液体冷却系统中的阈值泄漏的修复系统。 该系统包括流量控制器和电源控制器,适用于接收来自学习子系统的输入,即使计算组件正常运行,该学习子系统也确定已发生阈值泄漏,从而改变电源状态以减少对冷却剂的依赖,这可能会导致变化在冷却剂流动中。 种类。 种类。
下载所有详细技术信息
【技术实现步骤总结】
数据中心冷却系统的智能阈值泄漏修复
[0001] 至少一个实施例涉及一种用于数据中心冷却系统中的阈值泄漏的补救系统。 在至少一个实施例中,流量控制器和功率控制器适于从学习子系统接收输入,即使计算组件正常操作,该学习子系统也可以确定已经发生阈值泄漏,从而引起功率状态的变化以减少影响冷却液依赖性并导致冷却液流量变化。
技术介绍
[0002] 数据中心冷却系统通常使用风扇在服务器组件之间循环空气。 一些超级计算机或其他大容量计算机可能使用水或其他冷却系统而不是空气冷却系统,将热量从数据中心内的服务器组件或机架吸取到数据中心外的区域。 冷却系统可以包括数据中心区域(包括数据中心外部的区域)内的冷却器。 数据中心外部的区域可以是包括冷却塔或其他外部热交换器的区域,冷却塔或其他外部热交换器从数据中心接收加热的冷却剂并在冷却的冷却剂被再循环回数据中心之前通过空气冷却或其他方式耗散热量。 到环境(或外部冷却介质)。 在一个示例中,冷却器和冷却塔一起形成冷却设施,其中泵响应数据中心外部设备测量的温度。 单独的风冷系统可能无法吸收足够的热量来支持数据中心有效或高效的冷却,而液冷系统虽然可以满足数据中心的需求,但很容易出现泄漏问题,从而导致短路和损坏设备。
附图说明
[0003] 将参照附图描述根据本公开的各种实施例,其中:
[0004] 图附图说明图1是具有经过至少一个实施例中描述的改进的冷却系统的示例数据中心的框图;
[0005] 图图2是示出根据至少一个实施例的用于数据中心液体冷却系统中的阈值泄漏的补救系统的服务器级特征的框图;
[0006] 图图3是示出根据至少一个实施例的用于数据中心液体冷却系统中的阈值泄漏的补救系统的机架级特征的框图;
[0007] 图图4是示出根据至少一个实施例的用于数据中心液体冷却系统中的阈值泄漏的补救系统的数据中心级特征的框图;
[0008] 图5是根据至少一个实施例的可用于使用或制作图2的图
-
图4和图6A
-
17D冷却系统方法各步骤的处理流程;
[0009] 图6A示出了示例数据中心英语作文,其中可以使用来自图2的数据
-
5的至少一个实施例;
图6B、图6C示出了用于实现和/或支持针对数据中心液体冷却系统中的阈值泄漏的补救系统的推理和/或训练逻辑,如图1中所示。 图6A以及本公开的至少一个实施例中使用的推理和/或训练逻辑;
图7A是示出根据至少一个实施例的示例性计算机系统的框图,该示例性计算机系统可以是具有互连的设备和组件的系统、片上系统(SOC)或者由处理器形成,在其某种组合中,处理器可以包括用于执行指令以支持和/或实现本文描述的用于数据中的方法的执行单元
液体冷却系统阈值泄漏的修复系统;
图7B是示出根据至少一个实施例的电子设备的框图,该电子设备利用处理器来支持和/或实现数据中心液体冷却系统中的阈值泄漏的补救系统;
图7C示出了根据至少一个实施例的电子设备的框图,该电子设备利用处理器来支持和/或实现数据中心液体冷却系统中的阈值泄漏的补救系统;
图8示出了根据至少一个实施例的用于实现用于实现本公开通篇描述的数据中心液体冷却系统中的阈值泄漏的补救系统的各种过程的另一示例计算机系统。 方法;
图9A示出了根据本发明的至少一个实施例的示例性架构,其中GPU经由高速链路通信地耦合到多核处理器以实现和/或支持在数据中心液体冷却系统中使用。披露。 阈值泄漏修复系统;
[0016] 图图9B示出了根据示例性实施例的多核处理器和图形加速模块之间的互连的附加细节;
图9C示出了根据本公开的至少一个实施例的另一示例性实施例,其中加速器集成电路被集成在用于实现和/或支持数据中心液体冷却系统的处理器内。 阈值泄漏修复系统;
图9D示出了根据本公开的至少一个实施例的用于实现和/或支持针对数据中心液体冷却系统中的阈值泄漏的补救系统的示例性加速器集成片;
图9E示出了根据本公开的至少一个实施例的用于实现和/或支持针对数据中心液体冷却系统中的阈值泄漏的补救系统的共享模型的示例性实施例的附加细节。 ;
图9F示出了根据本公开的至少一个实施例的可以经由物理处理器存储器和GPU存储器的公共虚拟存储器地址来访问的统一存储器的示例性实施例的附加细节。 解决数据中心液体冷却系统阈值泄漏问题实施和/或支持修复系统的空间;
[0021] 图。 图10A示出了根据本文描述的实施例的用于数据中心液体冷却系统中的阈值泄漏的补救系统的示例性集成电路和相关联的图形处理器;
图10B
-
图10C示出了根据至少一个实施例的示例性集成电路和相关联的图形处理器,用于支持和/或启用针对数据中心液体冷却系统中的阈值泄漏的补救系统;
图10D
-
图10E示出了根据至少一个实施例的用于支持和/或启用针对数据中心液体冷却系统中的阈值泄漏的补救系统的附加示例图形处理器逻辑;
图11A是示出根据至少一个实施例的用于支持和/或实现数据中心液体冷却系统中的阈值泄漏的补救系统的计算系统的框图;
图11B示出了根据至少一个实施例的用于支持和/或实现数据中心液体冷却系统中的阈值泄漏的补救系统的并行处理器;
[0026] 图。 图11C是根据至少一个实施例的分区单元的框图;
图11D示出了根据至少一个实施例的用于数据中心液体冷却系统中的阈值泄漏的补救系统的图形多处理器;
[0028] 图。 图11E示出了根据至少一个实施例的图形多处理器;
[0029] 图。 图12A示出了根据至少一个实施例的多GPU计算系统;
[0030] 图。 图12B是根据至少一个实施例的图形处理器的框图;
[0031] 图。 图13是示出根据至少一个实施例的可以包括用于执行指令的逻辑电路的处理器的微体系结构的框图;
[0032] 图14示出了根据至少一个实施例的深度学习应用处理器;
[0033] 图15示出了根据至少一个实施例的神经形态处理器的框图;
[0034] 图16A是根据至少一个实施例的处理系统的框图;
[0035] 图。 图16B是根据至少一个实施例的具有一个或多个处理器核、集成存储器控制器和集成图形处理器的处理器的框图;
图16C是根据至少一个实施例的图形处理器核心的硬件逻辑的框图;
图16D
-
图16E示出了根据至少一个实施例的包括图形处理器核心的处理元件阵列的线程执行逻辑。
[0038] 图17A示出了根据至少一个实施例的并行处理单元;
[0039] 图17B示出了根据至少一个实施例的通用处理集群;
图17C示出了根据至少一个实施例的并行处理单元。
【技术保护点】
【技术特点总结】
1.一种用于数据中心液体冷却系统中的阈值泄漏的补救系统,包括:配电单元(PDU)内的流量控制器和功率控制器,用于接收来自学习子系统的输入阈值,该学习子系统适于确定与所述数据中心关联的至少一个参数。数据中心液体冷却系统在确定范围之外,使得已经发生冷却剂的阈值泄漏,该阈值泄漏与在正常温度阈值内操作并接收冷却剂的至少一个计算组件一致,功率控制器用于引起至少一个计算部件,用于改变功率状态以减少对冷却剂的依赖,以及流量控制装置,用于引起到所述至少一个计算部件的所述冷却剂的流量变化。 2.根据权利要求1所述的补救系统,其中当所述至少一个计算组件在正常温度阈值内操作并接收冷却剂时,所述阈值泄漏指示不正确的第一冷却剂量。 正确地离开数据中心液体冷却系统,并且其中正常泄漏与阈值泄漏的不同之处在于至少第二量的冷却剂被指示为超过第一量,第二量的冷却剂不正确地离开数据中心液体冷却系统数据中心液体冷却系统使得至少一个计算组件无法在正常温度阈值内操作并且无法接收冷却剂以维持正常温度阈值。 3.根据权利要求1所述的补救系统,还包括: 与所述学习子系统相关联的至少一个处理器,用于使用所述输入来控制所述流量控制器和所述功率控制器,所述输入中的第一个导致所述至少一个计算组件关闭关闭,第二个输入导致冷却剂关闭。
4.根据权利要求3所述的补救系统,进一步包括: 所述至少一个处理器使得负载转移子系统能够在所述至少一个计算组件关闭之前转移与所述至少一个计算组件相关联的负载。 将负载传输至接收冷却剂或接收不受阈值泄漏影响的第二冷却剂的至少一个第二计算组件。 5.根据权利要求1所述的补救系统,还包括: 与所述学习子系统相关联的至少一个处理器,用于确定压力、流量或当温度超出正常阈值时,确定所述冷却剂的所述阈值泄漏已经发生。在所述确定的范围内并且在由至少警报阈值限定的警告范围内,在该警告范围内,所述至少一个计算部件不再在正常温度阈值内操作并且不再接收冷却剂以维持正常温度阈值。 6.根据权利要求1所述的补救系统,还包括: 分布式控制系统阈值,其包括所述流量控制器、所述功率控制器、以及所述PDU内的所述学习子系统的至少第一部分。 一个或多个,并且包括辅助流量控制器、辅助功率控制器和位于辅助PDU中的学习子系统的第二部分中的一个或多个; 分布式控制系统使得学习子系统的输入能够与辅助流量控制器和辅助功率控制器中的一个或多个进行通信,并且使得辅助流量控制器和辅助功率控制器中的一个或多个能够导致至少一个辅助计算部件改变第二功率状态以减少对冷却剂的依赖并且引起到至少一个辅助计算部件的冷却剂流的变化。 7.根据权利要求1所述的补救系统,还包括: 所述学习子系统包括:所述PDU的流控制器、所述PDU的功率控制器、以及所述辅助PDU的辅助流控制。 以及辅助PDU的辅助电源控制器中的一个或多个相关处理器。
8.根据权利要求1所述的补救系统,还包括: 与至少一个处理器相关联的学习子系统,用于使用包括所确定的范围的移动范围来评估数据中心液体冷却系统。 与至少一个参数相关联,移动范围表示当至少一个计算组件在正常温度阈值内操作并且接收至少一种量的冷却剂时出现的至少一个参数的参数值。 在参数阈值内; 学习子系统,用于向功率控制器提供第一输入,以使至少一个计算组件改变功率状态,以减少对冷却剂依赖性的影响,并且向流程提供第二输入控制器引起流向至少一个计算部件的冷却剂流量的变化。 9.根据权利要求8所述的补救系统,其中所述至少一个参数包括以下一项或多项:所述冷却剂的温度;以及所述冷却剂的温度。 至少一个计算组件或包括至少一个计算组件的计算机。 第一区温度; 输送冷却剂的管道的温度; 包括流量控制器的第一区域或第二区域的湿度或相对湿度; 冷却剂至第一区的流量; 来自第一区域的冷却剂的流量; 与至少一个计算组件消耗的功率成比例的冷却响应; 以及冷却剂的流体泄漏率。 10.根据权利要求8所述的冷却系统,还包括: 所述学习子系统执行机器学习模型,用于: 使用所述机器学习模型的多个神经元级别来处理与所述至少一个参数相关的参数值、所述多个神经元级别具有参数值并且具有先前关联的冷却剂流速和至少一个计算组件的先前关联的功率状态; 并且在评估参数值之后,将先前关联的冷却剂流量和先前关联的功率状态提供给输入。
11.至少一个用于补救液体冷却系统中的阈值泄漏的处理器,包括:至少一个用于控制配电单元(PDU)内的流量控制器和功率控制器的逻辑单元,所述流量控制器和功率控制器用于接收来自学习子系统的输入适于确定与液体冷却系统相关联的至少一个参数在确定范围内的正常阈值之外,使得已经发生冷却剂耗尽。 与在正常温度阈值内操作并接收冷却剂的至少一个计算组件相关联的阈值泄漏,功率控制器可操作以引起至少一个计算组件改变功率状态以减少冷却需要。流量控制器可操作以引起流向至少一个计算部件的冷却剂的流量的变化。 12.根据权利要求11所述的至少一个处理器,进一步包括: 与所述学习子系统相关联的所述至少一个逻辑单元,用于当所述至少一个计算组件关闭时在转移与所述至少一个相关联的负载之前启用负载转移子系统。在一个计算组件中,负载被转移到接收冷却剂或接收不受阈值泄漏影响的第二冷却剂的至少一个第二计算组件。 13.根据权利要求11所述的至少一种处理器,还包括:
与学习子系统相关联的至少一个逻辑单元用于确定进入或离开至少一个计算部件的冷却剂的压力、流量或温度在所确定范围的正常阈值之外并且在所述阈值之内所述冷却剂的泄漏已经发生在由至少警告阈值限定的警告范围内,在该警告范围内,所述至少一个计算部件不再在所述正常温度阈值内操作并且不再接收冷却剂以维持正常温度阈值。 14.根据权利要求11所述的至少一个处理器,还包括指令输出,用于将来自所述学习子系统的所述输入传送到所述流量控制器和所述功率控制器。 15.至少一种根据权利要求11所述的治疗方法……
【专利技术属性】
技术研发人员:A、
申请人(专利权):惠达公司、
类型:发明
国家省市:
下载所有详细的技术信息。 我是该专利的所有者。