在人工智能和深度学习飞速发展的今天,GPU服务器已经成为众多企业和科研机构不可或缺的计算利器。当你惊叹于AI模型训练的速度,或是沉浸在高性能计算带来的效率提升时,是否曾好奇过这些强大的GPU显卡是如何获得稳定、持续的能量供给的?今天,我们就来一探究竟。

GPU服务器的核心使命
GPU服务器,顾名思义,是基于图形处理器(GPU)的计算服务。与传统基于中央处理器(CPU)的服务器相比,GPU服务器在处理并行计算密集型任务时具有显著优势。通过将应用程序计算密集部分的工作负载转移到GPU上,同时仍由CPU运行其余程序代码,GPU服务器能够大幅提升应用程序的运行速度。
要理解GPU服务器的作用,首先需要了解GPU和CPU之间的区别。我们对CPU结构非常熟悉,一颗处理器其实由几个或几十个运算核心组合而成的,而GPU却拥有上百颗甚至上千个运算核心,所以GPU具有强大的计算能力。通常一般的程序任务直接是由CPU完成,但是对于密集型计算任务,就需要借助GPU来完成了。
GPU供电:从心脏到大脑的能量输送
如果说GPU是人体的“大脑”,那显卡供电部分就是人体的“心脏”。没有“心脏”为“大脑”持续稳定的“供血”,大脑再聪明也无法发挥。显卡GPU运行所需要的说白了就是合适的电压和持续稳定的电流,而显卡的供电系统的主要作用就是通过降压、稳压以及滤波等,让GPU持续获得稳定、纯净及大小适中的电压和电流。
在GPU服务器中,这种供电要求更为严格。因为服务器往往需要7×24小时不间断运行,任何供电波动都可能导致计算中断或硬件损坏,造成不可估量的损失。
三种供电系统的演进历程
显卡上应用的供电系统分为三种,分别是三端稳压电路、场效应管稳压电路及开关电路。
- 三端稳压供电:这种供电芯片(如7805)组成简单但输出电流较低
- 场效应管线性稳压:这种供电模块主要由信号驱动芯片以及MosFET组成,有着反应速度快、输出纹波小、工作噪声低的优点。但是场效应管线性稳压的转换效率较低而且发热量大,不利于产品功耗和温度控制
- 开关电源供电:现在主板和显卡上给CPU和GPU供电的都是开关电源供电电路。开关电源是控制开关管开通和关断的时间和比率,维持稳定输出电压的一种供电模块
由于前两种供电模式都在存在着明显的不足,因此它们在显卡和主板产品上的地位并不高,多数是作为辅助型供电或者为低功耗芯片供电而存在。目前GPU供电部分使用最为普遍的则为开关电路。
开关电源:现代GPU供电的核心技术
开关电源供电模块由哪些元件组成?主板和显卡的开关电源供电模块主要供CPU和GPU使用,通常是由电容、电感线圈、MosFET场效应管以及PWM脉冲宽度调制芯片四类元件组成。
开关电路是通过控制开关管开通和关断的时间和比率,维持稳定输出电压的一种供电系统。发热量相比线性稳压更低,转换效率更高,而且稳压范围大、稳压效果好,因此它成为了目前CPU与GPU的主要供电来源。
“开关电源的引入,彻底改变了GPU的供电格局,使得高性能计算成为可能。”——业内专家评价
GPU服务器供电的具体工作流程
显卡开关电路工作原理图如下所示,首先显卡从PCI E和辅助供电接口中获取12V电压输出,经过较大电容之后滤波进入PWM芯片控制的电路。之后PWM控制的MosFET管进行调节,通过打开上桥关闭下桥,然后关闭上桥打开下桥这样不停地操作,将12V供电降压到显卡需要的1.2V上下,输出给GPU使用。
经过以上处理虽然得到了GPU需要的电压,但出来的电流是一波一波断开的,这个时候就需要使用到电感的储能作用,通过大容量电感的充电放电作用,生成倾向于直线型的电压,最后经过小容量电容滤波,即可得到理想的GPU电压。这是一个完整的一相供电的工作流程。
多相供电:应对高功耗的必然选择
显卡越高端功耗越高,如果做成单相电路的话,需要适应大功率大电流的元器件,并且发热量不容忽视,以此带来的散热成本很高,于是多相供电便非常必要。多相供电好处有三:
- 提供更大的电流
- 降低单相供电电路的温度
- 多相供电获得的核心电压信号也比单相更为稳定
缺点是成本高,并且对布线、散热有一定的要求。在目前的高端主板中常采用开关电源组成的芯片组供电电路,这种设计思路也延伸到了GPU服务器的供电系统中。
GPU服务器供电的环境要求与未来趋势
单机柜功率密度突破10kW已成为GPU服务器的常态,电力冗余和制冷效率直接决定稳定性。现代的GPU服务器机房采用2N+1市电接入+柴油发电机备份,UPS蓄电池续航30分钟以上。其“液冷+氟泵”混合制冷方案可将单机柜负载提升至20kW,PUE控制在1.35以下,适合部署H100等高端显卡集群。
随着AI技术的不断发展,GPU服务器的功耗也在持续攀升。未来的供电技术将更加注重能效比和稳定性,可能会引入更先进的材料和设计方案,以满足日益增长的计算需求。
GPU服务器的供电系统是一个精密而复杂的工程,它涉及到电源管理、散热设计、稳定性保障等多个方面。只有深入理解这些原理,才能更好地选择、使用和维护GPU服务器,让这些计算利器发挥出最大的效能。
内容均以整理官方公开资料,价格可能随活动调整,请以购买页面显示为准,如涉侵权,请联系客服处理。
本文由星速云发布。发布者:星速云。禁止采集与转载行为,违者必究。出处:https://www.67wa.com/139485.html