最近不少朋友在问服务器上的GPU该怎么拆装,特别是那些做AI训练或者图形渲染的,经常需要升级或者更换显卡。今天我就来详细说说这个事儿,让你看完就能自己动手操作。

GPU服务器长什么样?
先来认识一下GPU服务器的基本构造。现在的专业GPU服务器,不管是NVIDIA的DGX A100还是其他厂商的产品,基本上都包含两大核心模块:GPU节点和机头部分。
GPU节点就是放显卡的地方,拆开外壳就是GPU模组。这里面最重要的就是GPU模组板(简称UBB),它是承载多个GPU的基板,负责GPU之间以及GPU与CPU的高速数据交换。还有基于开放加速模块标准的OAM GPU模块,比如SXM A100 GPU,这种设计标准化,维护升级都方便。
机头部分就是CPU计算节点,这里面东西就多了:CPU、内存、存储控制卡、各种网卡等等。简单来说,GPU节点管计算,机头管协调和存储。
动手前的准备工作
拆装GPU不是小事,准备工作做得好,后面操作才顺利。
- 断电!断电!断电!
重要的事情说三遍。先把服务器背面左右两根电源线和网线都拔掉,确认指示灯已经熄灭。 - 准备工具
螺丝刀是必须的,最好准备防静电手套和腕带。 - 找帮手
服务器挺沉的,一个人操作很容易出问题,最好有两个人配合。
这里有个小贴士:断电后不用管插头旁边的红色小按钮,直接拔插头就行。
服务器下架与开盖步骤
如果服务器还在机架上,得先把它取下来。按动服务器正面的两个卡扣,然后向外拉,把服务器从导轨上抽出来。
取下来的时候有个关键步骤:要先把服务器两侧的小黑点横向错开凹槽。这时候服务器两侧的小扳手需要被扳动,压条如果必要的话也要向内按压。两个人各站一边,最好还有个人在中间协调,保证两侧同时抬起,不然服务器很容易卡住拿不下来。
打开服务器盖板就简单多了,用螺丝刀拧黑色拉环,然后提提手,就能把盖板拉起来了。
GPU模组的详细拆解
现在进入核心环节了。打开盖板后,你会看到导流罩,它的作用是强化风道,如果没有它,风会从散热器四周散掉,风压降低,散热效果就差了。
卸导流罩分两步:先按压顶盖两侧的蓝色卡舌,把顶盖提离GPU导流罩;然后卸下导流罩填充挡片。你在哪个Riser上安装GPU,就把对应的挡片卸下来,给GPU的排线腾地方。
接下来卸Riser(提升板)。以卸下Riser 4为例:先拧松相应的螺丝,但不用完全拧下来,因为也拧不下来;然后按动蓝色按钮,就能取下Riser了。
GPU安装的实操细节
拆明白了,装回去就简单了。在Riser上安装GPU时,你其实不用担心装错,因为设计上就是防呆的,装错了根本就装不上。
安装步骤很清晰:打开Riser上的卡扣,取下Riser上的挡板条,然后在Riser上安装GPU。插好GPU的数据接口后,记得扣上卡扣。
最关键的一步来了:插显卡的供电排线。供电排线一端插在显卡上,另一端插在服务器主板上。这个步骤一定要仔细,确保插牢了,不然GPU没法工作。
装回去的注意事项
装回Riser的时候,用螺丝来确定位置就行。然后把服务器放回机架,这个也需要至少两个人配合。
放回时的运动轨迹跟取下时正好相反:先把导轨抽出来,拨动小开关,然后按照正确的轨迹放上去。放完后推回导轨,期间要注意按动压片。
最后检查一遍所有连接,确认无误后再通电。开机后可以通过nvidia-smi命令查看GPU是否被正确识别。
多GPU环境的使用技巧
现在的服务器很多都配了多块GPU,比如常见的4卡、8卡配置。这种情况下,你可能需要指定使用其中的部分GPU。
比如你在终端输入nvidia-smi,看到有4块GPU,但第4块已经有人在满载运行了,这时候如果你四块默认同时运行,很可能会提示out of memory报错,或者显示显卡不平衡的警告。学会指定GPU使用,能避免不同用户之间的相互影响。
拆装服务器GPU看起来复杂,但按照步骤来其实并不难。关键是细心、耐心,做好防静电措施,断电操作要彻底。希望这篇指南能帮到你,下次遇到GPU升级或者维护,你也能从容应对了。
内容均以整理官方公开资料,价格可能随活动调整,请以购买页面显示为准,如涉侵权,请联系客服处理。
本文由星速云发布。发布者:星速云。禁止采集与转载行为,违者必究。出处:https://www.67wa.com/145721.html