服务器GPU卡顿排查与隔离操作全攻略

一、为啥要单独停用服务器上的某块GPU？

咱们搞AI训练或者做图形渲染的兄弟应该都懂，服务器里那几块GPU就像是自己的宝贝疙瘩。但有时候吧，某块GPU突然就开始”闹脾气”了——可能是风扇嗡嗡响得吓人，也可能是跑着跑着就死机，更常见的是性能莫名其妙掉了一大截。这时候你就得考虑把它单独关掉，总不能因为一块显卡有问题，就把整个服务器重启吧？那其他正在跑的任务不就全泡汤了。

服务器停止某一块gpu

我有个朋友上个月就遇到了这事儿，他们团队在做大模型训练，八块A100里面有一块总是报ECC错误，导致训练任务隔三差五就中断。一开始他们也是简单粗暴地重启整个服务器，后来才学会单独停用问题显卡，这才保证了训练任务的连续性。

二、停用GPU前的准备工作不能少

在动手之前，咱们得先把准备工作做足了，不然很容易捅娄子。

你得确认到底哪块GPU出了问题。打开终端，输入：

nvidia-smi

这个命令会给你列出所有GPU的状态。你要特别留意几个指标：温度是不是过高、功耗是否异常、显存使用率有没有突然飙升。如果某块卡的这些指标明显不对劲，那很可能就是它了。

然后，你得检查一下现在有哪些进程正在使用这块问题GPU：

nvidia-smi -i 0 -q -d PIDS

这里的-i 0表示你要查的是0号GPU，如果你想查其他GPU，就把数字换掉。

接下来就是最重要的——备份工作环境。如果你用的是Docker，先把容器commit一下；如果是直接跑在系统里的，记下当前的环境变量和运行参数。这样万一操作失误，还能快速恢复。

三、两种实用的GPU停用方法

根据你的具体需求，有两种主流的停用方法，咱们一种一种来说。

方法一：使用GPU索引直接禁用

这种方法比较直接，适合临时解决问题。假设我们要停用2号GPU：

echo ‘0’ | sudo tee /sys/bus/pci/devices/0000:3b:00.0/remove

等等，你可能会问这个0000:3b:00.0是啥？这其实是GPU的PCI地址，你可以用这个命令查：

lspci | grep -i nvidia

找到对应GPU的PCI地址后，再执行上面的remove操作。这种方法的好处是操作简单，见效快，但缺点是服务器重启后，这块GPU又会自动回来。

方法二：通过内核参数永久禁用

如果你确定某块GPU确实有问题，需要长期禁用，那这个方法更合适。编辑GRUB配置文件：

sudo vim /etc/default/grub

在GRUB_CMDLINE_LINUX这一行后面加上：

modprobe.blacklist=nvidia pci-stub.ids=10de:XXXX

这里的10de:XXXX需要替换成你的GPU设备ID，可以通过lspci -n命令查看。

改完之后别忘了更新GRUB配置：

sudo update-grub

然后重启服务器，这块GPU就不会被系统识别了。这种方法虽然步骤多了点，但是一劳永逸，特别适合那些已经确认硬件故障的显卡。

四、Docker环境下的特殊处理技巧

现在很多兄弟都是在Docker里跑GPU任务的，这种情况下停用GPU就得用另外的方法了。

最简单的是在用docker run的时候通过–gpus参数指定使用哪些GPU：

docker run –gpus ‘”device=0,1,3″‘ your_image

看到没？我这里故意跳过了2号GPU，这样容器就只会使用0、1、3号GPU，2号就被排除在外了。

如果你用的是nvidia-docker2，也可以在环境变量里控制：

docker run –runtime=nvidia -e NVIDIA_VISIBLE_DEVICES=0,1,3 your_image

还有一种情况是，你已经启动了一个容器，现在想临时把某块GPU从容器里踢出去。这时候可以进入容器，直接unload对应的GPU驱动模块：

rmmod nvidia

不过要小心，这个操作可能会影响容器里其他正在使用GPU的进程。

五、停用后的验证和监控

操作完了不代表就完事了，你得确认一下停用是否真的生效了。

首先再次运行nvidia-smi，看看被停用的GPU还在不在列表里。如果方法正确，你应该看不到那块GPU了，或者它的状态会显示为Disabled。

然后你可以写个简单的测试脚本，尝试在所有GPU上跑个计算任务，确认被停用的那块确实不工作了：

我建议你做个监控表，记录每次停用操作的情况：

停用时间 GPU编号停用原因操作方法操作人员

2024.03.15 14:30 GPU 2 频繁ECC错误 PCI Remove 张三

2024.03.20 09:15 GPU 5 温度异常内核参数禁用李四

这样以后排查问题的时候，就有据可查了。

六、常见问题排雷指南

在实际操作中，大家经常会遇到一些坑，我这里总结几个常见的：

问题1：停用后其他GPU性能受影响

这是因为有些服务器上的GPU是通过NVLink互连的，停用其中一块可能会影响整体的通信效率。这时候你就得权衡一下，是接受性能损失，还是想办法修复问题GPU。

问题2：重启后禁用失效

如果你用的是第一种临时方法，重启后GPU确实会重新启用。如果是永久禁用也失效了，那很可能是内核参数没配置对，或者GRUB配置没更新成功。

问题3：停用后系统不稳定

偶尔会遇到停用某块GPU后，整个系统变得不太稳定。这通常是因为系统里的某些服务或驱动对多GPU环境有依赖。这时候你可能需要调整一下系统配置，或者考虑其他解决方案。

最后给大家提个醒，停用GPU虽然能解决眼前的问题，但根本还是要找出GPU出问题的原因。是散热不好？电源供电不稳？还是驱动版本有问题？找到根本原因，才能避免同样的问题反复出现。

好了，关于服务器GPU停用的操作就聊到这里。希望大家都能顺利解决遇到的GPU问题，让咱们的服务器稳稳当当地跑起来！如果还有什么疑问，欢迎在评论区交流。

内容均以整理官方公开资料，价格可能随活动调整，请以购买页面显示为准，如涉侵权，请联系客服处理。

本文由星速云发布。发布者：星速云。禁止采集与转载行为，违者必究。出处：https://www.67wa.com/145833.html