Linux服务器GPU性能测试与故障排查全攻略

大家好，今天咱们来聊聊在Linux服务器上捣鼓GPU卡的那些事儿。如果你是做深度学习、科学计算或者搞大模型训练的，那肯定离不开GPU。但有时候你会发现，明明花大价钱买的显卡，在服务器上就是跑不出该有的性能，甚至动不动就给你来个“罢工”，那叫一个头疼啊！所以今天我就把自己这些年折腾Linux服务器GPU的经验分享给大家，从基础测试到深度排查，手把手教你搞定GPU卡的测试和故障处理。

Linux服务器下gpu卡测试

一、GPU测试前需要做哪些准备工作？

在开始测试之前，准备工作可不能马虎。首先你得确认手头有哪些工具可用。就像修车得有扳手一样，测试GPU也得有趁手的工具。

最基本的当然是驱动了。你可以用nvidia-smi这个命令来检查驱动是否正常安装。如果这个命令能跑起来，并且能看到你的GPU信息，那说明驱动起码是装上了。不过有时候即使能看见GPU信息，也不代表驱动就完全没问题，这个我们后面会详细说。

除了驱动，你还需要准备一些测试工具。我个人推荐这几个：

GPU Burn：这家伙就像GPU的压力测试仪，能让你的显卡满负荷运转，检查稳定性和散热
CUDA Samples：NVIDIA官方提供的测试套件，里面有很多小工具
TensorFlow/PyTorch：如果你要做AI相关的测试，这些框架自带的基准测试也很实用

测试前最好把服务器上的重要任务都停掉，免得测试过程中影响到业务。还有就是做好散热准备，特别是你要做压力测试的时候，GPU温度飙升是常有的事。

二、如何快速检查GPU卡是否被系统识别？

这是最基础但也最重要的一步。有时候你插了卡，但系统就是认不出来，这时候就得一步步排查了。

用lspci | grep -i nvidia命令看看PCIe总线上有没有你的显卡。如果这里都看不到，那问题就大了，可能是硬件连接问题或者卡本身坏了。

如果能在这里看到显卡，但nvidia-smi用不了，那很可能是驱动问题。这时候你得检查一下驱动版本是否匹配，还有驱动是否加载成功。用lsmod | grep nvidia可以查看NVIDIA驱动模块是否被加载。

我遇到过一种情况，显卡能被lspci识别，驱动也装了，但就是不出现在nvidia-smi里。后来发现是GPU被其他进程占用了，用fuser -v /dev/nvidia*命令一查，果然有几个僵尸进程在作怪。

小贴士：有时候重启能解决90%的问题，但如果是在生产环境，可不能随便重启。这时候就得靠这些命令来精准定位问题了。

三、GPU性能测试的几种实用方法

确认GPU能被识别后，接下来就要看看它的性能到底如何了。性能测试分几个层面，咱们一个一个说。

基础性能测试：最简单的就是用nvidia-smi配合watch命令来实时监控GPU状态：watch -n 1 nvidia-smi。这样你就能看到GPU的利用率、内存使用情况、温度等关键指标。

计算能力测试：这里我强烈推荐用GPU Burn。安装很简单，下载源码编译就行：

git clone https://github.com/wilicc/gpu-burn
cd gpu-burn
make

然后运行：./gpu_burn 60（60代表测试60秒）。这时候你的GPU利用率应该会冲到100%，风扇转速也会上来。你要观察的是温度变化和是否有报错。

CUDA能力测试：NVIDIA的CUDA Samples里有个deviceQuery工具，能详细显示GPU的各项参数和能力。编译运行后，你会看到类似这样的信息：

参数	数值
CUDA Capability	8.6
Global Memory	24268 MB
CUDA Cores	10496

这些数据能帮你确认GPU是否达到了标称的性能指标。

四、深度排查：当GPU性能不达标时怎么办？

有时候测试结果出来了，但性能就是不如预期，这时候就需要深入排查了。

首先要看散热问题。GPU有个特性叫“温控降频”，就是温度太高的时候会自动降低频率来保护硬件。你用nvidia-smi能看到当前温度，但如果想看历史最高温度，可以用nvidia-smi --query-gpu=temperature.max_gpu --format=csv。

我曾经遇到过一台服务器，GPU性能时好时坏，最后发现是机箱风道设计有问题，导致GPU长期在高温下运行，触发了温控降频。解决的办法也很简单，清了清灰尘，调整了一下风扇布局就好了。

其次是电源问题。高端的GPU卡功耗很大，如果电源供电不足，也会影响性能。你可以用nvidia-smi -q -d POWER来查看电源相关的信息，看看是否有供电不足的警告。

PCIe链路问题也是个常见的坑。用nvidia-smi -q能看到PCIe链路的速度和宽度。有时候因为主板兼容性问题或者插槽问题，PCIe x16的卡可能只运行在x8甚至x4模式下，这肯定会影响性能。

五、多卡环境下的特殊测试场景

现在很多服务器都不止一块GPU，这时候测试就更复杂了。多卡环境下，你要测试的不仅是单卡性能，还有卡之间的通信能力。

首先要用nvidia-smi topo -m查看GPU之间的拓扑关系。这个命令会显示哪些GPU通过NVLink直连，哪些只能通过PCIe通信。了解这个对后续的性能优化很重要。

在多卡环境下测试时，我建议先用nvidia-smi -i 0这样的命令单独测试每一块卡，确认每块卡都能正常工作。然后再测试多卡同时工作时的性能。

对于做分布式训练的朋友，还需要测试GPU之间的通信性能。可以用nccl-tests这个工具包里的all_reduce_perf来测试多卡之间的数据交换速度。

这里有个实际案例：某公司买了8卡服务器做训练，结果发现性能提升不明显。后来测试发现是因为GPU之间的通信成了瓶颈。通过调整任务分配策略，让通信密集的任务尽量放在有NVLink直连的GPU之间，性能立马提升了40%。

六、实战案例：一次真实的GPU故障排查经历

说了这么多理论，我来分享个真实的案例。去年我们公司一台用于模型训练的服务器，突然开始频繁出现CUDA out of memory错误，但检查发现GPU内存明明还剩很多。

一开始以为是代码问题，但同样的代码在其他机器上运行正常。然后怀疑是驱动问题，重装驱动后问题依旧。用GPU Burn测试时，发现其中一块卡的温度明显比其他卡高，但还在可接受范围内。

后来我们用了更细致的测试方法，逐块卡进行压力测试，发现当那块“高温卡”的利用率超过80%时，就会开始出现各种奇怪的问题。最后决定把那块卡换掉，问题就彻底解决了。

事后分析，应该是GPU硬件本身有缺陷，在低负载时表现正常，但高负载下就不稳定了。这个案例告诉我们，测试时一定要让GPU经历从低负载到满负载的各种场景，光看待机状态是不够的。

七、建立长期的GPU健康监控体系

对于生产环境的服务器，不能等到出问题了才去测试，而是要建立长期的监控体系。

我们现在的做法是用nvidia-smi配合telegraf把GPU的各项指标采集到监控系统里，设置合理的告警阈值。比如：

GPU温度持续超过85度
GPU利用率长期在95%以上
显存使用率超过90%
ECC错误计数增加

我们还会定期（比如每月一次）运行完整的GPU测试套件，生成健康报告。这样既能及时发现潜在问题，也能为后续的硬件采购和维护提供数据支持。

说实话，建立这套体系花了我们不少时间，但从长远来看绝对是值得的。毕竟GPU卡都不便宜，好好维护能延长使用寿命，也能保证业务稳定性。

好了，关于Linux服务器下GPU卡测试的话题就聊到这里。希望这些经验能帮到正在为GPU问题头疼的你。记住，测试GPU不是一锤子买卖，而是一个持续的过程。只有平时多留心，关键时刻才能少踩坑。如果你有什么好的测试方法或者遇到过什么奇葩问题，欢迎一起交流！

内容均以整理官方公开资料，价格可能随活动调整，请以购买页面显示为准，如涉侵权，请联系客服处理。

本文由星速云发布。发布者：星速云。禁止采集与转载行为，违者必究。出处：https://www.67wa.com/141213.html