快速掌握服务器GPU状态，这几条命令就够了

为啥要关心服务器的GPU？

你可能觉得，服务器嘛，只要能跑程序不就行了？但要是你的程序正好要用到GPU，那可就不一样了。想象一下，你吭哧吭哧写了个深度学习模型，结果一运行，慢得像蜗牛，你肯定得纳闷：是代码写错了，还是服务器GPU没在工作？这时候，你就需要去“查查岗”，看看GPU到底在干嘛，是不是在偷懒。

查询服务器的gpu信息

尤其是现在很多应用，比如AI画图、大模型推理、科学计算，都离不开GPU。服务器的GPU就像汽车的发动机，你不定期检查一下油量和状态，说不定哪天就撂挑子了。学会查询GPU信息，可以说是每个服务器用户的必备技能。

要说查GPU信息，最常用、最权威的工具，非nvidia-smi莫属。只要你用的服务器是NVIDIA的显卡，这个工具基本上都自带。它的全称是 NVIDIA System Management Interface，听名字就知道是来帮你管理显卡的。

你只需要打开服务器的命令行，输入：

nvidia-smi

敲下回车，一个信息面板就跳出来了。这里面信息可多了，咱们来挑几个重点的看看：

基础的nvidia-smi虽然好用，但有时候信息太多，看得眼花。别急，它还有很多参数可以帮你定制输出。

比如，你只关心显存和利用率，可以这样：

nvidia-smi –query-gpu=memory.used,memory.total,utilization.gpu –format=csv

这样输出来的就是整洁的表格，方便你记录或者用脚本处理。

再比如，你想让这个信息自动刷新，像看实时监控一样，可以加上 -l 参数：

nvidia-smi -l 5

这个命令会每隔5秒更新一次信息，特别适合在跑大型程序时盯着GPU的状态变化。

当然有！虽然nvidia-smi是老大，但其他工具也能帮上忙。

如果你的系统是Linux，可以试试 lspci 命令：

lspci | grep -i nvidia

这个命令能列出所有连接到主板上的NVIDIA设备，帮你确认GPU是不是被系统正确识别了。

对于使用AMD显卡的服务器，也有对应的工具，比如 rocm-smi，它的功能和nvidia-smi类似，是管理AMD GPU的好帮手。

对于个人用户，手动敲命令看看就够了。但如果是一个公司的重要服务器，上面跑着关键业务，那就不能总靠人盯着了。我们需要自动化监控。

市面上有很多监控系统，比如 Prometheus，可以搭配专门的插件（比如 NVIDIA GPU Exporter）来收集GPU信息。这样，你就能在一个漂亮的仪表盘上看到所有服务器GPU的健康状况。

更重要的是设置告警。比如，你可以设定一个规则：当某块GPU的温度连续5分钟超过85度，或者显存使用率超过95%时，就自动发邮件或者发消息到钉钉/企业微信上通知你。这样，你就不用24小时守着命令行，出了问题能第一时间知道。

光说不练假把式，咱们来看几个常见的场景。

场景一：程序报错“显存不足”(Out of Memory)

这时候你马上跑一下nvidia-smi，很可能会发现显存已经被某个程序占得差不多了。解决办法就是找到那个“罪魁祸首”的进程（nvidia-smi也会显示进程ID），如果它不是必要的，就果断“杀掉”它，释放显存。

场景二：程序运行慢，怀疑没用上GPU

查看GPU利用率，如果一直是0%或者很低，那基本可以断定程序是在CPU上跑的。这时候你需要检查你的代码环境，比如深度学习的话，要看看PyTorch或TensorFlow是不是正确识别到了CUDA和设备。

下面这个表总结了一些常见问题和排查思路：

唠叨几句使用GPU的好习惯。

要定期检查。不要等出问题了才想起来看。每天花几分钟扫一眼关键指标，心里有底。

注意散热。确保服务器的风道畅通，定期清理灰尘。GPU长期高温工作会折寿的。

合理分配任务。如果服务器有多块GPU，不要把所有的重活都扔给同一块，尽量让它们均衡一下，雨露均沾嘛。

好了，关于怎么查询服务器GPU信息，咱们就聊到这里。从最基础的nvidia-smi，到高级用法，再到监控告警和实战排查，这套组合拳打下来，相信你已经成为半个GPU管理专家了。下次再遇到GPU相关的问题，你肯定能从容应对！

内容均以整理官方公开资料，价格可能随活动调整，请以购买页面显示为准，如涉侵权，请联系客服处理。

本文由星速云发布。发布者：星速云。禁止采集与转载行为，违者必究。出处：https://www.67wa.com/146535.html