服务器GPU状态怎么查？这几招命令让你秒变高手

大家好！今天咱们来聊聊一个特别实用的话题——怎么查看服务器的GPU使用情况。如果你是个运维工程师，或者是个搞深度学习的同学，这个问题肯定经常碰到。服务器上跑着重要的任务，GPU要是出问题了，那可就耽误大事了。学会查看GPU状态，就跟开车要看仪表盘一样重要。

怎么查看服务器gpu使用情况

说实话，我刚接触服务器那会儿，也不知道该怎么查GPU。看着别人在命令行里敲几个字母，屏幕上就蹦出一堆信息，感觉特别神奇。后来自己慢慢摸索，才发现原来没那么复杂。今天我就把这些方法都整理出来，保证你看完就能上手用！

为什么要关注GPU使用情况？

首先咱们得明白，为啥要这么关心GPU的使用情况呢？现在的GPU可不便宜，一张好卡动辄上万块，不好好利用就太浪费了。而且GPU跟CPU不一样，它有自己独特的工作方式。

举个例子，如果你在做模型训练，GPU使用率很低，那就说明你的代码或者配置可能有问题，训练效率太低了。反过来，如果GPU使用率一直100%，温度还特别高，那可能就有过热的风险，长期这样会缩短硬件的寿命。

我有个朋友就吃过这个亏，他的服务器GPU温度长期在90度以上，结果用了半年就坏了，维修花了小一万，真是血泪教训啊！定期检查GPU状态，就跟定期给车做保养一样，绝对不能马虎。

最直接的方法：nvidia-smi命令

说到查看GPU状态，最经典的工具就是nvidia-smi了。只要你用的是NVIDIA的显卡，这个工具基本上都是自带的，不用额外安装。

使用方法超级简单，打开终端，直接输入：

nvidia-smi

敲下回车，你就能看到类似这样的信息：

GPU	显存使用	温度	功耗	使用率
0	5432MiB / 12288MiB	78°C	245W / 300W	95%
1	1234MiB / 12288MiB	45°C	89W / 300W	23%

这张表格信息很全，基本上你想知道的都在这里了。我来解释一下各个字段的意思：

GPU：显卡编号，如果你有多个GPU，这里会显示0、1、2…
显存使用：前面是已使用的显存，后面是总显存
温度：GPU的当前温度，这个要特别关注
功耗：当前功耗和最大功耗
使用率：GPU的计算单元使用率

除了这些基本信息，nvidia-smi还会显示每个GPU上正在运行的进程，这样你就知道是哪个程序在占用GPU资源了。

实时监控GPU状态

有时候我们需要持续观察GPU的状态变化，比如在训练模型的时候。这时候一直手动运行nvidia-smi就太麻烦了，有个更聪明的方法：

watch -n 1 nvidia-smi

这个命令的意思是每隔1秒自动运行一次nvidia-smi，这样你就能看到实时的状态变化了。如果觉得1秒太频繁，可以改成2秒或者5秒，根据你的需要调整。

我通常喜欢用这个命令来监控训练过程，特别是刚开始训练新模型的时候。通过观察GPU使用率的变化，能很快判断出数据加载、模型计算有没有瓶颈。

还有一个更轻量级的方法：

nvidia-smi -l 1

这个命令的效果跟watch差不多，也是每秒更新一次。具体用哪个，就看个人喜好了。

只关注关键信息

有时候我们不需要看那么详细的信息，只关心几个关键指标，比如使用率和温度。这时候可以用一些过滤选项：

nvidia-smi –query-gpu=utilization.gpu,temperature.gpu –format=csv

这个命令只会显示GPU使用率和温度，输出结果很简洁：

utilization.gpu [%], temperature.gpu [°C]
95 %, 78°C
23 %, 45°C

在做自动化脚本的时候，这种简洁的输出格式特别有用，方便程序解析。

如果你想看显存使用情况，可以这样：

nvidia-smi –query-gpu=memory.used,memory.total –format=csv

图形化监控工具

如果你不喜欢黑乎乎的命令行，也可以试试图形化的监控工具。NVIDIA官方就提供了一个很好的工具叫nvidia-smi-gui，不过需要额外安装。

安装方法根据你的系统会有所不同，在Ubuntu上可以这样安装：

sudo apt install nvidia-smi-gui

安装完成后，在图形界面里搜索nvidia-smi就能找到这个工具。它会用图表的形式显示GPU的各种状态，看起来更直观。

除了官方工具，还有一些第三方工具也很好用，比如gpustat。安装方法很简单：

pip install gpustat

安装完成后，直接运行gpustat就能看到彩色的GPU状态信息，比原生的nvidia-smi更友好一些。

远程查看GPU状态

在实际工作中，我们经常需要远程登录到服务器上查看GPU状态。这时候SSH就派上用场了。

远程登录的命令很简单：

ssh username@server_ip

登录成功后，就可以像在本地一样使用各种GPU监控命令了。

不过要注意，如果你用的是跳板机或者有多层网络结构，可能需要配置SSH隧道。这个稍微复杂一点，但原理都是一样的。

我建议大家在本地电脑上配置SSH密钥登录，这样每次登录就不用输入密码了，方便很多。具体配置方法网上有很多教程，这里就不详细说了。

常见问题排查技巧

了解了基本的监控方法，咱们再来聊聊实际工作中经常遇到的问题。

问题一：nvidia-smi命令找不到

这种情况通常是因为NVIDIA驱动没有正确安装，或者安装的版本有问题。解决办法是重新安装驱动，或者检查PATH环境变量。

问题二：GPU使用率一直很低

如果你的任务应该很耗GPU资源，但使用率就是上不去，可能有这几个原因：

数据加载成了瓶颈，GPU老是等着数据
模型太小，计算量不够
批量大小设置不合理

问题三：GPU温度过高

GPU温度在80度以下是比较安全的，如果长期超过85度，就要注意了。解决办法包括：

清理风扇和散热器上的灰尘
改善机箱的通风条件
降低工作负载或者设置温度墙

问题四：显存不足

这是最常见的问题之一，表现就是程序报错说显存不够。解决办法包括：

减小批量大小
使用更小的模型
清理不必要的显存占用

自动化监控方案

对于生产环境，我们通常需要设置自动化的监控方案，而不是手动去检查。这里我分享几个实用的方法。

方法一：使用Prometheus监控

Prometheus是很流行的监控系统，配合NVIDIA的DCGM Exporter，可以很方便地监控GPU状态。配置稍微复杂一些，但一旦 setup 好了，就能实现24小时不间断监控。

方法二：自定义监控脚本

你可以写一个简单的Shell脚本，定期检查GPU状态，发现问题就发邮件或者短信报警。比如：

#!/bin/bash
GPU_TEMP=$(nvidia-smi –query-gpu=temperature.gpu –format=csv,noheader,nounits)
if [ $GPU_TEMP -gt 85 ]; then
echo “警告：GPU温度过高！” | mail -s “GPU告警” your_email@example.com
fi

方法三：使用现成的监控平台

如果你不想自己搭建监控系统，也可以使用一些现成的云监控平台，很多都支持GPU监控功能。

我个人的建议是，根据你的业务重要性来选择监控方案。如果是关键业务，还是建议用专业的监控系统，毕竟预防总比事后补救要好。

最佳实践和注意事项

我来总结一些使用GPU监控的最佳实践。

定期检查很重要。不要等到出问题了才去看，那时候可能已经造成损失了。建议至少每天检查一次重要的服务器。

建立基线。你要知道在正常情况下，你的GPU各项指标应该在什么范围。这样一旦出现异常，你就能马上发现。

第三，设置合理的告警阈值。比如温度超过85度、显存使用超过90%，就应该触发告警。

第四，做好日志记录。重要的GPU状态变化最好记录下来，这样出了问题可以回溯分析。

不要忽视小问题。有时候GPU温度偶尔飙升一下，可能你觉得没什么大不了的，但这往往是硬件故障的前兆。

记住，GPU是服务器里最贵的部件之一，好好爱护它，它才能更好地为你服务。今天的分享就到这里，希望对大家有帮助！如果你有其他好用的GPU监控技巧，欢迎在评论区分享哦！

内容均以整理官方公开资料，价格可能随活动调整，请以购买页面显示为准，如涉侵权，请联系客服处理。

本文由星速云发布。发布者：星速云。禁止采集与转载行为，违者必究。出处：https://www.67wa.com/144158.html