Linux服务器GPU使用率监控全攻略

作为一名经常在Linux服务器上跑深度学习模型或者做科学计算的同学，相信你一定遇到过这样的困扰：程序运行得特别慢，却不知道是不是GPU在偷懒。别担心，今天我就来给大家详细介绍一下Linux服务器上查看GPU使用率的各种方法，让你轻松掌握显卡的工作状态。

linux服务器怎么查看gpu使用率

为什么需要监控GPU使用率

GPU已经成为现代计算中不可或缺的资源，特别是在人工智能、深度学习、科学计算等领域。一个高效的GPU监控方案能够帮助我们：

及时发现性能瓶颈，优化程序运行效率
合理分配计算资源，避免资源浪费
监控系统健康状态，预防硬件故障
为多用户环境下的资源调度提供依据

想象一下，你花了大价钱租用的云服务器GPU，却因为程序问题只发挥了30%的性能，这得多心疼啊！学会监控GPU使用率真的是每个开发者的必修课。

最常用的nvidia-smi命令

如果你用的是NVIDIA显卡，那么nvidia-smi绝对是你最先要掌握的工具。这个命令是NVIDIA官方提供的GPU管理工具，基本上安装了NVIDIA驱动就会自带这个命令。

在终端中直接输入：

nvidia-smi

你会看到一个漂亮的表格，里面包含了GPU的型号、使用率、显存占用、温度、功耗等详细信息。表格中“GPU-Util”那一列就是我们要找的GPU使用率，它会以百分比的形式显示每个GPU的忙碌程度。

nvidia-smi默认只显示一次信息，对于需要持续监控的场景就不太方便了。这时候我们可以结合watch命令来实现实时监控：

watch -n 1 nvidia-smi

这个命令会每1秒刷新一次GPU状态，让你能够实时观察GPU的使用情况变化。

轻量级监控工具gpustat

如果你觉得nvidia-smi的输出信息太多，想要一个更简洁的界面，那么gpustat绝对是你的不二选择。

首先安装gpustat：

pip install gpustat

安装完成后，直接运行：

gpustat

相比nvidia-smi，gpustat的输出更加简洁明了，而且会用不同的颜色来区分使用率的高低，看起来特别直观。

如果你想要实时监控，还可以使用：

watch -n 2 –color gpustat -c

这个命令会每2秒刷新一次，并且保持彩色显示，按Ctrl+C就能退出监控。

实时监控工具nvtop

如果你用过Linux下的htop命令来监控CPU和内存，那么nvtop一定会让你感到亲切。这是一个专门为GPU监控设计的工具，界面跟htop很像，使用起来特别顺手。

安装方法也很简单：

sudo apt-get install nvtop

运行nvtop后，你会看到一个动态更新的界面，里面实时显示着每个GPU的使用率、显存占用、温度等信息。最棒的是，它支持键盘操作，你可以用方向键选择不同的GPU，用快捷键执行各种操作。

nvtop特别适合那些需要长时间监控GPU状态的场景，比如模型训练期间，开一个终端窗口运行nvtop，就能随时掌握训练进度和资源使用情况。

AMD显卡的监控方案

虽然NVIDIA在深度学习领域占据主导地位，但AMD显卡也有不少用户。对于AMD显卡，我们可以使用radeontop工具来监控GPU使用率。

安装命令：

sudo apt-get install radeontop

使用起来也很简单：

radeontop

这个工具会实时显示AMD显卡的各项指标，包括GPU使用率、显存占用等。虽然AMD在AI领域的生态还不如NVIDIA完善，但随着ROCm平台的不断发展，AMD显卡在高性能计算中的应用也在逐渐增多。

实际应用场景和技巧

掌握了这些工具之后，我们来看看在实际工作中怎么灵活运用它们。

场景一：调试程序性能

当你发现程序运行速度不如预期时，可以先打开一个终端运行：

watch -n 1 nvidia-smi

然后运行你的程序，观察GPU使用率的变化。如果GPU使用率一直很低，可能是数据预处理成了瓶颈，或者模型本身有问题。

场景二：多用户服务器管理

在实验室或者公司的共享服务器上，经常会出现多个人同时使用GPU的情况。这时候gpustat就特别有用，因为它能显示每个进程的GPU使用情况，帮助你了解谁在用GPU、用了多少资源。

场景三：自动化监控

你可以写一个简单的shell脚本，定期检查GPU使用率，当使用率异常时自动发送报警。比如：

#!/bin/bash
GPU_USAGE=$(nvidia-smi –query-gpu=utilization.gpu –format=csv,noheader,nounits | head -n 1)
if [ $GPU_USAGE -gt 90 ]; then
echo “GPU使用率过高，请检查” | mail -s “GPU报警” your@email.com
fi

这样的自动化监控能够帮助我们在出现问题时第一时间发现并处理。

通过上面的介绍，相信你已经对Linux服务器上的GPU监控有了全面的了解。从基础的nvidia-smi到高级的nvtop，从NVIDIA到AMD，各种场景下的监控需求都能找到合适的工具。记住，选择合适的工具只是第一步，更重要的是要养成定期监控的习惯，这样才能保证你的计算资源始终处于最佳状态。

内容均以整理官方公开资料，价格可能随活动调整，请以购买页面显示为准，如涉侵权，请联系客服处理。

本文由星速云发布。发布者：星速云。禁止采集与转载行为，违者必究。出处：https://www.67wa.com/141224.html