Linux服务器GPU监控全攻略：从基础命令到实时管理

作为一名服务器管理员或者深度学习工程师，你一定遇到过这样的情况：程序运行突然变慢，训练任务莫名其妙卡住，或者显存莫名其妙被占满。这时候，快速查看GPU使用情况就成了解决问题的关键。今天，我们就来详细聊聊Linux服务器下查看GPU使用情况的各种方法和技巧。

linux查看服务器gpu使用情况

为什么要监控GPU使用情况？

在深度学习、科学计算、图形渲染等场景中，GPU已经成为不可或缺的计算资源。与CPU不同，GPU的监控需要专门的工具和方法。如果不及时监控GPU状态，可能会导致资源浪费、任务冲突，甚至硬件损坏。比如，显存泄漏会导致后续任务无法正常运行，GPU温度过高可能触发降频影响性能，多个用户争抢同一块GPU会造成资源冲突。

记得我刚接触服务器管理时，就曾经因为不了解GPU监控，导致一个训练任务跑了好几天才发现根本没在使用GPU，白白浪费了大量时间。从那次教训后，我就开始系统学习各种GPU监控方法，现在把这些经验都分享给大家。

基础工具：nvidia-smi命令详解

nvidia-smi是NVIDIA官方提供的命令行工具，可以说是GPU监控的“瑞士军刀”。大多数Linux系统在安装NVIDIA驱动时都会自带这个工具，无需额外安装。

直接在终端输入：

nvidia-smi

这个命令会输出一个详细的表格，包含以下重要信息：

GPU型号和数量：快速了解服务器配置了哪些显卡
显存使用情况：包括总显存、已使用显存和剩余显存
GPU利用率：显示当前GPU的计算负载
温度信息：监控GPU工作温度，防止过热
运行进程：显示正在使用GPU的进程和用户信息

表格中的每个字段都有其特定含义：

Fan：风扇转速，0-100%之间
Temp：GPU核心温度，单位摄氏度
Perf：性能状态，从P0（最高性能）到P12（最低性能）
Memory Usage：显存使用率，这是最常用的监控指标

实时监控：让GPU状态一目了然

基础的nvidia-smi命令只能显示当前时刻的状态，对于需要持续监控的场景就显得不够用了。这时候，我们可以结合watch命令来实现实时监控。

使用以下命令：

watch -n 1 nvidia-smi

这个命令会每隔1秒刷新一次GPU状态，让你能够实时观察到GPU使用情况的变化。参数-n 1表示刷新间隔为1秒，你可以根据需要调整这个数值，比如设置为5秒或者10秒。

我第一次使用这个命令时，简直像打开了新世界的大门。当时我们服务器上有个程序总是莫名其妙地占用显存，通过实时监控，很快就定位到了问题进程。

高级工具：更便捷的监控方案

除了官方工具，社区还开发了一些更加便捷的监控工具，这里推荐两个最实用的：

gpustat：简洁直观的GPU状态显示

gpustat是一个基于Python开发的轻量级工具，它用更加简洁的格式显示GPU状态，特别适合快速查看。

安装方法：

pip install gpustat

使用方法：

gpustat

或者实时监控：

watch -n 2 –color gpustat -c

gpustat最大的优点是输出信息更加紧凑，一眼就能看到所有GPU的关键状态，包括温度、显存使用率、运行进程等。

nvitop：功能强大的交互式监控

nvitop是一个类似于htop的交互式GPU监控工具，它不仅显示GPU状态，还能显示相关进程信息，甚至可以直接在界面中管理进程。

安装方法：

pip install nvitop

使用方法：

nvitop

这个工具特别适合服务器管理员使用，可以快速了解整个系统的GPU使用情况。

实用技巧：解决常见问题

在实际工作中，我们经常会遇到一些特定的监控需求，这里分享几个实用技巧：

查看特定GPU的详细信息

如果你的服务器有多块GPU，有时候只需要查看其中一块的详细信息：

nvidia-smi -q -i 0

这里的-i 0表示查看编号为0的GPU，你可以替换为其他GPU编号。

监控GPU功耗和温度

对于需要长时间运行的任务，监控GPU的功耗和温度非常重要：

nvidia-smi -q -i 0 -d POWER,TEMPERATURE

找出GPU使用者

当发现GPU被占用但又不知道是谁在使用时，可以通过以下方法查找：

nvidia-smi | grep -A 10 Processes

这个命令会显示正在使用GPU的进程信息，包括进程ID、用户名和显存使用量。

工具对比：选择最适合的方案

不同的工具各有优缺点，下面这个表格帮你快速选择：

工具名称	安装难度	信息详细程度	实时监控	推荐场景
nvidia-smi	无需安装	非常详细	需配合watch	日常查看、问题排查
watch nvidia-smi	无需安装	非常详细	支持	实时监控、性能调试
gpustat	简单	简洁明了	需配合watch	快速查看、多GPU监控
nvitop	简单	详细+进程	支持	系统管理、进程监控

根据我的经验，日常使用推荐gpustat，因为它输出简洁，信息足够；需要详细排查问题时用nvidia-smi；服务器管理则用nvitop。

最佳实践：让GPU监控更高效

分享几个我在实际工作中总结的最佳实践：

建立监控习惯：在运行大型任务前后都检查GPU状态
使用别名简化命令：在.bashrc中添加 alias gpumon=’watch -n 2 nvidia-smi’
定期检查温度：特别是夏季或者机房通风不良时
设置使用规范：在团队中建立GPU使用规范，避免资源冲突

记得有次我们团队同时有多个成员要跑实验，通过建立GPU使用登记制度，配合这些监控工具，彻底解决了资源争抢的问题。

GPU监控看起来是个小技能，但在实际工作中却能发挥大作用。掌握了这些方法，你就能更好地管理和利用宝贵的GPU资源，提高工作效率，避免不必要的麻烦。希望这篇文章能帮助你在GPU监控方面少走弯路，快速定位和解决问题。

内容均以整理官方公开资料，价格可能随活动调整，请以购买页面显示为准，如涉侵权，请联系客服处理。

本文由星速云发布。发布者：星速云。禁止采集与转载行为，违者必究。出处：https://www.67wa.com/141241.html