在服务器上查看GPU信息的常用命令和技巧

大家好，今天咱们来聊聊在服务器上查看GPU信息这个事儿。如果你是做深度学习、AI模型训练或者高性能计算的，那肯定少不了跟服务器上的GPU打交道。有时候你远程登录到一台服务器，想知道它装了什么显卡、显存用了多少、当前有没有任务在跑，这时候掌握几个查看GPU的命令就特别重要了。

在服务器上查看gpu

为什么需要在服务器上查看GPU？

首先咱们得明白为啥要费这个劲去查看GPU信息。现在很多计算密集型任务，比如训练神经网络、做科学模拟或者渲染视频，都离不开GPU的强大算力。服务器上的GPU就像工地上的挖掘机，你得知道有多少台挖掘机、它们的状态怎么样、谁正在用，这样才能合理分配任务。

想象一下，你准备跑一个大的训练任务，结果直接扔到服务器上就开始运行，没过多久程序就崩了，报错说“显存不足”。这时候你才后悔没提前看看GPU的使用情况。查看GPU信息是服务器管理和任务调度的基本功，能帮你避免很多坑。

使用nvidia-smi命令查看基础信息

说到查看GPU信息，最常用、最直接的工具就是nvidia-smi了。这个命令是NVIDIA官方提供的管理工具，基本上装了NVIDIA显卡驱动的Linux系统都会有。

你只需要在终端里输入：

nvidia-smi

回车之后，就会显示一个表格，里面包含了GPU的型号、温度、功耗、显存使用情况、计算任务等信息。这个命令输出的信息非常全面，是快速了解GPU状态的首选工具。

我第一次用这个命令的时候，感觉信息量有点大，不知道从哪里看起。其实你主要关注这几列：GPU编号（GPU编号）、显存使用（Memory-Usage）、GPU利用率（GPU-Util）和运行中的进程（Processes）。通过这些信息，你就能判断哪张卡比较空闲，适合跑新任务。

nvidia-smi命令的实用参数和技巧

nvidia-smi命令不只是输入那么简单，它还有很多实用的参数可以帮你更高效地获取信息。比如说，如果你只想看GPU的概要信息，可以用：

nvidia-smi -q

这个命令会输出非常详细的GPU信息，包括温度、风扇转速、电源管理等，适合需要深入了解硬件状态的时候使用。

另外一个很实用的参数是-l，它可以定时刷新GPU状态：

nvidia-smi -l 5

这个命令会每隔5秒刷新一次GPU信息，特别适合监控长时间运行的任务。我曾经用这个命令监控过一个长达三天的训练任务，随时掌握GPU的使用情况，心里踏实多了。

还有一个技巧是，你可以把nvidia-smi的输出重定向到文件，方便后续分析：

nvidia-smi -l 1 > gpu_log.txt

这样就会每秒记录一次GPU状态到gpu_log.txt文件中。

如何查看GPU的详细规格信息

有时候你不仅想知道GPU的使用情况，还想了解它的具体规格，比如有多少个CUDA核心、支持什么计算能力等。这时候可以使用：

nvidia-smi -q

这个命令会输出GPU的完整信息，包括：

产品名称和型号
总显存和可用显存
GPU时钟频率
PCIe总线信息
驱动程序版本
CUDA版本信息

如果你只想看某个特定GPU的信息，可以加上-i参数指定GPU编号：

nvidia-smi -q -i 0

这个命令就只显示0号GPU的详细信息。

在Docker容器中查看GPU信息

现在很多应用都跑在Docker容器里，这时候查看GPU信息就有点不一样了。如果你的容器没有正确配置GPU支持，那么在容器里运行nvidia-smi可能会报错。

要在Docker容器中使用GPU，你需要在运行容器时加上--gpus参数：

docker run –gpus all -it your_image

进入容器后，再运行nvidia-smi就能正常显示GPU信息了。我刚开始用Docker的时候，经常忘记加这个参数，结果在容器里怎么都找不到GPU，还以为是驱动出了问题。

你也可以指定使用特定的GPU：

docker run –gpus ‘”device=0,1″‘ -it your_image

这样容器就只能看到0号和1号GPU。

使用gpustat工具更直观地查看GPU状态

除了官方的nvidia-smi，还有一个第三方工具叫gpustat，它用起来更加直观友好。gpustat实际上是对nvidia-smi的封装，把重要的信息用更清晰的格式展示出来。

安装gpustat很简单，用pip就行：

pip install gpustat

安装完成后，直接在终端输入：

gpustat

你就会看到一个颜色分明、信息集中的输出，包括了GPU的使用率、温度、显存占用，还有正在使用GPU的用户和进程。这个工具特别适合在多用户共享的服务器上使用，一眼就能看出谁在用什么资源。

gpustat也支持定时刷新：

gpustat -i 5

这个命令会每隔5秒刷新一次，而且刷新的效果比nvidia-smi -l更加清爽。

通过系统文件查看GPU信息

除了使用专门的命令工具，你还可以直接查看Linux系统中的相关文件来获取GPU信息。这种方法虽然原始，但在某些特殊情况下很有用。

比如，你可以查看/proc/driver/nvidia/gpus/目录，这里包含了每个GPU的详细信息：

ls /proc/driver/nvidia/gpus/

每个GPU对应一个目录，进入目录后可以看到各种信息文件。这种方法适合写脚本自动获取GPU信息。

你还可以查看PCI设备信息：

lspci | grep -i nvidia

这个命令会列出系统中所有的NVIDIA PCI设备，包括显卡和其他相关硬件。

常见问题排查和实用技巧

在实际使用中，你可能会遇到各种问题。这里分享几个我踩过的坑和解决办法。

第一个常见问题是运行nvidia-smi时提示“command not found”。这通常意味着NVIDIA驱动没有正确安装，或者nvidia-smi不在系统的PATH环境变量中。你可以尝试用完整路径运行：

/usr/bin/nvidia-smi

第二个问题是看到GPU利用率很低，但显存几乎被占满了。这种情况通常是有进程申请了显存但没有进行大量计算，比如某些深度学习框架在初始化时会预先分配显存。

第三个实用技巧是，你可以结合watch命令来实时监控GPU状态：

watch -n 1 nvidia-smi

这个命令会每秒刷新一次nvidia-smi的输出，效果和nvidia-smi -l 1类似，但显示更加稳定。

还有一个情况是，在多GPU服务器上，你可能只想使用其中几张卡。这时候可以设置CUDA_VISIBLE_DEVICES环境变量：

export CUDA_VISIBLE_DEVICES=0,1

这样你的程序就只会看到0号和1号GPU。

好了，关于在服务器上查看GPU信息的方法和技巧就介绍到这里。从基础的nvidia-smi命令到更高级的监控工具，从本地系统到Docker环境，希望这些内容能帮你更好地管理和使用服务器上的GPU资源。记住，熟练使用这些工具不仅能提高工作效率，还能避免很多不必要的麻烦。如果你还有其他关于GPU使用的问题，欢迎在评论区留言讨论！

内容均以整理官方公开资料，价格可能随活动调整，请以购买页面显示为准，如涉侵权，请联系客服处理。

本文由星速云发布。发布者：星速云。禁止采集与转载行为，违者必究。出处：https://www.67wa.com/143211.html