Linux服务器GPU配置查询与性能监控全攻略

为什么需要关注Linux服务器的GPU配置？

现在越来越多的应用都离不开GPU了，不管是做深度学习训练、科学计算，还是图形渲染，GPU都成了必不可少的硬件。特别是对于搞AI开发的小伙伴来说，知道自己的服务器上到底有什么样的GPU，性能怎么样，简直太重要了。

linux服务器查询gpu配置

想象一下，你刚拿到一台新的服务器，兴冲冲地准备跑模型，结果发现CUDA装不上，或者GPU驱动有问题，那感觉真是糟透了。学会在Linux系统上查询GPU配置，就像学开车要先知道方向盘和刹车在哪里一样，是必备的基础技能。

最常用的GPU信息查询命令：nvidia-smi

说到查GPU信息，nvidia-smi绝对是大家最熟悉的老朋友了。这个命令是NVIDIA官方提供的工具，基本上装了NVIDIA驱动的机器都能用。

直接在终端输入：

nvidia-smi

你会看到一个很详细的表格，包含了GPU的型号、温度、使用率、内存占用等等信息。这个命令特别好用，因为它能实时显示GPU的工作状态，就像给GPU做了个全面体检一样。

我刚开始用的时候，最喜欢盯着那个GPU使用率看，看着数字跳来跳去，感觉特别有成就感。不过要提醒大家，这个命令需要先安装NVIDIA的驱动才能用，如果你的系统还没装驱动，那就得先解决驱动的问题。

查看详细的GPU参数信息

有时候光看nvidia-smi还不够，特别是当你需要知道GPU的具体参数时，比如CUDA核心数、架构版本这些。这时候可以用：

nvidia-smi -q

这个命令会输出超级详细的信息，基本上关于这块GPU的所有技术参数都能找到。不过信息量确实有点大，第一次看可能会觉得眼花缭乱。

我一般会配合grep来过滤需要的信息，比如：

nvidia-smi -q | grep -i “product name”

这样就只显示产品名称了。对于新手来说，建议先熟悉基础的nvidia-smi，等需要更详细信息的时候再来探索这个高级版本。

没有nvidia-smi怎么办？系统级查询方法

如果你的系统还没装NVIDIA驱动，或者用的是AMD的显卡，那nvidia-smi就用不了了。别着急，Linux系统本身也提供了一些查询硬件信息的方法。

可以试试lspci命令：

lspci | grep -i vga

这个命令会列出所有的显示设备，包括集成显卡和独立显卡。虽然信息没有nvidia-smi那么详细，但至少能知道系统里有没有GPU，是什么型号的。

还有个有用的命令是lshw：

sudo lshw -C display

这个命令能显示更详细的显示适配器信息，不过需要root权限。记得第一次用的时候要加sudo，不然可能会提示权限不足。

GPU驱动和CUDA版本查询

知道了GPU型号，接下来就要关心驱动和CUDA版本了。这两个东西在深度学习开发里特别重要，版本不匹配的话，很多框架都跑不起来。

查驱动版本可以用：

nvidia-smi | grep “Driver Version”

查CUDA版本的话，如果你安装了CUDA Toolkit，可以这样查：

nvcc –version

不过要提醒大家，有时候nvidia-smi显示的CUDA版本跟你实际安装的版本可能不一样，这个很正常，因为nvidia-smi显示的是驱动支持的CUDA版本，而nvcc显示的是你实际安装的版本。

我刚开始学的时候就在这上面栽过跟头，明明显示支持CUDA 11，结果安装的却是CUDA 10，导致TensorFlow一直报错。后来花了半天时间才发现是版本不匹配的问题。

实时监控GPU使用情况

光知道配置还不够，在实际使用中，我们还需要实时监控GPU的工作状态。nvidia-smi虽然能显示实时信息，但它不能持续刷新。

这时候可以加上watch命令：

watch -n 1 nvidia-smi

这样就能每秒钟刷新一次，实时观察GPU的使用情况了。特别是在训练模型的时候，开着这个窗口，就能清楚地看到GPU的使用率、内存占用变化，特别有用。

如果你想要更酷炫的界面，还可以试试gpustat这个工具，安装方法很简单：

pip install gpustat

然后用gpustat命令就能看到颜色更丰富、排版更美观的GPU状态信息了。这个工具在我们团队里特别受欢迎，因为看起来确实比原生的nvidia-smi舒服多了。

GPU信息查询的实用脚本技巧

在实际工作中，我们经常需要把GPU信息记录下来，或者定期检查。这时候写个小脚本就特别方便了。

比如，可以写个简单的bash脚本来自动记录GPU状态：

#!/bin/bash
nvidia-smi –query-gpu=timestamp,name,utilization.gpu,memory.used –format=csv >> gpu_log.csv

这个脚本会把GPU的重要信息记录到csv文件里，方便后续分析。我自己就经常用类似的脚本来监控训练过程中的GPU使用情况，发现问题就能及时调整。

还有个实用的技巧是，可以把常用的查询命令做成别名，加到.bashrc文件里：

alias gpustat=’nvidia-smi’
alias gpuinfo=’nvidia-smi -q’

这样以后查询的时候直接输入别名就行了，能省不少时间。

常见问题排查和小结

最后跟大家分享几个常见的问题和解决方法。有时候输入nvidia-smi会显示”No devices were found”，这种情况通常是驱动没装好，或者GPU没被系统识别。

首先要检查驱动安装情况：

用lsmod | grep nvidia看看驱动模块加载了没有

检查GPU是否在正确的PCIe插槽上

看看BIOS里有没有禁用独立显卡

还有个常见问题是权限问题，特别是在Docker环境里，有时候会提示权限不足，这时候需要把相应的设备映射到容器里。

掌握GPU信息查询是每个Linux服务器使用者的必备技能。虽然刚开始可能会觉得命令有点多，但用习惯了就会发现，其实就那么几个常用的命令，记起来也不难。关键是这些技能能在实际工作中帮你省去很多麻烦，提高工作效率。

内容均以整理官方公开资料，价格可能随活动调整，请以购买页面显示为准，如涉侵权，请联系客服处理。

本文由星速云发布。发布者：星速云。禁止采集与转载行为，违者必究。出处：https://www.67wa.com/141232.html