Linux服务器GPU信息查询完全指南

作为一名运维工程师或者深度学习开发者，你一定遇到过这样的情况：新拿到一台Linux服务器，需要快速了解它的GPU配置情况。是NVIDIA A100还是RTX 4090？显存有多大？支持哪个版本的CUDA？这些问题直接关系到你的工作能否顺利进行。

linux查找服务器gpu型号

为什么要学会查看GPU信息

在AI和大数据时代，GPU已经不再是游戏玩家的专属。从深度学习训练到科学计算，从视频渲染到虚拟化应用，GPU都扮演着至关重要的角色。及时准确地获取GPU信息，能够帮助你：

合理分配计算资源
知道每张卡的性能，才能把最重的任务分配给最强的GPU
排查性能问题
当程序运行缓慢时，GPU利用率、显存占用率都是重要的诊断指标
确保环境兼容性
不同的CUDA版本对深度学习框架有不同的要求，版本不匹配会导致各种奇怪的问题
规划硬件升级
了解现有GPU的瓶颈，为未来的硬件采购提供依据

很多人第一次接触Linux服务器时，面对命令行界面会有些不知所措。别担心，其实查询GPU信息比想象中简单得多，下面我就带你一步步掌握这些实用技巧。

最直接的方法：nvidia-smi命令

如果你确定服务器使用的是NVIDIA显卡，那么nvidia-smi绝对是你的首选工具。这个命令是NVIDIA官方提供的系统管理接口，功能强大且信息全面。

打开终端，直接输入：

nvidia-smi

这个命令会输出一个结构化的监控界面，包含了你需要的大部分关键信息。让我来解读一下输出内容的各个部分：

GPU型号
在表格顶部的”Name”列，比如”NVIDIA A100-PCIE-40GB”、”Tesla V100S”等
驱动版本
表格上方的”Driver Version”，这个信息在安装CUDA时很重要
CUDA版本
同样在表格上方显示，告诉你当前驱动支持的CUDA版本
GPU利用率
Volatile GPU-Util”列，显示GPU的计算负载
显存使用情况
Memory-Usage”列，包括已用显存和总显存
温度和功耗
这些信息对于监控GPU的健康状况很有帮助

举个例子，当你看到这样的输出：

+–+
| NVIDIA-SMI 515.65.01 Driver Version: 515.65.01 CUDA Version: 11.7 |
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| 0 NVIDIA A100-PCIE… On | 00000000:01:00.0 Off | 0 |
| N/A 35C P0 35W / 250W | 0MiB / 40960MiB | 0% Default |
+-+-+-+

你就能立即知道这是一张NVIDIA A100显卡，拥有40GB显存，当前几乎空闲，驱动支持CUDA 11.7。

通用查询方法：lspci命令

有时候服务器可能没有安装NVIDIA驱动，或者你根本不确定用的是哪种品牌的GPU。这时候lspci命令就派上用场了。这个命令可以列出所有的PCI设备，包括各种品牌的GPU。

在终端中输入：

lspci | grep -i vga

或者更全面的查询：

lspci | grep -E “(VGA|3D|Display)

这个命令的优势在于它不依赖任何显卡驱动，只要系统能识别PCI设备，就能显示出GPU的基本信息。不过它的输出相对简洁，主要是设备ID和型号名称，不如nvidia-smi那样详细。

比如你可能会看到这样的输出：

01:00.0 VGA compatible controller: NVIDIA Corporation Device 2230 (rev a1)

这里的”2230″就是设备ID，你可以通过这个ID在网上查询具体的GPU型号。

针对AMD显卡的查询方法

如果你的服务器使用的是AMD显卡，查询方法就有所不同了。AMD提供了自己的工具来查看GPU信息。

首先是clinfo命令，它可以显示OpenCL设备信息，通常会包含GPU型号。使用前需要先安装：

sudo apt-get install clinfo # Ubuntu/Debian
sudo yum install clinfo # CentOS/RHEL

安装完成后运行：

clinfo

radeontop工具也可以用来监控AMD GPU的状态，不过它主要关注实时使用情况，不一定直接显示型号信息。

对于AMD显卡，有时候lspci命令反而更直接有效，因为它不受驱动安装状态的限制。

图形化界面工具

对于那些不太习惯命令行的用户，或者想要更直观地查看GPU信息的情况，图形化工具是个不错的选择。

如果你是NVIDIA用户，可以尝试NVIDIA X Server Settings。这个工具提供了图形界面来查看和调整GPU设置，包括型号、温度、显存等信息。

在KDE桌面环境中，可以通过System Settings中的硬件信息模块来查看GPU。GNOME桌面也有相应的系统监控工具。

还有一些第三方软件，比如HardInfo，它能够提供全面的系统硬件信息，GPU信息自然也在其中。

不过需要提醒的是，大多数服务器环境都是纯命令行界面，不会安装图形化桌面。所以掌握命令行方法仍然是必须的。

实际应用场景和技巧

了解了各种查询方法后，我们来看看在实际工作中如何灵活运用这些知识。

场景一：新服务器验收

当你拿到一台新的GPU服务器时，首先要做的就是全面检查GPU配置。建议的操作顺序是：

先用lspci确认GPU的存在和基本型号
然后用nvidia-smi获取详细信息
记录下每张卡的型号、显存、支持的最高CUDA版本

场景二：性能问题排查

当用户报告程序运行缓慢时，你可以通过nvidia-smi快速检查：

GPU利用率是否达到预期
显存是否接近占满
是否有异常进程占用GPU资源

场景三：多用户环境监控

在共享的GPU服务器上，经常需要监控各个用户对GPU的使用情况。这时候可以使用：

nvidia-smi -l 1

这个命令会每秒刷新一次GPU状态，方便实时监控。

实用技巧：

使用nvidia-smi -q可以获取更详细的GPU信息
nvidia-smi --help可以查看所有可用的选项
结合watch命令可以实现定时刷新：watch -n 1 nvidia-smi

常见问题解答

在实际使用过程中，大家经常会遇到一些问题，我在这里集中解答一下：

Q：为什么输入nvidia-smi后显示”command not found”？

A：这通常意味着没有安装NVIDIA驱动，或者安装路径不在系统的PATH环境变量中。这时候可以先用lspci确认GPU是否存在，然后安装相应的驱动程序。

Q：如何查看历史GPU使用情况？

A：nvidia-smi主要显示实时信息。如果需要历史数据，可以考虑使用NVIDIA的DCGM（Data Center GPU Manager）或者其他监控系统。

Q：nvidia-smi显示的CUDA版本和实际安装的CUDA版本不一致怎么办？

A：nvidia-smi显示的是驱动支持的最高CUDA版本，不一定是你系统中实际安装的版本。可以使用nvcc --version来查看实际安装的CUDA版本。

Q：服务器有多张GPU卡，如何查看特定卡的信息？

A：使用nvidia-smi -i 0可以只看第0张卡的信息，同理-i 1查看第1张卡。

相信你已经掌握了在Linux服务器上查询GPU信息的各种方法。从基础的lspci到专业的nvidia-smi，从命令行到图形界面，各种场景下的需求都有了对应的解决方案。

技术总是在发展，新的工具和方法也会不断出现。保持学习的态度，在实际工作中不断积累经验，你就能成为一名真正的服务器GPU管理专家。

内容均以整理官方公开资料，价格可能随活动调整，请以购买页面显示为准，如涉侵权，请联系客服处理。

本文由星速云发布。发布者：星速云。禁止采集与转载行为，违者必究。出处：https://www.67wa.com/141236.html