Linux系统下一键查询GPU卡数与状态的实用指南

最近有不少朋友在群里问，说新到了一台GPU服务器，怎么快速知道它到底装了几块显卡啊？特别是做深度学习和AI开发的兄弟们，这个问题简直太常见了。今天我就把自己在Linux系统上查看GPU信息的经验整理一下，保证你读完这篇文章后，不管是N卡还是A卡，都能轻松搞定。

linux查看gpu服务器卡数

为什么要学会查看GPU信息

说起来，我第一次接触GPU服务器的时候也挺懵的。当时老板扔给我一台服务器说“拿去用吧”，我愣是花了半天时间才搞清楚上面到底有几块卡。后来才发现，这个问题真的很重要。比如你要跑一个模型，得先知道有没有足够的GPU内存；要部署多个任务，得知道有多少卡可以分配；甚至有时候服务器出问题了，也得先看看GPU是不是还活着。

而且现在GPU这么贵，搞清楚自己手头有什么资源，才能更好地规划工作嘛。不然你写了个需要40G显存的模型，结果服务器上只有4块8G的卡，那不就尴尬了嘛。

最常用的NVIDIA显卡查询工具

如果你用的是NVIDIA的显卡，那最直接的方法就是使用官方提供的nvidia-smi命令。这个工具基本上是标配，只要你装了NVIDIA的驱动，它就应该存在。

打开终端，直接输入：

nvidia-smi

你会看到一个挺详细的表格，里面包含了每块GPU的信息。最上面一行通常显示的是驱动版本和CUDA版本，下面就是各个GPU的状态。要快速知道有多少块卡，可以看表格左边GPU编号那一列，从0开始，最后一块的编号+1就是总卡数。

如果你想更简洁一点，只看卡数，可以加上一些参数：

nvidia-smi -L

这个命令会直接列出所有GPU的型号和UUID，一行一个，数一下有几行就知道有几块卡了。

其他实用的GPU信息查询命令

除了nvidia-smi，其实还有一些其他的方法也能帮我们了解GPU的情况。比如lspci命令，它能列出所有的PCI设备，我们可以用grep过滤出GPU相关信息：

lspci | grep -i nvidia

或者对于AMD显卡：

blockquote>lspci | grep -i amd

这个方法的好处是，即使驱动没装好，你也能看到物理上存在的GPU卡。不过它显示的信息比较底层，可能不太直观。

在一些特定的Linux发行版上，你还可以试试这些命令：

lshw：显示详细的硬件信息
hwinfo：另一个硬件信息工具
inxi -G：inxi工具专门显示GPU信息

如何获取更详细的GPU信息

有时候我们不仅想知道有几块卡，还想了解每块卡的详细情况，比如显存大小、计算能力、温度等等。这时候nvidia-smi就能派上大用场了。

比如说，要查看显存使用情况：

nvidia-smi –query-gpu=memory.total,memory.used,memory.free –format=csv

要监控GPU的温度和功耗：

nvidia-smi –query-gpu=temperature.gpu,power.draw –format=csv

我通常喜欢用一个综合查询，把所有重要信息都列出来：

nvidia-smi –query-gpu=index,name,memory.total,memory.used,temperature.gpu,utilization.gpu –format=csv

这样一眼就能看到所有关键信息，特别方便。

编写脚本实现一键查询

如果你经常需要查看GPU信息，每次都输入一长串命令确实挺烦的。这时候我们可以写个小脚本，把常用的查询封装起来。

创建一个叫做gpu_info.sh的文件，内容如下：

#!/bin/bash
echo “=== GPU基本信息 ===
nvidia-smi -L
echo
echo “=== 实时状态 ===
nvidia-smi –query-gpu=index,name,memory.total,memory.used,temperature.gpu,utilization.gpu –format=csv

然后给脚本执行权限：

chmod +x gpu_info.sh

以后只要运行./gpu_info.sh，所有重要信息就都出来了。你还可以根据自己的需求，往里面添加更多的查询项目。

常见问题与解决方法

在实际使用中，可能会遇到一些问题，我整理了几个常见的：

问题	可能原因	解决方法
nvidia-smi命令找不到	驱动未安装或安装有问题	重新安装NVIDIA驱动
只能看到部分GPU	PCIe供电或连接问题	检查硬件连接，重启服务器
GPU显示但不工作	驱动版本不匹配	更新驱动到合适版本
权限不足	当前用户不在video组	将用户加入video组：sudo usermod -a -G video 用户名

有个小技巧，如果你怀疑某块GPU有问题，可以单独查询它的信息：

nvidia-smi -i 0

这里的0是GPU编号，你想查哪块就改成对应的编号。

GPU监控与日常维护建议

了解了怎么查看GPU信息之后，更重要的是要做好日常的监控和维护。毕竟这些卡都不便宜，坏了可是要肉疼的。

我建议定期检查以下几个方面：

温度监控：GPU长时间在高温下工作会影响寿命，最好保持温度在85度以下
显存使用：避免显存长期处于满载状态
驱动更新：定期检查并更新到稳定版本的驱动
清洁维护：定期清理服务器内部的灰尘，保证散热效果

你可以设置一个定时任务，每周自动生成一份GPU健康报告，这样就能及时发现问题。

好了，关于Linux下查看GPU信息的方法就介绍到这里。其实这些命令都不难，关键是要多练习，熟能生巧。希望这篇文章能帮你少走些弯路，如果有其他问题，欢迎在评论区交流讨论！

内容均以整理官方公开资料，价格可能随活动调整，请以购买页面显示为准，如涉侵权，请联系客服处理。

本文由星速云发布。发布者：星速云。禁止采集与转载行为，违者必究。出处：https://www.67wa.com/141238.html