Linux系统下一键查询GPU卡数与状态的实用指南

最近有不少朋友在群里问,说新到了一台GPU服务器,怎么快速知道它到底装了几块显卡啊?特别是做深度学习和AI开发的兄弟们,这个问题简直太常见了。今天我就把自己在Linux系统上查看GPU信息的经验整理一下,保证你读完这篇文章后,不管是N卡还是A卡,都能轻松搞定。

linux查看gpu服务器卡数

为什么要学会查看GPU信息

说起来,我第一次接触GPU服务器的时候也挺懵的。当时老板扔给我一台服务器说“拿去用吧”,我愣是花了半天时间才搞清楚上面到底有几块卡。后来才发现,这个问题真的很重要。比如你要跑一个模型,得先知道有没有足够的GPU内存;要部署多个任务,得知道有多少卡可以分配;甚至有时候服务器出问题了,也得先看看GPU是不是还活着。

而且现在GPU这么贵,搞清楚自己手头有什么资源,才能更好地规划工作嘛。不然你写了个需要40G显存的模型,结果服务器上只有4块8G的卡,那不就尴尬了嘛。

最常用的NVIDIA显卡查询工具

如果你用的是NVIDIA的显卡,那最直接的方法就是使用官方提供的nvidia-smi命令。这个工具基本上是标配,只要你装了NVIDIA的驱动,它就应该存在。

打开终端,直接输入:

nvidia-smi

你会看到一个挺详细的表格,里面包含了每块GPU的信息。最上面一行通常显示的是驱动版本和CUDA版本,下面就是各个GPU的状态。要快速知道有多少块卡,可以看表格左边GPU编号那一列,从0开始,最后一块的编号+1就是总卡数。

如果你想更简洁一点,只看卡数,可以加上一些参数:

nvidia-smi -L

这个命令会直接列出所有GPU的型号和UUID,一行一个,数一下有几行就知道有几块卡了。

其他实用的GPU信息查询命令

除了nvidia-smi,其实还有一些其他的方法也能帮我们了解GPU的情况。比如lspci命令,它能列出所有的PCI设备,我们可以用grep过滤出GPU相关信息:

lspci | grep -i nvidia

或者对于AMD显卡:

blockquote>lspci | grep -i amd

这个方法的好处是,即使驱动没装好,你也能看到物理上存在的GPU卡。不过它显示的信息比较底层,可能不太直观。

在一些特定的Linux发行版上,你还可以试试这些命令:

  • lshw:显示详细的硬件信息
  • hwinfo:另一个硬件信息工具
  • inxi -G:inxi工具专门显示GPU信息

如何获取更详细的GPU信息

有时候我们不仅想知道有几块卡,还想了解每块卡的详细情况,比如显存大小、计算能力、温度等等。这时候nvidia-smi就能派上大用场了。

比如说,要查看显存使用情况:

nvidia-smi –query-gpu=memory.total,memory.used,memory.free –format=csv

要监控GPU的温度和功耗:

nvidia-smi –query-gpu=temperature.gpu,power.draw –format=csv

我通常喜欢用一个综合查询,把所有重要信息都列出来:

nvidia-smi –query-gpu=index,name,memory.total,memory.used,temperature.gpu,utilization.gpu –format=csv

这样一眼就能看到所有关键信息,特别方便。

编写脚本实现一键查询

如果你经常需要查看GPU信息,每次都输入一长串命令确实挺烦的。这时候我们可以写个小脚本,把常用的查询封装起来。

创建一个叫做gpu_info.sh的文件,内容如下:

#!/bin/bash
echo “=== GPU基本信息 ===
nvidia-smi -L
echo
echo “=== 实时状态 ===
nvidia-smi –query-gpu=index,name,memory.total,memory.used,temperature.gpu,utilization.gpu –format=csv

然后给脚本执行权限:

chmod +x gpu_info.sh

以后只要运行./gpu_info.sh,所有重要信息就都出来了。你还可以根据自己的需求,往里面添加更多的查询项目。

常见问题与解决方法

在实际使用中,可能会遇到一些问题,我整理了几个常见的:

问题 可能原因 解决方法
nvidia-smi命令找不到 驱动未安装或安装有问题 重新安装NVIDIA驱动
只能看到部分GPU PCIe供电或连接问题 检查硬件连接,重启服务器
GPU显示但不工作 驱动版本不匹配 更新驱动到合适版本
权限不足 当前用户不在video组 将用户加入video组:sudo usermod -a -G video 用户名

有个小技巧,如果你怀疑某块GPU有问题,可以单独查询它的信息:

nvidia-smi -i 0

这里的0是GPU编号,你想查哪块就改成对应的编号。

GPU监控与日常维护建议

了解了怎么查看GPU信息之后,更重要的是要做好日常的监控和维护。毕竟这些卡都不便宜,坏了可是要肉疼的。

我建议定期检查以下几个方面:

  • 温度监控:GPU长时间在高温下工作会影响寿命,最好保持温度在85度以下
  • 显存使用:避免显存长期处于满载状态
  • 驱动更新:定期检查并更新到稳定版本的驱动
  • 清洁维护:定期清理服务器内部的灰尘,保证散热效果

你可以设置一个定时任务,每周自动生成一份GPU健康报告,这样就能及时发现问题。

好了,关于Linux下查看GPU信息的方法就介绍到这里。其实这些命令都不难,关键是要多练习,熟能生巧。希望这篇文章能帮你少走些弯路,如果有其他问题,欢迎在评论区交流讨论!

内容均以整理官方公开资料,价格可能随活动调整,请以购买页面显示为准,如涉侵权,请联系客服处理。

本文由星速云发布。发布者:星速云。禁止采集与转载行为,违者必究。出处:https://www.67wa.com/141238.html

(0)
上一篇 2025年12月2日 下午12:38
下一篇 2025年12月2日 下午12:38
联系我们
关注微信
关注微信
分享本页
返回顶部