最近有不少朋友在群里问,说新到了一台GPU服务器,怎么快速知道它到底装了几块显卡啊?特别是做深度学习和AI开发的兄弟们,这个问题简直太常见了。今天我就把自己在Linux系统上查看GPU信息的经验整理一下,保证你读完这篇文章后,不管是N卡还是A卡,都能轻松搞定。

为什么要学会查看GPU信息
说起来,我第一次接触GPU服务器的时候也挺懵的。当时老板扔给我一台服务器说“拿去用吧”,我愣是花了半天时间才搞清楚上面到底有几块卡。后来才发现,这个问题真的很重要。比如你要跑一个模型,得先知道有没有足够的GPU内存;要部署多个任务,得知道有多少卡可以分配;甚至有时候服务器出问题了,也得先看看GPU是不是还活着。
而且现在GPU这么贵,搞清楚自己手头有什么资源,才能更好地规划工作嘛。不然你写了个需要40G显存的模型,结果服务器上只有4块8G的卡,那不就尴尬了嘛。
最常用的NVIDIA显卡查询工具
如果你用的是NVIDIA的显卡,那最直接的方法就是使用官方提供的nvidia-smi命令。这个工具基本上是标配,只要你装了NVIDIA的驱动,它就应该存在。
打开终端,直接输入:
nvidia-smi
你会看到一个挺详细的表格,里面包含了每块GPU的信息。最上面一行通常显示的是驱动版本和CUDA版本,下面就是各个GPU的状态。要快速知道有多少块卡,可以看表格左边GPU编号那一列,从0开始,最后一块的编号+1就是总卡数。
如果你想更简洁一点,只看卡数,可以加上一些参数:
nvidia-smi -L
这个命令会直接列出所有GPU的型号和UUID,一行一个,数一下有几行就知道有几块卡了。
其他实用的GPU信息查询命令
除了nvidia-smi,其实还有一些其他的方法也能帮我们了解GPU的情况。比如lspci命令,它能列出所有的PCI设备,我们可以用grep过滤出GPU相关信息:
lspci | grep -i nvidia
或者对于AMD显卡:
blockquote>lspci | grep -i amd
这个方法的好处是,即使驱动没装好,你也能看到物理上存在的GPU卡。不过它显示的信息比较底层,可能不太直观。
在一些特定的Linux发行版上,你还可以试试这些命令:
- lshw:显示详细的硬件信息
- hwinfo:另一个硬件信息工具
- inxi -G:inxi工具专门显示GPU信息
如何获取更详细的GPU信息
有时候我们不仅想知道有几块卡,还想了解每块卡的详细情况,比如显存大小、计算能力、温度等等。这时候nvidia-smi就能派上大用场了。
比如说,要查看显存使用情况:
nvidia-smi –query-gpu=memory.total,memory.used,memory.free –format=csv
要监控GPU的温度和功耗:
nvidia-smi –query-gpu=temperature.gpu,power.draw –format=csv
我通常喜欢用一个综合查询,把所有重要信息都列出来:
nvidia-smi –query-gpu=index,name,memory.total,memory.used,temperature.gpu,utilization.gpu –format=csv
这样一眼就能看到所有关键信息,特别方便。
编写脚本实现一键查询
如果你经常需要查看GPU信息,每次都输入一长串命令确实挺烦的。这时候我们可以写个小脚本,把常用的查询封装起来。
创建一个叫做gpu_info.sh的文件,内容如下:
#!/bin/bash
echo “=== GPU基本信息 ===
nvidia-smi -L
echo
echo “=== 实时状态 ===
nvidia-smi –query-gpu=index,name,memory.total,memory.used,temperature.gpu,utilization.gpu –format=csv
然后给脚本执行权限:
chmod +x gpu_info.sh
以后只要运行./gpu_info.sh,所有重要信息就都出来了。你还可以根据自己的需求,往里面添加更多的查询项目。
常见问题与解决方法
在实际使用中,可能会遇到一些问题,我整理了几个常见的:
| 问题 | 可能原因 | 解决方法 |
|---|---|---|
| nvidia-smi命令找不到 | 驱动未安装或安装有问题 | 重新安装NVIDIA驱动 |
| 只能看到部分GPU | PCIe供电或连接问题 | 检查硬件连接,重启服务器 |
| GPU显示但不工作 | 驱动版本不匹配 | 更新驱动到合适版本 |
| 权限不足 | 当前用户不在video组 | 将用户加入video组:sudo usermod -a -G video 用户名 |
有个小技巧,如果你怀疑某块GPU有问题,可以单独查询它的信息:
nvidia-smi -i 0
这里的0是GPU编号,你想查哪块就改成对应的编号。
GPU监控与日常维护建议
了解了怎么查看GPU信息之后,更重要的是要做好日常的监控和维护。毕竟这些卡都不便宜,坏了可是要肉疼的。
我建议定期检查以下几个方面:
- 温度监控:GPU长时间在高温下工作会影响寿命,最好保持温度在85度以下
- 显存使用:避免显存长期处于满载状态
- 驱动更新:定期检查并更新到稳定版本的驱动
- 清洁维护:定期清理服务器内部的灰尘,保证散热效果
你可以设置一个定时任务,每周自动生成一份GPU健康报告,这样就能及时发现问题。
好了,关于Linux下查看GPU信息的方法就介绍到这里。其实这些命令都不难,关键是要多练习,熟能生巧。希望这篇文章能帮你少走些弯路,如果有其他问题,欢迎在评论区交流讨论!
内容均以整理官方公开资料,价格可能随活动调整,请以购买页面显示为准,如涉侵权,请联系客服处理。
本文由星速云发布。发布者:星速云。禁止采集与转载行为,违者必究。出处:https://www.67wa.com/141238.html