服务器深度学习任务如何精准指定GPU运行指南

为啥要专门指定GPU跑程序？

这事儿我刚开始接触的时候也纳闷过，服务器上明明有好几块显卡，为啥程序老是挤在同一块上跑。后来才发现，如果不主动指定，很多深度学习框架会默认使用第0块GPU。这就好比你去餐厅吃饭，服务员总把你安排在同一个位置，不管其他区域有多空。

服务器指定gpu跑程序

特别是在多人共用的服务器环境里，经常看到有人抱怨：“我的程序怎么这么慢？”结果一看，他的模型和另外三个人的任务全挤在RTX 3090上，而旁边的A100却闲着。这种资源浪费实在太可惜了！

快速查看服务器上的GPU状态

在动手之前，咱们得先搞清楚服务器的“家庭情况”。最常用的命令就是nvidia-smi，这个命令能让你像看监控一样观察每块GPU：

$ nvidia-smi
+–+
| NVIDIA-SMI 470.57.02 Driver Version: 470.57.02 |
|-+-+-+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 NVIDIA GeForce … On | 00000000:3B:00.0 Off | N/A |
| 30% 34C P8 25W / 250W | 1578MiB / 11264MiB | 0% Default |
| 1 NVIDIA GeForce … On | 00000000:AF:00.0 Off | N/A |
| 0% 29C P8 22W / 250W | 6MiB / 11264MiB | 0% Default |

看懂这个表格很重要。GPU-Util告诉你显卡的忙碌程度，Memory-Usage显示显存用了多少。我一般会等大家都下班后跑大模型，那时候服务器最空闲，速度能快不少。

环境变量法：最直接的指定方式

这是我最开始学会的方法，简单粗暴但有效。只需要在运行程序前设置一个环境变量：

CUDA_VISIBLE_DEVICES=1 python train.py
这样程序就只会看到第1块GPU
CUDA_VISIBLE_DEVICES=0,2 python train.py
同时使用第0和第2块GPU
CUDA_VISIBLE_DEVICES= python train.py
强制使用CPU，有时候调试用得上

我有个同事闹过笑话，他设置了CUDA_VISIBLE_DEVICES=3，结果服务器只有两块显卡，程序直接报错找不到设备。所以一定要先确认服务器到底有几块卡！

在PyTorch代码中灵活控制GPU

如果你用的是PyTorch，那控制GPU的方式就更多样了。我比较喜欢在代码里直接指定，这样更直观：

import torch
device = torch.device(‘cuda:1’ if torch.cuda.is_available else ‘cpu’)
model = model.to(device)

对于数据并行训练，可以这样写：

if torch.cuda.device_count > 1:
model = torch.nn.DataParallel(model, device_ids=[0, 1])

记得有一次我忘了写model.to(device)，结果模型在CPU上跑了半天，我还纳闷怎么这么慢，真是白白浪费了时间。

TensorFlow用户的GPU指定技巧

TensorFlow的用户也别着急，你们也有自己的方法。我最常用的是tf.config：

import tensorflow as tf
gpus = tf.config.experimental.list_physical_devices(‘GPU’)
tf.config.experimental.set_visible_devices(gpus[1], ‘GPU’)

如果想限制显存使用，防止把整块卡的显存都占了，可以这样设置：

for gpu in gpus:
tf.config.experimental.set_memory_growth(gpu, True)

这个方法特别适合团队环境，大家都能和谐共用资源，不会因为某个人开了个大模型就把整块卡的显存吃光。

实际工作中的GPU分配策略

在真实的工作环境里，咱们不能只顾自己爽，还得考虑团队协作。我总结了几条实用策略：

场景	推荐策略	理由
个人开发调试	使用负载最低的GPU	不影响他人，自己调试也快
模型训练	根据模型大小选择GPU	小模型用低端卡，大模型用高端卡
多人协作	提前沟通分配	避免冲突，提高整体效率
生产环境	固定GPU分配	保证服务稳定性

我们团队现在养成了个好习惯，每天早会时大家会简单说一下今天大概要用哪些GPU，这样就很少出现抢资源的情况了。

常见问题排雷指南

新手在使用指定GPU功能时，经常会遇到这些问题：

“指定了GPU，但程序还是跑在0号卡上”
检查代码里有没有其他地方覆盖了你的设置
“显存不足错误”
试试设置内存增长，或者换块显存更大的卡
“多卡训练速度反而变慢”
可能是数据通信成了瓶颈，减少同步频率试试
“程序在不同GPU上表现不一致”
检查CUDA驱动和框架版本是否一致

我印象最深的是有次帮实习生排查问题，他信誓旦旦说指定了GPU，结果一看，他是在Python代码里设置的环境变量，这时候已经晚了，应该在启动脚本里设置。

进阶技巧：GPU监控与自动化

等你熟练了基础操作后，可以试试这些进阶技巧。我写了个简单的监控脚本，每隔30秒检查一次GPU状态：

import subprocess
import time
def monitor_gpu:
while True:
result = subprocess.run([‘nvidia-smi’], capture_output=True, text=True)
print(result.stdout)
time.sleep(30)

还可以结合任务队列，当检测到某块GPU空闲时自动开始训练任务。这样晚上睡觉的时候也能充分利用计算资源，第二天早上起来就看到训练结果，那种感觉特别棒！

说到底，掌握服务器GPU指定技巧就像学开车一样，刚开始可能觉得复杂，但一旦熟练了，就能在算力高速公路上自由驰骋。记住，好的习惯不仅能提高你自己的效率，也能让整个团队的工作更顺畅。现在就去你的服务器上试试这些方法吧！

内容均以整理官方公开资料，价格可能随活动调整，请以购买页面显示为准，如涉侵权，请联系客服处理。

本文由星速云发布。发布者：星速云。禁止采集与转载行为，违者必究。出处：https://www.67wa.com/146040.html