Linux服务器多GPU环境配置与管理全攻略

在深度学习和大规模计算任务日益普及的今天，配备多块GPU的Linux服务器已经成为科研机构和企业的标准配置。面对这种多GPU环境，如何合理分配和使用这些宝贵的计算资源，成为每个开发者和研究人员必须掌握的技能。今天我们就来深入探讨这个话题，帮助你从新手变成GPU资源管理的高手。

linux服务器指定所有gpu

为什么需要指定GPU设备？

想象一下这样的场景：实验室的服务器配备了4块高性能GPU，你和几位同学同时在上面跑不同的实验。如果没有合理的GPU分配机制，可能会出现多个人同时使用同一块GPU的情况，导致显存不足、程序崩溃，或者某块GPU满载运行而其他GPU却处于闲置状态。这种资源使用的混乱不仅影响每个人的工作效率，还会造成硬件资源的极大浪费。

指定GPU设备的核心目的可以总结为三点：避免资源冲突、提高利用率和实现任务隔离。通过精确控制每块GPU的使用，我们可以确保每个人的任务都能顺利运行，同时让昂贵的硬件发挥最大价值。

查看GPU状态与基本信息

在开始分配GPU之前，我们首先要了解服务器的GPU配置情况。这就像打仗前要先侦察地形一样重要。最常用的工具就是nvidia-smi命令，它是NVIDIA显卡管理的瑞士军刀。

在终端输入nvidia-smi，你会看到一个详细的表格，包含以下关键信息：

GPU编号：从0开始的唯一标识符
显存使用情况：包括已使用和总量
GPU利用率：当前GPU的计算负载
温度信息：确保GPU在安全温度下运行
运行进程：当前使用GPU的用户和程序

通过这个命令，你可以快速判断哪些GPU正在被使用，哪些处于空闲状态，以及每块GPU的负载情况。比如发现3号GPU已经满载运行，就应该避免再往这块GPU上分配新任务。

环境变量法：最灵活的GPU指定方式

使用环境变量CUDA_VISIBLE_DEVICES是指定GPU最常用也最推荐的方法。这种方法的好处是不需要修改程序代码，只需要在运行程序时加上相应的环境变量设置即可。

基本语法是这样的：CUDA_VISIBLE_DEVICES=GPU编号 python 你的程序.py

让我通过几个具体例子来说明：

如果你只想使用第一块GPU，可以这样写：
CUDA_VISIBLE_DEVICES=0 python train_model.py

这种方法的妙处在于，它不仅指定了使用哪块GPU，还会重新编号GPU设备。比如当你指定CUDA_VISIBLE_DEVICES=2,3时，系统会把原来的2号GPU重新编号为0，3号GPU重新编号为1。这样在程序内部调用cuda:0实际上使用的是原来的2号GPU。

下面是一个使用表格来总结不同使用场景的例子：

使用场景	命令示例	效果说明
使用单块GPU	CUDA_VISIBLE_DEVICES=1 python run.py	只使用1号GPU，其他GPU对程序不可见
使用多块GPU	CUDA_VISIBLE_DEVICES=0,2,3 python run.py	使用0、2、3号GPU，1号GPU被屏蔽
不使用GPU	CUDA_VISIBLE_DEVICES=”” python run.py	完全屏蔽GPU，程序在CPU上运行
按顺序使用GPU	CUDA_VISIBLE_DEVICES=2,3 python run.py	使用2、3号GPU，并在程序内部重新编号为0、1

代码内指定：程序级的GPU控制

除了在终端设置环境变量，我们还可以在Python代码内部直接指定要使用的GPU设备。这种方法适合当你需要对GPU使用有更精细控制的情况。

在代码开头加入这几行：

import os
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID
os.environ["CUDA_VISIBLE_DEVICES"] = "0,1

这种方法的优点是代码自包含，不需要用户记住复杂的命令行参数。缺点是缺乏灵活性，如果需要改变GPU配置，就必须修改源代码。

在PyTorch框架中，还可以使用torch.cuda.set_device来指定GPU：

import torch
torch.cuda.set_device(1)  # 使用1号GPU
model.cuda  # 模型会自动加载到指定的GPU上

对于TensorFlow用户，设置方式略有不同：

import tensorflow as tf
with tf.device('/gpu:2'):
# 在这里定义需要在2号GPU上运行的操作
a = tf.constant([1.0, 2.0, 3.0], shape=[3], name='a')

GPU显存管理：避免内存溢出的技巧

即使正确指定了GPU设备，我们仍然可能遇到CUDA out of memory的错误。这是因为深度学习模型通常需要大量显存，而GPU的显存是有限的。合理的显存管理至关重要。

在TensorFlow中，我们可以通过配置GPU选项来控制显存使用：

config = tf.ConfigProto
config.gpu_options.per_process_gpu_memory_fraction = 0.9  # 占用90%的显存
session = tf.Session(config=config)

这种方法设置了显存使用上限，确保不会因为单个程序占用所有显存而影响其他用户的使用。

另一种更灵活的方法是设置allow_growth：

config = tf.ConfigProto
config.gpu_options.allow_growth = True  # 按需增长
session = tf.Session(config=config)

这种方法让TensorFlow开始时分配少量显存，然后根据程序需要逐步增加，可以有效避免显存浪费。

在PyTorch中，显存管理相对自动化，但也可以通过torch.cuda.empty_cache来手动清理缓存。

实战案例：多用户环境下的GPU调度策略

让我们来看一个真实的实验室场景。假设一个实验室有8个学生共用一台配备4块GPU的服务器，如何确保大家都能顺利进行实验呢？

建议建立GPU使用登记制度。可以通过一个共享的文档或者简单的Web应用来记录每个人的GPU使用情况。这样每个人在运行任务前，都能清楚地了解当前的GPU状态。

制定合理的优先级规则。比如，临近毕业的学生、紧急的项目可以优先使用GPU资源。同时设置最长使用时间，避免某个人长期占用GPU。

对于需要多块GPU的大模型训练任务，建议在夜间或者周末进行，这时候其他用户的使用需求较少，可以减少对他人的影响。

推荐使用GPU监控工具来实时跟踪GPU状态。除了nvidia-smi，还可以使用gpustat这样的工具，它提供了更加友好和直观的GPU状态显示。

通过合理指定GPU设备、精细管理显存使用、建立公平的调度机制，我们完全可以让多GPU服务器发挥最大效能，支持更多的研究任务。记住，好的GPU使用习惯不仅是对自己负责，也是对团队其他成员的尊重。

内容均以整理官方公开资料，价格可能随活动调整，请以购买页面显示为准，如涉侵权，请联系客服处理。

本文由星速云发布。发布者：星速云。禁止采集与转载行为，违者必究。出处：https://www.67wa.com/141226.html