人工智能：梯度累计 GRADIENT_ACCUMULATION_STEPS

Posted on 2025-06-20 Edited on 2025-06-20 In Artificial Intelligence Waline:

GRADIENT_ACCUMULATION_STEPS（梯度累积步数）是一种在不增加显存（VRAM）消耗的情况下，模拟出更大批量（Batch Size）训练效果的关键技术。

在标准的神经网络训练中，一个训练步骤（step）包含以下过程：

而当使用梯度累积时，这个过程发生了变化：

对于第 1 到 N-1 步 (N = GRADIENT_ACCUMULATION_STEPS):

对于第 N 步:

这样一来，虽然硬件上每次只处理了一个小批量，但参数的更新却是基于多个小批量梯度的总和，从而在数学效果上模拟了一个大批量的训练。

有效批量大小 (Effective Batch Size) = PER_DEVICE_TRAIN_BATCH_SIZE * GRADIENT_ACCUMULATION_STEPS * GPU数量

例如，在单张 A100 上，即使你的 PER_DEVICE_TRAIN_BATCH_SIZE 因为显存限制只能设为 2，但只要将 GRADIENT_ACCUMULATION_STEPS 设为 32，你就能达到 2 * 32 = 64 的有效批量大小。

训练时间变长 (Wall-clock Time): 这是最大的代价。虽然模拟了大批量，但计算过程仍然是串行的。权重更新的频率降低了，完成一个 epoch 所需的实际时间会相应增加。例如，累积32步才更新一次，意味着权重更新的频率是原来的 1/32，完成一个 epoch 的总时间大约会是原来的数倍（具体取决于数据加载等其他开销）。
对特定层（如 BatchNorm）的影响: 对于包含批归一化（Batch Normalization）层的模型，梯度累积可能会带来问题。因为 BatchNorm 是在每个微批次上计算均值和方差的，而不是在整个“有效批量”上。这可能导致训练和推理时的统计数据不匹配。不过，现代大型语言模型（LLM）大多使用 Layer Normalization 或 RMS Normalization，它们不受批量大小的影响，因此这个问题在 LLM 训练中基本不存在。

总结: GRADIENT_ACCUMULATION_STEPS 是一种典型的 用时间换显存的策略。它是大规模模型训练中不可或缺的利器，使得个人或小型机构在有限的硬件条件下训练强大的模型成为可能。