代码之家  ›  专栏  ›  技术社区  ›  aerin

Pytorch-为什么要累积默认的.gradient模式?

  •  2
  • aerin  · 技术社区  · 6 年前

    为什么作者不让它覆盖梯度呢?有没有什么具体的理由让它不断累积?

    1 回复  |  直到 6 年前
        1
  •  3
  •   Umang Gupta    6 年前

    因为如果你在向前传球中使用同一个网络两次(或相同的权重),它应该累积而不是覆盖。另外,由于pytorch计算图是由run定义的,因此累积是有意义的。看到了吗 https://discuss.pytorch.org/t/why-do-we-need-to-set-the-gradients-manually-to-zero-in-pytorch/4903/9