![]() |
1
0
所以你要问的基本上是“我们能把激活的一部分移回RAM来计算批中剩余的样本吗?” 如果是这样,答案是“可能是的,但代价是速度太快”,因为从RAM到GPU的拷贝非常昂贵。 原因是,您还必须再次复制批处理才能执行反向传播(至少我假设的是gpu上反向传播的内部机制)。 这意味着,只需在CPU上计算批处理可能会更快,因为这可能不会慢得多,因为您节省了昂贵的复制操作。另外,批量较小的SGD可以 actually beneficial to your convergence ,所以我不明白你为什么会提出相反的观点(尽管,与NN,你永远不会完全知道,这可能取决于你的任务……)。 |