1
2
不,这不是正常的,分布式训练确实应该用来加速训练过程,而不是减缓训练过程。然而,有很多错误的方法。 根据提供的数据,工人们似乎仍在单一培训(“设备”)模式下运行,或者kv_store创建不正确。因此,每个工人只是训练自己的榜样。在这种情况下,您应该看到16个历元后的验证结果接近于8个历元的单机(只是因为在集群中您正在分割数据)。在你的情况下,它是0.797006对0.809072。取决于你做了多少实验,这些数字可能会被视为相等。我将重点研究集群如何引导。 如果您需要深入了解如何创建kv_存储(或这是什么)并将其用于分布式培训,请参阅 this article 一般来说,为了给出更好的答案,pleace今后至少提供以下信息:
编辑 尽管开始训练的呼叫看起来是正确的:
我再次建议大家阅读 the article |