代码之家  ›  专栏  ›  技术社区  ›  MeanStreet

测量Nvidia张量磁芯加速

  •  0
  • MeanStreet  · 技术社区  · 5 年前

    我在Volta架构(v100 gpu)上使用Nvidia张量核。我想测量张量核对我的代码的影响(用于测试的张量流/python中的卷积神经网络)。

    如何测量张量核心的加速?有没有可能禁用张量核并运行相同的代码?

    我试过的:

    • 设置 TF_DISABLE_CUDNN_TENSOR_OP_MATH 到1(从 this )但我仍然看到使用了张量核。更准确地说,我看到 nvprof 原木: volta_s884cudnn_fp16 线条(使用此选项消失)和 volta_s884gemm_fp16 (仍然在这里)。旁白:这些线是什么意思?
    • 与没有张量核的pascal架构(p100)上的相同代码相比,这里我看到了30%的加速,但我无法分辨这30%中的哪一部分是由GPU的改进引起的,哪一部分是张量核的性能。
    • 培训同一网络 tf.float16 tf.float32 但同样的结果是,我看到了改进,但无法分辨是什么导致了模型尺寸的减小。

    提前感谢您对此提供的任何帮助/建议。

    1 回复  |  直到 5 年前
        1
  •  0
  •   MeanStreet    5 年前

    我选择了一个黑客来估计张量核的性能增益:

    • 我输入了代码 float32 在Pascal和Volta架构上(评估架构的性能增益)。
    • 我输入了代码 float16 同时,假设架构的性能增益与 浮标32 浮标16 ,我可以估计性能增益的另一部分(在 浮标16 )可归为张量核。