代码之家  ›  专栏  ›  技术社区  ›  Samo Poláček

sigmoid和tanh的数据集值分布

  •  3
  • Samo Poláček  · 技术社区  · 6 年前

    正如许多论文指出的那样,为了更好地学习神经网络曲线,最好以值匹配高斯曲线的方式对数据集进行归一化。

    这是否仅适用于使用sigmoid函数作为挤压函数? 如果不是,什么样的偏差对tanh挤压函数最好?

    1 回复  |  直到 6 年前
        1
  •  2
  •   Maxim    6 年前

    这是否仅适用于使用sigmoid函数作为挤压函数?

    不,激活分布显然取决于激活函数,这就是为什么基于sigmoid和relu的神经网络的初始化技术不同的原因。查看Xavier和He初始化之间的差异 in this question . 输入分布也是如此。

    若并没有,那个么对于tanh挤压函数来说,什么样的偏差是最好的呢?

    但是 tanh 是缩放和移动的 sigmoid :

    tanh(x) = 2⋅sigmoid(2x) - 1
    

    因此,如果乙状结肠激活的激活是正态分布的,那么tanh的激活仍然是正态分布的。仅使用标度标准偏差和移动平均值。因此,相同的输入分布对tanh来说是可行的。如果希望获得相同的高斯方差,可以通过以下方式缩放输入 sqrt(2) ,但它真的没有那么重要。