2)Sigmoid的输出不是0均值的这会导致后层的神经元的输入是非0均值的信号,这会对梯度产生影响。(1)容易出现梯度消失(gradientvanishing)的现象当
激活函数接近饱和区时,变化太缓慢,导数接近0,根据后向传递的数学依据是微积分求导的链式法则,当前导数需要之前各层导数的乘积,几个比较小的数相乘,导数结果很接近0,从而无法完成深层网络的训练。ReLU有很多变种,RReLU是RandomReLU的意思,在RReLU中,负值的斜率在训练中是随机的,在之后的测试中就变成了固定的了。.........
版权声明:
本文来源网络,所有图片文章版权属于原作者,如有侵权,联系删除。
本文网址:https://www.mushiming.com/mjsbk/14288.html