从代码和公式来看,
SiLU是Swish的一种,换句话说
SiLU是Swish的一种情况。
SiLU(x)=x⋅Sigmoid(x)
SiLU(x) = x cdot Sigmoid(x)
SiLU(x)=x⋅Sigmoid(x)
Swish(x)=x⋅Sigmoid(βx)
Swish(x) = x cdot Sigmoid(beta x)
Swish(x)=x⋅Sigmoid(βx)
Swish原文:https://arxiv.org/pdf/1710.05941.pdf
SiLU的出处没有找到。
主
版权声明:
本文来源网络,所有图片文章版权属于原作者,如有侵权,联系删除。
本文网址:https://www.mushiming.com/mjsbk/6732.html