一个sigmoid神经元，当偏离值大的时候导数反而小，导致调整慢，怎么解决？

sigmoid激励函数是个很敏感的函数
1/(1+exp(-x))在x大于10的时候，计算结果就差不多是1了，此时sigmoid的导函数sigmoid(x)(1-sigmoid(x))几乎为0，如果开发的时候用的是C/C++，训练的时候由于double类型加减时数量级差距过大训练无效，如果是python这种能给出高精度浮点数的语言，训练的效果也几乎没有。

对于sigmoid的使用，在初始化权重，偏置时，结合输入数据，初步估算一下权重和偏置的大小范围，以免一开始初始化就过大，从而导致训练的时候导数几乎为0。sigmoid导数最大的时候x=0，根据以往经验来看x在-4到4之间，sigmoid的导数都是比较精确且比较大的。(然而并不能大于0.25)
如果训练的模型深度比较足，tanh,ReLU，Leaky_ReLU都是不错的激励函数，而sigmoid因为梯度消失就鲜有出现了，使用的激励函数类型还是要看具体情况而定。

Sigmoid激活函数，在数值较大或者较小的时候会难以训练，使用ReLU激活函数max(0,x)。

前面加 btach normalization?

可以考虑一下batch normalize，尤其是sigmoid激活函数，通过batchnorm把输入重新拉回到均值0方差1的正态分布上，避免梯度消失的问题。
不过有一点要注意一下，因为不一定都要标准正态，为了增强网路表达能力，经常在batchnorm之后再加两个调节参数，具体可以百度一下。

方法有很多，基本思路可以归为以下两类。
1. 自适应学习率。 learning rate 是动态调整，一般开始时候大，后面慢慢调小。
2. 采用其他损失/激活函数。如hinge损失函数。

一般这种行为是公式写错，或者下标写错，请重新阅读BP1234条公式来源

推荐阅读：

一个sigmoid神经元，当偏离值大的时候导数反而小，导致调整慢，怎么解决？

热门新闻

周热门

一个sigmoid神经元，当偏离值大的时候导数反而小，导致调整慢，怎么解决？

为什么softmax很少会出现[0.5，0.5]？

人工智慧领域里的Interpretability和Explainability有什么区别吗？

本人硕一小白，最近找课题，想问问深度学习GAN这个方向有哪些具有实际应用价值还好发文章的课题?

为什么batch_size 增大会增加每一步的运算时间？

深度学习如何解决低信噪比下的检测识别问题？

在2019年，使用AMD显卡是否相当于告别深度学习，未来CUDA在机器学习领域的垄断有可能被打破吗？

如何自学《模式识别与机器学习》这本书？

有哪些非黑箱的机器学习模型，或者预测演算法？

ACL 2019将会有哪些值得关注的论文？

如果不从事机器学习，人工智慧，大数据这块，未来还有机会在互联网赚钱养家吗？本人三本院校软体专业。？

新手如何上手机器学习？

经典Python入门书籍都是python2.x, 先学这些再转3.x难不难？

深度学习，手写数字识别和语义分割肺结节哪个好上手？

用mAP衡量目标检测的性能是否科学？

如何看待 2020 年 3 月 28 日华为开源的深度学习框架 MindSpore？

热门新闻

周热门