当前位置:   article > 正文

深度学习笔记——sgd与adam与weight decay_sgd weightdecay

sgd weightdecay

https://zhuanlan.zhihu.com/p/32230623
sgd与动量无关
sgdm引入了一阶动量
adam引入了一阶动量与二阶动量
https://blog.csdn.net/program_developer/article/details/80867468
权重衰减作用于L2正则化,使参数变小,减少过拟合。
为什么参数变了可以防止过拟合,因为参数越小模型复杂度越低,对数据的拟合效果更好,同时较大的参数,无关特征的影响也会更小。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/946048
推荐阅读
相关标签
  

闽ICP备14008679号