5 考虑到辍学会抑制模型中的某些神经元,为什么添加辍学层会改善深度/机器学习性能? 如果删除一些神经元会产生更好的性能模型,为什么不首先使用层数更少,神经元更少的简单神经网络呢?为什么要在开始时建立一个更大,更复杂的模型,而在以后取消它的一部分呢? 13 machine-learning deep-learning keras regularization dropout
2 为什么在L2上使用L1正则化? 使用损失函数进行线性回归模型,为什么我应该使用而不是L 2正则化?大号1个L1L_1大号2L2L_2 是否可以防止过度拟合?它是确定性的(因此总是唯一的解决方案)?在特征选择上是否更好(因为产生稀疏模型)?它会分散特征之间的权重吗? 10 linear-regression regularization
3 在神经网络中选择正则化方法 训练神经网络时,至少有四种方法可以使网络规范化: L1正则化 L2正则化 退出 批量归一化 当然还有权重共享和减少连接数之类的其他事情,从严格意义上讲,这可能不是正则化。 但是,如何选择使用哪些正则化方法呢?是否有比“仅尝试一切,看看有什么用”的更原则的方法? 9 neural-network regularization
2 是否有研究检查辍学与其他正则化的研究? 是否有发表的论文显示出神经网络正则化方法的差异,最好在不同的域(或至少在不同的数据集)上? 我之所以问是因为我目前的感觉是,大多数人似乎只使用辍学来实现计算机视觉的正则化。我想检查是否有理由(不)使用不同的正则化方式。 9 neural-network computer-vision convnet regularization dropout