提升:为什么将学习率称为正则化参数?
所述学习率参数(在梯度)推进收缩每个新的基础模型-通常浅树形是在串联加入的贡献。它被证明可以极大地提高测试仪的精度,这是可以理解的,因为步数越小,损耗函数的最小值就可以越精确地达到。 ν∈[0,1]ν∈[0,1]\nu \in [0,1] 我不明白为什么学习率被视为正则化参数?引用统计学习的要素,第10.12.1节,第364页: 控制树的数量不是唯一可能的正则化策略。与山脊回归和神经网络一样,也可以使用收缩技术。值越小 (收缩率越大),对于相同数量的迭代M,导致更大的训练风险。因此,ν和M都控制训练数据的预测风险。νν\nuMMMνν\nuMMM 正则化意味着“避免过度拟合的方式”,因此很明显迭代次数在这方面至关重要(M太大会导致过度拟合)。但:MMMMMM 值越小(收缩率越大),对于相同数量的迭代M,导致更大的训练风险。νν\nuMMM 仅仅意味着在低学习率的情况下,需要更多的迭代才能在训练集上达到相同的准确性。那么,这与过度拟合有何关系?