Answers:
Hastie等人的《统计学习的要素》。如下定义岭回归(第3.4.1节,公式3.41):即明确将拦截项从山脊罚中排除。 β 0
然后他们写道:
[...]请注意,截距已被排除在惩罚条款之外。拦截的惩罚将使程序取决于为选择的原点; 也就是说,将常数添加到每个目标不会简单地导致预测偏移相同的量。 ÿ Ç ÿ 我 Ç
实际上,在存在截距项的情况下,将添加到所有只会简单地导致增加,并且相应地所有预测值也会增加。如果截距受到惩罚,则情况并非如此:将必须增加小于。ÿ 我β 0 Ç ÿ我 Ç β 0 Ç
实际上,线性回归有几个不错且方便的属性,这取决于是否存在适当的(未受罚的)截距项。例如平均值和的平均值相等,并且(因此)的平方的多个相关系数等于决定系数:请参见此线程一种解释:多重相关系数和确定系数几何解释。ÿ我 - [R [R 2([R )2 = COS 2(Ý,ÿ)= ‖ ÿ ‖ 2 - [R[R2
对拦截进行惩罚将导致所有这些不再成立。
回想一下收缩或正则化的目的。这是为了防止学习算法过度拟合训练数据或等效地-防止选择任意大的参数值。对于存在噪声的情况下训练样本多于几个的数据集,这更有可能(关于噪声的存在及其影响的非常有趣的讨论在Yaser Abu-Mustafa的“从数据中学习”中进行了讨论)。在没有规则化的情况下从嘈杂数据中学到的模型可能会在一些看不见的数据点上表现不佳。
考虑到这一点,请想象您有要分类为两个类别的2D数据点。固定所有偏置参数后,更改偏置项只会使边界向上或向下移动。您可以将其推广到更高维度的空间。
学习算法不能为偏差项设置任意大的值,因为这可能会导致总损失值(模型将不适合训练数据)。换句话说,在给定一些训练集的情况下,您(或一种学习算法)无法任意将飞机移离真实飞机。
因此,没有理由缩小偏差项,学习算法将找到合适的方案而没有过度拟合的风险。
最后一点:我在一些论文中看到,在高维空间中进行分类时,并不需要严格地对偏差项建模。这可能适用于线性可分离的数据,因为添加了更多维度后,就有更多的可能性来分离这两个类。
截距项绝对不能避免收缩。一般的“收缩”(即正则化)公式将正则化项置于损失函数中,例如:
其中通常与Lebesgue规范有关,而是控制我们对收缩项施加多少权重的标量。λ
通过将收缩项放在这样的损失函数中,会对模型中的所有系数产生影响。我怀疑您的问题源于对符号的混淆,其中(在)是所有系数的矢量,包括。您的线性模型最好写成,其中是“设计矩阵”,我的意思是这是您的数据,在数据的左侧附加了列(以截取)。P (β )β 0 Ý = X β + ε X 1 '小号
现在,我不能说神经网络的正则化。对于神经网络,您可能想要避免偏差项的缩小或以其他方式设计与上述公式不同的正则损失函数。我只是不知道 但是我强烈怀疑权重和偏差项是一起正规化的。