回归中不缩小偏差（截距）项的原因

21

对于线性模型，收缩项始终为。 $y=\beta_0+x\beta+\varepsilon$ $P(\beta)$

我们不缩小偏差（拦截）项的原因是什么？我们是否应该在神经网络模型中缩小偏差项？ $\beta_0$

— 伊柳尤格
source

scikit-learn中使用的用于logistic回归的liblinear库惩罚了偏差项（我认为这是一个实现工件，偏差被作为额外的输入变量来处理）

— seanv507

33

Hastie等人的《统计学习的要素》。如下定义岭回归（第3.4.1节，公式3.41）：即明确将拦截项从山脊罚中排除。

\hat{β}^{r i d g e} = \underset{β}{a r g m i n} {\sum_{i = 1}^{N} (y_{i} - β_{0} - \sum_{j = 1}^{p} x_{i j} β_{j})^{2} + λ \sum_{j = 1}^{p} β_{j}^{2}},

$\hat \beta{}^\mathrm{ridge} = \underset{\beta}{\mathrm{argmin}}\left\{\sum_{i=1}^N(y_i - \beta_0 - \sum_{j=1}^p x_{ij}\beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2\right\},$

β_{0}

$\beta_0$

然后他们写道：

[...]请注意，截距已被排除在惩罚条款之外。拦截的惩罚将使程序取决于为选择的原点; 也就是说，将常数添加到每个目标不会简单地导致预测偏移相同的量。 $\beta_0$ $Y$ $c$ $y_i$ $c$

实际上，在存在截距项的情况下，将添加到所有只会简单地导致增加，并且相应地所有预测值也会增加。如果截距受到惩罚，则情况并非如此：将必须增加小于。 $c$ $y_i$ $\beta_0$ $c$ $\hat y_i$ $c$ $\beta_0$ $c$

实际上，线性回归有几个不错且方便的属性，这取决于是否存在适当的（未受罚的）截距项。例如平均值和的平均值相等，并且（因此）的平方的多个相关系数等于决定系数：请参见此线程一种解释：多重相关系数和确定系数几何解释。 $y_i$ $\hat y_i$ $R$ $R^2$

（ [R ）^{2} = \cos^{2} （ \hat{ÿ} ， ÿ ） = \frac{‖ \hat{ÿ} ‖^{2}}{‖ ÿ ‖^{2}} = {[R}^{2} ，

$(R)^2 = \cos^2(\hat {\mathbf y}, \mathbf y) = \frac{\|\hat{\mathbf y}\|^2}{\|\mathbf y\|^2} = R^2,$

R

$R$

R^{2}

$R^2$

对拦截进行惩罚将导致所有这些不再成立。

— 变形虫说恢复莫妮卡
source

2

回想一下收缩或正则化的目的。这是为了防止学习算法过度拟合训练数据或等效地-防止选择任意大的参数值。对于存在噪声的情况下训练样本多于几个的数据集，这更有可能（关于噪声的存在及其影响的非常有趣的讨论在Yaser Abu-Mustafa的“从数据中学习”中进行了讨论）。在没有规则化的情况下从嘈杂数据中学到的模型可能会在一些看不见的数据点上表现不佳。

考虑到这一点，请想象您有要分类为两个类别的2D数据点。固定所有偏置参数后，更改偏置项只会使边界向上或向下移动。您可以将其推广到更高维度的空间。

学习算法不能为偏差项设置任意大的值，因为这可能会导致总损失值（模型将不适合训练数据）。换句话说，在给定一些训练集的情况下，您（或一种学习算法）无法任意将飞机移离真实飞机。

因此，没有理由缩小偏差项，学习算法将找到合适的方案而没有过度拟合的风险。

最后一点：我在一些论文中看到，在高维空间中进行分类时，并不需要严格地对偏差项建模。这可能适用于线性可分离的数据，因为添加了更多维度后，就有更多的可能性来分离这两个类。

— 弗拉迪斯拉夫（Vladislavs Dovgalecs）
source

您能为一些论文提供参考吗？这些论文说：“在高维空间中进行分类时，没有严格的建模偏倚项的必要条件”？

— chandresh '16

1

截距项绝对不能避免收缩。一般的“收缩”（即正则化）公式将正则化项置于损失函数中，例如：

$RSS(\beta) = \|y_i - X_i \beta \|^2$

$RegularizedLoss(\beta) = RSS(\beta) - \lambda f(\beta)$

其中通常与Lebesgue规范有关，而是控制我们对收缩项施加多少权重的标量。 $f(\beta)$ $\lambda$

通过将收缩项放在这样的损失函数中，会对模型中的所有系数产生影响。我怀疑您的问题源于对符号的混淆，其中（在）是所有系数的矢量，包括。您的线性模型最好写成，其中是“设计矩阵”，我的意思是这是您的数据，在数据的左侧附加了列（以截取）。 $\beta$ $P(\beta)$ $\beta_0$ $y = X \beta + \epsilon$ $X$ $1's$

现在，我不能说神经网络的正则化。对于神经网络，您可能想要避免偏差项的缩小或以其他方式设计与上述公式不同的正则损失函数。我只是不知道但是我强烈怀疑权重和偏差项是一起正规化的。

— 大卫·马克思
source

2

这取决于惯例，但是例如Hastie等人的《统计学习的要素》。定义岭回归，以使拦截不受惩罚（请参阅我的答案）。我怀疑这可能比其他标准更为标准。

— 变形虫说恢复莫妮卡

1

我不确定大卫·马克思的上述回答是否正确。根据吴安德（Andrew Ng）的说法，按照惯例，偏差/截取系数通常不会在线性回归中进行正则化，并且无论如何，将其进行正则化都不会产生重大影响。

— Xenocyon
source

1

我将给出最简单的解释，然后进行扩展。

ÿ_{Ť} = ε_{Ť}

$y_t=\varepsilon_t$

E [ε_{t}] = E [y_{t}] \neq 0

$E[\varepsilon_t]=E[y_t]\ne 0$

$\beta$

$\beta$ $\beta_0$

ÿ_{Ť} = β_{0} + ε_{Ť}

$y_t=\beta_0+\varepsilon_t$

Ë [ÿ_{Ť}] = β_{0} + Ë [ε_{Ť}]

$E[y_t]=\beta_0+E[\varepsilon_t]$

E [ε_{t}] = 0

$E[\varepsilon_t]=0$

β_{0} = μ = E [y_{t}]

$\beta_0=\mu=E[y_t]$

实际上，该模型不像原始模型那样性感。但是，这是一个合法的模型。例如，您可以在其上运行ANOVA。

$\beta_0=E[y_t]$

— 阿克萨卡尔族
source