有关标准化岭回归的问题

17

大家好，我发现了一两篇使用山脊回归的论文（用于篮球数据）。如果运行ridge回归，总是被告知要标准化我的变量，但是却被告知要这样做，因为ridge是比例变量（ridge回归并不是我们课程的真正组成部分，因此我们的讲师会略过它）。

我读过的这些论文并未对它们的变量进行标准化，这让我感到有些惊讶。他们还通过交叉验证最终获得了很大的lambda值（大约在2000-4000水平），并且我被告知这是由于未对变量进行标准化。

不标准化变量到底会如何导致较高的lambda值，并且，一般而言，不标准化变量会有什么后果？真的有什么大不了的吗？

任何帮助深表感谢。

regression standardization

— l_davies93
source

18

岭回归通过对系数大小进行惩罚来使线性回归正规化。因此，系数朝着零和彼此缩小。但是，如果发生这种情况，并且如果自变量的比例不同，则收缩是不公平的。两个具有不同比例的自变量将对惩罚项产生不同的影响，因为惩罚项是所有系数的平方和。为避免此类问题，通常将自变量居中并缩放以具有方差1。

[稍后编辑以回答评论]

现在假设您有一个独立的变量。现在，人的身高可能以英寸，米或千米为单位。如果以千米为单位，则比标准线性回归要大得多，系数项比以毫米为单位要大得多。 $height$

λ的惩罚项与表示平方损失函数有关等于或小于给定常数的平方系数之和相同。这意味着，较大的lambda将为系数的平方和提供更多的空间，而较低的lambda将为较小的空间。更大或更小的空间意味着系数的绝对值更大或更小。

通过不使用标准化，然后拟合模型可能需要较大的系数绝对值。当然，由于变量在模型中的作用，我们自然可能会有一个较大的系数值。我声明的是，由于未缩放，该值可能具有人为夸大的值。因此，缩放也减少了对大系数值的需求。因此，λ的最佳值通常会较小，这对应于系数平方值的较小总和。

— 拉帕约
source

谢谢。但是，如何标准化不会导致更高的估计测试误差（通过交叉验证），从而需要更高的λ？

— l_davies93

我在解答中附加了我的想法

— rapaio

我知道这是一个古老的问题，但是如果您将数据从公里转换为米，那么您能否解释一下为什么“调整参数”应该变大

— Leo96，18年

1

尽管迟到了四年，但希望有人能从中受益。...据我了解，coeff是单位变量中自变量（dy / dx）的目标变量变化量。假设我们正在研究体重与身高之间的关系，并且体重以千克为单位。当我们使用千米作为高度时，您可以想象到大多数数据点（用于人类身高）紧密包装在一起。因此，对于高度的微小变化，重量将发生巨大变化（假设重量随高度增加）。比率dy / dx将会很大。另一方面，如果以毫米为单位测量高度，则有关高度属性的数据将分布得很广。高度的单位变化不会使重量dy显着变化dy / dx很小，几乎接近于0。

— 用户名
source