岭回归的假设是什么,以及如何对其进行检验?


21

考虑用于多元回归的标准模型,其中,因此误差的正态性,同和不相关性都成立。

Y=Xβ+ε
εN(0,σ2In)

假设我们通过向的对角线的所有元素添加相同的少量量来执行岭回归:X

βridge=[XX+kI]1XY

尽管\ beta_ \ mathrm {ridge}\ beta的有偏估计量,但仍有一些值的岭系数比OLS的均方根误差小。实际上,k是通过交叉验证获得的。kβridgeβk

这是我的问题:岭模型背后的假设是什么?更具体地说,

  1. 普通最小二乘法(OLS)的所有假设在岭回归中是否有效?

  2. 如果对问题1回答为“是”,我们如何使用\ beta的有偏估计量来检验同方差和缺乏自相关性β

  3. 是否有任何工作可用于在岭回归下测试其他OLS假设(均方差性和缺乏自相关性)?


6
请注意,OLS不假定预测变量是独立的。做出此类假设的只有某些特定的解决方法或公式。重要的是如何选择岭回归乘数,而不是的估计值可能有偏差。如果通过查看山脊轨迹来选择该乘数,那么您实际上就没有一种量化不确定性的方法,这使线性回归理论中的大多数形式诊断测试都产生了疑问。这使我问您“岭回归”的实际含义:您究竟如何估计其参数?β
ub

也许我错了,但是考虑多元回归的标准模型。并且如果不是完全秩,这将导致不可逆矩阵,特别是在X的维数较大的情况下。我已经编辑了我的问题。谢谢。βOLS=(XX)1XYXXX
Akyves

1
线性回归可以很好地处理共线性,只要它不是“太大”即可。
jona 2015年

3
那不是多元回归的模型:这只是表达最小二乘估计的一种方法。当不可逆时,法线方程仍然具有解,并且(通常)模型仍然具有唯一拟合,这意味着它可以做出唯一的预测。XX
ub

Answers:


21

统计程序的假设是什么?

我不是统计学家,所以这可能是错误的,但是我认为“假设”一词通常是非正式使用的,可以指各种事物。对我而言,严格地说,“假设”是只有理论结果(定理)才能具有的东西。

当人们谈论线性回归的假设时(请参阅此处进行深入讨论),他们通常指的是高斯-马尔可夫定理,该定理不相关,等方差,零均值误差的假设下,OLS估计为蓝色,即无偏且具有最小的方差。在高斯-马尔可夫定理的上下文之外,我不清楚“回归假设”的含义。

类似地,一个样本t检验的假设是指统计分布为t分布的假设,因此推论是有效的。它不被称为“定理”,但是它是一个明确的数学结果:如果n个样本呈正态分布,则t统计量将遵循具有n 1个自由度的Student t分布。ttnttn1

惩罚回归技术的假设

现在考虑使用任何正则化回归技术:岭回归,套索,弹性网,主成分回归,偏最小二乘回归等。这些方法的重点是对回归参数进行偏向估计,并希望减少期望值通过利用偏差方差权衡来实现损失。

所有这些方法都包含一个或几个正则化参数,并且它们都没有用于选择这些参数值的确定规则。最佳值通常是通过某种交叉验证程序找到的,但是存在多种交叉验证方法,它们可能会产生一些不同的结果。此外,除了交叉验证之外,调用一些其他经验法则也很常见。其结果是,实际结果β任何这些惩罚回归方法实际上并不完全由该方法定义,但可以依赖于分析师的选择。β^

因此,我不清楚怎么可以有任何理论上的最优性陈述β,而谈论的惩罚方法,如岭回归“假设”(存在或不存在物)都有道理,所以我不知道。β^

但是,岭回归总是胜过OLS的数学结果呢?

Hoerl&Kennard(1970)在“ 岭回归:非正交问题的偏估计”中证明,总是存在正则化参数的值,以使β的岭回归估计具有比OLS估计严格小的期望损失。这是一个令人惊讶的结果- 请参阅此处进行一些讨论,但这仅证明了λ的存在,它将与数据集有关。λβλ

该结果实际上不需要任何假设,并且始终是正确的,但是声称岭回归没有任何假设可能会很奇怪。

好的,但是我怎么知道是否可以应用岭回归呢?

我要说,即使我们不能谈论假设,我们也可以谈论经验法则。众所周知,在具有相关预测变量的多重回归的情况下,岭回归往往最有用。众所周知,它往往比OLS表现要好得多。即使在异方差,相关错误或其他情况下,它也往往会胜过它。因此,简单的经验法则表明,如果您具有多重共线性数据,则进行岭回归和交叉验证是个好主意。

可能还有其他有用的经验法则和交易技巧(例如,处理总体异常值)。但是它们不是假设。

pp


例如,在某个程序正在推导推理属性的情况下,无论是回归斜率的假设检验的属性还是置信区间或预测区间的属性,检验本身都将在某些条件下得出一组假设。由于到目前为止,在许多学科领域中,使用回归的最常见目的是执行某种推理(实际上,在某些应用领域中,由于任何其他原因很少这样做),因此自然会为推理过程做出假设与... ctd
Glen_b-恢复莫妮卡

ctd ...用于它们的东西。因此,如果您需要一些假设来推导t检验以测试回归系数或进行部分F检验,或者针对均值或预测区间进行CI检验,那么通常的推论形式都将得出相同或几乎相同的结果。相同的假设集合,则可以合理地将其视为与使用该事物执行推理相关的假设。如果要对岭回归进行任何推断(例如预测间隔)并进行假设,那么这些假设同样可以说是假设... ctd
Glen_b -Reinstate Monica

需要能够推导出(并且大概使用)关于岭回归的特定类型的推论。
Glen_b-恢复莫妮卡

R2

1
我希望对@amoeba表示感谢还为时不晚。好答案!
Akyves

1

我想从统计角度提供一些意见。如果Y〜N(Xb,sigma2 * In),则b ^的均方误差为

MSE(b^)=E(b^-b).T*(b^-b)=E(|b^-b|^2)=sigma2*trace(inv(X.T*X))

D(|b^-b|^2)=2*sigma4*trace((X.T*X)^(-2))

b^=inv(X.T*X)*X.T*Y

如果XT X近似为零,则inv(XT X)将非常大。因此,b的参数估计不稳定,并且可能存在以下问题。

  1. 参数估计的一些绝对值很大
  2. b具有比预期相反的正号或负号。
  3. 添加或删除变量或观察值将使参数估计值发生巨大变化。

为了使b的序数最小二乘估计稳定,我们通过估计来引入岭回归b^(k)=inv(X.T*X+kI)*X.T*Y.。我们可以证明总是有ak使得b的均方误差

MSE(b^(k)) < MSE(b^).

在机器学习中,岭回归称为L2正则化,用于解决由许多功能导致的过拟合问题。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.