线性回归时,你只知道


13

假设。Xβ=Y

我们地知道,只知道它与每个预测变量。YXtY

普通的最小二乘(OLS)解决方案是,这没有问题。β=(XtX)1XtY

但是,假设接近奇异(多重共线性),那么您需要估计最佳的岭参数。所有方法似乎都需要的确切值。XtXY

当仅知道时,是否有其他方法?XtY


有趣的问题。也许某种形式的EM算法会起作用...
概率

我不明白,您是否可以使用交叉验证来估算最佳岭参数?
Pardis 2012年

@Pardis:问题中没有给出损失函数,因此我们不知道最优方法是什么。如果损失函数是MSE,您能看到我们遇到的麻烦吗?
红衣主教

1
@JohnSmith:您暗示了我的意思。没有迹象表明如何衡量“最优性”。您实际上正在做的是引入一个不同的度量标准(距离函数)来度量预测或拟合的“质量”。我怀疑,我们需要OP的更多细节才能走得更远。
主教

1
@Pardis:正如您所指出的,找到估算值不是问题。:)但是,如果您决定进行交叉验证,那么您将如何估计样本外MSE,即在每次迭代的左侧折叠中?:)
红衣主教2012年

Answers:


8

这是个有趣的问题。出乎意料的是,可以在某些假设下做某事,但是可能会丢失有关残差的信息。它取决于损失了多少。X

让我们考虑以下奇异值分解,其中和为矩阵与正交列,为对角矩阵,其正值为在对角线和 a正交矩阵中。然后,列构成的列空间的正交基础,并且 是在该列空间中展开时在该列空间上的投影的系数向量。 X ù Ñ × p d d 1d 2d p > 0 V p × p Ù X Ž = Ù Ŷ = d - 1个 V V d Ù Ŷ = d - 1个 V X ÿ ÿX=UDVtXUn×pDd1d2...dp>0Vp×pUX

Z=UtY=D1VtVDUtY=D1VtXtY
Yž XU列基础。从公式中可以看出,仅可根据和知识进行计算。ZXXtY

由于给定的岭回归预测因子可以计算为 我们看到在列基础上 岭回归预测因子的系数为 现在我们进行分布假设,即具有维均值和协方差矩阵。那么具有维平均和协方差矩阵。如果我们想象一个独立的ÿ = X X X + λ - 1 X Ŷ = û d d 2 + λ - 1 d Ù Ŷ = û d d 2 + λ - 1 d ž ù ž = d d 2 + λ -λ

Y^=X(XtX+λI)1XtY=UD(D2+λI)1DUtY=UD(D2+λI)1DZ
UÿÑξ σ 2 Ñ Žp ü ξ σ 2 p ý ýX Ž = û ý ž Ë | | Ÿ - ÿ | | 2
Z^=D(D2+λI)1DZ.
Ynξσ2InZpUtξσ2IpYNew具有与相同的分布的(从此以后所有条件都存在于),相应的具有相同的分布分布为并且是独立的,并且 在这里,第三个等式之后是和的正交性第四点是YXZNew=UtYNewZ
E||YNewY^||2=E||YNewUZNew+UZNewUZ^||2=E||YNewUZNew||2+E||UZNewUZ^||2=Err0+E||ZNewZ^||2.
YNewUZNewUZNewUZ^U具有正交列。数量是一个错误,我们无法获取有关的任何信息,但也不依赖于。为了最小化左侧的预测误差,我们必须最小化右侧的第二项。Err0λ

通过标准计算 在这里,被称为使用参数进行岭回归的有效自由度。的无偏估计是

E||ZNewZ^||2=E||ZZ^||2+2i=1pcov(Zi,Z^i)=E||ZZ^||2+2σ2i=1pdi2di2+λdf(λ).
df(λ)λE||ZZ^||2
err(λ)=||ZZ^||2=i=1p(1di2di2+λ)2Zi2.

我们将其与的(无偏)估计量 结合起来因为我们知道,然后需要将其最小化。显然,这只能如果我们知道做,或在一个合理的猜测或估计的。

err(λ)+2σ2df(λ)
E||ZNewZ^||2σ2σ2σ2

估计可能会有更多问题。可能表明 因此,如果可以选择很小的使得平方偏差可以忽略,我们可以尝试将估计为 这是否会工作,取决于很多。σ2

E||ZZ^||2=σ2(pi=1pdi2di2+λ(2di2di2+λ)d(λ))+bias(λ)2.
λσ2
σ^2=1pd(λ)||ZZ^||2.
X

有关某些详细信息,请参见ESL中的 3.4.1节和第7章,或者GAM中可能更好的第2章。


0

定义如问题和关于各种参数和套样品标签。然后是可计算的,因为未知的在展开两者时都消失了规范。ββ(λ,K)=[(XTX)KK+λI]1(XTY)KλKe(λ,K):=Xβ(λ,K)Y2XβY2Y2

这导致以下算法:

  • 为训练集某些选择计算。Ke(λ,K)K
  • 将结果绘制为的函数。λ
  • 接受情节最平坦的值。λ
  • 使用作为最终估计。β=[XTX+λI]1XTY

1
我猜“情节最平坦的地方”将位于很小,大约为0 :)λ
jbowman 2012年

@jbowman:仅当问题条件良好且不需要正则化时,才会发生这种情况,那么确实足够。在病态的情况下,由于过度拟合,对之外的项的预测将很差,因此将很大。K e λ K λ=0Ke(λ,K)
阿诺德·诺伊迈耶

3
@ArnoldNeumaier:无法计算。我们只知道与每个预测变量的相关性。在“预测变量域”中,而不在“ Y域”中(如果N是样本量,p是预测变量数,则我们只有p值,每个预测变量一个)。X T Y (XTY)K(XTY)
Jag 2012年

@Jag:那么没有足够的信息来选择。但是一定是以某种方式收集的。如果在收集样品时将样品分成批,并为每批分别组装,则每个人可以保留一个批以进行交叉验证。X Ť ý ķ X Ť ÿλXTYkXTY
Arnold Neumaier 2012年

@ArnoldNeumaier:是外部提供的,不收集。XTY
Jag 2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.