关于收缩的统一观点:斯坦因悖论,岭回归和混合模型中的随机效应之间有什么关系(如果有)?


64

考虑以下三种现象。

  1. 斯坦因悖论:给定一些来自多元正态分布的数据,样本均值并不是真实均值的很好估计。如果将样本均值的所有坐标都缩小为零(或者如果我理解正确的话,实际上是缩小为任何值),则可以获得具有较低均方误差的估计。Rn,n3

    注意:通常斯坦因悖论是通过仅考虑单个数据点而得出的;如果这很关键并且我上面的说法不正确,请纠正我。Rn

  2. Ridge回归:给定一些因变量和一些自变量,标准回归趋于过度拟合数据并导致糟糕的样本外性能。通常可以通过将缩小为零来减少过度拟合:。X β = XX - 1 XŶ β β = XX + λ - 1 XÿyXβ=(XX)1Xyββ=(XX+λI)1Xy

  3. 多层次/混合模型中的随机效应:鉴于某些因变量(例如学生的身高)取决于某些类别的预测变量(例如学校ID和学生的性别),通常建议将某些预测变量视为“随机”,即假设每所学校的平均学生身高来自一些基本的正态分布。这导致将每所学校的平均身高估计值向全球平均数缩小。y

我感觉所有这些都是同一“收缩”现象的各个方面,但是我不确定,当然也缺乏很好的直觉。所以我的主要问题是:这三件事之间确实存在着深深的相似性,还是仅仅是表面上的相似?这里的共同主题是什么?正确的直觉是什么?

此外,此难题的某些部分对我而言并不十分适合:

  • 在岭回归中,不会均匀缩小。脊收缩实际上与奇异值分解有关,低方差方向的收缩更大(例如参见《统计学习的要素》 3.4.1)。但是,James-Stein估计器只是采用样本均值并将其乘以一个比例因子。如何配合在一起?XβX

    更新:看到詹姆斯斯坦估计不等方差如这里关于方差系数。β

  • 样本均值在小于3的维度上是最佳的。这是否意味着当回归模型中只有一个或两个预测变量时,岭回归总是比普通最小二乘差吗?实际上,考虑到这一点,我无法想象一维的情况(即简单,非多次回归)中的脊缩将是有益的...

    更新:否。请参见在什么条件下岭回归能够比普通最小二乘回归有所改善?

  • 另一方面,样本均值在大于3的维度上总是次优的。这是否意味着即使所有预测变量都不相关(正交),超过3个预测变量,岭回归也总是比OLS好。通常,岭回归是由多重共线性和“稳定”项引起的。(XX)1

    更新:是的!看到与上述相同的线程。

  • 关于是否应将ANOVA中的各种因素作为固定效应或随机效应包括在内,经常引起激烈的讨论。如果我们不以相同的逻辑,如果一个因素具有两个以上的水平(或者如果存在两个以上的因素?现在我很困惑),是否总是将一个因素视为随机因素?

    更新:


更新:我得到了一些很好的答案,但没有一个能提供足够的概括,因此我将让问题“打开”。我可以保证为新答案提供至少100点的奖励,该答案将超过现有答案。我主要是在寻找一种统一的观点,可以解释一般的收缩现象如何在这些不同的情况下表现出来,并指出它们之间的主要区别。


我的理解是,岭回归(及其表亲,例如套索和弹性网)缩小了回归中所有观测值(例如,学生的社会经济地位和GPA)所共享的相关变量的系数,而随机效应模型则缩小了相互排斥的级别或相关观察值组(例如按学校ID分组的学生的学生的社会经济地位)。
罗伯特·F,2014年

3
我认为获得统一答案的最佳位置是查看关键字BLUP(用于最佳线性无偏预测器),尤其是。在动物育种文献中。例如,参见《统计科学》中罗宾逊的调查。或Marvin Gruber的书
西安

2
@西安:非常感谢,我本人已经找到了格鲁伯的书,尽管他当然也讨论了詹姆斯·斯坦因和里奇的回归问题,但我并没有立即发现两者的直接对比(读整本书是现在不是我的选择...)。感谢您与Robinson调查的链接,我来看一下;动物繁殖!谁曾想到。顺便说一句,我已经看到了您对相关主题的评论,并且猜想您可能是可以在此处实际提供满意答案的人之一!太好了;到目前为止,没有答案让我满意。
amoeba 2014年

2
@西安:嗯,您在下面的有用评论确实使我错过了您的答复。无论如何,我开始阅读鲁滨逊,并意识到“最佳线性无偏预测器”是一个有偏估计器(显然,因为它实现了收缩)!多么好的术语。
amoeba 2014年

4
他们擅长在动物育种领域:1992年Casella&George“儿童用小臂”必须更改标题才能发表后,Wang&Gianola于1993年在欧洲动物生产协会会议上写了“猪的小臂”简介!
西安

Answers:


30

James–Stein估计量与岭回归之间的联系

令为长度的观测向量,,James-Stein估计量为 在岭回归方面,我们可以估算经由 其中的解决方案是 不难发现,两个估计量的形式相同,但是我们需要估计yθmyN(θ,σ2I)

θ^JS=(1(m2)σ2y2)y.
θminθyθ2+λθ2,
θ^ridge=11+λy.
σ2James-Stein估计器中的,并通过交叉验证确定岭回归中的。λ

James–Stein估计量与随机效应模型之间的联系

让我们首先讨论遗传学中的混合/随机效应模型。该模型为 如果没有固定效果并且,则模型变为 与James-Stein估计量的设置等效,贝叶斯思想。

y=Xβ+Zθ+e,θN(0,σθ2I),eN(0,σ2I).
Z=I
y=θ+e,θN(0,σθ2I),eN(0,σ2I),

随机效应模型与岭回归之间的联系

如果我们关注上面的随机效应模型, 该估计等效于解决问题 时。该证明可以在模式识别和机器学习的第3章中找到。

y=Zθ+e,θN(0,σθ2I),eN(0,σ2I).
minθyZθ2+λθ2
λ=σ2/σθ2

(多级)随机效应模型与遗传模型之间的联系

在上面的随机效应模型,的尺寸是和的是。如果我们将化为并相应地重复,那么我们将具有分层/集群结构,簇,每个簇具有单位。如果我们在重复的上对进行回归,则可以得到对每个聚类的的随机影响,尽管它有点像反向回归。ym×1,Zm×pZ(mp)×1,ypmvec(Z)yZy


确认:前三个点主要来自这两个中国的文章,了解到12


(+1)非常感谢!这是非常有帮助的,我一定会在Bishop的教科书中找到它,我很了解并且经常查阅。我没想到在那里会在混合模型上找到任何东西,但是看起来第3.3节“贝叶斯线性回归”实际上就是关于此的,只是使用了不同的术语。很高兴知道!但是您对我的子弹问题有何看法?
变形虫

帖子中有太多问题。:) 1)正如我在上面回答的那样,当没有协变量或仅存在一个单位矩阵时,James-Stein估计量和岭回归等价。2,3,4)就像@James提到的那样,预测变量的数量(上面的)不一定等于响应维。Xpm
Randel 2014年

顺便说一句,我看不到James-Stein估计量中使用样本平均值/均值,它实际上采用了估计量,然后将其缩小为。y0
Randel 2014年

2
JS估计量和岭回归不同。p向量的维位置的岭回归估计对应于设计矩阵,这将导致估计,它缺少JS估计量的分母中的(非线性!)项pIp(1+λ)1Ipyy2
Andrew M

3
我认为这全都取决于您所说的“岭估计”。在早期的Hoerl和Kennard(1970)的意义上,确实没有依赖于数据。在后来的Casella博士论文(1978)中,手动确定被残差平方和的函数所代替。λλ
西安

6

我将把它留给社区来充实这个答案的练习,但是总的来说,在有限样本中收缩估计量将*占优势*无偏估计量的原因是因为贝叶斯估计量不能被统治,许多收缩估计值可以推导出为贝叶斯。1234

所有这些都属于决策理论的支持。莱曼(Lehmann)和卡塞拉(Casella)提出的“点估计理论”是详尽无遗但不友好的参考。也许其他人可以通过更友好的引用来吸引别人?


1的估计器的参数上的数据被支配由另一估计器,如果为每个的风险(例如,均方误差)等于或大于,并且击败至少一个。换句话说,您在参数空间中的所有都可获得相等或更好的性能。δ1(X)θΩXδ2(X)θΩδ1δ2δ2δ1θδ2

2如果给定数据,则在某个先验下,如果它是的后验期望,则估计量为贝叶斯(无论如何在平方误差损失下),例如,其中期望值是后验的。自然,不同的先验对不同子集会导致不同的风险。一个重要的玩具的例子是现有 在于将所有现有关于点的质量。然后您可以证明贝叶斯估计量是常数函数θπδ(X)=E(θ|X)Ω

πθ0={1if θ=θ00θθ0
θ0δ(X)=θ0,当然在处及附近具有极佳的性能,而在其他位置则具有非常差的性能。但是,尽管如此,它仍然不能被支配,因为只有那个估计量会导致风险为零。θ0θ0

3一个自然的问题是,贝叶斯是否需要一个无法支配的估计量(称为可受理的,尽管不屈不挠会更时髦?)。答案差不多。请参阅“完全类定理”。

4例如,当在上放置法线(0,1)时,岭回归作为贝叶斯过程出现而随机效应模型在类似框架中作为经验贝叶斯过程出现。贝叶斯可容许性定理的原始版本假设每个参数都有适当的先验先验,从而使这些论点变得复杂。即使在岭回归中,也不是真的,因为“先验”放在方差1/λ2βσ2误差项的常数是常数函数(Lebesgue测度),它不是适当的(可积分)概率分布。但是,尽管如此,通过证明它们是适当的贝叶斯估计序列序列的“极限”,可以证明许多此类“部分”贝叶斯估计器是可接受的。但是这里的证明变得相当复杂和微妙。请参见“广义贝叶斯估计器”。


1
非常感谢,非常有趣(+1)。我只希望您的回答更加详细...关于您的脚注(3):您是说所有贝叶斯估计量都是可以接受的/不可相信的(我喜欢这个词),与先前无关吗?但是James-Stein估计量可以根据经验贝叶斯得出。那为什么不可接受呢?另外,这意味着例如在岭回归中,我可以先取一个集中度,而不是在零附近,而可以在其他一些值附近:,它将仍然是合理的正则化策略?βN(β0,1/λ2)
变形虫

2
由于James-Stein估计量不可取的原因,您可以在此处找到答案。在Lehmann&Casella(1998)的“点估计理论”中也进行了详细而有趣的讨论。
Randel 2014年

@Randel:是的,我知道这是不可接受的,并且已经看到了这种推理,我只是想知道这与安德鲁关于所有贝叶斯估计量都是可以接受的说法(如果我正确理解)相符的原因,因为可以通过经验主义来理解詹姆斯·斯坦因贝叶斯...
变形虫

2
@Amoeba:是的,任何在任何适当先验条件下的后验的贝叶斯估计器都可以得到一个可接受的估计器。就经验贝叶斯而言,这样的过程实际上并不是真正的贝叶斯,因为先验依赖于数据会导致疾病。有时可以证明它们是可以接受的,有时却不能被接受-通常情况下,您必须逐案进行工作。在这一点上,我对答案进行了修改,以使其更加笼统,因为实际上我不知道经典线性混合模型是否可以接受!
安德鲁M

3
只需指出,真正的正确贝叶斯估计器很少像James-Stein估计器那样工作,因为它们不是极小极大值。比尔·斯特劳德曼(Bill Strawderman)例如(在1975年)证明,对于通常的均值均值问题,没有最小极大值适当的贝叶斯估计器的尺寸小于5。
西安

2
  • James-Stein假定响应的维数至少为3。在标准岭回归中,响应为一维。您正在将预测变量的数量与响应维度混淆。

  • 话虽如此,我看到了这些情况之间的相似性,但是究竟该怎么做,例如某个因素应该是固定的还是随机的,要应用多少缩减量(如果有的话)取决于特定的数据集。例如,预测变量越正交,则选择Ridge回归而不是标准回归就越没有意义。参数的数量越多,通过经验贝叶斯从数据集本身中提取先验,然后将其用于缩小参数估计值就越有意义。信噪比越高,收缩等的好处越小。


谢谢你的回答。关于您的第一个要点:是在岭回归中缩小的部分,它具有与预测变量一样多的维度,不是吗?β
变形虫

1
好的,那么从理论上讲,JS应该更好地工作,假设它已扩展到估计MSE且beta的方差-协方差矩阵是任意的情况。在这种情况下,JS不仅会获取beta的点估计值,还要乘以比例因子。与Ridge回归类似,β的不同组成部分将以不同的方式缩小。
詹姆斯

关于协方差矩阵非常重要!我猜这(至少在直觉上)回答了我的第一句话。β
变形虫

2
@James:可以考虑使用线性模型将样本(位于)投影到维子空间(由设计矩阵跨越的列)。特别是,我们总是可以将其简单地投影到恒等式上与只有一个观察值时使用向量的样本均值相同。Rnpn
Andrew M

2

正如其他人所说,这三者之间的联系是如何将先验信息整合到度量中。

  1. 在斯坦因悖论的情况下,您知道输入变量之间的真实相关性应该为零(所有可能的相关性度量,因为您想暗示独立性,而不仅仅是不相关性),因此您可以构造一个比简单变量更好的变量。抽样均值并抑制各种相关度量。在贝叶斯框架中,您可以构造一个先验的方法,该方法可以按字面量权重导致导致样本均值之间相关的事件,而可以权重其他事件。
  2. 在进行岭回归的情况下,您希望为条件期望值E(y | x)找到一个好的估计。原则上,这是一个无穷大的问题,并且定义不明确,因为我们只有有限数量的测量值。但是,先验知识是我们正在寻找一种对数据建模的连续函数。这仍然是个不明确的定义,因为仍然有很多方法可以对连续函数进行建模,但是集合要小一些。岭回归只是一种简单的方法,可以对可能的连续函数进行排序,对其进行测试并最终达到自由度。一种解释是VC尺寸图:在岭回归期间,您检查具有给定自由度的af(x,p1,p2 ...)模型描述数据固有的不确定性的程度。实际上,它测量f(x,p1,p2 ... )和经验P(p1,p2 ...)可以重建完整的P(y | x)分布,而不仅仅是E(y | x)。这样一来,自由度太多(通常过拟合)的模型就被权衡了,因为在一定自由度之后更多的参数均值将在参数之间提供更大的相关性,从而使P(f(x,p1,p2)更宽。 ..))分布。另一种解释是,原始损失函数也是一个测量值,并且对给定样本的评估带有不确定性,因此实际任务不是使损失函数最小化,而是要找到一个明显低于损失函数的最小值。其他(实际上从一个自由度更改为另一个自由度是贝叶斯决策,因此只有在参数显着降低损失函数的情况下,才更改参数的数量)。脊回归可以解释为这两个图片的近似值(CV尺寸,预期损失)。在某些情况下,您希望获得更高的自由度,例如,在粒子物理学中研究粒子碰撞时,您期望粒子产生的数量为泊松分布,因此可以从图像(例如照片)上重建粒子轨迹。 ),它会偏爱给定数量的轨道,并且会抑制图像的轨道号解释较小或较高的模型。
  3. 第三种情况还试图将先验信息引入测量中,即从以前的测量中得知,学生的身高可以很好地通过高斯分布而不是通过柯西模型进行建模。

简而言之,答案是,如果您知道期望值并将数据与一些先前的数据(先前的信息)进行分类,则可以缩小测量的不确定性。先前的数据限制了用于拟合测量的建模功能。在简单的情况下,您可以在贝叶斯框架中写下模型,但有时是不切实际的,例如将所有可能的continuos函数集成在一起以找到具有贝叶斯Maximum A Posterior值的函数。


2

James Stein估计量和Ridge回归

考虑

y=Xβ+ϵ

使用 ϵN(0,σ2I)

最小二乘解的形式为

β^=S1Xy 其中。S=XX

β^是无偏的用于,并且具有covriance矩阵。因此我们可以写βσ2S1

β^N(β,σ2S1) 请注意,是最大似然估计MLE。β^

詹姆斯·斯坦

为了简单起见对于詹姆斯斯坦我们假设。然后,James和Stein将在形式的上添加一个preS=Iβ

βN(0,aI)

并且将得到的形式的后 ,他们然后将用 估计并得到以下形式的James Stein估计量aa+σ2β^=(1σ2a+σ2)β^1a+σ2p2β^2

β^=(1p2β^2)β^

岭回归

在岭回归中,通常是标准的(平均数,每一列的平均值为1 ),因此回归参数是可比的。当对于为。XXβ=(β1,β2,,βp)Sii=1i=1,2,,p

岭回归估计值定义为为βλ0

β^(λ)=(S+λI)1Xy=(S+λI)1Sβ^请注意,是MLE。β^

是如何派生的?召回β^(λ)

β^N(β^,σ2S1),如果我们添加贝叶斯先验

βN(0,σ2λI)

然后我们得到

E(β|β^)=(S+λI)1Sβ^

与ridge回归估计。因此,此处给出的James Stein的原始形式采用和。β^(λ)S=Ia=σ2λ

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.