考虑以下三种现象。
斯坦因悖论:给定一些来自多元正态分布的数据,样本均值并不是真实均值的很好估计。如果将样本均值的所有坐标都缩小为零(或者如果我理解正确的话,实际上是缩小为任何值),则可以获得具有较低均方误差的估计。
注意:通常斯坦因悖论是通过仅考虑单个数据点而得出的;如果这很关键并且我上面的说法不正确,请纠正我。
Ridge回归:给定一些因变量和一些自变量,标准回归趋于过度拟合数据并导致糟糕的样本外性能。通常可以通过将缩小为零来减少过度拟合:。X β = (X ⊤ X )- 1 X ⊤ Ŷ β β = (X ⊤ X + λ 我)- 1 X ⊤ ÿ
多层次/混合模型中的随机效应:鉴于某些因变量(例如学生的身高)取决于某些类别的预测变量(例如学校ID和学生的性别),通常建议将某些预测变量视为“随机”,即假设每所学校的平均学生身高来自一些基本的正态分布。这导致将每所学校的平均身高估计值向全球平均数缩小。
我感觉所有这些都是同一“收缩”现象的各个方面,但是我不确定,当然也缺乏很好的直觉。所以我的主要问题是:这三件事之间确实存在着深深的相似性,还是仅仅是表面上的相似?这里的共同主题是什么?正确的直觉是什么?
此外,此难题的某些部分对我而言并不十分适合:
在岭回归中,不会均匀缩小。脊收缩实际上与奇异值分解有关,低方差方向的收缩更大(例如,参见《统计学习的要素》 3.4.1)。但是,James-Stein估计器只是采用样本均值并将其乘以一个比例因子。如何配合在一起?X
更新:看到詹姆斯斯坦估计不等方差和如这里关于方差系数。
样本均值在小于3的维度上是最佳的。这是否意味着当回归模型中只有一个或两个预测变量时,岭回归总是比普通最小二乘差吗?实际上,考虑到这一点,我无法想象一维的情况(即简单,非多次回归)中的脊缩将是有益的...
更新:否。请参见在什么条件下岭回归能够比普通最小二乘回归有所改善?
另一方面,样本均值在大于3的维度上总是次优的。这是否意味着即使所有预测变量都不相关(正交),超过3个预测变量,岭回归也总是比OLS好。通常,岭回归是由多重共线性和“稳定”项引起的。
更新:是的!看到与上述相同的线程。
关于是否应将ANOVA中的各种因素作为固定效应或随机效应包括在内,经常引起激烈的讨论。如果我们不以相同的逻辑,如果一个因素具有两个以上的水平(或者如果存在两个以上的因素?现在我很困惑),是否总是将一个因素视为随机因素?
更新:?
更新:我得到了一些很好的答案,但没有一个能提供足够的概括,因此我将让问题“打开”。我可以保证为新答案提供至少100点的奖励,该答案将超过现有答案。我主要是在寻找一种统一的观点,可以解释一般的收缩现象如何在这些不同的情况下表现出来,并指出它们之间的主要区别。