收缩 vs无偏:估计量


22

关于皮尔逊相关系数总体值的两种估计量,我的头脑有些困惑。

A. Fisher(1915)表明,对于二元正态总体,经验是的负偏差估计量,尽管该偏差实际上仅对于小样本量()才是相当可观的。样本在某种意义上低估了,因为它比更接近于。(除非后者为或,否则是无偏的。)已经提出了几种几乎无偏的估计量,最好的估计可能是Olkin和Pratt(1958)[RÑ < 30 [R ρ 0 ρ 0 ± 1 - [Rρñ<30[Rρ0ρ0±1个[Rρ更正的:[R

[R无偏见的=[R[1个+1个-[R22ñ-3]

B.据说在回归中观察到高估了相应的总体R平方。或者,通过简单的回归,就是高估了。基于这一事实,我见过很多文章说,是正相关偏向于,这意味着绝对值:是从更远的比(?是说法正确)。文本说这与通过样本值高估标准偏差参数是同样的问题。有许多公式可以“调整”观察到的使其更接近人口参数Wherry's(1931)- [R 2 ρ 2 - [R[R2[R2ρ2[R[R 0 ρ - [R 2ρ[R0ρ[R2 [R调整2是最著名的(但不是最好的)。调整后的的根称为收缩[R调整2 [R

[R压缩=±1个-1个-[R2ñ-1个ñ-2

当前是两个不同的估计量。非常不同的:第一个膨胀,第二放气。如何调和他们?在哪里使用/报告,在另一个地方?ρ[R[R

特别是,“收缩”的估计量也(几乎)是无偏的,就像“无偏”的估计一样,但仅在不同的上下文中-在回归的非对称上下文中,这是真的吗?因为,在OLS回归中,我们认为一侧(预测变量)的值是固定的,因此每个样本之间都没有随机误差吗?(要补充一点,回归不需要双变量正态性。)


我想知道这是否归结为基于詹森不等式的问题。在大多数情况下,这种假设和二元正态性可能是一个错误的假设。
shadowtalker

1
另外,我对B.中问题的理解是,回归被高估了,因为可以通过添加预测变量来任意改善回归拟合。这听起来对我来说,同样的问题在A.[R2
shadowtalker

它实际上是真的,是一个正向偏置估计ρ 2为所有值ρ?对于二元正态分布,对于ρ来说似乎并非如此。[R2ρ2ρρ
NRH

偏倚是否可以朝相反的方向求估计值的平方?例如,通过更简单的估计,是否可以证明对于某些范围θ?我认为如果θ = ρ很难做到这一点,但也许可以得出一个更简单的例子。Ë[θ^-θ]<0<Ë[θ^2-θ2]θθ=ρ
安东尼

Answers:


1

关于相关性的偏倚:当样本量足够小以至于偏倚具有任何实际意义时(例如,您建议的n <30),那么偏倚可能是您最少的担心,因为不准确性非常可怕。

关于多元回归中R 2的偏差,在相同大小的独立样本中,有许多不同的调整涉及无偏总体估计与无偏估计。见尹鹏和樊旭(2001)。在多元回归中估算R 2收缩:分析方法的比较。实验教育杂志, 69,203-224。

现代回归方法还解决了回归系数以及R 2缩小的问题-例如,具有k倍交叉验证的弹性网,请参见http://web.stanford.edu/~hastie/Papers/ elasticnet.pdf


1
我不知道这是否真的回答了这个问题
shadowtalker 2015年

1

我认为答案是在简单回归和多元回归的背景下进行的。在具有一个IV和一个DV的简单回归中,R sq不会正偏,而实际情况可能会由于r负偏而被负偏。但是在具有多个可能相互关联的IV的多元回归中,R sq可能由于可能发生的任何“抑制”而正偏。因此,我认为观察到的R2高估了相应的总体R平方,但仅在多元回归中


1
R sq is not positively biased, and in-fact may be negatively biased有趣。您可以显示还是提供参考?-在双变量正态总体中,观察到的样本Rsq统计量是否可以为负偏差估计量?
ttnphns

我认为你错了。您能参考一下您的主张吗?
理查德·哈迪

抱歉,但这只是一种思想练习,所以我没有参考。
Dingus

我从上面的注释A出发,菲舍尔(Fischer)表明,在双变量正常情况下,r是rho的负偏估计。如果是这样的话,难道不是说R sq也受到负面偏见吗?
Dingus '16

也许这将有助于对话digitalcommons.unf.edu/cgi/…–
Dingus
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.